Sirvi Autor "Sirts, Kairit, juhendaja" järgi
Nüüd näidatakse 1 - 18 18
- Tulemused lehekülje kohta
- Sorteerimisvalikud
listelement.badge.dso-type Kirje , Automaatse lausestamise ja sõnestamise hindamine uue meedia keele korpusel(Tartu Ülikool, 2020) Peekman, Kairit; Sirts, Kairit, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutVeebis leidub palju tekste, mis ei ole ortograafiliselt korrektsed (nt foorumite sissekanded, inimestevaheline suhtlus kommentaarides, jututubades jm). See on nn uue meedia keel ehk internetikeel. Bakalaureusetöös vastatakse küsimusele, kui hästi töötavad kolm tekstitöötlusvahendit (EstNLTK, UDPipe ja StanfordNLP) uue meedia keele teksti lausestamisel ja sõnestamisel. EstNTLK sõnestab reeglipõhiselt ja lausestab mudelipõhiselt reeglipõhise järelkontrolliga, UDPipe’il ja StanfordNLP-l on sõnestamiseks ja lausestamiseks eeltreenitud eesti keele mudelid. Kõigil kolmel on uue meedia keele tekstide lausestamisel veel arenguruumi, kuid EstNLTK ja StanfordNLP tulemused olid paremad kui UDPipe’il. Sõnestamise tulemused erinesid vähem ja olid üldiselt head, sest F-skoor oli üle 95%.listelement.badge.dso-type Kirje , Automated cognitive distortion de-tection and classification of Reddit posts using machine learning(Tartu Ülikool, 2021) Sochynskyi, Stanislav; Sirts, Kairit, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutA vicious circle of exaggerated thinking patterns, also known as cognitive distortions, can lead a person to anxiety and major depression. Automatic detection and classification of cognitive distortions can be beneficial for the initial mental health screening, the better use of counselling time, and improve accessibility of mental healthcare services. In this work, we apply logistic regression, Support Vector Machines (SVM), and fasttext classifiers to identify cognitive distortions in the real-world data from Reddit. For binary classification, the best F-score of 0.71 with the fasttext classifier. For multiclass classification task, the best F-score of 0.23 was achieved with Support Vector Machine (SVM) using tf-idf vectorisation. However, the metrics of some classes do not exceed the random chance baseline. A possible explanation is that the created dataset is sufficient to build a binary classifier, but more accurate models require more data to distinguish a larger number of classes. Addition-ally, we experimented with unsupervised clustering and topic modelling algorithms and did not find evidence that unsupervised methods could extract the patterns of cognitive distortions from a text. We developed an annotation guideline for manual annotation of cognitive distortions and applied it to annotate 2021 Reddit posts. We achieved kappa's score of 0.569 for binary case and 0.424 for multiclass case annotation, meaning moderate agreement be-tween annotators. A higher number of classes leads to poorer consistency in annotation agreement, mainly due to overlapping definitions of cognitive distortions. Consequently, any automated methods cannot be expected to show high results in cognitive distortion classification.listelement.badge.dso-type Kirje , Beyond genres: a dimensional text model for text classification(2024-11-28) Vaik, Kristiina; Muischnek, Kadri, juhendaja; Sirts, Kairit, juhendaja; Tartu Ülikool. Humanitaarteaduste ja kunstide valdkondInterneti võidukäik on suurendanud elektrooniliste tekstide hulka, mis on olnud murranguline mitmete teadusvaldkondade jaoks. Suured veebitekstide korpused on justkui ajakapslid, mis on jäädvustanud meie pidevalt muutuvad keelt. Veebikorpused pakuvad rikkalikku keelematerjali, kuid meil pole selget ülevaadet nende sisust. Kas tegemist on juhusliku sõpradevahelise vestluse või ametliku dokumendiga või hoopis millegi muuga? Veebikorpuste liigitamine on justkui püüd kategoriseerida kõiki raamatuid hiiglaslikus raamatukogus, teadmata, milline on raamatute sisu. Osa keeleuurijaid kasutavad liigitusalusena laiasid kategooriad, nagu ajakirjandus või ilukirjandus; samas on ka neid, kes teevad kitsamat eristamist, näiteks jagavad ajakirjanduse kategooria eraldi arvamusteks ja spordiuudisteks. Aastate jooksul on loodud palju erinevaid liigitusi, kuid neil kõigil on üks ühine joon: annoteerijate vähene üksmeel. See tekitab küsimuse, kuidas me saame oodata häid tulemusi masinatelt, kui isegi inimesed ei suuda kokku leppida, mis liiki kirjutisega on tegu? Selleks, et veebikorpuseid maksimaalselt ära kasutada, vajame etemat liigitusalust. Minu doktoritöö eesmärk on esitada alternatiivne viis veebitekstide kategoriseerimiseks. Selmet suruda tekste kindlatesse kategooriatesse (nagu aja- või ilukirjandus), vaatlen hoopis tekstides peituvaid omadusi, mida nimetan dimensioonideks. Näiteks vaatlen, kas tekst on ametlik või spontaanne, faktiline või arvamuslik, keeruline või lihtne, või kas see räägib abstraktsetest või konkreetsetest nähtustest? Eesmärk on uurida, kas minu pakutud dimensioonid ja raamistik on inimeste jaoks äratuntavad. Kui jah, siis tuvastada, kas ja kuidas pakutud dimensioonid üksteisest erinevad. Leidsin, et annoteerijad saavutasid väljapakutud dimensioonide seas enamjaolt üksmeele, mis viitab dimensioonide selgetele kommunikatiivsetele funktsioonidele, ja et igal dimensioonil on ainulaadne koosesinevate keeleliste tunnuste muster. Tulemused joonduvad suuremas jaos ka juba varasemate uurimustega, kus peamise eristusena saab välja tuua vastanduse kirjaliku kõnekeele (spontaanne, isiklik, subjektiivne) ja standardsema kirjakeele (rohkem planeeritud, formaalne, informatiivne) vahel. Ülejäänud dimensionid langevad kuhugi vahepeale või sisaldavad vaid neile ainulaadseid eripärasid. Mõistmine, kuidas need dimensioonid ja nende keelelised mustrid omavahel on seotud, loob tugevad eeldused tulevastele uurimustöödele, mille eesmärk on aidata kaasa veebikorpustes peituvate struktuuride uurimisele ja liigitamisele.listelement.badge.dso-type Kirje , Estimation of depression level from text: symptom-based approach, external knowledge, dataset validity(Tartu Ülikooli Kirjastus, 2024-11-26) Milintsevich, Kirill; Sirts, Kairit, juhendaja; Dias, Gaël, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Caen Normandia ülikoolDepressioon on üks levinumaid vaimse tervise häireid kogu maailmas, mis võib põhjustada funktsioneerimise langust ja suurendada suitsiidiriski. Hiljutine COVID-19 pandeemia on tõstnud depressiooni sagedust kogu maailmas. Lisaks takistavad stigma ja piiratud juurdepääs ravile paljudel inimestel õige diagnoosi saamist ja ravi. Varasemad uuringud on leidnud, et depressioonis inimeste sõnavara erineb ilma depressioonita inimeste omast. Näiteks kalduvad depressioonis inimesed kasutama rohkem negatiivseid või emotsionaalseid sõnu. Viimasel ajal on välja töötatud tehisnärvivõrgumudeleid, mis suudavad teksti alusel depressiooni esinemist tuvastada. Siiski on enamik teadlasi käsitlenud depressiooni tuvastamist lihtsa klassifitseerimisülesandena, kus on ainult kaks võimalikku väljundit: kas on depressioon või mitte. Samas võivad kahel depressioonis inimesel ilmneda erinevad sümptomid. Näiteks ühel inimesel võib esineda unetus ja keskendumisraskused, samas kui teine võib kannatada isumuutuste ja madala enesehinnangu all. Need inimesed vajaksid erinevat ravi, mistõttu on info sümptomite kohta hädavajalik. Käesolevas töös arendati välja tehisnärvivõrgumudel, mis ennustab depressiooni sümptomeid teksti alusel. Tulemused näitasid, et sümptomite alusel depressiooni ennustamine andis paremaid tulemusi kui lihtne ainult diagnostilist staatust ennustav klassifitseerija, andes samal ajal ka üksikasjalikumat infot. Ennustustulemusi parandas veelgi meelsus- ja emotsioonileksikonidest pärit välise info mudelisse lisamine. Selleks kasutati lihtsat, kuid tõhusat lähenemist, mis märgib ära leksikonides esinevad sõnad tekstis. Lisaks, töötades sotsiaalmeedia päritolu andmestikuga selgusid probleemid sümptomite märgenduste kvaliteediga. Seetõttu märgendati osa sellest andmestikust uuesti vaimse tervise spetsialisti abiga, näidates sümptomite kliiniliste definitsioonide järgmise ja selgete märgendamisjuhiste rakendamise olulisust.listelement.badge.dso-type Kirje , Extracting information from app reviews to facilitate software development activities(2020-01-14) Shah, Faiz Ali; Pfahl, Dietmar Alfred Paul Kurt, juhendaja; Sirts, Kairit, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondKasutajate vajaduste ja ootuste hindamine on arendajate jaoks oluline oma tarkvararakenduste kvaliteedi parandamiseks. Mobiilirakenduste platvormidele sisestatud arvustused on kasulikuks infoallikaks kasutajate pidevalt muutuvate vajaduste hindamiseks. Igapäevaselt rakenduste platvormidele esitatud arvustuste suur maht nõuab aga automaatseid meetodeid neist kasuliku info leidmiseks. Arvustuste automaatseks liigitamiseks, nt veateatis või uue funktsionaalsuse küsimine, saab kasutada teksti klassifitseerimismudeleid. Rakenduse funktsioonide automaatne kaevandamine arvustustest aitab teha kokkuvõtteid kasutajate meelsusest rakenduse olemasolevate funktsioonide osas. Kõigepealt eksperimenteerime erinevate tekstiklassifitseerimise mudelitega ning võrdleme lihtsaid, leksikaalseid tunnuseid kasutavaid mudeleid keerukamatega, mis kasutavad rikkalikke lingvistilisi tunnuseid või mis põhinevad tehisnärvivõrkudel. Erinevate faktorite mõju uurimiseks funktsioonide kaevandamise meetoditele me teeme kõigepealt kindlaks erinevate meetodite baastaseme täpsuse rakendades neid samades eksperimentaalsetes tingimustes. Seejärel võrdleme neid meetodeid erinevates tingimustes, varieerides treenimiseks kasutatud annoteeritud andmestikke ning hindamismeetodeid. Kuna juhendatud masinõppel baseeruvad kaevandamismeetodid on võrreldes reeglipõhistega tundlikumad (1) andmete märgendamisel kasutatud annoteerimisjuhistele ning (2) märgendatatud andmestiku suurusele, siis uurisime nende faktorite mõju juhendatud masinõppe kontekstis ja pakkusime välja uued annoteerimisjuhised, mis võivad aidata funktsioonide kaevandamise täpsust parandada. Käesoleva doktoritöö projekti tulemusel valmis ka kontseptuaalne tööriist, mis võimaldab konkureerivaid rakendusi omavahel võrrelda. Tööriist kombineerib arvustuse tekstide klassifitseerimise ja rakenduse funktsioonide kaevandamise meetodid. Tööriista hinnanud kümme tarkvaraarendajat leidsid, et sellest võib olla kasu rakenduse kvaliteedi parandamisellistelement.badge.dso-type Kirje , Kindlustusettevõtte kõnede automaatne transkriptsioon ja sentimendi analüüs(Tartu Ülikool, 2025) Lehtsalu, Kevin; Sirts, Kairit, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutAutomatic call transcription and analysis is a rapidly developing field within natural language processing, enabling organizations to extract valuable information from unstructured audio data. This master’s thesis explores how such solutions could be applied in the insurance domain, where recorded customer calls contain important insights into client needs, service quality, and internal processes. Although tools for automatic processing exist, they have not been systematically implemented in the organization under study - the content of calls has so far been assessed manually. In the first part of the thesis, various automatic transcription models (Whisper, Kaldi, and Wav2Vec 2.0) are tested to determine which performs best for processing insurance related calls in Estonian. The models are evaluated in terms of transcription accuracy and technical applicability, taking into account the specific challenges of low resource languages, such as morphological complexity and limited training data. The second part focuses on sentiment analysis based on the transcribed texts. Both lexicon based and machine learning based methods are compared to assess their ability to detect customers emotional stance or satisfaction. Such information is valuable for improving customer experience and gathering meaningful feedback. Based on the results, the thesis provides recommendations for selecting the most suitable transcription model and assesses under which conditions automatic sentiment detection may offer added value. As a next step, the organization could consider developing a prototype based on automatic analysis to support content-based processing of call recordings and improve both service quality monitoring and data management.listelement.badge.dso-type Kirje , Lexicon-Enhanced Neural Lemmatization for Estonian(Tartu Ülikool, 2020) Milintsevich, Kirill; Sirts, Kairit, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutThe problem of lemmatization, i.e. recovering the normal, or dictionary form of a word from the text, is one of the crucial parts of the natural language processing applications. It is important for the text preprocessing which is the step of cleaning and preparing the data for the use in NLP models and algorithms. This step can greatly improve the performance of a model if done correctly or, on the other hand, drastically reduce the quality of the output if neglected. Nowadays, neural networks dominate in the field of NLP as well as in the problem of lemmatization. Most of the recent papers boast to achieve 95-96% accuracy but there is still plenty of room for improvement. As with most of the neural network architectures, the lack of training data can be a huge drawback during the process of model creation. There exist many smaller languages that cannot afford to have large annotated datasets. The Estonian language, being somewhat in the middle in terms of its data size, can benefit from additional data. In this thesis, we propose a novel approach for lemmatization. In addition to the regular input, the lemmatization model takes the predictions either from another, weaker rule-based lemmatizer or uses the lexicon build from the training data to enhance the lemma prediction. With the combination of several attention layers, the model manages to choose the best from two inputs and produce more accurate lemmas.listelement.badge.dso-type Kirje , Optical Character Recognition of Estonian Fraktur(Tartu Ülikool, 2025) Väli, Mattias; Dorkin, Aleksei, juhendaja; Sirts, Kairit, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutThe DIGAR portal of the National Library of Estonia hosts a diverse collection of historical Estonian newspapers. This publicly accessible dataset provides valuable resources for historians and other researchers, supporting a wide range of scholarly inquiries. For example, it can be used to investigate contemporary public opinion, trace the activities of individuals, and document historical locations. The National Library of Estonia’s Digilab also supplies machine-recognized text; however, recognition accuracy is often limited, particularly for older newspapers and publications printed in Fraktur script. This study focuses on newspapers published prior to 1944, many of which are regional titles characterized by lower print quality and more limited circulation. The primary objective is to enhance the accuracy of existing machine-recognized text corpora by leveraging state-of-the-art text recognition technologies. Specifically, the project employs advanced models from the Qwen2.5-VL family alongside the Transkribus platform. The proposed framework enables efficient and traceable local processing of data retrieved from the digital archive with predefined storage architecture. The resulting cleaned datasets are prepared for downstream processing on other platforms, and accompanying code is provided to facilitate model training. The data, models, and the associated code base are freely available in Huggingface, Transkribus and Github.listelement.badge.dso-type Kirje , Parameter-efficient fine-tuning in reading comprehension(Tartu Ülikool, 2023) Abdumalikov, Rustam; Kementchedjhieva, Yova, juhendaja; Sirts, Kairit, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutQuestion Answering is an important task in Natural Language Processing. There are different approaches to answering questions, such as using the knowledge learned during pre-training or extracting an answer from a given context, which is commonly known as reading comprehension. One problem with the knowledge learned during pre-trained is that it can become outdated because we train it only once. Instead of replacing outdated information in the model, an alternative approach is to add updated information to the model input. However, there is a risk that the model may rely too much on its memorized knowledge and ignore new information, which can cause errors. Our study aims to analyze whether parameter-efficient fine-tuning methods would improve the model’s ability to handle new information. We assess the effectiveness of these techniques in comparison to traditional fine-tuning for reading comprehension on an augmented NaturalQuestions dataset. Our findings indicate that parameter-efficient fine-tuning leads to a marginal improvement in performance compared to fine-tuning. Furthermore, we observed that data augmentations contributed the most substantial performance enhancements.listelement.badge.dso-type Kirje , Predicting Cognitive Distortions from Reddit Posts by Using Supervised Machine Learning Methods(Tartu Ülikool, 2022) Grents, Linda Katariina; Sirts, Kairit, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutImportance of mental health has gained great attention in modern societies. People have become more open about discussing their thoughts with the public, especially online. One platform that people are using it for is Reddit. The aim of this thesis is to predict cognitive distortions from the texts retrieved from the Anxiety sub-reddit. Cognitive distortions are important to detect as they can potentially have a negative impact on people’s lives. Predic-tions in this work are made by using supervised machine learning methods, such as logistic regression, support vector machine and fasttext (also with pre-trained word vectors). In ad-dition, inter-annotator agreement between annotators is being assessed with Cohen’s Kappa and Krippendorff’s Alpha. The results show that predicting cognitive distortions from the text is a challenge on its own, since the classifiers were not able to produce satisfactory results. This corresponds to related works where predicting different types of distortions have not given very good results. It is assumed that it would be more reasonable to predict the existence of cognitive distortions from the text rather than predicting different types of distortions, as this prediction shows better results. Predicting the existence of some distor-tion might be of more help to people suffering from anxiety or depression. It might also be useful to predict only the most prevalent distortions from the text, as some distortions are probably more prevalent than others. It is important to note that major constraint in this work is related to the dataset, as it is relatively small in size and noisy. If there is a need to predict different types of cognitive distortions, it is suggested to use a larger dataset of better quality. However, this remains a challenge on its own in natural language processing and clinical psychology research area.listelement.badge.dso-type Kirje , Predicting Depression Symptoms Based on Reddit Posts(Tartu Ülikool, 2022) Koljal, Kaire; Sirts, Kairit, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutUsing social media posts to predict mental health problems has become a popular topic in Natural Language Processing (NLP). Machine learning has been used for detecting a diagnosis or single symptoms associated with depression. As the clinical picture of depression can differ for people, it is better to detect symptoms instead of diagnosis from the social media posts. In this work, depression symptoms are predicted based on posts from Reddit page r/depression using NLP methods and multi-label classification. This work focuses on evaluating the quality of the annotations and analysing if such data can be used to train a predictive model. Each post is annotated by three annotators and the labels are aggregated in three ways to create three datasets that are used to train Transformers models. The results of this work reveal that on a small dataset with a lower annotation agreement, a majority vote over annotations gives the most reliable dataset and results. RoBERTa model shows the best learning and generalization ability in this work.listelement.badge.dso-type Kirje , Premorbiidse võimekuse hindamismeetodi välja arendamine Eestis WAIS-III andmete põhjal(Tartu Ülikool, 2022) Viiret, Aleksander; Anni, Kätlin, juhendaja; Sirts, Kairit, juhendaja; Tartu Ülikool. Sotsiaalteaduste valdkond; Tartu Ülikool. Psühholoogia instituutlistelement.badge.dso-type Kirje , Pressinõukogule esitatud kaebuste otsuste ennustamine masinõppe abil(Tartu Ülikool, 2022) Rämson, Anne-Liis; Sirts, Kairit, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutKäesolevas töös käsitletakse aastatel 2001-2021 Pressinõukogule esitatud kaebusi ja kaebustele vastavaid meediatekste. Töö eesmärkideks on anda statistiline ülevaade Pressinõukogule esitatud kaebustest ja Pressinõukogu otsustes nimetatud eetikakoodeksi punktide mainimistest, rakendada klassifitseerimismeetodeid kaebustele vastavatele meediatekstidele ning leida klassifitseeriv mudel, mis eristaks õigeksmõistva ja tauniva otsuse saanud meediatekste. Töö teoreetilises osas antakse ülevaade tekstikaevest, klassifitseerimismudelitest (logistiline regressioon, tugivektorklassifitseerija, fastText) ja klassifitseerimismudelite hindamismõõdikutest. Kaebuste analüüsimisel selgus, et Eesti suuremad väljaanded jagunevad eetikakoodeksi punktide mainimiste osas kahte gruppi. Leiti kolm suurt ajakirjandusväljaannet, mille kohta on esitatud kaebustes enam mainimisi saanud koodeksipunkt 4.2 ning kolm väljaannet, mille artiklite puhul on kõige enam mainimisi saanud koodeksipunkt 1.4. Taunivaid otsuseid prognoosis kõige paremini fastText klassifitseerija lemmatiseeritud tekstidel.listelement.badge.dso-type Kirje , Psühhoosi prodroomi sümptomite eraldamine meditsiinitekstidest treeningandmestike loomiseks(Tartu Ülikool, 2024) Agu, Kristel; Reisberg, Sulev, juhendaja; Sirts, Kairit, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutThe current master thesis aimed to create three annotated training datasets for the extraction of psychosis prodromal symptoms from medical texts using semi-automatic methods. For this purpose, a dataset of medical documents from 10% randomly selected Estonian population in the years 2012-2019 was used. These documents were filtered by the ICD-10 diagnoses evident during psychosis prodrome (2780 texts) and split into sentences (31 009) for simplification of the further workflow. A dataset was created from the sentences, which were filtered using a regular expression and annotated manually by the author, and used to train an initial logistic regression model. To create the features for the logistic regression model, word embeddings were found for each word in a sentence using the Word2Vec model pre-trained on the Estonian Reference Corpus and an average embedding was calculated for the whole sentence. After that, an iterative process was initiated, where more sentences containing the symptom were predicted from the remaining data, annotated by the author, added to the existing dataset and repeated until the model finds no new sentences. Using the logistic regression model for the extraction of psychosis prodromal symptoms simplified the dataset creation process and reduced the amount of work put into searching the sentences manually. As a result of this master thesis, an annotated training dataset with 799 sentences for extracting the psychosis prodrome symptom “odd behaviour”, a dataset with 643 sentences for the symptoms “depersonalization” and/or “derealization” and a dataset with 1176 sentences for the symptoms “paranoid delusions” and/or “suspiciousness” were created.listelement.badge.dso-type Kirje , Russian invasion of Ukraine - topical evaluation of world news sources with machine learning(Tartu Ülikool, 2022) Hladkyi, Ivan; Sirts, Kairit, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutOn the morning of the 24th of February 2022, Russia launched a full-scale invasion of Ukrainian territory. The war erupted in many different places in Ukraine, the Russian armies bombed almost every major city’s infrastructure, and as of August 2022, the conflict is still ongoing. The attention of the whole world is focused on the events unfolding in Ukraine through numerous international news media sources. Different information resources can spotlight the same event from different perspectives depending on factors like audience type, political agenda, degree of speech freedom, etc. The goal of this thesis was to collect a dataset of news from such resources and then build the pipeline for topic modelling and sentiment classification to analyze the differences and similarities between the news sources. Firstly, we selected several of the most considerable world information resources in our work and collected a dataset of news. Secondly, we created a topic modelling and sentiment analysis pipeline supported by visualization tools. Finally, we analyzed the outcomes of the pipeline and discovered distinctions in the most frequently discussed topics, the sentiment and changes in the popularity of these topics through the timeline. The practical contribution of the thesis consists of several aspects: the novel dataset of news from various sources that spotlight the war, which can be used for further study and the created topical analysis pipeline that consists of the topic modelling and sentiment analysis parts.listelement.badge.dso-type Kirje , Tehisnärvivõrgul põhinevate lemmatiseerijate võrdlev analüüs eesti keeles(Tartu Ülikool, 2019-06) Leman, Laura Katrin; Sirts, Kairit, juhendaja; Tartu Ülikool. Humanitaarteaduste ja kunstide valdkond; Tartu Ülikool. Eesti ja üldkeeleteaduse instituutlistelement.badge.dso-type Kirje , Weakly-Supervised Text Classification for Estonian Sentiment Analysis(Tartu Ülikool, 2022) Pung, Andreas; Sirts, Kairit, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutText Classification is one of the most fundamental tasks in Natural Language Processing. Hand-labelling texts is costly and might need specialised domain knowledge – this is where unsupervised and weakly-supervised approaches could be useful. In this Master’s Thesis, the weakly-supervised text classification paradigm is used to classify the sentiment of Estonian texts. In this paradigm, the weak labels are created using labelling functions (Ratner et al., 2016). The aim of this thesis is to assess the applicability of weakly-supervised models trained with around 40× larger dataset in contrast to hand-labelling a smaller amount of texts to train a fully-supervised classifier. The compared models are fully and weaklysupervised BERT (Devlin et al., 2019); weakly-supervised COSINE (Yu et al., 2021) and WeaSEL (Cachay et al., 2021). Human evaluation is performed on texts where the models disagreed the most. As a result, we find that the fully-supervised models have the best performance. The best-performing weakly-supervised model trained on the larger dataset had an average classification accuracy of 7.29% worse (7.05% worse weighted F1-score) than the fully-supervised BERT model. The lower performance of weakly-supervised models might be caused by the low quality of labelling functions – developing them further might lead to better results.listelement.badge.dso-type Kirje , WinoGrande andmestiku tõlkimine suurte keelemudelite argimõistusliku järeldamisoskuse hindamiseks eesti keeles(Tartu Ülikool, 2025) Ojastu, Marii; Sirts, Kairit, juhendaja; Borovikova, Marika, juhendaja; Tartu Ülikool. Humanitaarteaduste ja kunstide valdkond; Tartu Ülikool. Maailma keelte ja kultuuride instituut; Tartu Ülikool. Tõlkeõpetuse ja -uuringute osakondKäesoleva magistritöö eesmärk on ingliskeelne WinoGrande testandmestik eesti keelde tõlkida, lokaliseerida ja eesti keelele kohandada. Magistritöös tõlgitakse 1767 tekstülesannet, mille kogumaht on 37 802 sõna. Tegemist on omapärase tõlkega, kuna tõlke lugeja ei ole inimene, vaid masin. Magistritöös tuvastatakse ja dokumenteeritakse andmestiku eesti keelde tõlkimises esinevad väljakutsed ja kirjeldatakse meetodeid, mis toetaksid taoliste andmestike eesti keelde tõlkimist ka tulevikus. Magistritöö raames valminud andmestikku kasutatakse Tartu Ülikooli arvutiteaduse instituudis eestikeelsete keelemudelite järeldamisoskuse hindamiseks ning saadud tulemusi kajastatakse ka selles magistritöös. Kuna taolisi andmestikke on teistesse keeltesse samal eesmärgil ka masintõlgitud, siis analüüsitakse magistritöös lisaks seda, kas eestikeelset masintõlget oleks võimalik keelemudelite hindamiseks kasutada. Keelemudelid, mille järeldamisoskust eesti keeles hinnatakse, on OpenAI GPT-4o, EuroLLM 9B (Martins jt 2024), Llammas (Kuulmets jt 2024), LLama 3.3 70B (Grattafiori jt 2024), LLama 3.1 8B (Grattafiori jt 2024) ja LLama 3.1 405B Instruct (Grattafiori jt 2024). Tõlgitud andmestikku saab kasutada eesti keeletehnoloogia arendamises ka edaspidi.