Sirvi Autor "Laur, Sven, juhendaja" järgi
Nüüd näidatakse 1 - 20 34
- Tulemused lehekülje kohta
- Sorteerimisvalikud
listelement.badge.dso-type Kirje , Applying Secure Multi-party Computation in Practice(2016-02-10) Talviste, Riivo; Laur, Sven, juhendaja; Bogdanov, Dan, juhendaja; Tartu Ülikool. Matemaatika-informaatikateaduskond.Andmetest on kasu vaid siis kui neid saab kasutada. Eriti suur lisandväärtus tekib siis, kui ühendada andmed erinevatest allikatest. Näiteks, liites kokku maksu- ja haridusandmed, saab riik läbi viia kõrghariduse erialade tasuvusanalüüse. Sama kehtib ka erasektoris - ühendades pankade maksekohustuste andmebaasid, saab efektiivsemalt tuvastada kõrge krediidiriskiga kliente. Selline andmekogude ühendamine on aga tihti konfidentsiaalsus- või privaatsusnõuete tõttu keelatud. Õigustatult, sest suuremahulised ühendatud andmekogud on atraktiivsed sihtmärgid nii häkkeritele kui ka ametnikele ja andmebaaside administraatoritele, kes oma õigusi kuritarvitada võivad. Seda sorti rünnete vastus aitab turvalise ühisarvutuse tehnoloogia kasutamine, mis võimaldab mitmed osapoolel andmeid ühiselt analüüsida, ilma et keegi neist pääseks ligi üksikutele kirjetele. Oma esimesest rakendamisest praktikas 2008. aastal on turvalise ühisarvutuse tehnoloogia praeguseks jõudnud seisu, kus seda juurutatakse hajusates rakendustes üle interneti ning seda pakutakse ka osana teistest teenustest. Käesolevas töös keskendume turvalise ühisarvutuse praktikas rakendamise tehnilistele küsimustele. Alustuseks tutvustame esimesi selle tehnoloogia rakendusi, tuvastame veel lahendamata probleeme ning pakume töö käigus välja lahendusi. Töö põhitulemus on samm-sammuline ülevaade sellise juurutuse elutsüklist, kasutades näitena esimest turvalise ühisarvutuse abil läbi viidud suuremahulisi registriandmeid hõlmavat uuringut. Sealhulgas anname ülevaate ka mittetehnilistest toimingutest nagu lepingute sõlmimine ja Andmekaitse Inspektsiooniga suhtlemine, mis tulenevad suurte organisatsioonide kaasamisest nagu seda on riigiasutused. Tulevikku vaadates pakume välja lahenduse, mis ühendab endas födereeritud andmevahetusplatvormi ja turvalise ühisarvutuse tehnoloogiat. Konkreetse lahendusena pakume Eesti riigi andmevahetuskihi X-tee täiustamist turvalise ühisarvutuse teenusega Sharemind. Selline arhitektuur võimaldaks mitmeid olemasolevaid andmekogusid uuringuteks liita efektiivselt ja turvaliselt, ilma üksikisikute privaatsust rikkumata.listelement.badge.dso-type Kirje , Automaatmärgendatud süntaksi ja morfoloogia konfliktide lahendamine(Tartu Ülikool, 2025) Aruoja, Hendrik; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutThe Bachelor's thesis focuses on finding cost-effective ways to resolve syntax-morphology conflicts for EstNLTK that utilizes instructing of Large Language Models (LLMs) as an alternative to manually labeling. The goal is to create a Python scripts that includes database query generation, execution of queries and processing of LLM prompts via API. The work is divided into a theoretical part, where the principles of syntax and morphology analysis are introduced, and a practical part, where the created python scripts and their capabilities are described.listelement.badge.dso-type Kirje , BERT mudeli kohandamine eesti keelele(Tartu Ülikool, 2023) Niit, Raul; Laur, Sven, juhendaja; Šuvalov, Hendrik, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutKeelemudelite kiire areng on muutnud arvutid meie elus osavateks inimkeele kasutajateks, mille abil on tänapäeval võimalik lihtsa vaevaga lahendada mitmeid erinevat tüüpi keeleülesandeid, olgu selleks siis tekstide tõlkimine, klassifitseerimine või uue teksti genereerimine. Aastal 2018 Google teadlaste poolt loodud keelemudel BERT on tänaseni tänu oma võimsale arhitektuurile ja avatud lähtekoodile üks populaarsemaid keelemudelid. Mudeli täiustamiseks on loodud ka konkreetse keele põhiseid BERT mudeleid nagu aastal 2020 loodud ESTBERT, mis on kohandatud eestikeelsete ülesannete jaoks. Magistritöö eesmärk on muuta BERT mudeli arhitektuuri nii, et see võimaldaks mudelis kasutada täiendavat morfoloogilist infot sisendi kohta nagu sõnade lemmad ja vormid. Töös treenitakse muudetud arhitektuuriga mudel välja ning analüüsitakse mudeli suutlikkust neljal keeleülesandel.listelement.badge.dso-type Kirje , Clustering Methods for Interpreting Medical Data(Tartu Ülikool, 2020) Teesaar, Egert Georg; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutThe medical bills can be analyzed to identify disease trajectories. By applying machine learning methods it is possible to find answers to questions, like which diagnoses occur together and from what these conditions arise. This study uses various clustering methods, like Bernoulli mixture models and autoencoders compression with K-means, to divide patient into groups based on the diagnoses they have received. The results of the models are visualized on the heatmaps showing how likely it is to encounter specific diagnoses in those groups. Also a guided hidden Markov model was used to form a lifelong disease path from the short segments of the different patients’ treatment. This provides a way to observe how certain conditions arise in different ages and allows to track the disease development over time. It found similar results, what had been previously reported in medical studies, like development of J35 from H65. The models interpretability was also improved by using support vector machines as a feature selection method for I11. This way it was possible to get rid of all the diagnoses, which had no connection to I11 and only keep those contributing to the development of the disease. Result on the processed data also agreed with the medical findings, like I50 development from I11.listelement.badge.dso-type Kirje , Covid andmete põhjal SIR mudeli koostamine(2022) Sutt, Armand; Laur, Sven, juhendaja; Tartu Ülikool. Matemaatika ja statistika instituut; Tartu Ülikool. Loodus- ja täppisteaduste valdkondCovid-19 puhangust inspireerituna sooviti uurida SIR-mudeli (nakatumata, nakatunud, tervenenud) kasutamist Covid-19 ja teiste viirushaiguste levikul. Selleks loodi kõigepealt lihtsakoeline diskreetse ajaga mudel, mille alusel inimestele juhuslikult kindel kontakte määratakse ja nad jäävad fikseeritud tõenäosusega haigeks. Haigusperioodi jooksul inimesed võivad olla kõigepealt nakkusohutud ja seejärel muutuvad nad nakkusohtlikuks. Seejärel muudetakse nad tervenenudeks. Pärast lihtsama mudeli koostamist taandati mudel kõigepealt neljale muutujale, et saaks suuremamahulisi populatsioone arvutis kergemini simuleerida. Sellest omakorda arendati välja mudelid, millega sai kirjeldada vanuse-/riskigruppide erinevuseid ja omavahelise suhtluse mõju nakkusele. Kirjeldatakse ka mudeleid, mis kasutavad pidevat aega. Töö viimane osa toob näiteid, kus mudelit rakendatakse.listelement.badge.dso-type Kirje , Deepfakes for Paper Vote Privacy Defence(Tartu Ülikool, 2025) Habanen, Anette; Villemson, Jan, juhendaja; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutThe recent rise of artificial intelligence (AI) solutions has also had a significant impact on electoral processes. Most notably, deepfakes created by generative AI applications can (and have been) used to spread misinformation during the campaigns, but they can also be used for cyberattack automation, biased social media bots, etc. This thesis instead presents a positive use case for generative AI in manipulating video material required as proof of voting by potential coercers. For this, I have created a pipeline that takes a video of a voting ballot and replaces its critical content (in our case, the digits on the ballot). To achieve this, a YOLO model is used to find the digits, a WavePaint image inpainting model is used to cover up the old digits, and a separate image of the new digits is used to place it into the video. Additionally, I have implemented the prototype application in the form of a webpage.listelement.badge.dso-type Kirje , Detection of emission line stars from the Gaia space telescope(Tartu Ülikool, 2009) Jänes, Jürgen; Laur, Sven, juhendaja; Kolka, Indrek, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutlistelement.badge.dso-type Kirje , Eesti keele nimeolemite märgendaja analüüs ja parandamine(Tartu Ülikool, 2020) Maide, Rasmus; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutNamed entity recognition is a task in information extraction that aims to find proper names from text and categorizing them. There is one previous published research on named entity recognition for Estonian and as a result of that research, a named entity recognizer for Estonian was developed which is accessible through the EstNLTK project. The purpose of this thesis is to port the recognizer to the newest version of EstNLTK and analyse its performance. As a result of that analysis, rule-based improvements are pro-posed for the named entity recognizer. The improvements that have a positive effect on the performance of the named entity recognizer are implemented.listelement.badge.dso-type Kirje , Eesti rahvastikuregistrile sarnase sünteetilise andmestiku reeglipõhine genereerimine(Tartu Ülikool, 2025) Eichhorn, Rain; Laur, Sven, juhendaja; Kamm, Liina, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutThe development and testing of information systems require realistic test data, especially in cases where privacy restrictions prohibit the use of real personal data. Rule-based synthetic data generation provides a way to create datasets that mimic the structure and logic of real data without processing personal information. In this thesis, I present the creation of a rule-based synthetic data generator for the Estonian Population Registry, relying solely on public input data and system business logic. The developed Python-based tool automatically generates use cases, enabling efficient and secure system testing. The results offer a practical foundation for future research and a privacy-preserving alternative to real data.listelement.badge.dso-type Kirje , Eestlaste verepildi kirjeldav analüüs(2019) Ott, Anne; Laur, Sven, juhendaja; Tartu Ülikool. Matemaatika ja statistika instituut; Tartu Ülikool. Loodus- ja täppisteaduste valdkondTavapäraseim viis patsiendi tervisest ülevaatliku pildi saamiseks on teha vereproov. Käesoleva bakalaureusetöö eesmärk on teha eestlaste vereanalüüsidele esmaseid analüüse ja tulemusi visualiseerida. Töös rakendatakse vereanalüüside klasterdamist haige ja terve patsiendi vereks ja kontrollitakse klasterduse korrektsust. Lisaks vaadeldakse lähemalt haigete patsientide verd ja verepildi muutumist ajas. Täpsemalt uuritakse ka angiini ja aneemia diagnoosiga patsiente.listelement.badge.dso-type Kirje , Efficient multiparty computation secure against covert and active adversaries(2017-05-12) Pankova, Alisa; Peeter Laud, juhendaja; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondTurvaline ühisarvutus on tänapäevase krüptograafia üks tähtsamaid kasutusviise, mis koondab elegantsed matemaatilised lahendused praktiliste rakenduste ehitamiseks, võimaldades mitmel erineval andmeomanikul sooritada oma andmetega suvalisi ühiseid arvutusi, ilma neid andmeid üksteisele avaldamata. Passiivse ründaja vastu turvalised protokollid eeldavad, et kõik osapooled käituvad ausalt. Aktiivse ründaja vastu turvalised protokollid ei lekita privaatseid andmeid sõltumata ründaja käitumisest. Käesolevas töös esitatakse üldine meetod, mis teisendab passiivse ründaja vastu turvalised ühisarvutusprotokollid turvaliseks aktiivse ründaja vastu. Meetod on optimeeritud kolme osapoolega arvutusteks üle algebraliste ringide; praktikas on see väga efektiivne mudel, mis teeb reaalse maailma rakendused teostatavateks. Meetod lisab esialgsele arvutusprotokollile täitmisjärgse verifitseerimisfaasi, mis muudab valesti käitunud osapooltel vahelejäämise vältimise tõenäosuse kaduvväikseks, säilitades esialgse protokolli turvagarantiid. Lisaks uurib käesolev töö rünnete uut eesmärki, mis seisneb mingi ausa osapoole vaate manipuleerimises sellisel viisil, et ta saaks midagi teada teise ausa osapoole privaatsete andmete kohta. Ründaja ise ei tarvitse seda infot üldse teada saada. Sellised ründed on olulised, sest need kohustavad ausat osapoolt tühjendama oma süsteemi teiste osapoolte andmetest, kuid see ülesanne võib olla päris mittetriviaalne. Eelnevalt pakutud verifitseerimismehhanisme täiendatakse nii, et privaatsed andmed oleksid kaitstud ka ausate osapoolte eest. Paljud ühisarvutusplatvormid on varustatud programmeerimiskeelega, mis võimaldab kirjutada privaatsust säilitavaid rakendusi ilma allolevale krüptograafiale mõtlemata. Juhul, kui programm sisaldab tingimuslauseid, kus arvutusharu valik sõltub privaatsetest andmetest, ei tohi ükski osapool haru valikust midagi teada, nii et üldjuhul peavad osapooled täitma kõik harud. Harude suure arvu kor-ral võib arvutuslik lisakulu olla ülisuur, sest enamik vahetulemustest visatakse ära. Käesolevas töös pakutakse selliseid lisakulusid vähendavat optimeerimist.listelement.badge.dso-type Kirje , Formal Analysis of Non-Malleability for Commitment Schemes in EasyCrypt(Tartu Ülikool, 2022) Zhuchko, Ekaterina; Firsov, Denis, juhendaja; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutIn this work, we perform a formal analysis of definitions of non-malleability for commitment schemes in the EasyCrypt theorem prover. There are two distinct formulations of non-malleability found in the literature: the comparison-based definition and the simulation- based definition. In this paper, we do a formal analysis of both. We start by formally proving that the comparison-based definition which was originally introduced by Laur et al. is unsatisfiable. Also, we propose a novel formulation of simulation-based non-malleability. Moreover, we validate our definition by proving that it implies hiding and binding of commitment schemes.listelement.badge.dso-type Kirje , Foundations of efficient and secure algorithm development for secure multiparty computation(2024-07-11) Pullonen-Raudvere, Pille; Laur, Sven, juhendaja; Bogdanov, Dan, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondTurvaline ühisarvutus on meetod erinevate osapoolte privaatsete andmete kasutamiseks nii, et sisendite privaatsust säilitades saada ühiseid tulemusi. Intuitiivselt tähendab turvalisus, et sisendite kohta ei leki muud kui planeeritud arvutuse korrektne tulemus. Seega on vaja tagada, et arvutamise protsessi käigus ei lekiks rohkem informatsiooni kui see väljund annab. Töö fookuses on küsimus algoritmi võimalikest leketest ja nende välistamisest. Algoritmi turvalisuse tõestamise klassikaline meetod näitab, et algoritmi tööd on võimalik jäljendada ilma privaatseid sisendeid teadmata. Kui jäljendamise tulemus ja algoritmi päris andmetega käitamine on eristamatud, ei saa keegi algoritmi jooksutamise ajal rohkem informatsiooni kui planeeritud väljund. Käesolev doktoritöö defineerib üldkuju, millele paljud turvalise ühisarvutuse protokollid vastavad. Seda üldkuju saab kasutada, et väiksematest protokollidest kombineerida suuremaid algoritme ning lihtsustada algoritmide turvalisuse tõestamist. Töö tuletab kitsendused, millele vastavate algoritmide puhul on detailse formaalse tõestuse asemel võimalik piirduda algoritmi käigus avalikustatud andmete analüüsimisega. Sageli koosnevad rakendused alamprotokollidest, millel pole avalikku väljundit. Selliste komponentide puhul on tegelikult piisav, kui need säilitavad sisendite privaatsust. Sellise privaatuse ja turvalisuse definitsioonid on formaalselt erinevad ning seetõttu erinevad ka protokollid, mis neid omadusi saavutavad. Sageli on privaatsed protokollid lihtsamad ning ka privaatsuse omadust on lihtsam tõestada. Seetõttu võimaldab privaatsete komponentide ja turvaliste algoritmide eristamine luua parema jõudlusega turvalise ühisarvutuse rakendusi ja nende turvalisust lihtsamalt tõestada. Doktoritöö defineerib privaatuse omaduse ning näitab kuidas privaatseid protokolle saab kombineerida turvalistega, et luua turvalisi rakendusi.listelement.badge.dso-type Kirje , Framework for Privacy-Preserving Synthesis of Textual Data(Tartu Ülikool, 2025) Stomakhin, Fedor; Laur, Sven, juhendaja; Kamm, Liina, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutTo safeguard patient privacy, sharing medical record data for research must adhere to various privacy regulations. To facilitate data sharing, various data protection techniques have been proposed, such as pseudonymization, anonymization and the use of synthetic data. The aim of synthetic data generation is, based on an original dataset, to produce a new dataset in a way that preserves the statistical relationships within the original data while not exposing any identifying or sensitive information about the data subjects therein. Synthetically generated data can still be insufficient from the point of view of privacy-preservation. For this purpose, approaches rooted in differential privacy (DP) have been proposed. DP typically relies on worst-case assumptions about attackers' knowledge, potentially leading to overly conservative measures. Applying DP principles to free-form text, such as medical epicrises, is complicated by their high dimensionality and complexity, as the same information can be conveyed in many different ways. In this work, motivated by the challenges of sharing textual health data, we propose and apply a general framework for evaluating privacy risks in text generated by large language models (LLMs). Considering a journalist attack model, we adapt differential privacy principles, quantifying privacy loss (ε, δ) based on the outputs of specific attack functions rather than relying on worst-case assumptions of DP. We demonstrate the framework by establishing baseline privacy characteristics via direct n-gram sampling analysis on both medical and social media texts and by exploring membership inference signals using surprisal analysis on LLMs fine-tuned with social media texts. While assessing synthetic data from standard LLMs highlighted methodological challenges, the framework provides a methodology for evaluating the privacy properties of text generation models and their outputs, informing decisions on sharing such data for research purposes.listelement.badge.dso-type Kirje , Gestatsioondiabeedi ja makrosoomia prognoosimine ning nende riskitegurite analüüs masinõppe meetoditega(Tartu Ülikool, 2020) Pihu, Silvia; Laur, Sven, juhendaja; Rull, Kristiina, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutLarge-for-gestational-age (LGA) may cause problems for both baby and mother during delivery, therefore the best solution is to predict and avoid it (by diet, cure of GDM, etc.) or at least use planned Caesarian section. Gestational diabetes (GDM) is known as a major risk factor for too large baby. Different machine learning algorithms were used to predict GDM and LGA on Estonian pregnancies and newborn data from 2012 to 2018 (4787 cases), using their risk factors. The best results were obtained by random forest method (AUC for GDM 0.96 and for LGA 0,92). The major risk factors for LGA occurred to be GDM and its correct diagnosing, the body mass index of the mother (before pregnancy), having large baby in previous pregnancy, the age of mother and the blood sugar level registered at the beginning of pregnancy.listelement.badge.dso-type Kirje , Haigusepisoodide tuvastamine akuutse ja kroonilise faasiga haigustel(Tartu Ülikool, 2024) Bluum, Andra; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutThe treatment of many important diseases is divided into several different phases: preliminary phase, follow-up care, rehabilitation and check-ups. The purpose of this bachelor’s thesis is to simplify the defining process of disease episodes. An overview of the observed diseases and their treatment is given in the theoretical part of the thesis in order to collect background information that would help to ease defining disease episodes. In this thesis different inpatient epicrises were combined into hospitalization episodes. Services performed during the episodes were then added. Services were divided into acute care and rehabilitation services, after which chi-square test was used to identify indicator services. Received indicator services were then analyzed and compared with the services described in the theoretical part of the work.listelement.badge.dso-type Kirje , Laborianalüüside diskretiseerimine ja analüüs(Tartu Ülikool, 2024) Talvet, Annika; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutWhen interpreting the results of patients’ clinical analyses, reference ranges are important as they define the range within which a measurement result could fall for a healthy individual. These ranges can depend on age and gender, but may also vary depending on the methodology used in a particular laboratory. Using analysis results that are discretized based on reference ranges simplifies data analysis and model training. However, analysis results may be associated with incorrect LOINC codes or units of measurement. The aim of this Master’s thesis is to identify analyses and reference ranges grouped incorrectly or with incorrect units. Additionally, it aims to investigate whether discretized analysis results are beneficial for predicting medical events and if there is a difference in prediction accuracy using different discretization methods. In order to identify incorrectly grouped analysis results, the data was clustered using a Gaussian mixture model. To assess the predictive capability of discretized results, dependencies between the occurrence of medical events and differently discretized measurements, as well as measurement facts, were examined and models were trained to predict the occurrence of medical events. The results revealed that there is no significant difference in the prediction accuracy between models using different inputs. This suggests that in predicting medical events, the occurrence of measurement is as important as the discretized analysis result.listelement.badge.dso-type Kirje , Masinõppe mudelite hindamine väheste märgenditega andmetel(Tartu Ülikool, 2023) Aun, Mart-Mihkel; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutMachine learning models used to solve classification tasks are evaluated using quality measures such as accuracy, precision, and recall. These measures or their estimates are calculated through the class labels of data points and the classifications of the method on those data points. To find the actual class labels, they must be manually reviewed. Often, quality measures are evaluated using a finite sample, and the obtained estimates obtained errors. In this thesis, the necessary sample size was derived, to not exceed the limit of estimation error with a certain confidence level. In addition, for a sample, the definition-based way of finding the accuracy, precision, or recall of all the sample data points’ labels must be determined. If another method exists in addition to the method being evaluated, it can be used for a new evaluation. In this case, it is possible to reduce the amount of manual work required for labeling by examining how much better the new method is than the old one instead of calculating the quality measures of the new method. This thesis explored techniques that help to reduce the number of data points that require labeling for the evaluation of the quality measures of the two classification methods.listelement.badge.dso-type Kirje , Nimisõnade klasterdamine vastavalt neid kirjeldavatele omadussõnadele(Tartu Ülikool, 2021) Sõrmus, Birgit; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutOmadussõnade kasutus annab lisainformatsiooni nendega seotud nimisõnade kohta. See võimaldab kokku grupeerida sarnaste omadustega nimisõnu. Antud töö eesmärgiks on kasutada kolme erinevat meetodit, et klasterdada nimisõnu vastavalt nendele omadussõnadele, millega neid tekstides kirjeldatakse. Klasterdamiseks on kasutatud Jaccardi sarnasust koos spektraalklasterdusega, mittenegatiivset maatriksi faktorisatsiooni ning Dirichlet’ peitlahutust. Klasterdamise tulemusena saadakse nimisõnade grupid ning analüüsitakse klastritesse kuuluvate sõnade seotust ning seda, millised omadused milliste sõnade jaoks on keelekasutuses olulised.listelement.badge.dso-type Kirje , Patient Treatment Trajectories Using Vector Embeddings(Tartu Ülikool, 2023) Siimon, Õie Renata; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutIn this thesis, data from Estonian Health Insurance Fund (Haigekassa) in 2010–2019 was used to construct vector representations of patient treatment trajectories with BERT, and for comparison, with word2vec. The goal was to see how well such natural language processing (NLP) models perform when sequences of medical services are used as input instead of sentences, and if BERT performs better than word2vec. So far, research on how well NLP models work with non-natural language sequences is limited, and this thesis contributes to filling this gap. In this thesis, treatment trajectories were built as sequences of service codes appearing on 41 million medical invoices. Models in this thesis were constructed in two stages. First, service code embeddings were trained with BERT and word2vec. Then, classification models were built by fine-tuning BERT and training KNN and SVM classifiers on top of word2vec embeddings. Results showed that despite poor performance of BERT in pre-training stage, it outperformed models built on top of word2vec embeddings in all seven classification tasks. The highest accuracy (0.9918) was achieved in classifying treatment types (5 classes) and the lowest (0.4121) in classifying diagnosis (174 classes). It was concluded that BERT indeed proved useful with this type of non-natural language input data, and that the contextual embeddings of BERT worked better than non-contextual ones of word2vec. From among the four BERT models built in this thesis, the second largest was the overall best, showing that if the ‘language’ used is simpler than natural language, then BERT models with reduced dimensions might work better.