Browsing by Author "Laur, Sven, juhendaja"
Now showing 1 - 20 of 29
- Results Per Page
- Sort Options
Item Applying Secure Multi-party Computation in Practice(2016-02-10) Talviste, Riivo; Laur, Sven, juhendaja; Bogdanov, Dan, juhendaja; Tartu Ülikool. Matemaatika-informaatikateaduskond.Andmetest on kasu vaid siis kui neid saab kasutada. Eriti suur lisandväärtus tekib siis, kui ühendada andmed erinevatest allikatest. Näiteks, liites kokku maksu- ja haridusandmed, saab riik läbi viia kõrghariduse erialade tasuvusanalüüse. Sama kehtib ka erasektoris - ühendades pankade maksekohustuste andmebaasid, saab efektiivsemalt tuvastada kõrge krediidiriskiga kliente. Selline andmekogude ühendamine on aga tihti konfidentsiaalsus- või privaatsusnõuete tõttu keelatud. Õigustatult, sest suuremahulised ühendatud andmekogud on atraktiivsed sihtmärgid nii häkkeritele kui ka ametnikele ja andmebaaside administraatoritele, kes oma õigusi kuritarvitada võivad. Seda sorti rünnete vastus aitab turvalise ühisarvutuse tehnoloogia kasutamine, mis võimaldab mitmed osapoolel andmeid ühiselt analüüsida, ilma et keegi neist pääseks ligi üksikutele kirjetele. Oma esimesest rakendamisest praktikas 2008. aastal on turvalise ühisarvutuse tehnoloogia praeguseks jõudnud seisu, kus seda juurutatakse hajusates rakendustes üle interneti ning seda pakutakse ka osana teistest teenustest. Käesolevas töös keskendume turvalise ühisarvutuse praktikas rakendamise tehnilistele küsimustele. Alustuseks tutvustame esimesi selle tehnoloogia rakendusi, tuvastame veel lahendamata probleeme ning pakume töö käigus välja lahendusi. Töö põhitulemus on samm-sammuline ülevaade sellise juurutuse elutsüklist, kasutades näitena esimest turvalise ühisarvutuse abil läbi viidud suuremahulisi registriandmeid hõlmavat uuringut. Sealhulgas anname ülevaate ka mittetehnilistest toimingutest nagu lepingute sõlmimine ja Andmekaitse Inspektsiooniga suhtlemine, mis tulenevad suurte organisatsioonide kaasamisest nagu seda on riigiasutused. Tulevikku vaadates pakume välja lahenduse, mis ühendab endas födereeritud andmevahetusplatvormi ja turvalise ühisarvutuse tehnoloogiat. Konkreetse lahendusena pakume Eesti riigi andmevahetuskihi X-tee täiustamist turvalise ühisarvutuse teenusega Sharemind. Selline arhitektuur võimaldaks mitmeid olemasolevaid andmekogusid uuringuteks liita efektiivselt ja turvaliselt, ilma üksikisikute privaatsust rikkumata.Item BERT mudeli kohandamine eesti keelele(Tartu Ülikool, 2023) Niit, Raul; Laur, Sven, juhendaja; Šuvalov, Hendrik, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutKeelemudelite kiire areng on muutnud arvutid meie elus osavateks inimkeele kasutajateks, mille abil on tänapäeval võimalik lihtsa vaevaga lahendada mitmeid erinevat tüüpi keeleülesandeid, olgu selleks siis tekstide tõlkimine, klassifitseerimine või uue teksti genereerimine. Aastal 2018 Google teadlaste poolt loodud keelemudel BERT on tänaseni tänu oma võimsale arhitektuurile ja avatud lähtekoodile üks populaarsemaid keelemudelid. Mudeli täiustamiseks on loodud ka konkreetse keele põhiseid BERT mudeleid nagu aastal 2020 loodud ESTBERT, mis on kohandatud eestikeelsete ülesannete jaoks. Magistritöö eesmärk on muuta BERT mudeli arhitektuuri nii, et see võimaldaks mudelis kasutada täiendavat morfoloogilist infot sisendi kohta nagu sõnade lemmad ja vormid. Töös treenitakse muudetud arhitektuuriga mudel välja ning analüüsitakse mudeli suutlikkust neljal keeleülesandel.Item Clustering Methods for Interpreting Medical Data(Tartu Ülikool, 2020) Teesaar, Egert Georg; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutThe medical bills can be analyzed to identify disease trajectories. By applying machine learning methods it is possible to find answers to questions, like which diagnoses occur together and from what these conditions arise. This study uses various clustering methods, like Bernoulli mixture models and autoencoders compression with K-means, to divide patient into groups based on the diagnoses they have received. The results of the models are visualized on the heatmaps showing how likely it is to encounter specific diagnoses in those groups. Also a guided hidden Markov model was used to form a lifelong disease path from the short segments of the different patients’ treatment. This provides a way to observe how certain conditions arise in different ages and allows to track the disease development over time. It found similar results, what had been previously reported in medical studies, like development of J35 from H65. The models interpretability was also improved by using support vector machines as a feature selection method for I11. This way it was possible to get rid of all the diagnoses, which had no connection to I11 and only keep those contributing to the development of the disease. Result on the processed data also agreed with the medical findings, like I50 development from I11.Item Covid andmete põhjal SIR mudeli koostamine(2022) Sutt, Armand; Laur, Sven, juhendaja; Tartu Ülikool. Matemaatika ja statistika instituut; Tartu Ülikool. Loodus- ja täppisteaduste valdkondCovid-19 puhangust inspireerituna sooviti uurida SIR-mudeli (nakatumata, nakatunud, tervenenud) kasutamist Covid-19 ja teiste viirushaiguste levikul. Selleks loodi kõigepealt lihtsakoeline diskreetse ajaga mudel, mille alusel inimestele juhuslikult kindel kontakte määratakse ja nad jäävad fikseeritud tõenäosusega haigeks. Haigusperioodi jooksul inimesed võivad olla kõigepealt nakkusohutud ja seejärel muutuvad nad nakkusohtlikuks. Seejärel muudetakse nad tervenenudeks. Pärast lihtsama mudeli koostamist taandati mudel kõigepealt neljale muutujale, et saaks suuremamahulisi populatsioone arvutis kergemini simuleerida. Sellest omakorda arendati välja mudelid, millega sai kirjeldada vanuse-/riskigruppide erinevuseid ja omavahelise suhtluse mõju nakkusele. Kirjeldatakse ka mudeleid, mis kasutavad pidevat aega. Töö viimane osa toob näiteid, kus mudelit rakendatakse.Item Detection of emission line stars from the Gaia space telescope(Tartu Ülikool, 2009) Jänes, Jürgen; Laur, Sven, juhendaja; Kolka, Indrek, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutItem Eesti keele nimeolemite märgendaja analüüs ja parandamine(Tartu Ülikool, 2020) Maide, Rasmus; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutNamed entity recognition is a task in information extraction that aims to find proper names from text and categorizing them. There is one previous published research on named entity recognition for Estonian and as a result of that research, a named entity recognizer for Estonian was developed which is accessible through the EstNLTK project. The purpose of this thesis is to port the recognizer to the newest version of EstNLTK and analyse its performance. As a result of that analysis, rule-based improvements are pro-posed for the named entity recognizer. The improvements that have a positive effect on the performance of the named entity recognizer are implemented.Item Eestlaste verepildi kirjeldav analüüs(2019) Ott, Anne; Laur, Sven, juhendaja; Tartu Ülikool. Matemaatika ja statistika instituut; Tartu Ülikool. Loodus- ja täppisteaduste valdkondTavapäraseim viis patsiendi tervisest ülevaatliku pildi saamiseks on teha vereproov. Käesoleva bakalaureusetöö eesmärk on teha eestlaste vereanalüüsidele esmaseid analüüse ja tulemusi visualiseerida. Töös rakendatakse vereanalüüside klasterdamist haige ja terve patsiendi vereks ja kontrollitakse klasterduse korrektsust. Lisaks vaadeldakse lähemalt haigete patsientide verd ja verepildi muutumist ajas. Täpsemalt uuritakse ka angiini ja aneemia diagnoosiga patsiente.Item Efficient multiparty computation secure against covert and active adversaries(2017-05-12) Pankova, Alisa; Peeter Laud, juhendaja; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondTurvaline ühisarvutus on tänapäevase krüptograafia üks tähtsamaid kasutusviise, mis koondab elegantsed matemaatilised lahendused praktiliste rakenduste ehitamiseks, võimaldades mitmel erineval andmeomanikul sooritada oma andmetega suvalisi ühiseid arvutusi, ilma neid andmeid üksteisele avaldamata. Passiivse ründaja vastu turvalised protokollid eeldavad, et kõik osapooled käituvad ausalt. Aktiivse ründaja vastu turvalised protokollid ei lekita privaatseid andmeid sõltumata ründaja käitumisest. Käesolevas töös esitatakse üldine meetod, mis teisendab passiivse ründaja vastu turvalised ühisarvutusprotokollid turvaliseks aktiivse ründaja vastu. Meetod on optimeeritud kolme osapoolega arvutusteks üle algebraliste ringide; praktikas on see väga efektiivne mudel, mis teeb reaalse maailma rakendused teostatavateks. Meetod lisab esialgsele arvutusprotokollile täitmisjärgse verifitseerimisfaasi, mis muudab valesti käitunud osapooltel vahelejäämise vältimise tõenäosuse kaduvväikseks, säilitades esialgse protokolli turvagarantiid. Lisaks uurib käesolev töö rünnete uut eesmärki, mis seisneb mingi ausa osapoole vaate manipuleerimises sellisel viisil, et ta saaks midagi teada teise ausa osapoole privaatsete andmete kohta. Ründaja ise ei tarvitse seda infot üldse teada saada. Sellised ründed on olulised, sest need kohustavad ausat osapoolt tühjendama oma süsteemi teiste osapoolte andmetest, kuid see ülesanne võib olla päris mittetriviaalne. Eelnevalt pakutud verifitseerimismehhanisme täiendatakse nii, et privaatsed andmed oleksid kaitstud ka ausate osapoolte eest. Paljud ühisarvutusplatvormid on varustatud programmeerimiskeelega, mis võimaldab kirjutada privaatsust säilitavaid rakendusi ilma allolevale krüptograafiale mõtlemata. Juhul, kui programm sisaldab tingimuslauseid, kus arvutusharu valik sõltub privaatsetest andmetest, ei tohi ükski osapool haru valikust midagi teada, nii et üldjuhul peavad osapooled täitma kõik harud. Harude suure arvu kor-ral võib arvutuslik lisakulu olla ülisuur, sest enamik vahetulemustest visatakse ära. Käesolevas töös pakutakse selliseid lisakulusid vähendavat optimeerimist.Item Formal Analysis of Non-Malleability for Commitment Schemes in EasyCrypt(Tartu Ülikool, 2022) Zhuchko, Ekaterina; Firsov, Denis, juhendaja; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutIn this work, we perform a formal analysis of definitions of non-malleability for commitment schemes in the EasyCrypt theorem prover. There are two distinct formulations of non-malleability found in the literature: the comparison-based definition and the simulation- based definition. In this paper, we do a formal analysis of both. We start by formally proving that the comparison-based definition which was originally introduced by Laur et al. is unsatisfiable. Also, we propose a novel formulation of simulation-based non-malleability. Moreover, we validate our definition by proving that it implies hiding and binding of commitment schemes.Item Foundations of efficient and secure algorithm development for secure multiparty computation(2024-07-11) Pullonen-Raudvere, Pille; Laur, Sven, juhendaja; Bogdanov, Dan, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondTurvaline ühisarvutus on meetod erinevate osapoolte privaatsete andmete kasutamiseks nii, et sisendite privaatsust säilitades saada ühiseid tulemusi. Intuitiivselt tähendab turvalisus, et sisendite kohta ei leki muud kui planeeritud arvutuse korrektne tulemus. Seega on vaja tagada, et arvutamise protsessi käigus ei lekiks rohkem informatsiooni kui see väljund annab. Töö fookuses on küsimus algoritmi võimalikest leketest ja nende välistamisest. Algoritmi turvalisuse tõestamise klassikaline meetod näitab, et algoritmi tööd on võimalik jäljendada ilma privaatseid sisendeid teadmata. Kui jäljendamise tulemus ja algoritmi päris andmetega käitamine on eristamatud, ei saa keegi algoritmi jooksutamise ajal rohkem informatsiooni kui planeeritud väljund. Käesolev doktoritöö defineerib üldkuju, millele paljud turvalise ühisarvutuse protokollid vastavad. Seda üldkuju saab kasutada, et väiksematest protokollidest kombineerida suuremaid algoritme ning lihtsustada algoritmide turvalisuse tõestamist. Töö tuletab kitsendused, millele vastavate algoritmide puhul on detailse formaalse tõestuse asemel võimalik piirduda algoritmi käigus avalikustatud andmete analüüsimisega. Sageli koosnevad rakendused alamprotokollidest, millel pole avalikku väljundit. Selliste komponentide puhul on tegelikult piisav, kui need säilitavad sisendite privaatsust. Sellise privaatuse ja turvalisuse definitsioonid on formaalselt erinevad ning seetõttu erinevad ka protokollid, mis neid omadusi saavutavad. Sageli on privaatsed protokollid lihtsamad ning ka privaatsuse omadust on lihtsam tõestada. Seetõttu võimaldab privaatsete komponentide ja turvaliste algoritmide eristamine luua parema jõudlusega turvalise ühisarvutuse rakendusi ja nende turvalisust lihtsamalt tõestada. Doktoritöö defineerib privaatuse omaduse ning näitab kuidas privaatseid protokolle saab kombineerida turvalistega, et luua turvalisi rakendusi.Item Gestatsioondiabeedi ja makrosoomia prognoosimine ning nende riskitegurite analüüs masinõppe meetoditega(Tartu Ülikool, 2020) Pihu, Silvia; Laur, Sven, juhendaja; Rull, Kristiina, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutLarge-for-gestational-age (LGA) may cause problems for both baby and mother during delivery, therefore the best solution is to predict and avoid it (by diet, cure of GDM, etc.) or at least use planned Caesarian section. Gestational diabetes (GDM) is known as a major risk factor for too large baby. Different machine learning algorithms were used to predict GDM and LGA on Estonian pregnancies and newborn data from 2012 to 2018 (4787 cases), using their risk factors. The best results were obtained by random forest method (AUC for GDM 0.96 and for LGA 0,92). The major risk factors for LGA occurred to be GDM and its correct diagnosing, the body mass index of the mother (before pregnancy), having large baby in previous pregnancy, the age of mother and the blood sugar level registered at the beginning of pregnancy.Item Haigusepisoodide tuvastamine akuutse ja kroonilise faasiga haigustel(Tartu Ülikool, 2024) Bluum, Andra; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutThe treatment of many important diseases is divided into several different phases: preliminary phase, follow-up care, rehabilitation and check-ups. The purpose of this bachelor’s thesis is to simplify the defining process of disease episodes. An overview of the observed diseases and their treatment is given in the theoretical part of the thesis in order to collect background information that would help to ease defining disease episodes. In this thesis different inpatient epicrises were combined into hospitalization episodes. Services performed during the episodes were then added. Services were divided into acute care and rehabilitation services, after which chi-square test was used to identify indicator services. Received indicator services were then analyzed and compared with the services described in the theoretical part of the work.Item Laborianalüüside diskretiseerimine ja analüüs(Tartu Ülikool, 2024) Talvet, Annika; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutWhen interpreting the results of patients’ clinical analyses, reference ranges are important as they define the range within which a measurement result could fall for a healthy individual. These ranges can depend on age and gender, but may also vary depending on the methodology used in a particular laboratory. Using analysis results that are discretized based on reference ranges simplifies data analysis and model training. However, analysis results may be associated with incorrect LOINC codes or units of measurement. The aim of this Master’s thesis is to identify analyses and reference ranges grouped incorrectly or with incorrect units. Additionally, it aims to investigate whether discretized analysis results are beneficial for predicting medical events and if there is a difference in prediction accuracy using different discretization methods. In order to identify incorrectly grouped analysis results, the data was clustered using a Gaussian mixture model. To assess the predictive capability of discretized results, dependencies between the occurrence of medical events and differently discretized measurements, as well as measurement facts, were examined and models were trained to predict the occurrence of medical events. The results revealed that there is no significant difference in the prediction accuracy between models using different inputs. This suggests that in predicting medical events, the occurrence of measurement is as important as the discretized analysis result.Item Masinõppe mudelite hindamine väheste märgenditega andmetel(Tartu Ülikool, 2023) Aun, Mart-Mihkel, juhendaja; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutMachine learning models used to solve classification tasks are evaluated using quality measures such as accuracy, precision, and recall. These measures or their estimates are calculated through the class labels of data points and the classifications of the method on those data points. To find the actual class labels, they must be manually reviewed. Often, quality measures are evaluated using a finite sample, and the obtained estimates obtained errors. In this thesis, the necessary sample size was derived, to not exceed the limit of estimation error with a certain confidence level. In addition, for a sample, the definition-based way of finding the accuracy, precision, or recall of all the sample data points’ labels must be determined. If another method exists in addition to the method being evaluated, it can be used for a new evaluation. In this case, it is possible to reduce the amount of manual work required for labeling by examining how much better the new method is than the old one instead of calculating the quality measures of the new method. This thesis explored techniques that help to reduce the number of data points that require labeling for the evaluation of the quality measures of the two classification methods.Item Nimisõnade klasterdamine vastavalt neid kirjeldavatele omadussõnadele(Tartu Ülikool, 2021) Sõrmus, Birgit; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutOmadussõnade kasutus annab lisainformatsiooni nendega seotud nimisõnade kohta. See võimaldab kokku grupeerida sarnaste omadustega nimisõnu. Antud töö eesmärgiks on kasutada kolme erinevat meetodit, et klasterdada nimisõnu vastavalt nendele omadussõnadele, millega neid tekstides kirjeldatakse. Klasterdamiseks on kasutatud Jaccardi sarnasust koos spektraalklasterdusega, mittenegatiivset maatriksi faktorisatsiooni ning Dirichlet’ peitlahutust. Klasterdamise tulemusena saadakse nimisõnade grupid ning analüüsitakse klastritesse kuuluvate sõnade seotust ning seda, millised omadused milliste sõnade jaoks on keelekasutuses olulised.Item Patient Treatment Trajectories Using Vector Embeddings(Tartu Ülikool, 2023) Siimon, Õie Renata; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutIn this thesis, data from Estonian Health Insurance Fund (Haigekassa) in 2010–2019 was used to construct vector representations of patient treatment trajectories with BERT, and for comparison, with word2vec. The goal was to see how well such natural language processing (NLP) models perform when sequences of medical services are used as input instead of sentences, and if BERT performs better than word2vec. So far, research on how well NLP models work with non-natural language sequences is limited, and this thesis contributes to filling this gap. In this thesis, treatment trajectories were built as sequences of service codes appearing on 41 million medical invoices. Models in this thesis were constructed in two stages. First, service code embeddings were trained with BERT and word2vec. Then, classification models were built by fine-tuning BERT and training KNN and SVM classifiers on top of word2vec embeddings. Results showed that despite poor performance of BERT in pre-training stage, it outperformed models built on top of word2vec embeddings in all seven classification tasks. The highest accuracy (0.9918) was achieved in classifying treatment types (5 classes) and the lowest (0.4121) in classifying diagnosis (174 classes). It was concluded that BERT indeed proved useful with this type of non-natural language input data, and that the contextual embeddings of BERT worked better than non-contextual ones of word2vec. From among the four BERT models built in this thesis, the second largest was the overall best, showing that if the ‘language’ used is simpler than natural language, then BERT models with reduced dimensions might work better.Item Piltide automaatne kirjeldamine eesti keeles - visuaalse ja semantilise ühisesituse õppimine neurovõrkudega(Tartu Ülikool, 2015) Pärnamaa, Tanel; Laur, Sven, juhendaja; Parts, Leopold, juhendaja; Tartu Ülikool. Matemaatika-informaatikateaduskond; Tartu Ülikool. Matemaatilise statistika instituutSelle töö eesmärgiks on treenida statistiline masin ehk algoritm, mis on võimeline pilte eesti keeles kirjeldama. Vastav mudel oleks kasulik nii pildiotsingul kui ka nägemisvaegustega inimestele navigeerimisel. Eesti keel on morfoloogiliselt rikas (palju käändeid ja pöördeid), mis teeb selle modelleerimise keeruliseks. Enne kui on võimalik genereerida grammatiliselt korrektset kirjeldust, tuleb osata lauseid ja sõnu informatiivselt esitada. Selleks uurin neurovõrkudel põhinevaid meetodeid. Lisaks on eestikeelsed andmekogud tihti väiksemad kui analoogilised ingliskeelsed korpused. Uurin, kuidas kanda tarkust üle suurtest ingliskeelsetest andmekogudest, et eesti keeletehnoloogia rakenduste tulemusi parandada. Treenin uudse neurovõrkudel põhineva tõlkesüsteemi ingliskeelsete lausete tõlkimiseks eesti keelde. Näitan, et analoogilise mudeliga saab tõlkida ka pilte tekstiks. Töö käigus valmib esimene mudel, mis on edukalt võimeline pilte loomulikus eesti keeles kirjeldama.Item Privacy and coercion-resistance in voting(2022-04-19) Krips, Kristjan; Willemson, Jan, juhendaja; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondÜheks demokraatia nurgakiviks on inimeste õigus osaleda vabadel ja ausatel valimistel ning seeläbi määrata endale esindajad. Seetõttu on valimiste turvamine kriitilise tähtsusega, kuid selle ülesande muudavad keerukaks valimistele rakendatavad vastuolulised turvanõuded. Valimisvabaduse tagamiseks peab valijal olema võimalik anda oma hääl ilma välise mõjutuseta. Samaaegselt on vaja tagada, et korrektselt antud hääled võetakse häältelugemisel arvesse ning kajastuvad valimistulemuses. Postihääletamine ja internetihääletamine toovad esile valijate mõjutamisega seonduvad probleemid. Seetõttu uurisime internetihääletussüsteemide mõjutuskindluse saavutamiseks vajalikke meetmeid ning analüüsime nende praktilist rakendatavust. Uurimistöö tulemusena selgus, et hääle kontrollitavuse ja valija mõjutamatuse samaaegseks saavutamiseks võetakse sageli aluseks mitmeid eeldusi, mida on praktikas raske täita. Võrreldes internetihääletussüsteemidega on traditsiooniliste paberhääletussüsteemide turvalisust tänapäevase tehnoloogia kontekstis oluliselt vähem uuritud. Teadustööd näitavad, et valijate privaatsusega seonduvad riskid on olemas ka paberhääletussüsteemides. Meie poolt läbiviidud uurimuse tulemusena selgus, et valimissedeli täitmise käigus tekkiv heli lekitab infot valija poolt tehtud valiku kohta. Leiu illustreerimiseks ehitasime kaks prototüüpi, mis kasutasid mikrofone, et sedeli täitmisel tekkivaid signaalne kinni püüda. Sarnaselt teistele valimissüsteemidele oli ka Eestis kasutusel olevas internetihääletussüsteemis vaja leida tasakaal mõjutuskindluse ja terviklusomaduste vahel. Turvanõuetes olevate vastuolude tõttu ei saa kõiki riske maandada. Uurimistöö ühe osana kirjeldasime Eesti internetihääletussüsteemis olevaid nõrkusi ning pakkusime välja meetmed tuvastatud probleemide lahendamiseks. Viimase aspektina analüüsisime nutitelefonil hääletamisega kaasnevaid turvariske.Item Privacy-Preserving Data Synthesis Using Trusted Execution Environments(Tartu Ülikool, 2022) Veskus, Karl Hannes; Kamm, Liina, juhendaja; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutData synthesis is the process of generating new synthetic data from existing data. Often companies do not have the the in-house competence to synthesize data themselves, and are willing to outsource the process. However, synthesis requires access to the original data. Sharing data with a third party can be complex, especially so if it contains sensitive information or is considered as personal data by regulations such as the GDPR. The goal of this thesis is to develop a proof-of-concept privacy-preserving data synthesis service showing that it is possible to use trusted execution environments to perform data synthesis in a privacy-preserving manner. Such a service would enable outsourcing the data synthesis process to an untrusted remote server by ensuring that both the original and synthesized data are fully hidden from the untrusted server host throughout the lifecycle of the service. A prototype of the service was developed in the scope of an ongoing proof-of-concept project. To achieve the required security goals the service prototype uses trusted execution environment technologies, specifically the Sharemind HI development platform, which is in turn based on the Intel SGX platform. The developed service shows that synthesizing data in a privacy-preserving manner is indeed feasible if trusted execution environments are used. However, future work is needed to optimize the service to allow larger input and output files, and to support additional data synthesis methods.Item Raamistik närvivõrgupõhiste infoeraldustöövoogude loomiseks(Tartu Ülikool, 2022) Šuvalov, Hendrik; Särg, Dage, juhendaja; Kolde, Raivo, juhendaja; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutMeditsiinilised tekstid, nagu näiteks diagnoosid ja epikriisid, esinevad enamjaolt struktureerimata kujul, tihti vabateksti näol. Nendest tekstidest väärtusliku info (nimeolemid ja nendevahelised semantilised seosed) kättesaamiseks kasutatakse üldiselt reegli- ja mustripõhiseid lähenemisi, sh. regulaaravaldisi. Enamikel juhtudel on see kõige kiirem ja efektiivsem lähenemine, kuid eelkõige antud domeenis võib see olla keeruline, kui tekstis esineb palju kirjavigu või kui me ei tea täpselt, mis mustreid otsida. Sellisel juhul sooritaksid närvivõrgud edukamalt tööd kui reeglipõhised lähenemised, kuna nad oskavad ära õppida sõnade tähendused vastavalt kontekstile, milles need esinevad. Käesoleva töö tulemus on töövoog, mis lubab kasutajal luua infoeraldustöövooge meditsiinilistel tekstidel kasutades EstMedBERT keelemudelit, mis on spetsiifiliselt eel-treenitud eestikeelsetel meditsiinitekstidel ja mida saab peenhäälestada klassifitseerima sõnesid. Kui mudel on õppinud esialgsete andmete pealt ülesande ära, saab seda kasutada järgnevate tekstide märgendamiseks, mida kasutaja kontrollib ning järjest rohkemate andmete peal iteratiivselt treenib. Sellist tüüpi treenimist nimetatakse inimsekkumisega õppeks (human-in-the-loop) ning see on osa aktiivõppest. Selline lähenemine võib olla kasulikum teatud tüüpi infoeraldusülesanneteks ning uute nimeolemite leidmiseks töövoogude loomine võib antud lähenemise puhul kasutaja jaoks kergem olla, kuna see ei nõua temalt tehnilisi oskusi. Lisaks valminud tööle kasutasime ka enda arendatud töövoogu, et arendada enda EstMedBERT mudelit kasutav märgendaja, rakendasime seda tekstidele ning analüüsisime nii meie lähenemist kui ka tulemusi.