Raamistik närvivõrgupõhiste infoeraldustöövoogude loomiseks

dc.contributor.advisorSärg, Dage, juhendaja
dc.contributor.advisorKolde, Raivo, juhendaja
dc.contributor.advisorLaur, Sven, juhendaja
dc.contributor.authorŠuvalov, Hendrik
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2023-08-30T08:24:55Z
dc.date.available2023-08-30T08:24:55Z
dc.date.issued2022
dc.description.abstractMeditsiinilised tekstid, nagu näiteks diagnoosid ja epikriisid, esinevad enamjaolt struktureerimata kujul, tihti vabateksti näol. Nendest tekstidest väärtusliku info (nimeolemid ja nendevahelised semantilised seosed) kättesaamiseks kasutatakse üldiselt reegli- ja mustripõhiseid lähenemisi, sh. regulaaravaldisi. Enamikel juhtudel on see kõige kiirem ja efektiivsem lähenemine, kuid eelkõige antud domeenis võib see olla keeruline, kui tekstis esineb palju kirjavigu või kui me ei tea täpselt, mis mustreid otsida. Sellisel juhul sooritaksid närvivõrgud edukamalt tööd kui reeglipõhised lähenemised, kuna nad oskavad ära õppida sõnade tähendused vastavalt kontekstile, milles need esinevad. Käesoleva töö tulemus on töövoog, mis lubab kasutajal luua infoeraldustöövooge meditsiinilistel tekstidel kasutades EstMedBERT keelemudelit, mis on spetsiifiliselt eel-treenitud eestikeelsetel meditsiinitekstidel ja mida saab peenhäälestada klassifitseerima sõnesid. Kui mudel on õppinud esialgsete andmete pealt ülesande ära, saab seda kasutada järgnevate tekstide märgendamiseks, mida kasutaja kontrollib ning järjest rohkemate andmete peal iteratiivselt treenib. Sellist tüüpi treenimist nimetatakse inimsekkumisega õppeks (human-in-the-loop) ning see on osa aktiivõppest. Selline lähenemine võib olla kasulikum teatud tüüpi infoeraldusülesanneteks ning uute nimeolemite leidmiseks töövoogude loomine võib antud lähenemise puhul kasutaja jaoks kergem olla, kuna see ei nõua temalt tehnilisi oskusi. Lisaks valminud tööle kasutasime ka enda arendatud töövoogu, et arendada enda EstMedBERT mudelit kasutav märgendaja, rakendasime seda tekstidele ning analüüsisime nii meie lähenemist kui ka tulemusi.et
dc.identifier.urihttps://hdl.handle.net/10062/91793
dc.language.isoestet
dc.publisherTartu Ülikoolet
dc.rightsopenAccesset
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectNärvivõrgudet
dc.subjectBERTet
dc.subjectmedBERTet
dc.subjectinfoeraldustöövoodet
dc.subjectloomuliku keele töötluset
dc.subjectmeditsiinitekstidet
dc.subjecttöövoodet
dc.subjectnimeolemite märgendamineet
dc.subject.othermagistritöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticset
dc.subject.otherinfotechnologyet
dc.titleRaamistik närvivõrgupõhiste infoeraldustöövoogude loomisekset
dc.typeThesiset

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
suvalov_MSc_andmeteadus_2022.pdf
Size:
2.55 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: