Raamistik närvivõrgupõhiste infoeraldustöövoogude loomiseks

Šuvalov, Hendrik

Raamistik närvivõrgupõhiste infoeraldustöövoogude loomiseks

dc.contributor.advisor	Särg, Dage, juhendaja
dc.contributor.advisor	Kolde, Raivo, juhendaja
dc.contributor.advisor	Laur, Sven, juhendaja
dc.contributor.author	Šuvalov, Hendrik
dc.contributor.other	Tartu Ülikool. Loodus- ja täppisteaduste valdkond	et
dc.contributor.other	Tartu Ülikool. Arvutiteaduse instituut	et
dc.date.accessioned	2023-08-30T08:24:55Z
dc.date.available	2023-08-30T08:24:55Z
dc.date.issued	2022
dc.description.abstract	Meditsiinilised tekstid, nagu näiteks diagnoosid ja epikriisid, esinevad enamjaolt struktureerimata kujul, tihti vabateksti näol. Nendest tekstidest väärtusliku info (nimeolemid ja nendevahelised semantilised seosed) kättesaamiseks kasutatakse üldiselt reegli- ja mustripõhiseid lähenemisi, sh. regulaaravaldisi. Enamikel juhtudel on see kõige kiirem ja efektiivsem lähenemine, kuid eelkõige antud domeenis võib see olla keeruline, kui tekstis esineb palju kirjavigu või kui me ei tea täpselt, mis mustreid otsida. Sellisel juhul sooritaksid närvivõrgud edukamalt tööd kui reeglipõhised lähenemised, kuna nad oskavad ära õppida sõnade tähendused vastavalt kontekstile, milles need esinevad. Käesoleva töö tulemus on töövoog, mis lubab kasutajal luua infoeraldustöövooge meditsiinilistel tekstidel kasutades EstMedBERT keelemudelit, mis on spetsiifiliselt eel-treenitud eestikeelsetel meditsiinitekstidel ja mida saab peenhäälestada klassifitseerima sõnesid. Kui mudel on õppinud esialgsete andmete pealt ülesande ära, saab seda kasutada järgnevate tekstide märgendamiseks, mida kasutaja kontrollib ning järjest rohkemate andmete peal iteratiivselt treenib. Sellist tüüpi treenimist nimetatakse inimsekkumisega õppeks (human-in-the-loop) ning see on osa aktiivõppest. Selline lähenemine võib olla kasulikum teatud tüüpi infoeraldusülesanneteks ning uute nimeolemite leidmiseks töövoogude loomine võib antud lähenemise puhul kasutaja jaoks kergem olla, kuna see ei nõua temalt tehnilisi oskusi. Lisaks valminud tööle kasutasime ka enda arendatud töövoogu, et arendada enda EstMedBERT mudelit kasutav märgendaja, rakendasime seda tekstidele ning analüüsisime nii meie lähenemist kui ka tulemusi.	et
dc.identifier.uri	https://hdl.handle.net/10062/91793
dc.language.iso	est	et
dc.publisher	Tartu Ülikool	et
dc.rights	openAccess	et
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Närvivõrgud	et
dc.subject	BERT	et
dc.subject	medBERT	et
dc.subject	infoeraldustöövood	et
dc.subject	loomuliku keele töötlus	et
dc.subject	meditsiinitekstid	et
dc.subject	töövood	et
dc.subject	nimeolemite märgendamine	et
dc.subject.other	magistritööd	et
dc.subject.other	informaatika	et
dc.subject.other	infotehnoloogia	et
dc.subject.other	informatics	et
dc.subject.other	infotechnology	et
dc.title	Raamistik närvivõrgupõhiste infoeraldustöövoogude loomiseks	et
dc.type	Thesis	et

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1

Nimi:: suvalov_MSc_andmeteadus_2022.pdf
Suurus:: 2.55 MB
Formaat:: Adobe Portable Document Format
Kirjeldus:

Lae alla

Litsentsi pakett

Nüüd näidatakse 1 - 1 1

Nimi:: license.txt
Suurus:: 1.71 KB
Formaat:: Item-specific license agreed upon to submission
Kirjeldus:

Lae alla

Kollektsioonid

LTAT magistritööd – Master's theses