Raamistik närvivõrgupõhiste infoeraldustöövoogude loomiseks
Date
2022
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Tartu Ülikool
Abstract
Meditsiinilised tekstid, nagu näiteks diagnoosid ja epikriisid, esinevad enamjaolt struktureerimata
kujul, tihti vabateksti näol. Nendest tekstidest väärtusliku info (nimeolemid
ja nendevahelised semantilised seosed) kättesaamiseks kasutatakse üldiselt reegli- ja
mustripõhiseid lähenemisi, sh. regulaaravaldisi. Enamikel juhtudel on see kõige kiirem
ja efektiivsem lähenemine, kuid eelkõige antud domeenis võib see olla keeruline, kui
tekstis esineb palju kirjavigu või kui me ei tea täpselt, mis mustreid otsida. Sellisel juhul
sooritaksid närvivõrgud edukamalt tööd kui reeglipõhised lähenemised, kuna nad oskavad
ära õppida sõnade tähendused vastavalt kontekstile, milles need esinevad. Käesoleva
töö tulemus on töövoog, mis lubab kasutajal luua infoeraldustöövooge meditsiinilistel
tekstidel kasutades EstMedBERT keelemudelit, mis on spetsiifiliselt eel-treenitud eestikeelsetel
meditsiinitekstidel ja mida saab peenhäälestada klassifitseerima sõnesid. Kui
mudel on õppinud esialgsete andmete pealt ülesande ära, saab seda kasutada järgnevate
tekstide märgendamiseks, mida kasutaja kontrollib ning järjest rohkemate andmete
peal iteratiivselt treenib. Sellist tüüpi treenimist nimetatakse inimsekkumisega õppeks
(human-in-the-loop) ning see on osa aktiivõppest. Selline lähenemine võib olla kasulikum
teatud tüüpi infoeraldusülesanneteks ning uute nimeolemite leidmiseks töövoogude
loomine võib antud lähenemise puhul kasutaja jaoks kergem olla, kuna see ei nõua
temalt tehnilisi oskusi. Lisaks valminud tööle kasutasime ka enda arendatud töövoogu, et
arendada enda EstMedBERT mudelit kasutav märgendaja, rakendasime seda tekstidele
ning analüüsisime nii meie lähenemist kui ka tulemusi.
Description
Keywords
Närvivõrgud, BERT, medBERT, infoeraldustöövood, loomuliku keele töötlus, meditsiinitekstid, töövood, nimeolemite märgendamine