Semi-Supervised Automatic Speech Recognition for Low Resource Languages

dc.contributor.advisorFišel, Mark, juhendaja
dc.contributor.authorRoots, Karel
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2023-08-25T07:06:11Z
dc.date.available2023-08-25T07:06:11Z
dc.date.issued2022
dc.description.abstractAutomaatne kõnetuvastus on arvutiteaduse valdkond, mis on suunitletud kõne tuvastamise ja tekstiks ümbertöötlemise meetodite ja tehnoloogiate väljatöötamisele. Kõnetuvastus leiab laialdaselt rakendust erinevates inimese-arvuti liidestes. See tehnoloogia võimaldab näiteks puuetega inimestel mõista transkribeeritud kõnet ja aitab neil juhtida arvutisüsteeme kasutades kõnel põhinevat sisendit. Üks peamisi väljakutseid kõnetuvastuse mudelite loomisel väheste ressurssidega keeltele nagu eesti keel, on piisava koguse andmete puudus, mis on tarvilik närvivõrkudel põhinevate masinõppe mudelite treenimiseks. Hiljuti aga on välja töötatud mitmekeelsed pool-juhendamisega masinõppe mudelid, mis kasutavad juhendamata eeltreenimist suurel kogusel märgendamata andmestikul ja juhendatud peen töötlemist väiksel kogusel märgendatud andmetel. Need mudelid on demonstreerinud kõrget potentsiaali väheste ressurssidega keelte kõnetuvastuse parendamiseks. Käesolevas töös on uurimise all wav2vec 2.0 nimeline kõnetuvastuse masinõppe mudeli arhitektuur. Töös implementeeritakse ühekeelne masinõppe mudel, mis on eeltreenitud ja peentöödeldud vaid eestikeelsetel andmetel ning mitmekeelne masinõppe mudel, mis on eeltreenitud eesti- ja ingliskeelsetel andmetel ning peentöödeldud eestikeelsetel andmetel. Mudeleid hinnatakse eestikeelsetel test andmetel ning nende tulemusi võrreldakse kasutades sõna ja tähemärgi vea määra. Eksperimentide tulemused näitavad, et mitmekeelne eeltreenimine saavutab eestikeelsetel andmetel sõna vea määra 12.1% ja tähemärgi vea määra 5%. Samal ajal ühekeelne eeltreenimine saavutab sõna vea määra 26.9% ja tähemärgi vea määra 5.9%. Need tulemused esindavad mitmekeelse mudeli jaoks 53.6% madalamat sõna vea määra ja 15.3% madalamat märgi vea määra kui ühekeelsel mudelil ning toovad esile pool-juhendatud mitmekeelse mudeli potentsiaali parandada väheste ressurssidega keelte kõnetuvastust kasutades märgendamata andmeid.et
dc.identifier.urihttps://hdl.handle.net/10062/91753
dc.language.isoenget
dc.publisherTartu Ülikoolet
dc.rightsopenAccesset
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectAutomaatne kõnetuvastuset
dc.subjectpool-juhendamisega õpeet
dc.subjectväheste ressurssidega keeledet
dc.subject.othermagistritöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticset
dc.subject.otherinfotechnologyet
dc.titleSemi-Supervised Automatic Speech Recognition for Low Resource Languageset
dc.typeThesiset

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
Roots_MSc_software_engineering_2022.pdf
Suurus:
1.64 MB
Formaat:
Adobe Portable Document Format
Kirjeldus:

Litsentsi pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
license.txt
Suurus:
1.71 KB
Formaat:
Item-specific license agreed upon to submission
Kirjeldus: