Semi-Supervised Automatic Speech Recognition for Low Resource Languages
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
Automaatne kõnetuvastus on arvutiteaduse valdkond, mis on suunitletud kõne tuvastamise ja
tekstiks ümbertöötlemise meetodite ja tehnoloogiate väljatöötamisele. Kõnetuvastus leiab
laialdaselt rakendust erinevates inimese-arvuti liidestes. See tehnoloogia võimaldab näiteks
puuetega inimestel mõista transkribeeritud kõnet ja aitab neil juhtida arvutisüsteeme
kasutades kõnel põhinevat sisendit.
Üks peamisi väljakutseid kõnetuvastuse mudelite loomisel väheste ressurssidega
keeltele nagu eesti keel, on piisava koguse andmete puudus, mis on tarvilik närvivõrkudel
põhinevate masinõppe mudelite treenimiseks. Hiljuti aga on välja töötatud mitmekeelsed
pool-juhendamisega masinõppe mudelid, mis kasutavad juhendamata eeltreenimist suurel
kogusel märgendamata andmestikul ja juhendatud peen töötlemist väiksel kogusel
märgendatud andmetel. Need mudelid on demonstreerinud kõrget potentsiaali väheste
ressurssidega keelte kõnetuvastuse parendamiseks.
Käesolevas töös on uurimise all wav2vec 2.0 nimeline kõnetuvastuse masinõppe
mudeli arhitektuur. Töös implementeeritakse ühekeelne masinõppe mudel, mis on
eeltreenitud ja peentöödeldud vaid eestikeelsetel andmetel ning mitmekeelne masinõppe
mudel, mis on eeltreenitud eesti- ja ingliskeelsetel andmetel ning peentöödeldud
eestikeelsetel andmetel. Mudeleid hinnatakse eestikeelsetel test andmetel ning nende tulemusi
võrreldakse kasutades sõna ja tähemärgi vea määra.
Eksperimentide tulemused näitavad, et mitmekeelne eeltreenimine saavutab
eestikeelsetel andmetel sõna vea määra 12.1% ja tähemärgi vea määra 5%. Samal ajal
ühekeelne eeltreenimine saavutab sõna vea määra 26.9% ja tähemärgi vea määra 5.9%. Need
tulemused esindavad mitmekeelse mudeli jaoks 53.6% madalamat sõna vea määra ja 15.3%
madalamat märgi vea määra kui ühekeelsel mudelil ning toovad esile pool-juhendatud
mitmekeelse mudeli potentsiaali parandada väheste ressurssidega keelte kõnetuvastust
kasutades märgendamata andmeid.
Kirjeldus
Märksõnad
Automaatne kõnetuvastus, pool-juhendamisega õpe, väheste ressurssidega keeled