Automaatne kõnesünteesi kvaliteedi hindamine soome-ugri keeltele

dc.contributor.advisorRätsep, Liisa, juhendaja
dc.contributor.authorTolmats, Mona
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-28T07:44:22Z
dc.date.available2025-10-28T07:44:22Z
dc.date.issued2025
dc.description.abstractAutomatic evaluation of synthesised speech quality accelerates the development of text-to-speech models by replacing costly human listening tests based on mean opinion score. This capability is particularly valuable for low-resource languages, where only limited speech and text corpora are available and finding an adequate group of human evaluators is particularly challenging. The aim of this thesis is to train a model that evaluates the naturalness of Estonian synthetic speech and generalises to other Finno-Ugric languages. A wav2vec 2.0 was trained to predict mean opinion scores on Estonian text-to-speech models outputs. Separately, a wav2vec 2.0 model pre-trained using the SCOREQ loss function was fine-tuned, and the UTMOSv2 model was also adapted through fine-tuning. Training drew on three distinct datasets, while evaluation of cross-lingual generalisability was conducted on a single Võro-language test set. The experimental findings indicated that UTMOSv2 achieved the highest Pearson and Spearman correlations with human judgments and demonstrated superior generalisation to previously unseen Finno-Ugric languages.
dc.description.abstract Sünteeskõne kvaliteedi automaatne hindamine kiirendab kõne sünteesivate mudelite arendust ja testimist, asendades standardse inimeste hinnangul põhineva keskmise arvamuse skoori leidmise. Antud tehnoloogia väljatöötamine on eriti oluline väiksema kõnelejaskonnaga keelte jaoks, mille puhul puuduvad ulatuslikud kõne- ja tekstiandmekogud ning piisava hulga hindajate kaasamine on keerulisem. Käesoleva töö eesmärk on treenida mudel, mis hindab eestikeelse sünteeskõne naturaalsust ja üldistub ka erinevatele soome-ugri keeltele. Treening- ja testandmeteks võeti nelja erineva aasta hindamiste tulemused. Mudelite üldistatavust hinnati võru keele põhjal. Esmalt treeniti wav2vec 2.0 mudel, seejärel peenhäälestati samal arhitektuuril põhinev mudel, mis oli eeltreenitud kasutades SCOREQ kaofunktsiooni. Viimaks peenhäälestati mudel UTMOSv2. Eksperimentide tulemused näitasid, et parima korrelatsiooni inimese poolt antud hinnangutega ja suurima üldistatavuse võru keelele saavutas UTMOSv2.
dc.identifier.urihttps://hdl.handle.net/10062/117135
dc.language.isoet
dc.publisherTartu Ülikoolet
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectautomaatne kõnesünteesi hindamine
dc.subjectsoome-ugri keeled
dc.subjecttehisnärvivõrk
dc.subjectwav2vec 2.0
dc.subjectUTMOSv2
dc.subjectSCOREQ kaofunktsioon
dc.subject.otherbakalaureusetöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleAutomaatne kõnesünteesi kvaliteedi hindamine soome-ugri keeltele
dc.title.alternativeAutomatic Speech Synthesis Quality Assessment for Finno-Ugric Languages
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
TolmatsMona_bakalauruse_2025.pdf
Suurus:
1.52 MB
Formaat:
Adobe Portable Document Format