Automaatne kõnesünteesi kvaliteedi hindamine soome-ugri keeltele

Tolmats, Mona

Automaatne kõnesünteesi kvaliteedi hindamine soome-ugri keeltele

dc.contributor.advisor	Rätsep, Liisa, juhendaja
dc.contributor.author	Tolmats, Mona
dc.contributor.other	Tartu Ülikool. Loodus- ja täppisteaduste valdkond	et
dc.contributor.other	Tartu Ülikool. Arvutiteaduse instituut	et
dc.date.accessioned	2025-10-28T07:44:22Z
dc.date.available	2025-10-28T07:44:22Z
dc.date.issued	2025
dc.description.abstract	Automatic evaluation of synthesised speech quality accelerates the development of text-to-speech models by replacing costly human listening tests based on mean opinion score. This capability is particularly valuable for low-resource languages, where only limited speech and text corpora are available and finding an adequate group of human evaluators is particularly challenging. The aim of this thesis is to train a model that evaluates the naturalness of Estonian synthetic speech and generalises to other Finno-Ugric languages. A wav2vec 2.0 was trained to predict mean opinion scores on Estonian text-to-speech models outputs. Separately, a wav2vec 2.0 model pre-trained using the SCOREQ loss function was fine-tuned, and the UTMOSv2 model was also adapted through fine-tuning. Training drew on three distinct datasets, while evaluation of cross-lingual generalisability was conducted on a single Võro-language test set. The experimental findings indicated that UTMOSv2 achieved the highest Pearson and Spearman correlations with human judgments and demonstrated superior generalisation to previously unseen Finno-Ugric languages.
dc.description.abstract	Sünteeskõne kvaliteedi automaatne hindamine kiirendab kõne sünteesivate mudelite arendust ja testimist, asendades standardse inimeste hinnangul põhineva keskmise arvamuse skoori leidmise. Antud tehnoloogia väljatöötamine on eriti oluline väiksema kõnelejaskonnaga keelte jaoks, mille puhul puuduvad ulatuslikud kõne- ja tekstiandmekogud ning piisava hulga hindajate kaasamine on keerulisem. Käesoleva töö eesmärk on treenida mudel, mis hindab eestikeelse sünteeskõne naturaalsust ja üldistub ka erinevatele soome-ugri keeltele. Treening- ja testandmeteks võeti nelja erineva aasta hindamiste tulemused. Mudelite üldistatavust hinnati võru keele põhjal. Esmalt treeniti wav2vec 2.0 mudel, seejärel peenhäälestati samal arhitektuuril põhinev mudel, mis oli eeltreenitud kasutades SCOREQ kaofunktsiooni. Viimaks peenhäälestati mudel UTMOSv2. Eksperimentide tulemused näitasid, et parima korrelatsiooni inimese poolt antud hinnangutega ja suurima üldistatavuse võru keelele saavutas UTMOSv2.
dc.identifier.uri	https://hdl.handle.net/10062/117135
dc.language.iso	et
dc.publisher	Tartu Ülikool	et
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	automaatne kõnesünteesi hindamine
dc.subject	soome-ugri keeled
dc.subject	tehisnärvivõrk
dc.subject	wav2vec 2.0
dc.subject	UTMOSv2
dc.subject	SCOREQ kaofunktsioon
dc.subject.other	bakalaureusetööd	et
dc.subject.other	informaatika	et
dc.subject.other	infotehnoloogia	et
dc.subject.other	informatics	en
dc.subject.other	infotechnology	en
dc.title	Automaatne kõnesünteesi kvaliteedi hindamine soome-ugri keeltele
dc.title.alternative	Automatic Speech Synthesis Quality Assessment for Finno-Ugric Languages
dc.type	Thesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1

Nimi:: TolmatsMona_bakalauruse_2025.pdf
Suurus:: 1.52 MB
Formaat:: Adobe Portable Document Format

Lae alla

Kollektsioonid

LTAT bakalaureusetööd – Bachelor's theses