Rätsep, Liisa, juhendajaTolmats, MonaTartu Ülikool. Loodus- ja täppisteaduste valdkondTartu Ülikool. Arvutiteaduse instituut2025-10-282025-10-282025https://hdl.handle.net/10062/117135Automatic evaluation of synthesised speech quality accelerates the development of text-to-speech models by replacing costly human listening tests based on mean opinion score. This capability is particularly valuable for low-resource languages, where only limited speech and text corpora are available and finding an adequate group of human evaluators is particularly challenging. The aim of this thesis is to train a model that evaluates the naturalness of Estonian synthetic speech and generalises to other Finno-Ugric languages. A wav2vec 2.0 was trained to predict mean opinion scores on Estonian text-to-speech models outputs. Separately, a wav2vec 2.0 model pre-trained using the SCOREQ loss function was fine-tuned, and the UTMOSv2 model was also adapted through fine-tuning. Training drew on three distinct datasets, while evaluation of cross-lingual generalisability was conducted on a single Võro-language test set. The experimental findings indicated that UTMOSv2 achieved the highest Pearson and Spearman correlations with human judgments and demonstrated superior generalisation to previously unseen Finno-Ugric languages.Sünteeskõne kvaliteedi automaatne hindamine kiirendab kõne sünteesivate mudelite arendust ja testimist, asendades standardse inimeste hinnangul põhineva keskmise arvamuse skoori leidmise. Antud tehnoloogia väljatöötamine on eriti oluline väiksema kõnelejaskonnaga keelte jaoks, mille puhul puuduvad ulatuslikud kõne- ja tekstiandmekogud ning piisava hulga hindajate kaasamine on keerulisem. Käesoleva töö eesmärk on treenida mudel, mis hindab eestikeelse sünteeskõne naturaalsust ja üldistub ka erinevatele soome-ugri keeltele. Treening- ja testandmeteks võeti nelja erineva aasta hindamiste tulemused. Mudelite üldistatavust hinnati võru keele põhjal. Esmalt treeniti wav2vec 2.0 mudel, seejärel peenhäälestati samal arhitektuuril põhinev mudel, mis oli eeltreenitud kasutades SCOREQ kaofunktsiooni. Viimaks peenhäälestati mudel UTMOSv2. Eksperimentide tulemused näitasid, et parima korrelatsiooni inimese poolt antud hinnangutega ja suurima üldistatavuse võru keelele saavutas UTMOSv2.ethttps://creativecommons.org/licenses/by-nc-nd/4.0/automaatne kõnesünteesi hindaminesoome-ugri keeledtehisnärvivõrkwav2vec 2.0UTMOSv2SCOREQ kaofunktsioonbakalaureusetöödinformaatikainfotehnoloogiainformaticsinfotechnologyAutomaatne kõnesünteesi kvaliteedi hindamine soome-ugri keelteleAutomatic Speech Synthesis Quality Assessment for Finno-Ugric LanguagesThesis