Estonian Simultaneous Speech-to-Text Machine Translation
| dc.contributor.advisor | Fišel, Mark, juhendaja | |
| dc.contributor.author | Lepson, Henrik | |
| dc.contributor.other | Tartu Ülikool. Loodus- ja täppisteaduste valdkond | et |
| dc.contributor.other | Tartu Ülikool. Arvutiteaduse instituut | et |
| dc.date.accessioned | 2025-10-28T08:28:27Z | |
| dc.date.available | 2025-10-28T08:28:27Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | Simultaneous machine translation is a task, where the translation system is expected to start translating before having access to the entire input sequence. This makes it a challenging and error-prone task. This thesis explored the feasibility of using pre-trained open models for simultaneous speech-to-text translation on the Estonian-English, Estonian-Russian, English-Estonian and Russian-Estonian directions. Two types of systems were evaluated: cascaded and end-to-end. The cascaded system relied on Whisper large-v3-turbo and NLLB-200 distilled 1.3B. The end-to-end system was based on Seamless M4Tv2 large. In addition, both systems used Voice Activity Detection (VAD) and LocalAgreement. The systems were compared with and without fine-tuning. For fine-tuning, a synthetic dataset with more than 4 million samples was created from various publicly available datasets. The dataset contained a 1:1 mix of full and partial sequences. The evaluation results showed that both systems are strongest on the Estonian-English direction followed by English-Estonian. Estonian-English direction can be translated without additional fine-tuning. Both systems struggled on the Estonian-Russian and Russian-Estonian directions. The translation quality and latency improved for both directions after fine-tuning. | |
| dc.description.abstract | Sünkroonne masintõlge on valdkond, kus tõlkesüsteem peab hakkama tõlkima osalise sisendi põhjal, millest tulenevalt on tegu keerulise ja veaohtliku ülesandega, eriti kui varasema väljundi parandamine ei ole lubatud. Selles töös uuriti levinud vabade kaaludega masinõppe mudelite võimekust tõlkida sünkroonselt eesti-inglise, eesti-vene, inglise-eesti ja vene-eesti suundade vahel. Tõlkimiseks loodi kaks erinevat süsteemi. Esimene oli kaskaadsüsteem, mis kasutas Whisper large-v3-turbo mudelit transkriptsioonide loomiseks ja NLLB-200 distilled 1.3B mudelit tõlkimiseks. Teine süsteem põhines Seamless M4Tv2 large mudelil. Lisaks kasutasid mõlemad süsteemid VAD-i ja LocalAgreement strateegiat. Süsteeme võrreldi ilma ja koos peenhäälestamisega. Mudelite peenhäälestamiseks loodi avalike andmestike põhjal enam kui 4 miljonist näitest koosnev sünteetiline andmestik, mis sisaldas võrdsetes osades täielikke ja osalisi lauseid. Mõlemad süsteemid olid ilma peenhäälestamiseta tugevad eesti-inglise suunal, kuid ka inglise-eesti tulemused olid rahuldavad. Eesti-vene ja vene-eesti suundadel tõlkimiseks oli peenhäälestamine vajalik, mille tulemusena paranes tõlke kvaliteet ning vähenes sisendi ja väljundi vaheline viivitus. | |
| dc.identifier.uri | https://hdl.handle.net/10062/117139 | |
| dc.language.iso | en | |
| dc.publisher | Tartu Ülikool | et |
| dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Whisper | |
| dc.subject | Simultaneous machine translation | |
| dc.subject | VAD | |
| dc.subject | NLLB-200 | |
| dc.subject | Seamless | |
| dc.subject.other | magistritööd | et |
| dc.subject.other | informaatika | et |
| dc.subject.other | infotehnoloogia | et |
| dc.subject.other | informatics | en |
| dc.subject.other | infotechnology | en |
| dc.title | Estonian Simultaneous Speech-to-Text Machine Translation | |
| dc.title.alternative | Kõnesignaali sünkroonne masintõlge eesti-inglise ja eesti-vene keelepaaride vahel | |
| dc.type | Thesis | en |
Failid
Originaal pakett
1 - 1 1
Laen...
- Nimi:
- Lepson_computer_science_2025.pdf
- Suurus:
- 576.09 KB
- Formaat:
- Adobe Portable Document Format