Loengute tõlkimine ja subtiitrite genereerimine

dc.contributor.advisorTampuu, Ardi, juhendaja
dc.contributor.authorPüss, Hendrik
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-24T09:18:12Z
dc.date.available2025-10-24T09:18:12Z
dc.date.issued2025
dc.description.abstractAt the Institute of Computer Science, University of Tartu, a sizable portion of study materials and public lectures are available only in English. This limits their accessibility for the Estonian-speaking audience who may not possess sufficient English language proficiency. The main objective of this bachelor's thesis was to develop a software solution that automates the process of transcribing English-language academic lectures, translating them into Estonian, and generating timed subtitles, thereby reducing the need for time-consuming manual labor. To achieve this goal, an application was developed integrating modern artificial intelligence technologies. The application utilizes the OpenAI Whisper model for automatic speech recognition (transcription) and the OpenAI ChatGPT API for machine translation of the generated transcriptions from English to Estonian. Additionally, the moviepy library was employed for processing video and audio files, and the Streamlit framework was used to create an interactive user interface. The core functionality of the application encompasses three sequential stages: first, transcribing the lecture's audio track into text; second, translating the resulting English transcription into Estonian; and third, generating accurately timed subtitles in the common SubRip (.srt) format based on the translated text. The developed solution offers a practical tool for improving the accessibility of English-language academic content in Estonia.
dc.description.abstract Tartu Ülikooli Arvutiteaduse instituudis on märkimisväärne osa õppematerjalidest ja avalikest loengutest kättesaadavad vaid inglise keeles. See seab piirangud nende materjalide ligipääsetavusele eestikeelsele sihtrühmale, kes ei pruugi inglise keelt piisaval tasemel vallata. Käesoleva bakalaureusetöö peamiseks eesmärgiks oli välja töötada tarkvaraline lahendus, mis automatiseerib ingliskeelsete akadeemiliste loengute transkribeerimise, eesti keelde tõlkimise ning ajastatud subtiitrite genereerimise protsessi, vähendades seeläbi vajadust aeganõudva manuaalse töö järele. Selle eesmärgi saavutamiseks arendati välja rakendus, mis integreerib kaasaegseid tehisintellekti tehnoloogiaid. Rakendus kasutab OpenAI Whisper mudelit automaatseks kõnetuvastuseks (transkribeerimiseks) ning OpenAI ChatGPT API-t genereeritud transkriptsioonide masintõlkeks inglise keelest eesti keelde. Lisaks rakendati moviepy teeki video- ja helifailide töötlemiseks ning Streamlit raamistikku interaktiivse kasutajaliidese loomiseks. Rakenduse põhifunktsionaalsus hõlmab kolme järjestikust etappi: esiteks loengu heliraja transkribeerimine tekstiks, teiseks saadud ingliskeelse transkriptsiooni tõlkimine eesti keelde ning kolmandaks tõlgitud teksti põhjal täpselt ajastatud subtiitrite genereerimine levinud SubRip (.srt) vormingus. Välja töötatud lahendus pakub praktilist tööriista ingliskeelse akadeemilise sisu kättesaadavuse parandamiseks Eestis.
dc.identifier.urihttps://hdl.handle.net/10062/117070
dc.language.isoet
dc.publisherTartu Ülikoolet
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectmoviepy
dc.subjectautomaatne transkribeerimine
dc.subjectmasintõlge
dc.subjectsubtiitrite genereerimine
dc.subjectChatGPT
dc.subjectligipääsetavus
dc.subjectStreamlit
dc.subjectWhisper
dc.subject.otherbakalaureusetöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleLoengute tõlkimine ja subtiitrite genereerimine
dc.title.alternativeLecture Translation and Generation of Subtitles
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
puss_informaatika_2025.pdf
Suurus:
771.73 KB
Formaat:
Adobe Portable Document Format