Tekstandmete ettevalmistamine suurte keelemudelite treenimiseks

Fišel, Mark, juhendajaPastarus, TanelTartu Ülikool. Loodus- ja täppisteaduste valdkondTartu Ülikool. Arvutiteaduse instituut2024-10-042024-10-042024https://hdl.handle.net/10062/105100This bachelor’s thesis focuses on restoring the original order of translated text data by referencing the original text corpus documents. After the translation process, some sentences contained errors, which the author tried to fix by processing them. Additionally, a pilot test was conducted by fine-tuning three GPT-2 models on the processed data to assess the viability of using translated text data for training language models.etAttribution-NonCommercial-NoDerivs 3.0 Estoniahttp://creativecommons.org/licenses/by-nc-nd/3.0/ee/KeelemudelidtekstikorpustekstiandmestikpeenhäälestaminetöötlemineLanguage modelstext corpusbakalaureusetöödinformaatikainfotehnoloogiainformaticsinfotechnologyTekstandmete ettevalmistamine suurte keelemudelite treenimiseksThesis