Tekstandmete ettevalmistamine suurte keelemudelite treenimiseks

Pastarus, Tanel

Tekstandmete ettevalmistamine suurte keelemudelite treenimiseks

Failid

Pastarus_informaatika_2024.pdf (239.63 KB)

Kuupäev

2024

Autorid

Pastarus, Tanel

Kirjastaja

Tartu Ülikool

Abstrakt

This bachelor’s thesis focuses on restoring the original order of translated text data by referencing the original text corpus documents. After the translation process, some sentences contained errors, which the author tried to fix by processing them. Additionally, a pilot test was conducted by fine-tuning three GPT-2 models on the processed data to assess the viability of using translated text data for training language models.

Märksõnad

Keelemudelid, tekstikorpus, tekstiandmestik, peenhäälestamine, töötlemine, Language models, text corpus

URI

https://hdl.handle.net/10062/105100

Kollektsioonid

LTAT bakalaureusetööd – Bachelor's theses

Kirje täielik lehekülg

Tekstandmete ettevalmistamine suurte keelemudelite treenimiseks

Failid

Kuupäev

Autorid

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Abstrakt

Kirjeldus

Märksõnad

Viide

URI

Kollektsioonid