Development of the text archivers using linguistic features of the language

Šiškov, Artjom

Development of the text archivers using linguistic features of the language

Failid

siskov_ComputerScience_2025.pdf (722.06 KB)

Kuupäev

2025

Autorid

Šiškov, Artjom

Kirjastaja

Tartu Ülikool

Abstrakt

See lõputöö keskendub tekstiarhiveerija arendamise protsessile, mis kasutab keele keelelisi iseärasusi, nagu sõnalõpud, digraafid, eessõnad jne. Põhiidee on arendada arhiveerijat eelnevalt valmistatud sõnastiku abil, mis sisaldab antud keelest kõige sagedamini kasutatavaid sõnu või sõnaosi. Lõputöö koosneb neljast osast. Esimene osa tutvustab lugejale põhiideed. Teine osa annab teavet erinevate tihendusalgoritmide ja vajalike ettevalmistavate teadmiste kohta. Kolmas osa käsitleb väljatöötatud arhiveerijat ennast ja testimistulemusi, kus eelnevalt valmistatud sõnastiku idee osutus tõhusaks. Neljas osa võtab lõputöö üldiselt kokku ja kirjeldab arhiveerija arendamise ja täiustamise tulevikuplaane.

Märksõnad

Algorithms, compression, lossless compression, archiver, archiving, linguistics, text archiving, LZW algorithm, LZ77 algorithm, LZ78 algorithm, Huffman algorithm, arithmetic coding, Shannon algorithm, Shannon-Fano-Elias algorithm, development, russian language, english language, estonian language, entropy, information content, codeword, tihendamine, kadudeta tihendamine, arhiveerija, arhiveerimine, keeleteadus, teksti arhiveerimine, vene keel, inglise keel, eesti keel, entroopia, infosisaldus, koodsõna

URI

https://hdl.handle.net/10062/116900

Kollektsioonid

LTAT bakalaureusetööd – Bachelor's theses

Kirje täielik lehekülg

Development of the text archivers using linguistic features of the language

Failid

Kuupäev

Autorid

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Abstrakt

Kirjeldus

Märksõnad

Viide

URI

Kollektsioonid