Development of the text archivers using linguistic features of the language

Laen...
Pisipilt

Kuupäev

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Tartu Ülikool

Abstrakt

See lõputöö keskendub tekstiarhiveerija arendamise protsessile, mis kasutab keele keelelisi iseärasusi, nagu sõnalõpud, digraafid, eessõnad jne. Põhiidee on arendada arhiveerijat eelnevalt valmistatud sõnastiku abil, mis sisaldab antud keelest kõige sagedamini kasutatavaid sõnu või sõnaosi. Lõputöö koosneb neljast osast. Esimene osa tutvustab lugejale põhiideed. Teine osa annab teavet erinevate tihendusalgoritmide ja vajalike ettevalmistavate teadmiste kohta. Kolmas osa käsitleb väljatöötatud arhiveerijat ennast ja testimistulemusi, kus eelnevalt valmistatud sõnastiku idee osutus tõhusaks. Neljas osa võtab lõputöö üldiselt kokku ja kirjeldab arhiveerija arendamise ja täiustamise tulevikuplaane.

Kirjeldus

Märksõnad

Algorithms, compression, lossless compression, archiver, archiving, linguistics, text archiving, LZW algorithm, LZ77 algorithm, LZ78 algorithm, Huffman algorithm, arithmetic coding, Shannon algorithm, Shannon-Fano-Elias algorithm, development, russian language, english language, estonian language, entropy, information content, codeword, tihendamine, kadudeta tihendamine, arhiveerija, arhiveerimine, keeleteadus, teksti arhiveerimine, vene keel, inglise keel, eesti keel, entroopia, infosisaldus, koodsõna

Viide