Development of the text archivers using linguistic features of the language

dc.contributor.advisorBocharova, Irina, juhendaja
dc.contributor.authorŠiškov, Artjom
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-20T10:59:36Z
dc.date.available2025-10-20T10:59:36Z
dc.date.issued2025
dc.description.abstractSee lõputöö keskendub tekstiarhiveerija arendamise protsessile, mis kasutab keele keelelisi iseärasusi, nagu sõnalõpud, digraafid, eessõnad jne. Põhiidee on arendada arhiveerijat eelnevalt valmistatud sõnastiku abil, mis sisaldab antud keelest kõige sagedamini kasutatavaid sõnu või sõnaosi. Lõputöö koosneb neljast osast. Esimene osa tutvustab lugejale põhiideed. Teine osa annab teavet erinevate tihendusalgoritmide ja vajalike ettevalmistavate teadmiste kohta. Kolmas osa käsitleb väljatöötatud arhiveerijat ennast ja testimistulemusi, kus eelnevalt valmistatud sõnastiku idee osutus tõhusaks. Neljas osa võtab lõputöö üldiselt kokku ja kirjeldab arhiveerija arendamise ja täiustamise tulevikuplaane.
dc.identifier.urihttps://hdl.handle.net/10062/116900
dc.language.isoen
dc.publisherTartu Ülikoolet
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectAlgorithms
dc.subjectcompression
dc.subjectlossless compression
dc.subjectarchiver
dc.subjectarchiving
dc.subjectlinguistics
dc.subjecttext archiving
dc.subjectLZW algorithm
dc.subjectLZ77 algorithm
dc.subjectLZ78 algorithm
dc.subjectHuffman algorithm
dc.subjectarithmetic coding
dc.subjectShannon algorithm
dc.subjectShannon-Fano-Elias algorithm
dc.subjectdevelopment
dc.subjectrussian language
dc.subjectenglish language
dc.subjectestonian language
dc.subjectentropy
dc.subjectinformation content
dc.subjectcodeword
dc.subjecttihendamine
dc.subjectkadudeta tihendamine
dc.subjectarhiveerija
dc.subjectarhiveerimine
dc.subjectkeeleteadus
dc.subjectteksti arhiveerimine
dc.subjectvene keel
dc.subjectinglise keel
dc.subjecteesti keel
dc.subjectentroopia
dc.subjectinfosisaldus
dc.subjectkoodsõna
dc.subject.otherbakalaureusetöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleDevelopment of the text archivers using linguistic features of the language
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
siskov_ComputerScience_2025.pdf
Suurus:
722.06 KB
Formaat:
Adobe Portable Document Format