Development of the text archivers using linguistic features of the language
| dc.contributor.advisor | Bocharova, Irina, juhendaja | |
| dc.contributor.author | Šiškov, Artjom | |
| dc.contributor.other | Tartu Ülikool. Loodus- ja täppisteaduste valdkond | et |
| dc.contributor.other | Tartu Ülikool. Arvutiteaduse instituut | et |
| dc.date.accessioned | 2025-10-20T10:59:36Z | |
| dc.date.available | 2025-10-20T10:59:36Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | See lõputöö keskendub tekstiarhiveerija arendamise protsessile, mis kasutab keele keelelisi iseärasusi, nagu sõnalõpud, digraafid, eessõnad jne. Põhiidee on arendada arhiveerijat eelnevalt valmistatud sõnastiku abil, mis sisaldab antud keelest kõige sagedamini kasutatavaid sõnu või sõnaosi. Lõputöö koosneb neljast osast. Esimene osa tutvustab lugejale põhiideed. Teine osa annab teavet erinevate tihendusalgoritmide ja vajalike ettevalmistavate teadmiste kohta. Kolmas osa käsitleb väljatöötatud arhiveerijat ennast ja testimistulemusi, kus eelnevalt valmistatud sõnastiku idee osutus tõhusaks. Neljas osa võtab lõputöö üldiselt kokku ja kirjeldab arhiveerija arendamise ja täiustamise tulevikuplaane. | |
| dc.identifier.uri | https://hdl.handle.net/10062/116900 | |
| dc.language.iso | en | |
| dc.publisher | Tartu Ülikool | et |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Algorithms | |
| dc.subject | compression | |
| dc.subject | lossless compression | |
| dc.subject | archiver | |
| dc.subject | archiving | |
| dc.subject | linguistics | |
| dc.subject | text archiving | |
| dc.subject | LZW algorithm | |
| dc.subject | LZ77 algorithm | |
| dc.subject | LZ78 algorithm | |
| dc.subject | Huffman algorithm | |
| dc.subject | arithmetic coding | |
| dc.subject | Shannon algorithm | |
| dc.subject | Shannon-Fano-Elias algorithm | |
| dc.subject | development | |
| dc.subject | russian language | |
| dc.subject | english language | |
| dc.subject | estonian language | |
| dc.subject | entropy | |
| dc.subject | information content | |
| dc.subject | codeword | |
| dc.subject | tihendamine | |
| dc.subject | kadudeta tihendamine | |
| dc.subject | arhiveerija | |
| dc.subject | arhiveerimine | |
| dc.subject | keeleteadus | |
| dc.subject | teksti arhiveerimine | |
| dc.subject | vene keel | |
| dc.subject | inglise keel | |
| dc.subject | eesti keel | |
| dc.subject | entroopia | |
| dc.subject | infosisaldus | |
| dc.subject | koodsõna | |
| dc.subject.other | bakalaureusetööd | et |
| dc.subject.other | informaatika | et |
| dc.subject.other | infotehnoloogia | et |
| dc.subject.other | informatics | en |
| dc.subject.other | infotechnology | en |
| dc.title | Development of the text archivers using linguistic features of the language | |
| dc.type | Thesis |
Failid
Originaal pakett
1 - 1 1
Laen...
- Nimi:
- siskov_ComputerScience_2025.pdf
- Suurus:
- 722.06 KB
- Formaat:
- Adobe Portable Document Format