Eestikeele sisukokkuvõtja edasiarendamine

dc.contributor.advisorAller, Sven, juhendaja
dc.contributor.authorPeedosk, Marko
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-28T10:52:03Z
dc.date.available2025-10-28T10:52:03Z
dc.date.issued2025
dc.description.abstractIn an information-rich environment, automatic summarization helps save time by highlighting key content and enabling faster text navigation. EstSum was enhanced with semantic analysis: two linguistic modules were added, and transfer learning was tested using a few-shot approach to evaluate performance with limited training data. The wordnet-based module slightly improved accuracy but significantly slowed the system, while the language model–based module achieved a negligible increase in accuracy without affecting speed. Although few-shot performance matched the baseline, further improvements are possible by supplying more training examples and refining prompts. To improve accessibility, a web-based user interface was also developed for non-technical users.
dc.description.abstract Infoküllases keskkonnas aitab automaatne sisukokkuvõtja säästa aega, tõstes esile olulisemad tekstiosad ja toetades kiiret orienteerumist sisus. EstSumi täiustati semantilise analüüsi võimalustega: lisati kaks lingvistilist moodulit ning katsetati siirdeõpet few-shot meetodil, et hinnata selle sobivust väikese andmestikuga töötamiseks. Üks moodulitest põhines wordnetil, parandades küll veidi täpsust, kuid vähendades süsteemi jõudlust märgatavalt. Keelemudelil põhinev moodul parandas täpsust ja säilitas töökiiruse. Siirdeõppe tulemuslikkus jäi samale tasemele EstSumi baasversiooniga. Keelemudelitel põhinevat lähenemisviisi saab edasi arendada, andes mudelile siirdeõppe käigus rohkem treeningandmeid ning täpsustades viipa. Lisaks loodi veebipõhine kasutajaliides, mis võimaldab süsteemi kasutada ka mittetehnilistel kasutajatel.
dc.identifier.urihttps://hdl.handle.net/10062/117150
dc.language.isoet
dc.publisherTartu Ülikoolet
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectEstSum
dc.subjectsummarization
dc.subjectartificial intelligence
dc.subjectWordNet
dc.subject.otherbakalaureusetöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleEestikeele sisukokkuvõtja edasiarendamine
dc.title.alternativeContinued Development of an Estonian Text Tummarizer
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
Peedosk_informaatika_2025.pdf
Suurus:
724.22 KB
Formaat:
Adobe Portable Document Format