Eestikeelsete tekstide sisukokkuvõtja EstSum edasiarendamine

Date

2018

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Tänapäevaste informatsioonihulkade juures on sageli vaja saada kiiresti ülevaade olulisest informatsioonist. Seepärast võiks rakenduse poolt automaatselt genereeritud sisukokkuvõte kui lühendatud kiiresti kättesaadav ülevaade algallikast olla oluline informatsiooni kogumise vahend. Kuid nagu iga keeletehnoloogiline rakendus, sõltub see sihtkeele omapäradest, mille jaoks see on disainitud. Inglise keele tarbeks loodud sisukokkuvõtja ei sobi eesti keele jaoks, sest eesti keelele omane sõnavormide rohkus vajab hoopis teistsugust lähenemist.Kuigi eestikeelsete tekstide kokkuvõtja EstSum kasutab lause kaalu arvutamisel võtmesõnade põhist skoori, siis skoori arvutatakse sõnavormide, mitte sõnade algvormide pealt. EstSumi ühendamine lingvistilise mooduliga, mis suudab analüüsida sõnade algvorme, tõstis kokkuvõtja tulemuslikkust võrreldes EstSumiga, millel vastav moodul puudub.Töö tulemusena valminud automaatse kokkuvõtja uus versioon suudab eraldada rohkem olulist informatsiooni algallikast, kui seda tegi EstSumi vana versioon.
In today's vast information quantity, there is often a need for a quick overview of important information. Therefore, a summary as a shortened overview of the source material, could be an important source of information collection. But like any other language technology application, they also depend on the peculiarities of the language they are designed for. A summarizer created for the English language is not implementable for the Estonian language, because of the multitude of word forms that is typical for the Estonian language and therefore requires a completely different approach.Although Estonian texts' summarizer EstSum uses a keyword-based score to calculate a sentence´s weight, the score is calculated solely from word forms not the word´s stem. The addition of a linguistic module, that can analyze word stems, did increase the evaluation score compared to the regular EstSum.Furthermore, the new developed version of the Estonian texts' summarizer is capable of separating more important information from the source than the old version of EstSum.

Description

Keywords

Citation