Sõltuvussüntaksi puudest semantiliste propositsioonide leidmine

Date

2017

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Käesoleva bakalaureuse töö eesmärk on luua teek, mis loendab ja väljastab sõltuvussüntaksi puudelt mustrite abil propositsioonid. Propositsioonid on lause osad, mis kirjeldavad ideid, mida antud lausega tahetakse edasi anda. On leitud, et propositsioonide leidmine ja loendamine on heaks mõõduks, et seostada propositsioonide arvu loetavuse, mälu või Alzheimeri haiguse ennustamisega. Varasemalt on propositsioone lausetest leitud manuaalselt, minu programm PCP teeb seda automaatselt mustreid kasutades. Mustrid on regulaaravaldised, mis on vastavalt AID manuaalile koostatud ja nad jaotatakse kolme suuremasse gruppi: predikatsioonid, modifikatsioonid ja ühendajad. Mustreid kasutatakse sõltuvussüntaksi puudel, mis esitavad lause süntaktilist struktuuri. Sõltuvusstruktuuri ja propositsiooide struktuuri ehitus on omavahel sarnane. Kuna parserid ei oska vigast lauset parsida, mille tõttu ka mustrid ei leia õigeid propositsioone, siis tulemused sõltuvad lause ehituse korrektsusest. Samuti, kuna erinevad parserid töötlevad lauseid erinevalt, siis on suur tõenäosus, et ka propositsioonide arv võib erineda.
The main goal of this thesis is to implement a tool for extracting propositions from dependency parse trees. Propositions are part of sentences that describe the ideas what people want to express. Finding the propositions and counting them has been found to be good measurement to relate it with readability, memory or prediction of Alzheimer’s disease. Earlier works have extracted the propositions manually, my program called Proposition Count based on Patterns, short for PCP, does it automatically using patterns. Patterns are regular expressions that are created on the basis of AID manual and they are classified into 3 groups: predications, modifications and connectives. Patterns are used on depend-ency parse trees that present the syntactic structure of a sentence. It has been found that the dependency structure and propositions suit more naturally and is direct. The results depend a lot on correctness of the sentence, because parsers are not able to correctly parse faulty sentence and patterns can’t extract correct propositions from incorrect sentences. Results are also affected by what parser is being used, if using different parser than I used with the same patterns, then the possibility that extracting different count of propositions is high.

Description

Keywords

Citation