DSpace
    • English
    • Deutsch
    • Eesti
  • English 
    • English
    • Deutsch
    • Eesti
  • Login
View Item 
  •   DSpace @University of Tartu
  • Loodus- ja täppisteaduste valdkond
  • Arvutiteaduse instituut
  • MTAT bakalaureusetööd – Bachelor's theses
  • View Item
  •   DSpace @University of Tartu
  • Loodus- ja täppisteaduste valdkond
  • Arvutiteaduse instituut
  • MTAT bakalaureusetööd – Bachelor's theses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Sõltuvussüntaksi puudest semantiliste propositsioonide leidmine

Thumbnail
View/Open
thesis.pdf (1.343Mb)
Date
2017
Author
Laabus, Reio
Metadata
Show full item record
Abstract
Käesoleva bakalaureuse töö eesmärk on luua teek, mis loendab ja väljastab sõltuvussüntaksi puudelt mustrite abil propositsioonid. Propositsioonid on lause osad, mis kirjeldavad ideid, mida antud lausega tahetakse edasi anda. On leitud, et propositsioonide leidmine ja loendamine on heaks mõõduks, et seostada propositsioonide arvu loetavuse, mälu või Alzheimeri haiguse ennustamisega. Varasemalt on propositsioone lausetest leitud manuaalselt, minu programm PCP teeb seda automaatselt mustreid kasutades. Mustrid on regulaaravaldised, mis on vastavalt AID manuaalile koostatud ja nad jaotatakse kolme suuremasse gruppi: predikatsioonid, modifikatsioonid ja ühendajad. Mustreid kasutatakse sõltuvussüntaksi puudel, mis esitavad lause süntaktilist struktuuri. Sõltuvusstruktuuri ja propositsiooide struktuuri ehitus on omavahel sarnane. Kuna parserid ei oska vigast lauset parsida, mille tõttu ka mustrid ei leia õigeid propositsioone, siis tulemused sõltuvad lause ehituse korrektsusest. Samuti, kuna erinevad parserid töötlevad lauseid erinevalt, siis on suur tõenäosus, et ka propositsioonide arv võib erineda.
 
The main goal of this thesis is to implement a tool for extracting propositions from dependency parse trees. Propositions are part of sentences that describe the ideas what people want to express. Finding the propositions and counting them has been found to be good measurement to relate it with readability, memory or prediction of Alzheimer’s disease. Earlier works have extracted the propositions manually, my program called Proposition Count based on Patterns, short for PCP, does it automatically using patterns. Patterns are regular expressions that are created on the basis of AID manual and they are classified into 3 groups: predications, modifications and connectives. Patterns are used on depend-ency parse trees that present the syntactic structure of a sentence. It has been found that the dependency structure and propositions suit more naturally and is direct. The results depend a lot on correctness of the sentence, because parsers are not able to correctly parse faulty sentence and patterns can’t extract correct propositions from incorrect sentences. Results are also affected by what parser is being used, if using different parser than I used with the same patterns, then the possibility that extracting different count of propositions is high.
 
URI
http://hdl.handle.net/10062/65678
Collections
  • MTAT bakalaureusetööd – Bachelor's theses [993]

DSpace software copyright © 2002-2016  DuraSpace
Contact Us | Send Feedback
Theme by 
Atmire NV
 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

DSpace software copyright © 2002-2016  DuraSpace
Contact Us | Send Feedback
Theme by 
Atmire NV