DSpace
    • English
    • Deutsch
    • Eesti
  • English 
    • English
    • Deutsch
    • Eesti
  • Login
View Item 
  •   DSpace Home
  • Loodus- ja täppisteaduste valdkond
  • Arvutiteaduse instituut
  • MTAT bakalaureusetööd – Bachelor's theses
  • View Item
  •   DSpace Home
  • Loodus- ja täppisteaduste valdkond
  • Arvutiteaduse instituut
  • MTAT bakalaureusetööd – Bachelor's theses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Infootsingus kasutatavad loomuliku keele töötluse tehnikad

Thumbnail
View/Open
thesis.pdf (1.354Mb)
Date
2011
Author
Kodasmaa, Raigo
Metadata
Show full item record
Abstract
Töös anti kirjanduse põhjal ülevaade infootsingust, sealhulgas loomuliku keele automaattöötluse meetodite kasutamisest infootsingu erinevatel etappidel. Infootsing toimub järgmiselt. Infootsingu süsteemi esimese ülesandena koostatakse dokumentide kollektsioon, milleks võib olla näiteks veebilehtede kogum. Seejärel teostatakse kollektsioonis olevatele dokumentidele leksikaalne analüüs, stoppsõnade elimi-neerimine ja lemmatiseerimine. Nende protsesside tulemusena väheneb terminite hulk dokumentides. Järelejäänud terminite alusel dokumendid indekseeritakse. Indekseerimise peamine ülesanne on dokumentide järjestamine selle alusel, kui tihti mingi termin neis esineb. Kasutaja sisestab otsingusüsteemile päringu, mis väljendab tema teabevajadust. Päringust leitakse võtmesõnad ning nende esinemissageduste alusel on võimalik indekseeritud dokumente otsingutulemusena väljastada. Kasutaja teadmised valdkonnast ei pruugi alati olla piisavad, et konstrueerida sobivat päringut. Selle probleemi lahendamiseks kasutatakse asjakohast tagasisidet, mis tähendab, et kasutaja kaasatakse protsessi, kus otsingusüsteem väljastab tulemusi ja kasutaja hindab, millised dokumendid on sobivad tema informatsiooninõudega ja millised mitte. Päringute formuleerimise probleemiks on veel ka asjaolu, et päringusse sisestatakse tavaliselt 2-3 sõna, mis on liiga vähe, et otsingusüsteem suudaks leida sobivaid dokumente. Päringut laiendatakse automaatselt, kasutades sünonüümisõnastikke ja sõnade vahelisi relatsioone, seejärel koostatakse uus päring ning väljastatakse kasutajale tulemused. Töö käigus loodi ka eesti keele stoppsõnade näidisloend ja koostati skriptid, mis suudavad teha eestikeelsete sõnade lemmatiseerimist ning terminite esinemissageduste ja termini-dokumendi maatriksi leidmist.
 
Information retrieval is a field of natural language processing, which main task is to search, find and retain relevant text documents to match user’s query. Information retrieval system can create effective search using many natural language processing tehniques. This document contains four bigger chapters: the introdution to information retrieval, document pre-processing, indexing terms and documents, tehniques used in formulating queries. The first chapter gives an overview of information retrieval recent history and information retrieval systems’ arhitecture. The second chapter describes the processes made before sending terms and documents to indexing, including lexical analysis, stop words removal and stemming. Lexical analysis identifies words from text. Stop words are the words, that carry a little semantic information and stemming find the words stems. The main purpose of document pre-processing is to reduce the set of words to accelerate indexing. The next bigger process introduced is indexing, where term and document frequencies are involved in weighting schemes. In addition to frequencies, term positions in documents are also considered. The fourth and the longest chapter shows how relevance feedback and query expansion are used in query formulation. In relevance feedback, users are involved to judge if the results are relevant or not and then information retrieval system creates new query based on users’ feedback. Results are re-printed to user. Query expansion does not need users activity in query processing. This tehnique uses thesauri and relations between words to expand the query automatically and show final results to user. The aim of this document is to introduce techniques used in information retrieval and create scripts to illustrate some of these tehniques in Estonian. In the end of the document, there are some additional parts, like terms vocabulary, Estonian stop words list and scripts, that can find term frequency, term-document matrix and process stemming to an Estonian words.
 
URI
http://hdl.handle.net/10062/32779
Collections
  • MTAT bakalaureusetööd – Bachelor's theses [840]

DSpace software copyright © 2002-2016  DuraSpace
Contact Us | Send Feedback
Theme by 
Atmire NV
 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

DSpace software copyright © 2002-2016  DuraSpace
Contact Us | Send Feedback
Theme by 
Atmire NV