DSpace
    • English
    • Deutsch
    • Eesti
  • English 
    • English
    • Deutsch
    • Eesti
  • Login
View Item 
  •   DSpace @University of Tartu
  • Loodus- ja täppisteaduste valdkond
  • Arvutiteaduse instituut
  • MTAT bakalaureusetööd – Bachelor's theses
  • View Item
  •   DSpace @University of Tartu
  • Loodus- ja täppisteaduste valdkond
  • Arvutiteaduse instituut
  • MTAT bakalaureusetööd – Bachelor's theses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Peidetud veebilehtede leidmine aadressimallide abil

Thumbnail
View/Open
thesis.pdf (1013.Kb)
extra.zip (85.96Kb)
Date
2016
Author
Allikmaa, Ago
Metadata
Show full item record
Abstract
Lõputöö kirjeldab meetodit peidetud objektilehtede leidmiseks kasutades selleks veebiroomaja poolt leitud aadresside nimekirja. Aadresside põhjal leitakse URLide mallid, mille põhjal genereeritakse uusi aadresse. Selleks, et üks objektileht erinevate mallide hulka ei satuks, tuleb malle agregeerida nii, et ühte objektiseeriat esitavad mallid oleksid üheks malliks kokku pandud. Mallide agregeerimiseks tuvastatakse aadressidest osasid, mis ei mõjuta olulisel määral lehe sisu. Iga mall peab viitama ühele objektilehtede seeriale, milles objekti identifikaatoriks on arv. Selleks peab lõplik mall koosnema ühest numbrilisest muutujast ning ülejäänud osadele peab andma kindla väärtuse. Mallidest genereeritakse uusi aadresse kasutades numbriliste väärtuste hulgast puuduvaid arve, mis jäävad suurima ja väikseima teadaoleva objekti identifikaatori vahele.
 
This thesis describes a method for finding hidden entity pages based on a list of URLs visited by a web crawler. The described method creates a list of URL templates based on the input URLs and predicts new possible entity page addresses based on those. In the initial template generation phase, templates are generated by detecting numeric path ele-ments and treating other elements as static texts. To generate only one template for one set of entities, they are deduplicated in the unused path element detection phase by merging together templates that represent the same set of entities via an alternative path, which is achieved by comparing the contents of the pages they represent. The templates are split to have only one changing variable which is the numeric entity identifier, known as its index. New URLs are generated from the gaps of values in the entity index for a template.
 
URI
http://hdl.handle.net/10062/56212
Collections
  • MTAT bakalaureusetööd – Bachelor's theses [993]

DSpace software copyright © 2002-2016  DuraSpace
Contact Us | Send Feedback
Theme by 
Atmire NV
 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

DSpace software copyright © 2002-2016  DuraSpace
Contact Us | Send Feedback
Theme by 
Atmire NV