Peidetud veebilehtede leidmine aadressimallide abil

dc.contributor.advisorKüngas, Peep
dc.contributor.authorAllikmaa, Ago
dc.date.accessioned2017-04-26T07:14:50Z
dc.date.available2017-04-26T07:14:50Z
dc.date.issued2016
dc.description.abstractLõputöö kirjeldab meetodit peidetud objektilehtede leidmiseks kasutades selleks veebiroomaja poolt leitud aadresside nimekirja. Aadresside põhjal leitakse URLide mallid, mille põhjal genereeritakse uusi aadresse. Selleks, et üks objektileht erinevate mallide hulka ei satuks, tuleb malle agregeerida nii, et ühte objektiseeriat esitavad mallid oleksid üheks malliks kokku pandud. Mallide agregeerimiseks tuvastatakse aadressidest osasid, mis ei mõjuta olulisel määral lehe sisu. Iga mall peab viitama ühele objektilehtede seeriale, milles objekti identifikaatoriks on arv. Selleks peab lõplik mall koosnema ühest numbrilisest muutujast ning ülejäänud osadele peab andma kindla väärtuse. Mallidest genereeritakse uusi aadresse kasutades numbriliste väärtuste hulgast puuduvaid arve, mis jäävad suurima ja väikseima teadaoleva objekti identifikaatori vahele.
dc.description.abstractThis thesis describes a method for finding hidden entity pages based on a list of URLs visited by a web crawler. The described method creates a list of URL templates based on the input URLs and predicts new possible entity page addresses based on those. In the initial template generation phase, templates are generated by detecting numeric path ele-ments and treating other elements as static texts. To generate only one template for one set of entities, they are deduplicated in the unused path element detection phase by merging together templates that represent the same set of entities via an alternative path, which is achieved by comparing the contents of the pages they represent. The templates are split to have only one changing variable which is the numeric entity identifier, known as its index. New URLs are generated from the gaps of values in the entity index for a template.
dc.identifier.urihttp://hdl.handle.net/10062/56212
dc.language.isoeng
dc.titlePeidetud veebilehtede leidmine aadressimallide abil
dc.title.alternativeUsing URL Templates to Find Hidden Entity Pages
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 2 2
Laen...
Pisipilt
Nimi:
thesis.pdf
Suurus:
1013.73 KB
Formaat:
Adobe Portable Document Format
Laen...
Pisipilt
Nimi:
extra.zip
Suurus:
85.96 KB
Formaat:
Compressed ZIP