Peidetud veebilehtede leidmine aadressimallide abil

Date

2016

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Lõputöö kirjeldab meetodit peidetud objektilehtede leidmiseks kasutades selleks veebiroomaja poolt leitud aadresside nimekirja. Aadresside põhjal leitakse URLide mallid, mille põhjal genereeritakse uusi aadresse. Selleks, et üks objektileht erinevate mallide hulka ei satuks, tuleb malle agregeerida nii, et ühte objektiseeriat esitavad mallid oleksid üheks malliks kokku pandud. Mallide agregeerimiseks tuvastatakse aadressidest osasid, mis ei mõjuta olulisel määral lehe sisu. Iga mall peab viitama ühele objektilehtede seeriale, milles objekti identifikaatoriks on arv. Selleks peab lõplik mall koosnema ühest numbrilisest muutujast ning ülejäänud osadele peab andma kindla väärtuse. Mallidest genereeritakse uusi aadresse kasutades numbriliste väärtuste hulgast puuduvaid arve, mis jäävad suurima ja väikseima teadaoleva objekti identifikaatori vahele.
This thesis describes a method for finding hidden entity pages based on a list of URLs visited by a web crawler. The described method creates a list of URL templates based on the input URLs and predicts new possible entity page addresses based on those. In the initial template generation phase, templates are generated by detecting numeric path ele-ments and treating other elements as static texts. To generate only one template for one set of entities, they are deduplicated in the unused path element detection phase by merging together templates that represent the same set of entities via an alternative path, which is achieved by comparing the contents of the pages they represent. The templates are split to have only one changing variable which is the numeric entity identifier, known as its index. New URLs are generated from the gaps of values in the entity index for a template.

Description

Keywords

Citation