Järjepideva veebimonitoorimise süsteemi arhitektuur Eesti domeenis

Date

2015

Journal Title

Journal ISSN

Volume Title

Publisher

Tartu Ülikool

Abstract

Käesolevas töös käsitleti probleemi, kuidas järjepidevalt monitoorida suurel hulgal domeenidel toimuvaid muutusi. Selle jaoks realiseeriti lahendus, mis kasutades NetArchiveSuite veebiarhiveerijat teostab järjestuseid arhiveerimisi. Need antakse edasi sisu võrdlejale NutchWAX, mis võrdleb arhiive vastu uusimat enda andmebaasis olevat seisu ja genereerib leitud erinevuste põhjal RDF/XML voo, mis omakorda antakse edasi CSPARQL mootorile. Sinna mootorisse saavad kasutajad registreerida päringuid ja läbi RabbitHub sõnumiedastusmehhanismi saavad kasutajad oma veebirakenduse ka nende päringu vastuste kuulajaks registreerida. Lisaks realiseeris töö autor ka näidisrakenduse lõpptarbija vaates, läbi mille saab registreerida uusi päringuid ning vaadata nende vastuseid. Kogu lahendust katsetati valiku Eesti avaliku sektori internetilehtede peal. Eksperimendi käigus selgus, et selle jaoks kasutatava masina peal kulus etteantud strateegiaga algallikate ühekordseks arhiveerimiseks kolm ööpäeva. Prooviti teostada võrdlemist nii, et võrreldakse kogutulemit ja jäetakse osad võrdlused vahelt ära. Eksperimendist selgus, et tulemite vahelt välja jätmine ei ole antud süsteemis mõistlik, kuna sel juhul võib kahaneda leitud erinevuste arv kordades. Lisaks selgus ka, peale arhiveerimise süsteemi teiste osade käitamine võttis kogu süsteemi mõttes aega tühiselt vähe ja ka sellest tulenevalt ei oleks mingit võitu, kui roomamist harvem teostada. Samuti oleks kogu erinevuse tuvastamise ja selle info lõpptarbijani viimise mõttes vahe marginaalne, kui teha töökiiruses võitu andvat optimeerimist päringute teenindaja või arhiveerimiste võrdleja osas. Jõuti selgusele, et pigem tasub sellise süsteemi puhul esialgu rõhku panna effektiivsetele roomamisstrateegiatele.

Description

Keywords

Citation