Andmete reaalajas kogumise võrdlemine kasutades Apache NiFit ja Pythonit

Kuupäev

2020

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Tartu Ülikool

Abstrakt

Viimastel aastatel populaarsust kogunud DevOps i kultuur on jõudnud andmeteaduse valdkonda, mida kutsutakse DataOps iks. Selle tõttu on hakatud ehitama andmetorusi, et kontrollida andmete kogu elutsükklit. Kui andmete maht on kasvanud väga suureks, siis DataOps i eesmärk on parandada suhtlust, koostööd, automatiseerimist ja integratsiooni erinevate tiimide vahel, näiteks andmeteadlaste ja andmeanalüütikute. Selle tõttu on hakatud ehitama andmetorusi, et kontrollida andmete kogu elutsükklit. Käesoleva bakalaureusetöö eesmärk on ehitada andmetoru kasutades tarkvara Apache NiFi ning võrrelda seda tavapärase skriptilise lähenemisega kasutades programmeerimiskeelt Python. Andmetoru on loodud temperatuuri mõõtvate seadmete, mis töötavad Raspberry Pi 3 arvutitel ning Tartu Ülikooli pilves olevate masinate vahele. In english: In the last years DevOps culture has gained popularity and has applied on the field of data science, which is called DataOps. It is because of that the creation of data pipelines has begun to have control over data lifecycle. When the volume of data has become huge, DataOps aims to improve communication, cooperation, automation and integration between different teams for example data scientists and data analysts. The purpose of the thesis is to build a data pipeline with a software intended for that purpose, Apache NiFi and to compare it to scripting approach using programming language Python. The data pipeline is created between temperature measuring devices which are working on Raspberry Pi 3 computers and University of Tartu’s cloud environment instances.

Kirjeldus

Märksõnad

automatiseerimine, andmed, DevOps, DataOps, andmetoru, automation, data, data pipeline

Viide