Hard and Soft Tuning of Spark Ecosystem Toward Query Energy Efficiency
Date
2024
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Tartu Ülikool
Abstract
Käesolevas töös uuritakse TPCH päringute täitmise energiatõhusust Apache Sparki raamistikus, keskendudes selgesõnaliselt erinevatele failivormingutele (Parquet, CSV, Avro ja TBL) ja erinevatele partitsioonide suurustele iseseisvas konfiguratsioonis. Hindamisel mõõdetakse energiakulu andmete lugemise ja päringu töötlemise faasis. Esmalt võrreldakse Parquet, CSV ja Avro formaatide omadused, analüüsides nende mõju Sparki päringute sooritamisele. Lisaks uuritakse Sparki eraldiseisvat konfiguratsiooni, uurides klastri seadistusi, ressursside jaotust ja riistvara optimeerimist, mis mõjutavad energiakasutust päringu täitmise ajal. Selle uurimise lahutamatu osa on mõista, kuidas erinevad partitsioonide suurused mõjutavad energiatarbimist. Hindamisel süstemaatiliselt hinnatakse partitsioonide suuruse mõju IO-operatsioonidele, andmete segunemisele ja üldisele energiatarbimisele päringute töötlemisel. Kasutades TPCH päringuid kontrollmõõduna, tehakse katseid erinevate failiformaatide, partitsioonide suuruse ja konfiguratsioonide vahel. Tulemused pakuvad praktilisi teadmisi energiatõhususe suurendamiseks Sparkipõhises suurandmete töötlemises. See uurimus aitab kaasa laiemale arutelule säästliku andmetöötluse teemal, suunates praktikuid tegema energiateadlikke otsuseid Apache Sparki keskkondades.
Description
Keywords
Energy evaluation, Partitioning, distributed systems, data processing, file formats