Dembele, Simon Pierre, juhendajaBakhshiyev, TofigTartu Ülikool. Loodus- ja täppisteaduste valdkondTartu Ülikool. Arvutiteaduse instituut2024-10-032024-10-032024https://hdl.handle.net/10062/105091Käesolevas töös uuritakse TPCH päringute täitmise energiatõhusust Apache Sparki raamistikus, keskendudes selgesõnaliselt erinevatele failivormingutele (Parquet, CSV, Avro ja TBL) ja erinevatele partitsioonide suurustele iseseisvas konfiguratsioonis. Hindamisel mõõdetakse energiakulu andmete lugemise ja päringu töötlemise faasis. Esmalt võrreldakse Parquet, CSV ja Avro formaatide omadused, analüüsides nende mõju Sparki päringute sooritamisele. Lisaks uuritakse Sparki eraldiseisvat konfiguratsiooni, uurides klastri seadistusi, ressursside jaotust ja riistvara optimeerimist, mis mõjutavad energiakasutust päringu täitmise ajal. Selle uurimise lahutamatu osa on mõista, kuidas erinevad partitsioonide suurused mõjutavad energiatarbimist. Hindamisel süstemaatiliselt hinnatakse partitsioonide suuruse mõju IO-operatsioonidele, andmete segunemisele ja üldisele energiatarbimisele päringute töötlemisel. Kasutades TPCH päringuid kontrollmõõduna, tehakse katseid erinevate failiformaatide, partitsioonide suuruse ja konfiguratsioonide vahel. Tulemused pakuvad praktilisi teadmisi energiatõhususe suurendamiseks Sparkipõhises suurandmete töötlemises. See uurimus aitab kaasa laiemale arutelule säästliku andmetöötluse teemal, suunates praktikuid tegema energiateadlikke otsuseid Apache Sparki keskkondades.enAttribution-NonCommercial-NoDerivs 3.0 Estoniahttp://creativecommons.org/licenses/by-nc-nd/3.0/ee/Energy evaluationPartitioningdistributed systemsdata processingfile formatsmagistritöödinformaatikainfotehnoloogiainformaticsinfotechnologyHard and Soft Tuning of Spark Ecosystem Toward Query Energy EfficiencyThesis