Cabral Pinheiro, Victor Henrique, juhendajaMatiisen, Tambet, juhendajaScellier, Jean-Baptiste, juhendajaMykhailenko, YaroslavaTartu Ülikool. Loodus- ja täppisteaduste valdkondTartu Ülikool. Arvutiteaduse instituut2025-10-272025-10-272025https://hdl.handle.net/10062/117088The integration of renewable energy sources into electricity markets has increased the need for efficient energy management solutions. Battery Energy Storage Systems (BESS) help balance fluctuating supply and demand by storing excess energy and supplying it during shortages, so determining an optimal charge-discharge schedule becomes a core optimization task for market participants. Currently, Eesti Energia addresses this task with linear optimization techniques that are effective yet limited, because they cannot fully capture nonlinear battery dynamics or adapt to complex market patterns. This thesis explores the potential of model-free reinforcement learning (RL) algorithms, specifically Deep Deterministic Policy Gradient (DDPG) and Proximal Policy Optimization (PPO), to optimize battery trading strategies in Estonia's day-ahead electricity market. The primary objective is to assess whether RL models can potentially surpass traditional linear optimization benchmarks in terms of profitability and decision quality. Results demonstrate that in a six-hour trading horizon the optimized DDPG agent consistently outperformed PPO and closely approached the performance of the linear optimizer, capturing 85.5% of its profit. When extended to a full 24-hour horizon, it relative performance fell to 65%. Qualitative analysis of evaluation logs confirmed market-aware behavior, with the agent charging when prices were low, discharging near peaks, and preserving capacity for anticipated high-price periods. Overall, the findings suggest that, when carefully tuned, model-free RL can provide a competitive alternative to linear optimization for battery trading in volatile electricity markets, with the potential to account for nonlinear battery aging and integrate multi-market signals. This lays the groundwork for future applications in even more dynamic settings such as balancing markets.Taastuvenergiaallikate kasvav osakaal elektriturul suurendab vajadust tõhusate energiahalduslahenduste järele. Akuenergiasalvestussüsteemid (AESS) aitavad tasakaalustada kõikuvaid nõudluse-pakkumise mustreid, salvestades üleliigset energiat ning vabastades seda nappuse korral; seetõttu on optimaalne laadimis-tühjendamisgraafik turuosaliste jaoks keskne optimeerimisülesanne. Praegu kasutab Eesti Energia selleks lineaarseid optimeerimismeetodeid, mis on küll tulemuslikud, kuid piiratud – need ei kirjelda täielikult aku mittelineaarset vananemist ega kohane keerukate turumustritega. Käesolevas magistritöös uuritakse mudelivabade stiimulõppe algoritmide – eeskätt Deep Deterministic Policy Gradient (DDPG) ja Proximal Policy Optimization (PPO) – potentsiaali AESS-i kauplemisstrateegiate optimeerimisel Eesti päev-ette turul. Eesmärk on hinnata, kas stiimulõppe mudelid suudavad ületada traditsioonilisi lineaarsel optimeerimisel põhinevaid meetodeid tulususe ja otsustuskvaliteedi osas. Katsetulemused näitavad, et 6-tunnise kauplemishorisondi puhul ületas hoolikalt häälestatud DDPG-agent järjekindlalt PPO-d ning saavutas 85,5 % lineaarse optimeerija kasumist. 24-tunnise horisondi korral langes suhteline tulemus 65 %-ni. Logide kvalitatiivne analüüs kinnitas turuteadlikku käitumist: agent laadis akut madalate hindade juures, tühjendas hinnatippude eel ning säilitas mahutavust oodatavate kõrgete hindade jaoks. Kokkuvõttes viitavad tulemused, et hoolikalt häälestatud mudelivaba RL võib volatiilsel elektriturul pakkuda lineaarsele optimeerimisele konkurentsivõimelist alternatiivi ning võimaldab arvesse võtta nii aku mittelineaarset vananemist kui ka mitme turu signaale. See loob tugeva lähtekoha tulevasteks rakendusteks veelgi dünaamilisemates keskkondades, nagu näiteks tasakaalustusturud.enAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttps://creativecommons.org/licenses/by-nc-nd/4.0/Reinforcement learningBattery Energy Storage Systemday-ahead marketelectricity price arbitrageDeep Deterministic Policy GradientProximal Policy Optimizationtugevdamisõpeakuenergiasalvestussüsteempäeva-ette turgelektrihinna arbitraažmagistritöödinformaatikainfotehnoloogiainformaticsinfotechnologyOptimization of Battery Energy Storage System in the Estonian Energy Markets using Reinforcement LearningAkuenergiasalvestussüsteemi optimeerimine Eesti energiaturgudel stiimulõppe abilThesis