Exploring Smartphone-Based Reinforcement Learning Control for Educational Robotics: Implementation on OpenBot
Kuupäev
2024
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
This research explores the feasibility of implementing Reinforcement Learning (RL) algorithms
entirely on a smartphone to control an educational robotic platform, OpenBot. This study aims
to determine if RL can be executed on Android smartphones without simulated environments
and whether it would be accessible for students and enthusiasts as a practical RL project. Initially,
Deep Q-Learning (DQL) and Policy Gradient (PG) algorithms were tested on standard
RL scenarios, Cartpole and Pong. This allowed to gain insights on both algorithms and what
to expect in a successful RL training. The policy gradient algorithm was then implemented
entirely on the smartphone controlling OpenBot to drive across a track for 15 seconds. In general,
after approximately 400 episodes of training using policy gradient, the agent was able to
successfully navigate the track for the aimed 15 seconds in half of its attempts. Despite the
encouraging results of the study, some technical challenges remain open, such as, exploding
gradients, the randomness of weight initialization, and engineering challenges such as high battery
consumption.
Kirjeldus
See uurib võimalust rakendada Tugevdamisõppe (RL) algoritme täielikult nutitelefonis, et juhtida
hariduslikku robotplatvormi OpenBot. Selle uuringu eesmärk on välja selgitada, kas RL-i saab
teostada Android-nutitelefonides ilma simuleeritud keskkondadeta ja kas see oleks õpilastele
ja entusiastidele praktilise RL-projektina kättesaadav. Algselt testiti Sügav Q-Õpe (DQL) ja
Poliitikagradiendi (PG) algoritme standardsete RL-stsenaariumide Cartpole ja Pong abil. See
võimaldas saada ülevaate mõlemast algoritmist ja sellest, mida edukas RL-koolituses oodata.
Seejärel rakendati poliitikagradiendi algoritm täielikult OpenBoti juhtivas nutitelefonis, et sõita
15 sekundi jooksul üle raja. Üldiselt suudab agent pärast ligikaudu 400 poliitikagradienti kasutavat
koolitusepisoodi edukalt navigeerida rajal sihitud 15 sekundi jooksul pooltel katsetest.
Vaatamata uuringu julgustavatele tulemustele on mõned tehnilised väljakutsed endiselt lahtised,
nagu plahvatuslikud gradiendid, kaalu lähtestamise juhuslikkus ja inseneriprobleemid, nagu
suur akukulu.
Märksõnad
reinforcement learning, control, robotics, openbot, policy gradient