Towards Faster Masking of Dynamic Objects for Visual Simultaneous Localization and Mapping

Laen...
Pisipilt

Kuupäev

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Tartu Ülikool

Abstrakt

Kirjeldus

Visual SLAM is a technology able to build a map of an unknown environment and perform localization simultaneously in the partially built map. It uses only visual inputs to perform location and mapping, meaning that the only sensor required is a camera. Visual SLAM is also one of the most challenging type among all SLAM systems, in the case of location information calculation from the images. There are researches focus on improving assumption of scene rigidity in SLAM algorithm to extend the applicability of Visual SLAM in real-world environments. For example, DynaSLAM [2] provided the capabilities to detect dynamic objects in the images. It relied on a Convolution Neural Network (CNN) to mask the dynamic objects from images and this usually means a heavy computation work. In this thesis, we proposed a new solution for decreasing the time complexity of performing masking of Dynamic object during visual SLAM process based on ORBSLAM2 [19] and YOLOv3 network [25]. The outline masking of dynamic objects relied on stereo matching step. We embedded both image processing and ORB-SLAM2 into ROS [30] system, offered an user-friendly interface to handle the input and output for system which will be convenient for other developers or researchers to continue or use our work. In Estonian: Visual SLAM on üks version SLAM süsteemidest, mis kasutab ainult visuaalset sisendit selleks, et sooritada lokaliseerimise ja kaardistamise operatsioone. Visual SLAMi populaarsus on tõusuteel tänu odavatele ja lihtsasti hooldatavatele sensoritele, mida kasutatakse sisendite kogumiseks. Visual SLAM on samal ajal ka üks keerukamaid SLAM süsteeme, kuna lokaliseerimise operatsioonideks vajalikud arvutused tuleb teha piltide põhjal. Hektel on käimas mitmeid teadustöid, mille fookuseks on parandada eelduseid piltide jäikused kohta SLAM algoritmides. Need peaks võimaldama laiendada Visual SLAMi kasutatavust päris maailmas. Näiteks DynaSLAM pakub võimekust avastada dünaamilisi objekte piltides, mis on võetud SLAM kaameratega. DynaSLAM tugineb CNNil, et maskeerida liikuvad objektid piltidel. Säärane tegevus on aga väga arvutuste rohke. Käesolevas töös pakutakse välja uus lahendus dünaamiliste objektide kiiremaks tuvastamiseks, kasutades YOLOv3 ja ORB-SLAM2 võrgustikke. Lisaks sellele proovitakse kasutada stereo sobitamist, et leida ja maskeerida objektide kontuure. Sarnaselt DynaSLAMile kasutab käesolevas töös arendatud süsteem ORB-SLAM2. Arendatud süsteem sai loodud ROSi keskkonnas, mistõttu on olemas kasutajasõbralik kasutajaliides, mis haldab väljatöödatud süsteemi sisendeid ja väljundeid. ROS keskkonda sai implementeeritud pilditöötlus ja ORB-SLAM2. Kasutajasõbralikkus saab olema mugav arendajatele järgmiste uurimistööde läbiviimisel.

Märksõnad

YOLOv3, Stereo Matching, ORB-SLAM2, DynaSLAM, ROS, Stereo vastavus

Viide