Towards Faster Masking of Dynamic Objects for Visual Simultaneous Localization and Mapping
Laen...
Failid
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
Kirjeldus
Visual SLAM is a technology able to build a map of an unknown environment and
perform localization simultaneously in the partially built map. It uses only visual inputs
to perform location and mapping, meaning that the only sensor required is a camera.
Visual SLAM is also one of the most challenging type among all SLAM systems, in the
case of location information calculation from the images.
There are researches focus on improving assumption of scene rigidity in SLAM
algorithm to extend the applicability of Visual SLAM in real-world environments. For
example, DynaSLAM [2] provided the capabilities to detect dynamic objects in the
images. It relied on a Convolution Neural Network (CNN) to mask the dynamic objects
from images and this usually means a heavy computation work.
In this thesis, we proposed a new solution for decreasing the time complexity of
performing masking of Dynamic object during visual SLAM process based on ORBSLAM2
[19] and YOLOv3 network [25]. The outline masking of dynamic objects relied
on stereo matching step. We embedded both image processing and ORB-SLAM2 into
ROS [30] system, offered an user-friendly interface to handle the input and output for
system which will be convenient for other developers or researchers to continue or use
our work.
In Estonian: Visual SLAM on üks version SLAM süsteemidest, mis kasutab ainult visuaalset
sisendit selleks, et sooritada lokaliseerimise ja kaardistamise operatsioone. Visual SLAMi
populaarsus on tõusuteel tänu odavatele ja lihtsasti hooldatavatele sensoritele, mida
kasutatakse sisendite kogumiseks. Visual SLAM on samal ajal ka üks keerukamaid
SLAM süsteeme, kuna lokaliseerimise operatsioonideks vajalikud arvutused tuleb teha
piltide põhjal.
Hektel on käimas mitmeid teadustöid, mille fookuseks on parandada eelduseid piltide
jäikused kohta SLAM algoritmides. Need peaks võimaldama laiendada Visual SLAMi
kasutatavust päris maailmas. Näiteks DynaSLAM pakub võimekust avastada dünaamilisi
objekte piltides, mis on võetud SLAM kaameratega. DynaSLAM tugineb CNNil, et
maskeerida liikuvad objektid piltidel. Säärane tegevus on aga väga arvutuste rohke.
Käesolevas töös pakutakse välja uus lahendus dünaamiliste objektide kiiremaks tuvastamiseks,
kasutades YOLOv3 ja ORB-SLAM2 võrgustikke. Lisaks sellele proovitakse
kasutada stereo sobitamist, et leida ja maskeerida objektide kontuure. Sarnaselt DynaSLAMile
kasutab käesolevas töös arendatud süsteem ORB-SLAM2. Arendatud süsteem
sai loodud ROSi keskkonnas, mistõttu on olemas kasutajasõbralik kasutajaliides, mis
haldab väljatöödatud süsteemi sisendeid ja väljundeid. ROS keskkonda sai implementeeritud
pilditöötlus ja ORB-SLAM2. Kasutajasõbralikkus saab olema mugav arendajatele
järgmiste uurimistööde läbiviimisel.
Märksõnad
YOLOv3, Stereo Matching, ORB-SLAM2, DynaSLAM, ROS, Stereo vastavus