Automaatne punktipilvede märgendamine kasutades piltide semantilist segmentatsiooni

Date

2019

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Isesõitvaid autosid loetakse tehisintellekti järgmiseks suureks saavutuseks. Need kasutavad mitmesuguseid sensoreid, nt kaamera ja LiDAR, et koguda infot ümbritseva maailma kohta. LiDAR salvestab andmed punktipilvena, milles iga punkt on esitatud kolmemõõtmeliste koordinaatidega. Uusimad sügavad närvivõrgud suudavad käsitleda punktipilve algsel kujul, kuid märgendatud andmete kogumine treeningprotsessi jaoks on keeruline ning kulukas. Käesoleva töö eesmärk on kasutada semantiliselt segmenteeritud pilte 3D punktipilve märgendamiseks, võimaldades seeläbi koguda eelmainitud mudelite treenimiseks märgendatud andmeid odavamalt. Lisaks hindame olemasolevate semantilise segmenteerimise mudelite kasutamist suure koguse punktipilvede märgendamiseks automaatselt. Meetodi testimiseks kasutame KITTI andmestikku, sest see sisaldab nii kaamera kui ka LiDARi andmeid iga stseeni jaoks. Kaamera piltide pikseltasemel märgendamiseks kasutame DeepLabv3+ semantilise segmentatsiooni mudelit. Saadud märgendused projitseeritakse seejärel 3D punktipilvele, mille pealt treenitakse PointNet++ mudel. Viimane on seejärel võimeline punktipilvi segmenteerima ilma lisainfota. Eksperimentide tulemused näitavad, et PointNet++ suudab projitseeritud märgendustest võrdlemisi hästi õppida. Tulemuste võrdlused objektide teadaolevate asukohtadega on paljulubavad, saavutades kõrge täpsuse jalakäijate tuvastamisel ning keskmise täpsuse autode tuvastamisel.
Autonomous driving is often seen as the next big breakthrough in artificial intelligence. Autonomous vehicles use a variety of sensors to obtain knowledge from the world, for example cameras and LiDARs. LiDAR provides 3D data about the surrounding world in the form of a point cloud. New deep learning models have emerged that allow for learning directly on point clouds, but obtaining labelled data for training these models is difficult and expensive. We propose to use semantically segmented camera images to project labels from 2D to 3D, therefore enabling the use of cheaper ground truth data to train the aforementioned models. Furthermore, we evaluate the use of mature 2D semantic segmentation models to automatically label vast amounts of point cloud data. This approach is tested on the KITTI dataset, as it provides corresponding camera and LiDAR data for each scene. The DeepLabv3+ semantic segmentation model is used to label the camera images with pixel-level labels, which are then projected onto the 3D point cloud and finally a PointNet++ model is trained to do segmentation from point clouds only. Experiments show that projected 2D labels can be learned reasonably well by PointNet++. Evaluating the results with 3D ground truth provided with KITTI dataset produced promising results, with accuracy being high for detecting pedestrians, but mediocre for cars.

Description

Keywords

Citation