Scene understanding in human and computer vision

Khajuria, Tarun

Scene understanding in human and computer vision

Failid

khajuria_tarun.pdf (11.44 MB)

Kuupäev

2026-04-10

Autorid

Khajuria, Tarun

Kirjastaja

Tartu Ülikooli Kirjastus

Abstrakt

Inimestel on võime tõlgendada sama visuaalset stseeni paindlikult mitmel moel. Näiteks kinosaalis suudame identifitseerida üksikuid istmeid toolide, kott-toolide või diivanitena, tajudes neid samal ajal ka osana suuremast struktuurist – ridadest ja sektsioonidest, mis määravad kõnniteed. See paindlikkus aitab kaasa ka meie nägemissüsteemi vastupidavusele keerulistes oludes, kasutades struktuuri puuduva teabe järeldamiseks, aga ka selleks, et vajaduse korral ignoreerida stseeni ebaolulisi objekte, et vältida võltsseoseid. Visuaalsest stseenist aru saamise protsessis ei toimu ainult passiivne keskkonnast teabe vastuvõtmine, vaid see hõlmab ka aktiivset teabe kogumist. Selles väitekirjas uurisime inimeste ja masinnägemise sarnasusi ja erinevusi sellises aktiivses stseeni mõistmise protsessis. Selleks lõime esmalt tähtkujudest inspireeritud keerulise nägemisülesande, kus inimesed ja masinalgoritmid püüdsid leida pildil peituvat nõrga signaaliga objekti. Inimesed, kes seda ülesannet lahendasid, kirjeldasid lahendusprotsessi käigus mitme hüpoteesi moodustamist ja järkjärgulist täpsustamist (nt „see võib olla loom“, „see võib olla lennuk“). Teises peatükis uurisime, kuidas seda protsessi saab arvutimudelite abil korrata. Täpsemalt testisime meetodit, mis genereerib tähtkujupiltidel olevate objektide võimalikke tõlgendusi. Võrreldes mudeli ja inimeste sooritust, uurisime, kui hästi see peegeldab inimeste taju. Lõpuks testisime paljusid tehisaru mudeleid selle alusel, kuidas nad töötlevad mitut objekti loomulikes stseenides. See analüüs võimaldas meil tuvastada puudujääke viisis, kuidas need mudelid esitavad stseeni vähem olulisi taustaobjekte, ning teha ettepanekuid nende mudelite paremaks kasutamiseks tehisarusüsteemides. Kokkuvõttes pakuvad selle väitekirja tulemused teadmisi selle kohta, kuidas inimesed ebamäärasest visuaalsest sisendist aru saavad, ning viise, kuidas arvutimudeleid saaks testida ja paremini kujundada selle võime imiteerimiseks. Need tulemused aitavad mõista inimtaju ja luua tehisnägemise süsteeme, mis suudavad enamat kui pelgalt mustreid tuvastada.
Humans have the ability to flexibly interpret the same visual scene in multiple ways. For example, in a cinema hall, we can identify individual seats as chairs, bean bags, or couches, while also perceiving them as part of the larger structure of rows and sections that define walkable paths. This flexibility also enhances the robustness of our visual system under challenging conditions by utilising structure to infer missing information, while also allowing us to ignore irrelevant objects in the scene to avoid spurious associations. In this way, when trying to understand a scene, human vision is not just about passively receiving information from the environment. Rather, it involves actively collecting information to make sense of the scene. In this thesis, we explored the similarities and differences between human and machine vision in terms of active understanding of the scene. For this, we first designed a challenging vision task, hiding objects in images inspired by star constellations, where human participants solving this task reported iteratively refining multiple hypotheses during their solving process. We then explored how this process can be replicated using computer models. Specifically, we tested a method that generates possible interpretations of objects in constellation images and examined how well it mirrors human perception. Finally, we tested many AI models to examine how they process multiple objects in natural scenes. This analysis highlighted shortcomings in the representation of less important background objects in these models, which helps make more optimal use of them in AI systems. Overall, the findings of this thesis offer insights into how people make sense of uncertain visual information and suggest ways in which computer models can be tested and designed to mimic this ability. These results can contribute to our understanding of human perception and help advance artificial vision systems beyond simple pattern recognition.

Kirjeldus

Doktoritöö elektrooniline versioon ei sisalda publikatsioone

Märksõnad

doktoritööd

URI

https://hdl.handle.net/10062/120221

Kollektsioonid

1. TÜ väitekirjad alates 2004. Kaitstud doktoritööd, teadusmagistritööd. Doctoral theses, PhD, MSc, MPhil.

Kirje täielik lehekülg

Scene understanding in human and computer vision

Failid

Kuupäev

Autorid

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Abstrakt

Kirjeldus

Märksõnad

Viide

URI

Kollektsioonid