Text-Driven Weakly Supervised Medical Image Segmentation
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
Medical image analysis has become an essential tool for clinical diagnosis, enabling specialists to detect, segment, and monitor various pathologies. Convolutional neural networks have traditionally dominated this field, achieving success in classification and segmentation tasks by relying solely on visual patterns. However, due to their inherent architectural limitations, they are unable to effectively incorporate complementary information such as textual reports provided by medical professionals. Recently, multimodal models, particularly Transformer-based vision-language architectures, have demonstrated promising results in general image recognition and generation tasks by effectively integrating text and visual data. Despite these advances, the potential of multimodal approaches in medical imaging, especially in the context of complex 3D volumetric data such as computer tomography scans, remains largely unexplored. This thesis investigates whether textual context provided by radiology reports can implicitly guide multimodal models to learn spatial locality in their counterpart medical images, potentially leading to emergent segmentation capabilities without explicit segmentation supervision. Such an approach could address the chronic shortage of manually annotated segmentation data, as obtaining these labels is expensive and labor-intensive. By examining how multimodal models trained on paired 3D computer tomography scans and radiology reports respond to textual prompts, the thesis seeks to understand if these models inherently learn meaningful spatial relationships. If multimodal models demonstrate implicit segmentation capabilities, they could serve as a valuable source for generating synthetic weakly supervised segmentation masks, reducing the need for costly manual annotation and supporting radiologists in clinical interpretation and triage workflows.
Meditsiiniliste kujutiste analüüsist on saanud tänapäeva tervishoius oluline vahend, mis võimaldab spetsialistidel tuvastada, segmenteerida ja jälgida mitmesuguseid haigusi ning patoloogiaid. Kujutiste segmenteerimiseks kasutatavate märgendite ehk maskide loomine nõuab radioloogidelt käsitsi tehtud märgendamist, mis on ajamahukas ja kulukas protsess. Kuna kvaliteetsete segmentatsioonimärgistustega meditsiiniandmete kättesaadavus on piiratud, on raskendatud ka juhendatud süvaõppemudelite arendamine. Hiljutised edusammud multimodaalsetes mudelites, eriti Transformer-põhistes nägemis-keele arhitektuurides, on näidanud paljulubavaid tulemusi üldistes pildituvastusülesannetes tänu teksti ja pildi tõhusale kombineerimisele. Sellest hoolimata on multimodaalsete mudelite potentsiaal meditsiiniliste kujutiste analüüsis, eriti 3D-andmete nagu kompuutertomograafia skaneeringute puhul, endiselt suuresti uurimata. Antud magistritöö eesmärk on uurida, kas radioloogiliste aruannete kaudu edastatav tekstuaalne kontekst võimaldab multimodaalsel mudelil kaudselt omandada teadmisi ruumilistest seostest 3D kompuutertomograafia kujutistel. Kuna meditsiiniliste kujutiste segmenteerimismärgendite käsitsi loomine on kallis ja ajamahukas, võib selline lähenemine pakkuda võimaluse nõrga juhendusega segmenteerimiseks. Töös analüüsitakse, kuidas multimodaalne mudel, mis on eelnevalt treenitud paaris 3D kompuutertomograafiliste kujutiste ja radioloogiliste aruannetega, reageerib tekstilistele sisenditele ning kas mudel on õppinud tähenduslikke ruumilisi seoseid. Kui multimodaalne mudel suudab demonstreerida kaudseid segmenteerimisvõimeid, võiks seda kasutada sünteetiliste nõrga juhendusega segmentatsioonimaskide loomiseks, aidates leevendada märgendatud andmete nappust ning toetades radioloogide tööd kliinilises tõlgenduses ja triaažis.
Meditsiiniliste kujutiste analüüsist on saanud tänapäeva tervishoius oluline vahend, mis võimaldab spetsialistidel tuvastada, segmenteerida ja jälgida mitmesuguseid haigusi ning patoloogiaid. Kujutiste segmenteerimiseks kasutatavate märgendite ehk maskide loomine nõuab radioloogidelt käsitsi tehtud märgendamist, mis on ajamahukas ja kulukas protsess. Kuna kvaliteetsete segmentatsioonimärgistustega meditsiiniandmete kättesaadavus on piiratud, on raskendatud ka juhendatud süvaõppemudelite arendamine. Hiljutised edusammud multimodaalsetes mudelites, eriti Transformer-põhistes nägemis-keele arhitektuurides, on näidanud paljulubavaid tulemusi üldistes pildituvastusülesannetes tänu teksti ja pildi tõhusale kombineerimisele. Sellest hoolimata on multimodaalsete mudelite potentsiaal meditsiiniliste kujutiste analüüsis, eriti 3D-andmete nagu kompuutertomograafia skaneeringute puhul, endiselt suuresti uurimata. Antud magistritöö eesmärk on uurida, kas radioloogiliste aruannete kaudu edastatav tekstuaalne kontekst võimaldab multimodaalsel mudelil kaudselt omandada teadmisi ruumilistest seostest 3D kompuutertomograafia kujutistel. Kuna meditsiiniliste kujutiste segmenteerimismärgendite käsitsi loomine on kallis ja ajamahukas, võib selline lähenemine pakkuda võimaluse nõrga juhendusega segmenteerimiseks. Töös analüüsitakse, kuidas multimodaalne mudel, mis on eelnevalt treenitud paaris 3D kompuutertomograafiliste kujutiste ja radioloogiliste aruannetega, reageerib tekstilistele sisenditele ning kas mudel on õppinud tähenduslikke ruumilisi seoseid. Kui multimodaalne mudel suudab demonstreerida kaudseid segmenteerimisvõimeid, võiks seda kasutada sünteetiliste nõrga juhendusega segmentatsioonimaskide loomiseks, aidates leevendada märgendatud andmete nappust ning toetades radioloogide tööd kliinilises tõlgenduses ja triaažis.
Kirjeldus
Märksõnad
Machine Learning, Kompuutertomograafia, Radiology, CT Scans, ViT, Meditsiinilised pildid, Convolutional Neural Networks, Konvolutsioonilised närvivõrgud, Radiology Reports, Weak Supervision, Computer Tomography, Transformerimudelid, Artificial Intelligence, Multimodal Models, Segmentation, Tekstipõhised mudelid, Sügavõpe, Tehisintellekt, Radioloogilised aruanded, Segmentimine, Masinõpe