Süstemaatiline analüüs GPT-4o, DALL·E 3 ja Stable Diffusion 3.5 põhjal. Kas pildigeneraatorid integreerivad mudeleid maailma kohta?

Lindström, Helena

Süstemaatiline analüüs GPT-4o, DALL·E 3 ja Stable Diffusion 3.5 põhjal. Kas pildigeneraatorid integreerivad mudeleid maailma kohta?

dc.contributor.advisor	Aru, Jaan, juhendaja
dc.contributor.author	Lindström, Helena
dc.contributor.other	Tartu Ülikool. Loodus- ja täppisteaduste valdkond	et
dc.contributor.other	Tartu Ülikool. Arvutiteaduse instituut	et
dc.date.accessioned	2025-10-21T09:40:13Z
dc.date.available	2025-10-21T09:40:13Z
dc.date.issued	2025
dc.description.abstract	Text-to-image models intend to create correct images based on given prompts. This research aims to determine whether studied text-to-image models have integrated world models. Text-to-image models GPT-4o, DALL·E 3 and Stable Diffusion 3.5 generate images based on prompts. For this study, 25 objects that follow a specific logic have been selected, and based on these objects, 25 prompts have been constructed. Based on this study, GPT-4o appeared to be the best in depicting selected objects as 31% of the generated images were correct. Only 12% of images created by DALL·E 3 and 11% of images created by Stable Diffusion 3.5 were correct. In conclusion, due to poor results, it can be stated that GPT-4o, DALL·E 3 and Stable Diffusion 3.5 have not incorporated world models.
dc.description.abstract	Pildigeneraatorite peamine eesmärk on etteantud lähtetekstide põhjal korrektseid pilte luua. Käesolevas töös uuritakse, kas valitud pildigeneraatorid (GPT-4o, DALL·E 3 ja Stable Diffusion 3.5) põhinevad piltide loomisel maailma mudelitele. Töö jaoks on valitud 25 objekti, millest igaüks järgib kindlaid toimimispõhimõtteid, ja objektidest piltide genereerimiseks on koostatud 25 lähteteksti. Töö tulemusena selgus, et valitud objektide kujutamises oli parim GPT-4o, kuna 31% selle mudeli genereeritud piltidest olid korrektsed. DALL·E 3 genereeritud pildid olid õiged vaid 12% juhtudest ning Stable Diffusioni piltidest 11%. Kuna saavutatud tulemused olid vahemikus 11%–31%, siis saab väita, et GPT-4o, DALL·E 3 ja Stable Diffusion 3.5 ei ole mudeleid maailma kohta integreerinud.
dc.identifier.uri	https://hdl.handle.net/10062/116967
dc.language.iso	en
dc.publisher	Tartu Ülikool	et
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Artificial intelligence
dc.subject	text-to-image model
dc.subject	world models
dc.subject	pildigeneraator
dc.subject	Tehisintellekt
dc.subject	mudelid maailma kohta
dc.subject.other	bakalaureusetööd	et
dc.subject.other	informaatika	et
dc.subject.other	infotehnoloogia	et
dc.subject.other	informatics	en
dc.subject.other	infotechnology	en
dc.title	Süstemaatiline analüüs GPT-4o, DALL·E 3 ja Stable Diffusion 3.5 põhjal. Kas pildigeneraatorid integreerivad mudeleid maailma kohta?
dc.title.alternative	Systematic Analysis on GPT-4o, DALL·E 3 and Stable Diffusion 3.5. Do Text-to-image Models Incorporate World Models?
dc.type	Thesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1

Nimi:: lindstrom_informaatika_2025.pdf
Suurus:: 4.21 MB
Formaat:: Adobe Portable Document Format

Lae alla

Kollektsioonid

LTAT bakalaureusetööd – Bachelor's theses