Süstemaatiline analüüs GPT-4o, DALL·E 3 ja Stable Diffusion 3.5 põhjal. Kas pildigeneraatorid integreerivad mudeleid maailma kohta?
| dc.contributor.advisor | Aru, Jaan, juhendaja | |
| dc.contributor.author | Lindström, Helena | |
| dc.contributor.other | Tartu Ülikool. Loodus- ja täppisteaduste valdkond | et |
| dc.contributor.other | Tartu Ülikool. Arvutiteaduse instituut | et |
| dc.date.accessioned | 2025-10-21T09:40:13Z | |
| dc.date.available | 2025-10-21T09:40:13Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | Text-to-image models intend to create correct images based on given prompts. This research aims to determine whether studied text-to-image models have integrated world models. Text-to-image models GPT-4o, DALL·E 3 and Stable Diffusion 3.5 generate images based on prompts. For this study, 25 objects that follow a specific logic have been selected, and based on these objects, 25 prompts have been constructed. Based on this study, GPT-4o appeared to be the best in depicting selected objects as 31% of the generated images were correct. Only 12% of images created by DALL·E 3 and 11% of images created by Stable Diffusion 3.5 were correct. In conclusion, due to poor results, it can be stated that GPT-4o, DALL·E 3 and Stable Diffusion 3.5 have not incorporated world models. | |
| dc.description.abstract | Pildigeneraatorite peamine eesmärk on etteantud lähtetekstide põhjal korrektseid pilte luua. Käesolevas töös uuritakse, kas valitud pildigeneraatorid (GPT-4o, DALL·E 3 ja Stable Diffusion 3.5) põhinevad piltide loomisel maailma mudelitele. Töö jaoks on valitud 25 objekti, millest igaüks järgib kindlaid toimimispõhimõtteid, ja objektidest piltide genereerimiseks on koostatud 25 lähteteksti. Töö tulemusena selgus, et valitud objektide kujutamises oli parim GPT-4o, kuna 31% selle mudeli genereeritud piltidest olid korrektsed. DALL·E 3 genereeritud pildid olid õiged vaid 12% juhtudest ning Stable Diffusioni piltidest 11%. Kuna saavutatud tulemused olid vahemikus 11%–31%, siis saab väita, et GPT-4o, DALL·E 3 ja Stable Diffusion 3.5 ei ole mudeleid maailma kohta integreerinud. | |
| dc.identifier.uri | https://hdl.handle.net/10062/116967 | |
| dc.language.iso | en | |
| dc.publisher | Tartu Ülikool | et |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Artificial intelligence | |
| dc.subject | text-to-image model | |
| dc.subject | world models | |
| dc.subject | pildigeneraator | |
| dc.subject | Tehisintellekt | |
| dc.subject | mudelid maailma kohta | |
| dc.subject.other | bakalaureusetööd | et |
| dc.subject.other | informaatika | et |
| dc.subject.other | infotehnoloogia | et |
| dc.subject.other | informatics | en |
| dc.subject.other | infotechnology | en |
| dc.title | Süstemaatiline analüüs GPT-4o, DALL·E 3 ja Stable Diffusion 3.5 põhjal. Kas pildigeneraatorid integreerivad mudeleid maailma kohta? | |
| dc.title.alternative | Systematic Analysis on GPT-4o, DALL·E 3 and Stable Diffusion 3.5. Do Text-to-image Models Incorporate World Models? | |
| dc.type | Thesis |
Failid
Originaal pakett
1 - 1 1
Laen...
- Nimi:
- lindstrom_informaatika_2025.pdf
- Suurus:
- 4.21 MB
- Formaat:
- Adobe Portable Document Format