Tehisintellekti abiga kõne põhjal piltide genereerimine

dc.contributor.advisorTampuu, Ardi , juhendaja
dc.contributor.authorParkja, Katariina
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-27T12:11:54Z
dc.date.available2025-10-27T12:11:54Z
dc.date.issued2025
dc.description.abstractThe aim of this bachelor’s thesis was to develop an application, to be exhibited in the Delta academic building, that demonstrates artificial intelligence-based speech recognition and image generation technologies as a unified workflow. As a result of the work, a locally operating program was created that allows users to generate images based on both Estonian and English speech. During the demo period, the English version of the solution was tested with real users. The thesis provides an overview of the speech recognition, language detection, machine translation, and image generation models that were tested, focusing on solutions that work without an internet connection. The thesis also describes the selection of the used technologies and analyzes the system's reliability and user feedback.
dc.description.abstract Bakalureusetöö eesmärk oli arendada Delta õppehoones eksponeeritav rakendus, mis demonstreerib tehisintellektil põhinevaid kõnetuvastuse ja piltide genereerimise tehnoloogiaid ühtse töövoona. Töö tulemusena valmis lokaalselt töötav programm, mis võimaldab kasutajal genereerida pilte nii eesti- kui ingliskeelse kõne põhjal. Demoperioodil testiti lahenduse ingliskeelset versiooni reaalsete kasutajatega. Töö annab ülevaate katsetatud kõnetuvastuse, keeletuvastuse, masintõlke ja pildiloome mudelitest, keskendudes lahendustele, mis toimivad ilma internetiühenduseta. Kirjeldatakse kasutatud tehnoloogiate valikut ning analüüsitakse süsteemi töökindlust ja kasutajate tagasisidet.
dc.identifier.urihttps://hdl.handle.net/10062/117110
dc.language.isoet
dc.publisherTartu Ülikoolet
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectStable Diffusion
dc.subjectWhisper
dc.subjectTehisintellekt
dc.subjectkõnetuvastus
dc.subjectpildiloome
dc.subject.otherbakalaureusetöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleTehisintellekti abiga kõne põhjal piltide genereerimine
dc.title.alternativeImage Generation Based on Spoken Input Using AI
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
Parkja_informaatika_2025.pdf
Suurus:
61.53 MB
Formaat:
Adobe Portable Document Format