Tehisintellekti abiga kõne põhjal piltide genereerimine

Laen...
Pisipilt

Kuupäev

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Tartu Ülikool

Abstrakt

The aim of this bachelor’s thesis was to develop an application, to be exhibited in the Delta academic building, that demonstrates artificial intelligence-based speech recognition and image generation technologies as a unified workflow. As a result of the work, a locally operating program was created that allows users to generate images based on both Estonian and English speech. During the demo period, the English version of the solution was tested with real users. The thesis provides an overview of the speech recognition, language detection, machine translation, and image generation models that were tested, focusing on solutions that work without an internet connection. The thesis also describes the selection of the used technologies and analyzes the system's reliability and user feedback.
Bakalureusetöö eesmärk oli arendada Delta õppehoones eksponeeritav rakendus, mis demonstreerib tehisintellektil põhinevaid kõnetuvastuse ja piltide genereerimise tehnoloogiaid ühtse töövoona. Töö tulemusena valmis lokaalselt töötav programm, mis võimaldab kasutajal genereerida pilte nii eesti- kui ingliskeelse kõne põhjal. Demoperioodil testiti lahenduse ingliskeelset versiooni reaalsete kasutajatega. Töö annab ülevaate katsetatud kõnetuvastuse, keeletuvastuse, masintõlke ja pildiloome mudelitest, keskendudes lahendustele, mis toimivad ilma internetiühenduseta. Kirjeldatakse kasutatud tehnoloogiate valikut ning analüüsitakse süsteemi töökindlust ja kasutajate tagasisidet.

Kirjeldus

Märksõnad

Stable Diffusion, Whisper, Tehisintellekt, kõnetuvastus, pildiloome

Viide