Sisupõhiste ja semantiliste vektorkujutustest hübriidmudelite võrdlus e‑kaubanduse soovitussüsteemides

dc.contributor.advisorJärviste, Andres, juhendaja
dc.contributor.advisorNiitsoo, Margus, juhendaja
dc.contributor.authorJärviste, Mihkel
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-27T09:23:44Z
dc.date.available2025-10-27T09:23:44Z
dc.date.issued2025
dc.description.abstractThis bachelor's thesis aimed to compare two hybrid recommender systems on a Steam video game dataset. The hybrid systems are based on traditional content-based TF-IDF similarity and modern semantic SBERT sentence embeddings. Both approaches were combined with overall game ratings. The systems were evaluated on a test set using a ground truth (GT) defined by the overlap of diverse game features (genres, categories, user tags) via the Jaccard index, employing standard performance indicators. The results consistently demonstrated that the content-based (TF-IDF) hybrid model outperformed the semantic (SBERT) hybrid model. It was concluded that the superiority of the content-based model likely stemmed from the GT's nature, which rewarded explicit feature overlap, and the specifics of the Steam games dataset, where distinct features are crucial for similarity assessment. The thesis highlights that recommender system effectiveness is context-dependent, and traditional methods can yield superior results under certain conditions.
dc.description.abstract Käesoleva bakalaureusetöö eesmärk oli võrrelda kahte hübriidsoovitussüsteemi Steam videomängude andmestikul. Hübriidsüsteemid on traditsioonilisel sisupõhisel TF-IDF meetodil ning kaasaegsemal semantilisel SBERT lausevektoritel põhinev. Mõlemad lähenemised ühendati mängude üldise hinnanguga. Süsteeme hinnati testkorpusel, kasutades mängude mitmekülgsetel tunnustel (žanrid, kategooriad, kasutajate tag'id) ja Jaccardi indeksil põhinevat tõese sarnasuse (GT) definitsiooni ning standardseid jõudlusnäitajaid. Uurimuse tulemused näitasid järjepidevalt, et sisupõhine (TF-IDF) hübriidmudel edestas semantilist (SBERT) hübriidmudelit. Järeldati, et sisupõhise mudeli paremus tulenes tõenäoliselt GT olemusest, mis premeeris selgesõnaliste tunnuste kattuvust, ning Steam mängude andmestiku spetsiifikast, kus konkreetsed tunnused on sarnasuse hindamisel olulised. Töö rõhutab, et soovitussüsteemide efektiivsus sõltub kontekstist ning traditsioonilised meetodid võivad teatud tingimustel anda paremaid tulemusi.
dc.identifier.urihttps://hdl.handle.net/10062/117090
dc.language.isoet
dc.publisherTartu Ülikoolet
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectSoovitussüsteem
dc.subjectSBERT
dc.subjectsõnade vektoresitused
dc.subject.otherbakalaureusetöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleSisupõhiste ja semantiliste vektorkujutustest hübriidmudelite võrdlus e‑kaubanduse soovitussüsteemides
dc.title.alternativeComparison of Hybrid Models Based on Content and Semantic Vector Representations in E-commerce Recommender Systems
dc.typeThesis

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
Sisupohiste_ja_semantiliste_jarviste.pdf
Suurus:
1.08 MB
Formaat:
Adobe Portable Document Format