Sentiment Analysis of Forward-Looking Statements from Annual Reports Using Large Language Models
| dc.contributor.advisor | Milani, Fredrik Payman, juhendaja | |
| dc.contributor.author | Post, Hardo | |
| dc.contributor.other | Tartu Ülikool. Loodus- ja täppisteaduste valdkond | et |
| dc.contributor.other | Tartu Ülikool. Arvutiteaduse instituut | et |
| dc.date.accessioned | 2025-10-21T10:11:34Z | |
| dc.date.available | 2025-10-21T10:11:34Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | This thesis presents a system for extracting and analyzing forward-looking statements from the annual reports of OMX Nasdaq Stockholm main list companies. The system uses large language models (LLMs), particularly Google Gemini 2.5 Pro, to identify forward-looking statements, classify them by type and theme, and assign sentiment labels. These statements are aggregated into concise company and sector summaries, enabling sentiment-based rankings and natural language querying via a chatbot. A prototype was developed that combines report scraping, statement extraction, vector storage, and a web interface. Validation was conducted both manually and using a second LLM, confirming relevance and metadata accuracy. While the results were promising, challenges such as occasional misclassification, report retrieval issues, and the absence of a gold-standard dataset for testing, were noted. Still, the project demonstrates the viability of using LLMs for financial text analysis and highlights future development directions, including continuous data collection and analysis, improved model evaluation, and expanded chatbot functionality. | |
| dc.description.abstract | Käesolev lõputöö tutvustab rakendust, mis tuvastab, eraldab ja analüüsib tulevikku suunatud väiteid OMX Nasdaq Stockholmi põhinimekirja ettevõtete aastaaruannetest. Süsteem kasutab selleks suuri keelemudeleid, eelkõige Google Gemini 2.5 Pro mudelit, et määrata väidetele tüüp, ettevõtte või sektoripõhine kategooria ja sentiment. Väidetest koostatakse lühikesed ettevõtete- ja sektorite kokkuvõtted, millest tehakse ka nende sisu põhjal paremusjärjestus ning samuti kasutatakse neid väited ka juturobotile lisa konteksti andmiseks. Arendati prototüüp, mis ühendab aruannete kogumise, väidete töötlemise, vektorpõhise andmesalvestuse ja veebiliidese. Väidete õigsust hinnati käsitsi ja teise keelemudeli abil. Ilmnes ka üksikuid probleeme kategooriate määramisel ja aruannete kogumisel. Kindlamaks testimiseks puudus märgendatud andmestik. Projekti tulemused näitavad, et suuri keelemudeleid on võimalik kasutada finantstekstide analüüsiks ning toovad esile ka võimaluse, et tulevikus võiks finantsandmeid jooksvalt koguda ja analüüsida ning juturoboti võimekust täiustada ja ühe suure keelemudeliga teist testida. | |
| dc.identifier.uri | https://hdl.handle.net/10062/116971 | |
| dc.language.iso | en | |
| dc.publisher | Tartu Ülikool | et |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | natural language processing | |
| dc.subject | large language models | |
| dc.subject | sentiment analysis | |
| dc.subject | annual reports | |
| dc.subject | text extraction | |
| dc.subject | loomuliku keele töötlus | |
| dc.subject | uured keelemudelid | |
| dc.subject | sentimendianalüüs | |
| dc.subject | aastaaruanded | |
| dc.subject | teksti ekstraheerimine | |
| dc.subject.other | bakalaureusetööd | et |
| dc.subject.other | informaatika | et |
| dc.subject.other | infotehnoloogia | et |
| dc.subject.other | informatics | en |
| dc.subject.other | infotechnology | en |
| dc.title | Sentiment Analysis of Forward-Looking Statements from Annual Reports Using Large Language Models | |
| dc.title.alternative | Aastaaruannete tulevikku suunatud avalduste meelestatuse analüüs suurte keelemudelite abil | |
| dc.type | Thesis |
Failid
Originaal pakett
1 - 1 1