E-kirjade klassifitseerimine masinõppe abil Maanteeameti näitel

Date

2018

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Lõputöö eesmärgiks on e-kirjadest teemade tuvastamise ja e-kirjade klassifitseerimise raamistiku loomine Maanteeameti näitel. Töö teoreetilises osas antakse ülevaade tekstikaevest, muuhulgas teemade modelleerimisest ja dokumentide klassifitseerimisest. Teemade modelleerimisel keskendutakse mudelile LDA ning optimaalse teemade arvu leidmisele. Dokumentide klassifitseerimise osas antakse ülevaade mudelitest Naïve Bayes, SVM ja fasttext. Lisaks tutvustatakse võimalusi, kuidas suurendada klassifitseerimismu-delite täpsust kasutades andmete esinduse muutmist, ansambelmeetodeid ja kalibreerimist. Töö empiirilises osas valmistatakse andmed ette ja analüüsitakse kasutades eel-mainitud mudeleid ja meetodeid. Maanteeameti e-kirjade optimaalne teemade arv varieerub kasutatud meetodite lõikes ning on subjektiivne. Siiski võimaldab koherentsus osaliselt automaatselt määrata, millises vahemikus võib optimaalne teemade arv olla. Oluline aspekt arusaadava teemade mudeli loomisel on andmete puhastamine. Teemade modelleerimist saab kasutada andmete hõlpsamaks märgendamiseks klassifitseerimis-mudelite jaoks. Pärast andmete märgendamist treenitakse klassifitseerimismudelid, võrdlemaks erinevate mudelite ja täpsust suurendavate meetodite mõju täpsusele. Kõige täpsem mudel loodi ansambelmeetodiga kuhjamine. Täpseim mudel, mis ei kasutanud ühtegi täpsust suurendavat meetodit, on lineaarne SVM. Samas on 20 täpseima mudeli täpsuste vahe 0,02 ühikut. Loodud raamistikku on võimalik kasutada mõne teise asutuse e-kirjade analüüsimiseks ning klassifitseerimiseks ja sellest tulenevalt automaatsemaks vastamiseks.
The aim of thesis is to create a framework for e-mail topic detection and e-mail classifi-cation using data from Estonian Road Authority. In theoretical part, an overview of text mining including topic modelling and document classification is given. In topic model-ling, the focus is on model LDA and finding optimal number of topics. In document clas-sification, models Naïve Bayes, SVM ja fasttext are introduced. Methods for improving classification model accuracy are described: changing data representation, ensemble methods and calibration. In empirical part, data is prepared and aforementioned models and methods are applied. Optimal number of topics varies between different methods and is subjective. Coherence enables semi-automatically detect optimal number of topics. It is important to have sufficiently cleaned data for topic modelling. Topic modelling could be used for annotating data for classification. After annotation several classification models were trained to assess their accuracy. The most accurate model was created using ensemble method stacking. The most accurate model without using any other method was linear SVM. First 20 most accurate models difference in accuracy was up to 0,02 units. The created framework could be used for analyzing and classifying e-mails in oth-er institutions to automate the answering process.

Description

Keywords

Citation