Sotsiaalmeedias informatsiooni hajumise ennustamine

Date

2018

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Sotsiaalmeedia on saanud moodsa elu osaks. Pidevalt tekib juurde informatsiooni, mida maailmaga jagatakse. Informatsiooni hajumist on varasemalt uuritud paljude teadlaste poolt, kuna sel on rakendusi erinevates valdkondades, nagu näiteks sotsiaalmeediaturundamine ja uudiste levimise uurimine. Informatsiooni leviku kiirust mõjutab selle olulisus inimestele. Käesolevas töös uuritakse info hajumist sotsiaalvõrgustikus ja ennustatakse sisu populaarsust kasutades juhendatud masinõppe algoritme. Kolme Twitterist pärit andmestikku analüüsitakse ja kasutatakse erinevate masinõppe mudelite konstrueerimiseks.Defineerisime säutsu populaarsuse kui taaspostituste arvu, mida iga originaalsäuts sai, ning püstitasime uurimisprobleemid binaarsete ja mitmeklassiliste ennustusülesannetena. Uurisime, kuidas esialgne säutsude taaspostitamise käitumine mõjutab mudelite ennustusvõimekust. Lisaks analüüsisime, kas viimase tunni taaspostituskäitumine aitab ennustada taas-postituskäitumist järgneva tunni jooksul. Täiendav tähelepanu oli suunatud ka ennustuseks tähtsate tunnuste leidmiseks.Binaarse ennustuse puhul näitasid mudelid tulemusi AUC (area under curve) kuni 95% ning F1-skoori kuni 87%. Mitmeklassiliste ennustuste puhul suutsid mudelid saavutada kuni 60% üldise täpsuse ning F1-skoori kuni 67%. Paremad ennustustäpsused saavutati siis, kui postitustel olid väga madalad või väga kõrged taaspostituste arvud. Me genereerisime mudelid kasutades üht andmestikku ning testisime neid ülejäänud kahe peal. See näitas, et mudelid on piisavalt robustsed, et tegeleda erinevate teemadega.
Social media has become a part of the everyday life of modern society. A lot of infor-mation is created and shared with the world continuously. Predicting information has been studied in the past by many researchers since it has its applications in various domains such as viral marketing, news propagation etc.Some information spreads faster compared to others depending on what interests people. In this thesis, by using supervised machine learning algorithms, we studied information diffusion in a social network and predicted content popularity. Three datasets from Twitter are collected and analysed for building and testing various models based on different ma-chine learning algorithms.We defined tweet popularity as number of retweets any original message received and stated our research problems as binary and multiclass prediction tasks. We investigated how initial retweeting behaviour of a message affects the predictive power of a model. We also analysed if a recent one-hour retweeting behaviour can help to predict a tweet popu-larity of the following hour. Besides that, main focus is made on finding features im-portant for the prediction.For binary prediction, the models showed performance of AUC up to 95% and F1 up to 87%. For multiclass prediction, the models were able to predict up to 60% of overall accu-racy and 67% of F1, with more accurate performance of classes with messages with very low and high retweet counts comparing to others. We created our models using one da-taset and tested our approach on the other two datasets, which showed that the models are robust enough to deal with multiple topics.

Description

Keywords

Citation