E-äri klientide klassifitseerimine rakenduse logide põhjal

Date

2015

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Fits.me ettevõte on arendanud veebipõhise rakenduse, mis aitab veebipoodide külastajatel valida õiget suurust riideid. Virtuaalse Proovikabiini rakendus logib kasutajate tegevusi ja salvestab sisestatud kehamõõdud andmebaasi. Lisaks kasutatakse Google Analytics andmeid, mis annab andmeid veebipoe külastuste sessioonidest ja sellistest kasutajate omadustest, nagu asukoht, kasutatud tarkvara ja riistvara. Käesoleva lõputöö põhiline ülesanne on analüüsida andmed ja õppida eraldama logidest kasulikku informatsiooni. Täpsemalt, me tahame leida meetodi veebipoe kasutajate grupeerimiseks.\n\rEsimesel etapil me leiame viisi erinevatest allikatest andmete kokkupanemiseks. Me agregeerime andmeid kasutajate- ja sessioonipõhisteks profiilideks. Andmed on puhastatud. Nende vorm on informatiivsem, ning andmed on valmis edaspidiseks analüüsiks. Andmete puhastamine ja eeltöötlus moodustavad lõputöös tähtsa osa.\n\rAnalüüsietapil me kasutame kahte andmete klassifitseerimismeetodit. Need on Otsustuspuud ja Naive Bayes. Me otsustame grupeerida kasutajaid e-kaubanduse jaoks ühe tähtsa tunnuse järgi: me klassifitseerime kasutajaid selle järgi, kas nad on teinud ostu või mitte, kas nad on tagastanud ostetud toodet või mitte. Klassifitseerimispuu ega Naive Bayes ei tuvastanud olulisi seoseid uuritud atribuutide ja ostukäitumise vahel. Kuid regressioonipuu osutus kasulikuks sarnase käitumisega kasutajate gruppide leidmises. See näitab, millise käitumismustri korral on ostu tegemise tõenäosus suurem ning millise käitumise korral väiksem.
Fits.me Company has developed a web-tool which helps online shoppers to choose the right size of clothes. The application of Virtual Fitting Room logs users’ actions and saves values of entered body measurements into database. Additionally, Google Analytics is used to get data of online shops’ website visiting sessions, users’ characteristics like location, software and hardware. The main goal of the thesis is to analyse the data, learn to extract useful information. More precisely, we want to develop a method of grouping web-shop customers.\n\rAt the first stage we find a way to combine data from different sources. We aggregate the data into user- and session-based profiles. The data is cleaned. It has more informative form, and is ready for further analysis. Data cleaning and pre-processing form a significant part of the thesis.\n\rOn the analysis stage we use two methods for the data classification. These are Decision trees and Naïve Bayes. We decide to group customers by one of the important features for eCommerce: we classify user whether he/she makes a purchase or not, whether a user returns purchased item or not. Both, classification tree and Naïve Bayes did not find significant relationship between studied attributes and shopping behaviour. However, regression tree turned to be useful for finding the groups of users with similar behaviour. It shows patterns of behaviour which leads to higher probability of making purchase.

Description

Keywords

Citation