Real-Time Expression Analysis of Students in a Classroom Using Facial Emotion Recognition
Date
2020
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Tartu Ülikool
Abstract
Life is getting more relied on computers. People create new machines and programs
to make their lives easier. Devices are involved in a daily routine, so it might be useful
if they were capable of understanding human’s verbal or even emotional expressions.
Nowadays, computers can learn almost anything and can help to analyze the surrounding
world sometimes better than the human sense.
The following study can be used while doing a presentation or giving a speech in front of
a big audience. It allows the user to be aware of the emotional condition of attending
society. During the speech, it is almost impossible to observe every single face of the
audience and guess how do they feel; computer vision techniques can do this job for
humans. This framework consists of three main parts. In the first part, a pre-trained face
detector model collects all the faces seen in the camera and assigns unique IDs. Each
face is tracked during the whole video stream using and developing a Simple object
tracking algorithm called Centroid Tracker. This tracker relies on a Euclidean distance
measurement between the location of object centroid within the current and previous
frame of video.
The second part of this thesis is Facial Expression Recognition (FER). For this part,
Convolutional Neural Network (CNN) is trained over the FER2013 data set. The model
is fed a set of face images taken from the previous step, successfully classifies seven
different emotional states.
The third part stores the data of emotions for each person in such a way that it could
be easily understandable for humans. The provided information contains the number
of attending people, their facial expressions and overall mood in the audience. By this information, the user gets feedback about his/her speech. This feedback might help
people improve presentation skills for the future or even change the presenting style
immediately to increase the interest in the audience.
In Estonian: Meie aja elu sõltub arvutitest üha enam. Inimesed loovad oma elu lihtsustamiseks uusi
masinaid ja programme. Seadmed osalevad meie igapäevases rutiinis, nii et kuigi me
oleme nende masinate loojad, vajame neid, et mõista meie suulisi või isegi emotsionaalseid
väljendeid. Tänapäeval saavad arvutid õppida peaaegu kõike ja aitavad meil
ümbritsevat maailma mõnikord isegi paremini analüüsida, kui teeme seda inimlike meelte
järgi. Järgnevat uuringut saab kasutada ettekande tegemisel või suure publiku ees kõne
pidamisel. See võimaldab kasutajal olla teadlik ühiskonnas käimise emotsionaalsest
olukorrast. Kõne ajal on peaaegu võimatu jälgida iga nägu publikus ja arvata, kuidas nad
end tunnevad; arvuti nägemise tehnikad teevad selle töö meie eest. See raamistik koosneb
kolmest põhiosast. Esimeses osas kogub eelkoolituse saanud näotuvastuse mudel kõik
kaameras nähtud näod ja määrab ainulaadsed ID-d. Iga nägu jälgitakse kogu videovoo
jooksul, kasutades ja arendades lihtsat objektide jälgimise algoritmi nimega Centroid
Tracker. See jälgija tugineb Eukleidese vahekauguse mõõtmisele objekti keskpunkti
asukoha vahel video praeguses ja eelmises kaadris.Lõputöö teine osa on näoilmetuvastus
(FER). Selle jaoks koolitatakse FER2013 andmekogu kaudu konvolutsioonilist
närvivõrku (CNN). Mudelile sisestatakse eelmisest etapist võetud näopiltide komplekt,
see klassifitseerib edukalt seitse erinevat emotsionaalset olekut. Kolmas osa salvestab
emotsioonide andmed iga inimese kohta viisil, mis oleks inimestele kergesti arusaadav.
Esitatud teave sisaldab osalevate inimeste arvu, nende näoilmeid ja üldist meeleolu
publikus. Selle teabe abil saab kasutaja tagasisidet oma kõne kohta. See tagasiside
võib aidata edaspidiseks esinemisoskust parendada või isegi esitusstiili kohe muuta, et
suurendada publiku huvi.
Description
Keywords
Facial Expression Recognition, Convolutional Neural Networks, FER2013, näoilmetuvastus, konvolutsioonilist närvivõrku