Sirvi Märksõna "andmekaeve" järgi

Nüüd näidatakse 1 - 15 15

listelement.badge.access-status Avatud juurdepääs ,
Andmekaeve Twitterist 2018. aasta Eurovisiooni näitel
(Tartu Ülikool, 2018) Thomson, Patrick Joan; Uuemaa, Evelyn; Tartu Ülikool. Geograafia osakond; Tartu Ülikool. Loodus- ja täppisteaduste valdkond
listelement.badge.access-status Avatud juurdepääs ,
Automated discovery of business process simulation models from event logs: a hybrid process mining and deep learning approach
(2021-12-07) Camargo, Manuel; Dumas, Marlon, juhendaja; González-Rojas, Oscar, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond
Protsessi muutmine võib ettevõtetele osutuda kulukaks ja riskantseks, kuid vajalikuks. Muutuste eiramine võib avaldada mõju ettevõtte resurssidele, selle keskkonnale või jätkusuutlikusele. Üks ettevõtete poolt enimkasutatumaid meetmeid disainimiseks ja hindamiseks protsessi on äriprotsessi simulatsioon. See tehnika võimaldab luua hüpoteetilisi stsenaariume ja hinnata teostuse tagajärgi virtuaalses keskkonnas võtmata riski ebaõnnestuda reaalsuses. Modifitseerides protsessi üksikasju simulaatoris annab võimaluse analüütikutele teha oletusi nagu näiteks „kui sa eemaldad selle, juhtub see või kui sa lisad selle, siis võib juhtuda see.“ Selline võime on väga mugav abistamaks otsuse tegemise protsessi seoses potensiaalsete muutustega. Probleem antud meetodiga on, et simulatsioonimudeli loomine ja sobitamine on komplitseeritud ülesanne, mis vajab aega ja spetsialiseerunud tehnilisi teadmisi. Lisaks loovad analüütikud tavaliselt simulatsioonimudeleid, viies läbi intervjuusid, vaatlusi ja testimisi. Kõik need tehnikad on väga altid eelarvamustele, mis tähendab, et manuaalselt loodud mudelite täpsus on suhteliselt ekslik. Kõik see valmistab pettumust äriprotsessi simulatsiooni kasutusele võtmisel, mis teeb ettevõtetele antud tehnika kasutamise keeruliseks. Käesolev doktoritöö pakub välja uusi tehnikaid loomaks äriprotsessi simulatsioonimudeleid, mis kasutavad andmeid ettevõtete infosüsteemidest samaaegselt neuronvõrkude ja protsessikaeve algoritmidega. Antud doktoritöö eesmärk on luua täpsemat automaatset simulatsioonitehnikat, mis vajab vähem inimese sekkumist, lahendamaks puuduseid hetkel kasutuselolevast protsessi simulatsioonimootori lähenemisest. Me ühendame käesolevas doktoritöös välja toodud tehnikad kahes avatud lähtekoodiga tööriistas. Esimene tööriist, Simod, suudab täisautomaatselt avastada ja peenhäälestada simulatsioonimudeleid läbi kaeveprotsessi tehnikate. Välja toodud meetodil on siiski puudused, mis puudutavad iga tegevuse ajaennustust. Vastuseks on teine tööriist, DeepSimulator, mis ühildab avastamistehnikad, baseerudes kaeveprotsessile koos generatiivsete mudelitega, mis põhinevad süvaõppel. Hinnangu tulemused sellise hübriidlähenemise viisil viivad simulatsioonideni, mis peegeldavad lähemalt täheldatud protsessi dünaamikat kui meetodid, mis põhinevad paljalt kaeveprotsessil või süvaõppel.
listelement.badge.access-status Avatud juurdepääs ,
Digiühiskonna direktiivis sätestatud teksti- ja andmekaeve erandi autoriõiguslikud väljakutsed
(Tartu Ülikool, 2020) Sõrmus, Silver; Kelli, Aleksei, juhendaja; Tartu Ülikool. Sotsiaalteaduste valdkond; Tartu Ülikool. Õigusteaduskond; Tartu Ülikool
listelement.badge.access-status Avatud juurdepääs ,
FIN-DM: a data mining process for the financial services
(2021-11-23) Plotnikova, Veronika; Dumas, Marlon, juhendaja; Milani, Fredrik P., juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond
Andmekaeve hõlmab reeglite kogumit, protsesse ja algoritme, mis võimaldavad ettevõtetel iga päev kogutud andmetest rakendatavaid teadmisi ammutades suurendada tulusid, vähendada kulusid, optimeerida tooteid ja kliendisuhteid ning saavutada teisi eesmärke. Andmekaeves ja -analüütikas on vaja hästi määratletud metoodikat ja protsesse. Saadaval on mitu andmekaeve ja -analüütika standardset protsessimudelit. Kõige märkimisväärsem ja laialdaselt kasutusele võetud standardmudel on CRISP-DM. Tegu on tegevusalast sõltumatu protsessimudeliga, mida kohandatakse sageli sektorite erinõuetega. CRISP-DMi tegevusalast lähtuvaid kohandusi on pakutud mitmes valdkonnas, kaasa arvatud meditsiini-, haridus-, tööstus-, tarkvaraarendus- ja logistikavaldkonnas. Seni pole aga mudelit kohandatud finantsteenuste sektoris, millel on omad valdkonnapõhised erinõuded. Doktoritöös käsitletakse seda lünka finantsteenuste sektoripõhise andmekaeveprotsessi (FIN-DM) kavandamise, arendamise ja hindamise kaudu. Samuti uuritakse, kuidas kasutatakse andmekaeve standardprotsesse eri tegevussektorites ja finantsteenustes. Uurimise käigus tuvastati mitu tavapärase raamistiku kohandamise stsenaariumit. Lisaks ilmnes, et need meetodid ei keskendu piisavalt sellele, kuidas muuta andmekaevemudelid tarkvaratoodeteks, mida saab integreerida organisatsioonide IT-arhitektuuri ja äriprotsessi. Peamised finantsteenuste valdkonnas tuvastatud kohandamisstsenaariumid olid seotud andmekaeve tehnoloogiakesksete (skaleeritavus), ärikesksete (tegutsemisvõime) ja inimkesksete (diskrimineeriva mõju leevendus) aspektidega. Seejärel korraldati tegelikus finantsteenuste organisatsioonis juhtumiuuring, mis paljastas 18 tajutavat puudujääki CRISP- DMi protsessis. Uuringu andmete ja tulemuste abil esitatakse doktoritöös finantsvaldkonnale kohandatud CRISP-DM nimega FIN-DM ehk finantssektori andmekaeve protsess (Financial Industry Process for Data Mining). FIN-DM laiendab CRISP-DMi nii, et see toetab privaatsust säilitavat andmekaevet, ohjab tehisintellekti eetilisi ohte, täidab riskijuhtimisnõudeid ja hõlmab kvaliteedi tagamist kui osa andmekaeve elutsüklis
listelement.badge.access-status Avatud juurdepääs ,
Geeniontoloogia andmete muutus ajas g:Profiler’i näitel
(Tartu Ülikool, 2021) Lepson, Marielle; Kolberg, Liis, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituut
Geeniontoloogia on geeniandmete kogum, mis on pidevas muutumises tulenevalt geeniand-mete lisandumisest, muutumisest või eemaldamisest. g:Profiler on Tartu Ülikooli BIIT töö-rühma poolt loodud veebitööriist, mis kasutab geeniontoloogia andmeid, et paremini kirjel-dada geeni nimekirju vastavalt nende funktsionaalsusele. Käesoleva töö eesmärk on kasu-tada andmekaeve meetodeid uurimaks geeniontoloogia andmete muutuseid ajas inimorga-nismi näitel. Samuti uuritakse elektrooniliste annotatsioonide esinemist ning hinnatakse nende kvaliteeti. Selleks kasutatakse g:Profiler’i andmete arhiive, mis ulatuvad aastasse 2009.
listelement.badge.access-status Avatud juurdepääs ,
Klasteranalüüsi kasutamine loomulike kliendisegmentide tuvastamiseks Eesti leibkondade hulgas
(Tartu Ülikool, 2014) Aus, Kaarel; Philips,Kaia, juhendaja; Tartu Ülikool. Majandusteaduskond; Tartu Ülikool. Rahvamajanduse instituut
listelement.badge.access-status Avatud juurdepääs ,
Kursuse LTAT.03.001 Programmeerimine logikirjete analüüsimine
(Tartu Ülikool, 2020) Laurikainen, Ingrid; Palm, Reimo, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituut
Moodle’i tegevuslogide analüüsimine on ajamahukas. Et analüüsi protsessi lihtsustada, loodi antud töö raames tarkvara, mis aitaks logikirjeid analüüsida. Loodud tarkvara võtab sisendina kolm erinevat faili ja nende töötlemise ja filtreerimise põhjal loob erinevaid tabeleid ja graafikuid, mille põhjal on võimalik teha järeldusi erinevate Moodle’i kursuste kohta. Antud töös analüüsiti programmeerimise kursuse logikirjeid. Uuriti, millised kursuse materjalid on vajalikud, kui olulised on kodutööd üliõpilaste jaoks, kas lisaülesannete või enesekontrolli testide lahendamine mõjutab üliõpilase edukust ning kas hinnete ja logikirjete arvu vahel on korrelatsioon.
listelement.badge.access-status Avatud juurdepääs ,
Mining social well-being using mobile data
(2023-06-08) Goel, Rahul; Sharma, Rajesh, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond
Mobiilsed andmed, nagu kõneandmete kirjed (CDR) ja digitaalsed andmed, loovad suure hulga andmeid, mis sisaldavad väärtuslikku teavet inimeste käitumise kohta. Käesolevas lõputöös keskendume ühiskonna heaolu kolmele tahule. Esiteks pakume välja kaks mobiilsusepõhise SIR-mudeli versiooni, (i) täielikult segatud ja (ii) keeruliste võrkude jaoks, mis võtavad arvesse CDR-i tegelikke interaktsioone. See töö on inspireeritud eeldusest, et mõne epideemia pandeemiaks muutumise peamine põhjus on globaalne seotus, mis muudab lihtsamaks suurema geograafilise piirkonna, sageli globaalse, mõjutamise. Lisaks ei ole rahvastiku jaotus, inimeste liikuvus ja sotsiaalne sidusus kogu maailmas ühtlane, mis mängib kriitilist rolli. Kasutasime oma mudelit COVID-19 juhtumite prognoosimiseks Eestis ja Prantsusmaal Rhône-Alpes. Teiseks uurime CDR-andmete abil ühiskondlikku segregatsiooni Eestis. Meie tulemused viitavad sellele, et (i) Eestis esineb sooline segregatsioon ja selle jäljed on nähtavad nii inimeste helistamisaegades, vanuserühmade ühenduvuses, eelistatud suhtluskeeles kui ka maakonnas; (ii) Peamised töötavad isikud (st (25–54) vanuserühm) ja vanurid (s.o (64–100) vanuserühm) on rohkem segregeeritud; (iii) Eesti- ja venekeelsed isikud on keelepõhiselt eraldatud. Kolmandaks uurime sotsiaal-majanduslike tingimuste (SEC) ennustamiseks mobiilirakenduste (nt Twitter ja Facebook) digitaalseid jälgi. Need tingimused hõlmavad haridust, sugu, vaesust, tööhõivet ja muid tegureid. Seetõttu on usaldusväärne ja täpne teave sotsiaaluuringute ja valitsuse politseitöö jaoks ülioluline. Rakenduste kasutusmustreid kasutades suudab meie parim mudel hinnata majanduslikke, hariduslikke ja demograafilisi näitajaid (saavutades R-ruudu skoori kuni 0,66). Lisaks anname aru nende mudelite seletatavuse kohta, et teha kindlaks prognoosimise olulised tunnused. Avastame, et mobiilirakenduste kasutusmustrid võivad paljastada sotsiaalmajanduslikke erinevusi.
listelement.badge.access-status Embargo ,
Otsustuspuud andmekaevanduses: C&RT algoritm teoorias ja praktikas
(Tartu Ülikool, 2009) Varik, Marko; Pärna, Kalev, juhendaja; Kaasik, Ants, juhendaja; Tartu Ülikool. Matemaatika-informaatikateaduskond; Tartu Ülikool. Matemaatilise statistika instituut
listelement.badge.access-status Avatud juurdepääs ,
Raamatukogude digitaalsetes kogudes teksti- ja andmekaeve tegemise õiguslikud probleemid
(Tartu Ülikool, 2018) Rattur, Elena; Kelli, Aleksei, juhendaja; Tartu Ülikool. Sotsiaalteaduste valdkond; Tartu Ülikool. Õigusteaduskond; Tartu Ülikool. Eraõiguse osakond
listelement.badge.access-status Avatud juurdepääs ,
Rahapesu tuvastamine masinõppe meetodite abil TransferWise LTD näitel
(Tartu Ülikool, 2016) Jaanhold, Krister; Lukason, Oliver, juhendaja; Tamkivi, Taavi, juhendaja; Tartu Ülikool. Majandusteaduskond
listelement.badge.access-status Avatud juurdepääs ,
Sales and Demographic Data Visualization, Analysis and Forecasting
(Tartu Ülikool, 2018) Ilmjärv, Taavi; Hadachi, Amnir, supervisor; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Tehnoloogiainstituut
Computerized data collection is constantly increasing. With technological progress more data is becoming available at any time on public databases. Also, private companies are collecting more data. Having thousands of observations in data sets makes it impossible for human to grasp trends and patterns. This raises a need for data mining and visualization for business intelligence. In order to optimize the use of sales territories and support companies growth it is important to understand the underlying patterns and associations between sales results and demographics. This thesis aims to accomplish three main objectives. Firstly, develop a web service to visualize demographic and sales data. Secondly, analyze demographics and sales data obtained, from company to get insight if success in sales is determined by placing representatives in “good” areas, or are there other factors that might predict success. The third aim is to create a predictive model that could predict sales results.
listelement.badge.access-status Avatud juurdepääs ,
Spordiennustused: kihlveokontoritega konkureerimine NBA-s
(Tartu Ülikool, 2014-06-17) Lepik, Kaido; Lember, Jüri, juhendaja; Tartu Ülikool. Matemaatika-informaatikateaduskond; Tartu Ülikool. Matemaatilise statistika instituut
Käesolev magistritöö püüab näidata, et spordikihlvedusid võib sõlmida professionaalsetel alustel, arvestades riskiga ja baseerides panustamisotsused matemaatikale. Töös on sporditulemustele ennustamist vaadeldud mitmekülgselt, alustades teema motiveerimisega ja probleemistiku uurimisega, kogudes ja korrastades suurel hulgal olulisi andmed, tutvustades juba varasemalt tehtud töid ja ideid; pakutud on uusi lahendusi, implementeeritud mitmeid algoritme ja teostatud kogutud andmetel põhjalik analüüs. Magistritöö jaoks on veebiroboti abil kogutud enam kui 15000 korvpallimängu andmed aastatelt 2000 kuni 2013 ja rohkem kui 5000 korvpallimängu koefitsiendid paljudelt kihlveokontoritelt. Mängude kohta kogutud informatsioon hõlmab nii meeskondade, mängijate ja viisikute kohta käivaid kokkuvõtlikke statistikuid kui ka sündmus-sündmus andmeid. Kõik andmed on korrastatud ja organiseeritud relatsioonilisse andmebaasi. Analüüsi osas veenduti esialgu teoreetiliselt tõestatud tulemuses, et juhuslikult spordisündmustele panustamine on keskmiselt kahjumlik. Seejärel püüti kasumlikult panustada lihtsate mudelite abil, mis klassifitseerisid korvpallimängu võitja meeskondade eelnevate omavaheliste mängude põhjal. Leiti mudel, mis suurest testandmetel tehtud klassifitseerimisveast (41,4%) hoolimata andis panustamissituatsioonis suure tulususe. Kihlveokontoreid püüti võita ka tehisõppe meetodite abil. Selleks kasutati logistilist regressiooni ja AdaBoosti, sobivate tunnuste valikuks implementeeriti mitmed heuristikud. Ükski nimetatud meetoditega treenitud klassifitseerija ei olnud panustamisel kasumlik, samas suutis parim logistilise regressiooni mudel klassifitseerida korrektselt 68,9% testmängudest. Lihtsate mudelite ja tehisõppe meetoditega leitud mudelite põhjal veendusime, et parem klassifitseerija ei pruugi anda suuremat kasumit. Seetõttu on klassifitseerijate ehitamisel treeningriski minimiseerimise asemel proovitud maksimiseerida ka treeningkasumit. Ideed on püütud jõuga realiseerida otsustuspuude abil. Samuti on implementeeritud modifitseeritud AdaBoosti meetod, mis kaalus vaatlusi vastavalt koefitsientide suurusele ja töötas kohati paremini kui originaalne AdaBoost. Lisaks on korvpallimängude võitjaid proovitud ennustada korvpallitulemuste simuleerimise abil Poissoni protsesside põhjal.
listelement.badge.access-status Avatud juurdepääs ,
Tehisintellekti valdkonna toetamine vaba kasutuse erandi laiendamisega väljundile autoriõigusliku kaitset andmata
(Tartu Ülikool, 2024) Nurm, Kersti; Rosentau, Mario, juhendaja; Tartu Ülikool. Sotsiaalteaduste valdkond; Tartu Ülikool. Õigusteaduskond; Tartu Ülikool. Avaliku õiguse osakond
listelement.badge.access-status Avatud juurdepääs ,
Using a Kano-like model to facilitate open innovation in requirements engineering
(2019-11-01) Yin, Huishi; Pfahl, Dietmar, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond
Kui viiakse läbi nõuete analüüsi (inglise k Requirements Engineering, lühend RE), siis sageli järjestatakse nõuded nende olulisuse alusel (inglise k requirements prioritization), et saada selgust, milliste välja pakutud nõuetega funktsioon peaks tarkvaral olemas olema, seega sõltub tarkvara analüüsist tarkvara majandusliku väärtuse suurendamisega seotud otsuste tegemine. Tänapäeval arenevad tooted väga kiiresti ning ka nõuete olulisuse alusel järjestamine (inglise k requirements prioritization) on muutunud kiiremaks. Ettevõtted sooviksid saada kasutajatelt kiiret tagasisidet selle kohta, mis peaks olema järgmises mudelis olemas. Üks häid lahendusi sellele on Kano mudel (inglise k Kano model). Kano mudel selgitab välja kasutajate rahulolu ja toodete tunnuste vahelise suhte. See meetod liigitab kasutajate eelistused nende tähtsuse järjekorras, seega toetab see ka nõuete olulisuse järjekorra moodustamist. Aga Kano mudeli rakendamine on kallis ja aeganõudev ning seda ei saa kiiresti korrata. Veelgi enam – see mudel on keeruline väikeste ettevõtete jaoks, sest neil ei tarvitse olla piisavalt rahalisi jm vahendeid, et kasutajatega ühendust võtta ja neid intervjueerida. See omakorda paneb väikesed ettevõtted, eriti just idufirmad, ebavõrdsesse olukorda suurte ettevõtetega. Et sellele probleemile lahendust leida ja Kano mudeli kasutuselevõttu lihtsamaks ning odavamaks teha, arvame, et Kano mudelit tuleks arendada kahel viisil. Esiteks tuleks kasutada tasuta võrgus leiduvaid kirjalikke andmeid, mida saaks asendada intervjueeritavatelt kogutud vastustega. Teiseks – selleks, et hakkama saada võrgust kogutud kirjalike andmete suure mahuga, ning et kaasa aidata korrapärastele analüüsidele, peaks andmete analüüsimine olema automaatne. Selle uurimuse eesmärk on välja pakkuda meetodeid, et kasutajate avamusi, mis on võrgus saadavatest vabadest allikatest kogutud, (semi-)automaatselt liigitada, ja seda selleks, et aidata otsustajatel otsustada, millised tarkvara nõuded järgmises mudelis kindlasti olemas peaksid olema. Et seda uurimuse eesmärki saavutada, pakume me välja avatud innovatsiooni nõuete analüüsi (OIRE) meetodi, mille abil saavad tarkvarafirmad parema ülevaate kasutajate vajadustest ja sellest, kuivõrd rahul on nad olemasolevate toodetega.