Sirvi Märksõna "cluster analysis" järgi
Nüüd näidatakse 1 - 16 16
- Tulemused lehekülje kohta
- Sorteerimisvalikud
listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Breimani pügamisteoreemi üldistus(Tartu Ülikool, 2025) Jesse, Mihkel; Lember, Jüri, juhendaja; Alasoo, Kaur, juhendaja; Riet, Ago-Erik, juhendaja; Tartu Ülikool. Matemaatika ja statistika instituut; Tartu Ülikool. Loodus- ja täppisteaduste valdkondKlassifikatsiooni- ja regressioonipuud (CART-puud) on masinõppemeetod. Käesolevas bakalaureusetöös käsitletakse CART-puude kasvatamise, pügamise ja rakendamisega seonduvat teooriat ning üldistatakse Breimani pügamisteoreemi, lisades uudse karis tusliikme. Tavaliste CART-puude puhul kasutatakse riskiliiget tükeldamisotsuse hindamiseks, pakutud karistusliikme abil hoitakse tükeldamisel sarnaseid elemente koos. See lähenemine võimaldab CART-puude rakendamist ka klasterdusülesannetes.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Clustering analysis for astrophysical structures(2020-12-21) Bussov, Maarja; Tempel, Elmo, juhendaja; Stoica, Radu S., juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondAntud doktoritöös uurime klasteranalüüsi meetodite abil kahte tüüpi astrofüüsikalisi andmeid – suureskaalalisi galaktikate punanihke vaatluseid ja suuri superarvuti simulatsioone turbulentsest kineetilisest plasmast. Töö esimeses pooles uurime Universumi struktuuri kõige domineerivamat elementi – galaktilisi filamente. Enamus Universumi galaktikaid asuvad nendes pikkades sildades, mis ühendavad sfäärilisi galaktikate parvi ja peaaegu tühjasid hoomamatuid tühikuid. Filamentvõrgustiku kaardistamine on väga olulise tähtsusega, sest see aitab meil mõista selles leiduvate galaktikate evolutsiooni ja galaktikatevahelist ainet. Antud töös leiame senini varjatud mustri galaktikate paiknemises piki filamente, mis viitab galaktikate evolutsiooni mõjutavatele keskkonna teguritele. Seejärel kinnitame uue galaktikateandmestiku ja filamentvõrgustiku ruumilise klasterdumise, mis kinnitab antud võrgustiku õigsust ja motiveerib neid uusi galaktikaid tuleviku modelleerimisel kasutama. Töö teises pooles uurime pilte, mis on saadud magneetiliselt domineeritud astrofüüsikalise plasma simulatsioonist. Antud mudel simuleerib füüsikalist fenomeni, mis leidub galaktikate klastrites, mustade aukude akretsiooniketastes, Päikese koroonas ja isegi tuumasünteesi reaktorites. Kõrgelt laetud osakesed väljuvad antud plasmast teatud füüsikaliste protsesside käigus, mida pole veel täielikult mõistetud. Selle mõistmiseks tuleb detekteerida erinevad füüsikalised struktuurid, mis plasmas leiduvad. Antud töös rakendame juhendamata masinõppe meetodit ning kaardistame plasmas olevad struktuurid piksli täpsusega. Sealhulgas need objektid, mis kiirendavad osakesi plasmast lahkuma. Töös arendatakse ka ansambelõppe raamistik, mis tõstab oluliselt struktuuride kaardistamise täpsust. Antud töö demonstreerib klasteranalüüsi algoritmide võimekust füüsikaliste fenomenide uurimisel.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Clustering financial time series(2020) Potikyan, Nshan; Kangro, Raul, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Matemaatika ja statistika instituutTime series clustering is heavily based on choosing a proper dissimilarity measure between a pair of time series. We present several dissimilarity measures and use two synthetic datasets to evaluate their performance. Hierarchical clustering and network analysis methods are used to perform cluster analysis on stock price time series of 594 US-based companies in order to verify whether stock prices of companies operating within an industry have common uctuations. The results of the thesis show that some companies within the same industry do form clusters, while others are relatively scattered.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Detection of meaningful locations from passive mobile positioning data using location profiling(2022) Rebane, Brigitta; Möls, Märt, juhendaja; Vent, Kaisa, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Matemaatika ja statistika instituutMobile positioning data is a promising source for investigating people’s activity patterns. People regularly visit locations that have different functions to them. Locations with similar activity patterns can be distinguished from the data based on people’s calling activities. The problem with assigning meaning to these locations in the data is limited information about the person and access to ground truth data. The thesis proposes a method to profile locations and assign meanings to differently behaving location groups. In the course of the work, various features are added to the location points by means of which they are classified. Additionally, an expert’s opinion was considered to provide input for the classes.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Eestis elavate inimeste väärtushinnangud(2019) Viliberg, Teele; Vähi, Mare, juhendaja; Tartu Ülikool. Matemaatika ja statistika instituut; Tartu Ülikool. Loodus- ja täppisteaduste valdkondSelle bakalaureusetöö eesmärk on kirjeldada ja võrrelda Eestis elavate inimeste väärtushinnanguid 2006. ja 2016. aastal. Samuti püütakse töös leida seoseid inimesi kirjeldavate taustatunnuste (nt sugu, vanus) ja väärtuste, mida nad oluliseks peavad, vahel. Kasutatud on 2006. ja 2016. aastal Eestis läbi viidud Euroopa Sotsiaaluuringu andmeid. Analüüsi läbiviimiseks on moodustatud sagedustabelid ja teostatud klasteranalüüs. Andmete korrigeerimiseks, analüüsimiseks ning illustratiivsete jooniste tegemiseks on kasutatud rakendustarkvara SAS.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Forest soil bacterial community analysis using high-throughput amplicon sequencing(2017-10-10) Preem, Jens-Konrad; Truu, Jaak, juhendaja; Mander, Ülo, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkondMuldade rikkalike mikroobikoosluste uurimist on siiani palju takistanud tõsiasi, et enamik mulla mikroobe on kultiveerimatud. Seda kitsaskohta aitab leevendada lähenemine nimega metagenoomika, mis tähistab uurimistööd otse keskkonnaproovidest eraldatud geneetilise materjaliga. Selliste andmete kasutamiseks on levinud meetodid, mille abil grupeeritakse (klasterdatakse) kogutud DNA järjestused ad-hoc taksonoomilistesse üksustesse nn. OTU-desse (Operational Taxonomic Unit). Nii võib OTU-desse klasterdatud järjestusi kasutades hinnata bakterikoosluste mitmekesisust ja liigilist koostist. Saadud OTU-de arvukuse numbreid annab kasutada mitmesugustes erinevates analüüsides kui asendajaid tavapärasematele taksonoomilistele üksustele. Niisama kiire, kui on olnud uute sekveneerimistehnoloogiate areng, on ka olnud uute tööriistade arvu kasv – viimase kümnendi jooksul on loodud hulk programme, mis on mõeldud eelpoolmainitud OTU-de moodustamiseks DNA järjestuste andmetest. Antud doktoritöö töö keskendub sellele, kuidas mõjutavad erinevad OTU loomise meetodid edasisi analüüse ning järeldusi. Selleks kasutati järjestusandmeid artiklist “Bacterial community structure and its relationship to soil physico-chemical characteristics in alder stands with different management histories” ning erinevaid OTU klasterdamise meetodeid. OTU-d loodi erinevate programmide abil (Mothur,CROP,UCLUST,Swarm) – seejärel viidi läbi koosluste mitmesugused statistilised analüüsid. OTU andmete analüüs andis üldjoontes samasuguseid tulemusi. Seda visualiseerivad hästi töös olevad joonised. OTU arvude ja mitmekesisusindeksi statistilised testid ei leidnud statistiliselt olulist erinevust eri klasterdusmeetodite vahel. Kasutatud klasterdamismeetoditest jäid parimaina silma paistma CROP ja UCLUST meetodid.Lisaks näitasid analüüsid ka osade statistiliste meetodite eeliseid teiste ees sedasorti OTU andmete käsitlemisellistelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Kahe klasterdamismeetodi võrdlus TÜ Eesti Geenivaramu metaboloomika andmestiku näitel(2019) Lassmann, Villem; Fischer, Krista, juhendaja; Tartu Ülikool. Matemaatika ja statistika instituut; Tartu Ülikool. Loodus- ja täppisteaduste valdkondKäesoleva bakalaureusetöö eesmärgiks on võrrelda kahte klasterdamismeetodit ning nende rakendamise tulemusel saadud klastrite informatsiooni suremusele, põhinedes metaboolika andmetele. Esmalt uuritakse meetodite klastrite erinevusi vanuse, soo ning kehamassiindeksi põhjal. Seejärel kasutatakse klastreid logistilise regressiooni mudelis, kus uuritakse suremust viie aasta jooksul. Viimasena kirjeldatakse mudelis statistiliselt oluliste tunnuste klasterite keskväärtusi ning keskväärtuste erinevust andmestiku keskmisest.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Krediidibüroosse eraisikute kohta tehtud päringute informatsiooni kasutamine panga krediidiriski mudelis(2019) Ree, Triin; Kangro, Raul, juhendaja; Märka, Karl, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Matemaatika ja statistika instituutKäesoleva magistritöö eesmärgiks on Creditinfo andmebaasis olevate eraisikute kohta tehtud maksehäirete päringute informatsiooni põhjal k-keskmiste klasterdamise abil leida inimeste finantskäitumise mustreid. Saadud klastrite tulemused kaasatakse krediidiriski mudeli loomisesse, et uurida, kas maksevõimelisuse tõenäosuse hindamisel kasutades taotlusele eelneva aasta jooksul tehtud päringute infot parandab logistilisel regressiooni mudelil põhineva krediidiriski mudeli klassifitseerimise täpsust.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Laborianalüüside diskretiseerimine ja analüüs(Tartu Ülikool, 2024) Talvet, Annika; Laur, Sven, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Arvutiteaduse instituutWhen interpreting the results of patients’ clinical analyses, reference ranges are important as they define the range within which a measurement result could fall for a healthy individual. These ranges can depend on age and gender, but may also vary depending on the methodology used in a particular laboratory. Using analysis results that are discretized based on reference ranges simplifies data analysis and model training. However, analysis results may be associated with incorrect LOINC codes or units of measurement. The aim of this Master’s thesis is to identify analyses and reference ranges grouped incorrectly or with incorrect units. Additionally, it aims to investigate whether discretized analysis results are beneficial for predicting medical events and if there is a difference in prediction accuracy using different discretization methods. In order to identify incorrectly grouped analysis results, the data was clustered using a Gaussian mixture model. To assess the predictive capability of discretized results, dependencies between the occurrence of medical events and differently discretized measurements, as well as measurement facts, were examined and models were trained to predict the occurrence of medical events. The results revealed that there is no significant difference in the prediction accuracy between models using different inputs. This suggests that in predicting medical events, the occurrence of measurement is as important as the discretized analysis result.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Mudelipõhine klasteranalüüs(2019) Mirski, Sören; Kuljus, Kristi, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Matemaatika ja statistika instituutMudelipõhiste klasterdamismeetodite korral eeldatakse, et vaatlusi on sobiv kirjeldada segujaotuse abil, mille iga komponent määrab ühe klastri. Mudelipõhine klasteranalüüs leiab üha enam kasutamist, kuna sel juhul asendub sobiva klasterdamismeetodi valik statistilise mudeli valikuga ja optimaalse klastrite arvu leidmise ülesanne taandub segujaotuse komponentide arvu hindamise ülesandeks. Käesoleva magistritöö eesmärk on anda ülevaade mudelipõhise klasteranalüüsi teostamisest kvantitatiivsete, kvalitatiivsete ning segatüüpi tunnuste korral. Töö esimeses peatükis defineeritakse segujaotused erinevat tüüpi tunnuste korral ning selgitatakse, kuidas EM-algoritmiga nende jaotuste parameetreid hinnatakse. Lisaks tuletatakse niinimetatud integreeritud klassifitseerimistõepära ehk ICL kriteerium, mida mudelipõhise klasteranalüüsi korral kasutatakse segumudeli sobivuse ja klastrite arvu hindamiseks. Töö teises peatükis rakendatakse mudelipõhist klasterdamist Tartu Ülikooli Eesti Geenivaramu biomarkerite andmestikule, mis sisaldab nii kvantitatiivseid kui ka kvalitatiivseid tunnuseid.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Mudelipõhise klasteranalüüsi ja K-medoidide meetodi võrdlemine kvalitatiivsete tunnustega andmete klasterdamisel(2020) Ugrjumova, Anastassia; Kuljus, Kristi, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Matemaatika ja statistika instituutMagistritöö eesmärk on võrrelda kaht erinevat klasteranalüüsi meetodit, kus üks on mudelipõhine ja teine põhineb vaatlustevahelistel kaugustel. Täpsemalt, võrreldakse mudelipõhist klasteranalüüsi ja K-medoidide meetodit kvalitatiivsete tunnuste korral. K-medoidide meetodi rakendamiseks kasutatakse PAM-algoritmi (partitioning around medoids). Mudelipõhise klasteranalüüsi puhul on vaatlused kirjeldatud segujaotuse abil, samal ajal PAM-algoritm põhineb erinevusmõõtudel. Viiakse läbi simulatsioonid erinevate klastrite kattuvusmäärade korral ja uuritakse mõlema klasterdusmeetodi käitumist erinevate kattuvuste korral. Et tulemusi analüüsida, kasutatakse kohandatud Randi indeksit ja keskmise silueti laiuse kriteeriumit.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Päritolu hindamine geeniandmete põhjal: TÜ Eesti Geenivaramu andmete analüüs(2018) Ojavee, Sven Erik; Fischer, Krista, juhendaja; Tartu Ülikool. Loodus- ja täppisteaduste valdkond; Tartu Ülikool. Matemaatika ja statistika instituutKäesoleva magistritöö eesmärk on leida võimalusi andmaks geenidoonoritele tagasisidet nende päritolu kohta, lähtudes SNPde andmetest. Nendele tuginedes on leitud peakomponendid, millele rajaneb edasine analüüs. Esmalt kirjeldatakse päritolu rahvuste tasandil, mille käigus antakse doonorile tõenäosuslik hinnang kuulumise kohta 22 rahvusgrupi hulka. Sellele järgnevalt kirjeldatakse päritolu Eesti-siseselt, kus leitakse K-keskmiste klasterdamise algoritmi abil Eesti sees tekkivad klastrid, mis moodustavad geograafiliselt loogilisi tervikuid. Klasterdamise tulemusi rakendatakse selleks, et klassifitseerida tekkinud klastrite alusel ning pakkuda ka hinnang klastritesse kuulumise tõenäosustele. Ühtlasi kontrollitakse, kui hästi töötab Eesti-sisene klassifitseerimine, valides klassideks maakonnad. Klassifitseerimismeetoditest võrreldakse lineaarset diskriminantanalüüsi, tugivektormasinaid ning juhuslikke metsi.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Radioloogiliste korduvuuringute tuvastamine globaalsel skaalal Eesti Haigekassa näitel(2019) Tamme, Tuule; Laur, Sven, juhendaja; Tartu Ülikool. Matemaatika ja statistika instituut; Tartu Ülikool. Loodus- ja täppisteaduste valdkondKäesoleva bakalaureusetöö eesmärk on kirjeldada radioloogiliste uuringute anomaaliaid. Töö esimeses peatükis kirjeldatakse radioloogiliste uuringute ajalisi anomaaliaid võrreldes üldise teenusekasutusega Eestis. Analüüs viiakse läbi Eesti Haigekassa raviarvete baasil. Teise peatüki eesmärk on tuvastada korduvate radioloogiliste uuringute tegemist.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Seosed eksposoomi ja kõrgvererõhktõve avaldumise vahel(Tartu Ülikool, 2025) Hint, Kaisa-Siret; Kronberg, Jaanika, juhendaja; Fischer, Krista, juhendaja; Tartu Ülikool. Matemaatika ja statistika instituut; Tartu Ülikool. Loodus- ja täppisteaduste valdkondEksposoomiks nimetatakse kõiki mittegeneetilisi tegureid, mis inimese tervist mõjutavad. Käesoleva bakalaureusetöö eesmärk oli Tartu Ülikooli Eesti Geenivaramu andmete põhjal leida seoseid eksposoomi ning kõrgvererõhktõve esinemise vahel. Seoste leidmiseks kasutati Coxi võrdeliste riskide mudelit, kuhu kaasati lisaks keskkonnatunnustele ka sugu, vanus, kehamassiindeks, haridustase ja suitsetamine. Kuna keskkonnategurid on korreleeritud ja neid eraldi analüüsides on tulemuste tõlgendamine keeruline, rakendati konsensusklasterdamist, et grupeerida inimesed nende elukoha keskkonnategurite põhjal. Lähemalt uuriti kahte konsensusklasterdamise tulemusel moodustunud klastrite jaotust.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Toitumismustrite analüüs Tartu Ülikooli Eesti geenivaramu andmebaasis k-keskmiste meetodi abil(Tartu Ülikool, 2015) Zimmermann, Marili; Fischer, Krista, juhendaja; Tartu Ülikool. Matemaatika-informaatikateaduskond; Tartu Ülikool. Matemaatilise statistika instituutKäesoleva bakalaureusetöö eesmärgiks on Tartu Ülikooli Eesti geenivaramu andmebaasis olevate toitumisandmete klasterdamise kaudu toitumismustrite leidmine k-keskmiste meetodi abil. Esmalt tuuakse ülevaade klasteranalüüsist ning täpsemalt k-keskmiste meetodist. Töö teises osas antakse ülevaade kasutatavast Tartu Ülikooli Eesti geenivaramu andmestikust. Töö järgnevas osas kirjeldatakse tehtud analüüsi TÜ geenivaramu andmetel ning antakse ülevaade saadud klastritest. Ühtlasi vaadeldakse ka klastrite lõikes erinevaid tausttunnuseid nagu vanus, haridus, elukoht jms. Erinevaid taustatunnuseid vaadates tulid leitud klastrite erinevused hästi välja.listelement.badge.dso-type Kirje , listelement.badge.access-status Avatud juurdepääs , Üliõpilaste tervislik seisund(Tartu Ülikool, 2014-06-20) Kuslap, Karili; Vähi, Mare, juhendaja; Tartu Ülikool. Matemaatika-informaatikateaduskond; Tartu Ülikool. Matemaatilise statistika instituutBakalaureusetöö eesmärgiks on uurida, milline on Tartu Ülikooli ja Greifswaldi Ülikooli tudengite tervislik seisund kahel esimesel õppeaastal. Võrreldakse kahe kõrgkooli tulemusi omavahel, et selgusele jõuda, kas üliõpilaste tervislikku seisundit kirjeldavad tegurid on samasugused või erinevad. Samuti on eesmärgiks välja selgitada, milliseid omadusi hindavad tudengid oma tulevase ameti juures kõige enam ning kas ootused on õpingute jooksul muutunud või mitte.