Predicting the molecular mechanisms of genetic variants

Date

2024

Journal Title

Journal ISSN

Volume Title

Publisher

Tartu Ülikool

Abstract

Haiguste mehhanismide avastamiseks ja uute ravimisihtmärkide prioritiseerimise hõlbustamiseks on vaja paremini mõista neid molekulaarseid mehhanisme, mille kaudu geneetiliste variandid mõjutavad haiguseid ja teisi komplekstunnuseid. Tavaliselt kasutatakse variantide toimemehhanismide väljaselgitamiseks molekulaarsete kvantitatiivse tunnuse lookuste (ingl k molecular quantitative trait locus, molQTL) uuringud, mis peaksid aitama tuvastada, kas konkreetne geneetiline variant mõjutab RNA splaissimist (sQTL) või geeniekspressiooni (eQTL). Kahjuks ei suuda aga molQTL meetodid täpselt vahet teha splaissimise ja geeniekspressiooni mehhanismidel ning lisaks ei ole neil võimekust tuvastada haruldaste variantide mõju. Nende puuduste ületamiseks uurisime, kas ja kuidas oleks võimalik kasutada masinõpet variantide toimemehhanismide ennustamiseks. Esmalt koostasime me käsitsi kureeritud treeningandmestiku, milles olid kahte tüüpi molQTLid: splaissimist mõjutavad sQTLid ja läbi kromatiini avatuse geeniekspressiooni mõjutavad eQTLid. Seejärel võrdlesime kahe süvanärvivõrgumudeli (Enformer ja ChromBPNet) võimet ennustada geneetilise variandi mõju kromatiini avatusele ja leidsime, et ChromBPNet mudeli ennustused olid üldiselt täpsemad. Järgmiseks töötasime välja geneetilise variandi toimemehhanismi ennustamise mudeli, mis ühendas endas klassikalised genoomiülesed tunnused erinevate süvaõppemudelite ennustustega. See mudel saavutas sQTL ja eQTL klasside eristamisel peaaegu 90% täpsuse, ületades märgatavalt ühe suure alusmudeli skooridel põhineva klassifikaatori 80%-list täpsust. Viimaks rakendasime toimemehhanismi ennustamise mudelit eQTL Catalogue andmebaasis olevat QTLid klassifitseerimiseks. Meie mudeli ennustused olid hästi kooskõlas geeniekspressiooni QTL-idega, kuid enamikku Leafcutteri meetodi poolt tuvastatud võimalikke splaissimise seoseid ei klassifitseeritud sQTL-ideks. Käesoleva töö käigus loodud uudne andmekogum ja esialgne masinõppemudel võimaldavad tulevikus paremini ennustada haigusseoseliste geneetiliste variantide toimemehhanisme.”

Description

Keywords

QTL mapping, gene expression, chromatin accessibility, machine learning, deep learning, QTL kaardistamine, geeniekspressioon

Citation