Environmental risk assessment of chemicals using QSAR methods

Date

2015-06-10

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Kemikaalide keskkonnariskide hindamisel uuritakse mitmeid omadusi, mida kemikaal võib mõjutada. Erilise tähelepanu all on kemikaali käitumine keskkonnas. Üheks uuritavaks omaduseks selles valdkonnas on biokontsentratsioon (BCF) ehk kui suures ulatuses kemikaal võib ladestuda organismi. Olemasolevate eksperimentaalsete mõõtmismeetodite rakendamist kõikidele kemikaalidele takistavad aeg, raha ja loomkatsed. Näiteks ühe kemikaali eksperimentaalne määramisel kasutatakse üle saja kala, see võtab aega kuni kuus kuud ning maksab umbes 100 000 eurot. Seetõttu puudub eksperimentaalselt määratud väärtus tuhandetel kemikaalidel. Viimane innustab looma kiiremad ning odavamad QSAR mudeleid, et täita tühimikud andmekogudes, kus kemikaalidel puuduvad eksperimentaalselt mõõdetud väärtused. On loodud mitmeid mudeleid, kuid ükski neist pole universaalne, ega rakendatav kõikidele kemikaalidele. Seetõttu kasutatakse riskianalüüsis erinevatele kemikaalidele omaduse väärtuse ennustamisel erinevaid mudeleid. Üldiselt kasutatakse ennustamisel mitmeid mudeleid, kus lõplik otsus tehakse mitme mudeli keskmisest ennustusest. Käesolev dissertatsioon on ülesehitatud põhimõttel anda ülevaade riskianalüüsi etappidest, biokontsentratsiooni tegurist ning erinevatest QSAR analüüsi meetoditest. Eksperimentaalne osa keskendub kirjeldatud meetodite rakendamisele BCF-i modelleerimisel. Modelleerimisel kasutati kahte lähenemist. Esimeses keskenduti regressiooni mudelite loomisele ning teises tegeleti klassifitseerimisprobleemidega. Alustuseks loodi laia kemikaalide spektrit kattev globaalne mudel BCF-i ennustamiseks. Mudelile määratud rakenduspiirkond võimaldas otsustada, millistele kemikaalidele tehtud ennustused olid usaldusväärsed ning millised mitte. Ennustustäpsuse parandamiseks, tükeldati andmekomplekt rohkem fokusseeritud alamkomplektideks ning loodi lokaalsed mudelid. Võrreldes globaalse mudeliga suutsid enamus lokaalsete mudelite komplekte ennustada BCF-i täpsemalt. Veel kõrgem ennustustäpsus saadi kui kõik loodud lokaalsed mudelid ühendati üheks suureks konsensusmudeliks. Bioakumuleeruvate kemikaalide eraldamiseks mitte bioakumuleeruvatest koostati kolm erineva klassijaotusega klassifitseerimismudelit. Loodud kolm mudelit on rakendatavad erinevatel juhtudel, kuid kõige üldisemaks võib pidada mudelit, kus treenimise faasis oli klasside jaotus võrdne. Lisaks pakuti välja uus rakenduspiirkonna määramise meetod Random Forest’i mudelite jaoks. Viimane näitab kui palju sarnaseid kemikaale kasutati mudeli loomisel ning kui hästi langesid ennustused kokku eksperimentaalsete andmetega. Kasutades seda informatsiooni on võimalik hinnata kui täpne on ennustus tundmatule kemikaalile. QSAR mudeli loomine ei ole lihtne ülesanne, sest sõltuvalt mudeli eesmärgist tuleb arvestada mitmete nõuetega. Riskianalüüsis on oluline kasutada asjakohaseid omadusi ja ühemõttelisi algoritme. Kõik käesolevas töös loodud mudelid kasutavad omadusena BCF-i ja täpselt defineeritud algoritme. Samuti pöörati tähelepanu mudelite valideerimisele ning rakenduspiirkonna määramisele, mis on tähtsad nõuded riskianalüüsis. Lisaks omasid kõik kasutatud deskriptorid modelleeritud omaduse suhtes mehhanistlikku seletust. Seetõttu annavad kõik loodud mudelid oma panuse riskianalüüsi, seletamaks kemikaalide võimet bioakumuleeruda.
Bioconcentration is an important endpoint for the determination of the fate and behaviour of chemicals in the environment. One area where BCF is extensively used is environmental risk assessment. However, experimental measurement of BCF for one chemical can take up to six months, cost around 100,000 euros, and need about one hundred animals. Therefore, thousands of chemicals are not being experimentally measured. This creates the need for the development of faster and more economical QSAR models to predict BCF for chemicals with no experimental data. To fill the gaps, many theoretical models have been developed. Wide chemical space makes it hard to use one universal model for all the chemicals. Therefore, at risk assessment, applicability of the chosen model is assessed for each chemical. On top of that, for more reliable results, multiple models are used. The goal of this thesis is to provide an outline for risk assessment procedures, bioconcentration factor and different QSAR methodologies. The modelling part of the thesis is divided into two. The first part focuses on the regression analysis and the second part on the classification problems. At first, a global regression model was proposed for predicting BCF. The global model could predict a wide variety of chemicals and provide information about the model’s applicability domain. The creation of the global model laid the foundation for the exploration of the possibilities to improve prediction quality using smaller, more focused data sets. Most of the subsets of focused models showed better predictive power compared to the global model. Additionally, consensus model was compared against the global model and local models. Proposed consensus model outperformed all of them. To separate bio-accumulative and non-bio-accumulative chemicals three classification models with different training set compositions were proposed. All three developed models had their strengths in different classification scenarios, but the most all-purpose model was the model where classes were distributed evenly. To identify whether a chemical fits into the boundaries of the model, a new approach was proposed for assigning applicability domain for Random Forest based models. Applying AD shows how many similar chemicals were used to develop the model and how well they were predicted. The information provided by the AD schema allows making a more confident final decision about the correctness of the prediction. Building a QSAR model is not a trivial task. The purpose of the model declares which aspects should receive special attention. For risk assessment, it is important to use relevant endpoints and unambiguous algorithms. All the models built during this work use well-defined algorithms and BCF as an endpoint. Attention was paid to the requirement of model validation and defined applicability domain. In addition, all the used descriptors have a sound mechanistic interpretation in relation to BCF. Therefore, all of these models can be used in environmental risk assessment to get additional information about the bioaccumulation potential of chemicals.

Description

Väitekirja elektrooniline versioon ei sisalda publikatsioone.

Keywords

kemikaalid, keskkonnakahju, riskianalüüs, kvantitatiivne struktuur-aktiivsus sõltuvus, chemicals, environmental damage, riskianalüüs, quantitative structure-activity relation

Citation