王藝霖, 范俊韜 , 王書平, 黃國(guó)鮮, 閆振廣
1. 上海海洋大學(xué)海洋生態(tài)與環(huán)境學(xué)院,上海 201306
2. 中國(guó)環(huán)境科學(xué)研究院環(huán)境基準(zhǔn)與風(fēng)險(xiǎn)評(píng)估國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100012
研究表明,含內(nèi)分泌干擾物(endocrine disruptor chemicals, EDCs)類的化學(xué)品在農(nóng)業(yè)、工業(yè)和日常生活中被廣泛使用[1],已在廢水、地表水、自來(lái)水中陸續(xù)檢出,表明其對(duì)水生生物乃至人類的影響正在逐漸擴(kuò)大[2-5]。 EDCs 可以直接作用于內(nèi)分泌系統(tǒng),能夠以阻斷或模仿人類和動(dòng)物體內(nèi)自然激素的方式干擾激素行為,從而對(duì)心血管、代謝、免疫,尤其是生物的生殖系統(tǒng)造成影響,導(dǎo)致種群數(shù)量下降[6-9];大部分的EDCs 具有低劑量有效性、半衰期長(zhǎng)和生物富集、生物放大等特點(diǎn),因此會(huì)在環(huán)境中持久存在,造成較為長(zhǎng)遠(yuǎn)的影響[10-12]。 研究數(shù)據(jù)表明,我國(guó)多處水域均受到EDCs 污染,由此帶來(lái)的生態(tài)風(fēng)險(xiǎn)需要引起高度的重視[13-15]。
EDCs 生態(tài)風(fēng)險(xiǎn)的科學(xué)評(píng)估則依賴于繁殖毒性數(shù)據(jù)的獲取。 EDCs 的繁殖毒性數(shù)據(jù)主要來(lái)自與生物的生活史或部分生活史相關(guān)的實(shí)驗(yàn)。 這些實(shí)驗(yàn)周期長(zhǎng)、成本高,難以在短期內(nèi)積累足夠的EDCs 繁殖毒性數(shù)據(jù),使得 EDCs 的生態(tài)風(fēng)險(xiǎn)評(píng)估非常困難[15-18],不利于以后科學(xué)開(kāi)展生態(tài)風(fēng)險(xiǎn)評(píng)估和環(huán)境管理工作。 使用數(shù)學(xué)模型來(lái)預(yù)測(cè)毒性效應(yīng)已成為國(guó)際生態(tài)毒理學(xué)研究熱點(diǎn)[19]。 數(shù)學(xué)建模工具可以在一定的框架下對(duì)現(xiàn)有的毒性實(shí)驗(yàn)進(jìn)行拓展,有利于深入了解劑量與反應(yīng)關(guān)系之間的復(fù)雜性[15,20],從而保護(hù)生態(tài)系統(tǒng),降低生態(tài)風(fēng)險(xiǎn)。 使用模型預(yù)測(cè)毒性效應(yīng)數(shù)據(jù)相比實(shí)驗(yàn)獲取也有一定的優(yōu)勢(shì),如擴(kuò)充實(shí)驗(yàn)數(shù)據(jù)、減少時(shí)間和物力消耗以及生物犧牲量[21-22],還可以對(duì)多種化學(xué)品的聯(lián)合作用進(jìn)行分析[23]等。
定量構(gòu)效關(guān)系(quantitative structure-activity relationship, QSAR)模型被廣泛應(yīng)用于預(yù)測(cè)毒性效應(yīng)。QSAR 是將一組化合物的某種性質(zhì)或活性與這些化合物的化學(xué)成分或結(jié)構(gòu)信息進(jìn)行定量關(guān)聯(lián)的方法,可以用來(lái)預(yù)測(cè)化合物的毒性值、作用模式,篩選和排序化學(xué)品等[24-26],該方法通常與其他模型方法如機(jī)器學(xué)習(xí)耦合使用;其中機(jī)器學(xué)習(xí)在生態(tài)毒理學(xué)中得到了越來(lái)越多的應(yīng)用,其一般原理是根據(jù)一定的規(guī)則將輸入變量與輸出變量之間的關(guān)系一般化,并用于預(yù)測(cè)未知的相似情況[27-28];機(jī)器學(xué)習(xí)方法可以更好地處理非線性問(wèn)題,對(duì)于關(guān)系復(fù)雜或未知的輸入、輸出變量也有很好的適應(yīng)性,且通常具有良好的精度,可以減少重復(fù)性試驗(yàn)等[29-31]。 而 EDCs 繁殖毒性是慢性毒性的一種,急性毒性終點(diǎn)不適用于測(cè)量EDCs 的慢性繁殖毒性效應(yīng)。 卵黃蛋白原(vitelloge-nin, VTG)、性腺指數(shù)(gonado-somatic index, GSI)、第二性征、血漿中的類固醇濃度和性腺組織病變被認(rèn)為是用于評(píng)估EDCs 繁殖毒性終點(diǎn)的生物標(biāo)志物,這些終點(diǎn)的變化需要長(zhǎng)時(shí)間觀測(cè),一般采用無(wú)觀察效應(yīng)濃度(no observed effect concentration, NOEC)或最低可觀察效應(yīng)濃度(lowest observed effect concentration, LOEC)指標(biāo)表示[32],這就造成了EDCs 毒性數(shù)據(jù)較少,從而鮮見(jiàn)利用上述模型對(duì)EDCs 水生生物繁殖毒性進(jìn)行預(yù)測(cè)[21]。
因此本文將首先對(duì)近年來(lái)應(yīng)用機(jī)器學(xué)習(xí)方法預(yù)測(cè)化合物水生生物毒性效應(yīng)的相關(guān)研究進(jìn)展進(jìn)行總結(jié),并在搜集到的可靠數(shù)據(jù)的基礎(chǔ)上,利用QSAR建立用于預(yù)測(cè)EDCs 水生生物毒性效應(yīng)的機(jī)器學(xué)習(xí)模型,從而為日后的化學(xué)品生態(tài)風(fēng)險(xiǎn)評(píng)估和檢測(cè)優(yōu)先性等提供指導(dǎo)。
通過(guò)Web of Science 和中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)對(duì)近年來(lái)國(guó)內(nèi)外使用機(jī)器學(xué)習(xí)方法預(yù)測(cè)水生生物毒性文章進(jìn)行檢索,采用的檢索詞如表1 所示。 對(duì)檢索到的文獻(xiàn)作如下分析:當(dāng)前研究的主要目的;文獻(xiàn)中使用到的機(jī)器學(xué)習(xí)模型以及每種模型的使用頻率;對(duì)每項(xiàng)研究涉及的不同研究對(duì)象進(jìn)行匯總,如化合物、歸屬于不同營(yíng)養(yǎng)級(jí)的水生生物以及毒性終點(diǎn)等;另外還包括文獻(xiàn)內(nèi)涉及到的研究手段與數(shù)據(jù)處理方法等。
表1 用于檢索使用機(jī)器學(xué)習(xí)預(yù)測(cè)內(nèi)分泌干擾物水生生物毒性效應(yīng)文獻(xiàn)的關(guān)鍵詞Table 1 Key words for searching papers that applied machine learning to predict the toxicity effects of endocrine disruptor chemicals on aquatic organisms
1.2.1 數(shù)據(jù)獲取與預(yù)處理
參考文獻(xiàn)中描述的毒性數(shù)據(jù)篩選方法[33],在美國(guó)環(huán)境保護(hù)局(US EPA) ECOTOX 數(shù)據(jù)庫(kù)檢索了以NOEC、LOEC 等作為毒性終點(diǎn),與黑頭軟口鰷(Pimephales promelas)繁殖毒性相關(guān)的數(shù)據(jù)。 若搜集所得數(shù)據(jù)集內(nèi)的相同化學(xué)品在相同毒性終點(diǎn)上存在不同的數(shù)據(jù)點(diǎn),則取幾何平均值;篩選后得到了83種不同化學(xué)品對(duì)黑頭軟口鰷的繁殖毒性數(shù)據(jù),考慮到數(shù)據(jù)量的因素,未對(duì)化學(xué)品繼續(xù)篩選[34]。
分子描述符是一組將分子的不同屬性(如物理化學(xué)、拓?fù)浜徒Y(jié)構(gòu)等)進(jìn)行量化表示的數(shù)值[35-36]。 為了獲得分子描述符,首先需要收集不同化學(xué)物質(zhì)對(duì)應(yīng)的簡(jiǎn)化分子線性輸入規(guī)范(simplified molecular input line entry specification, SMILES);SMILES 數(shù)據(jù)收集自PubChem 網(wǎng)站(https://pubchem.ncbi.nlm.nih.gov/);使用了 PaDEL-descriptor 軟件[37]的 python 接口用于計(jì)算分子描述符,該軟件可以根據(jù)SMILES為每種化合物計(jì)算出共1 875 種分子描述符。
在獲得的描述符數(shù)據(jù)集中,并不是所有的描述符對(duì)于模型構(gòu)建都是必要的。 具體篩選方法如下。
(1) 一些化合物的某些分子描述符的計(jì)算值可能為空值或無(wú)窮值(體現(xiàn)在excel 或csv 文件中即為無(wú)數(shù)據(jù)和Inf/Infinity),這些數(shù)值無(wú)法被輸入至機(jī)器學(xué)習(xí)模型中用于訓(xùn)練,由于數(shù)據(jù)集中化合物的數(shù)量較少,因此刪除了具有非法值的描述符[38]。
(2) 常數(shù)項(xiàng)或半常數(shù)項(xiàng)(該系列的80%及以上數(shù)值都相等)的描述符通常對(duì)模型的貢獻(xiàn)較小,因此采取方差過(guò)濾法并選取0.01 作為過(guò)濾界限[39-40]。
(3) 一些分子描述符之間具有線性相關(guān)性,若成對(duì)的描述符之間的Pearson 相關(guān)系數(shù)>0.99,則只留下其中一個(gè)[34]。
(4) 經(jīng)過(guò)上述篩選,大多數(shù)冗雜特征被去除,但仍需要選擇最優(yōu)子集。 這個(gè)選擇過(guò)程被認(rèn)為是比較困難的,因?yàn)闆](méi)有合適的規(guī)則作為指導(dǎo),通常以個(gè)人經(jīng)驗(yàn)與其他算法相結(jié)合的方式進(jìn)行[41-42]。 本文使用了遞歸特征消除(recursive feature elimination,RFE)[43],RFE 可以結(jié)合具有判斷變量重要性的機(jī)器學(xué)習(xí)算法,重復(fù)建模為特征的重要性進(jìn)行排序并逐漸刪除指定個(gè)數(shù)特征,直到剩余規(guī)定數(shù)量的特征為止。 為了消除數(shù)據(jù)之間由于數(shù)量級(jí)差異帶來(lái)的影響,首先對(duì)所有描述符作了標(biāo)準(zhǔn)化,公式如下所示:
式中:Xi為第n個(gè)描述符的第i個(gè)數(shù)值,μn為第n個(gè)描述符的平均值,Sn為第n個(gè)描述符的標(biāo)準(zhǔn)差;然后使用結(jié)合隨機(jī)森林的RFE 法選擇最終特征子集。
了解化合物的可能毒性范圍有利于開(kāi)展初步生態(tài)風(fēng)險(xiǎn)評(píng)估工作[44]。 根據(jù)中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)《化學(xué)品水生環(huán)境危害分類指導(dǎo)第3 部分:水生毒性》(GB/T 36700.3—2018),對(duì)于慢性毒性不大于100 μg·L-1的物質(zhì),認(rèn)為其毒性較高,反之則認(rèn)為其毒性較低;在此標(biāo)準(zhǔn)的指導(dǎo)下,選取了100 μg·L-1作為分類界限,NOEC 小于等于該值的化合物為類別“1”,大于該值的為類別“0”。 數(shù)據(jù)集被以4∶1 的比例劃分為訓(xùn)練集和測(cè)試集,測(cè)試集用于模型的效果評(píng)價(jià),不用于模型的訓(xùn)練。
1.2.2 機(jī)器學(xué)習(xí)模型的構(gòu)建
采用的支持向量機(jī)(support vector machine,SVM)模型與線性神經(jīng)網(wǎng)絡(luò)(linear neural network,LNN)模型,分別由 scikit-learn[45]和 Keras 搭建。SVM 模型可以執(zhí)行線性和非線性的分類與回歸任務(wù),且被認(rèn)為非常適用于中小型數(shù)據(jù)集[46],其中應(yīng)用到的核函數(shù)為高斯徑向基(Gaussian radial basis function, RBF),該核函數(shù)常被應(yīng)用于SVM 的構(gòu)建中。LNN 模型中,每個(gè)神經(jīng)元都代表一個(gè)多元線性函數(shù),如下式所示。
式中:Y為該神經(jīng)元的輸出值,X1~Xn為輸入特征,W1~Wn為權(quán)重,b為偏置值,采用了單隱藏層結(jié)構(gòu)[47];Sigmoid 函數(shù)為激活函數(shù),可以將輸出的數(shù)值范圍變?yōu)? ~1,即“預(yù)測(cè)為正類”的概率值;二元交叉熵作為損失函數(shù)。
1.2.3 模型評(píng)估標(biāo)準(zhǔn)
在二元分類中,模型的預(yù)測(cè)性能根據(jù)真陽(yáng)性(true positives, TP)、真陰性(true negatives, TN)、假陽(yáng)性(false positives, FP)、假陰性(false negatives, FN)的數(shù)量以及敏感性(sensitivity, SE)、特異性(specificity,SP)和預(yù)測(cè)準(zhǔn)確度(accuracy, Acc)來(lái)判定[44];此外還應(yīng)用了受試者工作特征(receiver operating characteristic, ROC)曲線與曲線下面積(area under curve,AUC)來(lái)評(píng)價(jià)模型的分類性能;ROC 曲線的x軸為假陽(yáng)性率(false positive rate),y軸為真陽(yáng)性率(true positive rate);AUC 取值為 0.5 ~1.0,當(dāng) AUC=1.0 時(shí)表示這是一個(gè)完美的分類器,而AUC=0.5 時(shí)說(shuō)明該分類器沒(méi)有分類能力[48-49]。 所涉及到的評(píng)價(jià)參數(shù)的含義和計(jì)算式如表2 所示。
表2 二元分類模型能力判定標(biāo)準(zhǔn)Table 2 Assessment standard of binary classification models
1.2.4 應(yīng)用領(lǐng)域
經(jīng)濟(jì)合作與發(fā)展組織關(guān)于QSAR 模型的指導(dǎo)文件[50]中指出,“一個(gè)(Q)SAR 模型需要定義其應(yīng)用域(application domain, AD)”,即根據(jù)模型訓(xùn)練集中化學(xué)物質(zhì)的結(jié)構(gòu)或物理化學(xué)等信息確定模型的預(yù)測(cè)能力限制范圍,對(duì)超出該范圍的化學(xué)物質(zhì)(與訓(xùn)練集中物質(zhì)的相似性不足)的預(yù)測(cè)結(jié)果被認(rèn)為可靠程度較低。 由于相似性有很多不同的表達(dá)方式(一般通過(guò)理化性質(zhì)來(lái)定義),因此AD 的評(píng)估也可以是多樣化的,如杠桿方法[51]和基于Euclidean 距離的AD 分析法[52-54]。 其中Euclidean 方法將化學(xué)分子表示為多維向量中的一點(diǎn)(維數(shù)等于每種描述符中的變量數(shù)量),并以Euclidean 距離計(jì)算任意2個(gè)分子之間的相 似 性。 Ambit Discovery 軟 件 (http://ambit.sourceforge.net/download_ambitdiscovery.html)可以直接構(gòu)建基于Euclidean 距離的AD 分析,并顯示處于AD 之外的化合物,因此 AD 分析將使用該軟件進(jìn)行。
根據(jù)檢索詞共篩選出英文文獻(xiàn)61 篇,中文文獻(xiàn)2 篇,發(fā)文數(shù)量與年份增長(zhǎng)之間的關(guān)系如圖1 所示。由圖1 可知,結(jié)合機(jī)器學(xué)習(xí)方法來(lái)預(yù)測(cè)化合物對(duì)水生生物毒性的文章數(shù)量從2009年開(kāi)始增多并且呈現(xiàn)明顯的上升趨勢(shì),說(shuō)明這種策略正得到越來(lái)越多的認(rèn)可。 這一方面是由于機(jī)器學(xué)習(xí)方法所具備的優(yōu)勢(shì),另一方面也和計(jì)算機(jī)技術(shù)的發(fā)展為機(jī)器學(xué)習(xí)的應(yīng)用提供了更優(yōu)秀的條件有關(guān)[55]。
圖1 近年來(lái)使用機(jī)器學(xué)習(xí)或建模方法預(yù)測(cè)化學(xué)品水生生物毒性的文章數(shù)量和趨勢(shì)Fig.1 The number and trend of papers that used machine learning or modeling methods to predict the toxicity of chemicals on aquatic organisms in recent years
每種算法的使用次數(shù)與應(yīng)用方式(用于預(yù)測(cè)離散、連續(xù)型數(shù)據(jù),或者變量篩選)如圖2 所示。 其中,使用次數(shù)最多的是SVM,共25 次,且在回歸與分類問(wèn)題上的使用較為均衡,一定程度上體現(xiàn)了其廣泛適用性[56-58];線性回歸的使用次數(shù)僅次于SVM,并與神經(jīng)網(wǎng)絡(luò)一起更多地被應(yīng)用于回歸問(wèn)題;遺傳算法幾乎僅被用于輔助作用,即作為一種選擇描述符子集的手段,而不用于預(yù)測(cè)化合物的毒性效應(yīng);決策樹(shù)、隨機(jī)森林和k最近鄰等算法被較多地應(yīng)用于分類問(wèn)題[59-60]。
圖2 被用于預(yù)測(cè)化學(xué)品水生生物毒性的算法及其應(yīng)用的頻率與目的Fig.2 Algorithms used to predict the toxicity of chemicals on aquatic organisms and their frequency and purpose of application
文獻(xiàn)中涉及的水生生物、化合物和毒性終點(diǎn)如圖3 所示。 涉及的水生生物包括脊椎生物、無(wú)脊椎生物和藻類,其中脊椎生物即魚類,如黑頭軟口鰷(Pimephales promelas)、斑馬魚(Brachydanio rerio)和虹鱒(Oncorhynchus mykiss)等;無(wú)脊椎生物中較多的是浮游生物,如梨形四膜蟲(Tetrahymena pyriformis)、大型溞(Daphnia magna)等。 所探究的化合物種類也較多:按照結(jié)構(gòu)信息,有取代苯類化合物、芳香族化合物和酚類化合物等;根據(jù)作用,包含農(nóng)藥(如生物殺滅劑、除草劑等)、個(gè)人護(hù)理產(chǎn)品(如抗抑郁藥、降壓藥和麻醉藥等)和工業(yè)化學(xué)品等。 根據(jù)危害方式,大多數(shù)文獻(xiàn)所研究的毒性終點(diǎn)為急性毒性,如半抑制生長(zhǎng)濃度[61]、半致死濃度[62]和半數(shù)效應(yīng)濃度[63]等,這可能與其實(shí)驗(yàn)周期短、數(shù)據(jù)量較多、誤差較低以及當(dāng)前管控優(yōu)先度較高等因素有關(guān)。 而在慢性毒性當(dāng)中,以 NOEC 作為毒性終點(diǎn)的研究較少[34,64],且模型的性能也相對(duì)較差,如Sheffield 和Judson 等[34]的研究中為該終點(diǎn)構(gòu)建了回歸模型,評(píng)估回歸模型常用的標(biāo)準(zhǔn)之一是由實(shí)際值與預(yù)測(cè)值所計(jì)算出的決定系數(shù)(R2),在其研究中所構(gòu)建的部分模型的R2為0.6 左右,盡管在QSAR 領(lǐng)域中R2>0.5時(shí)模型即被認(rèn)為具有預(yù)測(cè)性能[65],但相較于大多數(shù)其他學(xué)者的研究而言則處于較低水平[66-68]。
圖3 各文獻(xiàn)中使用到的水生物種與毒性終點(diǎn)注:IC50 表示半抑制濃度;IGC50 表示半抑制生長(zhǎng)濃度;LC50 表示半數(shù)致死濃度;EC50 表示半數(shù)效應(yīng)濃度;NOEC 表示無(wú)觀測(cè)效應(yīng)濃度。Fig.3 Aquatic creatures and toxicity endpoints applied in papersNote: IC50 stands for 50% inhibitory concentration; IGC50 stands for 50% impairment growth concentration; LC50 stands for lethal concentration 50%;EC50 stands for concentration for 50% of maximal effect; NOEC stands for no observed effect concentration.
2.2.1 描述符選擇及AD 評(píng)估
經(jīng)過(guò)RFE 方法篩選,最終選擇了ATSC0m、ATSC7p、MATS3i 和 TpiPC 作為輸入變量。 其中 ATSC0m、ATSC7p 和 MATS3i 是 2D 自相關(guān)描述符,ATSC0m 和ATSC7p 分別為原子質(zhì)量加權(quán)和原子極化率加權(quán)的 Broto-Moreau 中心自相關(guān)描述符,MATS3i 是電離勢(shì)加權(quán)的 Moran 中心自相關(guān)描述符,分別表征了原子質(zhì)量、極化率與電離勢(shì)的影響;TpiPC 則與步進(jìn)計(jì)數(shù)的常規(guī)鍵序 ID 號(hào)相關(guān)[69-70]。使用Ambit Discovery 構(gòu)建的AD 部分表征如圖4所示,軟件計(jì)算結(jié)果顯示訓(xùn)練集與測(cè)試集中均無(wú)化合物落在AD 之外,這說(shuō)明選取的訓(xùn)練集具有良好的代表性。
圖4 基于Euclidean 距離的應(yīng)用域表征Fig.4 Application domain based on Euclidean distance
分子描述符的數(shù)值變化對(duì)毒性帶來(lái)的影響如圖5 所示,圖 5 中(a)、(b)、(c)和(d)分別為 ATSC0m、ATSC7p、MATS3i 和 TpiPC。 藍(lán)色柱狀條代表標(biāo)準(zhǔn)化后的每個(gè)化合物的分子描述符的數(shù)值;橙色柱狀條代表毒性,存在與否表示該化合物是否具有較高毒性。 可以看出,對(duì)于描述符ATSC0m 和TpiPC,隨著數(shù)值的增大,橙色柱狀條開(kāi)始變得相對(duì)密集,即化合物傾向于具有高毒性;ATSC7p 則與之相反,隨著其數(shù)值增大,更多的化合物毒性較低;MATS3i 顯示出了不同的趨勢(shì),其增大與減小時(shí)化合物毒性均較低,而在均值附近時(shí)較多的化合物具有較高毒性。
圖5 分子描述符數(shù)值大小與毒性之間的關(guān)系注:橫坐標(biāo)表示不同的化合物,縱坐標(biāo)表示標(biāo)準(zhǔn)化后的化合物毒性值。Fig.5 Relationship between molecular descriptors and toxicityNote: Abscissa represents different chemicals, and ordinate represents the toxicity of chemicals after standardization.
2.2.2 性能評(píng)估
數(shù)據(jù)集中化合物名稱、CAS 號(hào)和模型的預(yù)測(cè)結(jié)果如表3 所示,其中模型Ⅰ為SVM,模型Ⅱ?yàn)長(zhǎng)NN。
續(xù)表3
續(xù)表3
訓(xùn)練集和測(cè)試集的評(píng)估如表4 所示。 其中,SVM 在訓(xùn)練集和測(cè)試集上的預(yù)測(cè)準(zhǔn)確率分別為0.91 和0.88 左右,均達(dá)到了較好的水平,說(shuō)明預(yù)測(cè)能力可以接受;模型對(duì)測(cè)試集的預(yù)測(cè)結(jié)果中,對(duì)高毒性與低毒性化合物的召回率,即SE 與SP 分別為1.00 與0.67,相比訓(xùn)練集中的0.93 與0.88 來(lái)說(shuō)不夠均衡,這可能是由于測(cè)試集數(shù)據(jù)量較少導(dǎo)致的,但是SE 較高可以減少實(shí)際有毒化合物漏檢的可能性;訓(xùn)練集與測(cè)試集的預(yù)測(cè)準(zhǔn)確率差距不大,說(shuō)明模型沒(méi)有發(fā)生過(guò)擬合。 SVM 與 LNN 構(gòu)建模型得到的ROC 曲線分別如圖6 和圖7 所示,其中SVM 的訓(xùn)練集與測(cè)試集的AUC 分別為0.93 和0.88,遠(yuǎn)大于下限0.5,因此這是一個(gè)較好的分類器。
圖6 由SVM 構(gòu)建模型得到的訓(xùn)練集與測(cè)試集受試者工作特征(receiver operating characteristic, ROC)曲線注:AUC 表示曲線下面積。Fig.6 Receiver operating characteristic (ROC) curve for training set and test set based on SVMNote: AUC stands for area under curve.
圖7 由線性神經(jīng)網(wǎng)絡(luò)(linear neural network, LNN)構(gòu)建模型得到的訓(xùn)練集與測(cè)試集ROC 曲線Fig.7 ROC curve for training set and test set based on linear neural network (LNN)
表4 最終模型預(yù)測(cè)性能表征Table 4 Statistical results of developed models
LNN 在訓(xùn)練集和測(cè)試集上的預(yù)測(cè)準(zhǔn)確率均為0.82 左右,未出現(xiàn)過(guò)擬合現(xiàn)象,SE 分別為0.88 與1.00,SP 分別為0.73 與0.50;該模型的預(yù)測(cè)結(jié)果同樣有不均衡的SE 與SP 分布,可能進(jìn)一步說(shuō)明該問(wèn)題的出現(xiàn)與數(shù)據(jù)集有關(guān);訓(xùn)練集與測(cè)試集的AUC分別為0.87 與0.88,說(shuō)明分類性能良好。
2.2.3 模型對(duì)比
(1) SVM 比 LNN 穩(wěn)定。 如圖 8 所示,保持超參數(shù)等條件不變,SVM 可以通過(guò)訓(xùn)練得到恒定最優(yōu)解;而對(duì)于LNN,若訓(xùn)練次數(shù)不斷增加,結(jié)果也在逐漸發(fā)生變化,如圖9 所示,訓(xùn)練集預(yù)測(cè)準(zhǔn)確率(Acc)上升,測(cè)試集預(yù)測(cè)準(zhǔn)確率(val_acc)不變,但測(cè)試集損失函數(shù)(val_loss)卻與訓(xùn)練集損失函數(shù)(loss)呈現(xiàn)相反趨勢(shì),說(shuō)明模型傾向于朝過(guò)擬合發(fā)展,這可能與數(shù)據(jù)集較小有關(guān)。 SVM 的預(yù)測(cè)結(jié)果也略優(yōu)于LNN,一定程度上說(shuō)明SVM 較LNN 更適合于小數(shù)據(jù)集。
圖8 經(jīng)過(guò)10 次相互獨(dú)立的訓(xùn)練后SVM 的預(yù)測(cè)準(zhǔn)確率Fig.8 The prediction accuracy of SVM after trained for ten times separately
圖9 LNN 的訓(xùn)練過(guò)程中結(jié)果持續(xù)變化Fig.9 The result of LNN kept changing while training
(2) SVM 的訓(xùn)練難度相對(duì)較低。 如上所述,隨著訓(xùn)練的進(jìn)行,SVM 可以得到恒定最優(yōu)解,而LNN不能;另外,在相同的訓(xùn)練次數(shù)內(nèi),LNN 的預(yù)測(cè)準(zhǔn)確率也會(huì)呈現(xiàn)不同的變化趨勢(shì)或規(guī)律,結(jié)束訓(xùn)練時(shí)得到的結(jié)果也可能不同,如圖10 所示。
圖10 相互獨(dú)立的LNN 訓(xùn)練過(guò)程中出現(xiàn)不同結(jié)果Fig.10 Separate training process of LNN led to different results
(3) SVM 的訓(xùn)練耗時(shí)相較于LNN 更短:SVM得到本實(shí)驗(yàn)中最優(yōu)解的訓(xùn)練時(shí)間遠(yuǎn)<1 s,對(duì)LNN 每訓(xùn)練1 000 輪則需要20 s 左右(具體耗時(shí)與進(jìn)行訓(xùn)練所使用的設(shè)備以及模型的超參數(shù)有關(guān),此處僅針對(duì)本實(shí)驗(yàn)條件作討論)。
本文對(duì)機(jī)器學(xué)習(xí)模型方法在水生毒性預(yù)測(cè)領(lǐng)域的應(yīng)用研究進(jìn)行了概括與總結(jié),并使用 SVM 與LNN 結(jié)合QSAR,使用較少被其他研究者采用的EDCs 繁殖毒性的NOEC 作為終點(diǎn),在黑頭軟口鰷數(shù)據(jù)集上構(gòu)建了預(yù)測(cè)毒性高低的二分類模型;SVM在該領(lǐng)域中的使用頻率最高;對(duì)急性毒性的研究多于慢性毒性;描述符子集的篩選是非常重要的步驟,結(jié)合了隨機(jī)森林的RFE 方法較好地篩選出了合適的描述符子集,篩選結(jié)果說(shuō)明化合物對(duì)黑頭軟口鰷的繁殖毒性可能與分子質(zhì)量、極化率、電離勢(shì)和相鄰原子成鍵強(qiáng)度有關(guān);根據(jù)準(zhǔn)確率與ROC 曲線等分類模型評(píng)定標(biāo)準(zhǔn)可知,本文中所構(gòu)建的模型均具有可接受的預(yù)測(cè)能力,其中SVM 的預(yù)測(cè)能力和訓(xùn)練表現(xiàn)等相較于LNN 更優(yōu),驗(yàn)證了SVM 更適用于中小數(shù)據(jù)集。 本實(shí)驗(yàn)中所使用的方法和構(gòu)建的模型可為日后的AD 內(nèi)未知化合物的檢測(cè)優(yōu)先性起到指導(dǎo)作用,并且為水生生物毒性領(lǐng)域中對(duì)EDCs 的繁殖毒性的研究提供了一定的支撐。