基于GWO-KELM與GBDT的抗乳腺癌藥物性質(zhì)預(yù)測(cè)

2023-11-18 09:55:50張國(guó)浩陳義安

重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版) 2023年6期

王斯, 張國(guó)浩, 陳義安

1.重慶工商大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 400067 2.經(jīng)濟(jì)社會(huì)應(yīng)用統(tǒng)計(jì)重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400067

1 引言

乳腺癌作為女性最常見(jiàn)的癌癥,已經(jīng)躍居世界女性癌癥死亡的第二大病因,并且其發(fā)病率和死亡率每年仍在不斷攀升[1]。為有效治療該病癥,醫(yī)藥與基因?qū)W領(lǐng)域進(jìn)行了大量實(shí)驗(yàn)研究,發(fā)現(xiàn)人體內(nèi)雌激素受體α亞型(ERα)與該病的發(fā)病率密切相關(guān)[2],并在乳腺腫瘤細(xì)胞中過(guò)度表達(dá)。因此,良性乳腺上皮細(xì)胞中的ERα活性升高也就表明患乳腺癌的風(fēng)險(xiǎn)增加,使得科研工作者們不斷尋找和研發(fā)抑制ERα作用的藥物[3]。

乳腺癌候選藥物研發(fā)與臨床應(yīng)用需要的時(shí)間和成本巨大。一方面,藥物需要有良好的生物活性,相關(guān)醫(yī)藥領(lǐng)域通常會(huì)為了節(jié)約時(shí)間與成本,運(yùn)用計(jì)算機(jī)與體外研究技術(shù),對(duì)可能具有良好表現(xiàn)的化合物進(jìn)行篩選工作,即收集一系列作用于該靶標(biāo)的化合物和生物活性數(shù)據(jù),應(yīng)用數(shù)學(xué)模型,構(gòu)建定量構(gòu)效關(guān)系[4](Quantitative Structure-Activity Relationship, QSAR),篩選新化合物以及預(yù)測(cè)藥物活性。

另一方面,良好的生物活性雖然有效保證了化合物對(duì)抗腫瘤細(xì)胞的有效性,但是藥物的研發(fā)還需要其藥代動(dòng)力學(xué)性質(zhì)和安全性也符合相關(guān)政策法規(guī)的要求。藥代動(dòng)力學(xué)性質(zhì)即藥物吸收、分布、代謝、排泄和毒性的總稱(chēng),這些性質(zhì)分別代表著生物體對(duì)化合物的各項(xiàng)敏感程度[5]。

隨著智能計(jì)算的迅速發(fā)展,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在醫(yī)療領(lǐng)域發(fā)揮著越來(lái)越重要的作用,特別是輔助藥物研發(fā)方面。顧等[6]構(gòu)建一種圖注意力網(wǎng)絡(luò),用于虛擬藥物篩選,并將算法橫向?qū)Ρ葯C(jī)器學(xué)習(xí)算法和傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)算法,均取得良好的結(jié)果;謝等[7]基于平均法與堆疊法融合的淺層神經(jīng)網(wǎng)絡(luò)模型,通過(guò)對(duì)藥物分子的化學(xué)結(jié)構(gòu)進(jìn)行信息化編碼,提高了對(duì)藥物分子預(yù)測(cè)的能力,與傳統(tǒng)深度學(xué)習(xí)相比,他們的研究能夠保證更好的準(zhǔn)確性;Shi等[8]采用卷積神經(jīng)網(wǎng)絡(luò)模型,并將其運(yùn)用在A(yíng)DMET特性的預(yù)測(cè)模型上,表明該方法的預(yù)測(cè)能力與基于手動(dòng)結(jié)構(gòu)描述和特征選擇的可用機(jī)器學(xué)習(xí)模型的預(yù)測(cè)能力相當(dāng);此外,Peng等[9]提出利用一種改進(jìn)的圖神經(jīng)網(wǎng)絡(luò)方法以改進(jìn)對(duì)ADMET特性的預(yù)測(cè),該方法能夠通過(guò)將分子鍵特征與節(jié)點(diǎn)特征連接在一起,并應(yīng)用門(mén)單元來(lái)調(diào)整原子鄰域權(quán)重以映射中心原子與其相鄰原子之間相互作用強(qiáng)度的差異,從而得到更有意義的分子結(jié)構(gòu)模式,探索更好的分子建模。

從上述文獻(xiàn)可知:傳統(tǒng)藥物活性預(yù)測(cè)方法成本高,時(shí)間長(zhǎng),應(yīng)用范圍小,而利用人工智能算法預(yù)測(cè)候選藥物的生物活性和ADMET性質(zhì)已成為當(dāng)今研究的主流熱點(diǎn),出色的模型可以有效預(yù)測(cè)候選化合物分子活性并對(duì)化合物ADMET性質(zhì)進(jìn)行分類(lèi)識(shí)別,從而顯著地降低研發(fā)成本,極大地提高研發(fā)成功率,且有效避免因藥物產(chǎn)生的副作用和毒性導(dǎo)致的人體疾病。因此,利用更先進(jìn)的人工智能算法預(yù)測(cè)抗乳腺癌候選藥物的生物活性并進(jìn)行化合物ADMET性質(zhì)的分別識(shí)別極具實(shí)踐意義。

本文從UA的DrugBanK[10]數(shù)據(jù)庫(kù)中獲取了1 974種化合物對(duì)乳腺癌治療靶標(biāo)ERα的生物活性和ADMET性質(zhì)數(shù)據(jù),采用稀疏貝葉斯學(xué)習(xí)與隨機(jī)森林算法進(jìn)行兩階段篩選,隨后基于兩階段篩選后的分子描述符建立了定量預(yù)測(cè)模型,利用GWO-KELM算法構(gòu)建針對(duì)IC50與PIC50(其值用YIC50,YPIC50表示),的定量預(yù)測(cè)模型,同時(shí)利用GBDT構(gòu)建分類(lèi)預(yù)測(cè)模型,預(yù)測(cè)了化合物的ADMET性質(zhì)。本文的研究旨在尋找生物活性較高且盡可能達(dá)到更好ADMET性質(zhì)的化合物,以加快抗乳腺癌候選藥物的研發(fā)進(jìn)程。

2 變量篩選

2.1 數(shù)據(jù)描述

通過(guò)爬蟲(chóng)技術(shù)以及XML解析,獲取2種數(shù)據(jù)集。第一種是用于定量預(yù)測(cè)的ERα生物活性數(shù)據(jù),包含SMILES一維線(xiàn)性表達(dá)式,以及YIC50和YPIC50,前者越小越好,后者是前者的負(fù)對(duì)數(shù)變換;另一種是關(guān)于A(yíng)DMET性質(zhì)的類(lèi)別數(shù)據(jù),用于構(gòu)建分類(lèi)預(yù)測(cè)模型。

兩種數(shù)據(jù)中的輸入特征是729種分子描述符,不失一般性,實(shí)際數(shù)據(jù)通常被認(rèn)為是稀疏的,所以必須在建模分析前進(jìn)行特征篩選工作。根據(jù)各個(gè)特征在不同模型不同階段的貢獻(xiàn)度(特征重要性)進(jìn)行排序,篩選出前20個(gè)最顯著的分子描述符。常規(guī)的變量選擇方法包括主成分分析法、LASSO、稀疏貝葉斯學(xué)習(xí)、隨機(jī)森林等,但是主成分分析法和LASSO這類(lèi)經(jīng)典算法對(duì)729個(gè)變量指標(biāo)進(jìn)行特征提取時(shí),可能不具備代表性。因此本文選擇稀疏貝葉斯與隨機(jī)森林算法對(duì)重要變量進(jìn)行兩階段評(píng)估,以此篩選出對(duì)活性值影響大的分子描述符。同時(shí),在篩選前,進(jìn)行了數(shù)據(jù)預(yù)處理,結(jié)果表明原始數(shù)據(jù)中不存在任何的數(shù)據(jù)缺失,也無(wú)異常點(diǎn)存在。

2.2 稀疏貝葉斯模型一階段篩選

稀疏貝葉斯模型以貝葉斯理論為基礎(chǔ),其優(yōu)秀的分類(lèi)和回歸能力可以篩選并尋找包含多個(gè)零值的權(quán)重向量,同時(shí)精確逼近目標(biāo)向量,從而使得容錯(cuò)與逼近性能更優(yōu),泛化誤差最小[60-61]。稀疏信號(hào)恢復(fù)可用式(1)表達(dá)。

C=ωφ+ε

(1)

稀疏貝葉斯模型的目標(biāo)是尋找到一個(gè)包含很多零值的ω權(quán)重向量,同時(shí)結(jié)果準(zhǔn)確地逼近目標(biāo)向量C。在SBL模型中,為了尋找系數(shù)信號(hào)恢復(fù)的最小范數(shù)解,常常使用高斯似然函數(shù)模型獲取ω的最大似然估計(jì)量,具體見(jiàn)式(2)。

(2)

為了找到稀疏解,SBL從數(shù)據(jù)中估計(jì)參數(shù)化的先驗(yàn)權(quán)重,過(guò)程可以用式(3):

(3)

其中,γ=[γ1,γ1,…,γM]T代表M個(gè)超參數(shù)的向量,它控制每個(gè)權(quán)重的先驗(yàn)方差。

另一方面,在對(duì)變量維數(shù)眾多的特征進(jìn)行篩選時(shí),除了通過(guò)影響程度去尋找重要變量,還應(yīng)減小變量與變量之間的相關(guān)性對(duì)影響程度產(chǎn)生的干擾。本文將采用斯皮爾曼相關(guān)系數(shù)去表示兩個(gè)變量之間的關(guān)聯(lián)程度,從而將相關(guān)性過(guò)強(qiáng)的變量做標(biāo)記并加入二次篩選的隨機(jī)森林模型中進(jìn)行相關(guān)性分離。

稀疏貝葉斯模型的篩選結(jié)果與斯皮爾曼的相關(guān)系數(shù)結(jié)果如表1及圖1所示,一階段的篩選結(jié)果得到了前40個(gè)對(duì)生物活性最具顯著性影響的變量,但有個(gè)別特征(nF10Ring、nT10Ring、nF、nsF、mindS、SdS、maxdS)的相關(guān)性顯示為強(qiáng)相關(guān)(深色)。

表1 SBL變量選擇結(jié)果Table 1 Results of SBL variable selection

圖1 一階段篩選變量斯皮爾曼系數(shù)Fig.1 One-stage screening variable Spearman’s coefficient

2.3 隨機(jī)森林模型二階段篩選

為處理各變量之間的相關(guān)性,以避免后續(xù)縮減模型過(guò)擬合情形的發(fā)生,在二階段篩選中,本文將一階段篩選結(jié)果選入隨機(jī)森林模型中,進(jìn)行新一輪特征分解提取,從而得到對(duì)生物活性最具有顯著影響的前20個(gè)變量。最終,得到的生物活性最具有顯著影響的前20個(gè)變量與變量相關(guān)系數(shù)結(jié)果如表2及圖2所示。比較圖2可以明顯看出:通過(guò)隨機(jī)森林模型對(duì)變量進(jìn)行二次篩選后,初次篩選時(shí)的強(qiáng)相關(guān)性變量相關(guān)系數(shù)明顯減小。

表2 隨機(jī)森林篩選結(jié)果Table 2 Results of random forest screening

圖2 二階段篩選變量斯皮爾曼系數(shù)Fig.2 Two-stage screening variable Spearman’s coefficient

3 基于GWO-KELM算法的QSAR模型預(yù)測(cè)分析

兩階段篩選后的分子描述符特征已大大減小,考慮到KELM(Kernel based Extreme Learning Machine)算法具有良好的穩(wěn)定性、泛化能力、容錯(cuò)能力[12],并且目前廣泛應(yīng)用于輔助醫(yī)藥研發(fā),但該模型避免不了KELM神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)優(yōu)問(wèn)題,特別是正則化系數(shù)C與核參數(shù)g。因此,本文利用能夠進(jìn)行參數(shù)尋優(yōu)的GWO(Grey Wolf Optimizer)算法對(duì)KELM進(jìn)行改進(jìn),從而確定其最優(yōu)參數(shù),進(jìn)一步提高模型預(yù)測(cè)性能。

3.1 KELM原理

數(shù)據(jù)集D={(xi,yi),i=1,2,…,n},輸入數(shù)據(jù)xi∈Rn,輸出值為yi∈R,向量h(xi)=[h1(xi),h2(xi),…,hm(xi)]的作用是將xi從n維輸入空間映射到m維隱藏層空間,向量β=[β1,β2,…,βm]T是用來(lái)連結(jié)輸出節(jié)點(diǎn)與隱藏層的權(quán)值向量,H=[h(x1),h(x2),…,h(xn)]n代表隱含層輸出矩陣,正則系數(shù)C用來(lái)減小模型產(chǎn)生的誤差。傳統(tǒng)ELM的輸出表達(dá)式為式(4):

(4)

其中,Y是輸出向量。由于傳統(tǒng)ELM的輸出表達(dá)式中有矩陣內(nèi)積存在,因此使用滿(mǎn)足條件的核函數(shù)來(lái)代替矩陣內(nèi)積,即式(5)—式(6)。

HTH(i,j)=K(xi,xj)

(5)

h(x)HT=[K(x,x1),K(x,x2),…,K(x,xn)]T

(6)

得到KELM模型的輸出為式(7):

(7)

綜上可知:KELM模型中的核映射更穩(wěn)定,因?yàn)槠浠貧w預(yù)測(cè)的泛化性能比常見(jiàn)的預(yù)測(cè)模型更優(yōu)。同時(shí),KELM模型只涉及自身的內(nèi)積運(yùn)算,而且不需預(yù)先設(shè)置隱含層的節(jié)點(diǎn)數(shù),這使得模型更加穩(wěn)定,收斂速度較快。但值得注意的是,KELM模型有時(shí)會(huì)因?yàn)閰?shù)選擇不當(dāng)而導(dǎo)致預(yù)測(cè)誤差偏高。

3.2 灰狼算法改進(jìn)的KELM模型

為了選擇合適的算法針對(duì)KELM模型進(jìn)行優(yōu)化,本文進(jìn)行預(yù)實(shí)驗(yàn),選擇正余弦優(yōu)化算法(Sine Cosine Algorithm, SCA)、粒子群優(yōu)化算法(Particle Swarm Optimization, PSO)、灰狼算法進(jìn)行實(shí)驗(yàn)比較。圖3可以看出:SCA算法收斂速度很慢,耗時(shí)很長(zhǎng),而PSO算法雖然迭代速度收斂較快,但過(guò)早陷入局部最優(yōu),而GWO算法綜合表現(xiàn)更好。因此,利用GWO對(duì)KELM算法超參數(shù)優(yōu)化,算法流程圖如圖4所示。

圖3 優(yōu)化算法參數(shù)空間和迭代次數(shù)對(duì)比Fig.3 Comparison of parameter space and number of iterations of optimization algorithm

圖4 GWO-KELM算法流程圖Fig.4 Flow chart of GWO-KELM algorithm

3.3 實(shí)驗(yàn)結(jié)果與比較分析

為了科學(xué)有效地體現(xiàn)出GWO-KELM算法的優(yōu)越性,本文將基于灰狼優(yōu)化的KELM算法與11個(gè)常見(jiàn)預(yù)測(cè)算法進(jìn)行生物活性預(yù)測(cè)效果對(duì)比,通過(guò)圖像和數(shù)據(jù)直觀(guān)體現(xiàn)該模型的優(yōu)點(diǎn)。具體對(duì)比算法是決策樹(shù)、線(xiàn)性回歸、支持向量機(jī)回歸、k-近鄰、增強(qiáng)學(xué)習(xí)、梯度提升、裝袋算法、極限樹(shù)、貝葉斯嶺回歸、自動(dòng)相關(guān)性確定算法和泰爾森估算。

通過(guò)對(duì)比上面的組圖可知,11個(gè)模型均在一定程度上出現(xiàn)預(yù)測(cè)誤差偏大。觀(guān)察圖5及圖6可知,本文算法預(yù)測(cè)結(jié)果與真實(shí)值比較吻合,不僅具有最小的誤差,而且擬合程度超過(guò)70.85%,擬合程度較好。

圖5 GWO-KELM算法預(yù)測(cè)YPIC50結(jié)果Fig.5 Prediction of YPIC50 results by GWO-KELM algorithm

圖6 各類(lèi)算法預(yù)測(cè)YPIC50結(jié)果圖Fig.6 Predicted YPIC50 results for each type of algorithm

為了更直觀(guān)地對(duì)比GWO-KELM預(yù)測(cè)算法與其余算法的預(yù)測(cè)性能,本文共選取了3個(gè)指標(biāo)來(lái)評(píng)價(jià)生物活性定量預(yù)測(cè)有效性,模型主要指標(biāo)分別為擬合優(yōu)度R2、均方誤差、平均絕對(duì)誤差,計(jì)算公式如下:

根據(jù)上述預(yù)測(cè)指標(biāo)結(jié)果,將GWO-KELM模型與常見(jiàn)的12個(gè)預(yù)測(cè)模型進(jìn)行比較,模型的主要指標(biāo)對(duì)比如表3所示:

表3 各類(lèi)算法指標(biāo)匯總Table 3 Summary of metrics for each type of algorithm

上述結(jié)果表明,GWO-KELM生物活性定量預(yù)測(cè)模型具有良好的優(yōu)越性及有效性,能夠?qū)ι锘钚远款A(yù)測(cè)進(jìn)行良好的建模;另外,通過(guò)與真實(shí)值以及11個(gè)預(yù)測(cè)模型結(jié)果比較,驗(yàn)證了該算法的有效性。其本身模型的特性是在計(jì)算時(shí)不需要進(jìn)行迭代,計(jì)算速度快,具有出色的泛化能力,能提供更為準(zhǔn)確的預(yù)測(cè)結(jié)果;利用GWO算法優(yōu)化KELM模型的參數(shù),在參數(shù)取值范圍內(nèi)尋求全局最優(yōu)的參數(shù)解,使得KELM模型的預(yù)測(cè)結(jié)果更加精確。

3.4 基于GWO-KELM模型定量預(yù)測(cè)結(jié)果

以上實(shí)驗(yàn)結(jié)論證明了GWO-KELM定量預(yù)測(cè)的優(yōu)秀效果。對(duì)新的化合物進(jìn)行預(yù)測(cè),YPIC50由負(fù)對(duì)數(shù)變換而來(lái),故無(wú)單位,具體可見(jiàn)式(3),預(yù)測(cè)結(jié)果見(jiàn)表4。

YIC50=10-YPIC50+9

(3)

表4 YIC50值和YPIC50值預(yù)測(cè)結(jié)果Table 4 Predicted results of YIC50 and YPIC50 values

從預(yù)測(cè)結(jié)果來(lái)看:樣本編號(hào)31—45的YIC50值,均超過(guò)2 500 nmol/L,其YPIC50低于6,可以認(rèn)為這些新化合物對(duì)抑制ERα活性效果較差,無(wú)法成為治療乳腺癌的候選藥物,后續(xù)研究可考慮優(yōu)化分子描述符結(jié)構(gòu)或剔除。

4 基于GBDT算法的ADMET性質(zhì)識(shí)別

化合物成為治療乳腺癌的良好藥物,必須具備良好的生物活性和ADEMT性質(zhì)。其中,ADME主要指化合物的藥代動(dòng)力學(xué)性質(zhì),描述了化合物在生物體內(nèi)的濃度隨時(shí)間變化的規(guī)律,T主要指化合物可能在人體內(nèi)產(chǎn)生的毒副作用。一個(gè)符合標(biāo)準(zhǔn)的化合物需具備優(yōu)良的活性,其次還需要具有容易吸收、代謝適中和無(wú)毒等性質(zhì)。

在選用學(xué)習(xí)算法進(jìn)行分類(lèi)預(yù)測(cè)建模時(shí),需要考慮算法適用性,分析比較幾類(lèi)常用機(jī)器學(xué)習(xí)算法會(huì)發(fā)現(xiàn):kNN(k-Nearest Neighbor)算法有著低復(fù)雜度的優(yōu)勢(shì),但其可解釋性不強(qiáng),且計(jì)算時(shí)間很長(zhǎng),效率不高;LDA(Linear Discriminant Analysis)算法容易出現(xiàn)過(guò)擬合情形,嚴(yán)重影響模型的預(yù)測(cè)精度,導(dǎo)致泛化能力較低;LR(Logistic Regression)算法簡(jiǎn)單易行,可解釋性強(qiáng),但是其預(yù)測(cè)準(zhǔn)確率不高;NBC(Native Bayes Classification)算法則需要先驗(yàn)假設(shè)相互獨(dú)立,而文章數(shù)據(jù)集不符合此假設(shè),因此也不適用;而GBDT算法非常適用于文章ADMET性質(zhì)的分類(lèi)預(yù)測(cè)分析。首先,文章涉及代表值分類(lèi)為二元分類(lèi)問(wèn)題;其次,算法不需要對(duì)數(shù)據(jù)進(jìn)行放縮就可以進(jìn)行分類(lèi),同時(shí),該算法損失函數(shù)較為穩(wěn)定,在數(shù)據(jù)處理時(shí)魯棒性較強(qiáng)。不僅如此,GBDT分類(lèi)算法還充分考慮了每個(gè)分類(lèi)器的權(quán)重,從而解決了本文的分類(lèi)任務(wù)。因此,本文選擇利用GBDT算法建立模型進(jìn)行分類(lèi)預(yù)測(cè),同時(shí)選取查準(zhǔn)率、F1值、AUC值3個(gè)評(píng)價(jià)指標(biāo)作如下說(shuō)明:

AUC值:ROC曲線(xiàn)右下方的集合面積,一般AUC值的范圍大于0.5,在0.85以上為較強(qiáng)。

TP表示被模型預(yù)測(cè)為正類(lèi)的正樣本,其值用NTP表示;FP表示被模型預(yù)測(cè)為正類(lèi)的負(fù)樣本,其值用NFP表示。

4.1 GBDT原理

GBDT(Gradient Boosting Decision Tree)[13]是基于Boosting的梯度提升算法,采用此算法是因?yàn)樗谒惴山忉屝陨陷^強(qiáng),且容易理解,預(yù)測(cè)濕度較快、精度較高。具體理論構(gòu)建如下:

設(shè)訓(xùn)練集的特征和標(biāo)簽為

T=(x1,y1),(x2,y2),…,(xN,yN),xi∈χ,yi∈{0,1}

設(shè)二分類(lèi)中的損失函數(shù)為L(zhǎng)(y,f(x)),則有

L(y,f(x))=-logP(y|x)=log(1+e-yf(x))

則由Newton-Raphson迭代公式可得:

4.2 實(shí)驗(yàn)結(jié)果與比較分析

4.2.1 化合物滲透性識(shí)別

針對(duì)Caco-2的識(shí)別,圖7是常見(jiàn)機(jī)器學(xué)習(xí)算法及本文算法基于訓(xùn)練數(shù)據(jù)的混淆矩陣,表5是各個(gè)算法的查準(zhǔn)率、AUC值、F1得分統(tǒng)計(jì)。結(jié)果顯示:GBDT查準(zhǔn)率為93.83%,AUC值為94.47%,F1得分為92.40%,橫向?qū)Ρ绕溆?個(gè)算法,其具有更好的評(píng)估效果與識(shí)別能力。

圖7 各類(lèi)算法預(yù)測(cè)Caco-2混淆矩陣Fig.7 Confusion matrix of Caco-2 predicted by various algorithms

4.2.2 化合物代謝能力識(shí)別

針對(duì)CYP3A4識(shí)別能力,圖8和表6是常見(jiàn)機(jī)器學(xué)習(xí)算法及本文算法基于CYPEA4數(shù)據(jù)的混淆矩陣,結(jié)果顯示:GBDT的測(cè)試集表現(xiàn)最優(yōu),其查準(zhǔn)率可以達(dá)到97.03%,AUC值為93.68%,F1得分為96.81%,140種化合物樣本被準(zhǔn)確分類(lèi)到0類(lèi),390種化合物被分類(lèi)到1類(lèi)中,識(shí)別能力很強(qiáng)。

圖8 各類(lèi)算法預(yù)測(cè)CYP3A4混淆矩陣Fig.8 Confusion matrix of CYP3A4 predicted by various algorithms

表6 CYP3A4度量表Table 6 CYP3A4 metric scale

4.2.3 化合物心臟毒性識(shí)別

圖9和表7是常見(jiàn)機(jī)器學(xué)習(xí)算法及本文算法基于hERG數(shù)據(jù)的混淆矩陣。結(jié)果顯示:GBDT算法的查準(zhǔn)率為90.61%、AUC值為89.22%、F1為90.47%。在心臟毒性識(shí)別中,測(cè)試集數(shù)據(jù)中有231種化合物被識(shí)別為0類(lèi),299中化合物被識(shí)別為1類(lèi),識(shí)別能力最優(yōu)。

圖9 各類(lèi)算法預(yù)測(cè)hERG混淆矩陣Fig.9 Confusion matrix of hERG predicted by various algorithms

表7 hERG度量表Table 7 hERG metric scale

4.2.4 化合物利用度識(shí)別

針對(duì)化合物利用度識(shí)別,圖10是常見(jiàn)機(jī)器學(xué)習(xí)算法及本文算法基于HOB數(shù)據(jù)的混淆矩陣,結(jié)果顯示:GBDT算法的查準(zhǔn)率為75.00%、AUC值為82.86%、F1為73.17%(表8)。測(cè)試集數(shù)據(jù)中有411種化合物被識(shí)別為0類(lèi),105中化合物被識(shí)別為1類(lèi),識(shí)別效果相對(duì)最優(yōu)。

圖10 各類(lèi)算法預(yù)測(cè)HOB混淆矩陣Fig.10 Confusion matrix of HOB predicted by various algorithms

表8 HOB度量表Table 8 HOB metric scale

4.2.5 化合物遺傳毒性識(shí)別

針對(duì)化合物遺傳毒性識(shí)別,圖11是常見(jiàn)機(jī)器學(xué)習(xí)算法及本文算法基于MN數(shù)據(jù)的混淆矩陣。結(jié)果顯示:化合物遺傳毒性識(shí)別中,GBDT算法的查準(zhǔn)率為96.72%、AUC值為95.77%、F1為97.58%(表9)。測(cè)試集數(shù)據(jù)中有128種化合物被識(shí)別為0類(lèi),443中化合物被識(shí)別為1類(lèi),識(shí)別能力很強(qiáng)。

圖11 各類(lèi)算法預(yù)測(cè)MN混淆矩陣Fig.11 Confusion matrix of MN predicted by various algorithms

表9 MN度量表Table 9 MN metric scale

綜上,基于GBDT算法構(gòu)建的分類(lèi)預(yù)測(cè)模型在測(cè)試集中對(duì)ADMET性質(zhì)的識(shí)別表現(xiàn)優(yōu)越,且都保持了較高的預(yù)測(cè)準(zhǔn)確性,因此本文將該模型應(yīng)用在新化合物的ADMET性質(zhì)識(shí)別中,從而判斷新化合物的代謝能力、心臟毒性等,具體預(yù)測(cè)結(jié)果見(jiàn)表10。

5 結(jié)束語(yǔ)

本文利用機(jī)器學(xué)習(xí)方法輔助實(shí)現(xiàn)抗乳腺癌候選藥物研發(fā),極大地節(jié)約了時(shí)間和成本,降低了人工誤差。首先基于拮抗ERα的生物活性數(shù)據(jù),利用稀疏貝葉斯學(xué)習(xí)以及隨機(jī)森林算法,實(shí)現(xiàn)兩階段的變量篩選,并對(duì)1 974種化合物進(jìn)行特征評(píng)估,得到20個(gè)重要特征;其次構(gòu)建GWO-KELM算法進(jìn)行YIC50與YPIC50的定量預(yù)測(cè),并與傳統(tǒng)的機(jī)器學(xué)習(xí)算法進(jìn)行橫向?qū)Ρ?證明本文改進(jìn)算法的優(yōu)越性,其均方誤差最低,為0.598,擬合優(yōu)度為0.709;最后利用GBDT算法分別構(gòu)建ADMET性質(zhì)的5個(gè)分類(lèi)模型,進(jìn)而對(duì)50種化合物做二分類(lèi)預(yù)測(cè),同時(shí)也做了機(jī)器學(xué)習(xí)算法的橫向?qū)Ρ?其具有最優(yōu)的預(yù)測(cè)結(jié)果,數(shù)據(jù)集上測(cè)試的分類(lèi)F1分別為92.40%、96.81%、90.47%、73.17%、97.58%。本文算法相比一些傳統(tǒng)機(jī)器學(xué)習(xí)算法,具有更好的預(yù)測(cè)效果,可以為抗乳腺癌候選藥物研發(fā)提供預(yù)測(cè)服務(wù),具有一定的實(shí)踐價(jià)值。

表10 GBDT算法預(yù)測(cè)ADMET性質(zhì)結(jié)果Table 10 Results of GBDT algorithm for predicting ADMET properties

在進(jìn)一步的研究中,擬從如下幾個(gè)方面進(jìn)行延伸:

在抗乳腺癌候選藥物的篩選過(guò)程中,應(yīng)該同時(shí)考慮將化合物ERα的生物活性以及ADMET性質(zhì)進(jìn)行綜合評(píng)判,在化合物具有較好生物活性的前提下,保證其ADMET性質(zhì)較好,諸如代謝能力、遺傳毒性、滲透性等。

在充分挖掘結(jié)構(gòu)性數(shù)據(jù)信息中,進(jìn)一步可以采用圖神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法,對(duì)化合物的一維線(xiàn)性表達(dá)式SMILES進(jìn)行更深層的數(shù)據(jù)挖掘。

基于篩選重要化合物的分子描述符,進(jìn)一步可以通過(guò)反向優(yōu)化算法,確定分子描述符的最優(yōu)閾值,進(jìn)而調(diào)整化合物結(jié)構(gòu),使得ERα和ADMET性質(zhì)具有更好的表現(xiàn)。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看