• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于PSO-BP神經(jīng)網(wǎng)絡(luò)與PSO-SVM的抗乳腺癌藥物性質(zhì)預(yù)測(cè)

      2023-06-14 08:44:08許美賢鄭琰李炎舉吳偉豪
      關(guān)鍵詞:粒子群優(yōu)化算法生物活性支持向量機(jī)

      許美賢 鄭琰 李炎舉 吳偉豪

      摘要

      通過(guò)實(shí)驗(yàn)篩選研發(fā)新藥的過(guò)程非常緩慢且需耗費(fèi)大量的人力物力,而利用計(jì)算機(jī)輔助預(yù)測(cè)藥物的分子性質(zhì)可極大地節(jié)省藥物研發(fā)時(shí)間和成本.因此,為了能夠使抗乳腺癌候選藥物對(duì)抑制ERα具有良好的生物活性和ADMET性質(zhì),針對(duì)收集到的1 974種化合物,首先利用隨機(jī)森林分類器篩選出前20個(gè)對(duì)生物活性最具顯著影響的分子描述符,并以此和pIC50值作為特征數(shù)據(jù)建立QSAR模型.其次,基于PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)對(duì)50個(gè)新化合物的生物活性值進(jìn)行預(yù)測(cè),模型擬合度為0.833 7,根均方誤差為0.731 5,比優(yōu)化前的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)值更貼合實(shí)際.隨后為提高藥物研發(fā)的成功率,依據(jù)已有的ADMET性質(zhì)數(shù)據(jù)利用PSO優(yōu)化SVM構(gòu)建ADMET分類預(yù)測(cè)模型,算法交叉驗(yàn)證CV準(zhǔn)確率達(dá)到94.076 7%,5個(gè)指標(biāo)模型的預(yù)測(cè)準(zhǔn)確率均在79%以上.結(jié)果表明,所建立的模型比基準(zhǔn)模型的預(yù)測(cè)性能更好,采用的預(yù)測(cè)策略是有效的,可為抗乳腺癌藥物的研發(fā)提供借鑒.

      關(guān)鍵詞抗乳腺癌藥物;生物活性;ADMET性質(zhì);粒子群優(yōu)化算法;BP神經(jīng)網(wǎng)絡(luò);支持向量機(jī)

      中圖分類號(hào)

      TP183

      文獻(xiàn)標(biāo)志碼

      A

      收稿日期

      2021-12-06

      資助項(xiàng)目

      國(guó)家自然科學(xué)基金(71701099,71501090);江蘇省高等學(xué)校自然科學(xué)研究項(xiàng)目 (17KJB580008)

      作者簡(jiǎn)介

      許美賢,女,碩士生,主要從事人工智能輔助藥物設(shè)計(jì)、數(shù)據(jù)挖掘的研究.xumeixain3210@163.com

      鄭琰(通信作者),女,博士,副教授,主要從事計(jì)算生物物理學(xué)、人工智能輔助生物分子結(jié)構(gòu)預(yù)測(cè)的研究.ZhengYan3210@163.com

      0 引言

      美國(guó)癌癥中心2018年的癌癥數(shù)據(jù)報(bào)告顯示,乳腺癌是目前全球女性最高發(fā)的惡性腫瘤,它嚴(yán)重威脅著女性的身心健康[1].乳腺癌已經(jīng)成為一個(gè)世界性的醫(yī)療保健問(wèn)題,治療方案既要有選擇性也要考慮有效性的概率.為解決這個(gè)問(wèn)題,藥用化學(xué)領(lǐng)域?qū)Υ罅康暮蜻x藥物進(jìn)行了研究分析.通過(guò)對(duì)雌激素受體α亞型(ERα)基因缺失小鼠的實(shí)驗(yàn)結(jié)果表明,ERα被認(rèn)為是治療乳腺癌的重要靶標(biāo),能夠拮抗ERα活性的化合物可能是治療乳腺癌的候選藥物.

      抗乳腺癌候選藥物從研發(fā)到投入使用需要擁有良好的生物活性,同時(shí)其藥代動(dòng)力學(xué)性質(zhì)和安全性也要符合相關(guān)政策法規(guī)的要求.而如果僅僅采用實(shí)驗(yàn)的方式去評(píng)估化合物的生物活性、藥代動(dòng)力學(xué)性質(zhì)和安全性,需要花費(fèi)的時(shí)間和成本將不可計(jì)量,其中藥代動(dòng)力學(xué)性質(zhì)和安全性合稱為ADMET(Absorption(吸收)、Distribution(分布)、Metabolism(代謝)、Excretion(排泄)、Toxicity(毒性))性質(zhì).而且在試驗(yàn)動(dòng)物身上獲取的數(shù)據(jù)與臨床數(shù)據(jù)并不完全重合,因此不能滿足現(xiàn)代藥物研究的需求[2].為了節(jié)約時(shí)間和成本,研究機(jī)構(gòu)通常選擇把體外研究技術(shù)和計(jì)算機(jī)運(yùn)算模型結(jié)合起來(lái)建立化合物活性預(yù)測(cè)模型,篩選潛在活性化合物.即通過(guò)收集一系列作用于ERα的化合物及其生物活性數(shù)據(jù),并選取一系列分子結(jié)構(gòu)描述符作為自變量,化合物的生物活性值作為因變量,構(gòu)建化合物的定量結(jié)構(gòu)-活性關(guān)系(QSAR)模型,然后使用該模型預(yù)測(cè)具有更好生物活性的新化合物分子,或者指導(dǎo)已有活性化合物的結(jié)構(gòu)優(yōu)化.此外,除了考慮生物活性,藥物代謝動(dòng)力學(xué)性質(zhì)和毒性(ADMET)也是決定藥物研發(fā)成功與否的重要因素.一個(gè)化合物的活性再好,如果其ADMET性質(zhì)不佳,比如很難被人體吸收,或者體內(nèi)代謝速度太快,或者具有某種毒性,那么其仍然難以成為藥物,因而還需要進(jìn)行ADMET性質(zhì)優(yōu)化.

      而在如今藥物數(shù)量劇增的情況下,最經(jīng)濟(jì)合理的研究方式是利用計(jì)算機(jī)輔助的人工智能算法對(duì)藥物生物活性和ADMET性質(zhì)進(jìn)行預(yù)測(cè)分析.顧耀文等[3]從多個(gè)公共數(shù)據(jù)庫(kù)中收集到了大量的藥物ADMET數(shù)據(jù),經(jīng)過(guò)有效的數(shù)據(jù)清洗后提出利用圖神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行藥物研發(fā)的虛擬篩選,研究結(jié)果表明所建模型預(yù)測(cè)性能較好,可進(jìn)行泛化使用.謝良旭等[4]考慮到淺層和深層神經(jīng)網(wǎng)絡(luò)的精度和擬合度問(wèn)題,選擇把數(shù)個(gè)神經(jīng)網(wǎng)絡(luò)和堆疊法等結(jié)合起來(lái)預(yù)測(cè)藥物分子性質(zhì),融合模型預(yù)測(cè)準(zhǔn)確性和可靠性較高.秦潔[5]為有效預(yù)測(cè)藥物先導(dǎo)化合物分子生物活性值,深入研究了矩陣補(bǔ)全算法在標(biāo)記配體特征中的學(xué)習(xí),算法比深度學(xué)習(xí)展現(xiàn)出更強(qiáng)的優(yōu)勢(shì),預(yù)測(cè)的最優(yōu)值更貼合實(shí)際.賈聰敏[6]采用隨機(jī)森林、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)3種機(jī)器學(xué)習(xí)算法進(jìn)行藥物靶點(diǎn)定量預(yù)測(cè)模型的構(gòu)建,對(duì)比分析3種算法的預(yù)測(cè)結(jié)果,表明其構(gòu)建的最優(yōu)模型能夠客觀地從分子振動(dòng)角度篩選出有效的分子描述符.沈杰[7]在經(jīng)典遺傳算法的基礎(chǔ)上吸入精英倉(cāng)庫(kù)策略建立小分子ADMET的QSAR預(yù)測(cè)模型,同時(shí)基于信息增益來(lái)評(píng)估化合物分子結(jié)構(gòu),驗(yàn)證了所建模型可推廣應(yīng)用至藥物代謝、毒性評(píng)估等方面.

      回顧文獻(xiàn)[1-7]可知,利用人工智能方法預(yù)測(cè)藥物的生物活性和ADMET性質(zhì)顯然已成為研究的熱點(diǎn).研究表明利用人工智能算法開(kāi)展對(duì)藥物生物活性和ADMET性質(zhì)的預(yù)測(cè)分析可顯著地降低研發(fā)成本,提高研發(fā)成功幾率,且更有利于對(duì)候選藥物在生物體內(nèi)發(fā)揮的作用進(jìn)行探索,有效避免因藥物產(chǎn)生的副作用和毒性導(dǎo)致的人體疾病,可指導(dǎo)臨床治療時(shí)的合理用藥[8].由此可見(jiàn),使用計(jì)算機(jī)輔助的人工智能算法進(jìn)行理論預(yù)測(cè)抗乳腺癌候選藥物的生物活性和ADMET性質(zhì)是極具現(xiàn)實(shí)意義的.

      本文從加拿大阿爾伯塔大學(xué)的DrugBank藥物分子數(shù)據(jù)庫(kù)中獲取1 974種化合物對(duì)乳腺癌治療靶標(biāo)ERα的生物活性和ADMET性質(zhì)數(shù)據(jù),利用所收集到的信息從化合物分子描述符角度出發(fā)建立定量預(yù)測(cè)模型,基于粒子群優(yōu)化BP神經(jīng)網(wǎng)絡(luò)算法來(lái)預(yù)測(cè)新化合物的IC 50和pIC 50值.同時(shí)構(gòu)建分類預(yù)測(cè)模型,基于粒子群優(yōu)化支持向量機(jī)來(lái)預(yù)測(cè)化合物的5種ADMET性質(zhì),分別是Caco-2、CYP3A4、hERG、HOB、MN,從而尋找到能滿足化合物活性較高且盡可能使得ADMET性質(zhì)較好的化合物分子描述符,以加快抗乳腺癌候選藥物的研發(fā)進(jìn)程.

      1 數(shù)據(jù)收集

      針對(duì)乳腺癌治療靶標(biāo)ERα,從阿爾伯塔大學(xué)的DrugBank藥物分子數(shù)據(jù)庫(kù)中獲取了1 974個(gè)化合物對(duì)ERα的生物活性數(shù)據(jù)、729個(gè)分子描述符信息數(shù)據(jù)、5種ADMET性質(zhì)數(shù)據(jù)[9].DrugBank數(shù)據(jù)庫(kù)擁有獨(dú)特的生物信息學(xué)和化學(xué)信息學(xué)資源,它將詳細(xì)的藥物數(shù)據(jù)和全面的藥物目標(biāo)信息結(jié)合起來(lái),以便科學(xué)家們研究藥物機(jī)制和探索新型藥物.本文收集到的數(shù)據(jù)中包含了化合物的SMILES結(jié)構(gòu)式、化合物對(duì)ERα的生物活性值IC 50和pIC 50值、729個(gè)分子描述符信息(自變量)、分子描述符含義解釋,以及采用0-1二分類法提供相應(yīng)取值的Caco-2、CYP3A4、hERG、HOB、MN等5種藥代動(dòng)力學(xué)性質(zhì)和毒性.

      2 篩選主要的分子描述符

      2.1 數(shù)據(jù)預(yù)處理

      針對(duì)收集到的729個(gè)分子描述符信息進(jìn)行觀察,對(duì)數(shù)據(jù)進(jìn)行處理發(fā)現(xiàn)1 974個(gè)有機(jī)化合物中有些描述符全為0,例如分子描述符nB(硼原子數(shù))全為0.大量為“0”的數(shù)據(jù)并不是缺失,而是化合物的分子描述符就是“0”這個(gè)數(shù)字[10],這對(duì)制藥研究是有實(shí)際意義的,故在數(shù)據(jù)預(yù)處理時(shí)不需要把全為0的描述符行列剔除.因此可直接利用原有的1 974個(gè)化合物的729個(gè)分子描述符數(shù)據(jù)作為自變量,生物活性值作為因變量構(gòu)建定量結(jié)構(gòu)-活性關(guān)系(QSAR)模型.

      在收集到的數(shù)據(jù)集中,化合物對(duì)ERα的生物活性值用IC 50表示.IC 50為實(shí)驗(yàn)測(cè)定值,單位是nmol/L,該值越小代表生物活性越大,對(duì)抑制ERα活性越有效.參考文獻(xiàn)[7-10]及利用分子描述符計(jì)算的專用軟件PaDEL-Descriptor試驗(yàn)可知,pIC 50值通常由IC 50轉(zhuǎn)化而得到(即IC 50值的負(fù)對(duì)數(shù)),而pIC 50值通常與生物活性具有正相關(guān)性,即pIC 50值越大表明生物活性越高.在實(shí)際QSAR理論建模中,一般采取pIC 50值來(lái)表示生物的活性值.首先需要針對(duì)1 974個(gè)化合物的729個(gè)分子描述符進(jìn)行變量選擇,根據(jù)各變量對(duì)生物活性影響的重要性進(jìn)行排序,得出前20個(gè)對(duì)生物活性最具顯著影響的分子描述符(即自變量).由于收集到的分子描述符數(shù)據(jù)為二維數(shù)據(jù),即對(duì)應(yīng)分子的溶解度、表面積等信息,需要篩選出對(duì)結(jié)果影響最大的幾個(gè)特征,以此作為建立模型時(shí)的特征數(shù)據(jù).而常見(jiàn)的求解方法有主成分分析法、LASSO、隨機(jī)森林等,但是主成分分析法和LASSO這類經(jīng)典算法對(duì)729個(gè)變量指標(biāo)進(jìn)行特征提取和降維時(shí)會(huì)帶來(lái)模糊性,使得原始變量含義失去了清晰確切性[11].因此選擇利用隨機(jī)森林(RF)算法對(duì)特征重要性進(jìn)行評(píng)估,篩選出對(duì)活性值影響大的分子描述符.

      2.2 基于隨機(jī)森林篩選分子描述符

      隨機(jī)森林基于Bagging算法的集成思想為每棵決策樹(shù)生成獨(dú)立的同分布訓(xùn)練樣本集,所有決策樹(shù)的投票將決定最終的分類結(jié)果.基于隨機(jī)森林模型把收集到的分子描述符數(shù)據(jù)輸入MATLAB軟件中進(jìn)行運(yùn)算,第i次和第j次程序運(yùn)行結(jié)果分別如圖1和圖2所示.

      由于每次訓(xùn)練都是隨機(jī)抽樣,程序運(yùn)行后分子描述符重要度排名結(jié)果有所差異,則設(shè)計(jì)10次實(shí)驗(yàn)對(duì)分子描述符重要性進(jìn)行統(tǒng)計(jì).設(shè)VIM為重要度系數(shù),則VIMi j 分別表示第j次實(shí)驗(yàn)的第i名分子描述符的重要度系數(shù).通過(guò)統(tǒng)計(jì)10次實(shí)驗(yàn)排名前20所出現(xiàn)過(guò)的分子描述符,然后計(jì)算統(tǒng)計(jì)的分子描述符的平均重要性系數(shù),記為VIM.最后根據(jù)VIM對(duì)所統(tǒng)計(jì)的分子描述符進(jìn)行排序,取平均重要性系數(shù)前20的為最具顯著影響的分子描述符.統(tǒng)計(jì)10次實(shí)驗(yàn)分子變量符中出現(xiàn)的次數(shù)如表1所示.由表1可知27個(gè)變量出現(xiàn)次數(shù)排序,理論出現(xiàn)次數(shù)高的其重要性系數(shù)也相對(duì)較大.通過(guò)統(tǒng)計(jì)這27個(gè)變量的平均重要性系數(shù),可得10次實(shí)驗(yàn)中平均重要性系數(shù)排序,如圖3所示.根據(jù)圖3可得出這20個(gè)分子描述符來(lái)盡可能地描述化合物的生物活性.

      3 基于PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的QSAR模型預(yù)測(cè)分析

      在對(duì)分子描述符數(shù)據(jù)進(jìn)行降維處理后,大大減少了數(shù)據(jù)量.鑒于BP神經(jīng)網(wǎng)絡(luò)模型的自適應(yīng)、泛化及容錯(cuò)能力較強(qiáng),且可以通過(guò)數(shù)據(jù)逼近任意線性連續(xù)的函數(shù),這一特點(diǎn)與分子描述符數(shù)據(jù)性質(zhì)對(duì)候選藥物影響方式的特點(diǎn)相吻合.因此可以選擇BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí),并對(duì)50個(gè)化合物進(jìn)行IC 50值和對(duì)應(yīng)的pIC 50值預(yù)測(cè).本節(jié)分析基于BP神經(jīng)網(wǎng)絡(luò)的生物活性值預(yù)測(cè)方法,并通過(guò)引入具備運(yùn)行速度較快、全局尋優(yōu)能力較好的粒子群算法(PSO)來(lái)避免傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)易陷入局部最優(yōu)解的問(wèn)題.

      3.1 BP神經(jīng)網(wǎng)絡(luò)生物活性值預(yù)測(cè)模型

      采用包含著輸入層、隱含層和輸出層共3層的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和預(yù)測(cè).如圖4所示,設(shè)定輸入數(shù)據(jù)為前文篩選得出的20個(gè)分子描述符,即輸入層神經(jīng)元節(jié)點(diǎn)數(shù)為20,輸出層神經(jīng)元節(jié)點(diǎn)數(shù)設(shè)置為1[12].

      隱含層神經(jīng)元節(jié)點(diǎn)數(shù)可根據(jù)經(jīng)驗(yàn)公式(1)進(jìn)行確定數(shù)量范圍在4~14,本節(jié)設(shè)置隱含層神經(jīng)元節(jié)點(diǎn)數(shù)為10:

      q=k+l+a,(1)

      式(1)中:q是隱含層神經(jīng)元的個(gè)數(shù);k是輸入層神經(jīng)元的個(gè)數(shù);l是輸出層神經(jīng)元的個(gè)數(shù);a是一個(gè)固定的常數(shù)值,取值范圍在0~10之間[13].

      BP神經(jīng)網(wǎng)絡(luò)中隱含層的激活函數(shù)為sigmoid,輸出層的激活函數(shù)為relu,用函數(shù)式(2)、(3)表示:

      sigmoid(z)=11+e-z,(2)

      relu(z)=z, z>0,0, z≤0.(3)

      用S[l] j 來(lái)表示第l層中第j個(gè)神經(jīng)元的激活函數(shù)輸出,ωl jk 表示從網(wǎng)絡(luò)第(l-1)層k個(gè)神經(jīng)元指向第l層第j個(gè)神經(jīng)元的連接權(quán)重[14].用σ表示激活函數(shù).

      從輸入層到隱含層的計(jì)算公式為

      Sl j=σ∑Pp=1ω plx p+b 1,? p=1,2,…,P;l=1,2,…,L.(4)

      由隱含層到輸出層的計(jì)算公式為

      S m=σ∑Ll=1ω lmf 1(Sl j)+b 2,

      l=1,2,…,L;m=1,2,…,M.(5)

      式(4)、(5)中:b 1和b 2為閾值;ω pl和ω lm為連接權(quán)值;隱含層輸出結(jié)果為f 1(S l),f 1為relu激活函數(shù);輸出層輸出結(jié)果為f 2(S m),f 2為輸出層的輸出函數(shù).

      3.2 BP神經(jīng)網(wǎng)絡(luò)求解結(jié)果分析

      基于傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型,按8∶2的比例將1 974個(gè)樣本數(shù)據(jù)劃分成訓(xùn)練集和測(cè)試集,用訓(xùn)練集訓(xùn)練模型,再用訓(xùn)練好的模型在測(cè)試集上驗(yàn)證效果,訓(xùn)練回歸結(jié)果如圖5所示.觀察可得該模型計(jì)算的擬合度為0.820 62,其訓(xùn)練和測(cè)試數(shù)據(jù)較為集中.測(cè)試預(yù)測(cè)結(jié)果誤差如圖6和圖7所示.由圖6可知選取的50組測(cè)試集進(jìn)行預(yù)測(cè)有所波動(dòng),出現(xiàn)個(gè)別誤差較大的情況,但主要集中在0.1~0.3范圍內(nèi),測(cè)試平均誤差為21.671 5%.由圖7可知50組測(cè)試集所預(yù)測(cè)的pIC 50值與實(shí)際測(cè)試值有誤差,其均方根誤差RMSE為1.416 4,決定系數(shù)R2=0.466 69.可以發(fā)現(xiàn)單純通過(guò)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行模型預(yù)測(cè)雖然可以預(yù)測(cè)出一定的pIC 50值,但并不準(zhǔn)確,應(yīng)該通過(guò)相關(guān)算法對(duì)模型進(jìn)行優(yōu)化從而減少誤差.由于粒子群優(yōu)化算法(PSO)不依賴于問(wèn)題信息,采用實(shí)數(shù)求解,算法的通用性強(qiáng)[15],容易實(shí)現(xiàn)且收斂速度快,因此,在追求誤差較小的基礎(chǔ)上,可以通過(guò)基于粒子群算法來(lái)優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè).

      3.3 PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型

      BP神經(jīng)網(wǎng)絡(luò)會(huì)由于初始閾值與權(quán)值選取不合理,而導(dǎo)致陷入局部最優(yōu)解.同時(shí)若需要進(jìn)行大量的訓(xùn)練,極容易造成過(guò)度擬合,將在一定程度上影響泛化能力.針對(duì)BP神經(jīng)網(wǎng)絡(luò)的缺點(diǎn),可以考慮使用遺傳算法或粒子群算法對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,本文考慮到PSO算法采用實(shí)數(shù)編碼,比采用二進(jìn)制編碼的遺傳算法運(yùn)行速度更快,同時(shí)可利用遺傳算法的變異思想增加變異算子和動(dòng)態(tài)調(diào)整學(xué)習(xí)因子等來(lái)改進(jìn)不足[16],避免陷入局部最優(yōu),保證種群多樣化.使用的PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)算法流程如圖8所示.

      在更新粒子的速度和位置時(shí),可以依據(jù)式(6)對(duì)粒子的位置和速度進(jìn)行調(diào)整:

      Vk+1 i=ωVk i+c 1(j)×r 1×(P best-Xk i)+? c 2(j)×r 2×(g best-Xk i),

      Xk+1 i=Xk i+Vk+1 i,

      c 2(j)=c max-(c max-c min)×(i tmax-j)i tmax,

      c 1(j)=4-c 2(j),(6)

      式(6)中:c 1(j),c 2(j)表示進(jìn)行第j次迭代產(chǎn)生的學(xué)習(xí)因子;i表示迭代的次數(shù);ω表示權(quán)值系數(shù);r 1,r 2表示隨機(jī)函數(shù).

      3.4 PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)生物活性結(jié)果分析

      基于PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)算法建立定量預(yù)測(cè)模型,同樣將1 974個(gè)樣本數(shù)據(jù)劃隨機(jī)分成80%的訓(xùn)練集和20%的測(cè)試集,用訓(xùn)練集訓(xùn)練,用測(cè)試集對(duì)模型進(jìn)行檢驗(yàn).其預(yù)測(cè)結(jié)果如圖9所示,訓(xùn)練集和測(cè)試集的擬合優(yōu)度分別為0.862 77和0.745 85,預(yù)測(cè)模型整體擬合優(yōu)度為0.833 7,比優(yōu)化前的BP神經(jīng)網(wǎng)絡(luò)的擬合度有所提升.

      PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)算法測(cè)試預(yù)測(cè)結(jié)果誤差如圖10和圖11所示.由圖10可知測(cè)試集樣本預(yù)測(cè)的平均相對(duì)誤差為9.491 3%,預(yù)測(cè)準(zhǔn)確度有所提升,其測(cè)試集的數(shù)據(jù)相對(duì)集中.而圖11表明均根方誤差RMSE為0.731 5,決定系數(shù)R2=0.740 92.相比未優(yōu)化前的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果,其RMSE降低且R2有所增加,說(shuō)明優(yōu)化后的網(wǎng)絡(luò)預(yù)測(cè)得到的生物活性值數(shù)據(jù)更加貼近真實(shí)值,通過(guò)擬合度和誤差分析論證了PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的模型整體效果更好.

      通過(guò)上文建立的化合物對(duì)ERα生物活性的定量預(yù)測(cè)模型,對(duì)50個(gè)化合物的生物活性值進(jìn)行預(yù)測(cè).在數(shù)據(jù)集中IC 50值的單位是nmol/L,因此不能直接用IC 50值取負(fù)對(duì)數(shù),應(yīng)乘以10的-9次方后再取負(fù)對(duì)數(shù),所以IC 50與pIC 50的關(guān)系為IC 50=10(9-pIC 50),而pIC 50是IC 50的轉(zhuǎn)化值,并無(wú)單位.由此可得模型優(yōu)化前后的預(yù)測(cè)值,但經(jīng)過(guò)對(duì)比最終只選取PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)得到的IC 50值和對(duì)應(yīng)的pIC 50值,詳見(jiàn)表2.

      4 基于PSO優(yōu)化SVM的ADMET性質(zhì)預(yù)測(cè)模型分析

      4.1 化合物ADMET性質(zhì)分析及預(yù)測(cè)模型構(gòu)建

      一個(gè)化合物想要成為候選藥物,除了需要具備良好的生物活性(即抗乳腺癌活性)外,還需要在人體內(nèi)具備良好的藥代動(dòng)力學(xué)性質(zhì)和安全性,合稱為ADMET(Absorption(吸收)、Distribution(分布)、Metabolism(代謝)、Excretion(排泄)、Toxicity(毒性))性質(zhì)[17].其中,ADME主要指化合物的藥代動(dòng)力學(xué)性質(zhì),描述了化合物在生物體內(nèi)的濃度隨時(shí)間變化的規(guī)律,T主要指化合物可能在人體內(nèi)產(chǎn)生的毒副作用.一個(gè)化合物的活性再好,如果其ADMET性質(zhì)不佳,比如很難被人體吸收,或者在體內(nèi)代謝速度太快,或者具有某種毒性,那么其仍然難以成為藥物,因而還需要進(jìn)行ADMET性質(zhì)優(yōu)化.由于建模優(yōu)化的復(fù)雜程度,本文僅考慮化合物的5種ADMET性質(zhì),分別是:1)小腸上皮細(xì)胞滲透性(Caco-2),可度量化合物被人吸收的能力;2)細(xì)胞色素P450酶(Cytochrome P450,CYP)3A4亞型(CYP3A4),這是人體內(nèi)的主要代謝酶,可度量化合物的代謝穩(wěn)定性;3)化合物心臟安全性評(píng)價(jià)(human Ether-a-go-go Related Gene,hERG),可度量化合物的心臟毒性;4)人體口服生物利用度(Human Oral Bioavailability,HOB),可度量藥物進(jìn)入人體后被吸收進(jìn)入人體血液循環(huán)的藥量比例;5)微核試驗(yàn)(Micronucleus,MN),是檢測(cè)化合物是否具有遺傳毒性的一種方法[18].為方便討論,

      本文統(tǒng)一使用二分類法提供ADMET性質(zhì)的相應(yīng)取值,比如對(duì)于Caco-2:“1”代表該化合物的小腸上皮細(xì)胞滲透性較好,“0”代表該化合物的小腸上皮細(xì)胞滲透性較差.其他4個(gè)的二分類法可依此類推.

      由于收集到的ADMET性質(zhì)數(shù)據(jù)樣本量有限,且具有非線性及維數(shù)較多的特點(diǎn),在收集過(guò)程中易受到操作環(huán)境等復(fù)雜因素的影響,使得數(shù)據(jù)具有較高的含噪性且容易出現(xiàn)缺失和錯(cuò)漏,因此在選用數(shù)據(jù)挖掘算法進(jìn)行分析預(yù)測(cè)時(shí),需考慮算法的適用性.經(jīng)過(guò)比較分析幾個(gè)常用算法發(fā)現(xiàn):樸素貝葉斯算法對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感,分類決策存在一定的錯(cuò)誤率,其訓(xùn)練效率低且運(yùn)算框架比較復(fù)雜,不適用于化合物的ADMET性質(zhì)預(yù)測(cè);決策樹(shù)算法在處理特征關(guān)聯(lián)性比較強(qiáng)的數(shù)據(jù)時(shí)表現(xiàn)一般,容易出現(xiàn)過(guò)擬合;支持向量機(jī)SVM算法的最終決策函數(shù)只由少數(shù)的支持向量所確定,計(jì)算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),避免了“維數(shù)災(zāi)難”,且對(duì)非線性分類任務(wù)的可解釋性強(qiáng),能找出至關(guān)重要的關(guān)鍵樣本,算法擬合精度較高,具有較好的魯棒性,對(duì)化合物ADMET性質(zhì)預(yù)測(cè)具有較強(qiáng)的適用性.故采用支持向量機(jī)建立出5種ADMET性質(zhì)各自的0-1二分類模型.但該方法的參數(shù)核函數(shù)g和懲罰參數(shù)c的選取問(wèn)題會(huì)限制其進(jìn)一步的發(fā)展.根據(jù)現(xiàn)有研究表明,截至目前還沒(méi)有一種比較好的、公認(rèn)的、固定的參數(shù)選取方法.一般而言,經(jīng)驗(yàn)估計(jì)法是研究中最常使用的方法,但是該方法在選取參數(shù)時(shí)比較隨機(jī),會(huì)產(chǎn)生較大的局限性.而粒子群算法(PSO)在參數(shù)尋優(yōu)求解過(guò)程中擁有比較顯著的優(yōu)勢(shì),并且該方法的模型結(jié)構(gòu)相對(duì)簡(jiǎn)單[19],因此,本文將選擇使用粒子群算法優(yōu)化支持向量機(jī)參數(shù),其算法的運(yùn)行流程如圖12所示.

      在使用PSO優(yōu)化SVM方法來(lái)計(jì)算各粒子的適應(yīng)度值時(shí),適應(yīng)度函數(shù)取均方誤差(MSE),如式(7)所示:

      MSE=1n∑ni=1(y i- i)2,(7)

      式(7)中:y i是實(shí)際取值; i是預(yù)測(cè)取值;n是訓(xùn)練的樣本個(gè)數(shù).

      4.2 基于PSO優(yōu)化SVM的分類預(yù)測(cè)結(jié)果分析

      基于上述PSO優(yōu)化SVM算法構(gòu)建化合物的ADMET預(yù)測(cè)模型,分別對(duì)5個(gè)指標(biāo)進(jìn)行預(yù)測(cè)分析,依次設(shè)立輸出變量指標(biāo)分別為Caco-2、CYP3A4、hERG、HOB、MN,代入MATLAB軟件中運(yùn)行.

      4.2.1 化合物的小腸上皮細(xì)胞滲透性Caco-2預(yù)測(cè)分析

      對(duì)于指標(biāo)Caco-2的預(yù)測(cè),圖13表示PSO優(yōu)化SVM的Caco-2迭代過(guò)程,可得到優(yōu)化后的懲罰參數(shù)c=268.757 6和核參數(shù)g=0.001,交叉驗(yàn)證CV準(zhǔn)確率達(dá)到94.076 7%,準(zhǔn)確性較好,對(duì)Caco-2指標(biāo)預(yù)測(cè)具備一定參考價(jià)值.圖14表示574個(gè)測(cè)試數(shù)據(jù)的混淆矩陣,其中有396個(gè)化合物的實(shí)際樣本分類值和模型預(yù)測(cè)分類值均為“0”,117個(gè)化合物的實(shí)際樣本分類值和模型預(yù)測(cè)分類值均為“1”,混淆矩陣的精確度為80.7%,召回率為78.0%,特異度為93.4%.圖15表示PSO優(yōu)化SVM后的實(shí)際分類與預(yù)測(cè)分類對(duì)比情況[20],對(duì)于574個(gè)測(cè)試數(shù)據(jù)的Caco-2的真實(shí)值和預(yù)測(cè)值大部分相互吻合,其預(yù)測(cè)準(zhǔn)確度為89.372 8%.

      4.2.2 化合物的代謝穩(wěn)定性CYP3A4預(yù)測(cè)分析

      對(duì)于指標(biāo)CYP3A4的預(yù)測(cè),圖16表示其迭代過(guò)程,優(yōu)化后的懲罰參數(shù)c=549.464 9和核參數(shù)g=0.001,交叉驗(yàn)證迭代過(guò)程中CV的準(zhǔn)確率為97.735 2%,具有較好的精度.圖17表示574個(gè)測(cè)試數(shù)據(jù)的混淆矩陣,其中有59個(gè)化合物的實(shí)際樣本分類值和模型預(yù)測(cè)分類值均為“0”,481個(gè)化合物的實(shí)際樣本分類值和模型預(yù)測(cè)分類值均為“1”,混淆矩陣的精確度為97.0%,召回率為96.2%,特異度為79.7%.圖18為預(yù)測(cè)CYP3A4指標(biāo)時(shí)測(cè)試集的實(shí)際分類和預(yù)測(cè)分類結(jié)果[21],測(cè)試集的實(shí)際分類和預(yù)測(cè)分類也相對(duì)較高,其預(yù)測(cè)準(zhǔn)確度為94.076 7%.

      4.2.3 化合物的心臟毒性hERG預(yù)測(cè)分析

      對(duì)于指標(biāo)hERG的預(yù)測(cè),圖19表示其迭代過(guò)程,優(yōu)化后的懲罰參數(shù)c=891.311 9和核參數(shù)g=0.001,交叉驗(yàn)證迭代過(guò)程中CV準(zhǔn)確率為89.198 6%,精度一般.圖20表示574個(gè)測(cè)試數(shù)據(jù)的混淆矩陣,其中有93個(gè)化合物的實(shí)際樣本分類值和模型預(yù)測(cè)分類值均為“0”,390個(gè)化合物的實(shí)際樣本分類值和模型預(yù)測(cè)分類值均為“1”,混淆矩陣的精確度為84.4%,召回率為95.4%,特異度為56.4%.圖21為預(yù)測(cè)hERG指標(biāo)時(shí)測(cè)試集的實(shí)際分類和預(yù)測(cè)分類結(jié)果[22],測(cè)試集的實(shí)際分類和預(yù)測(cè)分類也相對(duì)較高,其預(yù)測(cè)準(zhǔn)確度為84.146 3%.

      4.2.4 化合物的HOB預(yù)測(cè)分析

      對(duì)于指標(biāo)HOB的預(yù)測(cè),圖22表示其迭代過(guò)程,優(yōu)化后的懲罰系數(shù)c=119.618 4和核參數(shù)g=0.001,交叉驗(yàn)證迭代過(guò)程中的CV準(zhǔn)確率為87.971 9%,精度一般.圖23表示574個(gè)測(cè)試數(shù)據(jù)的混淆矩陣,其中有394個(gè)化合物的實(shí)際樣本分類值和模型預(yù)測(cè)分類值均為“0”,60個(gè)化合物的實(shí)際樣本分類值和模型預(yù)測(cè)分類值均為“1”,混淆矩陣的精確度為50%,召回率為50%,特異度為86.8%.圖24為預(yù)測(cè)HOB指標(biāo)時(shí)測(cè)試集的實(shí)際分類和預(yù)測(cè)分類結(jié)果[23],測(cè)試集的實(shí)際分類和預(yù)測(cè)分類也相對(duì)較高,其預(yù)測(cè)準(zhǔn)確度為79.094 1%.

      4.2.5 化合物的遺傳毒性MN預(yù)測(cè)分析

      對(duì)于指標(biāo)MN的預(yù)測(cè),圖25表示其迭代過(guò)程,優(yōu)化后的懲罰系數(shù)c=63.284 6和核參數(shù)g=0.001,交叉驗(yàn)證迭代過(guò)程中的CV準(zhǔn)確率為92.508 7%,精度一般.圖26表示574個(gè)測(cè)試數(shù)據(jù)的混淆矩陣,其中有104個(gè)化合物的實(shí)際樣本分類值和模型預(yù)測(cè)分類值均為“0”,381個(gè)化合物的實(shí)際樣本分類值和模型預(yù)測(cè)分類值均為“1”,混淆矩陣的精確度為86.4%,召回率為92.9%,特異度為63.4%.圖27為預(yù)測(cè)MN指標(biāo)時(shí)測(cè)試集的實(shí)際分類和預(yù)測(cè)分類結(jié)果[24].測(cè)試集的實(shí)際分類和預(yù)測(cè)分類也相對(duì)較高,其預(yù)測(cè)準(zhǔn)確度為84.494 8%.

      根據(jù)前文所構(gòu)建的Caco-2、CYP3A4、hERG、HOB、MN的分類預(yù)測(cè)模型,由于所建模型預(yù)測(cè)準(zhǔn)確

      度都相對(duì)較高,即可由化合物分子的結(jié)構(gòu)式對(duì)50個(gè)新化合物的ADMET性質(zhì)進(jìn)行相應(yīng)預(yù)測(cè),從而判斷新化合物的性質(zhì)好壞,對(duì)藥物性質(zhì)判斷提供一定的參考價(jià)值,預(yù)測(cè)結(jié)果如表3所示.

      5 結(jié)論

      針對(duì)抗乳腺癌候選藥物研發(fā)過(guò)程中的生物活性和ADMET性質(zhì)預(yù)測(cè)問(wèn)題,本文選擇利用計(jì)算機(jī)輔助方法.從化合物的“特征重要性分析”角度出發(fā),首先采用隨機(jī)森林分類器對(duì)1 974種化合物進(jìn)行特征重要性評(píng)估,從而將分子描述符對(duì)生物活性影響的重要性進(jìn)行重新排序,篩選出對(duì)生物活性最具顯著影響的前20個(gè)分子描述符.其次利用粒子群優(yōu)化BP神經(jīng)網(wǎng)絡(luò)構(gòu)建定量預(yù)測(cè)模型求取50個(gè)化合物的IC 50和pIC 50值,模型擬合度為0.833 7,對(duì)比優(yōu)化前的BP神經(jīng)網(wǎng)絡(luò),其RMSE值降低且R2有所提高,優(yōu)化后的生物活性預(yù)測(cè)值更貼近真實(shí)值.再者結(jié)合粒子群優(yōu)化支持向量機(jī)算法構(gòu)建化合物ADMET性質(zhì)5個(gè)指標(biāo)Caco-2、CYP3A4、hERG、HOB、MN的分類預(yù)測(cè)模型,進(jìn)行訓(xùn)練和測(cè)試得到交叉驗(yàn)證CV準(zhǔn)確率達(dá)到94.076 7%,準(zhǔn)確性較好.5個(gè)指標(biāo)的模型預(yù)測(cè)準(zhǔn)確率分別為89.372 8%、94.067? 7%、84.146 3%、79.094 1%、84.494 8%,求得50個(gè)化合物的ADMET二分類法的取值.

      研究表明文中所構(gòu)建的預(yù)測(cè)模型比基準(zhǔn)模型的預(yù)測(cè)效果更好,驗(yàn)證了模型的適用性.通過(guò)對(duì)化合物分子描述符的預(yù)測(cè)分析能夠在抗乳腺癌候選藥物研制方面提供有效的借鑒作用,所建立的模型還可以拓寬到求解其他關(guān)于數(shù)據(jù)分析預(yù)測(cè)和多目標(biāo)優(yōu)化等實(shí)際問(wèn)題中,在防治抗擊乳腺癌、白血病、宮頸癌或其他腫瘤疾病等人體生命健康的研究具有一定的指導(dǎo)作用[25].

      參考文獻(xiàn)

      References

      [1] Chan H C S,Shan H B,Dahoun T,et al.Advancing drug discovery via artificial intelligence[J].Trends in Pharmacological Sciences,2019,40(8):592-604

      [2] Shen C,Ding J J,Wang Z,et al.From machine learning to deep learning:advances in scoring functions for protein-ligand docking[J].Wiley Interdisciplinary Reviews:Computational Molecular Science,2020,10(1):e1429

      [3] 顧耀文,張博文,鄭思,等.基于圖注意力網(wǎng)絡(luò)的藥物ADMET分類預(yù)測(cè)模型構(gòu)建方法[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2021,5(8):76-85

      GU Yaowen,ZHANG Bowen,ZHENG Si,et al.Predicting drug ADMET properties based on graph attention network[J].Data Analysis and Knowledge Discovery,2021,5(8):76-85

      [4] 謝良旭,李峰,謝建平,等.基于融合神經(jīng)網(wǎng)絡(luò)模型的藥物分子性質(zhì)預(yù)測(cè)[J].計(jì)算機(jī)科學(xué),2021,48(9):251-256

      XIE Liangxu,LI Feng,XIE Jianping,et al.Predicting drug molecular properties based on ensembling neural networks models[J].Computer Science,2021,48(9):251-256

      [5] 秦潔.基于矩陣補(bǔ)全的藥物前體分子生物活性預(yù)測(cè)方法研究[D].南京:南京郵電大學(xué),2020

      QIN Jie.Research on matrix completion with side information for better modeling bioactivates of drug leads[D].Nanjing:Nanjing University of Posts and Telecommunications,2020

      [6] 賈聰敏.基于分子振動(dòng)特征的藥物靶點(diǎn)識(shí)別及活性預(yù)測(cè)模型研究[D].北京:北京中醫(yī)藥大學(xué),2019

      JIA Congmin.Study on drug target recognition and activity prediction model based on molecular vibration characteristics [D].Beijing:Beijing University of Chinese Medicine,2019

      [7] 沈杰.藥物ADMET理論預(yù)測(cè)方法開(kāi)發(fā)和靶向雌激素受體的藥物設(shè)計(jì)研究[D].上海:華東理工大學(xué),2011

      SHEN Jie.Development of drug ADMET theory prediction method and drug design research targeting estrogen receptor [D].Shanghai:East China University of Science and Technology,2011

      [8] Wenzel J,Matter H,Schmidt F.Predictive multitask deep neural network models for ADME-tox properties:learning from large data sets[J].Journal of Chemical Information and Modeling,2019,59(3):1253-1268

      [9] Lei T L,Sun H Y,Kang Y,et al.ADMET evaluation in drug discovery.18.reliable prediction of chemical-induced urinary tract toxicity by boosting machine learning approaches[J].Molecular Pharmaceutics,2017,14(11):3935-3953

      [10] 路珩,張一奇.雄激素受體在雌激素受體陽(yáng)性乳腺癌患者中的表達(dá)及其臨床意義[J].中國(guó)現(xiàn)代醫(yī)學(xué)雜志,2021,31(18):55-59

      LU Heng,ZHANG Yiqi.Expression and significance of androgen receptor in estrogen receptor-positive breast cancer[J].China Journal of Modern Medicine,2021,31(18):55-59

      [11] 叢斌斌,王永勝.激素受體陽(yáng)性早期乳腺癌治療現(xiàn)狀與挑戰(zhàn)[J].中國(guó)癌癥雜志,2021,31(8):689-696

      CONG Binbin,WANG Yongsheng.Treatment landscape and challenges of managing the hormone receptor-positive early breast cancer[J].China Oncology,2021,31(8):689-696

      [12] Wu Z Q,Ramsundar B,F(xiàn)einberg E N,et al.MoleculeNet:a benchmark for molecular machine learning[J].Chemical Science,2017,9(2):513-530

      [13] 楊德俊,姚香草,許重遠(yuǎn),等.紅茴香小分子化合物降尿酸活性及ADMET性質(zhì)的分子對(duì)接[J].中國(guó)臨床藥理學(xué)雜志,2018,34(23):2750-2752,2777

      YANG Dejun,YAO Xiangcao,XU Zhongyuan,et al.Molecular docking of the chemicals of Illicium lanceolatum in lowering uric acid and ADMET properties[J].The Chinese Journal of Clinical Pharmacology,2018,34(23):2750-2752,2777

      [14] 張翠鋒,謝海棠,潘國(guó)宇.大分子藥物的吸收、分布、代謝、排泄和毒性特征及藥代模型的應(yīng)用[J].藥學(xué)學(xué)報(bào),2016,51(8):1202-1208

      ZHANG Cuifeng,XIE Haitang,PAN Guoyu.Absorption,distribution,metabolism,excretion and toxicity of biologics and its application in pharmacokinetic modeling[J].Acta Pharmaceutica Sinica,2016,51(8):1202-1208

      [15] Mansouri K,Cariello N F,Korotcov A,et al.Open-source QSAR models for pKa prediction using multiple machine learning approaches[J].Journal of Cheminformatics,2019,11(1):60

      [16] 陳憲.基于OECD準(zhǔn)則對(duì)QSAR/QSPR模型幾個(gè)重要問(wèn)題的研究[D].長(zhǎng)沙:中南大學(xué),2013

      CHEN Xian.Studies on a few key problems of QSAR/QSPR modeling based on the OECD principles[D].Changsha:Central South University,2013

      [17] Shar P A,Tao W Y,Gao S,et al.Pred-binding:large-scale protein-ligand binding affinity prediction[J].Journal of Enzyme Inhibition and Medicinal Chemistry,2016,31(6):1443-1450

      [18] 蘇敏儀,劉慧思,林海霞,等.應(yīng)用機(jī)器學(xué)習(xí)方法構(gòu)建藥物分子解離速率常數(shù)的預(yù)測(cè)模型[J].物理化學(xué)學(xué)報(bào),2020,36(1):179-187

      SU Minyi,LIU Huisi,LIN Haixia,et al.Machine-learning model for predicting the rate constant of proteinligand dissociation[J].Acta Physico-Chimica Sinica,2020,36(1):179-187

      [19] 劉光徽,胡俊,於東軍.基于多視角特征組合與隨機(jī)森林的G蛋白偶聯(lián)受體與藥物相互作用預(yù)測(cè)[J].南京理工大學(xué)學(xué)報(bào),2016,40(1):1-9

      LIU Guanghui,HU Jun,YU Dongjun.Predicting GPCR-drug interactions with multi-view feature combination and random forest[J].Journal of Nanjing University of Science and Technology,2016,40(1):1-9

      [20] 李小強(qiáng),莫淼,吳菲,等.基于問(wèn)卷調(diào)查的上海女性乳腺癌人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型[J].腫瘤,2018,38(9):883-893

      LI Xiaoqiang,MO Miao,WU Fei,et al.Artificial neural network models based on questionnaire survey for prediction of breast cancer risk among Chinese women in Shanghai[J].Tumor,2018,38(9):883-893

      [21] 劉雅琴,王成,章魯.基于神經(jīng)網(wǎng)絡(luò)的乳腺癌生存預(yù)測(cè)模型[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2009,28(2):221-225

      LIU Yaqin,WANG Cheng,ZHANG Lu.Neural network based models for predicting breast cancer survivability[J].Chinese Journal of Biomedical Engineering,2009,28(2):221-225

      [22] 閔倩,廖俊,陸濤.基于大型藥物數(shù)據(jù)庫(kù)的藥物相互作用預(yù)測(cè)模型[J].中國(guó)臨床藥理學(xué)雜志,2016,32(11):1034-1036

      MIN Qian,LIAO Jun,LU Tao.Drug-drug interaction predicting model based on large scale drug databases[J].The Chinese Journal of Clinical Pharmacology,2016,32(11):1034-1036

      [23] 湯井田,曹揚(yáng),肖嘉瑩,等.基于粒子群優(yōu)化支持向量機(jī)的瑞芬太尼血藥濃度預(yù)測(cè)模型[J].中國(guó)藥學(xué)雜志,2013,48(16):1394-1399

      TANG Jingtian,CAO Yang,XIAO Jiaying,et al.Remifentanil blood concentration forecast model based on support vector machine with particle swarm optimization[J].Chinese Pharmaceutical Journal,2013,48(16):1394-1399

      [24] 白茹,滕奇志,楊曉敏,等.基于SVM和GA的藥物與人血清白蛋白結(jié)合的預(yù)測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(12):226-228,248

      BAI Ru,TENG Qizhi,YANG Xiaomin,et al.Prediction of combinative activity of drugs and human serum albumin by using SVM and GA[J].Computer Engineering and Applications,2009,45(12):226-228,248

      [25] 袁仙琴.基于基因表達(dá)數(shù)據(jù)的化合物肝毒性SVM預(yù)測(cè)模型研究[D].鎮(zhèn)江:江蘇大學(xué),2018

      YUAN Xianqin.Study on SVM prediction model of compound hepatotoxicity based on gene expression data [D].Zhenjiang:Jiangsu University,2018

      Prediction of properties of anti-breast cancer drugs based

      on PSO-BP neural network and PSO-SVM

      XU Meixian1 ZHENG Yan1 LI Yanju1 WU Weihao1

      1College of Automobile and Traffic Engineering,Nanjing Forestry University,Nanjing 210037

      Abstract The process of screening and developing new drugs through experiments is very slow and requires a lot of manpower and material resources,and the use of computer-aided prediction of the molecular properties of drugs can greatly save time and cost of drug development.Therefore,in order to enable anti-breast cancer candidate drugs to have good biological activity and ADMET properties for inhibiting ERα,the random forest classifier was first used for the collected 1 974 compounds to screen the top 20 molecular descriptors with the most significant effects on biological activity.Then a QSAR model was established using this and pIC50 value as characteristic data.The biological activity values of 50 new compounds were predicted via the PSO optimized BP neural network,with the model fit of 0.833 7 and the root mean square error of 0.731 5,which were more consistent with the actual values than the predicted results of the BP neural network.Subsequently,in order to improve the success rate of drug development,the ADMET classification prediction model was constructed using PSO to optimize the SVM based on the existing ADMET property data.The algorithm cross-validation CV accuracy rate reached 94.076 7%,and the prediction accuracy rates of the five index models were all above 79%.The results show that the proposed model has better prediction performance than the benchmark model,and the adopted prediction strategy is effective,which can provide reference for the discovery and development of anti-breast cancer drugs.

      Key words anti breast cancer drugs;biological activity;ADMET properties;particle swarm optimization (PSO);BP neural network;support vector machines (SVM)

      猜你喜歡
      粒子群優(yōu)化算法生物活性支持向量機(jī)
      基于改進(jìn)SVM的通信干擾識(shí)別
      基于自適應(yīng)線程束的GPU并行粒子群優(yōu)化算法
      基于混合粒子群算法的供熱管網(wǎng)優(yōu)化設(shè)計(jì)
      畜禽類血清的應(yīng)用研究進(jìn)展
      基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
      動(dòng)態(tài)場(chǎng)景中的視覺(jué)目標(biāo)識(shí)別方法分析
      論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
      茶色素生物活性及制備技術(shù)研究進(jìn)展
      玉葉金花屬植物化學(xué)成分及藥理作用研究進(jìn)展
      基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
      康平县| 子长县| 龙里县| 仁怀市| 怀宁县| 固始县| 北京市| 襄城县| 东宁县| 洛浦县| 连云港市| 加查县| 呼玛县| 广汉市| 山东| 土默特左旗| 久治县| 大安市| 公安县| 漳浦县| 西林县| 巴彦淖尔市| 罗山县| 平潭县| 孝昌县| 米脂县| 伊宁市| 香河县| 柳林县| 光泽县| 涟源市| 永德县| 广安市| 鄂州市| 佛坪县| 友谊县| 馆陶县| 金昌市| 永川市| 大田县| 长顺县|