• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于分子生成模型的SOS1抑制劑衍生物設(shè)計

      2023-12-18 18:13:49成凱陽胡晨駿胡孔法
      計算機(jī)時代 2023年11期
      關(guān)鍵詞:強(qiáng)化學(xué)習(xí)多樣性

      成凱陽 胡晨駿 胡孔法

      關(guān)鍵詞:數(shù)據(jù)增強(qiáng);強(qiáng)化學(xué)習(xí);虛擬篩選;多樣性

      中圖分類號:TP399 文獻(xiàn)標(biāo)識碼A 文章編號:1006-8228(2023)11-94-06

      0 引言

      在傳統(tǒng)的藥物設(shè)計中,藥化專家通過實驗及高通量篩選(High Throughput Screening,HTS)[1]從而發(fā)現(xiàn)具有潛在活性的化合物。然而僅通過實驗方法篩選藥物,耗時耗力,以計算機(jī)輔助藥物設(shè)計(Computer-Aided Drug Design,CADD)[2]或通過AI 算法設(shè)計更多類藥化合物已成為藥物研究的重要內(nèi)容。

      近年來,以分子生成模型為代表的藥物設(shè)計方法為先導(dǎo)化合物發(fā)現(xiàn)和優(yōu)化提供了新途徑。如AMABILINO等人提出的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)運(yùn)用遷移學(xué)習(xí)方法擴(kuò)展化合物庫[3],但也存在一些問題,即當(dāng)時間步長較大或循環(huán)網(wǎng)絡(luò)層數(shù)較深時,RNN 在采樣分子時可能會出現(xiàn)梯度消失或梯度爆炸的情況,導(dǎo)致模型生成有效分子數(shù)量較少。此外,Bagal 等人提出的Transformer 模型[4]使用了自注意力機(jī)制,具有處理長序列的能力和并行計算的優(yōu)勢。但在生成過程中,通常使用固定的采樣策略生成序列,這可能導(dǎo)致生成的分子缺乏多樣性。

      由于激酶靶點(diǎn)的成藥性高,本文選擇SOS1 靶點(diǎn)進(jìn)行設(shè)計與研究[5]。通過設(shè)計SOS1 抑制劑的衍生物希望發(fā)現(xiàn)潛在能抑制SOS1 活性的藥物,從而抑制腫瘤細(xì)胞的生長和擴(kuò)散。因此,本文提出一種結(jié)合RNN與Transformer 的R-T 算法來設(shè)計分子,該方法避免了單獨(dú)使用RNN 所存在的梯度消失的問題。通過減少模型的復(fù)雜度,可以實現(xiàn)更快的訓(xùn)練收斂速度,相較于Transformer 可以生成更多樣化的分子序列。此外,進(jìn)一步運(yùn)用SMILES 枚舉的數(shù)據(jù)增強(qiáng)方法擴(kuò)充數(shù)據(jù)集以生成更多樣化的分子結(jié)構(gòu)。最后用SOS1 抑制劑對R-T 模型進(jìn)行微調(diào),并以MRTX0902 為例來設(shè)計其衍生物,從而為激酶抑制劑的研究和開發(fā)提供新的思路和方法。

      1 生成模型相關(guān)工作

      在分子生成領(lǐng)域中,Blaschke 等人提出的變分自編碼器(Variational Autoencoders,VAE)架構(gòu)[6],該方法通過對編碼器的隱空間進(jìn)行優(yōu)化,并加入正態(tài)分布的噪聲以及懲罰,以減少重構(gòu)誤差的方式生成與多巴胺受體(DDR2)化合物屬性分布近似的化合物。實驗證明,基于隱空間優(yōu)化的方法在指導(dǎo)化合物優(yōu)化目標(biāo)屬性方面具有顯著效果。

      此外,Segler 等人[7]首次利用RNN 模型運(yùn)用于分子生成并證明了該方法的可靠性,先是利用大規(guī)模的生物活性數(shù)據(jù)對RNN 模型進(jìn)行預(yù)訓(xùn)練,然后根據(jù)PPARγ 靶標(biāo)的活性化合物對模型做進(jìn)一步的微調(diào)從而設(shè)計靶向PPARγ 的化合物。Kim 等人提出的Transformer 模型[8]在生成分子的有效性及新穎性上相較于RNN 更有優(yōu)勢,由于其多頭注意力機(jī)制及并行計算的能力使得在少量訓(xùn)練輪次即可達(dá)到收斂狀態(tài)。同時,相關(guān)研究發(fā)現(xiàn),通過對SMILES 枚舉的方法可以較好地實現(xiàn)生成分子的多樣性[9]。因此本文運(yùn)用數(shù)據(jù)增強(qiáng)方法,先對Transformer 模型做預(yù)訓(xùn)練,并將其采樣的分子通過調(diào)整RNN 模型參數(shù)來生成更多樣化的化學(xué)結(jié)構(gòu)。

      2 數(shù)據(jù)收集及預(yù)處理

      首先從ChEMBL 數(shù)據(jù)庫[10]中下載70 萬條SMILES格式的分子,數(shù)據(jù)預(yù)處理流程如圖1A 所示,首先過濾掉同位素及相同結(jié)構(gòu)的分子,并進(jìn)一步移除PAINS 結(jié)構(gòu)以及不滿足于類藥五原則的分子,最終得到50112個分子。其中類藥五原則為Lipinski[11]等人提出的篩選類藥分子的五條基本法則。此外,微調(diào)數(shù)據(jù)集為ChEMBL 中現(xiàn)有對SOS1 靶標(biāo)有pIC50 值的1329 個分子,并從中篩選掉多羥基、重原子數(shù)量大于40 及pIC50小于4.5,最終得到222 個分子(圖1B)。

      3 模型改進(jìn)方法

      3.1 R-T 算法流程

      本文所用的R-T算法框架如圖2所示,Transformer模型及RNN 模型如圖2A 和圖2B 所示,其中RNN 模型由輸入層,隱藏層及輸出層所組成。Transformer 模塊是由編碼塊以及解碼塊堆疊而成。每個編碼塊包含一個多頭注意力層和一個前饋網(wǎng)絡(luò)(feed forwardnetwork,F(xiàn)FN)。在解碼塊中有三個子層,分別是掩碼加自注意力子層、多頭編碼器-解碼器注意力子層和前饋網(wǎng)絡(luò)子層。其中多頭自注意力可以捕捉到全局的依賴關(guān)系,通過位置編碼使得模型能夠關(guān)注輸入SMILES 序列中每個字符的位置信息,并將相關(guān)信息傳遞給后續(xù)的層。

      首先,本文用預(yù)處理后的數(shù)據(jù)集對Transformer 模型進(jìn)行預(yù)訓(xùn)練(圖2C),并用SOS1抑制劑來對Transformer模型進(jìn)行微調(diào),從而使R-T 學(xué)習(xí)這批分子的屬性分布。其次,根據(jù)強(qiáng)化學(xué)習(xí)方法將Transformer 對RNN模型進(jìn)行蒸餾,從而指導(dǎo)RNN 模型采樣分子,并不斷迭代來更新模型參數(shù),使得在較少的訓(xùn)練輪次下采樣出期望屬性的分子(圖2D)。

      分子相似性表示為基于拓?fù)渲讣y和谷本相似性方法指紋計算分子之間的相似性,即將分子轉(zhuǎn)化(編碼)為比特位串,若存在該子結(jié)構(gòu)則該位為1,否則為0。本文選用兩個分子表示向量之間的Tanimoto 距離來表示兩個分子間的相似性分?jǐn)?shù)。

      此外,本實驗選擇了MOSES 提供的評價指標(biāo)[15]來評價生成分子的屬性分布。包括logP(the octanolwaterpartition coefficient, 脂水分配系數(shù)),SAscore(Synthetic Accessibility Score,合成可及性),用來評價合成的難易,該指標(biāo)范圍在1 到10 區(qū)間內(nèi),越低越易于合成。

      4.2 實驗設(shè)置

      本文采用Colab pro Tesla V100(32G),為了防止訓(xùn)練時產(chǎn)生過擬合,引入了早停機(jī)制,即當(dāng)驗證集的損失在20 個epoch 不下降就停止訓(xùn)練,具體參數(shù)如表1 所示。

      4.3 具體實驗過程

      4.3.1 模型訓(xùn)練的損失曲線

      本文設(shè)置預(yù)訓(xùn)練輪數(shù)為120 次,由圖3 可知,我們可視化了R-T 模型在訓(xùn)練集和驗證集的損失曲線。第100 個輪次損失值降低到0.06,并保持20 個輪次不變,至此預(yù)訓(xùn)練過程結(jié)束。

      4.3.2 預(yù)訓(xùn)練模型比較

      為了比較R-T 方法在分子生成中的優(yōu)勢,分別對RNN、Transformer 及Blaschke 等人提出的VAE 模型進(jìn)行預(yù)訓(xùn)練,在訓(xùn)練完畢后,對上述三種方法隨機(jī)采樣10000 個分子來比較生成分子的質(zhì)量。如表2 所示,可以發(fā)現(xiàn),R-T 模型的四個指標(biāo)都在0.9 以上,且在多樣性、唯一性、新穎性指標(biāo)中,R-T 相較于僅使用單一模型上效果更好。具體而言,在多樣性指標(biāo)中,相較于排名第二的Transformer 增長了0.053,而在合法性指標(biāo)中也僅次于最優(yōu)值0.016。由此可見,R-T 模型生成的分子質(zhì)量相較于上述方法有競爭性的優(yōu)勢。

      4.3.3 數(shù)據(jù)增強(qiáng)方法比較

      對于阿司匹林(Aspirin)藥物分子而言,雖然以不同的原子作為起點(diǎn)出發(fā)遍歷分子圖得到不一樣的SMILES,但是最終的分子圖是一樣的(圖4)。

      為了驗證不同的數(shù)據(jù)增強(qiáng)方法是否可以改善R-T模型生成分子的多樣性,首先根據(jù)SMILES 枚舉算法將預(yù)訓(xùn)練數(shù)據(jù)集中的每個分子都分別枚舉五次和十次,并與不采用數(shù)據(jù)增強(qiáng)方法構(gòu)成的訓(xùn)練集來分別訓(xùn)練R-T 模型。預(yù)訓(xùn)練結(jié)束后,再從三個模型中分別采樣了1000 個分子。首先為每個分子提取了其1024 位的分子指紋向量。隨后,使用t-SNE 算法對分子表征進(jìn)行降維,并通過可視化展示來展現(xiàn)他們的化學(xué)空間分布。如圖5 所示,基于枚舉十次的方法訓(xùn)練出的RT模型采樣得到的新穎結(jié)構(gòu)基本上覆蓋了前兩種采樣方法得到的化學(xué)空間,且覆蓋面積更廣,可見該方法生成的分子較上述方法更多樣化。

      4.3.4 MRTX0902 分子衍生物設(shè)計

      MRTX0902 是目前已報道的口服SOS1 抑制劑,有助于阻斷異常的細(xì)胞增殖和轉(zhuǎn)移過程[16]。本研究以它為例通過強(qiáng)化學(xué)習(xí)方法來設(shè)計其衍生物[17]。具體而言,首先設(shè)置生成分子與MRTX0902 相似性分?jǐn)?shù)之間的閾值為0.5,模型在生成的過程中會將相似性評分值大于0.5 的給予一個較高的獎勵值,并將滿足條件的分子保留下來,直到數(shù)量達(dá)到設(shè)定值則停止迭代。與之類比,從Specs 數(shù)據(jù)庫[18]中搜索與MRTX0902 相似度大于0.5 的分子。并且根據(jù)搜索時間、搜索數(shù)量、分子多樣性及可合成性來比較R-T 方法相較于搜索化合物庫的顯著優(yōu)勢[19]。本研究首先從Specs 中隨機(jī)采樣50000、100000、150000 個分子來作為基準(zhǔn)比較。Specs 庫的搜索時間為遍歷整個化合物庫所需時間,R-T 的搜索時間為生成滿足數(shù)量的分子所需時間,在這里設(shè)定生成分子的數(shù)量為10000。結(jié)果如表3 所示,R-T 方法在時間略遜色于上述三種篩選方法的情況下,能夠生成數(shù)量、多樣性遠(yuǎn)超基于Specs 庫的搜索方法,且可合成性分?jǐn)?shù)更低,可見該方法的優(yōu)勢。此外,如圖6 所示,還可視化了R-T 方法生成的四個與MRTX0902 相似度較高的化合物,其中紅框標(biāo)記的化合物出現(xiàn)于Reaxy 數(shù)據(jù)庫中,可見該方法生成分子的合理性及可靠性,有助于擴(kuò)展現(xiàn)有的化合物庫,彌補(bǔ)虛擬篩選化合物庫[20]多樣性不足的問題。

      4.4 實驗總結(jié)

      改進(jìn)的R-T 算法使用強(qiáng)化學(xué)習(xí)方法來設(shè)計SOS1 抑制劑的衍生物,改善了傳統(tǒng)虛擬篩選方法中篩選與SOS1抑制劑結(jié)構(gòu)相似且新穎的化合物數(shù)量不足的問題。實驗結(jié)果表明,相較于僅使用單一模型的情況下,R-T算法在生成分子的唯一性、合法性、新穎性和多樣性方面具有明顯的優(yōu)勢。此外,相較于未使用SMILES枚舉的數(shù)據(jù)增強(qiáng)方法,通過對預(yù)訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng)可以使得生成的化合物具有更高的多樣性。同時,在設(shè)計MRTX0902 小分子衍生物時,R-T 模型可以快速生成數(shù)量更多、更多樣化且易于合成的結(jié)構(gòu),從而更好地填補(bǔ)現(xiàn)有化合物庫所涉及的化學(xué)空間不足的問題。

      5 結(jié)束語

      本文采用強(qiáng)化學(xué)習(xí)方法,來設(shè)計SOS1 抑制劑的衍生物。首先通過海量分子對Transformer 模型進(jìn)行訓(xùn)練,再調(diào)整RNN 模型的參數(shù)從而生成更多樣的化合物。實驗數(shù)據(jù)顯示,改進(jìn)的R-T 算法性能相較于單獨(dú)使用一種模型生成分子的質(zhì)量明顯更優(yōu)。此外還比較了使用數(shù)據(jù)增強(qiáng)擴(kuò)充訓(xùn)練集的方法設(shè)計分子的優(yōu)勢,表明該增強(qiáng)方法的有效性。進(jìn)一步,與虛擬篩選的相似性搜索策略相比,發(fā)現(xiàn)改進(jìn)的R-T 算法在生成分子的多樣性和數(shù)量方面較有優(yōu)勢??傊?,該方法為藥物化學(xué)專家進(jìn)行先導(dǎo)化合物的優(yōu)化提供了便利。未來的研究,將繼續(xù)探索在不同的激酶數(shù)據(jù)集上設(shè)計和優(yōu)化小分子衍生物的能力。

      猜你喜歡
      強(qiáng)化學(xué)習(xí)多樣性
      智能車自主避障路徑規(guī)劃研究綜述
      一種記憶可修剪型仿生機(jī)器人的速度跟蹤算法研究
      基于強(qiáng)化學(xué)習(xí)的在線訂單配送時隙運(yùn)能分配
      論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
      智能交通車流自動導(dǎo)引系統(tǒng)
      分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
      由古典戲曲看“代言體”在中國的前世今生
      戲劇之家(2016年22期)2016-11-30 15:13:39
      淺談新時期群文輔導(dǎo)工作的特征
      新時期群文輔導(dǎo)工作的特征
      海洋微生物次生代謝的生物合成機(jī)制
      科技資訊(2016年19期)2016-11-15 10:39:12
      靖西县| 斗六市| 聂拉木县| 仪陇县| 阿坝| 财经| 长宁区| 东乡县| 光山县| 灵石县| 星座| 泽库县| 山东省| 郧西县| 雅安市| 涟源市| 宣汉县| 锦州市| 遵化市| 嘉义县| 安陆市| 江达县| 达日县| 溧水县| 江口县| 修武县| 巴彦县| 蓝山县| 涟水县| 嫩江县| 兰溪市| 东海县| 惠州市| 丰宁| 合作市| 策勒县| 长垣县| 夏河县| 南开区| 铁岭县| 许昌县|