廖懿鳴 歐陽(yáng)純萍 劉永彬 胡富裕
基于異質(zhì)信息網(wǎng)絡(luò)元路徑的藥物?靶標(biāo)相互作用預(yù)測(cè)模型
廖懿鳴 歐陽(yáng)純萍?劉永彬 胡富裕
南華大學(xué)計(jì)算機(jī)學(xué)院, 衡陽(yáng) 421001; ?通信作者, E-mail: ouyangcp@126.com
提出一種融合元路徑信息的圖神經(jīng)網(wǎng)絡(luò)模型, 用于預(yù)測(cè)藥物?靶標(biāo)相互作用(GMDTI)。首先根據(jù) 8 個(gè)數(shù)據(jù)集中的藥物、靶標(biāo)、疾病和副作用數(shù)據(jù)以及它們之間的 8 種作用關(guān)系, 構(gòu)建藥物?靶標(biāo)異質(zhì)信息網(wǎng)絡(luò)(HIN); 然后定義兩條元路徑來(lái)捕獲藥物?靶標(biāo) HIN 中的不同子結(jié)構(gòu)信息和不同節(jié)點(diǎn)間隱藏的語(yǔ)義信息, 并應(yīng)用圖神經(jīng)網(wǎng)絡(luò)的方法聚合節(jié)點(diǎn)的一階鄰居信息和元路徑中節(jié)點(diǎn)間的語(yǔ)義信息; 最后利用端到端的學(xué)習(xí)方法完成 DTIs 預(yù)測(cè)。該方法同時(shí)考慮藥物?靶標(biāo) HIN 的結(jié)構(gòu)特性和元路徑語(yǔ)義信息, 有助于學(xué)習(xí)到更多潛在的藥物?靶標(biāo)作用關(guān)系。實(shí)驗(yàn)結(jié)果表明, GMDTI 的預(yù)測(cè)準(zhǔn)確率高于所有基線模型, AUC 達(dá)到 98.6%, AUPR 達(dá)到94.5%。同時(shí)通過(guò)調(diào)整數(shù)據(jù)的稀疏度和降噪實(shí)驗(yàn), 證明 GMDTI 具備優(yōu)于所有基線模型的魯棒性。
藥物?靶標(biāo)相互作用預(yù)測(cè); 圖神經(jīng)網(wǎng)絡(luò); 異質(zhì)信息網(wǎng)絡(luò); 元路徑; 特征表示
藥物?靶標(biāo)相互作用(drug-target interactions, DTIs)預(yù)測(cè)是藥物研發(fā)的關(guān)鍵步驟。DTIs 預(yù)測(cè)指通過(guò)藥物和靶標(biāo)的結(jié)構(gòu)特征以及已知的藥物與靶標(biāo)之間的關(guān)系、藥物與藥物之間的關(guān)系等信息, 挖掘目前尚未發(fā)現(xiàn)的潛在的藥物-靶標(biāo)相互作用關(guān)系。通過(guò)識(shí)別尚未發(fā)現(xiàn)的 DTIs, 可以探索已知藥物的新用途。在新藥物的研發(fā)過(guò)程中準(zhǔn)確地預(yù)測(cè) DTIs, 可以幫助研究人員快速地篩選出有效的候選藥物, 降低研發(fā)成本, 減少研制的盲目性, 因此預(yù)測(cè) DTIs 是新藥物研發(fā)工作中極為重要的基礎(chǔ)任務(wù)[1-2]。
傳統(tǒng)的 DTIs 預(yù)測(cè)方法主要有兩種: 基于配體的方法[3]和分子對(duì)接模擬法[4]。基于配體的方法利用相似的分子通常會(huì)與相似的靶標(biāo)相結(jié)合的思想, 通過(guò)比較新的配體與已知的靶標(biāo)配體來(lái)預(yù)測(cè) DTIs。目前, 大多數(shù)基于配體的方法都是針對(duì)一個(gè)靶標(biāo)建立的, 使其只能針對(duì)一個(gè)靶標(biāo)的分子活性做預(yù)測(cè), 推廣使用受到限制。分子對(duì)接模擬法利用靶標(biāo)的三維結(jié)構(gòu)進(jìn)行模擬[4-6], 當(dāng)靶標(biāo)的三維結(jié)構(gòu)不可用時(shí), 這類方法失效。此外,對(duì)接模擬通常需要很長(zhǎng)的時(shí)間, 效率較低。
近年來(lái), 隨著人工智能技術(shù)在生物醫(yī)療領(lǐng)域的深度應(yīng)用, 越來(lái)越多的研究人員致力于使用機(jī)器學(xué)習(xí)的計(jì)算方法來(lái)預(yù)測(cè) DTIs, 可以很好地克服傳統(tǒng)DTIs 預(yù)測(cè)方法只能針對(duì)單個(gè)靶標(biāo)做預(yù)測(cè)以及預(yù)測(cè)精確度不高、效率低的問(wèn)題。
基于機(jī)器學(xué)習(xí)的 DTIs 預(yù)測(cè)方法可分為基于矩陣相似度計(jì)算的和基于異質(zhì)信息網(wǎng)絡(luò)(heterogene-ous information network, HIN)的兩大類。
基于矩陣相似度計(jì)算的方法是通過(guò)不同的矩陣相似性度量方法來(lái)計(jì)算藥物與靶標(biāo)之間的相似性, 從而進(jìn)行 DTIs 預(yù)測(cè), 主要包含二分圖局部方法和矩陣分解方法。Bleakley 等[7]提出二分圖局部模型, 首次利用有監(jiān)督機(jī)器學(xué)習(xí)方法進(jìn)行 DTIs 預(yù)測(cè), 將藥物-靶標(biāo)相互作用預(yù)測(cè)問(wèn)題轉(zhuǎn)換成二分類問(wèn)題, 將藥物的化學(xué)結(jié)構(gòu)和靶標(biāo)的序列結(jié)構(gòu)作為輸入特征, 分別訓(xùn)練藥物和靶標(biāo)的局部模型, 因此 SVM分類器可以針對(duì)藥物和靶標(biāo)生成兩個(gè)獨(dú)立的預(yù)測(cè)結(jié)果, 基于這兩個(gè)獨(dú)立預(yù)測(cè)結(jié)果的平均值, 計(jì)算藥物-靶標(biāo)的最終預(yù)測(cè)結(jié)果?;诰仃嚪纸獾南嗨贫榷攘糠椒▌t將 DTIs 預(yù)測(cè)任務(wù)視為尋找缺失相互作用矩陣的補(bǔ)全問(wèn)題, 例如 Zheng 等[8]提出 MSCMF 模型, 通過(guò)加權(quán)平均方案來(lái)整合多個(gè)數(shù)據(jù)源的信息, 從而獲得對(duì)應(yīng)的藥物和靶標(biāo)相似度矩陣, 然后使用這些相似度矩陣來(lái)正則化給定的 DTIs 網(wǎng)絡(luò)的矩陣分解操作。
基于矩陣相似度計(jì)算的預(yù)測(cè)方法沒(méi)有考慮網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu), 也沒(méi)有區(qū)分網(wǎng)絡(luò)中藥物與靶標(biāo)之間關(guān)系的異質(zhì)性, 所以會(huì)損失網(wǎng)絡(luò)中節(jié)點(diǎn)之間的交互語(yǔ)義信息, 導(dǎo)致無(wú)法進(jìn)行更準(zhǔn)確的 DTIs 預(yù)測(cè)。因此, 基于 HIN 的方法被用于 DTIs 預(yù)測(cè)。為了集成異構(gòu)數(shù)據(jù)源中的各種信息, Luo 等[9]提出 DTINet 預(yù)測(cè)方法, 從所構(gòu)建的藥物-靶標(biāo) HIN 中自動(dòng)學(xué)習(xí)藥物和靶標(biāo)的低維特征向量(該特征向量可以準(zhǔn)確地解釋網(wǎng)絡(luò)中節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)的特性), 然后運(yùn)用歸納矩陣, 在學(xué)到的特征基礎(chǔ)上完成 DTIs 預(yù)測(cè)。
由于 DTINet 將特征學(xué)習(xí)與任務(wù)分離, 所以學(xué)習(xí)到的特征表示不一定是 DTIs 預(yù)測(cè)任務(wù)中的最優(yōu)表示。為了解決特征學(xué)習(xí)與任務(wù)分離的問(wèn)題, Wan等[10]創(chuàng)建一個(gè)新的框架 NeoDTI, 使用圖神經(jīng)網(wǎng)絡(luò)鄰居信息聚合[11]的方法, 通過(guò)聚合節(jié)點(diǎn)的一階鄰居信息來(lái)提取藥物和靶標(biāo)的復(fù)雜隱藏特征, 并從中學(xué)習(xí)節(jié)點(diǎn)含有網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的特征表示, 取得出色的預(yù)測(cè)結(jié)果。此外, 為了聚合 HIN 中節(jié)點(diǎn)的高階信息, Liu 等[12]等提出 GADTI 模型, 通過(guò)將 GCN[13]與隨機(jī)游走相結(jié)合, 使信息聚合的范圍從一階擴(kuò)展到多階, 相當(dāng)于增加了卷積的感受野, 實(shí)現(xiàn)更遠(yuǎn)距離的信息傳遞。
基于 HIN 的 DTIs 預(yù)測(cè)方法優(yōu)勢(shì)在于可以整合不同類型節(jié)點(diǎn)之間的交互信息和節(jié)點(diǎn)間隱藏的語(yǔ)義信息, 但帶來(lái)一個(gè)新的問(wèn)題: 如何有效地表示異質(zhì)信息網(wǎng)絡(luò)節(jié)點(diǎn)間隱含的語(yǔ)義信息?
元路徑[14]可以指定對(duì)象的連接序列, 獲取網(wǎng)絡(luò)的子結(jié)構(gòu), 并捕獲源節(jié)點(diǎn)與目標(biāo)節(jié)點(diǎn)間的語(yǔ)義, 廣泛地運(yùn)用于基于 HIN 的數(shù)據(jù)挖掘問(wèn)題中[15]。在藥物-靶標(biāo)HIN 中, 同樣可以利用元路徑來(lái)抽取網(wǎng)絡(luò)的子結(jié)構(gòu), 并捕獲源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)間的語(yǔ)義信息。如圖 1 所示, 在 DrugBank 3.0 版數(shù)據(jù)庫(kù)[16]中, 氟伏沙明與西酞普蘭沒(méi)有任何聯(lián)系, 但二者可以通過(guò)添加藥物-靶標(biāo)-藥物這條元路徑發(fā)生關(guān)聯(lián)。在最新的 Drug Bank 5.1.7 版數(shù)據(jù)庫(kù)中, 的確更新了氟伏沙明與西酞普蘭之間的聯(lián)系, 表示聯(lián)合使用氟伏沙明和西酞普蘭可以提高血清濃度, 說(shuō)明可以通過(guò)元路徑捕獲有利于提高預(yù)測(cè)效果的語(yǔ)義信息。
為了解決既有方法沒(méi)有利用 HIN 的子結(jié)構(gòu)信息以及節(jié)點(diǎn)間隱藏的語(yǔ)義信息這一問(wèn)題, 本文提出一種融合元路徑信息的圖神經(jīng)網(wǎng)絡(luò)模型, 用于預(yù)測(cè)藥物-靶標(biāo)相互作用的方法(graph neural network with meta-path information for drug-target interaction pre-diction model, GMDTI)。在 NeoDTI 模型的基礎(chǔ)上, 加入兩條不同的元路徑來(lái)捕獲藥物-靶標(biāo) HIN 中不同類型的網(wǎng)絡(luò)子結(jié)構(gòu)和源節(jié)點(diǎn)與目標(biāo)節(jié)點(diǎn)間的語(yǔ)義信息, 同時(shí)考慮藥物、靶標(biāo)、疾病與副作用節(jié)點(diǎn)的一階鄰居信息, 然后運(yùn)用圖神經(jīng)網(wǎng)絡(luò)提取 HIN中每個(gè)節(jié)點(diǎn)的特征, 最后根據(jù)所提取節(jié)點(diǎn)的特征進(jìn)行DTIs 預(yù)測(cè)。
圖1 異質(zhì)信息網(wǎng)絡(luò)中元路徑示例
定義 1 藥物-靶標(biāo) HIN。給定一個(gè)圖= (,),代表節(jié)點(diǎn)集,代表邊集。節(jié)點(diǎn)集合中每個(gè)節(jié)點(diǎn)屬于對(duì)象集合中的一種對(duì)象類型, 其中{藥物, 靶標(biāo), 疾病, 副作用}; 邊集合中的每條邊屬于關(guān)系類型集合中的一種關(guān)系類型, 其中{藥物-藥物-相互作用, 藥物-藥物-結(jié)構(gòu)相似度, 藥物-靶標(biāo)-相互作用, 藥物-疾病-相互聯(lián)系, 藥物-副作用-相互聯(lián)系, 靶標(biāo)-靶標(biāo)-相互作用, 靶標(biāo)-靶標(biāo)-結(jié)構(gòu)相似性, 靶標(biāo)-疾病-相互聯(lián)系}。
定義 3 基于元路徑的鄰居。給定一個(gè)節(jié)點(diǎn)和一條元路徑, 節(jié)點(diǎn)基于元路徑的鄰居集合為N。
如圖 2 所示, 本文提出的 GMDTI 模型具有以下特點(diǎn): 1)使用 8 個(gè)獨(dú)立的與藥物和靶標(biāo)相關(guān)的數(shù)據(jù)集來(lái)構(gòu)建藥物-靶標(biāo) HIN, 該網(wǎng)絡(luò)由 4 種類型的節(jié)點(diǎn)和 8 種類型的邊構(gòu)成, 不同類型的節(jié)點(diǎn)由不同類型的邊連接, 相同類型的節(jié)點(diǎn)可以由多種類型的邊連接; 2)針對(duì)藥物-靶標(biāo) HIN 中的所有節(jié)點(diǎn), 使用低維向量進(jìn)行隨機(jī)初始化表示, 然后通過(guò)其一階鄰居信息來(lái)更新每個(gè)節(jié)點(diǎn)的特征表示; 3)基于已構(gòu)建的藥物-靶標(biāo) HIN, 設(shè)計(jì)兩條包含不同語(yǔ)義信息的元路徑, 根據(jù)元路徑找到藥物和靶標(biāo)節(jié)點(diǎn)基于元路徑的鄰居; 4)通過(guò)聚合藥物和靶標(biāo)節(jié)點(diǎn)基于元路徑的鄰居信息, 更新藥物和靶標(biāo)節(jié)點(diǎn)的特征表示; 5)通過(guò)以上步驟學(xué)到的節(jié)點(diǎn)特征表示重構(gòu)初始的藥物-靶標(biāo) HIN, 旨在最小化初始網(wǎng)絡(luò)與重構(gòu)網(wǎng)絡(luò)之間的差異, 并且利用重構(gòu)的藥物-靶標(biāo)網(wǎng)絡(luò)進(jìn)行 DTIs 的預(yù)測(cè)。
通過(guò)聚合節(jié)點(diǎn)的一階鄰居信息, 可以讓模型學(xué)習(xí)到 HIN 的整體結(jié)構(gòu)信息。GMDTI 使用圖神經(jīng)網(wǎng)絡(luò), 整合來(lái)自每個(gè)節(jié)點(diǎn)的鄰居信息。給定一個(gè)藥物-靶標(biāo) HIN, 隨機(jī)初始化節(jié)點(diǎn)向量表示函數(shù)0:R將每個(gè)節(jié)點(diǎn)(∈)映射到維的向量表示0(), 邊權(quán)重映射函數(shù)將每條邊(∈)映射到其邊權(quán)重()上, 每個(gè)節(jié)點(diǎn)的鄰居信息聚合運(yùn)算公式為
我們選擇藥物-靶標(biāo)-藥物和靶標(biāo)-藥物-靶標(biāo)兩條元路徑, 藥物-靶標(biāo)-藥物路徑指不同藥物對(duì)同一靶標(biāo)的關(guān)聯(lián), 靶標(biāo)-藥物-靶標(biāo)路徑指不同靶標(biāo)對(duì)同一藥物的關(guān)聯(lián)。通過(guò)這兩條元路徑, 可以獲取路徑中包含的語(yǔ)義信息, 并且讓模型學(xué)習(xí)到藥物-靶標(biāo)HIN 不同的子結(jié)構(gòu)信息, 進(jìn)行更精確的 DTIs 預(yù)測(cè)。
通過(guò)元路徑找到的連接邊為∈, 通過(guò)邊權(quán)重映射函數(shù):, 將這些邊映射到其邊權(quán)重()上, 節(jié)點(diǎn)基于元路徑的鄰居信息聚合操作運(yùn)算公式為
圖2 GMDTI模型框架
(a)藥物 1 節(jié)點(diǎn)一階鄰居信息聚合操作; (b)藥物 1 節(jié)點(diǎn)基于藥物?靶標(biāo)?藥物元路徑的鄰居信息聚合操作。不同顏色的箭頭表示不同類型邊的聚合操作
其中,=(,,)表示節(jié)點(diǎn)和通過(guò)元路徑相連, 且該連接邊類型為;N表示節(jié)點(diǎn)基于元路徑的鄰居節(jié)點(diǎn)集合;(u)表示從節(jié)點(diǎn)類型為()出發(fā)的元路徑集合;∈R是權(quán)重矩陣;b∈R是偏置項(xiàng)。圖 3 展示藥物節(jié)點(diǎn)的一階鄰居信息聚合和基于藥物-靶標(biāo)-藥物元路徑的鄰居信息聚合操作流程。
為了充分利用藥物-靶標(biāo) HIN 中的整體結(jié)構(gòu)信息、局部結(jié)構(gòu)信息以及節(jié)點(diǎn)間的語(yǔ)義信息, 對(duì)于藥物和靶標(biāo)節(jié)點(diǎn)(∈{藥物靶標(biāo)}), 用 3 種向量進(jìn)行聚合表示, 即節(jié)點(diǎn)的初始向量表示0()、一階鄰居信息的向量表示1()和基于元路徑鄰居信息的向量表示2()。對(duì)于非藥物和靶標(biāo)節(jié)點(diǎn)′ (′∈{疾病副作用}), 僅由節(jié)點(diǎn)的初始向量表示0(′)和一階鄰居信息的向量表示1(′)構(gòu)成。將節(jié)點(diǎn)的幾種向量表示相加, 再經(jīng)過(guò)單層神經(jīng)網(wǎng)絡(luò)和2正則化來(lái)更新所有節(jié)點(diǎn)的向量表示。節(jié)點(diǎn)和′的最終向量表示運(yùn)算公式如下:
其中,0∈R是權(quán)重矩陣,0是偏置項(xiàng)。
給定節(jié)點(diǎn)的最終嵌入表示(), 訓(xùn)練神經(jīng)網(wǎng)絡(luò), 以便最小化重構(gòu)矩陣與初始矩陣之間的損失。損失函數(shù)定義為
其中,∈R和∈R是關(guān)于類型為邊的特定投影矩陣, 這兩個(gè)投影矩陣的內(nèi)積應(yīng)盡可能地還原原始邊權(quán)重()。如果邊類型是對(duì)稱的, 例如{藥物-藥物-相互作用, 靶標(biāo)-靶標(biāo)-相互作用, 靶標(biāo)-靶標(biāo)-序列相似性}, 則設(shè)=來(lái)增強(qiáng)這種對(duì)稱性。
考慮到所有操作都是可微的和次可微的, 可以通過(guò)執(zhí)行梯度下降, 以端到端的方式訓(xùn)練參數(shù)。訓(xùn)練后, 重構(gòu)的藥物-靶標(biāo)矩陣可用于預(yù)測(cè)每個(gè) DTI的得分。重構(gòu)的藥物-靶標(biāo)相互作用矩陣可以定義為以下形式:
其中,drug和target分別是藥物和靶標(biāo)的特征矩陣。
我們采用文獻(xiàn)[10]中的數(shù)據(jù)集。該數(shù)據(jù)集包含8 個(gè)獨(dú)立的關(guān)系矩陣: 藥物-藥物相互作用矩陣、藥物-靶標(biāo)相互作用矩陣、藥物-疾病關(guān)聯(lián)矩陣、藥物-藥物結(jié)構(gòu)相似度矩陣、藥物-副作用關(guān)聯(lián)矩陣、靶標(biāo)-靶標(biāo)相互作用矩陣、靶標(biāo)-靶標(biāo)序列相似度矩陣以及靶標(biāo)-疾病關(guān)聯(lián)矩陣。除藥物結(jié)構(gòu)相似性和靶標(biāo)序列相似性矩陣的邊是非負(fù)實(shí)值權(quán)重外, 其他所有矩陣均具為二進(jìn)制邊權(quán)重(有已知的相互作用或聯(lián)系邊權(quán)重為 1, 否則為 0)。另外, 我們通過(guò)藥物-靶標(biāo)-藥物和靶標(biāo)-藥物-靶標(biāo)這兩條元路徑, 提取藥物-藥物元路徑矩陣和靶標(biāo)-靶標(biāo)元路徑矩陣。實(shí)驗(yàn)數(shù)據(jù)集中包含 708 種藥物、1512 種靶標(biāo)、1923條藥物-靶標(biāo)相互作用邊(DTI)、13558 條由藥物-靶標(biāo)-藥物元路徑建立的連接邊以及 4268 條由靶標(biāo)-藥物-靶標(biāo)元路徑建立的連接邊。
本文以 AUC (area under the receiver operating characteristic curve)和 AUPR (area under the precision- recall curve)為評(píng)價(jià)指標(biāo), 對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行度量。AUC 適用于各類正負(fù)樣本相對(duì)平衡的數(shù)據(jù)。在正負(fù)樣本高度不平衡的情況下, AUPR 比 AUC 更敏感,更加適用于評(píng)價(jià)模型在不平衡樣本情況下的鏈接預(yù)測(cè)能力。
可以把 DTIs 預(yù)測(cè)任務(wù)視為一個(gè)二分類問(wèn)題, 將其中已知的藥物-靶標(biāo)相互作用對(duì)作為正樣例, 未知的藥物-靶標(biāo)相互作用對(duì)作為負(fù)樣例。為了模擬現(xiàn)實(shí)中 DTIs 數(shù)據(jù)稀疏的情況, 首先采樣所有的正樣例, 然后對(duì)負(fù)樣例對(duì)進(jìn)行隨機(jī)采樣, 負(fù)樣列對(duì)的數(shù)量為正樣例對(duì)的 10 倍。接下來(lái), 采用 10 折交叉驗(yàn)證來(lái)驗(yàn)證模型的性能。在每一折中, 隨機(jī)選取數(shù)據(jù)集中 90%的正負(fù)樣例對(duì)作為訓(xùn)練集來(lái)訓(xùn)練模型參數(shù), 剩余 10%的數(shù)據(jù)作為測(cè)試集來(lái)測(cè)試模型的性能。實(shí)驗(yàn)中與以下 6 種基線方法進(jìn)行對(duì)比: 1)BLM-NII[17], 基于鄰居相互作用譜的局部二分圖模型; 2)HNM[18], 多層異質(zhì)信息網(wǎng)絡(luò)模型, 能捕獲疾病、藥物和靶標(biāo)之間的相互關(guān)系和內(nèi)部聯(lián)系; 3)MSCMF, 多相似度矩陣分解模型, 用矩陣分解方法將藥物和靶標(biāo)矩陣規(guī)范化, 能夠集成多種相似矩陣; 4)DTI-Net, 一種網(wǎng)絡(luò)集成方法, 能集成異構(gòu)數(shù)據(jù)源中的各種信息, 學(xué)習(xí)節(jié)點(diǎn)包含 HIN 拓?fù)浣Y(jié)構(gòu)的低維特征向量; 5)NeoDTI, 采用圖神經(jīng)網(wǎng)絡(luò)的方法, 能夠集成多種信息源數(shù)據(jù), 并自動(dòng)學(xué)習(xí)節(jié)點(diǎn)保留網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的向量表示; 6)GADTI, 采用圖神經(jīng)網(wǎng)絡(luò)和重啟隨機(jī)游走方法, 聚合節(jié)點(diǎn)的多階鄰居信息, 實(shí)現(xiàn)更遠(yuǎn)距離的信息傳遞。
表 1 給出本文方法和基線方法在數(shù)據(jù)集上的性能表現(xiàn), 其中每個(gè)實(shí)驗(yàn)結(jié)果均為 10 折交叉驗(yàn)證所得??梢钥闯? 在沒(méi)有加入元路徑的情況下, GMDTI能夠基本上準(zhǔn)確地預(yù)測(cè) DTIs, 其 AUC 幾乎優(yōu)于所有基線方法, AUPR 與表現(xiàn)最好的基線方法NeoDTI僅相差 0.8%?;诋愘|(zhì)結(jié)構(gòu)網(wǎng)絡(luò)的 GADTI 是通過(guò)重啟隨機(jī)游走的方法獲取節(jié)點(diǎn)的高階鄰居信息, 所以很容易捕獲與當(dāng)前節(jié)點(diǎn)相關(guān)性弱的高階節(jié)點(diǎn)信息, 進(jìn)而削弱相關(guān)性強(qiáng)的一階鄰居信息的影響, 導(dǎo)致效果沒(méi)有 NeoDTI 方法好。其他基線方法, 由于沒(méi)有利用藥物-靶標(biāo) HIN 的拓?fù)浣Y(jié)構(gòu)信息和隱藏的語(yǔ)義信息, 僅利用少量與藥物和靶標(biāo)相關(guān)的數(shù)據(jù), 或僅利用簡(jiǎn)單的矩陣分解方法, 不能處理矩陣內(nèi)冗余的信息, 所以預(yù)測(cè)效果均不佳。
從表 1 還可以看出, 在 GMDTI 中加入藥物-靶標(biāo)-藥物元路徑或靶標(biāo)-藥物-靶標(biāo)元路徑, AUC 和AUPR 均優(yōu)于所有基線方法, 并且與沒(méi)有加入元路徑的 GMDTI 相比, AUC 分別提高 0.9%和 1.6%, AUPR 分別提高 3.7%和 3.2%, 說(shuō)明加入特定的元路徑有助于模型學(xué)習(xí)到 HIN 特定的子結(jié)構(gòu), 從而提高DTIs 預(yù)測(cè)能力。在 GMDTI 中同時(shí)加入兩條元路徑后, 與只加入一條元路徑相比, AUPR 至少提升4.2%。這是因?yàn)橥瑫r(shí)加入兩條元路徑時(shí), 模型能學(xué)習(xí)到更多樣的子結(jié)構(gòu), 捕獲更豐富的語(yǔ)義信息, 從而更準(zhǔn)確地預(yù)測(cè)DTIs。
表1 不同方法性能比較
說(shuō)明: +D-P-D表示只加入藥物-靶標(biāo)-藥物元路徑, +P-D-P表示只加入靶標(biāo)-藥物-靶標(biāo)元路徑。
由于 DTIs 的實(shí)際數(shù)據(jù)較為稀疏, 所以通過(guò)逐步增加負(fù)樣本比例的方式模擬實(shí)際情況, 以便觀察GMDTI 的性能表現(xiàn)。由于 NeoDTI 和 GADTI 與本文所提方法思路上較為相似, 并且基礎(chǔ)實(shí)驗(yàn)結(jié)果比其他基線方法表現(xiàn)好, 因此后續(xù)實(shí)驗(yàn)中僅與 Neo-DTI 和 GADTI 兩種方法進(jìn)行比較。
如表 2 所示, 隨著負(fù)樣本比例逐步增加, NeoDTI, GADTI 和 GMDTI 的 AUC 均沒(méi)有大的波動(dòng), 但三者的 AUPR 都明顯下降, 說(shuō)明負(fù)樣本的數(shù)量會(huì)對(duì)模型的預(yù)測(cè)性能產(chǎn)生影響, 準(zhǔn)確地選擇對(duì) DTIs 預(yù)測(cè)任務(wù)有利的負(fù)樣本數(shù)量非常重要。相比于 NeoDTI 和GMDTI, GMDTI 的 AUPR 仍具有較大的優(yōu)勢(shì)。這是因?yàn)? 融入 HIN 的子結(jié)構(gòu)信息和語(yǔ)義信息有利于模型在不平衡數(shù)據(jù)條件下探尋更全面的網(wǎng)絡(luò)信息, 避免因網(wǎng)絡(luò)節(jié)點(diǎn)的鄰居過(guò)少而學(xué)不到更好的節(jié)點(diǎn)特征表示。這也證明 GMDTI 在稀疏 DTIs 網(wǎng)絡(luò)中具有較好的表現(xiàn)能力。
另外, 實(shí)驗(yàn)結(jié)果顯示 GADTI 的 AUC 和 AUPR優(yōu)于 NeoDTI, 說(shuō)明在不平衡數(shù)據(jù)集中, GADTI 通過(guò)融合節(jié)點(diǎn)的高階鄰居信息, 有助于提高 DTIs 預(yù)測(cè)能力。但是, 由于 GADTI 是通過(guò)重啟隨機(jī)游走的方法獲得節(jié)點(diǎn)的高階鄰居信息, 容易捕獲到與節(jié)點(diǎn)相關(guān)度較弱的“噪聲”節(jié)點(diǎn)信息, 所以使得預(yù)測(cè)效果遠(yuǎn)不如GMDTI。
表2 逐步增加負(fù)樣本比例的模型性能比較(%)
表3 模型魯棒性實(shí)驗(yàn)(%)
說(shuō)明: 基礎(chǔ)實(shí)驗(yàn)的結(jié)果來(lái)源于表1。
數(shù)據(jù)集中可能包含“冗余的”DTI (即同一種靶標(biāo)與一種以上類似的藥物連接)。這種情況下, 藥物靶標(biāo)網(wǎng)絡(luò)中冗余的 DTI 邊可能造成 DTIs 預(yù)測(cè)性能的假性提升。為了證明本文所提模型的魯棒性, 我們進(jìn)行 4 種類型的 10 倍交叉驗(yàn)證實(shí)驗(yàn)。實(shí)驗(yàn) 1: 移除具有相似藥物結(jié)構(gòu)(兩種藥物化學(xué)結(jié)構(gòu)的相似度>60%)或具有相似靶標(biāo)結(jié)構(gòu)(兩種靶標(biāo)序列的相似度>40%)的 DTI; 實(shí)驗(yàn) 2: 移除具有相似藥物相互作用(Jaccard 相似度>60%)的 DTI; 實(shí)驗(yàn) 3: 移除具有相似副作用(Jaccard 相似度>60%)的 DTI; 實(shí)驗(yàn) 4: 移除與類似疾病相關(guān)的藥物或靶標(biāo)(即 Jaccard 相似度>60%)的 DTI。
實(shí)驗(yàn)結(jié)果如表 3 所示, 可以看出在去除“冗余DTI”數(shù)據(jù)后, 所有預(yù)測(cè)方法的性能均有所下降, 但GMDTI 的 AUC 和 AUPR 優(yōu)于 NeoDTI 和 GADTI, 并且 AUPR 遠(yuǎn)高于 NeoDTI 和 GADTI。與去除“冗余 DTI”數(shù)據(jù)前的實(shí)驗(yàn)結(jié)果相比, GMDTI 模型的性能沒(méi)有明顯下降, 說(shuō)明本文提出的模型在去除“冗余 DTI”數(shù)據(jù)的情況下仍然具有較好的預(yù)測(cè)性能, 魯棒性較強(qiáng)。
為了充分利用 HIN 的子結(jié)構(gòu)信息和節(jié)點(diǎn)間的語(yǔ)義信息, 本文設(shè)計(jì)藥物-靶標(biāo)-藥物以及靶標(biāo)-藥物-靶標(biāo)兩條不同的元路徑, 并提出一種新的模型GMDTI 來(lái)聚合 HIN 中節(jié)點(diǎn)的一階鄰居信息和元路徑的語(yǔ)義信息。利用圖神經(jīng)網(wǎng)絡(luò), 更好地學(xué)習(xí)藥物和靶標(biāo)復(fù)雜的隱藏特征, 并通過(guò)端到端的方式, 同時(shí)優(yōu)化特征提取過(guò)程和 DTIs 預(yù)測(cè)任務(wù)。實(shí)驗(yàn)結(jié)果表明, 與幾個(gè)基線模型相比, GMDTI 具有更好的DTIs預(yù)測(cè)性能。
在加入所有負(fù)樣本的實(shí)驗(yàn)中, GMDTI 的 AUC比基線模型至少提高 5.0%, AUPR 至少提高 12.0%, 證明利用元路徑來(lái)捕獲藥物-靶標(biāo) HIN 中隱含的語(yǔ)義信息和子結(jié)構(gòu)信息, 可以在稀疏網(wǎng)絡(luò)中更好地預(yù)測(cè) DTIs。
去除“冗余 DTI”數(shù)據(jù)后, GMDTI 模型的性能沒(méi)有明顯下降, 且結(jié)果遠(yuǎn)好于基線方法, 證明 GMDTI模型具有較強(qiáng)的魯棒性。
本文方法目前僅使用二階長(zhǎng)度的元路徑, 沒(méi)有考慮更遠(yuǎn)距離的元路徑。未來(lái)工作中將考慮利用不同類型、不同長(zhǎng)度的元路徑, 進(jìn)一步提高模型的DTIs 預(yù)測(cè)性能。此外, 藥物和靶標(biāo)具有豐富的文本信息, 探索這些文本信息對(duì) DTIs 預(yù)測(cè)的作用也是未來(lái)的研究工作之一。
[1]Chen R, Liu X, Jin S, et al.Machine learning for drug-target interaction prediction.Molecules, 2018, 23(9): 2208
[2]Huang Y, Zhu L, Tan H, et al.Predicting drug-target on heterogeneous network with co-rank.Cham: Springer International Publishing, 2020
[3]Keiser M J, Roth B L, Armbruster B N, et al.Relating protein pharmacology by ligand chemistry.Nature Biotechnology, 2007, 25(2): 197-206
[4]Pujadas G, Vaque M, Ardevol A, et al.Protein-ligand docking: a review of recent advances and future perspectives.Current Pharmaceutical Analysis, 2008, 4(1): 1-19
[5]Li H, Gao Z, Kang L, et al.TarFisDock: a web server for identifying drug targets with docking approach.Nucleic Acids Research, 2006, 34(suppl 2): W219-W224
[6]Cheng A C, Coleman R G, Smyth K T, et al.Structure-based maximal affinity model predicts small-molecule druggability.Nature Biotechnology, 2007, 25(1): 71-75
[7]Bleakley K, Yamanishi Y.Supervised prediction of drug-target interactions using bipartite local models.Oxford: Oxford University Press, 2009
[8]Zheng X, Ding H, Mamitsuka H, et al.Collaborative matrix factorization with multiple similarities for predicting drug-target interactions // Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Fran-cisco, 2013: 1025-1033
[9]Luo Y, Zhao X, Zhou J, et al.A network integration approach for drug-target interaction prediction and computational drug repositioning from heterogeneous information.Nature Communications, 2017, 8(1): 1-13
[10]Wan F, Hong L, Xiao A, et al.NeoDTI: neural integration of neighbor information from a hetero-geneous network for discovering new drug-target interactions.Bioinformatics, 2019, 35(1): 104-111
[11]Zhou J, Cui G, Hu S, et al.Graph neural networks: a review of methods and applications.AI Open, 2020, 1: 57-81
[12]Liu Z, Chen Q, Lan W, et al.GADTI: graph auto-encoder approach for DTI prediction from hetero-geneous network.Frontiers in Genetics, 2021, 12: 650821
[13]Kip F T N, Welling M.Semi-supervised classifica-tion with graph convolutional networks [EB/OL].(2016?09?09) [2021?03?19].https://arxiv.org/abs/16 09.02907
[14]Sun Y, Han J, Yan X, et al.PathSim: meta path-based Top-K similarity search in heterogeneous information networks.Proceedings of the Vldb Endowment, 2011, 4(11): 992-1003
[15]Wang X, Bo D, Shi C, et al.A survey on hetero-geneous graph embedding: methods, techniques, app-lications and sources [EB/OL].(2020?11?30) [2021? 03?17].https://arxiv.org/abs/2011.14867
[16]Knox C, Law V, Jewison T, et al.DrugBank 3.0: a comprehensive resource for ‘omics’ research on drugs.Nucleic Acids Research, 2010, 39(suppl 1): D1035-D1041
[17]Mei J P, Kwoh C K, Yang P, et al.Drug-target interac-tion prediction by learning from local information and neighbors.Bioinformatics, 2013, 29(2): 238-245
[18]Wang W, Yang S, Zhang X, et al.Drug repositioning by integrating target information through a hetero-geneous network model.Bioinformatics, 2014, 30 (20): 2923-2930
Drug-Target Interactions Prediction Based on Meta-path of Heterogeneous Information Network
LIAO Yiming, OUYANG Chunping?, LIU Yongbin, HU Fuyu
Computer College, University of South China, Hengyang 421001; ?Corresponding author, E-mail: ouyangcp@126.com
The paper proposes a graph neural network model based on meta-path to predict drug target interactions(GMDTI).Firstly, based on drugs, targets, diseases and side effects in eight datasets, and the eight different types of action relationships between them, the authors construct a drug-target heterogeneous information network (HIN).Then, two different meta-paths are defined to capture the different sub-topology information of HIN and the latent semantic information between different nodes.Especially, the graph neural network method is applied to represent the node by aggregating the information of the first-order neighbor nodes and the nodes of the meta-path.Finally, DTIs prediction is completed effectively by end-to-end learning method.This method takes the first-order topology and the semantic information of meta-path of the drug-target HIN into account, which is helpful to learn more potential drug target relationships.The experiment results show that the proposed method achieves 98.6% in AUC and 94.5% in AUPR, which are higher than all baseline models.At the same time, GMDTI has better robustness than all baseline models by sparsity experiments of datas and reduction experiments of noise.
drug-target interaction prediction; graph neural network; heterogeneous information network; meta-path; feature representation
10.13209/j.0479-8023.2021.105
2021?05?08;
2021?08?09
國(guó)家自然科學(xué)基金(61402220)、湖南省自然科學(xué)基金(2020JJ4525)、湖南省教育廳重點(diǎn)科研項(xiàng)目(19A439)和南華大學(xué)研究生科研創(chuàng)新項(xiàng)目(213YXC007)資助