馬敬山,毛玉杰,張 杉,3
(1.石家莊郵電職業(yè)技術(shù)學(xué)院,石家莊 050022; 2.燕山大學(xué) 理學(xué)院,河北 秦皇島 066004;3.中車(chē)唐山機(jī)車(chē)車(chē)輛有限公司,河北 唐山 063000)
許多研究者陸續(xù)完成了CCLE[1]、GDSC[2]等多項(xiàng)癌癥基因組計(jì)劃。研究表明,在高維基因表達(dá)數(shù)據(jù)和抗癌藥物反應(yīng)數(shù)據(jù)中,識(shí)別具有統(tǒng)計(jì)學(xué)和生物學(xué)意義的基因-藥物共模塊,有助于理解抗癌藥物的分子機(jī)制,篩選潛在的藥物靶點(diǎn)。Kutalik等使用NCI-60數(shù)據(jù)[3]完成了初步實(shí)驗(yàn),獲得了Ping-Pong算法[4]。Chen等提出了多矩陣分解算法(NetNMF)[5],基于基因組數(shù)據(jù)構(gòu)建的相似網(wǎng)絡(luò)矩陣,使用三元非負(fù)矩陣分解,來(lái)尋找公共模塊和模塊之間的關(guān)聯(lián)。Wang等在非負(fù)矩陣分解模型的基礎(chǔ)上,通過(guò)向分解因子添加L1-范數(shù)規(guī)范約束,提出了RNMF算法[6]。Zhang等提出了具有網(wǎng)絡(luò)正則性約束的改進(jìn)的聯(lián)合非負(fù)矩陣分解算法(JNMF)[7-8]。
受上述算法的啟發(fā),提出了一種帶相似約束的稀疏聯(lián)合非負(fù)矩陣分解算法(SSJNMF),并將其應(yīng)用于基因藥物共模塊識(shí)別的GDSC數(shù)據(jù)集。
下載同一細(xì)胞系對(duì)應(yīng)的最新基因表達(dá)數(shù)據(jù)和藥物反應(yīng)數(shù)據(jù),發(fā)現(xiàn)藥物反應(yīng)數(shù)據(jù)缺失值,數(shù)據(jù)預(yù)處理如下:
刪除缺失值大于30%的列,其余203列對(duì)應(yīng)203種藥物,用mice包進(jìn)行基因填充[9],以獲得完整的藥物反應(yīng)矩陣。
記基因表達(dá)矩陣為G1∈R915×17 737,記藥物響應(yīng)矩陣為G2∈R915×203,利用皮爾遜相關(guān)系數(shù)作為工具,獲得基因相似性矩陣X11、藥物相似性矩陣X22、基因與藥物相似性矩陣X12。取矩陣X11、X22和X12的絕對(duì)值,同時(shí)將輸入數(shù)據(jù)完成[0,1]均值處理[10],以保證輸入數(shù)據(jù)(G1,G2)和相似性數(shù)據(jù)處于相同的數(shù)量級(jí)。
基于文獻(xiàn)[7]中識(shí)別多維模塊的思想,將基因相似性數(shù)據(jù)、藥物相似性數(shù)據(jù)和基因藥物相似性數(shù)據(jù)添加到聯(lián)合非負(fù)矩陣分解算法中,完成“帶相似約束的稀疏聯(lián)合非負(fù)矩陣分解算法”的構(gòu)造,簡(jiǎn)稱(chēng)SSJNMF,根據(jù)降維后的數(shù)據(jù)確定模塊數(shù),計(jì)算后限制分解因子,最后篩選模塊數(shù)據(jù),目標(biāo)函數(shù)如下:
Lee和Seung提出的乘法器更新迭代算法[11]優(yōu)化SSJNMF模型,以保證變量B和C的凸性,并獲得全局最優(yōu)解:
擴(kuò)展SSJNMF模型如下:
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
SSJNMF算法的求解過(guò)程:
第一步:用B、C1和C2為初始值,代入模型第一部分,得到SSJNMF的初始迭代矩陣。
第二步:按照(6)、(7)和(8)交替更新矩陣B,C1和C2。
第三步:重復(fù)第二步,終止條件為誤差小于10-6或次數(shù)到達(dá)500次。
識(shí)別的第一步是分析統(tǒng)計(jì)顯著性,通過(guò)比較常用模塊中基因與藥物信息的相關(guān)性,分析算法識(shí)別結(jié)果的統(tǒng)計(jì)顯著性,具體步驟如下:
一是以共模塊為單位,從G1和G2中篩選出子矩陣sG1和sG2,按列求皮爾遜相關(guān)系數(shù):
系數(shù)之和表示為:
二是將基因表達(dá)數(shù)據(jù)和藥物應(yīng)答數(shù)據(jù)按列重新排列,選岀1 000個(gè)維度相同的隨機(jī)共模塊,Srand用于表示每個(gè)隨機(jī)共模塊各列相關(guān)系數(shù)之和。
三是在1 000個(gè)Srand所形成的分布下,估計(jì)岀Sreal所對(duì)應(yīng)的概率分布統(tǒng)計(jì)值P1 (大于Sreal的比例)。若P1<0.05,可以認(rèn)為它不服從1 000個(gè)分布的置信區(qū)間之外的隨機(jī)分布,即結(jié)果是可行的和可解釋的,相反共模塊服從隨機(jī)分布。此外,非參數(shù)秩和檢驗(yàn)的實(shí)驗(yàn)結(jié)果也被用來(lái)推斷服從的分布,將其置于分布之下并計(jì)算出相應(yīng)的概率分布統(tǒng)計(jì)值P2,如果P2<0.05/k,實(shí)驗(yàn)結(jié)果具有統(tǒng)計(jì)學(xué)意義。
辨識(shí)的第二步是確定參數(shù),并通過(guò)控制變量法調(diào)整參數(shù)來(lái)選擇最優(yōu)參數(shù)。表1為不同參數(shù)組合下的統(tǒng)計(jì)結(jié)果,其中,Num1為非空且不服從隨機(jī)分布的共模塊個(gè)數(shù),Num2為藥物模塊為空的共模塊個(gè)數(shù),Num3為非空且通過(guò)非秩和檢驗(yàn)的共模塊個(gè)數(shù)。結(jié)果表明,當(dāng)λ1=0.1、λ2=150、λ3=0.5時(shí),識(shí)別出的具有統(tǒng)計(jì)意義的共模塊最多。
表1 不同參數(shù)組合下的統(tǒng)計(jì)結(jié)果Tab.1 Statistical results under the combination of different parameters
表2為當(dāng)λ1=0.1、λ2=150、λ3=0.5時(shí),調(diào)整γ1、γ2、k的部分統(tǒng)計(jì)結(jié)果,其中Num4為富集分析后有生物意義的基因模塊個(gè)數(shù),通過(guò)綜合分析P1[P1=Num1/(70-Num2)],P2[P2 =Num3/(70-Num2)]以及具有生物意義的共模塊所占的比例P3[P3=Num4/(70-Num2)]及綜合表1,可以得岀以下結(jié)論:當(dāng)參數(shù)λ1=0.1、λ2=150、λ3=0.5、γ1=0.5、γ2=0.5、k=70時(shí),SSJNMF算法識(shí)別岀的70個(gè)基因-藥物共模塊為最優(yōu)結(jié)果(模塊個(gè)數(shù)由閾值T決定,當(dāng)T=3.7時(shí),識(shí)別的70個(gè)共模塊指標(biāo)最優(yōu)[12])。
表2 固定λ1、λ2、λ3調(diào)整γ1、γ2、k的統(tǒng)計(jì)結(jié)果Tab.2 Statistical results of adjustment of γ1、γ2、k under fixed λ1、λ2、λ3
借鑒Mao等人[13]提岀的生物功能分析方法,分析SSJNMF算法識(shí)別岀的68個(gè)有意義的共模塊,結(jié)果表明,有60個(gè)模塊的藥物個(gè)數(shù)大于1。表3列舉了第18和第46個(gè)共模塊的生物功能分析結(jié)果。表中,ID:共模塊序號(hào);G:對(duì)應(yīng)模塊中的基因;D:藥物個(gè)數(shù)。
表3 部分基因藥物共模塊的生物功能分析結(jié)果Tab.3 Results of biological function analysis of some gene-drug common models
生物功能相關(guān)分析結(jié)果表明,每個(gè)基因模塊的GO生物功能項(xiàng)所富集的生化過(guò)程與相應(yīng)藥物模塊中藥物靶向的信息之間存在著很強(qiáng)的相關(guān)性。
為了更好地說(shuō)明SSJNMF的識(shí)別性能,在同一數(shù)據(jù)集上執(zhí)行了NetNMF[6]和 JNMF[8],識(shí)別岀各自的70個(gè)基因-藥物共模塊。結(jié)果如表4??梢钥磳?,SSJNMF得到的P1和P2均比NetNMF和JNMF高,說(shuō)明SSJNMF識(shí)別的共模塊有更強(qiáng)的統(tǒng)計(jì)意義。
表4 三種算法識(shí)別的共模塊的統(tǒng)計(jì)意義對(duì)比分析Tab.4 Comparative analysis of statistical significance of common modules of three algorithm identification
SSJNMF算法是有效的基因-藥物共模塊的識(shí)別工具,識(shí)別結(jié)果具有很強(qiáng)的統(tǒng)計(jì)意義和生物意義?;蚰K的GO生物功能項(xiàng)所富集的生化過(guò)程與對(duì)應(yīng)的藥物模塊中藥物所靶向的信息之間具有強(qiáng)關(guān)聯(lián)性。SSJNMF篩選岀的部分結(jié)果可能存在信息相似情況,后期可以進(jìn)行合并處理,以進(jìn)一步提高共模塊識(shí)別的有效性。