張曉寧,孔祥真,羅傳文,劉金星
1.曲阜師范大學(xué)計(jì)算機(jī)學(xué)院,山東日照276826
2.北京林業(yè)大學(xué)信息學(xué)院,北京100083
癌癥一直是全世界尚未攻克的難題,它對人類健康構(gòu)成嚴(yán)重威脅.隨著科技的發(fā)展,人類已經(jīng)初步揭開了它的神秘面紗,但對于其內(nèi)在機(jī)制和發(fā)病機(jī)理仍知之甚少.因此,對癌癥數(shù)據(jù)進(jìn)行深入研究是十分有必要的.但是癌癥數(shù)據(jù)通常具有高維度小樣本的特性,且可能存在大量的噪聲和異常值[1],這可能會給癌癥數(shù)據(jù)的研究帶來不良影響.
為此,Lee 和Seung[2]于1999年提出非負(fù)矩陣分解(non-negative matrix factorization,NMF)算法.這是一種有效的數(shù)據(jù)降維方法,可以通過把高維數(shù)據(jù)映射到低維空間來獲取高維數(shù)據(jù)的低維表示.該方法因具有非負(fù)性和較好的可解釋性[3],而被廣泛應(yīng)用于圖像處理、文本識別和生物信息學(xué)等領(lǐng)域.隨后,研究人員不斷對NMF 方法進(jìn)行改進(jìn)并提出了許多的變體方法.為了增強(qiáng)算法的稀疏性,Hoyer等[4]在兩個(gè)分解因子上分別施加了L1范數(shù)約束,進(jìn)而提出了稀疏約束NMF(NMF with sparseness constraints,NMFSC)方法.基于普通圖理論,Cai等[5]提出了圖正則NMF(graph-regularized NMF,GNMF)方法,該方法保留了數(shù)據(jù)空間的內(nèi)部幾何結(jié)構(gòu).Wang等[6]在目標(biāo)函數(shù)中施加了L2,1范數(shù)約束來減弱噪聲和異常值的影響,從而提高了算法的魯棒性.為了更好地保留數(shù)據(jù)之間的高階幾何關(guān)系,Zeng等[7]提出了超圖正則化非負(fù)矩陣分解(hypergraph regularized non-negative matrix factorization,HNMF)算法.
隨著高通量測序技術(shù)的發(fā)展,多組學(xué)數(shù)據(jù)的大量涌現(xiàn)為從系統(tǒng)層面研究癌癥的發(fā)病機(jī)制提供了機(jī)遇.單一的NMF 模型不能同時(shí)處理多種類型的數(shù)據(jù),為此,Zhang等[8]提出聯(lián)合NMF(joint NMF,jNMF)模型并將其用于處理多種類型的基因組學(xué)數(shù)據(jù).該方法可以較好地鑒別特征基因,它的提出為從系統(tǒng)層面揭示基因調(diào)控機(jī)制提供了新的思路.隨著整合模型的開發(fā),如何處理不同類型數(shù)據(jù)中的異質(zhì)性成為研究的重點(diǎn).為了增強(qiáng)整合模型的異構(gòu)效應(yīng),Yang等[9]在jNMF 方法的基礎(chǔ)上施加了一個(gè)懲罰項(xiàng),提出了整合NMF(integrative NMF,iNMF)方法.利用該方法來處理多種類型的基因組數(shù)據(jù),可以挖掘癌癥相關(guān)途徑和亞型之間的通用模塊.作為jNMF 的擴(kuò)展方法,iNMF 不僅能夠有效整合多類型數(shù)據(jù)的潛在公共信息,而且能靈活地處理數(shù)據(jù)之間的異構(gòu)性.在后來的研究中,Stra?ar等[10]施加正交約束,提出了整合正交化的NMF(integrative orthogonality-regularized NMF,iONMF)方法,提高了整合模型的分類能力.該方法對多個(gè)數(shù)據(jù)源進(jìn)行整合并實(shí)現(xiàn)了RNA 結(jié)合模式的預(yù)測.可以確定的是,iONMF 是一個(gè)稀疏模塊化的整合模型.考慮到數(shù)據(jù)之間的內(nèi)在幾何結(jié)構(gòu),Gao等[11]提出了整合的超圖正則化NMF(integrated graph-regularized NMF,iGNMF)模型.該模型可以保留原始數(shù)據(jù)中的內(nèi)部幾何結(jié)構(gòu),從而保留數(shù)據(jù)之間的異質(zhì)性[12].此外,利用該模型構(gòu)建基因共表達(dá)網(wǎng)絡(luò)能夠更好地挖掘基因之間的關(guān)聯(lián)和癌癥信息.
盡管上述整合模型取得了較好的應(yīng)用效果,但模型的同質(zhì)效應(yīng)和魯棒性仍有待提高.為此,本文提出了整合魯棒結(jié)構(gòu)化NMF(integrated robust structured NMF,iRSNMF)模型.該模型是一個(gè)整合模型,能夠?qū)崿F(xiàn)多種類型數(shù)據(jù)的集成.利用整合模型處理多種類型的癌癥數(shù)據(jù),一方面可以挖掘不同類型數(shù)據(jù)之間的潛在關(guān)聯(lián),另一方面還可以提取癌癥數(shù)據(jù)的全局特征.這有利于從系統(tǒng)層面探索癌癥的發(fā)病機(jī)制,進(jìn)而為癌癥的治療提供依據(jù).為了提高算法的同質(zhì)效應(yīng),iRSNMF 模型引入了一個(gè)結(jié)構(gòu)化項(xiàng),通過最小化基矩陣之間的差異來更好地保留不同類型數(shù)據(jù)之間的同質(zhì)性.此外,為了提高算法的魯棒性,在該模型中施加了L2,1范數(shù)約束,這可以減小冗余特征的影響.構(gòu)建基因共表達(dá)網(wǎng)絡(luò)是展現(xiàn)基因間相互作用關(guān)系的一種有效手段,能夠在系統(tǒng)層面反映基因間的關(guān)聯(lián),有助于研究人員掌握基因在癌癥中的作用及其生物功能.為了驗(yàn)證該方法的可行性和有效性,本文將其應(yīng)用于癌癥樣本聚類實(shí)驗(yàn)和基因共表達(dá)網(wǎng)絡(luò)分析.
jNMF 是一個(gè)經(jīng)典的整合模型,能夠?qū)崿F(xiàn)不同類型數(shù)據(jù)的集成[8].該方法將不同類型的基因組數(shù)據(jù)映射到一個(gè)公共低維空間中,進(jìn)而獲取同一方向上的多維模塊.位于同一模塊的特征可能具有很強(qiáng)的相關(guān)性或潛在關(guān)聯(lián)[8].在生物信息學(xué)領(lǐng)域中,癌癥數(shù)據(jù)可以用矩陣表示.假設(shè)給定d個(gè)不同類型的數(shù)據(jù),分別用非負(fù)矩陣Xi ∈Rm×n,i=1,2,···,d表示.jNMF 的目標(biāo)是將Xi分解為一個(gè)公共基矩陣U ∈Rm×k和每個(gè)類型獨(dú)有的系數(shù)矩陣Vi ∈Rk×n,使U和Vi的乘積無限近似于原始數(shù)據(jù)Xi.jNMF 的模型如下:
式中,公共基矩陣U可以保留不同類型的數(shù)據(jù)之間的共享信息.jNMF更新規(guī)則如下:
作為NMF 的擴(kuò)展模型,jNMF 在保留NMF 的非負(fù)和易解釋的特性的同時(shí),還可以有效整合多種類型數(shù)據(jù)之間的潛在公共信息[12].利用該模型可以捕獲位于高維基因組數(shù)據(jù)中的模塊化結(jié)構(gòu).而通過挖掘這些模塊可以為揭示癌癥的分子機(jī)制提供思路.
隨著多組學(xué)數(shù)據(jù)的發(fā)展,多視圖聚類研究引起了學(xué)者的廣泛關(guān)注.在多視圖聚類的研究中通常會持有一個(gè)合理的假設(shè),那就是所有的視圖的基礎(chǔ)聚類結(jié)構(gòu)應(yīng)該是相似的[13].因此,Wang等[13]提出了一個(gè)結(jié)構(gòu)化低秩矩陣分解算法.該算法的目標(biāo)函數(shù)如下:
式中,Bi為第i個(gè)視圖Xi的分解低秩數(shù)據(jù)集群表示,Ei為第i個(gè)視圖的噪聲數(shù)據(jù),Li為第i個(gè)視圖的圖拉普拉斯矩陣,λ1、λ2、η均為平衡參數(shù).該算法引入了一個(gè)圖正則化項(xiàng),它可以更好地保留原始數(shù)據(jù)的局部流形結(jié)構(gòu).在原始數(shù)據(jù)的低維表示上施加圖正則化器能夠更好地適應(yīng)多視圖光譜聚類,從而提高聚類性能.此外,為了獲得更加相似的基礎(chǔ)聚類結(jié)構(gòu),Wang等[13]在函數(shù)中引入了一個(gè)結(jié)構(gòu)化項(xiàng),從而在分解過程中最小化不同視圖之間的差異.
iRSNMF 是傳統(tǒng)NMF 的擴(kuò)展模型,因此它保留了NMF 方法的非負(fù)和易解釋的特性.該模型可以集成不同類型的數(shù)據(jù),這有利于保留數(shù)據(jù)之間的潛在公共信息.為了提高整合模型的同質(zhì)效應(yīng),iRSNMF 模型引入了一個(gè)結(jié)構(gòu)化項(xiàng).它可以最小化因式分解中基矩陣的差異以更好地保留不同類型數(shù)據(jù)之間的同質(zhì)性.此外,通過對分解后的公共系數(shù)矩陣施加L2,1范數(shù)約束可以提高算法的魯棒性.該模型的目標(biāo)是將d種類型的數(shù)據(jù)Xi ∈Rm×n,i=1,2,···,d分解為d個(gè)基矩陣Ui ∈Rm×k和一個(gè)公共系數(shù)矩陣V ∈Rk×n,使二者的乘積近似于原始數(shù)據(jù)矩陣.iRSNMF 的目標(biāo)公式如下:
式中,λ≥0 和β≥0 分別為平衡結(jié)構(gòu)化項(xiàng)和V稀疏程度的參數(shù).G為對角矩陣,第j個(gè)對角元素值定義如下:
式中,γ是一個(gè)無限接近于0 但不等于0 的正數(shù).
本節(jié)采用乘法更新規(guī)則來迭代更新目標(biāo)函數(shù).根據(jù)式(5),拉格朗日函數(shù)定義如下:
式中,Φi=[(?i)mk]和表示控制Ui0 和V≥0 的拉格朗日乘子.
然后,對Ui和V分別求偏導(dǎo),可得
根據(jù)Karush-Kuhn-Tucher(KKT)條件(?i)mk(ui)mk=0 和ψknvkn=0,得到如下更新公式:
算法1 中給出了iRSNMF 的完整步驟,該算法會不斷迭代直到算法收斂.
算法1iRSNMF
輸入:Xi ∈Rm×n
輸出:Ui ∈Rm×k,V ∈Rk×n
初始化:Ui≥0,V≥0
設(shè)置迭代次數(shù)r=1
循環(huán)
通過式(10)更新Ui;
通過式(11)更新V;
本項(xiàng)目污水處理廠服務(wù)區(qū)域面積為23.4平方公里,工程規(guī)劃設(shè)計(jì)規(guī)模為10萬m3/d,其中一期已建規(guī)模4.8萬m3/d,尾水排放標(biāo)準(zhǔn)按照 《城鎮(zhèn)污水處理廠污染物排放標(biāo)準(zhǔn)》(GB18918-2002)二級標(biāo)準(zhǔn)執(zhí)行。工程占地面積120.6畝,于2007年開始動工建設(shè),目前該廠正式投入運(yùn)行。
r=r+1;
直至收斂
本節(jié)給出了iRSNMF 算法的收斂性和運(yùn)行時(shí)間分析.本文采用乘法迭代更新規(guī)則優(yōu)化算法.通過乘法迭代更新規(guī)則,目標(biāo)的誤差函數(shù)值將會不斷減小直到誤差值無限趨近于0 或者達(dá)到最大迭代次數(shù)算法才會停止,從而確保算法的收斂性.本節(jié)繪制了5 個(gè)整合方法的收斂曲線,如圖1所示.其中x軸表示迭代次數(shù),y軸表示誤差值.從圖1中可以看出,隨著迭代次數(shù)的增加,這5 種方法的誤差逐漸減小,且均在第100 次迭代時(shí)趨于收斂.其中,jNMF、iGNMF、iRSNMF 這3 種方法的收斂曲線近似,但iNMF 和iONMF 的初始誤差比較大.
圖1 不同方法的收斂曲線Figure 1 Convergence curves of different methods
為公平起見,在分析算法的運(yùn)行時(shí)間時(shí),所有方法都運(yùn)行50 次并計(jì)算其均值,結(jié)果如表1所示.由表1可知,SVD 和PCA 的運(yùn)行時(shí)間特別短,是因?yàn)檫@兩個(gè)方法均無需迭代.iNMF 和iONMF 運(yùn)行所需的時(shí)間較長,是因?yàn)閕NMF 目標(biāo)函數(shù)中包含了一個(gè)異構(gòu)效應(yīng)懲罰項(xiàng),而iONMF 的目標(biāo)函數(shù)中包含了一個(gè)正交約束,所以它們的時(shí)間復(fù)雜度更高.
表1 不同方法的運(yùn)行時(shí)間Table 1 Running time of different methods s
本節(jié)在整合數(shù)據(jù)集上進(jìn)行樣本聚類和構(gòu)建基因共表達(dá)網(wǎng)絡(luò)的實(shí)驗(yàn),并對實(shí)驗(yàn)結(jié)果加以分析.奇異值分解(singular value decomposition,SVD)算法和主成分分析(principal component analysis,PCA)算法作為經(jīng)典的降維算法,被廣泛應(yīng)用于圖像處理和機(jī)器學(xué)習(xí)等領(lǐng)域.SVD 方法可以直接分解原始數(shù)據(jù)矩陣以獲取能夠代表原始數(shù)據(jù)的低維矩陣,進(jìn)而達(dá)到降維的目的.PCA 方法可以通過線性變換來提取原始數(shù)據(jù)的主要特征,從而實(shí)現(xiàn)降維.SVD 和PCA 通過去除原始數(shù)據(jù)中的噪聲和冗余信息來達(dá)到優(yōu)化數(shù)據(jù),提高實(shí)驗(yàn)性能的目的.SVD 和PCA 兩種方法只能用于處理單一類型的數(shù)據(jù),無法同時(shí)處理多種數(shù)據(jù)類型.因此,在聚類實(shí)驗(yàn)部分,我們采用SVD 和PCA 分別在GE、ME、CNV 3 種數(shù)據(jù)類型上進(jìn)行聚類實(shí)驗(yàn)并取其均值作為最終的聚類結(jié)果.聚類結(jié)果如表3~6 所示.
在樣本聚類實(shí)驗(yàn)部分,將iRSNMF 模型與SVD、PCA 及其他整合模型(jNMF、iNMF、iONMF、iGNMF)的聚類性能進(jìn)行對比.具體地,對于SVD,利用其分解后的右奇異值矩陣進(jìn)行聚類;對于其他整合模型,利用其分解后的系數(shù)矩陣進(jìn)行聚類.上述方法均采用K-means 算法進(jìn)行聚類實(shí)驗(yàn).在聚類實(shí)驗(yàn)中,所有方法都執(zhí)行50 次并取均值作為最終聚類結(jié)果.為了進(jìn)一步驗(yàn)證新模型的有效性,在網(wǎng)絡(luò)構(gòu)建部分分別在Cytoscape 軟件上利用5 個(gè)整合模型進(jìn)行構(gòu)網(wǎng)以篩選重要基因并將篩選結(jié)果進(jìn)行比較.最后,利用iRSNMF 模型構(gòu)建基因共表達(dá)網(wǎng)絡(luò),對網(wǎng)絡(luò)中的重要基因和通路進(jìn)行分析并給出它們的相關(guān)生物學(xué)解釋.
本文將胰腺癌(pancreatic adenocarcinoma,PAAD)、食管癌(esophagealcarcinoma,ESCA)、頭頸麟癌(head and neck squamous cell carcinoma,HNSC)和結(jié)直腸癌(colon adenocarcinoma,COAD)4 個(gè)數(shù)據(jù)集中任意3 個(gè)進(jìn)行整合,從而獲得PAAD_ESCA_HNSC(PEH)、PAAD_ESCA_COAD(PEC)、PAAD_HNSC_COAD(PHC)和ESCA_HNSC_COAD(EHC)4 個(gè)數(shù)據(jù)集.每種癌癥的原始數(shù)據(jù)可從TCGA(https://tcgadata.nci.nih.gov/tcga/)下載得到.最終的整合數(shù)據(jù)集均包含3 種數(shù)據(jù)類型,即基因表達(dá)(gene expression,GE)、甲基化(methylation,ME)、拷貝數(shù)變異(copy number variation,CNV).在數(shù)據(jù)預(yù)處理部分,首先對整合數(shù)據(jù)集進(jìn)行降維以摒除冗余信息,然后將處理后的數(shù)據(jù)歸一化.具體的數(shù)據(jù)集信息如表2所示.
本文采用精確度(accuracy,ACC)、調(diào)整蘭德系數(shù)(adjusted rand index,ARI)、歸一化互信息(normalized mutual information,NMI)、召回率(Recall)、準(zhǔn)確率(Precision)、F 值(Fmeasure)[14-15]6 個(gè)常用指標(biāo)來度量上述5 種整合方法的聚類性能.它們的值越大,說明該方法的聚類性能越好.
表2 整合數(shù)據(jù)集的詳細(xì)信息Table 2 Details of the integrated dataset
假設(shè)H={H1,H2,···,HN}和L={L1,L2,···,LN}分別表示真實(shí)的聚類集和預(yù)測得到的聚類集.ACC表示樣本被正確聚類的比例,定義如下:
式中,N為總的樣本個(gè)數(shù),Hi和Li分別表示真實(shí)標(biāo)簽和聚類得到的預(yù)測標(biāo)簽.map(·)是將預(yù)測標(biāo)簽映射到真實(shí)標(biāo)簽的函數(shù).若x=y,則函數(shù)δ(x,y)值為1,否則為0.
ARI 是用于衡量這兩個(gè)數(shù)據(jù)分布的吻合程度的量度.ARI 的定義為
式中,Nij為Hi和Lj中同時(shí)存在的樣本個(gè)數(shù),Ni.和N.j分別表示Hi和Lj中的樣本個(gè)數(shù).
NMI 表示兩個(gè)聚類集合的相似性,互信息(MI)可表示為
式中,p(hi)和p(lj)分別表示某一樣本屬于H和L的概率.p(hi,lj)是樣本同時(shí)屬于H和L的概率.NMI 的定義為
式中,Z(H)和Z(L)分別是H和L的熵.
Recall、Precision、F-Measure 也是常用的聚類評價(jià)指標(biāo),它們的定義如下:
式中,T1表示來自同一聚類集的兩個(gè)樣本被劃分在同一聚類集.F1和F2分別為將兩個(gè)來自不同聚類集的樣本劃分為同一聚類集和不同聚類集.
在聚類實(shí)驗(yàn)中,SVD 和PCA 沒有需要設(shè)置的超參數(shù).實(shí)驗(yàn)中涉及到的整合模型都需要對矩陣分解維度k進(jìn)行選參.由于參數(shù)k的取值應(yīng)遠(yuǎn)小于原始矩陣的維度,并且在實(shí)驗(yàn)過程中當(dāng)k的取值大于100 時(shí)聚類性能相對平穩(wěn),因此將參數(shù)k的選參區(qū)間設(shè)置為[2,100].不同方法對應(yīng)參數(shù)k的不同取值在4 個(gè)數(shù)據(jù)集上的影響如圖3所示.從圖3中可以看出,在4 個(gè)數(shù)據(jù)集上,當(dāng)k的取值分別為40、7、8、5 時(shí),jNMF 的聚類性能最好.當(dāng)k的取值分別為30、4、8、8 時(shí),iNMF 的聚類性能最好.當(dāng)k的取值分別為70、8、6、8 時(shí),iONMF 的聚類性能最好.當(dāng)k的取值分別為70、3、8、5 時(shí),iGNMF 的聚類性能最好.當(dāng)k的取值分別為50、8、7、7 時(shí),iRSNMF 的聚類性能最好.
iRSNMF 模型還需要對λ、β進(jìn)行選參.我們利用網(wǎng)格搜索算法來選擇最優(yōu)參,參數(shù)λ和β的取值區(qū)間分別為λ和β的不同取值在4 個(gè)數(shù)據(jù)集上的影響如圖2所示.從圖2可以看出,合適的取值可以取得好的聚類結(jié)果.當(dāng)參數(shù)λ和β的取值分別為時(shí),iRSNMF 能取得較好的聚類精確度.為公平起見,我們同樣為對比方法選擇了最優(yōu)參進(jìn)行實(shí)驗(yàn).iNMF 方法需要設(shè)置超參數(shù)μ用于平衡數(shù)據(jù)中的同質(zhì)性(或異質(zhì)性)程度,取值為1 000.iONMF 方法需要設(shè)置超參數(shù)α用于控制系數(shù)矩陣中列向量的正交性,取值為0.01.iGNMF 方法需要設(shè)置超參數(shù)δ用于調(diào)整方程的平滑度,取值為0.01.
圖2 參數(shù)λ 和β 的不同取值在4 個(gè)整合數(shù)據(jù)集上的影響Figure 2 Influence of different values of the parameters λ and β on the four integrated datasets
矩陣分解時(shí)的隨機(jī)初始化會使聚類性能不穩(wěn)定.為了盡可能消除這一不利影響,在聚類實(shí)驗(yàn)中,所有方法都執(zhí)行50 次.不同方法在4 個(gè)數(shù)據(jù)集上的聚類性能如表3~6 所示.
圖3 參數(shù)k 的不同取值在4 個(gè)數(shù)據(jù)集上的影響Figure 3 Influence of different values of parameter k on the four datasets
表3 不同方法在PEH 數(shù)據(jù)集上的聚類性能比較Table 3 Comparison of clustering performance of different methods on PEH dataset
表4 不同方法在PEC 數(shù)據(jù)集上的聚類性能比較Table 4 Comparison of clustering performance of different methods on PEC dataset
表5 不同方法在PHC 數(shù)據(jù)集上的聚類性能比較Table 5 Comparison of clustering performance of different methods on PHC dataset
表6 不同方法在EHC 數(shù)據(jù)集上的聚類性能比較Table 6 Comparison of clustering performance of different methods on EHC dataset
根據(jù)表3~6 可以得出以下結(jié)論:
1)總體來看,在ACC、ARI、NMI 上,jNMF 的平均值比PCA_mean 分別提高了2.0%、3.2%、5.2%.這說明利用整合模型來處理不同類型的基因組數(shù)據(jù)是合理的.利用整合模型能夠獲取數(shù)據(jù)之間的異質(zhì)性.iNMF 的平均值比jNMF 分別提高了0.4%、1.2%、0.7%.這說明在iNMF考慮到異構(gòu)效應(yīng)引入異構(gòu)懲罰項(xiàng)是合理的.對于iONMF 方法,施加了正交約束后,模型的聚類性能提高不大,可能是因?yàn)檎患s束更適合高維數(shù)據(jù)的聚類,需要進(jìn)一步的驗(yàn)證.iGNMF 在ACC、ARI、NMI 上的平均值比jNMF 分別提高了1.1%、3.8%、2.6%.這說明圖正則化能夠很好的保留數(shù)據(jù)之間的局部幾何結(jié)構(gòu),引入圖正則化約束能夠很好的提高算法的聚類性能.此外,iRSNMF 在ACC、ARI、NMI 上的平均值比jNMF 分別提高了3.8%、6.2%、4.2%.這表明,iRSNMF 中的結(jié)構(gòu)化項(xiàng)能夠很好地保留不同數(shù)據(jù)類型之間的潛在公共信息,以獲取相似的基矩陣.因此,在模型中引入結(jié)構(gòu)化項(xiàng)是合理的.
2)從結(jié)果來看,SVD 在4 個(gè)數(shù)據(jù)集上的聚類性能最差,而且該方法在這4 個(gè)數(shù)據(jù)集上的聚類效果類似.這說明SVD 在這4 個(gè)數(shù)據(jù)集上分解出來的右奇異值矩陣不好.
3)結(jié)果表明,這5 種整合模型在PEC、PHC、EHC 這3 個(gè)數(shù)據(jù)集上的聚類性能要明顯高于PEH 數(shù)據(jù)集,且在這3 個(gè)數(shù)據(jù)集上的聚類性能差異不大.由于這3 個(gè)整合數(shù)據(jù)集均包含COAD 數(shù)據(jù),因此可以推測COAD 數(shù)據(jù)的樣本具有較好的可分性.
4)觀察表中數(shù)據(jù),可以發(fā)現(xiàn)與其他整合方法相比,iRSNMF 模型的方差較小.這說明該模型聚類性能穩(wěn)定,是因?yàn)樵撃P椭惺┘恿讼∈杓s束可以減小冗余特征的影響,進(jìn)而提高算法的魯棒性.
5)表3~6 表明,在ACC、ARI、NMI 上,iRSNMF 比其他方法至少提高了2.7%、2.4%、1.64%.這是因?yàn)閕RSNMF 模型引入了結(jié)構(gòu)化項(xiàng)和稀疏約束,它不僅提高了算法的魯棒性,還通過最小化所有視圖的基矩陣的差異來保留數(shù)據(jù)之間的同質(zhì)性,進(jìn)而增強(qiáng)了整合模型的同質(zhì)效應(yīng).所以,聚類結(jié)果進(jìn)一步驗(yàn)證了iRSNMF 方法的合理性和有效性.
全基因組數(shù)據(jù)的發(fā)展為生物信息學(xué)的研究提供了更多的機(jī)遇,利用生物網(wǎng)絡(luò)對基因組數(shù)據(jù)進(jìn)行分析以挖掘更多的信息成為研究熱點(diǎn)[16].基因共表達(dá)網(wǎng)絡(luò)是以基因之間的相關(guān)性為基礎(chǔ)構(gòu)建起來的.在網(wǎng)絡(luò)中,節(jié)點(diǎn)代表基因,節(jié)點(diǎn)之間的邊代表對應(yīng)基因之間的相互作用關(guān)系.本節(jié)將皮爾森系數(shù)(Pearson correlation coefficient,PCC)作為衡量節(jié)點(diǎn)之間相關(guān)性的指標(biāo),然后對基因之間的相關(guān)性進(jìn)行排序和曲線擬合,選取曲線擬合的第一個(gè)拐點(diǎn)作為閾值以過濾相關(guān)性較小的基因?qū)?,進(jìn)而獲取最終的網(wǎng)絡(luò).
在基因共表達(dá)網(wǎng)絡(luò)構(gòu)建完成以后,根據(jù)網(wǎng)絡(luò)中各個(gè)基因的屬性對基因進(jìn)行篩選.我們希望篩選出來的這些基因在癌癥的發(fā)生和發(fā)展機(jī)制中起重要作用.為此,設(shè)置了一個(gè)評估指標(biāo)S來綜合評估各個(gè)節(jié)點(diǎn)的重要性.該指標(biāo)定義如下:
式中,B為某一節(jié)點(diǎn)的介數(shù),用于評估該節(jié)點(diǎn)在維持網(wǎng)絡(luò)緊密度中的重要程度.Q為某一節(jié)點(diǎn)的聚類系數(shù),用于評估某些節(jié)點(diǎn)之間連接的密集程度.B和Q的值越大,表明該節(jié)點(diǎn)越重要.C表示某節(jié)點(diǎn)對于網(wǎng)絡(luò)中心的接近程度,它的值越小,則該節(jié)點(diǎn)越重要.
本節(jié)以PEH 數(shù)據(jù)集為例,分別利用5 種整合模型構(gòu)建基因共表達(dá)網(wǎng)絡(luò).根據(jù)構(gòu)網(wǎng)結(jié)果和評估指標(biāo)S分別為每種方法篩選出前10、50、100 個(gè)基因并與GeneCards(http://www.genecards.org/)中PAAD、ESCA、HNSC 的相關(guān)基因比對.表7給出了每種方法選出的基因中同時(shí)與3 個(gè)癌癥的相關(guān)基因庫匹配成功的基因個(gè)數(shù).從結(jié)果來看,我們的方法選出的基因在相關(guān)基因庫中所占的比例更高.為了使結(jié)果更清晰,以韋恩圖的形式給出了每種方法篩選出的前100個(gè)基因在對應(yīng)癌癥的相關(guān)基因中找到的個(gè)數(shù),如圖4所示.
此外,利用iRSNMF 方法構(gòu)建的基因共表達(dá)網(wǎng)絡(luò)如圖5所示,僅保留了節(jié)點(diǎn)個(gè)數(shù)大于20 的3 個(gè)模塊.表8給出了iRSNMF 挑選出的前10 個(gè)基因.為了增強(qiáng)這些基因的生物學(xué)解釋,通過查閱文獻(xiàn)對其進(jìn)行了驗(yàn)證.其中,有9 個(gè)基因在文獻(xiàn)中得到驗(yàn)證.
表7 不同方法選出的基因匹配成功的基因數(shù)目Table 7 Number of genes matched successfully by different methods
圖4 不同方法的前100 個(gè)基因在對應(yīng)癌癥的相關(guān)基因中找到的數(shù)目Figure 4 Number of the first 100 genes found by different methods in the corresponding genes of the corresponding cancer
已有報(bào)道表明,RPL34 的表達(dá)與胰腺癌的腫瘤分期和腫瘤轉(zhuǎn)移正相關(guān),而且它的沉默可有效抑制胰腺癌的發(fā)生、增殖及遷移[17].作為癌基因,RPL34 可以調(diào)節(jié)食道中惡性腫瘤細(xì)胞的增殖和遷移[18].因此,RPL34 是胰腺癌和食道癌的潛在生物標(biāo)志物和治療靶標(biāo)[17-18].此外,已有數(shù)據(jù)表明RPL34 的過表達(dá)對胃癌和非小細(xì)胞肺癌細(xì)胞的惡性增殖起促進(jìn)作用[19].在肝內(nèi)膽管癌中,基因TFDP1 起著致癌作用,其循環(huán)擴(kuò)增可以作為獨(dú)立的的不良預(yù)后指標(biāo),是潛在的治療靶標(biāo).在肝癌中,TFDP1 的過表達(dá)可能通過上調(diào)細(xì)胞周期蛋白E1 的表達(dá)而對腫瘤發(fā)生起促進(jìn)作用[20].TFDP1 是肺癌的候選癌基因[21],TFDP1 的過表達(dá)在肝細(xì)胞癌和乳腺癌的腫瘤增殖的過程中起重要作用.它可以通過誘導(dǎo)腫瘤增殖來促進(jìn)癌癥的發(fā)展[22].已有文獻(xiàn)證明,MMP3 的多態(tài)性與食管鱗狀細(xì)胞癌的易感性密切相關(guān)[23].HspA1A 對腫瘤細(xì)胞的產(chǎn)生和生長起促進(jìn)作用[24].它在肝癌的發(fā)展中能夠促進(jìn)腫瘤細(xì)胞增殖并具有抗凋亡的作用,進(jìn)而促進(jìn)肝癌生長.因此探索HSPA1A 的分子機(jī)制對抗癌治療具有潛在用途[25].據(jù)報(bào)道,IFIT3 是一種原癌基因[26],其過表達(dá)會促進(jìn)胰腺癌細(xì)胞的生長,轉(zhuǎn)移并增強(qiáng)胰腺癌細(xì)胞的耐藥性.此外,IFIT3 與食管癌的發(fā)生密切相關(guān)[27].因此,IFIT3 可能是診斷胰腺癌和食管癌的新型生物標(biāo)志物.相關(guān)研究表明,ADH5 可能在非小細(xì)胞肺癌的發(fā)生過程中起致癌作用,是胰腺癌和非小細(xì)胞肺癌的潛在預(yù)后標(biāo)志物[28-29].COL4A1 在食管癌中高水平表達(dá)并可能與食管癌的預(yù)后有關(guān)[30].此外,COL4A1 是頭頸麟癌潛在的治療靶基因[31].在腎透明細(xì)胞癌中,RPS19 顯著高表達(dá)并與該癌癥的發(fā)生和發(fā)展密切相關(guān)[32].此外,RPS19 編碼的蛋白具有免疫抑制特性,降低其免疫抑制會延緩腫瘤的發(fā)展.基因CDK16 在癌細(xì)胞增殖和抗凋亡中起關(guān)鍵作用[33].在肝癌中,CDK16 是真正的致癌基因,它能夠促進(jìn)腫瘤細(xì)胞增殖并抑制細(xì)胞凋亡.所以,CDK16 是肝癌的重要治療靶標(biāo)和預(yù)后指標(biāo).此外,CDK16 在食管癌不同類型的組織中選擇性表達(dá),而且其高表達(dá)與食管鱗癌的發(fā)生、發(fā)展密切相關(guān).因此,研究這些重要基因?qū)τ谖磥戆┌Y的診斷和治療以及預(yù)后都有著重要意義.
圖5 基因共表達(dá)網(wǎng)絡(luò)Figure 5 Gene co-expression network
表8 前10 個(gè)基因的詳細(xì)信息Table 8 Details of the first ten genes
圖6 功能分組網(wǎng)絡(luò)Figure 6 Functional grouping network
為了進(jìn)一步發(fā)現(xiàn)網(wǎng)絡(luò)中的基因的生物功能,利用Cytoscape 對這些基因進(jìn)行了京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析并構(gòu)建了功能分組網(wǎng)絡(luò).富集程度最高的前5 個(gè)通路的詳細(xì)信息如表9所示.功能分組網(wǎng)絡(luò)可以根據(jù)相關(guān)基因的相似性來展示術(shù)語之間的關(guān)系[34],如圖6所示.其中,紅色標(biāo)簽的節(jié)點(diǎn)代表基因,其他顏色標(biāo)簽對應(yīng)的節(jié)點(diǎn)代表的是通路.基因和通路之間的連線代表二者相關(guān).不難發(fā)現(xiàn),網(wǎng)絡(luò)中有許多基因與多個(gè)通路相關(guān)并起著橋梁的作用.與多個(gè)通路有關(guān)的基因可能在生物體的生長過程中起重要作用,應(yīng)進(jìn)一步進(jìn)行探究.在分組網(wǎng)絡(luò)中,通路節(jié)點(diǎn)的大小代表基因在該通路的富集程度,顏色代表該通路隸屬于哪一個(gè)功能組.具有相同功能的通路,其對應(yīng)的節(jié)點(diǎn)被賦予了相同的顏色[34].其中,彩色標(biāo)簽的通路是其所屬功能組中富集程度最顯著的通路,組內(nèi)其他的通路標(biāo)簽顏色為灰色.
表9 前5 個(gè)通路的詳細(xì)信息Table 9 Details of the first five pathways
已有文獻(xiàn)表明,核糖體(Ribosome)在生物體的遺傳信息處理和翻譯工作中起作用,核糖體生物發(fā)生是增殖細(xì)胞中主要的代謝需求,核糖體生物發(fā)生過程中的改變可能會下調(diào)細(xì)胞的抑癌潛能進(jìn)而導(dǎo)致癌癥的發(fā)生[35].吞噬體(Phagosome)與細(xì)胞的運(yùn)輸和分解代謝密切相關(guān),它的作用過程是細(xì)胞吸收較大顆粒的過程,是抵抗傳染原、炎癥及組織重塑的主要機(jī)制.吞噬體的成熟涉及與其他膜細(xì)胞器的調(diào)控,包括與自體和溶酶體的相互作用[36].吞噬體和溶酶體的融合過程中會釋放出有毒的產(chǎn)物,該產(chǎn)物能夠殺死大多數(shù)細(xì)菌并將其降解為碎片.因而,了解吞噬體的分子機(jī)制對開發(fā)新療法以克服由病原體引起的疾病十分重要.松弛素信號通路(Relaxin signaling pathway)主要作用于內(nèi)分泌系統(tǒng).最初松弛素被鑒定為妊娠的肽激素在人體中發(fā)揮多種作用,包括血管舒張、抗纖維化及血管生成作用.此外,松弛素通過增強(qiáng)腫瘤血管和誘導(dǎo)細(xì)胞增殖的能力來促進(jìn)前列腺癌細(xì)胞的生長,而松弛素信號傳導(dǎo)可有助于促進(jìn)腫瘤生長和轉(zhuǎn)移的特征性機(jī)制,這在癌癥的發(fā)生和發(fā)展中起重要作用[37].
本文提出了一種新穎的整合模型,稱為整合魯棒結(jié)構(gòu)化非負(fù)矩陣分解(iRSNMF)模型.iRSNMF 模型引入了一個(gè)結(jié)構(gòu)化項(xiàng),該項(xiàng)能夠通過提高基矩陣之間的一致性來保留數(shù)據(jù)之間的同質(zhì)性,進(jìn)而提高模型的同質(zhì)效應(yīng).同時(shí),該模型對公共系數(shù)矩陣施加了L2,1范數(shù)約束,這在一定程度上減小了冗余特征的影響,提高了算法的魯棒性.在實(shí)驗(yàn)部分,將iRSNMF 模型用于癌癥樣本聚類和基因共表達(dá)網(wǎng)絡(luò)分析.首先,采用經(jīng)典的降維算法和多個(gè)整合模型作為對比方法進(jìn)行聚類實(shí)驗(yàn).然后,利用這幾個(gè)整合模型分別構(gòu)建基因共表達(dá)網(wǎng)絡(luò)并挖掘關(guān)鍵基因.最后,通過已有的文獻(xiàn)對挖掘到的基因和通路進(jìn)行分析和驗(yàn)證,并給出相關(guān)基因和通路的生物學(xué)解釋.實(shí)驗(yàn)結(jié)果表明,iRSNMF 方法具有更好的聚類性能,并且篩選出了更多的癌癥相關(guān)基因.通過深入研究挖掘到的關(guān)鍵基因和通路能更好地了解它們在癌癥中的作用,可以為以后癌癥診斷和臨床治療提供新的思路.