任重魯,李金明
(南方醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院生物信息學(xué)系,廣東 廣州 510515)
微陣列技術(shù)源于斯坦福大學(xué)的cDNA芯片和Affymetrix公司的寡核苷酸探針技術(shù),經(jīng)過十多年的發(fā)展,現(xiàn)在已經(jīng)成為生命科學(xué)研究中不可或缺的重要手段[1],其高通量的特性成為研究人類疾病的有力工具。微陣列技術(shù)大致可以分為基因芯片、microRNA芯片、甲基化芯片以及蛋白結(jié)合芯片等,這些芯片產(chǎn)生了海量的待處理和分析數(shù)據(jù)。如何對微陣列數(shù)據(jù)進(jìn)行準(zhǔn)確而合理的分析,已成為有效應(yīng)用微陣列技術(shù)的瓶頸問題,并已成為當(dāng)前生物信息學(xué)的重要研究內(nèi)容和研究方向[2]。
在人類疾病中,癌癥(惡性腫瘤)因?yàn)檩^高的發(fā)病率和死亡率繼續(xù)成為全球的負(fù)擔(dān)[3]。癌癥具有高度異質(zhì)性,形態(tài)學(xué)相似、臨床表現(xiàn)相似的癌癥很可能需要不同的治療方案[4],相同病理分期的癌癥卻有著不同的預(yù)后表現(xiàn)[5~6],這些都給癌癥的臨床治療和術(shù)后輔助化療帶來不確定性。從分子生物學(xué)的角度去揭示癌癥異質(zhì)性,劃分不同癌癥亞型,用以輔助臨床診斷、治療癌癥具有重要意義。在以往的研究中,科學(xué)家利用DNA微陣列或基因芯片技術(shù)及其后續(xù)數(shù)據(jù)分析,系統(tǒng)地揭示了卵巢癌[7]、前列腺癌[8]、乳腺癌[9]、膠質(zhì)細(xì)胞瘤[10~11]等的不同亞型、預(yù)后相關(guān)的基因標(biāo)簽、復(fù)發(fā)相關(guān)的基因標(biāo)簽,癌癥的發(fā)生發(fā)展以及轉(zhuǎn)移相關(guān)[12~13]的基因和通路。主要使用的數(shù)據(jù)挖掘方法是對基因表達(dá)譜進(jìn)行聚類發(fā)現(xiàn)和類別預(yù)測分析。通過基因篩選或特征提取獲得信息基因,用之建立分類器,然后再考查信息基因的功能來對癌癥亞型進(jìn)行生物學(xué)的定義。
在數(shù)學(xué)上,微陣列數(shù)據(jù)一般為N×M的矩陣,N表示基因或者探針數(shù)量,M表示樣本數(shù)量,往往M?N,也就是具有典型的小樣本、高維度的特點(diǎn)[14]。矩陣分解[15]可以表示成:
D=M+ε=AP+ε
(1)
其中,D表示原有微陣列數(shù)據(jù),M表示通過因式分解重建的數(shù)據(jù)矩陣,A提供了在各模式(Metagenes)中基因的分布,P則表示不同模式的度量,也就是不同模式的表達(dá)譜(Metagene Expression Profiles),是原有數(shù)據(jù)同重建數(shù)據(jù)之間的誤差。廣義上講,應(yīng)用在微陣列數(shù)據(jù)分析中的主成分分析PCA(Principal Component Analysis)、奇異值分解SVD(Singular Value Decomposition)、獨(dú)立分量分析ICA(Independent Component Analysis)、網(wǎng)絡(luò)分量分析NCA(Network Component Analysis)、非負(fù)矩陣分解NMF(Non-negative Matrix Factorization)、貝葉斯分解BD(Bayesian Decomposition)等方法都屬于矩陣分解的范疇。
本文對NMF算法做深入闡述,系統(tǒng)地回顧其在微陣列數(shù)據(jù)分類分析和聚類發(fā)現(xiàn)中的應(yīng)用,NMF在算法上做出的改變和擴(kuò)展,秩的確定方法,以及現(xiàn)有的主要分析軟件。總結(jié)了各種NMF方法在經(jīng)典數(shù)據(jù)集中的應(yīng)用結(jié)果。最后對NMF算法的應(yīng)用和結(jié)果做了相應(yīng)的討論。
1999年,Lee D D和Seung H S[16]首先將NMF方法應(yīng)用在了圖像的特征識別上。并于2001年給出了NMF的算法實(shí)現(xiàn)[17],通過多重迭代的策略使得公式(1)逐步逼近原始數(shù)據(jù),從而建立了NMF的應(yīng)用基礎(chǔ)。其實(shí)早于Lee D D和Seung H S的工作,Paatero和Tapper就把正矩陣分解PMF(Positive Matrix Factorization)的方法應(yīng)用在了對環(huán)境科學(xué)和天體物理的數(shù)據(jù)降維處理上了[18]。Kim P M和Tidor B[19]第一次將NMF方法用于大尺度基因表達(dá)數(shù)據(jù)的分析,把擁有6 316個基因300個樣本的數(shù)據(jù)用50個NMF維度表示出來,同時試圖注釋每一個NMF維度中的基因簇并預(yù)測不同維度之間的功能聯(lián)系。之后Brunet J P[20]明確定義了原始數(shù)據(jù)分解后形成的兩個矩陣的生物學(xué)含義,以及秩的確定方法。將公式(1)中的字母替換成NMF習(xí)慣的表示方法,D、A、P分別替換成X、W、H,得到:
X=WH+ε
(2)
其中,X是N×M的原始微陣列數(shù)據(jù)矩陣,有N個基因、M個樣本;W和H分別是N×k和k×M的非負(fù)矩陣;W中的每一列定義成一個元基因(Metagene),wij表示組成第j個元基因的原始基因i的系數(shù);H中的每一列表示各元基因在每一個樣本中的表達(dá)值,而hij表示了第i個元基因在第j個樣本中的表達(dá)水平,也就是說矩陣H存儲了每一個元基因的表達(dá)譜,有幾個元基因那么樣本就被分成了幾類;k就是元基因的數(shù)量,同時也是樣本分類確定的數(shù)目。那么,把微陣列數(shù)據(jù)進(jìn)行非負(fù)矩陣分解之后,確定了合適的k值也就確定了樣本分類數(shù)目,從而達(dá)到了給樣本分類的目的。
相比于傳統(tǒng)的矩陣分解方法,NMF方法有以下幾個優(yōu)點(diǎn):
(1)矩陣元素非負(fù),可直觀地解釋每個組成成分,比如上面提到的元基因解釋方法。
(2)NMF通常會得到稀疏矩陣的結(jié)果,它把原始數(shù)據(jù)盡可能地壓縮,可以很好地通過數(shù)量不多的標(biāo)簽基因?qū)颖具M(jìn)行分類。
(3)NMF結(jié)果中的每個分量之間都不是正交的,這同SVD、PCA等方法不同,分量之間有重疊的基因或許是屬于多個代謝通路或生物學(xué)過程[21];另外Kim M H和Seo H J[22]等人通過在五個基因表達(dá)數(shù)據(jù)集上比較六種矩陣分解方法(其中兩種正交分解方法,四種非正交分解方法)和K-均值算法發(fā)現(xiàn),非正交的矩陣分解方法在微陣列數(shù)據(jù)聚類中明顯優(yōu)于正交的矩陣分解方法。
2.2.1 標(biāo)準(zhǔn)算法
Lee D D和Seung H S給出了NMF的標(biāo)準(zhǔn)算法:
步驟1選定秩k。
步驟2隨機(jī)正整數(shù)初始化公式(2)中的W和H,維數(shù)分別是N×k和k×M。
步驟3迭代直到滿足終止條件為止:
(3)
(4)
③標(biāo)準(zhǔn)化W的每一列。
終止條件是使得目標(biāo)函數(shù):
‖X-WH‖2=∑ij(Xij-(WH)ij)2
(5)
或者
D(X‖WH)=
(6)
達(dá)到最小化。Brunet J P對Lee D D和Seung H S的標(biāo)準(zhǔn)算法做了生物學(xué)方面的解釋,并定義了元基因(Metagene)和元基因表達(dá)譜等術(shù)語,從而使得NMF方法能夠真正地應(yīng)用到對癌癥基因組微陣列數(shù)據(jù)進(jìn)行分類分析和類別預(yù)測中去?;诓蹲絹嗩惖男枰?,應(yīng)用在微陣列數(shù)據(jù)分類和聚類發(fā)現(xiàn)分析中的NMF,都應(yīng)該使用公式(6)作為目標(biāo)函數(shù),因?yàn)樗拖鄳?yīng)的迭代公式(3)和(4)能更好地發(fā)現(xiàn)數(shù)據(jù)中的最基本結(jié)構(gòu)[20]。
2.2.2 改進(jìn)的算法
眾所周知,由非負(fù)約束的經(jīng)典算法得到的結(jié)果(H和W)本身就有稀疏性和局部代表性。然而,在分類分析中,為了得到更清晰的類邊界[18]和獲得幾乎沒有重復(fù)基因的元基因[23],在加強(qiáng)NMF計(jì)算結(jié)果的稀疏性方面人們做了大量工作[24~26]。他們有的對H矩陣進(jìn)行稀疏化,有的對W矩陣進(jìn)行稀疏化,還有的對H和W矩陣同時進(jìn)行稀疏化。
(1)稀疏非負(fù)矩陣分解SNMF(Sparse Non-negative Matrix Factorization)。
增強(qiáng)NMF結(jié)果稀疏性的研究最早的工作是Hoyer于2002年提出的,他利用線性稀疏編碼(Linear Sparse Coding)方法重建目標(biāo)函數(shù)公式(5):
(7)
Liu等人[27]在借鑒了目標(biāo)函數(shù)公式(7)之后,又進(jìn)一步將目標(biāo)函數(shù)公式(6)加入稀疏約束,改寫成:
Xij+(WH)ij)+a∑i,jHij
其中,通過α來調(diào)節(jié)H中元素的稀疏性,從而把公式(3)改寫成:
并且建議使用“稀疏非負(fù)矩陣分解(SNMF)”這一術(shù)語來對加入稀疏約束的NMF算法命名。Gao等[23]利用加強(qiáng)矩陣稀疏性的方法首先將SNMF算法應(yīng)用在癌癥數(shù)據(jù)的分類分析中。在三個經(jīng)典的癌癥樣本集上證明了加入稀疏約束的NMF算法在錯分率上要優(yōu)于標(biāo)準(zhǔn)的NMF方法[20]。
(2)非平滑非負(fù)矩陣分解nsNMF(non-smooth Non-negative Matrix Factorization)。
Pascual-Montano等人[26]采用了不同的方法去加強(qiáng)NMF結(jié)果的稀疏性,他引進(jìn)了一個平滑因子,這個平滑因子可以同時改變W和H的稀疏性,將公式(2)改寫成:
X=WSH+ε
其中,
其中,S是一個k×k維的矩陣;I是單位矩陣,1是元素為1的維向量;0≤θ≤1,是控制平滑程度的參數(shù),當(dāng)θ=0時,模型就變成了標(biāo)準(zhǔn)NMF。整體算法流程同標(biāo)準(zhǔn)NMF相同,只需要在公式(3)中把W用WS替換;在公式(4)中把H用SH替換;在目標(biāo)函數(shù)公式(6)中把WH用WSH替換。Carmona-Saez P等人[28~30]利用nsNMF來分析微陣列數(shù)據(jù),并且開發(fā)了專門對微陣列數(shù)據(jù)進(jìn)行聚類分析和分類分析的軟件bioNMF。
(3)其它的改進(jìn)算法及應(yīng)用。
眾所周知,核磁共振成像MRSI(Magnetic Resonance Spectroscopic Imaging)的數(shù)據(jù)無論從可解釋性,還是識別特定組織的不確定性都給腦腫瘤的病理確診帶來了挑戰(zhàn)。Li等人[31]利用改進(jìn)的hNMF(hierarchical Non-negative Matrix Factorization)方法來分析人類腦瘤的MRSI數(shù)據(jù),該方法能夠精確地識別出三種腦腫瘤區(qū)的組織類型(正常、腫瘤和壞死)。Ortega-Martorell S等人[32]也利用改進(jìn)的Convex-NMF(Convex Non-negative Matrix Factorization)方法對腦腫瘤的MRSI數(shù)據(jù)進(jìn)行劃分,該方法對大多數(shù)的研究樣本具有高度的敏感性和特異性,能夠利用有效的閾值安全地區(qū)分腫瘤和非腫瘤區(qū)域。
另外,Lee等人[33]在研究PPARs基因的毒理作用時使用Simultaneous NMF(Simultaneous Non-negative Matrix Factorization)方法對多重、多維基因芯片表達(dá)數(shù)據(jù)進(jìn)行分解。該方法在四個數(shù)據(jù)集上同時進(jìn)行矩陣分解,發(fā)現(xiàn)了新的關(guān)于PPARs基因的代謝過程和藥理作用,該結(jié)果提示可以在藥物發(fā)現(xiàn)過程中進(jìn)行早期的毒性探測。
NMF這種局部最優(yōu)的迭代算法,對初始化的W和H選擇很敏感。隨機(jī)初始化的和矩陣有時得不到全局最優(yōu)的結(jié)果[34],就使得分類結(jié)果很難找到生物學(xué)含義。一般的做法是多次運(yùn)行隨機(jī)初始化的數(shù)據(jù),然后保留擁有最小目標(biāo)函數(shù)值的那一組分解結(jié)果。另外,也有人嘗試用獨(dú)立分量分析獲得的矩陣中的非負(fù)元素來作為W和H的初始化。而目前應(yīng)用在微陣列數(shù)據(jù)處理方面的NMF初始化一般還沿用Lee D D和Seung H S的標(biāo)準(zhǔn)算法,這就給另一種方法的引入帶來了契機(jī),這一方法同時解決了選定秩k的問題。
2003年Monti S等人[35]利用重采樣方法來評估非監(jiān)督聚類結(jié)果的一致聚類CC(Consensus Clustering)概念被Brunet J P用在了解決NMF因隨機(jī)初始化而導(dǎo)致不穩(wěn)定的結(jié)果上,并且定義了同型相關(guān)系數(shù)CCC(Cophenetic Correlation Coefficient)來定量地衡量聚類結(jié)果穩(wěn)定性。給定一個M×M的連通矩陣C,如果樣本i和j屬于同一類,元素cij=1,否則cij=0。NMF算法多次隨機(jī)初始化運(yùn)行,就會得到連通矩陣集合{C1,C2,…,Cp},p是NMF算法運(yùn)行次數(shù),那么一致矩陣中的元素為:
相應(yīng)地,同型相關(guān)系數(shù)被定義成兩個距離矩陣元素之間的皮爾森相關(guān)系數(shù):
(8)
雖然Brunet J P的方法被廣泛接受,還是有一些人對如何確定秩有著其它的做法。Kim P M和Tidor B[19]利用原始數(shù)據(jù)X和分解得到的WH之間的均方根誤差來確定取值范圍。Hutchins L N[36]特別提出在以k為橫軸、殘差平方和RSS(Residual Sum of Squares)為縱軸的圖像里,當(dāng)殘差平方和出現(xiàn)波動的位置就是合適的k位置。Kim M H和Seo H J[22]利用間隙統(tǒng)計(jì)量[37]GS(Gap Statistic)來確定最優(yōu)的分類數(shù)目,間隙統(tǒng)計(jì)量最小的時候,秩k最優(yōu)。
Table 1 Equations for outcome assessment表1 對分類結(jié)果質(zhì)量評估的幾個公式
聚類有效性的評價(jià)是找到合適的度量方法來判斷某一聚類劃分的可接受性,也就是聚類結(jié)果要使得類內(nèi)樣本具有高度的相似性或盡可能地接近;而使得類間的樣本具有最遠(yuǎn)的距離或盡可能地分散。以Dunn指數(shù)為例,它綜合考慮了類內(nèi)緊湊性和類間距離,是一個復(fù)合指數(shù),分母表示類內(nèi)最大距離,分子表示類間最小距離,那么Dunn指數(shù)越大說明聚類有效性越高。
聚類穩(wěn)定性的評價(jià)是用來驗(yàn)證聚類算法得到結(jié)果的真實(shí)性,也就是結(jié)果在多大程度上不是因?yàn)榕既恍栽斐傻?。它假設(shè)當(dāng)多重樣本是來自同一總體分布的抽樣結(jié)果時,聚類算法將在樣本上得到同總體相似的結(jié)構(gòu)。以同型相關(guān)系數(shù)為例,0≤ρκ≤1,ρκ越大分類越穩(wěn)定。
自從將NMF方法用于微陣列數(shù)據(jù)的分類分析和聚類發(fā)現(xiàn)之后,先后出現(xiàn)了很多個可以實(shí)現(xiàn)分析功能的軟件。Brunet J P最早開發(fā)了基于Matlab的代碼來分析微陣列數(shù)據(jù),之后又有人寫出了C++的版本[41],可在Linux操作系統(tǒng)下運(yùn)行,但是沒有被廣泛使用。值得一提的是,Carmona-Saez P等人[29~30]開發(fā)了免費(fèi)的圖形界面bioNMF軟件和基于Web網(wǎng)頁的分析工具,該軟件有三個模塊組成,包括標(biāo)準(zhǔn)NMF算法、雙向聚類分析、樣本分類分析,其中雙向聚類分析采用的是nsNMF算法。該軟件操作簡單,參數(shù)明確,同時結(jié)果以重排序的一致聚類圖片顯示,具有很強(qiáng)的直觀性。此外,其它的免費(fèi)軟件還有Yamayo開發(fā)的基于GenePattern[42]的NMF分析模塊,該模塊有基因篩選功能和分類分析功能。Qi Q等人[43]對BRB-ArrayTools軟件也添加了NMF分析模塊。BRB-ArrayTools是被廣泛使用的針對微陣列數(shù)據(jù)分析的集成軟件包,它以Excel加載宏的形式呈現(xiàn),對于不善編程的生物學(xué)家來說,用戶界面友好熟悉。
另外,作者推薦Gaujoux R等人[44]編寫的在R/Bioconductor平臺[45]上使用的免費(fèi)NMF軟件包。該軟件包中包含了六種NMF算法,三種初始化方法,還有三種終止條件;并且該軟件包有很好的兼容性,允許使用者按照自己的需要去添加新的算法、初始化方法和終止條件,從而得到令人滿意的結(jié)果。表2中列出了在微陣列數(shù)據(jù)分析中利用NMF算法的軟件。
在以往的研究中,使用最多的數(shù)據(jù)集是急性白血病數(shù)據(jù)集[46]、中樞神經(jīng)系統(tǒng)腫瘤數(shù)據(jù)集和髓母細(xì)胞瘤數(shù)據(jù)集[47],三個數(shù)據(jù)集的信息在表3中給出。
Table 2 Existing implementations of the NMF algorithm for microarray analysis表2 用于微陣列數(shù)據(jù)分類分析主要的NMF算法實(shí)現(xiàn)
Table 3 Information about the three datasets表3 常用的三個數(shù)據(jù)集相關(guān)信息
對改進(jìn)的NMF算法的評估大都通過應(yīng)用如表3所示的數(shù)據(jù)集進(jìn)行。本文使用急性白血病數(shù)據(jù)集來說明NMF方法(核心算法為:NMF、nsNMF)相對于其它傳統(tǒng)方法(系統(tǒng)聚類、K-均值聚類)把樣本歸類正確率的優(yōu)勢。急性白血病數(shù)據(jù)集中包含三個疾病亞型,分別是AML(11例)、ALL-B-cell(19例)和ALL-T-cell(8例);共有5 000個基因的表達(dá)值在38個樣本中變異最大。在R平臺下使用非負(fù)矩陣分解的NMF軟件包和一致聚類的ConsensusClusterPlus軟件包來比較聚類結(jié)果。
Figure 1 Results of the five clustering approaches in acute leukemia dataset圖1 在急性白血病數(shù)據(jù)上使用5種聚類分析方法的結(jié)果
從圖1的五個分圖中可以看到,圖1a和圖1b將38個樣本明顯分成三個樣本簇,這三個樣本簇完美地對應(yīng)了急性白血病的三個亞型;而圖1c中傳統(tǒng)的系統(tǒng)聚類結(jié)果,無論使用何種類間度量方法都無法得到有意義的劃分,說明系統(tǒng)聚類方法的結(jié)果無法在生物學(xué)含義上進(jìn)行解釋,更傾向于強(qiáng)行地把數(shù)據(jù)劃分出層次結(jié)構(gòu);圖1d和圖1e則在系統(tǒng)聚類方法和K-均值聚類方法上使用了重采樣方法,來提高分類正確率,但是圖中反映出的聚類結(jié)果并不理想。表4給出了急性白血病樣本集在四種方法下的分類正確率(由于系統(tǒng)聚類不能反映正確劃分故不考慮其樣本簇的正確率)。
Table 4 Performance comparisons of the four approaches表4 四種方法的分類表現(xiàn)
本文結(jié)果同其它研究相似,增強(qiáng)稀疏性的NMF算法和改變正交性的NMF算法[48]都要比最初由Lee D D和Seung H S提出的NMF算法在分類分析中的表現(xiàn)好。把NMF算法、經(jīng)過改進(jìn)的NMF算法(比如SNMF、nsNMF)同傳統(tǒng)的矩陣分解方法(PCA、SVD等)或者層次聚類(Hierarchical Clustering)、K-均值聚類、自組織映射(SOM)等非監(jiān)督聚類方法相比較[20~22],發(fā)現(xiàn)在對微陣列數(shù)據(jù)分類分析和聚類發(fā)現(xiàn)中,NMF及其經(jīng)過改進(jìn)的算法在分類正確率上都要好于傳統(tǒng)的方法,并且NMF方法更容易發(fā)現(xiàn)數(shù)據(jù)本身具有的基本結(jié)構(gòu),而不是被諸如層次聚類這樣的方法強(qiáng)行地把數(shù)據(jù)分出層次結(jié)構(gòu)。另外,在聚類發(fā)現(xiàn)中NMF更多地被用來得到秩的值,也就是確定樣本被分為幾類和每個樣本的類標(biāo)簽,之后再用其它的基因選擇方法(PAM[49]、CLaNC[50])對有類標(biāo)簽的樣本進(jìn)行基因選擇操作,從而得到重要的標(biāo)簽基因,并考查標(biāo)簽基因的生物學(xué)含義。
微陣列數(shù)據(jù)分類分析的目的一般來說是識別出具有生物學(xué)意義的標(biāo)簽基因,這些具有標(biāo)簽作用的基因能夠?qū)膊〉陌l(fā)生、發(fā)展有指示作用,進(jìn)一步的探討使得基于特定分子表達(dá)譜的個體治療成為可能。有監(jiān)督的聚類分析和非監(jiān)督的分類分析是經(jīng)常使用的方法。
非負(fù)矩陣分解及其擴(kuò)展算法能夠應(yīng)用在微陣列數(shù)據(jù)分析中,使得微陣列數(shù)據(jù)分析又多了一種有力的方法。盡管非負(fù)矩陣分解有著收斂速度慢、局部最優(yōu)、結(jié)果依賴初始化、算法復(fù)雜、對于數(shù)據(jù)量大的數(shù)據(jù)較耗費(fèi)時間等局限性,但是它的非負(fù)約束、稀疏性約束使得計(jì)算結(jié)果更易于用生物學(xué)知識來解釋。一般來說,它要比傳統(tǒng)的聚類或分類方法更有效,因?yàn)樗兄诎l(fā)現(xiàn)微陣列數(shù)據(jù)中真正存在的層次結(jié)構(gòu)。建議在使用非負(fù)矩陣分解的時候同樣使用一種傳統(tǒng)的分類方法,兩種方法的結(jié)果經(jīng)過對照或者綜合分析之后,得到的最終結(jié)果更趨于真實(shí)。由于元基因的組成基因可以成為分類標(biāo)簽,非負(fù)矩陣分解還可以作為基因選擇的方法;此外,盡管增加稀疏性,但是元基因之間還是會有重疊的基因出現(xiàn),這些基因可能同時在多個通路或者生物學(xué)過程中,往往這種“身兼數(shù)職”的基因在要分析的問題中有更為重要的意義。
總之,非負(fù)矩陣分解是一種分析和解釋具有大尺度性質(zhì)的微陣列數(shù)據(jù)的新方法,現(xiàn)在越來越多地應(yīng)用到實(shí)際問題中[10,51~53],尤其在近兩年非負(fù)矩陣分解被廣泛地應(yīng)用到新的研究領(lǐng)域中。在宏基因組學(xué)研究中,Jiang X等人[54]利用NMF方法來探索海洋微生物的生物地理學(xué)方面的問題,用少數(shù)生態(tài)成分的線性組合來解釋來自不同標(biāo)本采集點(diǎn)的微生物的8 214個蛋白質(zhì)家族。結(jié)論認(rèn)為NMF篩選的方法要優(yōu)于PCA篩選的方法,它揭示了不同標(biāo)本采集點(diǎn)之間的功能距離同環(huán)境距離有很強(qiáng)的相關(guān)性,而跟地理距離相關(guān)性不大。另外,在研究復(fù)雜疾病方面,Wang H M等人[55]用NMF方法來研究復(fù)雜疾病的內(nèi)在表型,將176例晚發(fā)老年癡呆癥(Late-onset Alzheimer’s Disease)樣本分成三個亞型并提取同每個亞型相關(guān)的易感性基因,并且給復(fù)雜疾病的病理機(jī)制的研究提供了新的方法,有助于更好地理解基因型和表型之間的關(guān)系??梢?,隨著更多克服非負(fù)矩陣分解缺陷的新方法不斷出現(xiàn),非負(fù)矩陣分解的應(yīng)用及表現(xiàn)不會局限在微陣列的數(shù)據(jù)分析,它還可以應(yīng)用在圖像處理[31~32]、聲音處理、文本挖掘、信息檢索等領(lǐng)域。
[1] Russell S, Meadows L, Russell R. Microarray technology in practice[M].Xiao Hua-sheng,Zhang Chun-xiu, Wu Xue-mei, et al,translation. Beijing:Science Press,2010.(in Chinese)
[2] Huang De-shuang. Research on mining approaches for gene expression profiles data[M].Beijing:Science Press,2009.(in Chinese)
[3] Jemal A, Bray F, Center M M, et al. Global cancer statistics[J]. CA Cancer J Clin, 2011, 61(2):69-90.
[4] Valk P J M, Verhaak R G W, Beijen M A. Prognostically useful gene-expression profiles in acute myeloid leukemia[J]. The New England Journal of Medicine, 2004, 350:1617-1628.
[5] Barrier A, Boelle P-Y, Roser F, et al. Stage ii colon cancer prognosis prediction by tumor gene expression profiling[J]. Journal of Clinical Oncology, 2006, 24(29):4685-4691.
[6] Wang Y, Jatkoe T, Zhang Y, et al. Gene expression profiles and molecular markers to predict recurrence of dukes’b colon cancer[J]. Journal of Clinical Oncology, 2004, 22(9):1564-1571.
[7] The Cancer Genome Network. Integrated genomic analyses of ovarian carcinoma[J]. Nature, 2011, 474(7353):609-615.
[8] Taylor B S,Schultz N,Hieronymus H,et al.Integrative genomic profiling of human prostate cancer[J]. Cancer Cell, 2010, 18(1):11-22.
[9] Sorlie T, Perou C M, Tibshirani R, et al. Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications[J]. PNAS, 2001, 98(19):10869-10874.
[10] Li A, Walling J, Ahn S, et al. Unsupervised analysis of transcriptomic profiles reveals six glioma subtypes[J]. Cancer Research, 2009, 69(5):2091-2099.
[11] Verhaak R G, Hoadley K A, Purdom E, et al. Integrated genomic analysis identifies clinically relevant subtypes of glioblastoma characterized by abnormalities in pdgfra, idh1, egfr, and nf1[J]. Cancer Cell, 2010, 17(1):98-110.
[12] Jorissen R N, Gibbs P, Christie M, et al. Metastasis-associated gene expression changes predict poor outcomes in patients with dukes stage b and c colorectal cancer[J]. Clinical Cancer Research, 2009, 15(24):7642-7651.
[13] Smith J J, Deane N G, Wu F, et al. Experimentally derived metastasis gene expression profile predicts recurrence and death in patients with colon cancer[J]. Gastroenterology, 2010, 138(3):958-968.
[14] Vinciotti V, Tucker A, Kellam P, et al. Robust selection of predictive genes via a simple classifier[J]. Appl Bioinformatics, 2006, 5(1):1-11.
[15] Kossenkov A V, Ochs M F. Matrix factorization methods applied in microarray data analysis[J]. Data Mining and Bioinformatics, 2010, 4(1):72-90.
[16] Lee D D, Seung H S. Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999, 401:788-791.
[17] Lee D D, Seung H S. Algorithms for non-negative matrix factorization[J]. Adv. Neural Inform Process System, 2001, 13:556-562.
[18] Devarajan K. Nonnegative matrix factorization:An analytical and interpretive tool in computational biology[J]. PLoS Computional Biology, 2008, 4(7):e1000029.
[19] Kim P M, Tidor B. Subsystem identification through dimensionality reduction of large-scale gene expression data[J]. Genome Res, 2003, 13(7):1706-1718.
[20] Brunet J P, Tamayo P, Golub T R, et al. Metagenes and molecular pattern discovery using matrix factorization[J]. PNAS, 2004, 101(12):4164-4169.
[21] Frigyesi A, H?glund M. Non-negative matrix factorization for the analysis of complex gene expression data, identification of clinically relevant tumor subtypes[J]. Cancer Informatics, 2008, 6:275-292.
[22] Kim M H, Seo H J, Joung J G, et al. Comprehensive evaluation of matrix factorization methods for the analysis of DNA microarray gene expression data[J]. BMC Bioinformatics, 2011, 12(Suppl 13):S8.
[23] Gao Y, Church G. Improving molecular cancer class discovery through sparse non-negative matrix factorization[J]. Bioinformatics, 2005, 21(21):3970-3975.
[24] Hoyer P O. Nonnegative sparse coding[C]∥Proc of Neural Networks for Signal Processing XII, 2002:557-565.
[25] Hoyer P O. Non-negative matrix factorization with sparseness constraints[J]. Journal of Machine Learning Research, 2004, 5:1457-1469.
[26] Pascual-Montano A,Carazo J M,Kochi K,et al.Nonsmooth nonnegative matrix factorization (nsnmf)[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(3):403-415.
[27] Liu W, Zheng N, Lu X. Non-negative matrix factorization for visual coding[C]∥Proc of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2003:293-296.
[28] Carmona-Saez P, Pascual-Marqui R D, Tirado F, et al. Biclustering of gene expression data by non-smooth non-negative matrix factorization[J]. BMC Bioinformatics, 2006, 7:78-96.
[29] Mejia-Roa E, Carmona-Saez P, Nogales R, et al. Bionmf:A web-based tool for nonnegative matrix factorization in biology[J]. Nucleic Acids Res, 2008, 36(Web Server issue):W523-W528.
[30] Pascual-Montano A, Carmona-Saez P, Chagoyen M, et al. Bionmf:A versatile tool for non-negative matrix factorization in biology[J]. BMC Bioinformatics, 2006, 7:366-374.
[31] Li Y, Sima D M, Cauter S V, et al. Hierarchical non-negative matrix factorization (hnmf):A tissue pattern differentiation method for glioblastoma multiforme diagnosis using mrsi[J]. NMR Biomed, 2013, 26(3):307-319.
[32] Ortega-Martorell S, Lisboa P J, Vellido A, et al. Convex non-negative matrix factorization for brain tumor delimitation from mrsi data[J]. PLoS One, 2012, 7(10):e47824.
[33] Lee C M, Mudaliar M A, Haggart D, et al. Simultaneous non-negative matrix factorization for multiple large scale gene expression datasets in toxicology[J]. PLoS One, 2012, 7(12):e48238.
[34] Shi Jin-long, Luo Zhi-gang. Research on the advances of nonnegative matrix factorization and its application in bioinformatics[J]. Computer Engineering & Science, 2010, 32(8):117-123.(in Chinese)
[35] Monti S, Tamayo P, Mesirov J, et al. Consensus clustering:A resampling-based method for class discovery and visualization of gene expression microarray data[J]. Machine Learning, 2003, 52:91-118.
[36] Hutchins L N, Murphy S M, Singh P, et al. Position-dependent motif characterization using non-negative matrix factorization[J]. Bioinformatics, 2008, 24(23):2684-2690.
[37] Tibshirani R, Walther G, Hastie T. Estimating the number of clusters in a data set via the gap statistic[J]. J.R.Statist, 2001, 63:411-423.
[38] Rousseeuw P. Silhouettes:A graphical aid to the interpretation and validation of cluster analysis[J]. Journal of Computational and Applied Mathematics, 1987, 20:53-65.
[39] Frades I, Matthiesen R. Overview on techniques in cluster analysis[J]. Methods in Molecular Biology, 2010, 593:81-107.
[40] Kim H, Park H. Sparse non-negative matrix factorizations via alternating non-negativity-constrained least squares for microarray data analysis[J]. Bioinformatics, 2007, 23(12):1495-1502.
[41] Wang G, Kossenkov A V, Ochs M F. Ls-nmf:A modified non-negative matrix factorization algorithm utilizing uncertainty estimates[J]. BMC Bioinformatics, 2006, 7:175-184.
[42] Reich M, Liefeld T, Gould J, et al. Genepattern 2.0[J]. Nature Genetics, 2006, 38:500-501.
[43] Qi Q, Zhao Y, Li M, et al. Non-negative matrix factorization of gene expression profiles:A plug-in for brb-arraytools[J]. Bioinformatics, 2009, 25(4):545-547.
[44] Gaujoux R, Seoighe C. A flexible r package for nonnegative matrix factorization[J]. BMC Bioinformatics, 2010, 11:367-375.
[45] Gentleman R C, Carey V J, Bates D M, et al. Bioconductor:Open software development for computational biology and bioinformatics[J]. Genome Biology, 2004, 5(10):R80.81-R80.16.
[46] Slonim D K, Tamayo P, Mesirov J P, et al. Class prediction and discovery using gene expression data[C]∥Proc of the 4th International Conference on Computational Molecualr Biology, 2000:236-272.
[47] Pomeroy S L, Tamayo P, Gaasenbeek M, et al. Prediction of central nervous system embryonal tumour outcome based on gene expression[J]. Nature, 2002, 415:436-442.
[48] Wang Y, Jia Y, Hu C, et al. Fisher non-negative matrix factorization for learning local features[C]∥Proc of Asian Conference on Computer Vision, 2004:27-30.
[49] Tibshirani R, Hastie T, Narasimhan B, et al. Diagnosis of multiple cancer types by shrunken centroids of gene expression[J]. PNAS, 2002, 99(10):6567-6572.
[50] Dabney A R. Clanc:Point-and-click software for classifying microarrays to nearest centroids[J]. Bioinformatics, 2006, 22(1):122-123.
[51] Networks C G A. Comprehensive molecular characterization of human colon and rectal cancer[J]. Nature, 2012, 487(7407):330-337.
[52] Govi S, Dognini G P, Licata G, et al. Non-negative matrix factorization to perform unsupervised clustering of genome wide DNA profiles in mature b cell lymphoid neoplasms[J]. Br J Haematol, 2010, 150(2):226-229.
[53] Inamura K, Fujiwara T, Hoshida Y, et al. Two subclasses of lung squamous cell carcinoma with different gene expression profiles and prognosis identified by hierarchical clustering and non-negative matrix factorization[J]. Oncogene, 2005, 24(47):7105-7113.
[54] Jiang X, Langille M G, Neches R Y, et al. Functional biogeography of ocean microbes revealed through non-negative matrix factorization[J]. PLoS One, 2012, 7(9):e43866.
[55] Wang H M, Hsiao C L, Hsieh A R, et al. Constructing endophenotypes of complex diseases using non-negative matrix factorization and adjusted rand index[J]. PLoS One, 2012, 7(7):e40996.
附中文參考文獻(xiàn):
[1] 史蒂夫·拉塞爾,莉薩·梅多斯,羅斯林·拉塞爾. 生物芯片技術(shù)與實(shí)踐(中文版)[M]. 肖華勝,張春秀,武雪梅,等譯.北京:科學(xué)出版社,2010.
[2] 黃德雙. 基因表達(dá)譜數(shù)據(jù)挖掘方法研究[M]. 北京:科學(xué)出版社,2009.
[34] 石金龍, 駱志剛. 非負(fù)矩陣算法及其在生物信息學(xué)中的應(yīng)用[J]. 計(jì)算機(jī)工程與科學(xué),2010,32(8):117-123.