寧世琦, 郭茂祖,2, 任世軍
(1 哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001; 2 北京建筑大學(xué) 電氣與信息工程學(xué)院, 北京 100044)
癌癥是一個(gè)復(fù)雜的世界性健康問題,因其高死亡率而受到科學(xué)家的密切關(guān)注。根據(jù)GLOBOCAN項(xiàng)目[1],僅在2012年,全球就有1 410萬新的癌癥病例(不包括皮膚癌,不包括黑素瘤),占死亡人數(shù)的14.6%。癌癥類型的早期診斷和預(yù)后已成為癌癥研究的必要條件。在過去的幾十年里,癌癥研究正日趨成熟?;虮磉_(dá)譜數(shù)據(jù)的利用是癌癥預(yù)測研究的熱點(diǎn)之一。基因表達(dá)譜的數(shù)據(jù)分析在很大程度上促進(jìn)了癌癥的診斷和治療,準(zhǔn)確預(yù)測癌癥是醫(yī)生最重要、最緊迫的任務(wù)之一。
隨著高通量測序技術(shù)的快速發(fā)展,從基因組到表型,基因組各個(gè)層次的多分子水平數(shù)據(jù),特別是基因表達(dá)譜數(shù)據(jù)越來越豐富。對于日漸增多的大型生物信息數(shù)據(jù),機(jī)器學(xué)習(xí)方法也因此獲得青睞與應(yīng)用。隨著近年來計(jì)算機(jī)輔助技術(shù)的飛速發(fā)展,機(jī)器學(xué)習(xí)方法在癌癥診斷中的應(yīng)用越來越重要。
Furey[2]提出了一種使用SVMs分析來自多個(gè)組織或細(xì)胞類型基因的卵巢、AML、結(jié)腸微陣列表達(dá)數(shù)據(jù)的方法。3種結(jié)果表明,該方法可以對組織和細(xì)胞類型進(jìn)行分類。Listgarten[3]發(fā)現(xiàn)SVMs在乳腺癌SNPs數(shù)據(jù)集上,相比其它預(yù)測模型的表現(xiàn)要堪稱最佳,如決策樹,樸素貝葉斯等。Gevaert[4]將臨床數(shù)據(jù)和微陣列數(shù)據(jù)源與貝葉斯網(wǎng)絡(luò)相結(jié)合,提出了預(yù)測乳腺癌預(yù)后的方法。Chen[5]使用ANN構(gòu)建預(yù)測模型,利用來自4家醫(yī)院的樣本集進(jìn)行訓(xùn)練和預(yù)測。結(jié)果表明,4家醫(yī)院的癌癥患者預(yù)測結(jié)果較為準(zhǔn)確。Kaymak[6]提出了一種乳腺癌診斷圖像自動(dòng)分類的方法,該方法利用反向傳播神經(jīng)網(wǎng)絡(luò)(BPPN)對圖像進(jìn)行分類。Chougrad[7]開發(fā)了一個(gè)基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的計(jì)算機(jī)輔助診斷(CAD)系統(tǒng),目的是幫助放射科醫(yī)生將乳房X光檢查分類,并獲得0.99的AUC。根據(jù)文獻(xiàn)[8],放射科醫(yī)生僅獲得了0.82的AUC。Xiao[9]使用集成學(xué)習(xí)策略,將多種不同機(jī)器學(xué)習(xí)模型集結(jié)融合,然后采用深度學(xué)習(xí)的方法對5個(gè)分類器的輸出進(jìn)行集成,在TCGA的LUAD等數(shù)據(jù)集上獲得了較高的準(zhǔn)確率以及AUC。
使用機(jī)器學(xué)習(xí)方法進(jìn)行基因選擇的方法也很多。Ding[10]使用MRMR來選擇對白血病、結(jié)腸癌等疾病的分類至關(guān)重要的基因。Wang[11]通過filter、CFS和wrapper選擇的基因,并利用這些基因構(gòu)建的分類器在白血病等數(shù)據(jù)集上獲得了較好的分類性能。Diaz[12]提出了一種基于隨機(jī)森林的基因選擇方法。
然而,這些診斷方法大多是監(jiān)督學(xué)習(xí)方法。但是在生物信息學(xué)中,獲取標(biāo)簽數(shù)據(jù)是昂貴的,現(xiàn)有的數(shù)據(jù)常常是不充分的。TCGA數(shù)據(jù)庫已經(jīng)是世界上最大的數(shù)據(jù)庫之一,很多疾病仍然缺乏標(biāo)記數(shù)據(jù)。例如,MESO只有86個(gè)樣本,KICH也僅有89個(gè)樣本。而半監(jiān)督學(xué)習(xí)非常適合標(biāo)簽稀疏的場景。
在本文中,研究貢獻(xiàn)有2方面。一方面,將圖卷積網(wǎng)絡(luò)(GCN)應(yīng)用于基因表達(dá)譜數(shù)據(jù),用以判斷樣本是否患癌。其次,研究創(chuàng)新性地提出了一種基于GCN的基因選擇方法。在TCGA中3個(gè)數(shù)據(jù)集的實(shí)驗(yàn)表明,研發(fā)模型即便使用更少的樣本訓(xùn)練,也能在分類精度和AUC上超過許多經(jīng)典的機(jī)器學(xué)習(xí)方法。研究內(nèi)容論述如下。
研究利用來自TCGA的FPKM基因表達(dá)譜數(shù)據(jù)集,如LUAD、UCEC、COAD,來預(yù)測樣本是否患癌。這3個(gè)數(shù)據(jù)集都是二分類數(shù)據(jù)集。實(shí)驗(yàn)數(shù)據(jù)集樣本信息可見表1。
有一些經(jīng)典的半監(jiān)督學(xué)習(xí)方法,比如Self-training,生成模型等等。其中,Self-training是一種最簡單的半監(jiān)督學(xué)習(xí)方法。方法中只是對標(biāo)記的數(shù)據(jù)進(jìn)行培訓(xùn)。在每個(gè)步驟中,未標(biāo)記點(diǎn)的一部分根據(jù)當(dāng)前決策函數(shù)進(jìn)行標(biāo)記;然后,將監(jiān)督方法重新訓(xùn)練,使用其自身預(yù)測作為附加的標(biāo)記點(diǎn)。但缺點(diǎn)是,早期的錯(cuò)誤可能會(huì)強(qiáng)化自己的錯(cuò)誤。而生成模型認(rèn)為樣本適合概率模型p=(X,Y|θ)。其實(shí)現(xiàn)簡單,但通常很難驗(yàn)證模型的正確性,如果生成模型是錯(cuò)誤的,未標(biāo)記的數(shù)據(jù)同樣會(huì)加重自身錯(cuò)誤。
表1 實(shí)驗(yàn)數(shù)據(jù)集信息
這2種方法不考慮樣本之間的關(guān)系。基于圖的半監(jiān)督學(xué)習(xí)方法將考慮樣本之間的關(guān)系。圖半監(jiān)督學(xué)習(xí)問題的關(guān)鍵在于研究做出的如下假設(shè):
(1)相鄰的點(diǎn)可能有相同的標(biāo)簽。
(2))相同結(jié)構(gòu)上的點(diǎn)(通常稱為簇)可能有相同的標(biāo)簽[13]。
在文獻(xiàn)[14]中,就使用了基于圖的半監(jiān)督學(xué)習(xí)。該算法輸出一個(gè)n維實(shí)值向量f=[flT,fuT]T=(f1,...,fl,fl+1, ...,fn)T,fi表示ithsample將為正樣本的概率,通過設(shè)置輸出閾值可以得到未標(biāo)記樣本標(biāo)簽。但是Kipf[15]認(rèn)為該方法的假設(shè)過于嚴(yán)格,因?yàn)閳D的邊不一定只編碼節(jié)點(diǎn)相似性,且還可以包含更多的信息,因此文中放寬了一些假設(shè)。
在文獻(xiàn)[16]中,一個(gè)樣本x∈N在gθ卷積核上的譜圖卷積操作定義為:
gθ*x=UgθUTx
(1)
直覺上,在方程(1)中,x可以獲取鄰居節(jié)點(diǎn)的信息,因?yàn)槔绽咕仃嘗包含圖的全局信息。為了更快地計(jì)算方程(1), 文獻(xiàn)[16]建議gθ可以由切比雪夫多項(xiàng)式來進(jìn)行近似。通過設(shè)置一些參數(shù),就可以歸納出如下的層傳遞公式:
(2)
首先,考慮一個(gè)2層的GCN來預(yù)測一個(gè)樣本是否為癌癥。在圖(graph)中,節(jié)點(diǎn)xi=(xi1,xi2,...,xin)表示樣本,邊表示節(jié)點(diǎn)之間的關(guān)系。在文獻(xiàn)[15]中,通過使用GCN表示引用網(wǎng)絡(luò)和知識圖譜中,鄰接矩陣的值為{0, 1}。研究認(rèn)為這種方法也可以解決鄰接矩陣值為[0, 1]的連續(xù)值問題。鄰接矩陣包含數(shù)據(jù)中不存在的信息,如引用網(wǎng)絡(luò)中的文檔之間的引用鏈接或知識圖譜中的關(guān)系。與傳統(tǒng)的標(biāo)簽傳播思想不同,圖卷積本質(zhì)上不是傳播標(biāo)簽,而是傳播特征。圖卷積會(huì)在不知道標(biāo)簽特征的情況下影響已知標(biāo)簽的特征節(jié)點(diǎn),然后利用已知標(biāo)簽節(jié)點(diǎn)的分類器傳播其屬性。
(3)
本次研究中,還創(chuàng)新性地使用GCN進(jìn)行基因選擇,并添加一個(gè)額外的隱藏層來表示所有基因輸入的基因權(quán)重。隱藏層可以通過反向傳播來獲取基因的權(quán)重。損失函數(shù)是交叉熵?fù)p失。選擇交叉熵?fù)p失的原因是梯度下降速度快,盡可能避免梯度消失。研究運(yùn)用這種方法從LUAD中選擇有意義的基因。同時(shí)與一些常用的特征選擇方法進(jìn)行了比較。為了得到更具說服力的比較,研究選擇了不同類型的特征選擇方法。選取方法詳情可見表2。
表2 基于不同理論的特征選擇方法
在二分類模型中,本文的模型在3個(gè)數(shù)據(jù)集中都只訓(xùn)練50個(gè)樣本,具體的癌癥和正常的樣本分布可見表3。研究則用50個(gè)樣本做驗(yàn)證集,癌癥和正常的樣本比是相同的。其它的樣本就用作測試。在研究選取比較的方法中,將使用100個(gè)樣本來參與訓(xùn)練, 其中癌癥和正常的樣本分布可見表4。在LabelPropagation(LP)[21]中,訓(xùn)練樣本中癌癥和正常的樣本分布可見表5?;蜻x擇模型中,對于GCN,將僅會(huì)使用50個(gè)樣本投入訓(xùn)練,樣本分布參見表6。在其它比較方法中,研究使用500個(gè)樣品進(jìn)行訓(xùn)練,樣本分布可見表7。
表3GCN分類模型訓(xùn)練集正常與癌癥樣本數(shù)量
Tab.3NormalandcancersamplenumberofGCNclassificationmodeltrainingset
DatasetLUADUCECCOADTumor101510Normal403540Total505050
表4KNN,決策樹,樸素貝葉斯訓(xùn)練集正常與癌癥樣本數(shù)量
Tab.4NormalandcancersamplenumberofKNN,decisiontree,naivebayesiantrainingset
DatasetLUADUCECCOADTumor202020Normal808080Total100100100
表5LabelPropagation(LP)訓(xùn)練集中正常與癌癥樣本數(shù)量
Tab.5NormalandcancersamplesofLabelPropagation(LP)trainingset
DatasetLUADUCECCOADTumor101510Normal403540Total505050
表6GCN基因選擇模型訓(xùn)練集中正常與癌癥樣本數(shù)量
Tab.6NormalandcancersamplesofGCNgeneselectionmodeltrainingset
DatasetLUADTumor10Normal40Total50
表7對比基因選擇方法訓(xùn)練集中正常與癌癥樣本的數(shù)量
Tab.7Normalandcancersamplesnumberofgeneselectiontrainingset
DatasetLUADTumor50Normal450Total500
在確定樣本是否是癌癥患者的目標(biāo)預(yù)測中,給出GCN以及對比方法在3組數(shù)據(jù)集上的預(yù)測情況。準(zhǔn)確率詳見表8,AUC(Area Under Curve)參見表9。3組數(shù)據(jù)集上的ROC分別如圖1~ 圖3所示。
表8 3個(gè)數(shù)據(jù)集上的準(zhǔn)確率
表9 3個(gè)數(shù)據(jù)集上的AUC
圖1 LUAD ROC曲線
在基因選擇的目標(biāo)中,研究采用TCGA的LUAD的基因表達(dá)譜數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。關(guān)于選擇出的基因的分析,本文對比了NCBI數(shù)據(jù)庫。進(jìn)一步獲取了NCBI關(guān)于LUAD疾病的相關(guān)基因,總共1 741個(gè)相關(guān)基因,這些基因?qū)⒆鳛榻Y(jié)果比對的參照。
圖2 UCEC ROC曲線
圖3 COAD ROC曲線
這里列出了各個(gè)方法選出的top100、top200、top500基因,命中NCBI數(shù)據(jù)庫的數(shù)量。各方法命中NCBI數(shù)據(jù)庫的數(shù)量可見表10。
表10 各方法命中NCBI的基因數(shù)
在預(yù)測樣本是否患癌過程中,GCN用更少的標(biāo)簽數(shù)據(jù),相比其它方法,卻獲得了更高的準(zhǔn)確率,更高的AUC。究其原因在于GCN不僅考慮了樣本之間的相關(guān)性,同時(shí)利用了未標(biāo)記數(shù)據(jù),通過卷積操作,獲取了鄰近節(jié)點(diǎn)的信息,最大程度保證獲取信息的全面性。在基因選擇目標(biāo)研究中,也同樣用了更少的標(biāo)簽數(shù)據(jù),相比各種基于不同理論基礎(chǔ)的方法,本文在Top100、 Top200、 Top500指標(biāo)上,在NCBI中命中了更多的LUAD的相關(guān)基因。
而且,研究選取了一次實(shí)驗(yàn)中的Top20基因,分別是:AGER、 CLIC5、 CAV1、 CXCL14、 CLEC3B、 AGR2、 EPAS1、 SPOCK2、 EMP2、 SDPR、 SFTPA2、 RAMP3、 GAPDH、 CA9、 FCN3、MARCO、 CEACAM6、 TMEM100、 CLIC3、EDNRB,進(jìn)行了生存分析,結(jié)果曲線如圖4所示。在此基礎(chǔ)上,則分析得知經(jīng)過改進(jìn)的GCN發(fā)現(xiàn)的基因,能將正常樣本和癌癥患者做到有效區(qū)分。并且,又隨即分析發(fā)現(xiàn)經(jīng)常出現(xiàn)的Top20基因中,比如CAV1、 EPAS1、 SDC1、 CLEC3B、 EDNRB等具有更小的p-values。其中,CAV1、EPAS1、SDC1等均屬已被發(fā)現(xiàn),且都和LUAD有重大關(guān)聯(lián)的調(diào)控基因。不僅如此,還搜尋發(fā)現(xiàn)了一些新的可能與LUAD相關(guān)的基因,比如CLEC3B。另外,對其處理后再次發(fā)現(xiàn)CLEC3B在肺部表達(dá)水平排名較高,高表達(dá)水平才能維持細(xì)胞的正常代謝。由此即可推斷得出,如果CLEC3B基因的變異,缺失等導(dǎo)致CLE3CB基因表達(dá)顯著降低,將會(huì)嚴(yán)重影響細(xì)胞的正常功能。所以這很可能是一個(gè)與LUAD疾病相關(guān)的基因。
圖4 LUAD生存分析曲線 圖5 27個(gè)不同的正常組織樣本RNA-seq表達(dá)情況
本文提出了一種基于圖的卷積神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)方法,來預(yù)測一個(gè)樣本是否罹患癌癥,本質(zhì)上屬于二分類問題。這種方法充分考慮了樣本之間的相關(guān)性,通過類似于圖像中的卷積方法,圖中的結(jié)點(diǎn)(即樣本)通過卷積方式,不斷從相鄰結(jié)點(diǎn)獲取信息。本文在TCGA的LUAD、UCEC、COAD的基因表達(dá)譜數(shù)據(jù)集上,利用圖卷積網(wǎng)絡(luò)進(jìn)行分類。相比其它經(jīng)典機(jī)器學(xué)習(xí)方法,GCN使用的訓(xùn)練樣本雖少,但是卻獲得了更高的準(zhǔn)確率和AUC。
本文也改進(jìn)了GCN網(wǎng)絡(luò)結(jié)構(gòu),改進(jìn)前只能用于解決分類問題,本次研究則將其用于特征選擇問題,也就是選擇與疾病相關(guān)的基因。研究中通過加入隱藏層,這個(gè)隱藏層的權(quán)值就是每個(gè)基因的權(quán)值。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的GCN找出的相關(guān)基因可以很好地區(qū)分開正常和癌癥樣本。并且相比經(jīng)典的特征選擇方法,本文提出的改進(jìn)后模型,可以選擇出更多的疾病相關(guān)基因。同時(shí)也能探查挖掘一些未被發(fā)現(xiàn)的、更有潛力被選為相關(guān)基因的基因。比如CLEC3B,通過對該基因的功能分析,研究發(fā)現(xiàn)該基因很有可能對LUAD疾病有明顯關(guān)系。