于文帥
摘要:海量的生物醫(yī)學(xué)數(shù)據(jù)為癌癥的機(jī)制發(fā)現(xiàn)和治療提供了機(jī)遇,越來越多的工作集中于癌癥亞型的鑒定?;谏疃葘W(xué)習(xí)的方法能夠提取生物醫(yī)學(xué)數(shù)據(jù)的深層特征,提高亞型鑒定的準(zhǔn)確性。該文主要分析了多種基于深度學(xué)習(xí)的癌癥亞型鑒定方法,對(duì)研究更加靈活地亞型分析方法具有借鑒意義。
關(guān)鍵詞:深度學(xué)習(xí);癌癥亞型;CNN;DBN;DBM
中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)06-0172-02
1引言
隨著生物醫(yī)學(xué)技術(shù)的快速發(fā)展,有超過100種癌癥被發(fā)現(xiàn),在世界范圍內(nèi)癌癥被認(rèn)為是發(fā)病和死亡的主要原因之一。據(jù)世界衛(wèi)生組織統(tǒng)計(jì),全世界在2012年有1400萬新生癌癥病例,在2015年有880萬人死于癌癥。準(zhǔn)確的癌癥預(yù)后和治療變得特別重要,而亞型鑒定則是個(gè)性化預(yù)后治療癌癥的關(guān)鍵。癌癥亞型是根據(jù)單種癌細(xì)胞的一些特征所得到的特定種類的癌癥。癌細(xì)胞的特征既有細(xì)胞水平的形態(tài)特征,也有分子水平的表達(dá)特征。
現(xiàn)有的癌癥亞型鑒定通過統(tǒng)計(jì)學(xué)方法對(duì)病理圖像,基因表達(dá)和臨床信息等數(shù)據(jù)進(jìn)行分析,從而完成單種癌癥亞型的鑒定任務(wù)。這些鑒定方法對(duì)單種數(shù)據(jù)或者多種類型數(shù)據(jù)進(jìn)行建模。例如,基于基因表達(dá)特征的支持向量機(jī)方法,基于整合多種分子數(shù)據(jù)的矩陣分解方法,以及基于分子和臨床數(shù)據(jù)的多元比例風(fēng)險(xiǎn)回歸方法。但是這些方法已經(jīng)不能解決大量積累的生物分子數(shù)據(jù)所帶來的挑戰(zhàn)。此外,積累的醫(yī)學(xué)圖像數(shù)據(jù)集對(duì)準(zhǔn)確快速地處理大規(guī)模圖像數(shù)據(jù)帶來了新的問題。深度學(xué)習(xí)的出現(xiàn)能夠解決上述問題。
深度學(xué)習(xí)現(xiàn)在已經(jīng)廣泛應(yīng)用在計(jì)算機(jī)視覺、自然語言處理和生物信息學(xué)等領(lǐng)域。深度學(xué)習(xí)在癌癥亞型鑒定方面根據(jù)數(shù)據(jù)特點(diǎn)選擇合適的網(wǎng)絡(luò)結(jié)構(gòu),還可以結(jié)合不同的預(yù)處理方法構(gòu)造功能特異的架構(gòu)?,F(xiàn)在使用的網(wǎng)絡(luò)主要有全連接深度神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò),深度信念網(wǎng)絡(luò)和深度波爾茲曼機(jī)。本文對(duì)基于以上四個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)的癌癥亞型鑒定方法進(jìn)行了分析。
2癌癥亞型鑒定方法
2.1深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)(DNN)廣義上是多種深度學(xué)習(xí)網(wǎng)絡(luò)的統(tǒng)稱,狹義上是指全連接的多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。與簡(jiǎn)單的人工神經(jīng)網(wǎng)絡(luò)相比,DNN的多個(gè)隱層用來提取深層抽象特征。DNN的輸入層、中間隱層和輸出層可以使用全連接方式構(gòu)建網(wǎng)絡(luò)。
Yuan等人使用基于全連接的DNN方法,對(duì)多種癌癥進(jìn)行分類。該方法主要有三個(gè)步驟:過濾集合基因,減少稀疏性和建立全連接DNN分類器。集合基因的過濾是基于突變頻率來確定有判別性的基因子集。該步驟的特點(diǎn)是使用全部癌癥數(shù)據(jù)來反映基因之間的關(guān)聯(lián)性,以及不需要突變數(shù)據(jù)分布的先驗(yàn)條件。減少稀疏性作為一種和集合基因過濾并列的預(yù)處理方法,將基因數(shù)據(jù)轉(zhuǎn)為非零的索引值來降低稀疏性。然后將過濾的基因和非零索引相級(jí)連作為DNN的輸入,從而完成對(duì)DNN分類器的訓(xùn)練。這種基于全連接的DNN分類器有著比支持向量機(jī)、K-近鄰和樸素貝葉斯更好地分類能力。
2.2卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種用于滿足最小化數(shù)據(jù)預(yù)處理要求的多層感知器,常常作為圖像分類器。CNN一般有輸入層,轉(zhuǎn)化層和輸出層,但其中轉(zhuǎn)化層常由卷積層,池化層,全連接層和歸一化層組成。CNN還需要選擇合適的超參數(shù),一般包括濾波器個(gè)數(shù),濾波器的滑動(dòng)步長和濾波器的形狀等參數(shù)。在訓(xùn)練模型時(shí),卷積神經(jīng)網(wǎng)絡(luò)使用反向傳播算法。
Hou等人提出基于圖像塊的CNN方法,對(duì)全切片組織圖像進(jìn)行細(xì)胞水平的癌癥分類。這個(gè)分類方法由圖像塊水平的模型和決策融合模型組成。圖像塊水平的模型是一種基于期望最大(EM)的方法,并與CNN相結(jié)合來輸出圖像塊的預(yù)測(cè)。該模型先假設(shè)有二值隱變量來表示圖像塊是否有判別性,并初始化所有圖像塊為有判別性,接著訓(xùn)練CNN用于輸出每個(gè)圖像塊的類別概率,然后選擇具有較高概率的塊作為有判別性的塊,使用得到的判別性塊作為輸入直到EM迭代收斂結(jié)束。在圖像塊選擇完成后,判別性塊的直方圖作為決策融合模型的輸入。決策融合模型可以作為一種基于計(jì)數(shù)的兩級(jí)多實(shí)例學(xué)習(xí)方法,具有比標(biāo)準(zhǔn)多實(shí)例學(xué)習(xí)假設(shè)更一般的假設(shè)。該模型使用多類邏輯回歸方法或者支持向量機(jī)來預(yù)測(cè)圖像的癌癥類別。在非癌癥的小尺寸圖集上,這個(gè)基于圖像塊的CNN方法比基于圖像的CNN方法有更好的結(jié)果。
Ertosun等人使用兩級(jí)CNN完成對(duì)兩種癌癥的分類和分級(jí)任務(wù)。兩級(jí)CNN先完成對(duì)癌癥的分類任務(wù),再完成對(duì)癌癥的分級(jí)任務(wù)。該CNN架構(gòu)導(dǎo)致網(wǎng)絡(luò)層數(shù)變多,從而難以選擇最優(yōu)的CNN架構(gòu)。一般的解決方法是每個(gè)CNN獨(dú)立地訓(xùn)練,并通過評(píng)估多種類型的CNN結(jié)構(gòu),進(jìn)而選擇合適的CNN架構(gòu)。
2.3深度信念網(wǎng)絡(luò)
深度信念網(wǎng)絡(luò)(DBN)本質(zhì)是堆疊的受限玻爾茲曼機(jī)(RBM),即每個(gè)RBM的隱層輸出作為下一個(gè)RBM的可視輸入。學(xué)習(xí)DBN的過程主要有以下兩個(gè)階段。在預(yù)訓(xùn)練階段,DBN循環(huán)所有層的RBM,逐層學(xué)習(xí)RBM的權(quán)重變量。在微調(diào)階段,DBN用預(yù)處理階段的權(quán)重來初始化深度自動(dòng)編碼器,獲取全局最優(yōu)的權(quán)重。DBN模型可以分為單模DBN和多模DBN。
Young等人構(gòu)造單模DBN,選取DBN的頂層特征對(duì)所有類型的癌癥樣本進(jìn)行一致性聚類,進(jìn)而得到組織特異的集合。該方法采用改進(jìn)的8倍交叉驗(yàn)證方法選擇模型。為了同時(shí)實(shí)現(xiàn)最小重建錯(cuò)誤和防止過擬合,這種方法使用隨機(jī)網(wǎng)格搜索方法來選擇最優(yōu)超參數(shù)。在模型選擇后,開始訓(xùn)練模型并對(duì)頂層特征進(jìn)行一致性聚類。和直接使用基因特征相比,DBN的頂層特征取得更好的聚類結(jié)果。更進(jìn)一步,使用DBN的頂層特征對(duì)單一癌癥進(jìn)行亞型分析(聚類),DBN頂層特征能夠反映通路水平上潛在的疾病機(jī)制。該單模DBN方法獲取基因表達(dá)數(shù)據(jù)的隱層結(jié)構(gòu),進(jìn)而建立癌癥機(jī)制和病人生存之間的聯(lián)系。
Liang等人提出用于整合多種平臺(tái)數(shù)據(jù)的多模DBNtSl。該模型由多個(gè)單獨(dú)的DBN和融合層組成,單獨(dú)的DBN挖掘特異的模態(tài)特征,而融合層獲取多個(gè)單獨(dú)DBN的聯(lián)合特征。該模型主要使用兩個(gè)原則選擇隱層變量個(gè)數(shù),第一個(gè)原則是使用隱層變量個(gè)數(shù)的經(jīng)驗(yàn)值,即隱層變量個(gè)數(shù)約為可視層變量的十分之一;第二個(gè)是根據(jù)最小重建錯(cuò)誤選擇隱層變量個(gè)數(shù)。該模型沒有使用平均場(chǎng)推理和馬爾可夫鏈蒙特卡爾等常用方法去學(xué)習(xí)RBM參數(shù),而是使用對(duì)比散度方法來快速學(xué)習(xí)深度模型的參數(shù)。由于模型頂層隱變量的二值性,每種隱變量組合可以作為一個(gè)集合。例如,有3個(gè)頂層隱變量,就表示有至多8種癌癥亞型。多模DBN的良好伸縮性可以方便處理具有大規(guī)模數(shù)據(jù)的生物問題。此外,與普通的K-means方法相比,這個(gè)多模DBN作為一個(gè)概率模型,在隨機(jī)選擇初始狀態(tài)后仍能保持結(jié)果的穩(wěn)定性。
2.4深度波爾茲曼機(jī)
深度波爾茲曼機(jī)(DBM)是全鏈接的多層玻爾茲曼機(jī)。DBM一般采用基于改進(jìn)RBM的預(yù)訓(xùn)練算法。DBM和DBN的預(yù)訓(xùn)練算法不完全相同。在預(yù)訓(xùn)練過程里,DBM在底層上自底向上的權(quán)重是自頂向下的兩倍,中間層RBM的權(quán)重在兩個(gè)方向上均減半,而在頂層上自頂向下的權(quán)重是自底向上的兩倍。直觀上來看,兩倍權(quán)重是為了補(bǔ)償初始自頂向下或者自底向上的反饋。DBM多模構(gòu)造的責(zé)任分散在整個(gè)網(wǎng)路里,而DBN的責(zé)任則全部在頂層完成。在數(shù)據(jù)重構(gòu)時(shí),多模DBM比多模DBN有更好的結(jié)果。
Syafiandini等人使用多模DBM整合基因表達(dá)數(shù)據(jù)和臨床數(shù)據(jù)l圳,獲取頂層特征作為RBM輸入,最終得到癌癥亞型。該模型同樣使用對(duì)比散發(fā)方法學(xué)習(xí)參數(shù)。癌癥亞型的鑒定僅使用只有一個(gè)隱層的受限波爾茲曼機(jī),即多模DBM的頂層作為RBM的可視層,而隱層變量的數(shù)量則根據(jù)最小重建錯(cuò)誤確定。
3結(jié)論
本文分析了對(duì)癌癥亞型鑒定的多種深度學(xué)習(xí)方法,其優(yōu)點(diǎn)是減少傳統(tǒng)診斷的不確定性并能快速進(jìn)行亞型分析,但其難點(diǎn)仍是模型結(jié)構(gòu)的選擇,訓(xùn)練速度的加快和準(zhǔn)確性的提高。這些問題迫使研究更加實(shí)用有效的亞型分析方法,來促進(jìn)精準(zhǔn)醫(yī)療的發(fā)展。