劉 飛 張俊然 楊 豪
(四川大學(xué)電氣信息學(xué)院,成都 610065)
醫(yī)學(xué)圖像識(shí)別是綜合醫(yī)學(xué)影像、數(shù)學(xué)建模、計(jì)算機(jī)技術(shù)等多學(xué)科的交叉領(lǐng)域,在醫(yī)學(xué)圖像大數(shù)據(jù)時(shí)代,海量而復(fù)雜的圖像數(shù)據(jù)帶來(lái)兩個(gè)方面的新問(wèn)題:一方面要處理的醫(yī)學(xué)圖像數(shù)據(jù)維數(shù)更高,要求有更強(qiáng)學(xué)習(xí)適應(yīng)能力的模型;另外一方面醫(yī)學(xué)圖像大數(shù)據(jù)更加分散破碎,數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,常常需要整合不同的信息[1]。傳統(tǒng)的數(shù)據(jù)分析方法常常不能滿足人們的要求,因此在醫(yī)學(xué)大數(shù)據(jù)時(shí)代,如何從海量醫(yī)學(xué)圖像數(shù)據(jù)中挖掘出有用信息,已成為學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。
深度學(xué)習(xí)[2]是機(jī)器學(xué)習(xí)[3]中的新領(lǐng)域,旨在通過(guò)模擬人腦自動(dòng)地學(xué)習(xí)數(shù)據(jù)各個(gè)層次的抽象特征,從而更好地反映數(shù)據(jù)的本質(zhì)特征[4]。自2006年,Hinton[2]提出一種基于概率圖模型的多層受限波爾茲曼機(jī)(restricted Boltzmann machine,RBM)后,深度學(xué)習(xí)已成為圖像處理和計(jì)算機(jī)視覺領(lǐng)域的主導(dǎo)工具。近年來(lái),深度學(xué)習(xí)在圖像識(shí)別[5]、語(yǔ)音識(shí)別[6-7]、自然語(yǔ)言處理[8-9]、計(jì)算機(jī)視覺[10-11]等領(lǐng)域取得了巨大的成功,并引發(fā)了更多領(lǐng)域利用深度學(xué)習(xí)進(jìn)行數(shù)據(jù)挖掘和分析的熱潮,在醫(yī)學(xué)領(lǐng)域也引起相應(yīng)專家及公司的重視,如研發(fā)出AlphaGo的Google子公司Deep Mind宣布DeepMind Health健康[12];IBM公司提出Watson for Oncology[13],通過(guò)學(xué)習(xí)大量數(shù)據(jù)分析病人的腫瘤影像信息,從而為醫(yī)生制定可靠的醫(yī)療方案提供幫助。
首先介紹深度學(xué)習(xí)網(wǎng)絡(luò)的分類方式、常見的3種深度學(xué)習(xí)模型及深度學(xué)習(xí)的訓(xùn)練過(guò)程;然后介紹深度學(xué)習(xí)在疾病檢測(cè)與分類和病變識(shí)別中的應(yīng)用;最后分析深度學(xué)習(xí)方法應(yīng)用在醫(yī)學(xué)圖像識(shí)別中面臨的問(wèn)題并對(duì)未來(lái)進(jìn)行展望。
深度學(xué)習(xí)從人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來(lái),20世紀(jì)80年代用于人工神經(jīng)網(wǎng)路的BP算法的提出,開啟了基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器學(xué)習(xí)熱潮,但在隨后的訓(xùn)練過(guò)程發(fā)現(xiàn),BP算法存在收斂速度慢、易陷入局部最小等缺陷[14]。20世紀(jì)90年代,各種淺層機(jī)器學(xué)習(xí)模型如boosting[15]、SVM[16-17]等被提出,這些模型在理論上和應(yīng)用中都獲得了巨大的成功,但由于訓(xùn)練方法需要很多經(jīng)驗(yàn)和技巧,使得淺層的機(jī)器學(xué)習(xí)長(zhǎng)時(shí)間處于平靜期。直到2006年深度信任網(wǎng)絡(luò)的提出[4],開啟了對(duì)深度學(xué)習(xí)研究的新篇章,其中2012年Hinton采用CNN模型贏得ImageNet圖像分類的冠軍,準(zhǔn)確率比第二名提高10%以上[18],在計(jì)算機(jī)視覺領(lǐng)域取得了突破性的進(jìn)展。此后隨著用于序列數(shù)據(jù)建模的遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNN)[19-20]、自然語(yǔ)言處理和音素識(shí)別的深度條件隨機(jī)場(chǎng)(deep-structured conditional random fields, DCRF)[21-22]、圖像處理的深層殘差網(wǎng)絡(luò)(deep residual networks, DRN)[23-24]等模型的出現(xiàn)和各種深度學(xué)習(xí)算法的提出及GPU計(jì)算能力的提升,使得深度學(xué)習(xí)在圖像識(shí)別、語(yǔ)音識(shí)別等眾多領(lǐng)域取得了巨大的成功,2016年Goole Alpha與李世石的人機(jī)圍棋大賽使得深度學(xué)習(xí)技術(shù)廣為人知。
深度學(xué)習(xí)的目的在于通過(guò)構(gòu)建多層隱層的機(jī)器學(xué)習(xí)模型和海量訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)更有用的特征,從而提高分類或預(yù)測(cè)的準(zhǔn)確性[25]。與傳統(tǒng)的淺層學(xué)習(xí)相比,深度學(xué)習(xí)具有如下特點(diǎn):一是特征學(xué)習(xí),深度學(xué)習(xí)方法能夠根據(jù)不同的應(yīng)用自動(dòng)從海量數(shù)據(jù)中學(xué)習(xí)到所需的高級(jí)特征表示,更能表達(dá)數(shù)據(jù)的內(nèi)在信息。二是深層結(jié)構(gòu),深度學(xué)習(xí)模型結(jié)構(gòu)深,通常擁有5層甚至更多層的隱層節(jié)點(diǎn),包含更多的非線性變換,使得擬合復(fù)雜模型的能力大大增強(qiáng)。三是無(wú)監(jiān)督學(xué)習(xí),輸入的數(shù)據(jù)只有本身數(shù)據(jù)信息,沒(méi)有標(biāo)簽信息,深度學(xué)習(xí)未標(biāo)記數(shù)據(jù)的模式;通過(guò)數(shù)據(jù)內(nèi)在的一些特征和聯(lián)系將數(shù)據(jù)自動(dòng)分類。通過(guò)在訓(xùn)練過(guò)程中加入無(wú)監(jiān)督學(xué)習(xí)作為預(yù)訓(xùn)練,使得深度學(xué)習(xí)模型相比人工神經(jīng)網(wǎng)絡(luò)具有更好的分類能力。
深度學(xué)習(xí)是通過(guò)多層非線信息處理方法來(lái)構(gòu)建深層網(wǎng)絡(luò)[26],根據(jù)結(jié)構(gòu)的不同分為如下3類[27]:生成式深層網(wǎng)絡(luò)、有監(jiān)督(判別式)深層網(wǎng)絡(luò)、混合深層網(wǎng)絡(luò)。
1)生成式深層網(wǎng)絡(luò):通過(guò)學(xué)習(xí)觀測(cè)數(shù)據(jù)高階相關(guān)性,或觀測(cè)數(shù)據(jù)和關(guān)聯(lián)類別之間的統(tǒng)計(jì)特征分布來(lái)實(shí)現(xiàn)模式分類的一類深層結(jié)構(gòu)[28],用于在沒(méi)有目標(biāo)類標(biāo)簽信息的情況下捕捉觀測(cè)到的或可見數(shù)據(jù)的高階相關(guān)性。常見的生成式模型是深層玻爾茲曼機(jī)(deep Boltzmann machine,DBM)[29]、和積網(wǎng)絡(luò)(sum-product network,SPN)[30]、遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)[19-20]等。
2)有監(jiān)督(判別式)深層網(wǎng)絡(luò):描述在可見數(shù)據(jù)條件下的類別后驗(yàn)分布[31],目標(biāo)類別標(biāo)簽以直接或者間接的形式給出,因此,有監(jiān)督深度網(wǎng)絡(luò)也稱為判別式深度網(wǎng)絡(luò)。深度堆疊網(wǎng)絡(luò)(deep stacking network,DSN)[32]、深度結(jié)構(gòu)條件隨機(jī)場(chǎng)(deep-structured conditional random fields, DCRF)[33-34]是典型的有監(jiān)督學(xué)習(xí)深度網(wǎng)絡(luò)。
3)混合深層網(wǎng)絡(luò):將生成式深層結(jié)構(gòu)與判別式深層結(jié)構(gòu)相結(jié)合的一類深層結(jié)構(gòu)。通常情況下,數(shù)據(jù)被用于作為預(yù)訓(xùn)練網(wǎng)絡(luò)的權(quán)重,以加快監(jiān)督階段學(xué)習(xí)過(guò)程,無(wú)監(jiān)督深度網(wǎng)絡(luò)的結(jié)果作為重要輔助[35],預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(pre-trained deep nerual networks,PDNN)[36]是一種混合深度網(wǎng)絡(luò)。
深度學(xué)習(xí)方法的模型種類較多,其中比較常用的模型是深度自編碼網(wǎng)絡(luò)(deep auto-encoder network,DAN)、深度信念網(wǎng)絡(luò)(deep belief network,DBN)、卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN),近年來(lái)還出現(xiàn)了許多新的深度模型,如循環(huán)神經(jīng)網(wǎng)絡(luò)模型(recurrent neural nets,RNN)[37]、張量堆疊網(wǎng)絡(luò)模型(tensor deep stacking network,TDSN)[38],本節(jié)介紹常見的3種深度學(xué)習(xí)模型及其構(gòu)建方法。
1.2.1深度自動(dòng)編碼器DAE
Bengio等通過(guò)改進(jìn)原型自動(dòng)編碼器結(jié)構(gòu)(如圖1所示),產(chǎn)生了深度自編碼器(deep auto-encoder,DAE)[39],深度自編碼器的基本元件是AE,AE包含一個(gè)輸入層、一個(gè)隱層、一個(gè)輸出層,AE主要用于學(xué)習(xí)壓縮的或過(guò)完備的特征表示,當(dāng)自編碼器包含多個(gè)隱層時(shí)就形成了DAE。DAE是一類經(jīng)過(guò)無(wú)監(jiān)督逐層貪心預(yù)訓(xùn)練和系統(tǒng)性參數(shù)優(yōu)化的多層非線性網(wǎng)絡(luò),從無(wú)標(biāo)簽數(shù)據(jù)中提取高維輸入數(shù)據(jù)的分層特征,并得到原始數(shù)據(jù)的分布式特征表示的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[40]。
圖1 原型自動(dòng)編碼器[41]Fig.1 Prototype Automatic Encoder[41]
DAE的構(gòu)建主要有兩步:第一步,改進(jìn)原型自動(dòng)編碼器,通過(guò)增加隱含層和神經(jīng)元的數(shù)量、調(diào)整隱含層的節(jié)點(diǎn)分布、改變權(quán)值的分享方式等途徑構(gòu)建DAE的基本結(jié)構(gòu);第二步,根據(jù)不同的任務(wù)選取合適的代價(jià)函數(shù)及優(yōu)化策略、隱含層品質(zhì)因數(shù)、系統(tǒng)性參數(shù)優(yōu)化的性能指數(shù)等確定DAE的訓(xùn)練方案[41]。編碼器在輸入數(shù)據(jù)中加入含有一定統(tǒng)計(jì)特性的噪聲,構(gòu)成基于統(tǒng)計(jì)理論的DAE,在原型自動(dòng)編碼器的代價(jià)函數(shù)表達(dá)式中加入解析性收縮懲罰因子,就構(gòu)成了基于魯棒理論的DAE。
1.2.2深度信念網(wǎng)絡(luò)DBN
2006年,Hinton提出DBN[4],開啟了機(jī)器學(xué)習(xí)第二次浪潮——深度學(xué)習(xí)。將多個(gè)限制玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)堆疊得到深度波爾茲曼機(jī)(deep Boltzmann machine,DBM),如果靠近數(shù)據(jù)層的部分層之間的連接為有向連接,即為DBN[42],如圖2所示。DBN的基本單元是RBM,單個(gè)RBM包含一個(gè)由隨機(jī)的隱單元構(gòu)成的隱層(一般是伯努利分布)和一個(gè)由隨機(jī)的可見單元構(gòu)成的可見層(一般是伯努利分布或高斯分布):其中隱層和可見層之間是雙向連接,隱單元兩兩之間、可見單元兩兩之間無(wú)連接;RBM采用對(duì)比梯度算法(contrastive divergence,CD)對(duì)無(wú)標(biāo)簽樣本進(jìn)行訓(xùn)練,屬于無(wú)監(jiān)督學(xué)習(xí)算法;DBN通過(guò)組合許多RBM,把上一層RBM的特征激勵(lì)作為下一層的訓(xùn)練數(shù)據(jù),從而可以對(duì)隱層的數(shù)據(jù)特征進(jìn)行高效的學(xué)習(xí)[35]。
圖2 深度信念網(wǎng)絡(luò)[43]Fig.2 Deep belief network[43]
DBN的構(gòu)建步驟如下:
步驟1,首先充分訓(xùn)練第一個(gè)RBM,將訓(xùn)練得到的權(quán)重和偏移量固定,并將隱層作為第二個(gè)RBM的輸入向量。
步驟2,采用同樣的方法訓(xùn)練第二個(gè)RBM,并將第二個(gè)RBM堆疊在第一個(gè)RBM的上方。
1.2.3卷積神經(jīng)網(wǎng)絡(luò)CNN
CNN是受生物學(xué)上的感受野機(jī)制而提出的,經(jīng)過(guò)不斷的改進(jìn)最終發(fā)展成一個(gè)特別適合圖像處理的深度學(xué)習(xí)模型,同時(shí)CNN是一種特殊的神經(jīng)網(wǎng)絡(luò)模型:一方面,CNN除了全連接層與輸出層之外的神經(jīng)元之間采用部分連接,而傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)都是采用全連接的方式,這就使得傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練耗時(shí)且難以訓(xùn)練;另一方面,CNN在同一層的神經(jīng)元之間共享權(quán)值,通過(guò)權(quán)值的共享既減少了權(quán)值的數(shù)量又降低了網(wǎng)絡(luò)模型的復(fù)雜度。目前在國(guó)際標(biāo)準(zhǔn)的ImageNet數(shù)據(jù)集上,許多成功的模型都是基于CNN,如大規(guī)模圖像識(shí)別的深度學(xué)習(xí)網(wǎng)絡(luò)GoogLeNet[44]和Adam[45]以及LeNet-5[46]等。
CNN的基本單元是stage,其結(jié)構(gòu)如圖3所示,每個(gè)stage模塊都是由卷積層(convolution layer)和池化層(pooling player)組成[47],卷積層用于增強(qiáng)原始信號(hào)、提高信噪比,且通過(guò)權(quán)值的共享減少了模型的訓(xùn)練參數(shù)和計(jì)算的復(fù)雜度;池化層通過(guò)減少卷積層之間的連接,進(jìn)一步減少訓(xùn)練的數(shù)據(jù)量,同時(shí)對(duì)卷積層的輸出進(jìn)行降采樣,達(dá)到減少下一層的數(shù)據(jù)的效果[48]。通過(guò)將多個(gè)stage堆疊在一起,并在模型的末端加入全連接層和分類器就構(gòu)成CNN。
圖3 CNN的基本結(jié)構(gòu)單元stage[47]Fig.3 Stage is the basic unit of the convolutional neural network[47]
深度學(xué)習(xí)從人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來(lái),訓(xùn)練方法繼承了人工神經(jīng)網(wǎng)絡(luò)的反向傳播方法和梯度下降方法,反向傳播算法[49](back propagation,BP)是從大量樣本數(shù)據(jù)中學(xué)習(xí)到統(tǒng)計(jì)規(guī)律,從而對(duì)測(cè)試樣本做出判別。相比人工提取特征,反向傳播算法消除了手工設(shè)計(jì)的影響,具有很大的優(yōu)越性,但采用BP算法訓(xùn)練深層結(jié)構(gòu)的網(wǎng)絡(luò)時(shí)存在以下兩個(gè)問(wèn)題:一是BP算法主要解決復(fù)雜的非線性問(wèn)題,網(wǎng)絡(luò)的權(quán)值沿著局部方向逐漸調(diào)整,使得權(quán)值收斂到局部極小點(diǎn),從而導(dǎo)致整個(gè)網(wǎng)絡(luò)訓(xùn)練失??;二是訓(xùn)練速度慢,而且在訓(xùn)練深層次結(jié)構(gòu)的網(wǎng)絡(luò)時(shí)效果不明顯。
批量梯度下降法、隨機(jī)梯度下降法是對(duì)BP算法進(jìn)行改進(jìn)的優(yōu)化方法。批量梯度下降法[50]是最原始的梯度下降法,通過(guò)最小化所有訓(xùn)練樣本的損失函數(shù)使得最終求解的是全局最優(yōu)解,它的優(yōu)點(diǎn)是得到一個(gè)全局最優(yōu)解,而且易于實(shí)現(xiàn)并行,但批量梯度下降每次學(xué)習(xí)都要使用整個(gè)訓(xùn)練集,可能導(dǎo)致非凸函數(shù)收斂于局部極值點(diǎn),同時(shí)訓(xùn)練過(guò)程會(huì)隨著樣本數(shù)量的加大導(dǎo)致訓(xùn)練時(shí)間過(guò)長(zhǎng)。隨機(jī)梯度下降法[51]是通過(guò)對(duì)所有樣本進(jìn)行隨機(jī)選擇最小化,每條樣本的損失函數(shù)來(lái)求解最優(yōu)解,在更新模型參數(shù)時(shí)只選擇一個(gè)樣本。其優(yōu)點(diǎn)是訓(xùn)練速度快,但隨機(jī)梯度下降法需要人為調(diào)整很多超參數(shù),如學(xué)習(xí)速率、收斂準(zhǔn)則、層數(shù)以及每層的單元個(gè)數(shù)等,這些超參數(shù)若選擇不當(dāng)可能導(dǎo)致每次更新不會(huì)按照全局的方向進(jìn)行。
在深度學(xué)習(xí)模型中涉及多個(gè)非線性處理單元層,優(yōu)化目標(biāo)為非凸函數(shù),當(dāng)使用批量梯度下降法、隨機(jī)梯度下降法來(lái)訓(xùn)練深層網(wǎng)絡(luò)時(shí),會(huì)出現(xiàn)訓(xùn)練時(shí)間過(guò)長(zhǎng)、梯度不穩(wěn)定、目標(biāo)函數(shù)常常陷入局部最優(yōu)等問(wèn)題,同時(shí)隨著網(wǎng)絡(luò)層數(shù)的增加,局部最優(yōu)的情況越來(lái)越嚴(yán)重[26]。為了克服這一問(wèn)題,Hinton提出一種貪婪逐層預(yù)訓(xùn)練方法[4]:首先逐層構(gòu)建單層神經(jīng)元,并每次訓(xùn)練一個(gè)單層網(wǎng)絡(luò),然后在所有層都訓(xùn)練完成后采用wake-sleep算法[52]進(jìn)行調(diào)優(yōu),該方法通過(guò)在非監(jiān)督數(shù)據(jù)上建立多層神經(jīng)網(wǎng)絡(luò)的方法有效克服了訓(xùn)練過(guò)程中梯度下降法的局部最小值和梯度不穩(wěn)定的缺點(diǎn)。
Hinton提出的貪婪逐層預(yù)訓(xùn)練方法在訓(xùn)練過(guò)程中加入無(wú)監(jiān)督學(xué)習(xí)作為預(yù)訓(xùn)練,這是目前深度學(xué)習(xí)模型的訓(xùn)練過(guò)程與人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練的主要區(qū)別??偨Y(jié)起來(lái),深度學(xué)習(xí)訓(xùn)練過(guò)程大致可以分以下兩步:
我國(guó)的行政強(qiáng)制執(zhí)行實(shí)行行政機(jī)關(guān)強(qiáng)制執(zhí)行(限于有法律明確授權(quán)情形)與申請(qǐng)人民法院強(qiáng)制執(zhí)行并存的“二元制”格局。實(shí)踐中,大量行政行為因?yàn)閷?shí)施機(jī)關(guān)沒(méi)有法定行政強(qiáng)制執(zhí)行權(quán),需要通過(guò)申請(qǐng)法院強(qiáng)制執(zhí)行。受復(fù)雜因素的影響與制約,法院辦理此類案件的難度較大,執(zhí)行的積極性與效果不夠理想。于是,界于二者之間,由法院負(fù)責(zé)“裁”、行政機(jī)關(guān)負(fù)責(zé)“執(zhí)”的裁執(zhí)分離模式應(yīng)運(yùn)而生。由于該模式有效解決了行政機(jī)關(guān)想執(zhí)行卻無(wú)權(quán)、法院有權(quán)卻難以執(zhí)行的困境,確立了制度化的行政、司法協(xié)作與監(jiān)督機(jī)制,既調(diào)動(dòng)了雙方的積極性,又確保了執(zhí)行的合法性與有效性。
1)自下而上的非監(jiān)督學(xué)習(xí):采用無(wú)標(biāo)簽數(shù)據(jù)從底層開始逐層向上分層訓(xùn)練各層參數(shù),具體來(lái)說(shuō)就是先采用無(wú)標(biāo)簽數(shù)據(jù)訓(xùn)練第一層,訓(xùn)練時(shí)先學(xué)習(xí)第一層的參數(shù),然后將第一層的輸出作為第二層的輸入,依次類推,直至訓(xùn)練到最頂層,由此得到各層的參數(shù),由于模型容量限制以及稀疏性約束,使得得到的模型能夠?qū)W習(xí)到數(shù)據(jù)本身的結(jié)構(gòu),從而更具表示能力的特征,這個(gè)過(guò)程可以看作是一個(gè)無(wú)監(jiān)督訓(xùn)練過(guò)程,是與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分;
2)自上而下的監(jiān)督學(xué)習(xí):在第一步學(xué)習(xí)各層參數(shù)的基礎(chǔ)上,在網(wǎng)絡(luò)的最頂層添加一個(gè)分類器,通過(guò)帶標(biāo)簽的數(shù)據(jù)訓(xùn)練,使誤差自上向下傳輸,從而對(duì)網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu),然后再利用第一步中得到的各層參數(shù)進(jìn)一步微調(diào)整個(gè)多層模型的參數(shù),這一過(guò)程可以看成是一個(gè)有監(jiān)督訓(xùn)練的過(guò)程。
深度學(xué)習(xí)廣泛應(yīng)用于醫(yī)學(xué)圖像識(shí)別中,通過(guò)在給定的數(shù)據(jù)集上訓(xùn)練模型來(lái)完成新數(shù)據(jù)上的特定任務(wù),而在傳統(tǒng)的醫(yī)學(xué)圖像識(shí)別方法是:基于多特征融合方法、基于奇異值分解和小波變換方法,對(duì)于特征的提取效率低且挖掘到的信息有限,識(shí)別效果不理想。相比傳統(tǒng)的醫(yī)學(xué)圖像識(shí)別方法,深度學(xué)習(xí)能夠挖掘到醫(yī)學(xué)圖像中潛在的非線性關(guān)系,特征提取效率更高。近年來(lái),已有不少的研究人員將深度學(xué)習(xí)應(yīng)用在醫(yī)學(xué)圖像識(shí)別中,這些工作為進(jìn)一步的臨床應(yīng)用研究提供了重要的依據(jù)。疾病檢測(cè)與分類是針對(duì)一批樣本人群進(jìn)行的,以確定某個(gè)樣本是否患病或者其患病程度如何;而病變識(shí)別一般是針對(duì)某個(gè)樣本自身醫(yī)學(xué)圖像中某個(gè)病變部位和其他部分的識(shí)別。目前深度學(xué)習(xí)方法在醫(yī)學(xué)圖像領(lǐng)域的上述兩方面中被廣泛應(yīng)用,具體研究成果見表1,同時(shí)深度學(xué)習(xí)在圖像配準(zhǔn)、分割等圖像預(yù)處理過(guò)程中也得到了廣泛應(yīng)用,由于篇幅有限對(duì)此部分不做綜述。因此本節(jié)主要從疾病檢測(cè)與分類和病變識(shí)別兩個(gè)方面來(lái)介紹深度學(xué)習(xí)在醫(yī)學(xué)圖像識(shí)別中的研究進(jìn)展。
Tab.1Inrecentyears,theapplicationofdeeplearningindiseasedetectionandclassificationandlesionrecognition
類別時(shí)間問(wèn)題使用模型疾2016AD/正常人[53]CNN病2015AD/MCI分類[54]RBM+SVM檢2016惡性腫瘤檢測(cè)[55]CNN測(cè)2014間質(zhì)性肺疾病分類[65]CNN與2016肺部結(jié)節(jié)分類[64]CNN分2016大腸腺癌檢測(cè)、分類[56]SC-CNN類2016腦微出血檢測(cè)[57]3DCNN2016腹部淋巴結(jié)檢測(cè)[58]CNN2015硬化轉(zhuǎn)移、淋巴結(jié)等檢測(cè)[61]CNN病2013低麟狀上皮內(nèi)病變[67]DBN變2015核性白內(nèi)障的病變[68]CNN+SVM識(shí)2013Huntington舞蹈病[70]DBN別2014多并發(fā)硬化癥病變[71]DBN2016乳腺病變[73]CNN2013腫瘤細(xì)胞識(shí)別[74]CNN+SVM2016糖尿病視網(wǎng)膜病變[75]CNN2014淋巴結(jié)識(shí)別[76]CNN2015食道癌[77]3S-CNN
醫(yī)學(xué)圖像中包含著大量的反映人體健康水平的信息,目前這部分?jǐn)?shù)據(jù)主要依靠人工進(jìn)行分析,易受主觀因素的干擾且效率不高,容易造成數(shù)據(jù)資源的浪費(fèi)。深度學(xué)習(xí)通過(guò)多層非線性變化,從海量數(shù)據(jù)中自動(dòng)提取抽象特征,既消除了主觀因素的影響又能提取到更加高級(jí)的抽象特征。
深度學(xué)習(xí)在阿爾茨海默病(alzheimer disease,AD)和輕度認(rèn)知障礙(mild cognitive impairment,MCI)中有大量的研究。Sarraf等使用CNN分類患有AD病的大腦和正常大腦,該模型對(duì)患有AD病的大腦和正常大腦的分類準(zhǔn)確率高達(dá)96.85%[53],該模型還能夠擴(kuò)展到更加復(fù)雜的分類任務(wù);Li等將RBM作為基本單元構(gòu)建深度學(xué)習(xí)模型,并用于從MRI和PET掃描圖像中分類AD/MCI患者,該模型分類準(zhǔn)確率平均提高5.9%[54]。
在實(shí)際的應(yīng)用中基于深度學(xué)習(xí)的計(jì)算機(jī)輔助診斷將醫(yī)學(xué)圖像中與疾病診斷相關(guān)的特征提取出來(lái),結(jié)合臨床知識(shí)在很大程度上減少醫(yī)生的工作量,得到十分精確的診斷或分類結(jié)果。Enlitic公司開發(fā)出基于CNN的惡性腫瘤檢測(cè)系統(tǒng)[55],對(duì)放射師檢查過(guò)的大量醫(yī)學(xué)圖像數(shù)據(jù)進(jìn)行學(xué)習(xí),自動(dòng)總結(jié)出代表惡性腫瘤形狀的“特征”,從而識(shí)別圖像中是否存在惡性腫瘤,該系統(tǒng)識(shí)別肝癌的精度是放射師檢查精度的5倍。Sirinukunwattana使用空間約束卷積神經(jīng)網(wǎng)絡(luò)(spatially constrained convolutional neural network,SC-CNN)來(lái)檢測(cè)和分類大腸腺癌細(xì)胞[56],在分類問(wèn)題上使用鄰近集成預(yù)測(cè)(neighboring ensemble predictor,NEP)方法,該方法相對(duì)基于經(jīng)典特征分類的方法有更好的分類效果;Dou使用3D CNN從MR圖像中自動(dòng)檢測(cè)腦微出血(cerebral microbleeds,CMBs)[57],該方法從MRI圖像中提取更具代表性的高級(jí)特征,相對(duì)手工提取特征和2D CNN提取特征,3D CNN檢測(cè)精度高達(dá)93.16%。
相對(duì)于數(shù)字圖像和灰度圖像來(lái)說(shuō),醫(yī)學(xué)圖像不易獲得且數(shù)據(jù)量少,這是深度學(xué)習(xí)應(yīng)用在醫(yī)學(xué)圖像領(lǐng)域的一個(gè)共性問(wèn)題。數(shù)據(jù)的缺少易造成過(guò)擬合問(wèn)題,進(jìn)而導(dǎo)致檢測(cè)和分類結(jié)果不理想,當(dāng)前有不少研究者在這方面做了很多方面的探索:如Shin將深度學(xué)習(xí)應(yīng)用于CT圖像中腹部淋巴結(jié)(三維圖像)的檢測(cè)和間質(zhì)性肺病的分類(二維圖像)[58],他通過(guò)transfer learning方法[59]增加數(shù)據(jù)量,這項(xiàng)研究表明,transfer learning能減少因數(shù)據(jù)的缺乏而帶來(lái)的影響,有助于提高分類的準(zhǔn)確率;Roth針對(duì)CNN訓(xùn)練過(guò)程中數(shù)據(jù)不足,通過(guò)data augmentation方法[60]擴(kuò)充訓(xùn)練樣本和測(cè)試樣本的數(shù)據(jù)量,該模型對(duì)硬化轉(zhuǎn)移檢測(cè)的準(zhǔn)確率提高了13%,淋巴結(jié)檢測(cè)的準(zhǔn)確率提高了27%,結(jié)腸息肉檢測(cè)的準(zhǔn)確率提高了17%[61];數(shù)據(jù)的缺少不僅容易出現(xiàn)過(guò)擬合問(wèn)題,而且容易導(dǎo)致模型在測(cè)試數(shù)據(jù)上的泛化能力難以得到保證。Srivastava等提出dropout技術(shù)[62],通過(guò)在訓(xùn)練過(guò)程中隨機(jī)剔除神經(jīng)元來(lái)避免出現(xiàn)過(guò)擬合問(wèn)題從而提高模型的泛化能力;Wan在dropout思想的基礎(chǔ)上提出dropconnect方法[63]。 Setio使用包含多個(gè)2D卷積神經(jīng)網(wǎng)絡(luò)的多視圖卷積網(wǎng)絡(luò)(multi-view convolutional networks, MVCN)檢測(cè)肺結(jié)節(jié)疾病[64],采用data augmentation和dropout方法避免出現(xiàn)過(guò)擬合問(wèn)題,準(zhǔn)確率高達(dá)90.1%。Li等使用CNN模型來(lái)分類間質(zhì)性肺病[65],該模型采用dropout方法和單卷積層結(jié)構(gòu)來(lái)避免出現(xiàn)過(guò)擬合問(wèn)題。
病變識(shí)別是深度學(xué)習(xí)方法在醫(yī)學(xué)圖像中的重要應(yīng)用之一,傳統(tǒng)的病變識(shí)別如小波變換方法等對(duì)病變識(shí)別的準(zhǔn)確率不高,將深度學(xué)習(xí)應(yīng)用于病變識(shí)別具有獨(dú)特的優(yōu)點(diǎn):深度學(xué)習(xí)模型能夠更快地處理數(shù)據(jù),通過(guò)深度學(xué)習(xí)模型預(yù)測(cè)異常病變可以降低病變的機(jī)率,同時(shí)可提高醫(yī)生診斷的準(zhǔn)確率和效率。
相比普通的圖像識(shí)別,醫(yī)學(xué)圖像識(shí)別問(wèn)題更加復(fù)雜,對(duì)某些復(fù)雜的醫(yī)學(xué)圖像識(shí)別問(wèn)題,可以通過(guò)構(gòu)造更加深層、更加復(fù)雜的深度學(xué)習(xí)模型來(lái)解決。Chakdar使用DBN進(jìn)行基于子宮抹片識(shí)別低級(jí)別麟狀上皮內(nèi)的病變(low grade squamous intraepithelial lesion, LGSIL),該方法將DBN提取出來(lái)的特征和原始特征共同作用于SVM模型使得分類準(zhǔn)確率達(dá)到100%[66];Kondo利用主成分回歸分析算法結(jié)合深層GMDH型神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別醫(yī)學(xué)圖像中的左右腎區(qū)的病變[67],該模型通過(guò)自動(dòng)適應(yīng)網(wǎng)絡(luò)中的結(jié)構(gòu)參數(shù)來(lái)提高識(shí)別的準(zhǔn)確率;Gao使用CNN和SVM構(gòu)建一個(gè)自動(dòng)學(xué)習(xí)特征的系統(tǒng),并用于識(shí)別圖像中核性白內(nèi)障的病變,該模型的準(zhǔn)確率提高了5.6%[68];Yan等設(shè)計(jì)了一個(gè)多階段深度學(xué)習(xí)框架并用于身體部位病變識(shí)別,在訓(xùn)練階段,通過(guò)CNN來(lái)提取最具差異性的特征和從訓(xùn)練切片中提取局部信息;在增強(qiáng)階段,經(jīng)過(guò)預(yù)訓(xùn)練的CNN進(jìn)一步增強(qiáng)圖像的局部信息,相對(duì)基于全局圖像上下文的方法,局部方法魯棒性更好,準(zhǔn)確率高達(dá)92.23%[69]。
目前也有不少研究者根據(jù)某些病理特征來(lái)進(jìn)行病變識(shí)別。Plis[70]根據(jù)頭顱CT或MRI圖像中的尾狀核萎縮程度與疾病的嚴(yán)重程度有關(guān),將DBN應(yīng)用于大腦結(jié)構(gòu)和功能磁共振成像來(lái)識(shí)別Huntington病變,實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)方法能夠?qū)W習(xí)重要的生理特征從而提高Huntington病變的識(shí)別;Brosch使用三個(gè)DBN對(duì)大腦形態(tài)變化建立模型,該模型能夠自動(dòng)捕捉到腦形態(tài)和腦白質(zhì)的病變情況,從而對(duì)腦白質(zhì)進(jìn)行病變識(shí)別[71];Xu使用堆棧稀疏自動(dòng)編碼器(stacked sparse autoencoder, SAE)來(lái)識(shí)別乳腺癌組織病理學(xué)圖像上的細(xì)胞核,通過(guò)去噪自動(dòng)編碼器(denoising autoencoder, DA)來(lái)提高噪聲的魯棒性,準(zhǔn)確率高達(dá)88.84%[72]。
此外,有研究者通過(guò)借助醫(yī)學(xué)圖像中的識(shí)別對(duì)象物的技術(shù)來(lái)進(jìn)行病變識(shí)別,如Kooi將CNN用于乳腺惡性病變識(shí)別,該方法在低靈敏度下識(shí)別結(jié)果比傳統(tǒng)的計(jì)算機(jī)輔助方法更優(yōu),在高靈敏度下準(zhǔn)確率更高[73];Cruz-Roa將自編碼神經(jīng)網(wǎng)絡(luò)用于識(shí)別圖像中的腫瘤細(xì)胞,該模型增加兩個(gè)有助于區(qū)分癌組織和正常組織的可判斷層,相比傳統(tǒng)方法,該方法的準(zhǔn)確率提高了7%[74]。
深度學(xué)習(xí)應(yīng)用在醫(yī)學(xué)圖像領(lǐng)域中訓(xùn)練時(shí)間普遍過(guò)長(zhǎng),對(duì)硬件要求高,模型可移植性差,這是深度學(xué)習(xí)應(yīng)用在醫(yī)學(xué)圖像領(lǐng)域的另一個(gè)共性問(wèn)題。有研究者通過(guò)改進(jìn)基本的深度學(xué)習(xí)模型,可以減少訓(xùn)練時(shí)間, van針對(duì)訓(xùn)練過(guò)程中時(shí)間過(guò)長(zhǎng)提出一種改進(jìn)的CNN,用于檢測(cè)彩色眼底圖像出血病變,在每個(gè)訓(xùn)練過(guò)程中從訓(xùn)練數(shù)據(jù)里隨機(jī)選擇樣本進(jìn)行訓(xùn)練,迭代次數(shù)從170次減少到60次,從而大大減少訓(xùn)練時(shí)間[75]。
機(jī)器學(xué)習(xí)方法廣泛地應(yīng)用于醫(yī)學(xué)圖像識(shí)別中,通過(guò)在給定的數(shù)據(jù)集上的訓(xùn)練模型來(lái)完成新數(shù)據(jù)上的特定任務(wù)。然而,一方面?zhèn)鹘y(tǒng)的機(jī)器學(xué)習(xí)算法常常需要利用先驗(yàn)知識(shí)從原始數(shù)據(jù)中人工提取特征來(lái)訓(xùn)練模型,此方法難以提取到復(fù)雜特征,而且由于特征選取難度大,可能出現(xiàn)過(guò)擬合問(wèn)題,模型的泛化能力難以得到保證;另一方面,隨著醫(yī)學(xué)圖像產(chǎn)出量的增大,傳統(tǒng)方法難以適應(yīng)大規(guī)模的數(shù)據(jù)集,模型可移植能力差。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的新興領(lǐng)域,在圖像處理和計(jì)算機(jī)視覺方面的成功為醫(yī)學(xué)圖像的識(shí)別提供了新的思路。盡管當(dāng)前深度學(xué)習(xí)在醫(yī)學(xué)圖像識(shí)別中已取得一定經(jīng)驗(yàn)性的研究成果,但就總體而言,深度學(xué)習(xí)在醫(yī)學(xué)圖像識(shí)別中的應(yīng)用還處于起步階段,未來(lái)還有許多的問(wèn)題需要深入研究:
1)在計(jì)算機(jī)視覺領(lǐng)域通過(guò)利用大量訓(xùn)練數(shù)據(jù)取得了突破性研究進(jìn)展,如2015年何凱明設(shè)計(jì)一個(gè)具有152層的ResNet模型將錯(cuò)誤率刷新到3.6%,該模型在ImageNet2 012分類數(shù)據(jù)集上訓(xùn)練了128萬(wàn)張圖像[18-19]。但在醫(yī)學(xué)圖像中由于數(shù)據(jù)的采集和疾病罕見等原因使得大規(guī)模醫(yī)學(xué)圖像數(shù)據(jù)的獲取異常困難,可以借助圖像處理中的遷移學(xué)習(xí)(transfer learning)和微調(diào)(fine tuning)來(lái)有效解決這方面的問(wèn)題,但最好的解決方法還是應(yīng)該建立更多公共可用的醫(yī)學(xué)圖像數(shù)據(jù)集,通過(guò)在公共數(shù)據(jù)集上提取更為抽象的特征,從而實(shí)現(xiàn)在醫(yī)學(xué)圖像識(shí)別上取得突破性的研究進(jìn)展。[80-81]
2)深度學(xué)習(xí)本質(zhì)上是模擬人腦進(jìn)行自動(dòng)學(xué)習(xí),從這一角度來(lái)看,深度學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動(dòng)型模型,但當(dāng)前深度學(xué)習(xí)對(duì)無(wú)監(jiān)督數(shù)據(jù)的學(xué)習(xí)能力嚴(yán)重不足,目前無(wú)監(jiān)督學(xué)習(xí)算法主要面臨兩個(gè)方面的困難:一方面是高維數(shù)據(jù)通常具有數(shù)據(jù)維度高、數(shù)據(jù)量大等特性,在高維空間中進(jìn)行相似度量會(huì)遇到低維空間中不曾遇到的問(wèn)題,而相似性度量是無(wú)監(jiān)督學(xué)習(xí)方法的一個(gè)重要指標(biāo);另一方面是數(shù)據(jù)噪聲和不完全數(shù)據(jù)會(huì)影響分析過(guò)程,使得通過(guò)無(wú)監(jiān)督學(xué)習(xí)方法所發(fā)現(xiàn)的模式準(zhǔn)確性差。在未來(lái)可以致力于探索新的無(wú)監(jiān)督學(xué)習(xí)算法,諸如為了提高可操作性,無(wú)監(jiān)督學(xué)習(xí)算法應(yīng)該具有交互能力,可交互的無(wú)監(jiān)督學(xué)習(xí)算法的研究是一個(gè)重要的方向;為了更好地研究疾病,基于醫(yī)學(xué)圖像獨(dú)特的復(fù)雜性、豐富性、重要性,需要針對(duì)這方面的無(wú)監(jiān)督學(xué)習(xí)方法進(jìn)行深入研究,如針對(duì)癌細(xì)胞、大腦疾病的無(wú)監(jiān)督學(xué)習(xí)。
另外,不同醫(yī)院采集數(shù)據(jù)的設(shè)備之間的異同使得采集到的圖像質(zhì)量有所差異,采集到的不同圖像會(huì)影響特征的提取并對(duì)最終的結(jié)果起著決定性作用,為此開發(fā)出一種新穎的算法,有效克服不同設(shè)備獲取的圖像差異帶來(lái)的影響,這也是未來(lái)的一個(gè)重要的研究方向。
[1] May M. Life science technologies: Big biological impacts from big data[J]. Science, 2014, 344(6189): 1298-1300.
[2] Hinton GE, Ruslan R. Salakhutdinov. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.
[3] 周志華. 機(jī)器學(xué)習(xí)[M]. 北京:清華大學(xué)出版社, 2016:1-18.
[4] Hinton GE, Osindero S, Teh YW. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.
[5] Bengio Y, Lamblin P, Dan P, et al. Greedy layer-wise training of deep networks[C] // International Conference on Neural Information Processing Systems. Kitakyushu: Computer Science, 2007:153-160.
[6] Suk HI, Lee SW, Shen D, et al. Latent feature representation with stacked auto-encoder for AD/MCI diagnosis[J]. Brain Structure and Function, 2015, 220(2): 841-859.
[7] Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.
[8] Wei Xu, Rudnicky A. Language modeling for dialog system[C] // International Conference on Spoken Language Processing. Beijing: DBLP, 2000:118-121.
[9] Mikolov T, Deoras A, Povey D, et al. Strategies for training large scale neural network language models[C] //Automatic Speech Recognition and Understanding. Providence: IEEE, 2012:196-201.
[10] Hinton GE. Modeling pixel means and covariances using factorized third-order Boltzmann machines[C] // 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco: IEEE, 2010: 2551-2558.
[11] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2818-2826
[12] Kivinen J, Williams C, Heess N. Visual boundary prediction: A deep neural prediction network and quality dissection[J]. Journal of Machine Learning Research: Workshop and Conference Proceedings, 2014,33: 512-521.
[13] Kris MG, Gucalp A, Epstein AS, et al. Assessing the performance of Watson for oncology, a decision support system, using actual contemporary clinical cases[J]. 2015 33(15):8023-8023.
[14] Haykin S, 著, 申富饒, 徐燁, 鄭俊, 等譯. 神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)[M]. 第三版. 北京: 機(jī)械工業(yè)出版社, 2011:1-25.
[15] Mason L, Baxter J, Bartlett P, et al. Boosting algorithms as gradient descent[C] // International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2000:512-518.
[16] Suykens, Johan AK, and Joos Vandewalle. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3): 293-300.
[17] Huang, Fu Jie, and Yann LeCun. Large-scale Learning with SVM and Convolutional for Generic Object Categorization[C] // IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2006:284-291.
[18] Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks[C] // International Conference on Neural Information Processing Systems. Lake Tahoe: Curran Associates Inc, 2012:1097-1105.
[19] Chen J, Deng L. A primal-dual method for training recurrent neural networks constrained by the echo-state property[J]. Proc Int Conf Learning Representations, 2013, 2013(420): 629201-629201.
[20] Graves A, Jaitly N. Towards end-to-end speech recognition with recurrent neural networks[C] // Proceedings of the 31st International Conference on Machine Learning. Beijing: ICML, 2014: 1764-1772.
[21] Yu D, Wang S, Karam Z, et al. Language recognition using deep-structured conditional random fields[C] //IEEE International Conference on Acoustics Speech and Signal Processing. Dallas: IEEE, 2010:5030-5033.
[22] Seltzer Michael L, Droppo J. Multi-task learning in deep neural networks for improved phoneme recognition[C] // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Vancouver: IEEE, 2013: 6965-6969.
[23] Zhang K, Zuo W, Chen Y, et al. Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising [J]. IEEE Transactions on Image Processing, 2017, 26(7):3142-3154.
[24] Kim JH, Lee SW, Kwak D, et al. Multimodal residual learning for visual QA[C] // Advances in Neural Information Processing Systems. Barcelona: MIT Press, 2016: 361-373.
[25] Wang Xiao Gang. Deep learning in image recognition[J]. Communications of the CCF, 2015, 11(8): 15-23.
[26] 鄧力, 俞棟. 深度學(xué)習(xí):方法及應(yīng)用[M]. 北京: 機(jī)械工業(yè)出版社, 2016.3-4.
[27] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553):436-444.
[28] 孫志遠(yuǎn), 魯成祥, 史忠植, 等. 深度學(xué)習(xí)研究與進(jìn)展[J]. 計(jì)算機(jī)科學(xué), 2016, 43(2):1-8.
[29] Goodfellow I, Mirza M, Courville A, et al. Multi-prediction deep Boltzmann machines[C] //Advances in Neural Information Processing Systems. Lake Tahoe: MIT Press, 2013: 548-556.
[30] Gens R, Domingos P. Discriminative learning of sum-product networks[C] // Advances in Neural Information Processing Systems. Lake Tahoe: MIT Press, 2012: 3239-3247.
[31] Deng L, Li X. Machine learning paradigms for speech recognition: An overview[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(5): 1060-1089.
[32] Vinyals O, Jia Y, Deng L, et al. Learning with recursive perceptual representations[C] // Advances in Neural Information Processing Systems. Lake Tahoe: MIT Press, 2012: 2825-2833.
[33] Graves A, Jaitly N, Mohamed A. Hybrid speech recognition with deep bidirectional LSTM[C]// Automatic Speech Recognition and Understanding. Olomouc: IEEE, 2013: 273-278.
[34] Yu D, Deng L. Deep-Structured Hidden Conditional Random Fields for Phonetic Recognition[C]//Conference of the International Speech Communication Association. Makuhari: BBLP, 2010: 2986-2989.
[35] Deng L, Yu D. Deep learning: methods and applications[J]. Foundations & Trends in Signal Processing, 2013, 7(3):197-387.
[36] Dahl GE, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 30-42.
[37] Pascanu R, Mikolov T, Bengio Y. On the difficulty of training Recurrent Neural Networks[J]. Computer Science, 2012, 52(3):III-1310.
[38] Imseng D, Motlicek P, Garner PN, et al. Impact of deep MLP architecture on different acoustic modeling techniques for under-resourced speech recognition[C] //Automatic Speech Recognition and Understanding. Olomouc: IEEE, 2013: 332-337.
[39] Bengio Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning, 2009, 2(1): 1-127.
[40] Bengio Y, Delalleau O. On the expressive power of deep architectures[M] // Algorithmic Learning Theory. Berlin: Springer, 2011:18-36.
[41] 曲建嶺, 杜辰飛, 邸亞洲, 等. 深度自動(dòng)編碼器的研究與展望[J]. 計(jì)算機(jī)與現(xiàn)代化, 2014, 8(228):128-134.
[42] Salakhutdinov R, Hinton GE. Deep Boltzmann Machines[J]. Journal of Machine Learning Research, 2009, 5(2):1967-2006.
[43] 山世光, 闞美娜, 劉昕,等. 深度學(xué)習(xí):多層神經(jīng)網(wǎng)絡(luò)的復(fù)興與變革[J]. 科技導(dǎo)報(bào), 2016, 34(14):60-70.
[44] Szegedy C, Liu Wei, Jia Y, et al. Going deeper with convolutions[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1-9.
[45] Chilimbi T, Suzue Y, Apacible J, et al. Project Adam: building an efficient and scalable deep learning training system[C] //Usenix Conference on Operating Systems Design and Implementation. Berkeley: USENIX Association, 2014:571-582.
[46] Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C] //Proceedings of the 25th international conference on Machine learning. Helsinki: ICML, 2008: 1096-1103.
[47] 李淵, 駱志剛, 管乃洋, 等. 生物醫(yī)學(xué)數(shù)據(jù)分析中的深度學(xué)習(xí)方法應(yīng)用[J]. 生物化學(xué)與生物物理進(jìn)展, 2016 43(5):472-483.
[48] Dean J, Corrado GS, Monga R, et al. Large scale distributed deep networks[C] // International Conference on Neural Information Processing Systems. New York: Curran Associates Inc, 2012:1223-1231.
[49] Mcclelland J. Learning internal representations by error propagation[J]. Readings in Cognitive Science, 1988, 1(2):399-421.
[50] Burges C, Shaked T, Renshaw E, et al. Learning to rank using gradient descent[C]//Proceedings of the 22nd International Conference on Machine Learning. Bonn: ICML, 2005: 89-96.
[51] Johnson R, Zhang T. Accelerating stochastic gradient descent using predictive variance reduction[C]//International Conference on Neural Information Processing Systems. New York: Curran Associates Inc, 2013:315-323.
[52] Hinton GE, Dayan P, Frey BJ, et al. The" wake-sleep" algorithm for unsupervised neural networks[J]. Science, 1995, 268(5214): 1158-1169.
[53] Sarraf S, Tofighi G. Classification of alzheimer's disease using fmri data and deep learning convolutional neural networks[J]. IEEE Transactions on Medical Imaging, 2016, 29(3): 1026-1031
[54] Li F, Tran L, Thung KH, et al. A robust deep model for improved classification of AD/MCI patients[J]. IEEE Journal of Biomedical & Health Informatics, 2015, 19(5):1610-1616.
[55] Summers RM. Progress in fully automated abdominal CT interpretation[J]. American Journal of Roentgenology, 2016, 207(1): 67-79.
[56] Sirinukunwattana K, Raza SEA, Tsang YW, et al. Locality sensitive deep learning for detection and classification of nuclei in routine colon cancer histology images[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1196-1206.
[57] Dou Q, Chen H, Yu L, et al. Automatic Detection of Cerebral Microbleeds From MR Images via 3D Convolutional Neural Networks[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1182-1195.
[58] Shin HC, Roth HR, Gao M, et al. Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics and transfer learning[J]. IEEE Transactions on Medical Imaging, 2016, 35(5):1285-1298.
[59] Dai W, Yang Q, Xue GR, et al. Boosting for transfer learning[C] // Proceedings of the 24th International Conference on Machine Learning. Corvallis: ICML, 2007: 193-200.
[60] Charalambous CC, Bharath AA. A data augmentation methodology for training machine/deep learning gait recognition algorithms[J]. IEEE Transactions on Medical Imaging, 2016, 24(10): 1016-1027.
[61] Roth H, Lu L, Liu J, et al. Improving computer-aided detection using convolutional neural networks and random view aggregation[J]. IEEE Transactions on Medical Imaging, 2015, 35(5):1170-1181.
[62] Srivastava N. Improving Neural Networks with Dropout[D]. Toronto: University of Toronto, 2013.
[63] Wan L, Zeiler M, Zhang S, et al. Regularization of neural networks using dropconnect[C] //Proceedings of the 30th International Conference on Machine Learning. Atlanta: ICML, 2013: 1058-1066.
[64] Setio A A, Ciompi F, Litjens G, et al. Pulmonary nodule detection in CT images: false positive reduction using multi-view convolutional networks[J]. IEEE Transactions on Medical Imaging, 2016, 35(5):1160-1169.
[65] Li Q, Cai W, Wang X, et al. Medical image classification with convolutional neural network[C] // International Conference on Control Automation Robotics & Vision. Marina Bay: IEEE, 2014:844-848.
[66] Chakdar K, Potetz B. Deep learning for the semiautomated analysis of pap smears[J]. Medical Applications of Artificial Intelligence, 2014, 18(1): 193-213.
[67] Kondo T, Takao S, Ueno J. The 3-dimensional medical image recognition of right and left kidneys by deep GMDH-type neural network[C] // Intelligent Informatics and Biomedical Sciences (ICIIBMS). Rhodes: IEEE, 2015: 313-320.
[68] Gao X, Lin S, Wong TY. Automatic feature learning to grade nuclear cataracts based on deep learning[J]. IEEE Transactions on Biomedical Engineering, 2015, 62(11): 2693-2701.
[69] Yan Z, Zhan Y, Peng Z, et al. Multi-instance deep learning: discover discriminative local anatomies for bodypart recognition[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1332-1343.
[70] Plis SM, Hjelm DR, Salakhutdinov R, et al. Deep learning for neuroimaging: a validation study[J]. Frontiers in Neuroscience, 2013, 8(8):229-240.
[71] Brosch T, Yoo Y, Li DKB, et al. Modeling the variability in brain morphology and lesion distribution in multiple sclerosis by deep learning [M]// Medical Image Computing and Computer-Assisted Intervention-MICCAI 2014. Beilin: Springer International Publishing, 2014:462-469.
[72] Xu J, Xiang L, Liu Q, et al. Stacked sparse autoencoder (SSAE) for nuclei detection on breast cancer histopathology images[J]. IEEE Transactions on Medical Imaging, 2016, 35(1): 119-130.
[73] Kooi T, Litjens G, Van GB, et al. Large scale deep learning for computer aided detection of mammographic lesions.[J]. Medical Image Analysis, 2017, 35(24):303-312.
[74] Cruz-Roa, Angel Alfonso, Ovalle, et al. A deep learning architecture for image representation, visual interpretability and automated basal-cell carcinoma cancer detection[C] // International Conference on Medical Image Computing and Computer-Assisted Intervention. Nagoya: Springer-Verlag, 2013: 403-410.
[75] Grinsven MJJPV, Ginneken BV, Hoyng CB, et al. Fast convolutional neural network training using selective data sampling: Application to hemorrhage detection in color fundus images[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1273-1284.
[76] Roth HR, Lu L, Seff A, et al. A new 2.5D representation for lymph node detection using random sets of deep convolutional neural network observations[J]. Medical Image Computing and Computer-Assisted Intervention, 2014, 17(1):520-527.
[77] Ypsilantis PP, Siddique M, Sohn HM, et al. Predicting response to neoadjuvant chemotherapy with PET imaging using convolutional neural networks[J]. PLoS ONE, 2015, 10(9): 1-18.
[78] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE,2015: 770-778.
[79] Russakovsky O, Deng J, Su H, et al. Image net large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3):211-252.
[80] Huynh BQ, Li H, Giger ML. Digital mammographic tumor classification using transfer learning from deep convolutional neural networks[J]. Journal of Medical Imaging, 2016, 3(3): 034501.
[81] Tajbakhsh N, Shin JY, Gurudu SR, et al. Convolutional neural networks for medical image analysis: Full training or fine tuning?[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1299-1312.