• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學(xué)習(xí)的乳腺癌病理圖像自動分類

      2018-06-26 10:19:44何雪英韓忠義魏本征
      計算機工程與應(yīng)用 2018年12期
      關(guān)鍵詞:識別率卷積病理

      何雪英,韓忠義,魏本征

      山東中醫(yī)藥大學(xué) 理工學(xué)院,濟南 250355

      1 引言

      癌癥是威脅人類健康和生命的主要殺手之一,其中乳腺癌是女性中最常見的癌癥,據(jù)世界衛(wèi)生組織(WHO)下屬的國際癌癥研究中心(IARC)2012年公布的數(shù)據(jù)顯示[1],乳腺癌是造成女性死亡的第二大病癥,且其發(fā)病率呈逐年上升和年輕化的趨勢。臨床上,相對于X-ray、鉬靶、核磁共振等圖像,病理圖像是醫(yī)生最后確診乳腺癌的重要標(biāo)準(zhǔn),而對病理圖像進行準(zhǔn)確地分類是醫(yī)生制訂最佳治療方案的重要依據(jù)。目前基于人工的病理圖像分類,不僅耗時、費力,而且診斷結(jié)果容易受到諸多主觀人為因素的影響,借助于計算機輔助診斷(Computer-Aided Diagnosis,CAD),自動將病理圖像進行良、惡性分類,不僅可以提高診斷效率,還能為醫(yī)生提供更加客觀、準(zhǔn)確的診斷結(jié)果,因而具有重要的臨床應(yīng)用價值。

      乳腺癌病理圖像自動分類是一項非常有挑戰(zhàn)性的工作。一是由于病理圖像自身的特點:圖像之間細微的差異性、細胞重疊現(xiàn)象、顏色分布不均勻等,給圖像分類工作帶來了很大的困難。二是由于缺乏大型公開的、已標(biāo)記的數(shù)據(jù)集,給算法研究帶來一定的困難。盡管如此,在乳腺癌病理圖像的自動分類方面,學(xué)者們已經(jīng)進行了很多研究,并取得了一系列重要的研究進展。主要集中在以下兩個方面:

      (1)基于人工特征提取和傳統(tǒng)機器學(xué)習(xí)算法的乳腺癌病理圖像分類。Kowal等人[2]采用不同的細胞核分割算法,在500幅乳腺癌病理圖像上的識別率為96%~100%。Zhang等人[3]提出了一種基于人工設(shè)計特征的單類核主成分分析方法,對361幅乳腺癌病理圖像分類,識別率為92%?;陬伾臻g下4個形狀特征和138個紋理特征,Wang等人[4]使用支持向量機算法對68幅乳腺癌病理圖像的分類準(zhǔn)確率為96.19%。Spanhol等人[5]公開了乳腺癌病理圖像數(shù)據(jù)集BreaKHis,基于該數(shù)據(jù)集,采用了局部二值模式(LBP)、灰度共生矩陣(GLCM)等6種特征描述子和支持向量機、隨機森林等不同的分類算法進行分類,準(zhǔn)確率達到80%~85%。值得注意的是,上述分類算法大都是在小型數(shù)據(jù)集上開展,算法之間缺乏統(tǒng)一的對比標(biāo)準(zhǔn),準(zhǔn)確率之間不具有可比性。更重要的是,這些算法采用基于人工的特征提取方法,不僅需要專業(yè)領(lǐng)域知識,耗費大量的時間和精力完成,關(guān)鍵是要提取出有區(qū)分性的高質(zhì)量特征也往往存在一定的困難。嚴(yán)重制約了傳統(tǒng)機器學(xué)習(xí)算法在乳腺癌病理圖像分類中的應(yīng)用。

      (2)基于深度學(xué)習(xí)的乳腺癌病理圖像分類。一方面,深度學(xué)習(xí)能夠自動從數(shù)據(jù)中學(xué)習(xí)特征,避免了傳統(tǒng)算法中人工設(shè)計、提取特征的復(fù)雜性和局限性,另一方面,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在自然語言處理、物體識別、圖像分類識別等領(lǐng)域獲得了廣泛應(yīng)用[6-7],為CNN在乳腺癌病理圖像中的應(yīng)用奠定基礎(chǔ)[8-9]。在BreaKHis數(shù)據(jù)集[5]上,Spanhol等人[10]使用AlexNet網(wǎng)絡(luò),采用不同的融合策略分類,其識別率比傳統(tǒng)機器學(xué)習(xí)算法高出6%。Bayramoglu等人[11]同樣在BreaKHis數(shù)據(jù)集上,采用基于放大倍數(shù)獨立的深度學(xué)習(xí)方法分類,其識別率約83%。然而,這些方法的識別率都有待進一步提高,以充分發(fā)揮CAD的作用,更好地滿足臨床應(yīng)用。

      針對上述問題,本文采用一種更深、更復(fù)雜的深度學(xué)習(xí)模型,來避免人工提取特征的復(fù)雜性和局限性,實現(xiàn)乳腺癌病理圖像的自動分類;同時采用先進的數(shù)據(jù)增強方法和遷移——微調(diào)學(xué)習(xí)來防止深度學(xué)習(xí)算法在小樣本集上訓(xùn)練易出現(xiàn)的過擬合,提高圖像的識別率,以適應(yīng)高標(biāo)準(zhǔn)的臨床需求。

      2 方法

      深度學(xué)習(xí)可看作是多層的人工神經(jīng)網(wǎng)絡(luò)[12],通過構(gòu)建含有多個隱層的神經(jīng)網(wǎng)絡(luò)模型,將低層特征通過逐層非線性特征組合變換,形成更加抽象的高層特征表達,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[13]。卷積神經(jīng)網(wǎng)絡(luò)作為最常使用的深度學(xué)習(xí)模型之一,以2D或3D圖像直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)機器學(xué)習(xí)算法中復(fù)雜的特征提取過程,相比全連接的神經(jīng)網(wǎng)絡(luò),其局部連接、權(quán)值共享和下采樣的特性減少了網(wǎng)絡(luò)參數(shù)的數(shù)量,降低了計算復(fù)雜度,同時對圖像的平移、縮放、旋轉(zhuǎn)等變化具有高度不變性。圖1顯示了深度卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)過程,模型從原始圖像僅能學(xué)習(xí)到一些邊緣、紋理、顏色等低層特征,隨著層數(shù)的加深,模型可以學(xué)習(xí)到更抽象的包含豐富語義信息的高層特征。

      圖1 卷積神經(jīng)網(wǎng)絡(luò)特征學(xué)習(xí)的可視化流程

      對比目前常用的深度卷積神經(jīng)網(wǎng)絡(luò)模型LeNet[14]、AlexNet[15]、VGG[16]等,選用ILSVRC14競賽中獲得冠軍的GoogLeNet[17]作為本文模型的基礎(chǔ)架構(gòu),該模型共計22層,主要包括輸入層、2個普通卷積層、9個Inception層和若干池化層。其中,每個Inception層包含6個卷積層和1個池化層。包括Inception結(jié)構(gòu)在內(nèi)的所有卷積都使用ReLU函數(shù)。模型通過Inception結(jié)構(gòu),在增加網(wǎng)絡(luò)寬度的同時,減少了參數(shù)的數(shù)量,降低了計算復(fù)雜度;通過在不同深度處增加兩個loss來保證梯度回傳的消失。

      2.1 深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)

      2.1.1 網(wǎng)絡(luò)架構(gòu)設(shè)計

      輸入層:負責(zé)載入圖像,產(chǎn)生一個輸出向量作為卷積層的輸入。本文模型加載整幅3通道乳腺癌病理圖像,圖像自動縮減為224×224大小,以適應(yīng)卷積層。

      卷積層:負責(zé)特征的學(xué)習(xí)。由一組特征map組成,同一個特征map共享一個卷積核,卷積核實際上是一組權(quán)重,也稱作濾波器。一個可學(xué)習(xí)的卷積核與前一層若干個特征map作卷積,將對應(yīng)元素累加后再加一個偏置,傳給一個非線性激活函數(shù),如ReLU函數(shù)、Sigmoid函數(shù),得到一個特征map,即實現(xiàn)了一個特征的提取。計算公式如式(1)所示,多個不同的卷積核實現(xiàn)多個特征的提取。

      其中,l表示層數(shù),kij表示連接第l層的特征mapj與第l-1層的特征mapi的卷積核,Ml-1表示第l-1層選擇的輸入特征maps,?表示卷積操作,b表示偏置,表示非線性激活函數(shù)。

      本文模型中普通卷積層的卷積核大小分別設(shè)為7×7和3×3,步長(stride)為2,各Inception層卷積核的大小、stride值依模型具體情況設(shè)定,所有卷積都使用ReLU函數(shù)。

      池化層:負責(zé)相鄰區(qū)域特征的聚合統(tǒng)計。通過取區(qū)域最大值或平均值對卷積層的map做下采樣,以減小下一層的輸入大小,從而減少網(wǎng)絡(luò)的參數(shù)個數(shù)和計算量。本文模型中除最后一個池化層采用Mean-pooling方式,感受野設(shè)為7×7,stride為1,其余池化層均采用Max-pooling方式,全部感受野設(shè)為3×3,stride為2。

      此外,學(xué)習(xí)率為0.01,最大迭代次數(shù)為55 620。

      2.1.2 Softmax分類器

      本文采用Softmax分類器進行特征識別。Softmax分類器是logistic模型在多分類問題上的推廣,將目標(biāo)變量分為多類的算法。假設(shè)有N幅輸入圖像每幅圖像的標(biāo)記{yi∈{1 ,2,…,k},k≥2} ,共k類,本文中k=2。對于給定的測試圖像xi,用假設(shè)函數(shù)估計出其屬于每個類別 j的概率值 p(yi=j|xi)。則假設(shè)函數(shù)hθ(xi)為:

      式中,代表對概率分布進行歸一化,即全部概率之和為1。θ表示Softmax分類器的參數(shù)。

      Softmax分類器的損失函數(shù)為:

      其中1(yi=j)為指示性函數(shù)。其取值規(guī)則為:1{值為真的表達式}=1,1值為假的表達式=0。最后通過隨機梯度下降法最小化誤差函數(shù)。

      2.2 數(shù)據(jù)增強與遷移學(xué)習(xí)

      缺乏大規(guī)模的訓(xùn)練數(shù)據(jù),是將CNN應(yīng)用于醫(yī)學(xué)圖像分類面臨的主要挑戰(zhàn)之一,因為CNN參數(shù)的訓(xùn)練需要大規(guī)模的有標(biāo)記樣本,才能防止過擬合,而通常要獲取大規(guī)模的醫(yī)學(xué)圖像是困難、且代價昂貴的,尤其是經(jīng)過專業(yè)醫(yī)生標(biāo)注的醫(yī)學(xué)圖像。本文在乳腺癌病理圖像數(shù)據(jù)集BreaKHis[5]基礎(chǔ)上,采用了兩種解決方案:

      一是數(shù)據(jù)增強[12]。采用仿射變換方法對BreaKHis數(shù)據(jù)集進行增強。主要通過將圖像旋轉(zhuǎn)90o/180o/270o、按照0.8的比例縮放、在水平和垂直方向作鏡像,以及這些操作的組合操作,將數(shù)據(jù)集擴充了14倍。

      二是遷移學(xué)習(xí)[18]。通過在現(xiàn)有的大規(guī)模數(shù)據(jù)集上進行預(yù)訓(xùn)練,得到模型的初始化參數(shù),再遷移到目標(biāo)數(shù)據(jù)集上進行微調(diào)訓(xùn)練。遷移學(xué)習(xí)可以在預(yù)訓(xùn)練數(shù)據(jù)集上學(xué)到一些有助于目標(biāo)數(shù)據(jù)集分類的最基本特征,比如顏色、邊緣特征等,從而提高了模型的分類性能。本文在ImageNet(包含120余萬幅自然圖像和1 000多種不同的類別)上對模型進行預(yù)訓(xùn)練,然后將模型參數(shù)遷移到BreaKHis上進行微調(diào)訓(xùn)練。

      3 實驗及結(jié)果分析

      3.1 數(shù)據(jù)集

      本文采用公開數(shù)據(jù)集BreaKHis[5],該數(shù)據(jù)集包含來自于82位患者的7 909幅已標(biāo)注的乳腺癌病理圖像,其中良性腫瘤圖像2 480幅,惡性腫瘤圖像5 429幅。每幅病理圖像均采用4種不同的放大倍數(shù)(40X、100X、200X、400X),固定大小為700×460像素,模式為RGB三通道圖像(24位顏色,每個通道8位)。表1是不同放大倍數(shù)的良、惡性腫瘤圖像的具體分布情況[5]。

      表1 不同放大倍數(shù)的良、惡性腫瘤圖像的具體分布

      增強后的數(shù)據(jù)集被擴充了14倍,約含11萬余幅乳腺癌病理圖像。為了充分保留圖像輪廓和全局等特征信息,將整幅切片圖像作為網(wǎng)絡(luò)的輸入。

      3.2 評價標(biāo)準(zhǔn)

      對于醫(yī)學(xué)圖像的分類,可以從兩個方面評價模型的分類性能:患者級別和圖像級別。從患者的層面計算識別率,令Nnp為每位患者病理圖像的數(shù)量,Nrp為每位患者被正確分類的圖像數(shù)量,Np為患者總數(shù)量,有:

      則患者級別的識別率可表示為:

      不考慮患者層面,而僅從圖像級別來計算識別率時,令Nall代表驗證集和測試集中病理圖像的數(shù)量,Nr代表其中被正確分類的圖像數(shù)量,則圖像級別的識別率可表示為:

      3.3 訓(xùn)練策略

      增強前和增強后的數(shù)據(jù)集均被隨機分成三部分:訓(xùn)練集50%、驗證集25%和測試集25%。其中,訓(xùn)練集用于模型訓(xùn)練和參數(shù)學(xué)習(xí);驗證集用于優(yōu)化模型,在訓(xùn)練過程中對模型進行測試,根據(jù)測試結(jié)果自動微調(diào)參數(shù);測試集用于測試模型的識別和泛化能力。為保證模型對未知數(shù)據(jù)的泛化能力,數(shù)據(jù)集之間互不交叉。結(jié)果為10次隨機分配數(shù)據(jù)集實驗的平均值。

      為驗證遷移學(xué)習(xí)的有效性,采用兩種訓(xùn)練策略:隨機初始化訓(xùn)練和遷移——微調(diào)訓(xùn)練。為驗證數(shù)據(jù)增強的有效性,將兩種訓(xùn)練策略分別應(yīng)用在增強前和增強后的數(shù)據(jù)集上。

      3.4 實驗工具和時間消耗

      本文模型在Lenovo ThinkStation,Intel i7 CPU,NVIDIA Quadro K2200GPU上訓(xùn)練,使用Caffe框架[19],平均訓(xùn)練時間在增強前的數(shù)據(jù)集上約50 min,在增強后的數(shù)據(jù)集上約10 h16 min,單張測試時間平均約0.053 s。數(shù)據(jù)增強算法由Matlab2016a實現(xiàn)。

      3.5 實驗結(jié)果及分析

      為檢驗本文方法的性能,選擇與本文應(yīng)用在同一數(shù)據(jù)集BreaKHis[5]上的方法進行對比,實驗結(jié)果見表2。該表選用對應(yīng)文獻中的最優(yōu)結(jié)果,分別從圖像級別和患者級別兩個方面進行了對比。表中,AlexNet是Spanhol等人在文獻[10]中采用的網(wǎng)絡(luò)模型,結(jié)果為采用不同融合策略后的最優(yōu)分類結(jié)果;PFTAS+QDA/SVM/RF是文獻[5]中采用的方法,先用PFTAS(Parameter-Free Threshold Adjacency Statistics)方法進行特征提取,然后分別使用三種機器學(xué)習(xí)方法QDA(Quadratic Discriminant Analysis)、SVM 和 RF(Random Forests)進行分類;Single-Task CNN是文獻[11]中采用的基于放大倍數(shù)獨立的CNN算法。由表2可知:無論在圖像級別還是患者級別,本文方法的識別率均高于其他方法的識別率,并且,在不同放大倍數(shù)的圖像上,分類結(jié)果幾乎相同,約91%。表明本文方法能夠提取更具區(qū)分性的特征,因而識別率更高,且具有較好的魯棒性和泛化性。

      表2 不同放大倍數(shù)下患者級別和圖像級別的識別率與其他方法的對比結(jié)果%

      在增強前和增強后的數(shù)據(jù)集上分別進行隨機初始化訓(xùn)練和遷移——微調(diào)訓(xùn)練,實驗結(jié)果如圖2所示,從圖像級別和患者級別兩個方面進行了對比。圖2結(jié)果顯示:圖像級別和患者級別的結(jié)果差異甚微;數(shù)據(jù)增強后,無論是在隨機初始化訓(xùn)練時還是遷移——微調(diào)訓(xùn)練時,識別率均得到了大幅提升(見圖2中藍色和紅色曲線),證實了數(shù)據(jù)增強方法的有效性;采用遷移學(xué)習(xí)后,無論在元數(shù)據(jù)上還是增強后的數(shù)據(jù)上,識別率也均得到了提升(見圖2中藍色和綠色曲線),證實了遷移學(xué)習(xí)的有效性。表明本文方法有效避免了由于訓(xùn)練樣本集不足而導(dǎo)致的過擬合問題,模型在ImageNet上預(yù)訓(xùn)練時學(xué)到了一些特征,而這些特征有助于BreaKHis上圖像的分類,因而具有更高的識別率。

      圖2 數(shù)據(jù)增強前和增強后分別采用兩種訓(xùn)練策略的分類結(jié)果

      4 結(jié)束語

      本文研究了利用深度學(xué)習(xí)方法實現(xiàn)乳腺癌病理圖像的自動分類。采用的深度卷積神經(jīng)網(wǎng)絡(luò)模型具有更深、更復(fù)雜的結(jié)構(gòu),而參數(shù)更少,準(zhǔn)確率更高,避免了人工提取特征的復(fù)雜性和局限性。采用的數(shù)據(jù)增強和遷移學(xué)習(xí)方法有效避免了深度學(xué)習(xí)算法在樣本量不足時易出現(xiàn)的過擬合問題,實驗證明本文方法提高了識別率,具有較好的魯棒性和泛化性,在一定程度上滿足了更高要求的臨床需求。

      [1]Stewart B,Wild C P.World cancer report 2014[M]//International Agency for Research on Cancer.[S.l.]:World Health Organization,2014.

      [2]Kowal M,F(xiàn)ilipczuk P,Obuchowicz A,et al.Computer-aided diagnosis of breast cancer based on fine needle biopsy microscopic images[J].Computers in Biology and Medicine,2013,43(10):1563-1572.

      [3]Zhang Y,Zhang B,Coenen F,et al.One-class kernel subspace ensemble for medical image classification[J].EURASIP Journal on Advances in Signal Processing,2014,(1):17.

      [4]Wang P,Hu X,Li Y,et al.Automatic cell nuclei segmentation and classification of breast cancer histopathology images[J].Signal Processing,2016,122:1-13.

      [5]Spanhol F A,Oliveira L S,Petitjean C,et al.A dataset for breast cancer histopathological image classification[J].IEEE Transactions on Biomedical Engineering,2016,63(7):1455-1462.

      [6]LeCun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436-444.

      [7]He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.

      [8]Chen H,Dou Q,Wang X,et al.Mitosis detection in breast cancer histology images via deep cascaded networks[C]//ProceedingsoftheThirtieth AAAIConference on Artificial Intelligence,2016:1160-1166.

      [9]Wang D,Khosla A,Gargeya R,et al.Deep learning for identifying metastatic breast cancer[J].arXiv preprint arXiv:1606.05718,2016.

      [10]Spanhol F A,Oliveira L S,Petitjean C,et al.Breast cancer histopathological image classification using ConvolutionalNeuralNetworks[C]//2016 InternationalJoint Conference on Neural Networks(IJCNN),2016:2560-2567.

      [11]Bayramoglu N,Kannala J,Heikkil? J.Deep learning for magnification independent breast cancer histopathology image classification[C]//International Conference on Pattern Recognition(ICPR),2016:2441-2446.

      [12]Shen D,Wu G,Suk H I.Deep learning in medical image analysis[J].Annual Review of Biomedical Engineering,2017,19(1).

      [13]Bengio Y,Delalleau O.On the expressive power of deep architectures[C]//InternationalConference on Algorithmic Learning Theory.Berlin Heidelberg:Springer,2011:18-36.

      [14]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

      [15]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems,2012:1097-1105.

      [16]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv preprint arXiv:1409.1556,2014.

      [17]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:1-9.

      [18]Shin H C,Roth H R,Gao M,et al.Deep convolutional neural networks for computer-aided detection:CNN architectures,dataset characteristics and transfer learning[J].IEEE Transactions on Medical Imaging,2016,35(5):1285-1298.

      [19]Jia Y,Shelhamer E,Donahue J,et al.Caffe:Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia,2014:675-678.

      猜你喜歡
      識別率卷積病理
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      病理診斷是精準(zhǔn)診斷和治療的“定海神針”
      開展臨床病理“一對一”教學(xué)培養(yǎng)獨立行醫(yī)的病理醫(yī)生
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      計算機工程(2020年3期)2020-03-19 12:24:50
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
      提升高速公路MTC二次抓拍車牌識別率方案研究
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      高速公路機電日常維護中車牌識別率分析系統(tǒng)的應(yīng)用
      不一致性淋巴瘤1例及病理分析
      威信县| 沂水县| 交口县| 赤壁市| 巴彦淖尔市| 嘉祥县| 潜山县| 阜南县| 阜新市| 苏州市| 甘南县| 彭山县| 江达县| 邢台市| 施秉县| 香港| 蒲城县| 盘山县| 上蔡县| 纳雍县| 徐汇区| 绥化市| 峨边| 保靖县| 朝阳区| 含山县| 西峡县| 罗江县| 大宁县| 江津市| 区。| 饶河县| 刚察县| 黑龙江省| 巴塘县| 铜陵市| 襄垣县| 胶州市| 盐城市| 滦南县| 苗栗县|