王 翀 何興鑫 方樂緣* 郭斯羽 陳向東 聶輔嬌
1(湖南大學(xué)電氣與信息工程學(xué)院,長沙 410082)2(湖南中醫(yī)藥大學(xué)第一附屬醫(yī)院眼科,長沙 410007)
圖1 視網(wǎng)膜黃斑OCT圖像(每列上圖來自杜克大學(xué)(Duke)數(shù)據(jù)集,下圖來自湖南中醫(yī)藥大學(xué)(HUCM)數(shù)據(jù)集)。(a)正常視網(wǎng)膜;(b)年齡相關(guān)性黃斑變性;(c)視網(wǎng)膜黃斑水腫Fig.1 Retinal OCT images from Duke data sets (top row) and HUCM data sets (bottom row). (a) Normal eye; (b) AMD eye; (c) ME eye
視網(wǎng)膜在人眼獲取視覺信息的過程中擔(dān)任著至關(guān)重要的角色,視網(wǎng)膜黃斑是視網(wǎng)膜中央?yún)^(qū)域一橢圓形的深色結(jié)構(gòu),是視網(wǎng)膜視覺和色覺最敏感的區(qū)域。視網(wǎng)膜黃斑區(qū)域的病變將會直接導(dǎo)致中央視力的明顯下降,甚至是失明。常見的黃斑病變有年齡相關(guān)性黃斑變性、黃斑水腫、黃斑裂孔等[1-2]。年齡相關(guān)性黃斑變性(age-related macular degeneration, AMD)是世界范圍內(nèi)導(dǎo)致老年人致盲的主要原因之一,在全世界60歲以上的人群中,大約有15%是年齡相關(guān)性黃斑變性患者[3-4]。其常見的病理表現(xiàn)是視網(wǎng)膜的色素上皮層出現(xiàn)大小不一的隆起,也稱玻璃膜疣(drusen)。黃斑水腫(macular edema, ME)是另一種常見的視網(wǎng)膜疾病,通常由糖尿病、葡萄膜炎、視網(wǎng)膜靜脈阻塞以及白內(nèi)障人工晶體術(shù)后等原因引起,一般表現(xiàn)為視網(wǎng)膜增厚,視網(wǎng)膜內(nèi)呈現(xiàn)出不同程度的低反射空洞區(qū)域[5-6]。
光學(xué)相干斷層掃描(optical coherence tomography, OCT)技術(shù)利用弱相干光干涉原理,通過掃描生物組織內(nèi)不同深度層面對入射光的背向反射或散射信號的強(qiáng)度,進(jìn)而得到生物組織結(jié)構(gòu)的二維斷層圖像。OCT憑借其成像速度快、非入侵、高分辨率等優(yōu)點(diǎn),已經(jīng)廣泛應(yīng)用于臨床中眼科視網(wǎng)膜成像[7-9],并且逐漸成為眼科醫(yī)生診斷年齡相關(guān)性黃斑變性、黃斑水腫等視網(wǎng)膜疾病不可缺少的工具之一[10]。正常視網(wǎng)膜黃斑、年齡相關(guān)性黃斑變性以及黃斑水腫OCT圖像如圖1所示。臨床上,眼科醫(yī)生根據(jù)OCT圖像中視網(wǎng)膜膜層結(jié)構(gòu)的形態(tài)、厚度、亮度等信息來做出相應(yīng)的疾病診斷。這種人工評估過程不僅耗時(shí),而且常常具有很大的主觀性。因此,開發(fā)一種能對視網(wǎng)膜OCT圖像自動識別的計(jì)算機(jī)輔助診斷(CAD)系統(tǒng),對眼科疾病的快速診斷與遠(yuǎn)程治療十分重要。
近年來,已有多種基于圖像處理和機(jī)器學(xué)習(xí)的OCT圖像自動分類方法被提出[11-17]。Liu等利用局部二值模式(LBP)特征,對視網(wǎng)膜OCT圖像的紋理信息和形狀信息進(jìn)行特征編碼,隨后結(jié)合支持向量機(jī)(SVM)實(shí)現(xiàn)OCT圖像的自動分類[11]。Srinivasan等通過計(jì)算OCT圖像的多尺度方向梯度直方圖(HOG)特征來識別正常視網(wǎng)膜、年齡相關(guān)性黃斑變性和黃斑水腫[12]。與此同時(shí),深度學(xué)習(xí)技術(shù)[18]憑借其極強(qiáng)的表達(dá)能力在自然圖像的自動分類和識別任務(wù)中獲得巨大的成功[19-20],同時(shí)也極大促進(jìn)了醫(yī)學(xué)圖像分析領(lǐng)域的發(fā)展[21-25]。Karri等利用遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)[20],對三維OCT圖像進(jìn)行自動分類,并取得良好的分類效果[16]。受此啟發(fā),本研究采用卷積神經(jīng)網(wǎng)絡(luò)模型,對視網(wǎng)膜OCT圖像進(jìn)行自動分類。此外,由于視網(wǎng)膜病變結(jié)構(gòu)復(fù)雜,正常視網(wǎng)膜與病變視網(wǎng)膜之間圖像表現(xiàn)差異巨大,典型的單輸出層(決策層)神經(jīng)網(wǎng)絡(luò)往往只能提取圖像的高層級特征,忽略了圖像中視網(wǎng)膜的輪廓、邊緣和紋理等低層級特征信息。因此,本研究構(gòu)建多級特征聯(lián)合決策的卷積神經(jīng)網(wǎng)絡(luò),在網(wǎng)絡(luò)的多個(gè)卷積層上設(shè)計(jì)多個(gè)決策層,最后綜合不同決策層的輸出對輸入圖像進(jìn)行聯(lián)合打分,以實(shí)現(xiàn)視網(wǎng)膜OCT圖像的自動準(zhǔn)確分類。
本研究的主要目標(biāo)是對正常視網(wǎng)膜、視網(wǎng)膜年齡相關(guān)性黃斑變性和視網(wǎng)膜黃斑水腫OCT圖像進(jìn)行準(zhǔn)確的自動分類,創(chuàng)新性地利用多級特征聯(lián)合決策的卷積神經(jīng)網(wǎng)絡(luò)分類模型,下面將對整個(gè)研究用到的方法進(jìn)行具體介紹。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)由傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來,在圖像分類、目標(biāo)檢測以及圖像分割等領(lǐng)域已經(jīng)獲得了巨大成功[19, 26-27]。不同于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用局部連接和權(quán)值共享策略,使得網(wǎng)絡(luò)的參數(shù)大大減少,網(wǎng)絡(luò)模型的復(fù)雜度大大降低,從而使得深度網(wǎng)絡(luò)更易于優(yōu)化。CNN將特征提取和特征分類這兩個(gè)過程融合在一起,相比傳統(tǒng)的手工特征提取與分類器設(shè)計(jì)方法,它能夠從給定的訓(xùn)練樣本中自動地學(xué)習(xí)有效的特征,是一種端對端的特征學(xué)習(xí)方法。CNN通常含有多個(gè)帶參數(shù)的學(xué)習(xí)層,每個(gè)學(xué)習(xí)層都能學(xué)習(xí)相應(yīng)的語義特征,使得整個(gè)網(wǎng)絡(luò)可以從原始輸入圖像中自動提取不同層級的特征,并不斷地進(jìn)行組合與抽象,形成表達(dá)能力極強(qiáng)的高層級特征,用于在網(wǎng)絡(luò)的最后進(jìn)行分類。
CNN的學(xué)習(xí)層主要包括卷積層、池化層、全連接層和softmax層。卷積層(convolutional layer)通過多個(gè)卷積核來提取圖像的特征,每個(gè)卷積核提取輸入特征圖上所有位置的特征,實(shí)現(xiàn)同一個(gè)輸入特征圖上的權(quán)值共享。卷積層中每個(gè)神經(jīng)元對于前一層的局部區(qū)域進(jìn)行感知,將該局部區(qū)域作為其輸入。 假定xi,l-1是第l-1層卷積層的第i個(gè)神經(jīng)元的輸出,則第l層神經(jīng)元的輸出為
(1)
式中:M表示當(dāng)前神經(jīng)元的局部輸入大小;wijml、bjl分別表示兩層神經(jīng)元之間的連接權(quán)值和偏置,這些權(quán)值和偏置會在網(wǎng)絡(luò)訓(xùn)練的過程中不斷更新優(yōu)化;δ(g)表示神經(jīng)元激活函數(shù),常用ReLU非線性單元δ(x)=max(0,x)。
池化層(pooling layer)對卷積層輸出的每個(gè)特征圖進(jìn)行獨(dú)立的操作,通常采用平均池化或者最大值池化兩種操作,本研究采用最大值池化。特征圖通過池化操作之后,其分辨率降低,但卻保留了有效的特征,池化使得網(wǎng)絡(luò)的參數(shù)大大減少,不僅可以避免網(wǎng)絡(luò)過擬合,同時(shí)也可以增強(qiáng)卷積層特征的空間穩(wěn)定性。全連接層(fully-connected layer, FC)類似于卷積層,同樣由許多神經(jīng)元組成,但全連接層的神經(jīng)元與前一層輸入之間是全連接的方式,即每個(gè)神經(jīng)元與前一層所有神經(jīng)元均有連接關(guān)系。Softmax層是CNN網(wǎng)絡(luò)的最后一層結(jié)構(gòu),其功能是作為決策層(decision layer, DL)根據(jù)網(wǎng)絡(luò)提取的特征進(jìn)行類別預(yù)測,其輸出是輸入圖像屬于C個(gè)類別的概率。輸入圖像的預(yù)測標(biāo)簽與真實(shí)標(biāo)簽的差異可以用交叉熵?fù)p失函數(shù)[18]來量化,有
(2)
式中,C是類別總數(shù),In(n=1,…,N)為輸入圖像,yc與pc分別表示輸入圖像屬于類別c的先驗(yàn)概率和后驗(yàn)概率(預(yù)測概率)。
CNN通過經(jīng)典的反向傳播[28]和梯度下降算法來優(yōu)化,其訓(xùn)練過程就是通過最小化該損失函數(shù)來優(yōu)化卷積層與全連接層的權(quán)值參數(shù),使得整個(gè)網(wǎng)絡(luò)能夠針對目標(biāo)數(shù)據(jù)自動學(xué)習(xí)合適的特征表示,從而對未知樣本具有較高的識別能力。
對于視網(wǎng)膜OCT圖像,正常視網(wǎng)膜與病變視網(wǎng)膜之間差異巨大,病變視網(wǎng)膜在其不同發(fā)展階段的病理表現(xiàn)不盡相同,不同類型的視網(wǎng)膜病變之間也常常表現(xiàn)出明顯的差別。因此,對于結(jié)構(gòu)表現(xiàn)復(fù)雜、病變差異巨大的OCT圖像,充分利用圖像中視網(wǎng)膜的輪廓、邊緣和紋理等信息能夠有效提升OCT圖像分類效果[11]。Google公司的深度學(xué)習(xí)研究人員通過AlexNet[19]網(wǎng)絡(luò)已經(jīng)證明,CNN不同的網(wǎng)絡(luò)層能夠提取不同層次的圖像特征[19, 29]。例如:第1層卷積網(wǎng)絡(luò)層提取圖像中的邊緣和角點(diǎn),第3層網(wǎng)絡(luò)層提取圖像中的紋理信息,第5層網(wǎng)絡(luò)層提取圖像的部分對象信息,最后一層分類網(wǎng)絡(luò)層提取圖像的分類語意信息。然而,典型的CNN只有一個(gè)分類輸出層(決策層),往往只能利用高層級的抽象特征對輸入圖像做出決策,忽視了圖像中輪廓邊緣紋理等低層級但有價(jià)值的特征,難以取得令人滿意的分類效果。
基于上述分析,本研究構(gòu)建多級特征聯(lián)合決策的卷積神經(jīng)網(wǎng)絡(luò),在網(wǎng)絡(luò)的多個(gè)卷積層上設(shè)計(jì)多個(gè)決策層,這些決策層可以利用網(wǎng)絡(luò)不同層級的特征實(shí)現(xiàn)決策,最后綜合不同決策層的輸出對輸入圖像進(jìn)行聯(lián)合打分,以實(shí)現(xiàn)視網(wǎng)膜OCT圖像的準(zhǔn)確分類。
當(dāng)使用聯(lián)合決策的卷積神經(jīng)網(wǎng)絡(luò)來自動識別OCT圖像時(shí),需要優(yōu)化多個(gè)決策層的參數(shù)。在本研究中,使用聯(lián)合訓(xùn)練[30]的方式同時(shí)優(yōu)化多個(gè)決策層的參數(shù),即對每個(gè)決策層的交叉熵?fù)p失函數(shù)進(jìn)行加權(quán)求和來作為網(wǎng)絡(luò)的總損失函數(shù),有
(3)
式中,L為決策層總數(shù),αl為第l個(gè)決策層的損失函數(shù)占總損失的權(quán)重。
由式(3)可知,對每個(gè)決策層設(shè)置合理的決策權(quán)重至關(guān)重要。根據(jù)文獻(xiàn)[31],決策權(quán)重αl可由不同決策層的分類錯(cuò)誤率來計(jì)算,某一決策層的分類錯(cuò)誤率越大,其決策權(quán)重就越小。決策權(quán)重的計(jì)算過程和具體的權(quán)重值將在結(jié)果部分詳細(xì)介紹。
同時(shí),在測試階段決策層權(quán)重αl仍然被用來作為多個(gè)決策層聯(lián)合打分的權(quán)重,即輸入圖像的預(yù)測類別為在網(wǎng)絡(luò)的多個(gè)決策層上取得最高得分的類,有
(4)
若第l個(gè)決策層的預(yù)測類別為c,則該決策層對類別c打分為1分,其余類別為0分。
1.3.1實(shí)驗(yàn)數(shù)據(jù)
本研究采用兩個(gè)數(shù)據(jù)集來驗(yàn)證模型的有效性:杜克大學(xué)數(shù)據(jù)集[12]和湖南中醫(yī)藥大學(xué)數(shù)據(jù)集。杜克大學(xué)(Duke)數(shù)據(jù)集采集自45位臨床視網(wǎng)膜病變患者,每種類別的數(shù)據(jù)包含15位患者。數(shù)據(jù)集由正常視網(wǎng)膜黃斑圖像、年齡相關(guān)性黃斑變性圖像和黃斑水腫圖像組成,每個(gè)患者采集31~97幀OCT圖像,整個(gè)數(shù)據(jù)集一共有3 231張OCT圖像(1 681張Normal,858張ME,692張AMD),都是由兩位經(jīng)驗(yàn)豐富的眼科醫(yī)生共同反復(fù)標(biāo)注完成。數(shù)據(jù)集使用德國海德堡公司Spectralis譜域OCT 掃描儀采集得到,軸向分辨率為3.87 μm,橫向分辨率約為11 μm,掃描范圍約為黃斑中心6.0×6.0 μm2區(qū)域,圖像分辨率有3種:496×512,496×768,496×1024。圖1第一行顯示該數(shù)據(jù)集中3種類別OCT圖像。湖南中醫(yī)藥大學(xué)(HUCM)數(shù)據(jù)集采集自湖南中醫(yī)藥大學(xué)第一附屬醫(yī)院眼科,總共包含108位病人的黃斑區(qū)掃描圖像(未區(qū)分左右眼),其圖像分辨率有496×512、496×768兩種。該數(shù)據(jù)集共包含4 322張視網(wǎng)膜OCT圖像(1 860張Normal,1 209張ME,1 253張AMD)。圖1第二行顯示HUCM數(shù)據(jù)集中不同類別的OCT圖像。
在實(shí)驗(yàn)中,兩個(gè)數(shù)據(jù)集之間沒有任何交叉,所有實(shí)驗(yàn)均在兩個(gè)數(shù)據(jù)集上單獨(dú)進(jìn)行。對于兩個(gè)不同的數(shù)據(jù)集,分別從3類樣本中選取30%的數(shù)據(jù)作為訓(xùn)練集,剩余的樣本作為測試集。除此之外,在訓(xùn)練網(wǎng)絡(luò)時(shí),對訓(xùn)練集中所有圖像做水平翻轉(zhuǎn)的數(shù)據(jù)增強(qiáng)操作,這一簡單的操作能夠排除數(shù)據(jù)采集于左眼與右眼之間的不平衡問題,但測試數(shù)據(jù)未做任何增強(qiáng)。最終,對于Duke數(shù)據(jù)集,訓(xùn)練集包括1 878張OCT圖像,測試集包括2 262張OCT圖像。對于HUCM數(shù)據(jù)集,訓(xùn)練集包括2 594張OCT圖像,測試集包括3 025張OCT圖像。
1.3.2實(shí)驗(yàn)環(huán)境
本研究中實(shí)驗(yàn)所使用的硬件設(shè)備如下:處理器,Intel(R) Core(TM) i7-7700 CPU @3.6GHz;內(nèi)存(RAM),16GB;獨(dú)立顯卡,NVIDIA GeForce GTX 1070;操作系統(tǒng),Ubuntu 16.04。本研究基于Python2.7、TensorFlow1.2.1[32]、Cuda8.0和cuDNN5.1加速包實(shí)現(xiàn),訓(xùn)練聯(lián)合決策CNN網(wǎng)絡(luò)耗時(shí)約1.62 h,測試階段對一張圖像分類平均耗時(shí)0.16 s。因訓(xùn)練階段的網(wǎng)絡(luò)可以在獨(dú)立環(huán)境中預(yù)先訓(xùn)練,測試時(shí)無需考慮訓(xùn)練階段的耗時(shí),因此測試時(shí)間可以滿足臨床要求。
1.3.3實(shí)驗(yàn)設(shè)置
本研究的CNN網(wǎng)絡(luò)是基于8層的AlexNet網(wǎng)絡(luò)為基礎(chǔ)改進(jìn)設(shè)計(jì)的,AlexNet網(wǎng)絡(luò)由5個(gè)卷積層,3個(gè)池化層和3個(gè)全連接層構(gòu)成。不同于原始的AlexNet,本研究中將第1~5個(gè)卷積層的特征圖個(gè)數(shù)改為24、32、64、64、96,以減少網(wǎng)絡(luò)過擬合的可能性,同時(shí)將每個(gè)決策層的輸出神經(jīng)元由原來的1 000減少為3(本研究類別總數(shù))。CNN網(wǎng)絡(luò)的具體結(jié)構(gòu)細(xì)節(jié)如表1所示。
表1 聯(lián)合決策CNN模型結(jié)構(gòu)Tab.1 Architecture of the joint-decision CNN model
實(shí)驗(yàn)中,CNN網(wǎng)絡(luò)首先采用高斯分布隨機(jī)初始化網(wǎng)絡(luò)的權(quán)值,然后采用Adam[33]優(yōu)化器對網(wǎng)絡(luò)進(jìn)行優(yōu)化。訓(xùn)練過程中,訓(xùn)練的批次設(shè)為16,即每次迭代使用訓(xùn)練集中的16張OCT圖像,最大迭代次數(shù)為30 000次。學(xué)習(xí)率以指數(shù)形式下降,即初始學(xué)習(xí)率為0.000 1,每3 000次迭代,學(xué)習(xí)率下降10%。CNN網(wǎng)絡(luò)的全連接層要求輸入圖像必須具有相同的圖像大小,因此在將OCT圖像送入CNN網(wǎng)絡(luò)之前首先將其采樣定為300×310。
為估計(jì)聯(lián)合決策CNN模型的決策層權(quán)重,本研究首先設(shè)置實(shí)驗(yàn)來計(jì)算單一決策CNN網(wǎng)絡(luò)的分類錯(cuò)誤率。具體計(jì)算方法如下:當(dāng)估計(jì)決策層DL1的權(quán)重α1時(shí),設(shè)計(jì)以DL1為決策層的單一決策CNN網(wǎng)絡(luò),并得到其分類錯(cuò)誤率ε1;當(dāng)估計(jì)決策層DL2的權(quán)重α2時(shí),設(shè)計(jì)以DL2為決策層的單一決策CNN網(wǎng)絡(luò),并得到其分類錯(cuò)誤率ε2。依此類推,可分別得到所有決策層的分類錯(cuò)誤率。每個(gè)決策層的決策權(quán)重αl可通過下式[31]獲得,有
(5)
表2 聯(lián)合決策CNN模型的決策權(quán)重Tab.2 Decision weights of the joint-decision CNN model
表3顯示聯(lián)合決策CNN網(wǎng)絡(luò)模型與單一決策CNN網(wǎng)絡(luò)模型的視網(wǎng)膜OCT圖像分類結(jié)果,本研究采用準(zhǔn)確率、靈敏性、特異性以及它們在3個(gè)類別上的平均值作為量化指標(biāo)。單一決策CNN網(wǎng)絡(luò)僅采用DL5作為決策層,其余參數(shù)設(shè)置均與聯(lián)合決策CNN網(wǎng)絡(luò)保持不變。在實(shí)驗(yàn)中,將數(shù)據(jù)集隨機(jī)劃分成訓(xùn)練集和測試集,然后重復(fù)進(jìn)行5次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果為5次實(shí)驗(yàn)的平均值。
由表3可以看出,在兩個(gè)OCT數(shù)據(jù)集(Duke數(shù)據(jù)集和HUCM數(shù)據(jù)集)上,聯(lián)合決策CNN網(wǎng)絡(luò)模型的分類結(jié)果在各項(xiàng)評價(jià)指標(biāo)上均優(yōu)于單一決策CNN網(wǎng)絡(luò)的結(jié)果。具體來說,在Duke數(shù)據(jù)集上,聯(lián)合決策CNN網(wǎng)絡(luò)模型對正常視網(wǎng)膜、AMD和ME的識別準(zhǔn)確率分別達(dá)到93.1%、96.5%和94.2%,與單一決策CNN網(wǎng)絡(luò)相比,聯(lián)合決策CNN網(wǎng)絡(luò)在3個(gè)類別上的平均準(zhǔn)確率提升約3.0%,平均靈敏性提升約4.2%,平均特異性提升約2.0%。在HUCM數(shù)據(jù)集上,聯(lián)合決策CNN網(wǎng)絡(luò)模型對正常視網(wǎng)膜、AMD和ME的識別準(zhǔn)確率分別達(dá)到88.9%、89.3%和90.5%,與單一決策CNN網(wǎng)絡(luò)相比,聯(lián)合決策CNN網(wǎng)絡(luò)在3個(gè)類別上的平均準(zhǔn)確率提升約3.2%,平均靈敏性提升約5.3%,平均特異性提升約2.6%。兩個(gè)數(shù)據(jù)集上的結(jié)果表明,充分利用視網(wǎng)膜OCT圖像的多層級特征,能夠有效地提升分類性能。表3中兩種CNN模型在Duke數(shù)據(jù)集上的表現(xiàn)均優(yōu)于HUCM數(shù)據(jù)集,可能的原因是HUCM數(shù)據(jù)集中含有較多處于疾病早期(僅包含細(xì)微病變)的圖像(見圖1第2行),這些圖像對OCT視網(wǎng)膜圖像的自動識別極具挑戰(zhàn)。
表3 聯(lián)合決策CNN分類結(jié)果Tab.3 Classification results of the joint-decision CNN model
除此之外,本研究也設(shè)計(jì)額外的實(shí)驗(yàn)來驗(yàn)證訓(xùn)練集大小對視網(wǎng)膜OCT圖像分類效果的影響。實(shí)驗(yàn)在Duke數(shù)據(jù)集上進(jìn)行,實(shí)驗(yàn)中訓(xùn)練集大小分別為全部數(shù)據(jù)集的2%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%,兩種CNN網(wǎng)絡(luò)的參數(shù)均保持不變。實(shí)驗(yàn)結(jié)果如圖2所示,圖中顯示了兩種CNN分類模型的平均準(zhǔn)確率、平均靈敏性和平均特異性指標(biāo)。
圖2 兩種CNN網(wǎng)絡(luò)在不同大小訓(xùn)練集上的分類結(jié)果Fig.2 Classification results of the two CNN models training on Duke data sets of different size
由圖2可知,兩種CNN分類模型的識別精度都隨著訓(xùn)練樣本的增加而升高。此外,在多個(gè)不同大小的訓(xùn)練集上,聯(lián)合決策CNN網(wǎng)絡(luò)模型在平均準(zhǔn)確率、平均靈敏性和平均特異性這3個(gè)指標(biāo)上的表現(xiàn)均優(yōu)于單一決策CNN網(wǎng)絡(luò)的指標(biāo)。這一結(jié)果再次證明,聯(lián)合決策CNN網(wǎng)絡(luò)模型相對于單一決策CNN網(wǎng)絡(luò),在視網(wǎng)膜OCT圖像自動分類任務(wù)中具有無可比擬的優(yōu)勢。
本研究也比較了兩種CNN分類模型的收斂速度(Duke數(shù)據(jù)集),如圖3所示??梢钥闯?,聯(lián)合決策CNN分類模型具有更快的收斂性能,表明低層級決策層的存在使得網(wǎng)絡(luò)的學(xué)習(xí)能力有所提升。結(jié)合圖2可知,聯(lián)合決策CNN模型不僅可以提高網(wǎng)絡(luò)的分類性能,同時(shí)也可以增加網(wǎng)絡(luò)的學(xué)習(xí)效率。
圖3 兩種CNN網(wǎng)絡(luò)的收斂曲線Fig.3 Convergence curves of the two CNN models
本研究構(gòu)建了一種多層級特征聯(lián)合決策的卷積神經(jīng)網(wǎng)絡(luò)模型,以實(shí)現(xiàn)視網(wǎng)膜OCT圖像的自動分類。該模型首先使用卷積神經(jīng)網(wǎng)絡(luò)從原始輸入OCT圖像中自動學(xué)習(xí)多個(gè)層級的特征,進(jìn)而在網(wǎng)絡(luò)多個(gè)卷積層上設(shè)計(jì)多個(gè)決策層,這些決策層能夠根據(jù)網(wǎng)絡(luò)中不同尺度的特征圖分別對OCT圖像分類,最后模型融合所有決策層的分類結(jié)果做出最終決策。關(guān)于多決策層CNN網(wǎng)絡(luò),可以追溯到GoogleNet[20], 該網(wǎng)絡(luò)一共有3個(gè)Softmax分類器(2個(gè)輔助分類器,1個(gè)頂層分類器),其中2個(gè)輔助分類器位于網(wǎng)絡(luò)的中間層。文獻(xiàn)[20]指出,輔助分類器不僅能夠提升網(wǎng)絡(luò)中低層級特征的判別能力,同時(shí)能夠加速網(wǎng)絡(luò)收斂。本研究的實(shí)驗(yàn)結(jié)果也再次證明了這一點(diǎn):由圖2和表3可知,相比單一決策CNN網(wǎng)絡(luò),聯(lián)合決策CNN網(wǎng)絡(luò)具有更高的分類準(zhǔn)確率,能夠提取到更具判別力的特征;圖3表明,聯(lián)合決策CNN網(wǎng)絡(luò)能夠有效地加速網(wǎng)絡(luò)收斂。
此外,與文獻(xiàn)[20]相比,本研究的聯(lián)合決策CNN網(wǎng)絡(luò)模型的決策規(guī)則也更加合理。第一,本研究根據(jù)不同卷積層的分類錯(cuò)誤率εl來計(jì)算獲得各個(gè)決策層的決策權(quán)重αl;而文獻(xiàn)[20]直接將3個(gè)分類器的損失函數(shù)相加,并未考慮不同決策層對最終分類結(jié)果的重要性不同這一事實(shí)。第二,在測試階段,文獻(xiàn)[20]仍然只采用頂層分類器來對測試樣本進(jìn)行分類,未利用網(wǎng)絡(luò)中間層輔助分類器的判別信息;而在本研究中,網(wǎng)絡(luò)的底層分類器、中間層分類器、頂層分類器等各層級的分類器均對測試樣本的分類有貢獻(xiàn),其貢獻(xiàn)大小由訓(xùn)練階段的決策權(quán)重決定。
然而,本研究仍然存在一些不足之處。首先,圖像數(shù)據(jù)集依然十分有限,兩個(gè)數(shù)據(jù)集都僅包含上千張OCT圖像,雖然在一定程度上可以反映聯(lián)合決策CNN網(wǎng)絡(luò)模型的出色性能,但是深度學(xué)習(xí)模型要求大量且多樣的訓(xùn)練數(shù)據(jù)來參與網(wǎng)絡(luò)的訓(xùn)練,以避免網(wǎng)絡(luò)產(chǎn)生過擬合。因此,收集更加豐富的視網(wǎng)膜OCT圖像數(shù)據(jù)來訓(xùn)練聯(lián)合決策CNN網(wǎng)絡(luò),是今后的研究中需要改進(jìn)的方向之一。此外,在臨床上眼科醫(yī)生通常需要同時(shí)分析同一個(gè)病人視網(wǎng)膜黃斑區(qū)域的連續(xù)多幀OCT圖像中的上下文信息來做出最終的診斷,因此在聯(lián)合決策CNN網(wǎng)絡(luò)模型中合適地引入當(dāng)前圖像的上下文信息是十分必要的,這在實(shí)際臨床應(yīng)用中具有更加重要的意義。
通過以上分析,可以發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)與聯(lián)合決策相結(jié)合的方法能夠有效提升視網(wǎng)膜OCT圖像的自動分類精度,同時(shí)在聯(lián)合決策CNN網(wǎng)絡(luò)中設(shè)置合理的決策權(quán)重對最終的分類結(jié)果也至關(guān)重要。除此之外,本研究采用的聯(lián)合決策CNN模型同樣適用于其他視網(wǎng)膜疾病(如黃斑裂孔,macular hole)的自動診斷,以及其他模態(tài)的醫(yī)學(xué)圖像分類任務(wù)。這一模型的出現(xiàn),對視網(wǎng)膜OCT圖像的自動識別具有一定的指導(dǎo)意義,將會對未來醫(yī)學(xué)圖像分析領(lǐng)域的發(fā)展產(chǎn)生較為重要的影響。
本研究運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)模型來自動識別視網(wǎng)膜OCT圖像,同時(shí)考慮到OCT圖像中視網(wǎng)膜的輪廓、邊緣以及紋理等低層級的有價(jià)值特征,創(chuàng)新性地開發(fā)出利用多層級特征聯(lián)合決策的卷積神經(jīng)網(wǎng)絡(luò)分類模型。采用聯(lián)合決策的方法,能夠綜合不同決策層在網(wǎng)絡(luò)的多個(gè)卷積層上的預(yù)測結(jié)果來做出最終決策。實(shí)驗(yàn)結(jié)果表明,相對于單一決策CNN網(wǎng)絡(luò),本研究采用多層級聯(lián)合決策CNN網(wǎng)絡(luò)模型,能夠?qū)σ暰W(wǎng)膜OCT黃斑病變圖像實(shí)現(xiàn)更加準(zhǔn)確的分類。因此,充分利用深度卷積網(wǎng)絡(luò)中的多層級特征聯(lián)合決策,在生物醫(yī)學(xué)圖像分析領(lǐng)域具有廣闊的應(yīng)用前景,值得進(jìn)一步研究和探索。