李 寧,尚英強(qiáng),熊 俊,邰寶宇,時(shí)晨杰
國(guó)網(wǎng)北京市電力公司電纜分公司,北京100022
糖尿病視網(wǎng)膜病變作為最常見的糖尿病并發(fā)癥之一,對(duì)視功能造成的損害無(wú)法逆轉(zhuǎn),輕者視力下降,重者失明,因此早期發(fā)現(xiàn)病變并進(jìn)行有效治療具有十分重要的意義。在視網(wǎng)膜眼底照片中,視盤通常呈現(xiàn)明亮的淡黃色,為圓形或略呈橢圓形的物體。近年來(lái),許多學(xué)者對(duì)視盤分割進(jìn)行了研究。文獻(xiàn)[1]為了從彩色眼底照片中自動(dòng)分割出視盤和視杯,描述了一個(gè)通用的能量函數(shù),包括盤和杯的形狀和位置、邊緣厚度和“盤含杯”的幾何相互作用的先驗(yàn)知識(shí)。文獻(xiàn)[2]提出了一種基于梯度的方法來(lái)描繪視盤邊界的輪廓。文獻(xiàn)[3]在原始UNet 基礎(chǔ)上進(jìn)行了改進(jìn),提出了一種基于深度學(xué)習(xí)的視盤分割方法RA-UNet(residual attention UNet)。文獻(xiàn)[4]提出了一種基于超像素分類的視盤和視杯分割方法,利用局部信息對(duì)每個(gè)超級(jí)像素進(jìn)行分類。
視盤中心定位也有很多方法。文獻(xiàn)[5]提出了一種使用主成分分析查找視盤中心位置的方法。文獻(xiàn)[6]使用了形態(tài)學(xué)處理和霍夫變換來(lái)檢測(cè)眼底圖像中視盤的圓形特征。文獻(xiàn)[7]提出了一種新的視盤定位方法,該方法結(jié)合了改進(jìn)的基于圖形的視覺顯著性模型和視網(wǎng)膜血管分布特征進(jìn)行視盤定位。文獻(xiàn)[8]使用重復(fù)閾值技術(shù)來(lái)檢測(cè)圖像中最亮的粒子,然后通過(guò)評(píng)估這些顆粒的圓度獲得視盤中心。文獻(xiàn)[9]提出了一種基于方向模型的新方法,利用全局和局部模型的優(yōu)勢(shì)進(jìn)行高精度視盤定位。文獻(xiàn)[10]在視網(wǎng)膜圖像中使用直方圖匹配方法,通過(guò)計(jì)算局部直方圖的平均值來(lái)定位視盤。
常規(guī)的視盤分割和視盤中心定位算法都是對(duì)于單一任務(wù)進(jìn)行學(xué)習(xí),將視盤分割和定位作為兩個(gè)任務(wù)獨(dú)立學(xué)習(xí)。這些方法對(duì)健康的視網(wǎng)膜圖像識(shí)別精確度較高,但對(duì)于糖尿病患者的視網(wǎng)膜圖像識(shí)別度不高,這是由于糖尿病患者的視網(wǎng)膜發(fā)生了病變(例如滲出液,微動(dòng)脈瘤和微出血),從而影響了視盤分割和定位的精確度。對(duì)此,本文提出了一種改進(jìn)多任務(wù)學(xué)習(xí)方法的眼底視盤分割與定位方法,將視盤分割和定位兩個(gè)任務(wù)聯(lián)合起來(lái)互相促進(jìn)學(xué)習(xí),對(duì)于糖尿病患者的眼底視網(wǎng)膜圖像的視盤分割和定位也能達(dá)到更好的效果,其網(wǎng)絡(luò)架構(gòu)圖如圖1所示。網(wǎng)絡(luò)結(jié)構(gòu)分為特征提取部分和雙路徑眼底圖像視盤自動(dòng)分割與視盤中心定位部分,雙路徑部分共享編碼階段的特征提取網(wǎng)絡(luò)。使用視盤的模型自動(dòng)分割結(jié)果與手動(dòng)標(biāo)注之間的Dice 系數(shù)來(lái)評(píng)估分割的準(zhǔn)確率,并使用自動(dòng)定位的視盤中心與手動(dòng)標(biāo)記坐標(biāo)之間的距離來(lái)評(píng)估定位的效果。
圖1 改進(jìn)的多任務(wù)學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)Figure 1 Improved multi-task learning convolutional neural network
改進(jìn)的多任務(wù)學(xué)習(xí)方法的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含視盤分割和視盤中心定位兩條路徑,它們通過(guò)共享特征提取網(wǎng)絡(luò),自動(dòng)進(jìn)行端到端的并行訓(xùn)練和測(cè)試,并且可以不斷迭代互相促進(jìn)學(xué)習(xí),從而降低單一任務(wù)的偏差,增強(qiáng)模型的泛化能力和魯棒性。輸入圖像首先進(jìn)入U(xiǎn) 型網(wǎng)絡(luò)的編碼模塊進(jìn)行特征提取,之后特征向量經(jīng)過(guò)Bottleneck 結(jié)構(gòu)分別進(jìn)入視盤分割和視盤中心定位兩條路徑,U 型網(wǎng)絡(luò)的解碼模塊用來(lái)完成視盤分割任務(wù),輸出帶有視盤區(qū)域的二值圖像,下端的視盤中心定位路徑經(jīng)過(guò)多尺度特征提取模塊進(jìn)一步抽取高階抽象特征,輸出視盤中心坐標(biāo)。
視盤分割階段由編碼模塊和解碼模塊組成的Dense Unet 模型實(shí)現(xiàn)。眼底圖像作為編碼模塊的輸入進(jìn)行特征提取,編碼模塊由4 個(gè)密集塊和對(duì)應(yīng)的下采樣模塊組成,且在下采樣過(guò)程中進(jìn)行有效的特征提取以獲得視盤的輪廓和紋理信息。密集塊由密集連接的卷積層組成,下采樣模塊包含批歸一化、激活層ReLU、1×1 的卷積層、Dropout 層和2×2 的最大池化層,在生成粗糙特征圖的同時(shí)擴(kuò)大模型的感受野。解碼模塊包括級(jí)聯(lián)操作、相同數(shù)量的密集塊和上采樣模塊,這里上采樣模塊是一個(gè)卷積核為3×3、步長(zhǎng)為2 的反卷積層,通過(guò)進(jìn)一步抽取高階特征使圖像逐步恢復(fù)到輸入時(shí)的分辨率并輸出視盤分割結(jié)果。編碼模塊和解碼模塊由Bottleneck 進(jìn)行連接,其結(jié)構(gòu)也是一個(gè)密集塊結(jié)構(gòu),加強(qiáng)了特征之間的傳遞。
每個(gè)密集塊Dense block[11-12]利用上下所有層直接相連進(jìn)行特征融合,每一層的輸入是前面所有層輸出的快速連接,即第n層Dense layer 的輸入特征圖由前面n-1 個(gè)層進(jìn)行密集連接,圖2所示為含有4 個(gè)Dense layer 的密集塊結(jié)構(gòu)圖。
圖2 含有4 層Dense layer 的密集塊結(jié)構(gòu)Figure 2 Architecture of a Dense block with four Dense layers
一個(gè)m層的網(wǎng)絡(luò)會(huì)進(jìn)行m(m-1)/2 次連接。每一層Dense layer 由批歸一化、激活層ReLU、3×3 的卷積層和Dropout 層組成。相比于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),所增加的連接并沒有顯著增加參數(shù)個(gè)數(shù),由于網(wǎng)絡(luò)結(jié)構(gòu)對(duì)特征圖有良好的特征重用與自學(xué)習(xí)能力,可以有效緩減梯度消失問(wèn)題。
視盤中心定位階段共享分割部分的特征提取編碼階段,在提取了眼底視盤的高階抽象特征后,通過(guò)一個(gè)空洞空間金字塔模塊和一個(gè)金字塔池化模塊進(jìn)一步提取特征以得到視盤中心坐標(biāo)??斩纯臻g金字塔可以進(jìn)行多尺度特征提取和特征融合,金字塔池化模塊將任意輸入尺寸的圖像轉(zhuǎn)換成固定大小的特征向量,降低了過(guò)擬合,加快了網(wǎng)絡(luò)收斂速度,從而獲得更精確的視盤坐標(biāo)定位。
1.3.1 空洞空間金字塔池化
空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)[13-14]的工作原理是通過(guò)引入多尺度的空間金字塔結(jié)構(gòu),用多個(gè)不同尺度的空洞卷積對(duì)視盤目標(biāo)的細(xì)節(jié)輪廓特征進(jìn)行準(zhǔn)確提取,把局部特征轉(zhuǎn)換到不同的維度空間再加以融合??斩淳矸e在不增加卷積核參數(shù)的情況下擴(kuò)大了感受野,通過(guò)設(shè)置參數(shù)d-rate 改變感受野的大小,空間金字塔結(jié)構(gòu)可以有效地提取到圖像的多尺度特征信息,且計(jì)算量較小,其原理如圖3所示。
圖3 空洞空間金字塔池化結(jié)構(gòu)圖Figure 3 Structure diagram of atrous spatial pyramid pooling
1.3.2 空間金字塔池化
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)卷積層需要輸入圖像是固定尺寸的,這勢(shì)必會(huì)導(dǎo)致一定程度的信息丟失和變形,從而影響模型處理結(jié)果??臻g金字塔池化(spatial pyramid pooling,SPP)[15-16]可以對(duì)任意大小尺寸的特征圖進(jìn)行特征提取并轉(zhuǎn)換成固定大小的特征向量,在對(duì)圖像進(jìn)行多尺度特征提取和特征融合之后,將特征圖進(jìn)一步降維,得到輸出的視盤中心坐標(biāo)。
如圖4所示,空間金字塔池化包含3 種不同尺度的池化操作,分別對(duì)任意尺寸的特征圖(特征圖維度為h)進(jìn)行最大值池化,具體步驟如下:
圖4 空間金字塔池化結(jié)構(gòu)圖Figure 4 Structure diagram of spatial pyramid pooling
步驟1直接對(duì)整個(gè)特征圖進(jìn)行最大值池化,可以得到h×1 維特征;
步驟2將特征圖劃分為2×2 的網(wǎng)格,對(duì)每個(gè)網(wǎng)格進(jìn)行最大值池化,可以得到h×4 維特征;
步驟3將特征圖劃分為4×4 的網(wǎng)格,對(duì)每個(gè)網(wǎng)格進(jìn)行最大值池化,可以得到h×16 維特征;
步驟4將池化后所得的特征進(jìn)行合并與拼接,得到一個(gè)h×21 維度的特征。
由上述過(guò)程可以看出,輸出特征的大小與輸入的尺寸大小完全無(wú)關(guān),因此可以實(shí)現(xiàn)對(duì)任意尺寸圖像的處理。
視網(wǎng)膜圖像分析中的計(jì)算機(jī)輔助診斷可以輔助糖尿病人群的大規(guī)模篩查,提高臨床醫(yī)生的工作效率。在本次視盤分割和視盤中心定位實(shí)驗(yàn)中采用的數(shù)據(jù)來(lái)自于3 個(gè)公開數(shù)據(jù)集IDRiD、DRIVE 和STARE,視盤信息的標(biāo)注都是由專業(yè)的醫(yī)生完成的。IDRiD 數(shù)據(jù)集由516幅印度糖尿病視網(wǎng)膜病變圖像組成,原始圖像的分辨率為4 288×2 848;DRIVE 數(shù)據(jù)集由40幅正常視網(wǎng)膜圖像組成,原始圖像的分辨率為768×584;STARE 數(shù)據(jù)集由400 幅正常視網(wǎng)膜圖像組成,原始圖像的分辨率為605×700。本文采用的350 幅圖像分別來(lái)自IDRiD 數(shù)據(jù)集的200 幅、DRIVE 數(shù)據(jù)集的40 幅和STARE 數(shù)據(jù)集的110 幅,數(shù)據(jù)中混合了200 幅糖尿病視網(wǎng)膜圖像和150 幅正常眼底圖像。本文共選取了350 幅眼底圖像同時(shí)用于視盤分割任務(wù)和視盤中心定位任務(wù),將所有圖像進(jìn)行歸一化處理并縮放至分辨率為600×400,為了增加數(shù)據(jù)的多樣性和模型的泛化性,在訓(xùn)練時(shí)使用隨機(jī)的旋轉(zhuǎn)、平移和縮放等典型的圖像隨機(jī)變換方法對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)充。
視盤分割結(jié)果評(píng)價(jià)采用了醫(yī)學(xué)圖像中常見的指標(biāo)Dice 系數(shù)[17],損失函數(shù)采用Dice_loss代表預(yù)測(cè)的分割結(jié)果與標(biāo)注的視盤區(qū)域的偏差,公式為
式中:A為模型自動(dòng)分割視盤區(qū)域,B為手動(dòng)標(biāo)注視盤區(qū)域,因此Dice_loss 的值越小說(shuō)明分割結(jié)果越準(zhǔn)確。
視盤中心定位結(jié)果評(píng)價(jià)采用MSELoss 均方差損失函數(shù),公式為
式中:s為模型預(yù)測(cè)的坐標(biāo)結(jié)果,y為實(shí)際標(biāo)注的視盤坐標(biāo)。
本文將原始數(shù)據(jù)集劃分為訓(xùn)練集(280 幅圖像)和測(cè)試集(70 幅圖像),采用改進(jìn)多任務(wù)學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試。這種密集連接的結(jié)構(gòu)可以使特征在通道層面上實(shí)現(xiàn)重用,快速連接skip connection 可以把編碼階段較淺的特征引到解碼階段,有利于低維度和高維度特征信息的融合處理。視盤分割和視盤中心定位以多任務(wù)學(xué)習(xí)的方式互相促進(jìn)學(xué)習(xí),視盤分割和定位都依賴于共享的特征提取網(wǎng)絡(luò),視盤分割結(jié)果會(huì)約束視盤中心定位的范圍,反過(guò)來(lái)視盤中心定位也會(huì)約束視盤分割的范圍,可以降低過(guò)擬合,降低單一任務(wù)導(dǎo)致的偏差,加速網(wǎng)絡(luò)收斂過(guò)程,使得視盤分割結(jié)果更加準(zhǔn)確,視盤的邊緣輪廓更加清晰,視盤中心的定位更加精準(zhǔn),面對(duì)糖尿病視網(wǎng)膜病變的滲出和出血等圖像,視盤分割和定位的魯棒性更好。
在一個(gè)NVIDIA GTX 2080ti GPU 上進(jìn)行模型的訓(xùn)練和測(cè)試,將眼底圖像作為模型的輸入,通過(guò)兩個(gè)分支輸出視盤分割結(jié)果和視盤中心定位坐標(biāo)。對(duì)比模型自動(dòng)分割和定位結(jié)果與手動(dòng)標(biāo)注結(jié)果可知,視盤自動(dòng)分割的Dice 系數(shù)為0.965,視盤中心定位與手動(dòng)標(biāo)記之間的平均距離為34.7 像素(0.191 mm)。圖5顯示了本文方法提出的模型分割和定位結(jié)果,其中,圖5(b) 中白色十字表示預(yù)測(cè)坐標(biāo),綠色十字表示手動(dòng)標(biāo)注的坐標(biāo);圖5(c) 中藍(lán)色輪廓表示模型預(yù)測(cè)的視盤區(qū)域,綠色輪廓表示手動(dòng)標(biāo)注的視盤區(qū)域。
圖5 利用本文模型進(jìn)行分割和定位的結(jié)果Figure 5 Results of segmentation and localization with the proposed method
為了驗(yàn)證模型的優(yōu)越性,本文進(jìn)行了消融實(shí)驗(yàn)。基準(zhǔn)模型為分割階段是Unet 結(jié)構(gòu),定位階段只有全連接FC 模塊的Unet-M 模型,增加密集塊的DenseUnet-M 模型,增加密集塊和SPP 模塊的DenseUnet-M+SPP 模型,增加密集塊和ASPP 模塊的DenseUnet-M+ASPP 模型,最后是增加密集塊、ASPP 和SPP 模塊的DenseUnet-M+ASPP+SPP 模型,即改進(jìn)的多任務(wù)學(xué)習(xí)方法。不同模型的分割結(jié)果如圖6所示,所列舉的圖像包含了正常眼底圖像和患糖尿病情況下發(fā)生病變的眼底圖像,第1、3、4 行圖像都是患糖尿病情況下的眼底圖像,包含滲出和點(diǎn)片狀出血,第1 行的圖像滲出非常明顯,滲出部分已經(jīng)嚴(yán)重影響到算法對(duì)視盤位置的判斷,但本文方法仍然很好地把真實(shí)的視盤分割出來(lái)。對(duì)比結(jié)果可知,DenseUnet 得益于密集連接的特征重用,加強(qiáng)了特征之間的傳遞,可以實(shí)現(xiàn)比Unet 更好的分割效果;當(dāng)增加SPP 模塊后,可以聚合不同區(qū)域的上下文信息,對(duì)于背景復(fù)雜的圖像可以獲取更多的語(yǔ)義信息和更準(zhǔn)確的位置信息,使得分割效果進(jìn)一步優(yōu)化;ASPP 模塊是帶有空洞卷積的空間金字塔,用來(lái)提取不同尺度的空間信息,得到一個(gè)包含抽象化特征信息的輸出,同時(shí)包含更加豐富的邊緣信息,能在分辨率損失不太多的情況下獲得較大感受野;ASPP 和SPP 的結(jié)合方法可以融合更加豐富的多尺度信息和上下文信息,分割效果比只用其中一個(gè)模塊都好。
圖6 不同模型的視盤分割結(jié)果Figure 6 Results of optic disc segmentation with different models
本文提出的改進(jìn)多任務(wù)學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)融合了Dense Block、ASPP 和SPP 模塊,將各自的優(yōu)勢(shì)進(jìn)行整合,優(yōu)于其他方法,且具有很好的魯棒性和泛化能力。模型以共享部分參數(shù)的形式對(duì)視盤定位和分割兩個(gè)任務(wù)同時(shí)訓(xùn)練,使兩個(gè)任務(wù)互相促進(jìn),對(duì)不同任務(wù)的關(guān)聯(lián)信息進(jìn)行耦合學(xué)習(xí),降低了網(wǎng)絡(luò)的過(guò)擬合,提升了模型的泛化效果,因此對(duì)視盤的分割更清晰,對(duì)視盤輪廓邊緣的分割也更加準(zhǔn)確。分別對(duì)比了不同模型對(duì)應(yīng)的視盤定位誤差、視盤分割的Dice 系數(shù)、Jaccard 系數(shù)、敏感性和特異性結(jié)果如表1所示,本文提出的改進(jìn)多任務(wù)學(xué)習(xí)方法視盤定位誤差為34.7 像素,視盤分割的Dice 系數(shù)為0.965,Jaccard 系數(shù)為0.915,敏感性為0.984,特異性為0.974,各項(xiàng)評(píng)價(jià)指標(biāo)均優(yōu)于其他消除某些模塊的方法結(jié)果。
表1 消融實(shí)驗(yàn)Table 1 Ablation experiment
本文提出了一種改進(jìn)的多任務(wù)學(xué)習(xí)的眼底圖像視盤自動(dòng)分割和視盤中心自動(dòng)定位的新方法。該方法集成了密集塊、ASPP、SPP 和多任務(wù)學(xué)習(xí),通過(guò)密集的特征重用加強(qiáng)了特征之間的傳遞,豐富了上下文的多尺度信息,采用多任務(wù)學(xué)習(xí)的方法加強(qiáng)了關(guān)聯(lián)信息的耦合,可以降低過(guò)擬合,加快網(wǎng)絡(luò)的收斂速度,提升模型的泛化效果和魯棒性。對(duì)比實(shí)驗(yàn)表明:所提方法在大多數(shù)性能評(píng)價(jià)指標(biāo)上都優(yōu)于其他方法,使得視盤分割與定位結(jié)果更加準(zhǔn)確,這對(duì)于提高糖尿病視網(wǎng)膜疾病的診斷能力和治療水平具有重要意義,在后續(xù)的工作中可以探索在不降低性能的情況下如何進(jìn)一步優(yōu)化網(wǎng)絡(luò)架構(gòu),獲得一個(gè)輕量級(jí)且高性能的分割模型。