燕 楊, 曹婭迪, 黃文博
(長春師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林 長春 130032)
視盤(Optic Disc,OD)是視神經(jīng)的起點(diǎn),位于視網(wǎng)膜中心,視杯(Optic Cup,OC)即其中央凹陷處。由于青光眼導(dǎo)致的視神經(jīng)損傷,OC 區(qū)域會(huì)不斷擴(kuò)大,導(dǎo)致杯盤比(Cup to Disk Ratio,CDR)增加[1]。青光眼早期階段并無明顯癥狀,CDR 即為診斷青光眼的重要指標(biāo)。通過CDR診斷青光眼需要眼科醫(yī)生對(duì)大量眼底圖像中的OD 與OC 區(qū)域進(jìn)行標(biāo)注,耗時(shí)耗力,為此學(xué)者們對(duì)OD/OC 自動(dòng)提取算法展開研究?;跀?shù)字圖像處理的 OD 和 OC 分割方法主要分為兩種,一種是通過水平集、主動(dòng)輪廓等算法尋找邊緣確定OD 范圍;另一種是通過分析各類特征,使用分類器提取每個(gè)像素點(diǎn)分類,為了提高分割效率,這類方法多應(yīng)用在彩色眼底圖像的超像素分割中[2-5]。上述早期算法無法提取更抽象的特征,僅依賴低級(jí)特征,不僅易受干擾,而且精度過低。
神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的特征提取能力,其中以M-Net[6]最為經(jīng)典。M-Net 采用金字塔多尺度輸入,并通過side-out 層為早期層生成伴隨的局部輸出圖,最終將多個(gè)尺度的特征圖聚合生成輸出。針對(duì)OD 像素與背景像素嚴(yán)重不均衡的問題,M-Net 通過極坐標(biāo)轉(zhuǎn)換以及采用基于Dice 系數(shù)的多標(biāo)簽損失函數(shù)替代常見的多類分割損失來緩解。目前,許多OD 和OC 分割方法都借鑒了M-Net 的思想。Liu[7]等提出一種密集連接的深度可分離卷積網(wǎng)絡(luò),使用金字塔多尺度輸入避免網(wǎng)絡(luò)參數(shù)大幅增加,使用深度可分離卷積減少計(jì)算消耗,采用密集連接的形式,獲取眼底圖像中更豐富、更復(fù)雜的特征,提高OD和OC 的提取精度。于舒揚(yáng)等[8]基于Seg-Net 框架提出了融合感受野模塊的Seg-RFNet 框架,其編碼器采用ResNet-50 結(jié)構(gòu),進(jìn)行分支處理拓寬網(wǎng)絡(luò)結(jié)構(gòu),獲得了更抽象的語義信息;其解碼器的輸入來自不同級(jí)編碼器,以更完整地恢復(fù)圖像。
由于淺層特征與深層特征之間存在語義鴻溝,U 型網(wǎng)絡(luò)編碼器-解碼器通過跳躍鏈接將二者直接拼接的行為通常會(huì)導(dǎo)致噪聲,增加干擾。為此,本文提出了注意力感知的多尺度語義目標(biāo)提取模塊(Channel-Spatial-Pyramid, CSP)。該模塊在多尺度池化方法中引入通道-空間聯(lián)合注意力機(jī)制,在豐富上下文信息的同時(shí),增大對(duì)目標(biāo)提取有意義的特征權(quán)重。進(jìn)一步提出基于CSP 模塊的OD/OC 自動(dòng)分割網(wǎng)絡(luò)CSP-Net,將CSP 模塊應(yīng)用于編碼器-解碼器網(wǎng)絡(luò),增強(qiáng)早期層特征,減輕語義鴻溝,提高算法性能和精度。
正常情況下,OD 和OC 的形態(tài)如圖1(a)所示,其中藍(lán)色輪廓內(nèi)區(qū)域?yàn)镺D,綠色輪廓內(nèi)區(qū)域?yàn)镺C(彩圖見期刊電子版)。由于青光眼導(dǎo)致的OC 病變,如圖1(b)所示,OD 與OC 特征接近,難以區(qū)分。本文設(shè)計(jì)了CSP 模塊加入網(wǎng)絡(luò),提高了網(wǎng)絡(luò)特征提取能力,能夠更精準(zhǔn)地分割OD 與OC。CSP-Net 整體結(jié)構(gòu)如圖2 所示。提取特征的主干網(wǎng)絡(luò)在U-Net 基礎(chǔ)上減少了濾波器數(shù)量和訓(xùn)練參數(shù),降低訓(xùn)練所需要的計(jì)算消耗。針對(duì)早期特征與后期特征之間存在的語義鴻溝問題,在主干網(wǎng)絡(luò)下采樣路徑的早期層加入CSP 模塊,增強(qiáng)網(wǎng)絡(luò)提取上下文信息的能力并抑制無關(guān)特征,減輕淺層特征與深層特征的語義差異。傳統(tǒng)的金字塔池化模塊(Pyramid Pooling Module,PPM)[9]通過使用不同尺寸的池化核,達(dá)到獲取上下文信息的目的,但早期特征仍比較粗糙,含有大量與分割目標(biāo)無關(guān)的干擾特征。因此,CSP模塊在金字塔池化中引入通道-空間聯(lián)合注意力模塊,從通道和空間兩個(gè)維度放大對(duì)識(shí)別目標(biāo)更有意義特征。
圖1 彩色眼底圖像中的OD 和OC 區(qū)域Fig.1 OD and OC regions in color fundus images
圖2 CSP-Net 網(wǎng)絡(luò)模型Fig.2 CSP-Net model
早期特征在卷積與池化過程中均有丟失,僅憑后期特征進(jìn)行分割不夠全面。U-Net[10]通過拼接層將早期特征與后期特征進(jìn)行融合,解決了這一問題,因此成為最有效的特征提取網(wǎng)絡(luò)之一。U-Net 主要由兩部分組成,其中收縮路徑用于獲取上下文信息,擴(kuò)張路徑用于完成精準(zhǔn)分割,整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)呈對(duì)稱狀態(tài)。
為減少訓(xùn)練參數(shù),提高訓(xùn)練效率,這里減少了主干網(wǎng)絡(luò)卷積層上的濾波器,并且不增加用于降低分辨率的濾波器數(shù)目。這些改變并沒有降低網(wǎng)絡(luò)提取特征的能力,而是在參數(shù)數(shù)量和訓(xùn)練時(shí)間方面變得更加輕量級(jí)[11]。
在OD 分割任務(wù)中,由于OD 區(qū)域僅占全部圖像很小的部分,因此存在正負(fù)樣本嚴(yán)重不均衡的問題,訓(xùn)練時(shí)損失函數(shù)會(huì)陷入局部最小值,產(chǎn)生更重視背景部分的網(wǎng)絡(luò),樣本量較少的前景部分常會(huì)丟失或是僅被部分提取[12]。為了解決這一問題,將損失函數(shù)定義為:
其中:d(A,B)是Dice 損失函數(shù),是基于一種反應(yīng)正負(fù)樣本相似度的評(píng)價(jià)函數(shù);Dice 系數(shù)的取值為[0,1];A是網(wǎng)絡(luò)輸出的概率圖,B是專家手工標(biāo)注的真實(shí)標(biāo)簽,包含每個(gè)像素及其所屬的類;aij和bij分別代表A和B中的某一像素。Dice 損失函數(shù)評(píng)估真實(shí)標(biāo)簽與預(yù)測結(jié)果的相似程度,而非像素級(jí)的準(zhǔn)確度,避免網(wǎng)絡(luò)為追求更低損失將全部樣本分類為負(fù)樣本的情況。
考慮到語義鴻溝問題,CSP-Net 在主干網(wǎng)絡(luò)早期層中引入基于注意力機(jī)制的多尺度池化CSP 模塊。在編碼器-解碼器網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層數(shù)的加深,特征分辨率不斷降低,這一過程使深層特征丟失了許多上采樣操作無法恢復(fù)的細(xì)節(jié)信息。通過跳躍鏈接方法將淺層特征與深層特征進(jìn)行拼接雖然可以解決這一問題,卻因早期特征更粗糙、后期特征更抽象這一差異導(dǎo)致噪聲,影響分割精度。因此,這里在主干網(wǎng)絡(luò)早期層引入CSP 模塊,對(duì)早期特征進(jìn)行進(jìn)一步處理再與后期特征進(jìn)行拼接,減少語義差異,如圖3(a)所示。
圖3 CSP 與其子模塊結(jié)構(gòu)Fig.3 CSP module and submodule structure
U-Net 將不同卷積層的特征拼接實(shí)現(xiàn)了上下文信息融合,但提取特征時(shí)依舊使用固定尺寸的卷積核,缺少對(duì)每一層上下文信息的有效提取和利用。為充分提取早期層所包含的上下文信息,CSP 模塊基于金字塔池化結(jié)構(gòu),依靠多個(gè)不同尺寸的感受野檢測尺寸各異的目標(biāo),獲得更豐富的多尺度特征。普通最大池化使用單個(gè)池內(nèi)核,金字塔池化結(jié)構(gòu)采用4 條并行分支進(jìn)行池化,每條分支池化核尺寸均不相同。4 個(gè)不同尺寸感受野收集特征圖的上下文信息并進(jìn)行編碼,產(chǎn)生4 個(gè)不同尺寸的特征圖并將所有分支結(jié)果拼接。最后,對(duì)拼接的特征圖使用1×1 卷積,將通道數(shù)恢復(fù)至原特征圖尺寸。
傳統(tǒng)的金字塔池化結(jié)構(gòu)雖然提取到豐富的空間上下文信息,但無法阻止無關(guān)特征進(jìn)入后期層,因此CSP 在金字塔池化結(jié)構(gòu)中引入通道-空間聯(lián)合注意力模塊。通道-空間聯(lián)合注意力模塊擁有兩個(gè)順序子模塊,即通道注意力模塊和空間注意力模塊。 對(duì)于一個(gè)給定的特征圖F∈RH×W×D,該模塊首先通過沿著通道模塊產(chǎn)生一個(gè)一維的通道注意力特征圖Ac∈R1×1×D,將它乘以輸入特征圖進(jìn)行自適應(yīng)特征細(xì)化,產(chǎn)生細(xì)化的特征圖F′。F′作為空間注意力模塊的輸入,產(chǎn)生通道數(shù)為1 的空間注意力圖As∈RH×W×1,并與F′相乘,產(chǎn)生最終的注意力特征圖F′。該過程的數(shù)學(xué)形式如下:
其中?表示對(duì)特征圖進(jìn)行逐元素相乘。在該過程中,通道注意力模塊產(chǎn)生的注意值會(huì)繼續(xù)在空間維度傳播。通道注意力模塊與空間注意力模塊結(jié)構(gòu)分別如圖3(b)和3(c)所示。
輸入通道注意力模塊的特征圖,首先經(jīng)過最大池化和平均池化聚合特征映射的空間信息,產(chǎn)生兩組不同的特征信息——平均池化所聚合的空間信息與最大池化所收集的不同類別的特征,使網(wǎng)絡(luò)可以有效學(xué)習(xí)OD 和OC 的范圍,減少無關(guān)背景對(duì)識(shí)別目標(biāo)的影響,同時(shí)細(xì)化特征,有效降低OC 目標(biāo)的提取難度。通道注意力模塊對(duì)池化產(chǎn)生的兩組特征分別進(jìn)行1×1 卷積操作后,再進(jìn)行求和,最后使用sigmoid 函數(shù)進(jìn)行激活,產(chǎn)生最終的通道特征圖。通道注意力模塊可表示為:
其中σ表示sigmoid 激活函數(shù)。
空間注意力模塊作為通道注意力模塊的補(bǔ)充,接收通道注意力特征圖作為輸入。經(jīng)過全局最大池化和全局平均池化后,將結(jié)果聚合,經(jīng)過7×7 卷積和Sigmoid 函數(shù),產(chǎn)生最終的空間注意力圖。與通道注意力不同的是,空間注意力會(huì)聚焦特征圖中的關(guān)鍵信息,即強(qiáng)調(diào)感興趣目標(biāo),有助于解決前背景像素分布不均衡的問題??臻g注意力模塊還可表示為:
其中f7×7為卷積核尺寸為7×7 的卷積操作。
本文分別在RIM-ONE v. 3[13],DRIONSDB[14],DRISHTI-GS[15]公開彩色眼底數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),將本文方法與現(xiàn)有方法在OD/OC 識(shí)別任務(wù)中進(jìn)行對(duì)比,以驗(yàn)證本文方法的性能與泛化能力。在實(shí)驗(yàn)中,數(shù)據(jù)集被隨機(jī)劃分為訓(xùn)練集與驗(yàn)證集兩部分,其中訓(xùn)練集占數(shù)據(jù)集總量的80%,驗(yàn)證集占總量20%。訓(xùn)練集與驗(yàn)證集中均包含正常眼底與青光眼眼底兩類數(shù)據(jù)。
實(shí)驗(yàn)使用深度學(xué)習(xí)框架Tensorflow 2.0 和Keras 2.3.1,利用GPU(graphic processing unit)加速網(wǎng)絡(luò)模型訓(xùn)練及測試,顯卡型號(hào)為NVIDIA Tesla K80。采用Adam 優(yōu)化器,Adam 算法可在訓(xùn)練時(shí)自適應(yīng)調(diào)節(jié)學(xué)習(xí)率,且收斂速度更快。
訓(xùn)練前采用對(duì)比度受限自適應(yīng)直方圖均衡進(jìn)行預(yù)處理。由于樣本數(shù)量較少,為防止過擬合,在訓(xùn)練階段對(duì)每幅圖像分別進(jìn)行4 種數(shù)據(jù)增強(qiáng)操作,包括隨機(jī)縮放、隨機(jī)水平偏移、隨機(jī)垂直偏移和隨機(jī)旋轉(zhuǎn),并將圖像統(tǒng)一縮放為256×256像素進(jìn)行訓(xùn)練與測試。為了充分利用先驗(yàn)知識(shí),在OC 識(shí)別前先根據(jù)圖中OD 的位置裁剪出尺寸為128×128 的區(qū)域,再輸入網(wǎng)絡(luò)中。訓(xùn)練時(shí),批處理大小設(shè)置為4,訓(xùn)練進(jìn)行500 個(gè)epoch。
為客觀評(píng)估本文算法性能,采用Dice 系數(shù)、平均交并比(Mean Intersection over Union,MIoU)、總體分割精度(Accuracy,Acc),精確度(Precision,PC)和均方誤差(Mean Square Error,MSE)作為評(píng)價(jià)標(biāo)準(zhǔn),將本文算法結(jié)果與現(xiàn)有算法結(jié)果進(jìn)行比較。評(píng)價(jià)函數(shù)公式如下:
其中:TP 為預(yù)測正確的正樣本像素?cái)?shù)量,F(xiàn)P 為預(yù)測錯(cuò)誤的正樣本像素?cái)?shù)量,TN 為預(yù)測正確的負(fù)樣本像素?cái)?shù)量,F(xiàn)N 預(yù)測錯(cuò)誤的負(fù)樣本像素?cái)?shù)量,k+1 是包括背景在內(nèi)的類的數(shù)量。
其中:M和N分別代表圖像的寬和高,y(i,j)代表原始圖像中的某一像素,x(i,j)為預(yù)測圖像中的對(duì)應(yīng)像素。
在OD 提取任務(wù)中,將本文方法與現(xiàn)有方法進(jìn)行比較,結(jié)果如表1 所示。在DRIONS-DB 數(shù)據(jù)集上,本文方法的MIoU 與Dice 系數(shù)分別達(dá)到92.6% 與 96.9%,Acc 達(dá)到 99.8%,PC 為97.0%。與未加入CSP 模塊的主干網(wǎng)絡(luò)比較,各項(xiàng)指標(biāo)均有所增加,且所有對(duì)比算法中,CSP-Net的Dice 值最高。
表1 DRIONS-DB 數(shù)據(jù)庫OD 提取結(jié)果對(duì)比Tab.1 Comparison of OD extraction results on DRIONS-DB database(%)
圖4 展示了在DRIONS-DB 數(shù)據(jù)集中,本文方法與其他方法預(yù)測結(jié)果的可視化結(jié)果。以第3行為例,AttnU-Net 由于血管干擾,視盤區(qū)域欠分割;M-Net 的分割結(jié)果則遠(yuǎn)大于視盤區(qū)域,會(huì)影響CDR 計(jì)算,最終影響青光眼篩查結(jié)果;DRIU方法的視盤位置與人工標(biāo)注有偏差。相對(duì)而言,本文方法能夠更準(zhǔn)確地從病變區(qū)域中識(shí)別視盤,分割結(jié)果也更接近專家標(biāo)注。
圖4 DRIONS-DB 數(shù)據(jù)集OD 提取可視化結(jié)果對(duì)比Fig.4 Comparison of OD extraction results on DRIONSDB dataset
如表2 所示,在RIM-ONE v.3 數(shù)據(jù)集上,本文方法的MIoU 與Dice 系數(shù)分別達(dá)到91.7 與96.3%,Acc 與PC 分別為99.7%,95.7%,比主干網(wǎng)絡(luò)分別提高了5.6%,3.2%,0.2% 和1.5%。由表1 與表2 所展示的OD 提取對(duì)比數(shù)據(jù)可見,本文方法有效提高了網(wǎng)絡(luò)分割精度,與人工標(biāo)注的結(jié)果最接近。
表2 RIM-ONE v.3 數(shù)據(jù)庫OD 提取結(jié)果對(duì)比Tab.2 Comparison of the results of OD extraction on RIM-ONE v. 3 database(%)
圖5 展示了RIM-One v.3 數(shù)據(jù)集OD 提取的可視化結(jié)果。由圖可見,在病變、血管結(jié)構(gòu)及光照等影響下,本文方法仍然較為精準(zhǔn)且穩(wěn)定地提取OD,在病變眼底中能夠準(zhǔn)確識(shí)別視盤。
圖5 RIM-ONE v.3 數(shù)據(jù)集OD 提取的可視化結(jié)果對(duì)比Fig.5 Comparison of OD extraction results on RIMONE v. 3 dataset
在OC 提取任務(wù)中,本文方法在DRISHTIGS 和RIM-ONE v.3 數(shù)據(jù)集上與M-Net,主干網(wǎng)絡(luò),MEAL[22],pOSAL[23],F(xiàn)CN[24],SegNet[25],ESS-Net[26],Edge TPU[27],SLSR-Net[28],NASU2-Net[29],SAM 和MedSAM 方法進(jìn)行了對(duì)比,結(jié)果如表3 所示。由表可見,本文方法的MIoU 和Dice 點(diǎn)數(shù)分別為85.4%和92.1%,顯著優(yōu)于其他方法。
表3 DRISHTI-GS 數(shù)據(jù)庫OC 提取結(jié)果對(duì)比Tab.3 Comparison of OC extraction results in DRISHTIGS database(%)
由表4 可見,在RIM-ONE v.3 數(shù)據(jù)集OC 提取對(duì)比實(shí)驗(yàn)中,本文方法仍獲得了最高的相似度,預(yù)測結(jié)果與真實(shí)標(biāo)簽最接近。以上結(jié)果表明,CPS-Net 可以準(zhǔn)確地對(duì)OD/OC 進(jìn)行自動(dòng)提取,為青光眼的診斷與篩查提供可靠依據(jù)。
圖6 為不同方法在RIM-ONE v.3 數(shù)據(jù)集上的OC 提取可視化結(jié)果對(duì)比??梢钥闯?,pOSLA算法在RIM-ONE V3 數(shù)據(jù)集上出現(xiàn)了過分割的情況;M-Net 則由于可遷移性不強(qiáng),實(shí)驗(yàn)結(jié)果也不理想。視杯提取的難點(diǎn)在于視杯包含在視盤中,且二者特征相似難以區(qū)分,而通道注意力使網(wǎng)絡(luò)更專注與關(guān)鍵信息相關(guān)的通道,增強(qiáng)了CPS-Net 的目標(biāo)提取能力。以圖6 第4 行為例,雖然該圖OC 區(qū)域極小且特征不明顯,但本文方法仍更接近專家標(biāo)注,最大程度地減少CDR 的計(jì)算誤差。圖7 為不同方法在DRISHIT-GS 數(shù)據(jù)集可視化OC 提取對(duì)比。由圖可見,本文方法未受血管網(wǎng)絡(luò)影響,實(shí)現(xiàn)了精準(zhǔn)分割。
圖7 DRISHTI-GS 數(shù)據(jù)集的OC 可視化結(jié)果對(duì)比Fig.7 Comparison of OC extraction results on DRISHTI-GS dataset
本文方法在不同數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),以驗(yàn)證CSP 模塊中所有模塊的作用。實(shí)驗(yàn)在主干網(wǎng)絡(luò)的基礎(chǔ)上,分別加入了通道-空間聯(lián)合注意力、金字塔池化結(jié)構(gòu)以及CSP 模塊。實(shí)驗(yàn)環(huán)境、評(píng)估指標(biāo)以及超參數(shù)均相同。
如表5 和表6 所示,將僅加入注意力機(jī)制的網(wǎng)絡(luò)記為+Attn,僅加入金字塔池化結(jié)構(gòu)的網(wǎng)絡(luò)記為+PPM。由表可知,以RIM-ONE v.3 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果為例,使用主干網(wǎng)絡(luò)提取OD 的MIoU 為86.1%,Dice 系數(shù)為93.1%,OC 提取的MIoU 為68.3%,Dice 為81.5%。將通道-空間聯(lián)合注意力(Attn)與金字塔池化結(jié)構(gòu)中的任何一個(gè)集成,都可以提高性能指標(biāo)。將注意力機(jī)制引入金字塔池化結(jié)構(gòu)后,OD 的提取性能達(dá)到最高,MIoU 為91.7%,比主干網(wǎng)絡(luò)高5.6%;Dice 為96.3%,比主干網(wǎng)絡(luò)高3.2%。OC 提取的MIoU可達(dá)74.4%,比主干網(wǎng)絡(luò)高6.1%;Dice 系數(shù)為86.0%,比主干網(wǎng)絡(luò)高4.5%。
表5 OD 提取消融實(shí)驗(yàn)結(jié)果對(duì)比Tab.5 Comparison of ablation experiment results for OD extraction task(%)
表6 OC 提取消融實(shí)驗(yàn)結(jié)果對(duì)比Tab.6 Comparison of the ablation experiment results for OC extraction task(%)
本文以更輕量級(jí)的編碼器-解碼器模型作為主干網(wǎng)絡(luò),加入基于注意力機(jī)制的多尺度語義目標(biāo)提取CSP 模塊,對(duì)早期層特征進(jìn)行進(jìn)一步處理,并與上采樣路徑中的后期層特征進(jìn)行拼接,在減輕語義鴻溝的同時(shí),更加充分地利用來自每一層的多尺度信息,有效提升了目標(biāo)提取的精度。針對(duì)提取視杯盤任務(wù),在DRIONS-DB,RIM-ONE v.3 及DRISHTI-GS 3 個(gè)公開數(shù)據(jù)集上與現(xiàn)有方法進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,本文提出的CSP-Net 在OD 和OC 的提取任務(wù)中精度均為最優(yōu),且在處理病變區(qū)域、視杯特征不明顯等區(qū)域具有很強(qiáng)的競爭力。