盛克峰,李文星
1(貴州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,貴陽 550025)
2(貴州大學(xué) 密碼學(xué)與數(shù)據(jù)安全研究所,貴陽 550025)
眼球超聲圖像可以為臨床提供豐富的眼球信息輔助醫(yī)生診斷,分割眼球區(qū)域是分析醫(yī)學(xué)圖像非常重要的手段,其分割的效果會影響后續(xù)分析.一般情況下,超聲圖像中眼球區(qū)域分割需要臨床醫(yī)生進(jìn)行手動分割和標(biāo)注,消耗大量的人力和資源.除此之外,臨床超聲設(shè)備容易受噪聲影響,采集到的圖像容易不可避免的具有區(qū)域模糊、邊緣灰度相似等缺點,傳統(tǒng)基于閾值的分割方法和基于輪廓的分割方法并不能準(zhǔn)確地將眼球區(qū)域分割出來.
越來越多的專家引入深度學(xué)習(xí)的方法處理醫(yī)學(xué)圖像.將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到圖像語義分割當(dāng)中,可以高效地從大量的樣本中學(xué)習(xí)豐富的圖像特征信息,顯著提高分割的速度和精度.利用卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的分割方法在醫(yī)學(xué)圖像分割中取得不俗的表現(xiàn),其分割精度接近于臨床專家手動標(biāo)注.因此,在2014年Long 等[1]提出基于全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks for semantic segmentation,FCN)的圖像語義分割,首次將深度學(xué)習(xí)應(yīng)用到語義分割當(dāng)中;該模型是一個編碼-解碼架構(gòu)的神經(jīng)網(wǎng)絡(luò),允許任意尺寸大小的圖像輸入,降低了圖像處理的難度.FCN 使用卷積層代替?zhèn)鹘y(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的全連接層,又提出了通過跳躍連接將包含語義信息的高層特征和包含位置信息的低層特征進(jìn)行融合以達(dá)到較精確的分割效果.2015年Ronneberger 等[2]基于FCN 提出了圖像分割的U 形神經(jīng)網(wǎng)絡(luò)(U-net architecture,Unet)通過跳躍連接,融合高低層的特征信息以增強解碼器恢復(fù)局部細(xì)節(jié)的能力,尤其在生物醫(yī)學(xué)圖像數(shù)據(jù)集上的分割中取得了不俗的效果.但在多次卷積和下采樣時,會造成空間位置信息和邊緣輪廓像素的丟失,而原始Unet 全卷積網(wǎng)絡(luò)使用跳躍連接的方式不能充分利用低層語義信息,只能粗略地對圖像進(jìn)行語義分割.Zhang 等[3]為了將更多的語義信息引入低級特征,提出了語義監(jiān)督和語義嵌入分支,同時為了將更多的空間信息嵌入到高層特征中提出了通道分辨率嵌入和密集相鄰預(yù)測.Lin 等[4]提出了語義嵌入分支的Unet,用于分割邊緣模糊圖像.Gu 等[5]基于Unet 提出了適用于2D 醫(yī)學(xué)圖像分割的上下文編碼器網(wǎng)絡(luò),其目的就是進(jìn)一步提取高層信息,盡可能保留更多的空間信息.雖然以上基于深度學(xué)習(xí)的分割方法在語義分割中取得不俗的表現(xiàn),但在針對眼球超聲圖像的分割存在分割精度不高的問題.
為進(jìn)一步有效地提取關(guān)鍵信息特征,2014年Mnih 等[6,7]在圖像分類中引入了注意力機制,用于關(guān)注輸入圖像的最相關(guān)區(qū)域,提高網(wǎng)絡(luò)的學(xué)習(xí)能力.Jaderberg等[8]提出了空間變換網(wǎng)絡(luò),使卷積神經(jīng)網(wǎng)絡(luò)具有空間變換的能力,讓網(wǎng)絡(luò)能夠?qū)W習(xí)到圖像的平移、尺度變換、旋轉(zhuǎn)的不變性.Hu 等[9]提出了一個新的架構(gòu)單元(sequeze and excitation block,SE block)通過對圖像特征通道間的相互依賴關(guān)系進(jìn)行操作,通過學(xué)習(xí)的方式來自動獲取到每個特征通道的重要程度,去提升關(guān)鍵特征并抑制無用的特征.Vaswani 等[10]提出了利用注意力機制將編碼器-解碼器連接起來,摒棄了遞歸的網(wǎng)絡(luò)結(jié)構(gòu),節(jié)省大量的訓(xùn)練時間.Wang 等[11]提出了殘差注意力網(wǎng)絡(luò),在不同層次的特征上進(jìn)行學(xué)習(xí),極大地減少計算量又達(dá)到了較高的準(zhǔn)確度.Oktay等[12]在2018年提出了基于Unet的注意力機制(attention Unet),利用注意力機制在輸入圖像中抑制不相關(guān)區(qū)域的同時突出目標(biāo)的顯著特征.Alom 等[13]在Unet的基礎(chǔ)上將殘差網(wǎng)絡(luò)和RCNN (regions with convolutional neural networks)結(jié)合在一起,使用殘差模塊可以進(jìn)行深層網(wǎng)絡(luò)的訓(xùn)練,同時在不過多增加參數(shù)量的情況下提高分割能力,在循環(huán)殘差層將特征相加有利于特征提取.2017年Dai 等[14]提出了可變形卷積層替換傳統(tǒng)的卷積層,可變形卷積對形狀的幾何信息進(jìn)行建模,能夠有效地學(xué)習(xí)不同形狀的目標(biāo).2019年Zhu 等[15]在網(wǎng)絡(luò)中引入更多的可變形卷積層,增強網(wǎng)絡(luò)的學(xué)習(xí)能力,通過可變形卷積模塊的調(diào)制機制,減小無關(guān)的圖像區(qū)域?qū)μ卣鞯挠绊?2017年,Zhang 等[16]提出了用于細(xì)胞分割與分類的可變形卷積的Unet 分割網(wǎng)絡(luò),利用可變形卷積解決了尺寸、形狀存在巨大差異的細(xì)胞之間難以分割的問題.2019年Deng 等[17]提出了一種約束的可變形卷積語義分割算法,該算法在輸入特征圖上利用可變形卷積有效地對目標(biāo)的幾何形狀進(jìn)行學(xué)習(xí).2019年Sun 等[18]提出了一種用于胃癌區(qū)域的分割方法,利用可變形卷積和Atrous 空間金字塔池化模塊進(jìn)行多尺度的語義分割.
2019年Takikawa 等[19]提出了用于語義分割的門控形狀的卷積神經(jīng)網(wǎng)絡(luò)Gated-SCNN,將形狀信息作為單獨分支即形狀流,用門控連接雙流CNN 架構(gòu),高效地去除噪聲且專注地處理邊界相關(guān)信息.2020年Niu等[20]提出了混合多重注意力網(wǎng)絡(luò)HMANet,從通道和空間的注意力本身出發(fā),自適應(yīng)地捕獲全局信息,通過嵌入通道注意力來計算并更新權(quán)重,引入注意力機制后的卷積神經(jīng)網(wǎng)絡(luò)模型可以提高網(wǎng)絡(luò)的學(xué)習(xí)能力和分割精度.為了提高網(wǎng)絡(luò)的分割精度,許多學(xué)者使用可變形卷積去提升網(wǎng)絡(luò)對目標(biāo)區(qū)域的感知[14–17].除此之外,隨著注意力機制在計算機視覺中不斷發(fā)展[6,7],更多學(xué)者將注意力機制引入到語義分割中[19,20],在特征圖的空間域和通道域上增強目標(biāo)區(qū)域特征,抑制不相關(guān)的背景區(qū)域.
上述特征融合和注意力機制的思想為本文方法提供了更多的思路,針對具有更多噪聲干擾和輪廓模糊的眼球超聲圖像,本文提出了一種語義嵌入分支的注意力機制的圖像分割模型,提高超聲圖像眼球區(qū)域分割的準(zhǔn)確度和模型的魯棒性.本文的主要思想是通過對圖像不同層次之間的語義特征進(jìn)行融合從而提高模型對超聲圖像中眼球區(qū)域的分割能力;引入注意力機制可以在突出關(guān)鍵區(qū)域特征的同時抑制不相關(guān)區(qū)域的特征響應(yīng),減少錯誤的分割;而不同層次語義特征的融合可以在保留圖像細(xì)節(jié)紋理的同時減少全局語義信息的丟失.本文主要的研究工作如下.
1)在編碼器-解碼器Unet的基礎(chǔ)上,本文提出在第3 次和第4 次下采樣過程中使用可變形卷積替代傳統(tǒng)的卷積,可變形卷積可以自適應(yīng)地調(diào)整網(wǎng)絡(luò)的感受野,更好地適應(yīng)目標(biāo)區(qū)域的形狀,提高卷積神經(jīng)網(wǎng)絡(luò)的特征表達(dá)能力和分割精度.
2)為了充分利用超聲圖像中眼球區(qū)域多尺度特征,在上采樣過程中通過構(gòu)建語義嵌入的注意力機制,生成具有權(quán)重系數(shù)的特征圖,通過對權(quán)重系數(shù)的更新從而達(dá)到突出超聲圖像中重要空間位置的關(guān)鍵信息和抑制不相關(guān)的背景區(qū)域的目的.
3)將本文方法對比3 種不同的深度學(xué)習(xí)分割方法,基于可變形卷積的語義嵌入注意力機制,更好地感知超聲圖像中眼球信息,對超聲圖像中的背景噪聲和眼球區(qū)域的邊緣模糊,實現(xiàn)更加精準(zhǔn)且魯棒的分割效果.實驗結(jié)果表明,相較于其他的分割方法,本文模型在超聲眼球圖像數(shù)據(jù)集上可以取得最高的分割精度,像素準(zhǔn)確率達(dá)到98.15%.
不同層次的特征融合是語義分割中的一種重要的方法,在卷積神經(jīng)網(wǎng)絡(luò)中低層特征圖的分辨率較高,包含豐富的空間位置信息,但是其語義層次較低;而高層特征具有更強的語義信息,但是分辨率很低,特征圖的細(xì)節(jié)信息較少.如圖1所示,本文中的語義嵌入分支在盡量不增加模型的參數(shù)和復(fù)雜度同時,將高層的特征圖經(jīng)過一次核大小為3×3的卷積層和上采樣操作,再乘上來自較低層的特征圖,實現(xiàn)不同層之間的特征融合,彌補高低層特征之間的差異,減少了圖像的噪聲和灰度相似帶來不良影響,提高了模型的學(xué)習(xí)能力.同時,有助于后續(xù)上采樣操作,還原出更多的圖像細(xì)節(jié)信息.語義嵌入分支輸入第l階段編碼器得到的特征圖xl,同時來自較高層的特征圖xl+1通過核大小為3×3的卷積層,經(jīng)過上采樣操作,將圖像分辨率增加一倍,使通道數(shù)減少到原來的一半.使得特征圖的大小和通道的數(shù)量和來自低層的特征圖保持一致.最后,將高層特征上采樣后的特征圖和低層的特征圖相乘得到特征圖yl.其中計算過程:
其中,xl+1經(jīng) 過3×3 卷積再進(jìn)行上采樣,得到特征圖,此時特征圖的大小和低層特征圖xl一致,最后將特征圖乘上特征圖xl得到輸出的特征圖yl.
語義分割中的注意力機制[21–23]主要包括通道域和空間域,通道域主要是對特征圖的通道進(jìn)行處理;由于超聲圖像的特征,本文中的注意力機制主要是在特征圖的空間域上進(jìn)行操作,如圖2所示;注意力機制是由核大小為1×1的卷積層、非線性ReLU 層,Sigmoid層等組成.核大小為1×1的卷積層可以減少網(wǎng)絡(luò)參數(shù),調(diào)整特征圖的通道數(shù)量;ReLU 激活函數(shù)增強模型的學(xué)習(xí)能力,解決訓(xùn)練時梯度消失等問題;Sigmoid 函數(shù)用于特征圖取值的歸一化,得到取值在 [0,1]之間的概率圖可以加速網(wǎng)絡(luò)的收斂.用輸入特征圖乘上Sigmoid函數(shù)后的特征圖 αi,可以得到每個像素都具有權(quán)重的特征圖,在圖像中顯著性特征取得較大的值,在不相關(guān)的背景區(qū)域中像素取得較小的值,從而增強顯著特征和抑制不相關(guān)的區(qū)域,為上采樣操作提供更加精細(xì)的特征,從而有利于對本文中超聲圖像中眼球區(qū)域的分割.
本文的注意力機制,重新調(diào)整了編碼器的輸出特征圖,更新特征圖的權(quán)重,可以實現(xiàn)對顯著性區(qū)域的關(guān)注.最后將具有注意力的特征圖進(jìn)行跳躍連接.
由于卷積神經(jīng)網(wǎng)絡(luò)中卷積核的大小是固定的,其感受野具有一定的局限性,不能很好地感知超聲圖像中眼球區(qū)域的幾何形狀,為了高效地提取眼球區(qū)域中關(guān)鍵語義信息,本文在卷積層中引入可變形卷積,可變形卷積模塊可以在訓(xùn)練過程中學(xué)習(xí)偏移量來改變空間中的采樣位置,可變形卷積結(jié)構(gòu)如圖3.
圖3中,輸入特征圖x經(jīng)過3×3的卷積,其目的是在訓(xùn)練網(wǎng)絡(luò)的過程中學(xué)習(xí)偏移量的大小,生成具有偏移量的參數(shù)的特征圖y.可變形卷積在標(biāo)準(zhǔn)卷積中的每一個采樣點位置上都加了一個可學(xué)習(xí)的偏移 ?an,可變形卷積使用偏移{?an|n=1,···,N}將區(qū)域R的每個點進(jìn)行位移,如以下公式所示:
其中,w為權(quán)重,R為采樣區(qū)域,R為{(?1,?1),(?1,0),···,(0,1),(1,1)},a0為輸出特征圖y中的點,an為采樣區(qū)域R的所有采樣點,由于?an為小數(shù),所以采用雙線性插值計算x(a0+an+?an)的值.
本文模型新提出的卷積神經(jīng)網(wǎng)絡(luò)以Unet為基礎(chǔ)架構(gòu),如圖4所示,其結(jié)構(gòu)主要是由編碼器、語義嵌入的注意力機制、解碼器組成.編碼器包括圖像的輸入和4 次下采樣過程;輸入分辨率為96×96的圖像通過卷積核大小為3×3 卷積層,其中包括3×3 卷積、批標(biāo)準(zhǔn)化(batch normalization,BN)、ReLU 激活函數(shù),最后一個步長為2的最大池化層;其中最大池化層用來實現(xiàn)下采樣操作,每次執(zhí)行下采樣操作都將特征通道數(shù)增加一倍,圖像的大小縮小一倍,提取高層的語義信息.如圖4,第3 次和第4 次下采樣過程中使用可變形卷積層,可變形卷積相較于傳統(tǒng)的卷積,不再局限于固定的感受野,可變形卷積網(wǎng)絡(luò)可以適應(yīng)目標(biāo)區(qū)域的變化.在卷積神經(jīng)網(wǎng)絡(luò)中增加更多的可變形卷積層,提高卷積神經(jīng)網(wǎng)絡(luò)對圖像相關(guān)區(qū)域的表征能力.引入可變形卷積代替?zhèn)鹘y(tǒng)的卷積層,對超聲圖像中眼球區(qū)域更好地感知,能夠為分割提供更加有效的特征.
下采樣過程由池化操作來實現(xiàn),得到高層圖像的語義信息,經(jīng)過語義嵌入分支實現(xiàn)不同層之間的特征融合,使本文的網(wǎng)絡(luò)充分學(xué)習(xí)超聲眼球圖像的豐富信息.其次,語義嵌入分支輸出的特征圖經(jīng)過注意力機制,生成具有注意力的特征圖.本文在中間過程中使用語義嵌入分支和注意力機制,是由于最后一次下采樣得到的特征使用跳躍連接就可以實現(xiàn)特征融合.
在本文網(wǎng)絡(luò)結(jié)構(gòu)的中間階段,其主要的思想是融合不同層之間的特征,使用語義嵌入分支取代Unet 中特征信息的直接通過跳躍連接與相應(yīng)層的特征融合操作,將低層特征信息和高層特征融合解決了上采樣操作帶來的低層特征信息的丟失問題和高層特征細(xì)節(jié)信息不足的問題.
本文模型語義嵌入分支主要是融合3 個不同層的特征圖,下采樣后的特征圖yl,來自低層特征圖xl,xl+1進(jìn)行特征融合.
本文模型使用的注意力機制如圖2所示,輸入編碼器第l層的特征圖yl,同樣經(jīng)過1×1 卷積運算操作得到特征圖WyTyl.通過l+1 層的特征圖上采樣后的特征圖gl,經(jīng)過1×1 卷積運算操作得到特征圖WyTgl.將上兩步得到的特征圖WyTgl和WyTyl進(jìn)行相加后再進(jìn)行非線性操作ReLU 得到 σ (WyTyl+WgTgl+bg),隨后再使用1×1 卷積運算得到特征圖qatt,最后經(jīng)過Sigmoid 激活函數(shù)得到最終的注意力系數(shù)attention coefficient (αi).用公式表示為:
其中,偏置項bψ∈R,bg∈R,αi∈[0,1].利用注意力系數(shù)乘上輸入的特征圖yl得到具有權(quán)重的特征圖yˉl,從而突出圖像中顯著區(qū)域,有助于實現(xiàn)精準(zhǔn)的分割.由于圖像分辨率在多次下采樣的處理后較小,本文網(wǎng)絡(luò)僅在第2 階段和第3 階段使用了兩次語義嵌入的注意力機制,為后續(xù)的處理提供更加豐富特征.
解碼器包括4 次上采樣過程,首先是特征圖經(jīng)過一個上采樣操作再和語義嵌入的注意力機制處理后的特征圖進(jìn)行連接,克服了上采樣操作造成的特征信息不足問題,經(jīng)過卷積核大小為3×3的卷積層,每個卷積層后跟一個ReLU 層,同時上采樣使特征通道數(shù)減半,圖像恢復(fù)原來分辨率大小的兩倍,多次上采樣操作后恢復(fù)圖像的大小.最后經(jīng)過一個核大小為1×1的卷積輸出特征圖.
在原始的Unet 中由于高層特征對細(xì)節(jié)的感知能力差,本文模型利用可變形卷積具有更好的感受野這一優(yōu)勢,極大地提高網(wǎng)絡(luò)對眼球區(qū)域的學(xué)習(xí)能力,為語義嵌入注意力機制提供更多細(xì)節(jié)信息的特征,其次本文模型從突出目標(biāo)中顯著性特征的角度出發(fā),通過構(gòu)建語義嵌入注意力機制提高網(wǎng)絡(luò)對眼球分割區(qū)域的注意力,從而實現(xiàn)減少背景區(qū)域的錯誤分割.
本文以編碼器-解碼器的Unet為基礎(chǔ)架構(gòu)但又不局限于其本身,針對眼球超聲圖像的特性,本文模型基于可變形卷積,構(gòu)建語義嵌入注意力機制,在不過多增加網(wǎng)絡(luò)參數(shù)量的情況下,本文模型具有良好的分割能力.
本文的數(shù)據(jù)集來自于臨床采集到的圖像,該數(shù)據(jù)集包括668 張超聲眼球圖像,每張圖像都有專家手動標(biāo)注出眼球區(qū)域的掩膜,本文將數(shù)據(jù)集中500 張圖像用于訓(xùn)練和168 張圖像用于測試.為了解決樣本過少容易造成過擬合的問題,在訓(xùn)練之前本文對數(shù)據(jù)進(jìn)行了預(yù)處理,通過幾何平移、隨機縮放、旋轉(zhuǎn)等圖像增強方法對數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強,最終得到4 290 張圖像作為訓(xùn)練集,利用增強后的數(shù)據(jù)進(jìn)行模型訓(xùn)練可以增加模型的魯棒性和泛化能力.
實驗環(huán)境基于Linux 操作系統(tǒng)、Intel Xeon(R)5218 CPU、內(nèi)存32 GB、GeForce RTX 2080Ti GPU,使用CUDA 加速網(wǎng)絡(luò)訓(xùn)練,網(wǎng)絡(luò)的訓(xùn)練采用了PyTorch 1.0深度學(xué)習(xí)框架,實驗參數(shù)主要是動量為0.9的Adam優(yōu)化器,初始學(xué)習(xí)率為0.001,200 個epoch,batchsize的大小為128 張.
本文模型采用深度學(xué)習(xí)常用的交叉熵?fù)p失函數(shù)(CrossEntropyError LossFunction),交叉熵?fù)p失函數(shù)將每個像素點的類別預(yù)測概率與相應(yīng)的圖像掩膜數(shù)據(jù)進(jìn)行計算,最后將結(jié)果求平均值,圖像分割后的結(jié)果和平均值相關(guān).交叉熵?fù)p失函數(shù)公式如下:
其中,N為總的樣本數(shù),yi表示第i個 樣本的標(biāo)簽,pi表示第i個樣本預(yù)測為正的概率.
為了驗證本文模型的算法的有效性,本文的網(wǎng)絡(luò)模型在眼球超聲圖像數(shù)據(jù)集中進(jìn)行了訓(xùn)練和測試.本文使用了圖像分割中常用的評估標(biāo)準(zhǔn),其中包括像素的準(zhǔn)確率PA,交并比IoU,平均交并比mIoU.像素準(zhǔn)確率是指所有分類正確的像素數(shù)占全部像素的比例.其中在n+1個 類中,pij是本屬于第i類卻被分到第j類的像素數(shù)量,pii代表的是分類正確的正例像素的數(shù)量,PA的計算公式如下:
交并比是將圖像真實分割的所有像素點pii和預(yù)測圖像的分割所有像素點兩個像素集合的交集和并集的比值,而平均交并比則是將所有類的IoU取平均值.其中IoU、mIoU的計算公式如下:
在訓(xùn)練過程中,如圖5所示,對比目前較流行的U 形分割網(wǎng)絡(luò)[2]、語義嵌入的分割網(wǎng)絡(luò)(semantic-embedding Unet)[4]、注意力機制的分割網(wǎng)絡(luò)(attention Unet)[16]和本文提出的語義嵌入的注意力機制分割網(wǎng)絡(luò)的損失函數(shù)發(fā)現(xiàn),在100 個epoch的時候,本文模型的損失函數(shù)收斂最快,表明在訓(xùn)練過程中可以更快學(xué)習(xí)到目標(biāo)特征.在200 個epoch 時候,損失函數(shù)不再下降,趨于穩(wěn)定.
為了驗證本文模型的分割能力和泛化能力,在眼球超聲圖像測試集上得到結(jié)果如表1所示,本文模型的準(zhǔn)確率達(dá)到了98.15%.由于原始U 形網(wǎng)絡(luò)局限于使用跳躍連接進(jìn)行特征融合,沒有注意到不同層特征之間的差異;語義嵌入的分割網(wǎng)絡(luò)根據(jù)超聲圖像的特點融合了高低層特征,但基于傳統(tǒng)的卷積,不能對目標(biāo)區(qū)域的幾何信息進(jìn)行更好地學(xué)習(xí);注意力機制有助于突出目標(biāo)的顯著特征,因此本文基于可變形卷積(deformable convolution),分別對比3 種分割網(wǎng)絡(luò).
表1 對比實驗的結(jié)果
通過表1中的數(shù)據(jù)定量分析發(fā)現(xiàn),使用可變形卷積的Unet 比原始Unet的交并比提高了2.36%,有效地證明了可變形卷積比傳統(tǒng)卷積有更好的感受野.本文模型相比于原始Unet[2]、語義嵌入分割網(wǎng)絡(luò)[4]、注意力機制分割網(wǎng)絡(luò)[16]的像素準(zhǔn)確度分別提高了2.75%、1.38%、2.01%,說明用可變形卷積對眼球區(qū)域進(jìn)行高效的特征表示和用語義嵌入注意力機制增強顯著性特征的有效性.
如表2所示,在下采樣過程中不同階段使用可變形卷積,在低階段使用可變形卷積并沒有提升效果.在第3 個和第4 個下采樣過程中,可變形卷積提升本文網(wǎng)絡(luò)的表征能力.尤其是第3 階段提到的特征圖,針對超聲圖像的區(qū)域模糊、邊緣灰度相近等缺點,可變形卷積提升網(wǎng)絡(luò)對眼球區(qū)域的敏感度,有助于提取更加豐富的語義信息,間接地提高網(wǎng)絡(luò)的分割能力,所以本文模型選擇在第3 次下采樣之后使用可變形卷積.
表2 不同層使用可變形卷積的結(jié)果
如圖6所示,更加直觀地對本文的卷積神經(jīng)網(wǎng)絡(luò)分割結(jié)果進(jìn)行了可視化,在眼球超聲圖像測試集上的分割結(jié)果是二值圖像,因此本文提取邊緣輪廓疊加到原圖上,紅色部分就是提取到輪廓.如第1 行和第6 行所示,由于原始Unet 受跳躍連接的限制,提取后的特征并不能很好的還原更多的細(xì)節(jié)信息,容易產(chǎn)生錯誤分割.如圖中第3 列和第4 列,由于超聲圖像的灰度相近,語義嵌入分割網(wǎng)絡(luò)和注意力機制分割網(wǎng)絡(luò)的結(jié)果容易造成過度分割.最后一列是本文模型分割結(jié)果,不僅能夠?qū)崿F(xiàn)對超聲圖像中眼球的邊緣輪廓的平滑分割,還減少了對背景區(qū)域的錯誤分割,分割出來的區(qū)域更加合理.
本文模型的語義嵌入分支能夠融合高低層的特征以此達(dá)到準(zhǔn)確地分割,注意力機制通過對超聲圖像中眼球區(qū)域的顯著特征進(jìn)行增強,解決了超聲圖像灰度相似不易分割的困難.
本文針對具有輪廓模糊、灰度相似的眼球超聲圖像數(shù)據(jù)集,從多尺度特征融合和注意力機制的角度出發(fā),提出了一種基于語義嵌入分支的注意力卷積神經(jīng)網(wǎng)絡(luò)的語義分割方法,用于超聲圖像中眼球區(qū)域的分割.本文模型改進(jìn)Unet的編碼器和解碼器網(wǎng)絡(luò)結(jié)構(gòu),利用可變形卷積提高模型對目標(biāo)區(qū)域的感知,構(gòu)建語義嵌入分支實現(xiàn)了不同層之間的語義信息特征融合.進(jìn)一步在語義嵌入分支的基礎(chǔ)上引入注意力機制,突出了圖像顯著性特征,抑制不相關(guān)的區(qū)域,提高模型的學(xué)習(xí)目標(biāo)特征的能力,提高圖像邊緣分割的準(zhǔn)確度;為了驗證本文模型分割的準(zhǔn)確性和泛化能力,將訓(xùn)練后的模型在測試集進(jìn)行預(yù)測;實驗結(jié)果表明,本文模型在3 個評估標(biāo)準(zhǔn)上取得更高的分割精度,證明了本文的模型能夠克服眼球超聲圖像的缺點,實現(xiàn)了較為精準(zhǔn)的分割.