桂林斌
(云南能源職業(yè)技術(shù)學院 云南省曲靖市 655001)
深度學習對計算機視覺領域產(chǎn)生了重大的影響,尤其是基于卷積神經(jīng)網(wǎng)絡的方法用于圖像分割。Long等人提出了全卷積網(wǎng)絡,這種網(wǎng)絡可以采用任何尺寸的圖像作為輸入并產(chǎn)生相應大小的輸出圖像。 Romera等人采用分解卷積和殘差連接的方式來提高圖像分割的準確性。這些為自然圖像分割開發(fā)的分割方法通過修改后也適用于醫(yī)學圖像的分割。同時,許多基于卷積神經(jīng)網(wǎng)絡的圖像分割算法用于顯微圖像中的細胞分割、核磁共振圖像中頸部動脈的分割以及CT 圖像中的肺結(jié)節(jié)分割。在這些模型中,基于編碼器-解碼器的模型是采用最多的一種架構(gòu)。例如,U-Net就是一種應用最廣泛的基于編碼器-解碼器的醫(yī)學圖像分割模型。它采用一個壓縮通道用于圖像信息的捕捉,并用對稱的擴展通道用于分割部分精確的定位。在U-Net 網(wǎng)絡的基礎上,Zhou提出了一種采用密集連接來捕獲更多細節(jié)的U-Net++網(wǎng)絡。Mehta提出了一種基于多輸入多輸出加權(quán)交叉熵的M-Net 網(wǎng)絡,該網(wǎng)絡主要用于核磁共振圖像中腦結(jié)構(gòu)的分割。然而,上述這些算法模型通常不能達到超聲圖像分割所需的準確性。
在多種醫(yī)學圖像(核磁共振圖像、計算機斷層掃描)中,超聲圖像所具有的非電離輻射及成本低的特點使得它技術(shù)廣泛的應用于臨床醫(yī)學的診斷。在醫(yī)學臨床的應用中,對臂叢神經(jīng)進行阻斷可以減去上肢手術(shù)的疼痛。但是,由于超聲圖像的對比度低和信噪比低等問題導致超聲圖像的分割是一個比較困難的任務。 近年來,許多專家學者結(jié)合臨床需求,嘗試著將深度卷積神經(jīng)網(wǎng)絡技術(shù)應用于醫(yī)學圖像的處理,但目前的應用主要集中在前列腺、腹部、心臟以及頸動脈的分割,原因是這類超聲圖像所需分割的目標輪廓較清晰,而對于分割目標輪廓不明顯的超聲圖像,這些方法不能實現(xiàn)較高的分割精度。Kong等人使用EfficientNetB3 代替?zhèn)鹘y(tǒng)U-Net 的骨干網(wǎng)構(gòu)造了一個新的語義分割模型,并在跳躍連接上設計使用空洞卷積來提取特征,Long等人基于U-Net模型,構(gòu)建了一個適用于臂叢神經(jīng)分割的卷積神經(jīng)網(wǎng)絡模型QU-Net 均取得了較好的分割效果。
為進一步提高分割目標輪廓不明顯的超聲圖像分割精度,本文提出了一種基于空洞卷積的網(wǎng)絡模型(簡稱:A-Net)用于該類圖像的分割。該種方法主要有以下兩個優(yōu)點:
(1)采用空洞卷積可以提取多尺度的信息特征。
(2)采用多任務的訓練方式提高訓練速度和提高分割精度。
本文的其余部分結(jié)構(gòu)如下:第二部分描述了方法和實現(xiàn)細節(jié),第三部分給出了實驗結(jié)果,第四部分是全文的總結(jié)。
本文提出的方法由編碼器模塊、空洞卷積模塊、解碼器模塊3 個模塊組成。編碼器模塊采用上采樣的方式來提取輸入圖像的信息,空洞卷積模塊主要用于多尺度的信息提取,編碼器模塊的結(jié)構(gòu)由連續(xù)的3×3 卷積層和下采樣層組成,解碼器模塊的結(jié)構(gòu)由連續(xù)的3×3 卷積層和上采樣層組成。具體的網(wǎng)絡架構(gòu)如圖1 所示,圖中L和L分別為交叉熵以及Dice 損失函數(shù)。
圖1: A_Net 架構(gòu)圖
基于編碼器-解碼器的網(wǎng)絡已成功地應用于圖像分割。編碼器模塊的功能是逐步將圖像的空間維數(shù)減小,提取高級特征圖譜信息。而解碼器模塊的功能是將經(jīng)過編碼器處理的輸入所得到的特征進一步優(yōu)化和任務處理,逐步恢復分割目標的輪廓信息。傳統(tǒng)的編碼器-解碼器結(jié)構(gòu)中的連續(xù)下采樣操作會導致圖像特征信息的丟失,因此本文所提出的A-Net在U-Net 的結(jié)構(gòu)上增加空洞卷積模塊來提取多尺度的體征信息??斩淳矸e模塊的原理是通過調(diào)整濾鏡的視場來捕捉特征信息。輸出y[i]是輸入信號x[i]與濾波器w[k]的卷積,計算如下:
其中k 為濾波器的長度,r 為采樣步長。它相當于將輸入x 與沿每個空間維度的兩個連續(xù)濾波器值之間插入r-1 個0 所產(chǎn)生的上采樣濾波器進行卷積??斩淳矸e可以通過選擇不同的r 值來來調(diào)整濾波器的大小。
空洞卷積模塊的結(jié)構(gòu)如圖2 所示。它由3 個分支組成:步長為1 的空洞卷積,步長為3 的空洞卷積,1×1 卷積。3個分支通過合并操作后作為解碼器的輸入。該模塊通過不同步長的空洞卷積可以提取不同的特征信息,彌補編碼器中所損失的圖像特征信息。
圖2: 空洞卷積結(jié)構(gòu)圖
圖像分割是計算機視覺的基礎,是一個像素級的分類問題。主要工作是根據(jù)圖像的灰度、彩色、空間紋理、幾何形狀等特征把圖像劃分成若干個互不相交的區(qū)域,使得這些特征在同一區(qū)域內(nèi)表現(xiàn)出一致性或相似性,而在不同區(qū)域間表現(xiàn)出明顯的不同。設計的分割算法用來預測一個像素是屬于背景還是前景。目前,交叉熵是分類中最常用的損失函數(shù),用來單獨評估每個像素矢量的類預測,然后對所有像素求平均值,我們可以認為圖像中的像素被平等的學習了。但是,醫(yī)學圖像中分割目標的大小在不同的超聲圖像中有所不同,經(jīng)常出現(xiàn)類別不均衡分布的問題,由此導致訓練會被像素較多的類主導,對于較小的物體很難學習到其特征,從而降低網(wǎng)絡的有效性,故而交叉熵在超聲圖像分割中并不有效。
本文中我們使用Dice 系數(shù)作為分割精度的度量,Dice 系數(shù)源于二分類,本質(zhì)上是衡量兩個樣本的重疊部分,Dice 值代表預測與真值的重疊區(qū)域,該指標范圍從0 到1,其中“1”表示完整的重疊。Dice 函數(shù)如式(2)所示:
2.3.1 數(shù)據(jù)增強以及前處理
本文采用臂叢神經(jīng)超聲圖像作為實驗的數(shù)據(jù)集。由于訓練集數(shù)據(jù)量有限,本文采用數(shù)據(jù)增強的方式來增加數(shù)據(jù)集的數(shù)量。第一種方法對圖像采用水平翻轉(zhuǎn)和垂直翻轉(zhuǎn)。第二個方法采用(-10%至 +10%)隨機縮放以及(0 至10 度)的隨機旋轉(zhuǎn)方式。
2.3.2 評估指標
本實驗采用Dice 值、豪斯多夫距離(HD)以及均方根對稱表面距離(RMSD) 三個指標來對分割性能進行評估。HD用于評估兩個物體的輪廓差異,對應于最大歐幾里得距離。設S(A)和S(B)分別表示A 和B 的點集,任意點v 到S(A)的最短距離為:
2.3.3 實驗細節(jié)
本實驗中的A-Net 采用Keras(2.4.0 版本)和TensorFlow(1.15.0版本)作為框架。該框架采用動量為0.9,衰減為0.0005的小批量隨機梯度下降(SGD)進行訓練。初始學習率設為0.001,每10 個循環(huán)后下降一次,批量大小值為4。為了防止過擬合,對驗證數(shù)據(jù)集上的損失進行了提前停止策略。
(1)在Keras 中使用Earlystopping 代碼示例
為了評估和驗證網(wǎng)絡的分割性能,本文提出的A-Net 與U-Net、U-Net++方法進行了比對。使用了3 個性能指標,即Dice、HD、RMSD,分別用均值、標準差、95%置信區(qū)間值進行表示。最后采用SPSS 統(tǒng)計軟件進行統(tǒng)計分析。
超聲圖像數(shù)據(jù)集選用2016 年Kaggle 比賽的臂叢神經(jīng)。數(shù)據(jù)集被隨機分為1558 幅圖像進行訓練和600 幅圖像進行測試。具體實驗結(jié)果,如表1 所示。對于Dice 值,與其它兩種網(wǎng)絡對比,本文提出的方法平均有2.14%的提高。因此,本文提出的方法顯著提高了臂叢神經(jīng)分割的精度。圖3 所示為三種網(wǎng)絡的分割結(jié)果,其中方括號里的值為95%的置信區(qū)間。
表1: 臂叢神經(jīng)的分割結(jié)果
圖3: 三種模型的分割實例
為了驗證我們提出的方法的優(yōu)越性,有必要進行統(tǒng)計分析。由于Dice 值屬于高斯分布,本文采用弗里德曼檢驗來評估所有算法的性能。表2 給出了所有算法的平均秩和p 值。p<0.05 認為有顯著差異。平均秩表示不同方法的性能。與其它模型相比,A-Net 有了明顯的改進。
表2: Dice 值的弗里德曼檢驗
在本文中提出了一種端到端的空洞卷積網(wǎng)絡用于超聲圖像的分割。該網(wǎng)絡由編碼器-解碼器模塊以及空洞卷積模塊組成。在網(wǎng)絡訓練過程中,我們采用多任務的方式來提高分割性能。通過和U-Net 以及U-Net++在臂叢神經(jīng)數(shù)據(jù)集上進行比對,驗證結(jié)果顯示,本文給出的方法實現(xiàn)了超聲圖像更好的分割性能,為超聲圖像的醫(yī)學診斷提供了一個有用的參考工具。