高書陽
摘 要 由于醫(yī)學(xué)圖像存在信噪比低、目標(biāo)模糊和聲影等問題,傳統(tǒng)方法無法精準(zhǔn)地對(duì)目標(biāo)進(jìn)行定位分割,存在不能準(zhǔn)確地將關(guān)注點(diǎn)放在目標(biāo)區(qū)域、無法區(qū)分目標(biāo)與背景邊界的缺陷,使得觀察者很難準(zhǔn)確地對(duì)目標(biāo)位置進(jìn)行定位。針對(duì)以上問題,我們提出了一種將注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的分割算法,該算法分兩階段對(duì)目標(biāo)定位,第一階段粗定位出目標(biāo)的區(qū)域;第二階段在第一階段的目標(biāo)區(qū)域內(nèi)加上注意力機(jī)制,提取更深層語義特征預(yù)測(cè)出目標(biāo)的掩碼。首先,用深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像的全局特征;其次,借助類別預(yù)測(cè)和檢測(cè)框回歸任務(wù)粗定位出目標(biāo)的位置;最后,利用訓(xùn)練好的模型對(duì)象胎盤圖像分割,并采用多種分割評(píng)價(jià)指標(biāo)對(duì)結(jié)果進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)結(jié)果表明,本文提出的方法具有較好的分割效果,相比與其他六種方法,在三個(gè)量化指標(biāo)Dice、BF和Hausdorff得分上分別提高了0.06和0.25。
關(guān)鍵詞 醫(yī)學(xué)圖像分割 卷積神經(jīng)網(wǎng)絡(luò) 注意力機(jī)制 胎盤圖像
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-0745(2021)07-0053-07
1 前言
在胎兒的醫(yī)療診斷過程中,準(zhǔn)確地識(shí)別胎盤圖像中胎兒位置對(duì)評(píng)價(jià)胎兒和母親的健康狀況很重要?,F(xiàn)有的方法主要是借助超聲波掃描儀獲得胎盤圖像,再由專業(yè)的超聲波圖像解析人員識(shí)別出胎兒位置并采集各項(xiàng)數(shù)據(jù)(例如:頭圍、腹部寬度等),由于解析人員的專業(yè)知識(shí)和長時(shí)間的識(shí)別疲勞,導(dǎo)致胎兒位置的識(shí)別結(jié)果在不同的觀察者那里會(huì)存在很大的差異;超聲波解析人員在采集各項(xiàng)數(shù)據(jù)時(shí),主要使用卡尺作為測(cè)量工具,卡尺的放置位置會(huì)對(duì)測(cè)量結(jié)果產(chǎn)生很大的誤差。
傳統(tǒng)的圖像分割方法,包括閾值法、邊緣法和區(qū)域法等,這些都沒有考慮像素之間的相關(guān)性,分割的效果不理想?;趫D論的分割方法是將圖像中的每個(gè)像素點(diǎn)看成圖的頂點(diǎn),像素點(diǎn)之間的關(guān)系看作圖的邊,像素之間的相關(guān)性看作邊的權(quán)值,建立一個(gè)關(guān)于邊的能量函數(shù),通過最小化能量函數(shù)實(shí)現(xiàn)對(duì)圖像的分割;基于能量泛函的分割方法是利用類間方差或像素間梯度構(gòu)造能量泛函,求解泛函極值時(shí)圖像的分割狀態(tài)。近年來,卷積神經(jīng)網(wǎng)絡(luò)以其超強(qiáng)的特征提取能力被廣泛地應(yīng)用于圖像檢測(cè)和分割領(lǐng)域。圖像分割主要分為語義分割和實(shí)例分割,語義分割是區(qū)分圖像中不同物體類的分割,它不需要區(qū)分圖像中某個(gè)物體類的不同個(gè)體,從早期的全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[1]、U-Net[2],發(fā)展到現(xiàn)在的金字塔場景分析網(wǎng)絡(luò)(Pyramid Scene Parsing Network,PSPNet)[3]、DeepLab[4]等,這些都是單階段直接預(yù)測(cè)掩碼。實(shí)例分割需要分清圖像中每個(gè)類的不同個(gè)體,代表性是Mask Rcnn[5]網(wǎng)絡(luò),它的特點(diǎn)是需要在檢測(cè)出目標(biāo)的基礎(chǔ)上對(duì)目標(biāo)掩碼進(jìn)行預(yù)測(cè),能夠提高分割的精確性。而注意力機(jī)制方法,可以是網(wǎng)絡(luò)更關(guān)注感興趣區(qū)域,得模型能夠關(guān)注圖像中的重點(diǎn)信息。[6]
由于傳統(tǒng)方法無法區(qū)分目標(biāo)與背景邊界的問題,同時(shí)考慮到胎盤圖像背景的復(fù)雜性,本文提出了一種基于注意機(jī)制的深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分割方法,可以有效的解決胎盤圖像分割問題。總的來說,本文主要貢獻(xiàn)點(diǎn)可以歸納如下:
1.本文采用先定位后分割的方法,構(gòu)建類別預(yù)測(cè)和檢測(cè)框回歸模塊粗定位出目標(biāo)的區(qū)域,在定位區(qū)域里進(jìn)行胎盤分割,提升了分割精度,同時(shí)也降低了分割難度。
2.本文為了將關(guān)注點(diǎn)放在目標(biāo)區(qū)域的有效位置,提出了基于注意力機(jī)制的掩碼預(yù)測(cè)分支細(xì)定位目標(biāo)的位置,可以使網(wǎng)絡(luò)關(guān)注有效特征信息。
3.本文在公開的數(shù)據(jù)集上,進(jìn)行大量實(shí)驗(yàn)本文提出方法的有效性,并與當(dāng)前主流的六種圖像分割方法進(jìn)行對(duì)比,結(jié)果表明,無論在視覺感知還是三個(gè)量化指標(biāo)上,均優(yōu)于其他方法。
2 相關(guān)工作
2.1 與圖像分割網(wǎng)絡(luò)相關(guān)工作
2.1.1 FCN
FCN主要由提取高層語義的下采樣層和預(yù)測(cè)掩碼的上采樣層組成。其基本結(jié)構(gòu)如圖1所示,輸入通過多層的卷積層和池化層下采樣得到通道數(shù)為256的卷積特征圖,再將該特征圖通過三個(gè)全連接層得到通道數(shù)為2的高層語義特征,最后將該特征通過多層的反卷積層上采樣得到預(yù)測(cè)的掩碼。其中,在下采樣的過程中,最后三層的特征圖將被保留并添加到上采樣層相對(duì)應(yīng)的尺寸輸出中。
2.1.2 U-Net
U-Net一種U型網(wǎng)絡(luò),是一種編碼和解碼結(jié)構(gòu),考慮了不同分辨率的圖像特征,將圖像的高分辨率和低分辨率特征結(jié)合,編碼層是學(xué)習(xí)圖像的初級(jí)特征,解碼層是將圖像高層語義特征與初級(jí)相結(jié)合來還原細(xì)節(jié)信息,并且逐步還原圖像精度。
2.1.3 PSPNet
PSPNet在FCN的基礎(chǔ)上加入了金字塔池化模塊,取出FCN網(wǎng)絡(luò)下采樣過程中得到的高層語義特征圖F,將F經(jīng)過金字塔池化模塊中四種不同尺度的池化層下采樣得到{P1,P2,P3,P4},此下采樣方式考慮到了不同尺度的特征,減少了信息的丟失,再將P1到P4經(jīng)過上采樣后得到的特征圖與F合并,最后通過反卷積上采樣預(yù)測(cè)掩碼,結(jié)構(gòu)圖見圖2。
2.1.4 DeepLab
Deeplab引入了空洞卷積,在傳統(tǒng)卷積的基礎(chǔ)上加入了卷積空洞,相同參數(shù)的條件下極大地提高了卷積的感受野。DeepLab在特征池化時(shí)引入了空洞空間金字塔池(Atrous Spatial Pyramid Pooling,ASPP)[7]模塊,能夠在高層特征層中極大效率的利用圖像的全局特征。在主干特征提取網(wǎng)絡(luò)方面,DeepLab采用了xception結(jié)構(gòu),它采用深度可分離卷積,能夠在網(wǎng)絡(luò)參數(shù)量保持基本不變的情況下帶來很好的特征提取效果。
2.2 與注意力機(jī)制相關(guān)工作
從注意力機(jī)制的可微分性來看,注意力機(jī)制大體可以分為軟注意力機(jī)制和硬注意力機(jī)制。
2.2.1 軟注意力機(jī)制
在圖像處理領(lǐng)域,軟注意力機(jī)制關(guān)注圖像的特征區(qū)域和特征通道,可以通過網(wǎng)絡(luò)的自身學(xué)習(xí)來生成,并添加到原始特征上,使得模型能夠關(guān)注圖像中的重點(diǎn)信息。由于它是可微分的,所以在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程中可以計(jì)算出梯度,并且前向傳播和反向傳播反饋來學(xué)習(xí)得到注意力的權(quán)重。
2.2.2硬注意力機(jī)制
硬注意力機(jī)制更關(guān)注于圖像中的目標(biāo)點(diǎn)或區(qū)域,它通過學(xué)習(xí)一個(gè)定位物體部分的網(wǎng)絡(luò),通過神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力首先定位出物體的大致位置,提取定位后的區(qū)域特征,再將該特征用于下一步的任務(wù),如果該特征對(duì)整體任務(wù)有促進(jìn)作用,該特征區(qū)域在后續(xù)的學(xué)習(xí)過程中將會(huì)被更加關(guān)注。
3 基于注意力機(jī)制的Mask RCNN網(wǎng)絡(luò)
本文提出了基于注意機(jī)制的深度卷積神經(jīng)網(wǎng)絡(luò)胎盤圖像分割方法,將注意力機(jī)制與Mask RCNN結(jié)合,采用先定位后分割,使網(wǎng)絡(luò)更關(guān)注感興趣信息,能夠有效的提高分割的準(zhǔn)確性(本文的總體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示)。
3.1 Mask RCNN 網(wǎng)絡(luò)的構(gòu)建
本文采用檢測(cè)定位加上分割的方法分割目標(biāo)區(qū)域,首先檢測(cè)出目標(biāo)的大體區(qū)域,然后在目標(biāo)區(qū)域內(nèi)分割目標(biāo)。
3.1.1 檢測(cè)定位
取出ROIAlign后的特征圖F1,經(jīng)過全局平均池化后得到的特征向量F2送入類別預(yù)測(cè)和檢測(cè)框回歸分支,其中:
Meank*k表示在k*k的區(qū)域內(nèi)求平均,F(xiàn)1的每個(gè)通道求平均得到F2,輸出的維度是1*1*1024。
類別預(yù)測(cè)和檢測(cè)框回歸分支的所有神經(jīng)元全連接F2,其中:
式中,wi和wj分別為類別預(yù)測(cè)分支和檢測(cè)框回歸分支到F2的連接權(quán)值,bi和bj為相對(duì)應(yīng)的偏置。
3.1.2 目標(biāo)分割
將ROIAlign得到的特征圖F1經(jīng)過若干個(gè)注意力機(jī)制模塊后得到F3,其中:
式中,Atten表示若干個(gè)注意力機(jī)制模塊。
帶有注意力的特征圖F3經(jīng)過反卷積上采樣得到預(yù)測(cè)的掩碼,反卷積的步長為2,其中:
式中,?表示反卷積操作,f為激活函數(shù),wi為第i個(gè)卷積核,bi表示偏置。
3.2 注意力機(jī)制
由于胎盤圖像具有重影、目標(biāo)模糊的特點(diǎn),且胎盤圖像中背景和其他物體會(huì)干擾胎兒目標(biāo)的分割,因此,本文采用自注意力機(jī)制將模型的關(guān)注區(qū)域放在胎兒目標(biāo)上,其結(jié)構(gòu)如圖4所示。
首先將輸入的特征圖F4經(jīng)過一維卷積運(yùn)算得到特征圖H,其中:
式中,?表示卷積操作,f為激活函數(shù),W1*1表示一維卷積核的權(quán)值,b1*1表示一維卷積核的偏置。
再將特征圖F4分別經(jīng)過兩次下采樣(DS)和兩次上采樣(US)得到注意力圖,其中:
其中,wk(k=f、g、p、Am)和bk(k=f、g、p、Am)分別表示生成特征圖F、G、P和注意力圖時(shí)卷積核的權(quán)值和偏置。
最后將注意力圖和特征圖點(diǎn)乘得到帶有注意力機(jī)制的特征圖Afm,其中:
3.3 損失函數(shù)構(gòu)建
本文采用先檢測(cè)定位后分割目標(biāo)的方法,共有三個(gè)損失函數(shù),分別是將背景和目標(biāo)區(qū)分開的分類損失函數(shù)Lcls、回歸目標(biāo)檢測(cè)框坐標(biāo)的L2損失函數(shù)Lbox和預(yù)測(cè)目標(biāo)掩碼的二值交叉熵?fù)p失函數(shù)Lmask,由于預(yù)測(cè)目標(biāo)掩碼任務(wù)的難度最大,回歸目標(biāo)檢測(cè)框坐標(biāo)任務(wù)次之,本文構(gòu)建式*所示的損失函數(shù)。
3.4 評(píng)價(jià)指標(biāo)
本文選用三種評(píng)價(jià)指標(biāo),分別是Dice、BF scores和Hausdorff,Dice的計(jì)算公式:
式中,pred和gt分別表示預(yù)測(cè)結(jié)果和標(biāo)簽,common(pred,gt)表示預(yù)測(cè)結(jié)果和標(biāo)簽的相同部分,length表示計(jì)算長度。
BF scores的計(jì)算公式為:
式中,precision表示預(yù)測(cè)結(jié)果的精確度,recall表示預(yù)測(cè)結(jié)果的召回率。
Hausdorff的計(jì)算公式為:
其中h(Pred,Gt)和h(Gt,Pred)分別表示Pred到Gt和Gt到Pred的Hausdorff距離,計(jì)算公式見式*和*:
其中max(p∈Pred)min(g∈Gt)||p-g||表示取出Pred中的每個(gè)點(diǎn)p,求出Gt中距離點(diǎn)p最近的點(diǎn)g,取所有||p-g||的最大值作為h(Pred, Gt), h(Gt,Pred)同理可得。
4 實(shí)驗(yàn)結(jié)果與分析
4.1 數(shù)據(jù)集制作
本次實(shí)驗(yàn)中,數(shù)據(jù)集來自https://hc18.grand-challenge.org公開的胎盤數(shù)據(jù)集,該數(shù)據(jù)集一共有999張圖像,每張圖像對(duì)應(yīng)一張標(biāo)簽圖像,標(biāo)簽圖像的內(nèi)容是一個(gè)形狀為橢圓的曲線,曲線部分為白色,其他部分為黑色。以1:9的比例將數(shù)據(jù)集劃分為899張圖像的訓(xùn)練集和100張圖像的測(cè)試集。從100張測(cè)試集圖像的實(shí)驗(yàn)結(jié)果中隨機(jī)挑選出4組圖像,驗(yàn)證本文提出方法的有效性。
4.2 實(shí)驗(yàn)環(huán)境與訓(xùn)練參數(shù)
本文實(shí)驗(yàn)基于深度學(xué)習(xí)框架tensorflow在一臺(tái)NVIDIA GeForce GTXGTX1080Ti GPU的計(jì)算機(jī)上進(jìn)行訓(xùn)練和測(cè)試。
在訓(xùn)練階段,采用大小為256×256的圖像的進(jìn)行訓(xùn)練,每次迭代輸入4張圖像。網(wǎng)絡(luò)通過Adam來更新網(wǎng)絡(luò)參數(shù),RMSprop具體參數(shù)為:權(quán)值超參數(shù),初始學(xué)習(xí)速率設(shè)置為0.001, 網(wǎng)絡(luò)每層卷積采用He K均勻分布初始化方法,偏置為0,總訓(xùn)練epoch為15,前10個(gè)epoch的學(xué)習(xí)率為10-4,后5個(gè)epoch的學(xué)習(xí)率為10-6。
4.3 實(shí)驗(yàn)結(jié)果評(píng)估
為了衡量本文算法的性能,本文選取在測(cè)試集上實(shí)施了大量實(shí)驗(yàn),并與當(dāng)前主流的六種圖像分割算法進(jìn)行實(shí)驗(yàn)對(duì)比,分別為PSPNet、deeplabV3、deeplabV3+、U-Net 、注意力機(jī)制U-Net、Mask-Rcnn。同時(shí)采用三個(gè)量化指標(biāo)來客觀定量的平均圖形分割結(jié)果。
視覺感知。為了更好衡量評(píng)估本文算法胎盤圖像分割的視覺效果, 本文選取了四幅圖像來展示分割效果。
圖5中:測(cè)試集隨機(jī)挑選出四組圖像的二值圖預(yù)測(cè)結(jié)果:(a)原始圖像、(b)標(biāo)簽二值圖、(c)PSPNet、(d)deeplabV3、(e)deeplabV3+、(f)Unet、(g)Unet-attention、(h)Maskrcnn、(i)Maskrcnn-attention。
圖6中:測(cè)試集中隨機(jī)挑選出四組圖像及預(yù)測(cè)結(jié)果輪廓圖:(a)原始圖像、(b)標(biāo)簽二值圖、(c)PSPNet、(d)deeplabV3、(e)deeplabV3+、(f)Unet、(g)Unet-attention、(h)Maskrcnn、(i)Maskrcnn-attention。
隨機(jī)從測(cè)試集中挑選出4組圖像,從圖5和6可以看出,PSPNet的預(yù)測(cè)效果最差,DeeplabV3和DeeplabV3+次之,Unet和Unet-attention對(duì)胎盤圖像具有良好的預(yù)測(cè)能力,加上attention機(jī)制的Mask rcnn的預(yù)測(cè)效果與掩碼標(biāo)簽是最為接近的。
4.4 客觀定量指標(biāo)
為了驗(yàn)證模型的有效性,統(tǒng)計(jì)七種方法下,測(cè)試集上的Dice系數(shù)、BF scores和Hausdorff,如上表1所示。
Dice系數(shù)越大表示預(yù)測(cè)結(jié)果和標(biāo)簽之間的重疊部分占比越大,BF_scores值越大,表示預(yù)測(cè)結(jié)果的輪廓與標(biāo)簽之間越相似。
從測(cè)試集中隨機(jī)挑選出10組圖像統(tǒng)計(jì)Dice、BF scores和Hausdorff指標(biāo)(如圖7所示),可以看出Mask rcnn-attention的分割結(jié)果具有最高的Dice、BF scores和Hausdorff,能夠非常精確地對(duì)圖像中的目標(biāo)進(jìn)行分割。Unet-attention、Unet、Mask rcnn、DeeplabV3、DeeplabV3+和PSPNet等方法的評(píng)價(jià)指標(biāo)均沒有Mask rcnn-attention高。
考慮到模型預(yù)測(cè)的時(shí)效性,本文將以上七種方法分別統(tǒng)計(jì)了單張圖像的模型推斷耗時(shí),如上表2所示。
可以看出,Attention-MaskRcnn由于模型更為復(fù)雜導(dǎo)致推斷耗時(shí)最長,但也是毫秒級(jí)別,整體而言影響不大。
5 結(jié)論
本文提出的基于注意力機(jī)制的深度卷積神經(jīng)網(wǎng)絡(luò)包括兩個(gè)部分:(1)在深度神經(jīng)網(wǎng)絡(luò)特征提取器后加上類別預(yù)測(cè)和檢測(cè)框回歸模塊,粗定位出目標(biāo)的位置;(2)在粗定位的位置上加上帶有注意力機(jī)制的掩碼預(yù)測(cè)模塊預(yù)測(cè)掩碼。由于本方法是針對(duì)胎兒頭部位置的兩階段定位分割,與其他的單階段直接預(yù)測(cè)掩碼相比,本方法能夠更為精確的定位出胎兒頭部位置并預(yù)測(cè)掩碼。多組實(shí)驗(yàn)結(jié)果均表明,本方法與其他分割性能優(yōu)越的Unet、Unet-attention、DeeplabV3和DeeplabV3+相比,分割效果整體更好。
參考文獻(xiàn):
[1] 曹玉紅,徐海,劉蓀傲,王紫霄,李宏亮.基于深度學(xué)習(xí)的醫(yī)學(xué)影像分割研究綜述[J/OL].計(jì)算機(jī)應(yīng)用,2021-07-28:1-19.http://kns.cnki.net/kcms/detail/51.1307.TP.20210225.1137. 002.html.
[2] 閆超,孫占全,田恩剛,趙楊洋,范小燕.基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割技術(shù)研究進(jìn)展[J].電子科技,2021,34(02):7-11.
[3] 梁楠,趙政輝,周依,武博,李長波,于鑫,馬思偉,張楠.基于滑動(dòng)塊的深度卷積神經(jīng)網(wǎng)絡(luò)乳腺X線攝影圖像腫塊分割算法[J].中國醫(yī)學(xué)物理學(xué)雜志,2020,37(12):1513-1519.
[4] 何炎柏.卷積神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)影像分割上的現(xiàn)狀與挑戰(zhàn)[J].計(jì)算機(jī)與網(wǎng)絡(luò),2020,46(17):38-39.
[5] 曾昆.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法研究與設(shè)計(jì)[D].西安:西安電子科技大學(xué),2020.
[6] 楊理柱.基于深度學(xué)習(xí)的腦部核磁共振圖像分割算法研究[D].吉林:長春工業(yè)大學(xué),2020.
[7] 同[4].