馮躍,梁惠珠,徐紅,林卓勝,張雙勝,胡敏兒
(1.五邑大學 智能制造學部,廣東 江門 529020;2.江門市中心醫(yī)院,廣東 江門 529030)
中醫(yī)學強調(diào)內(nèi)臟和體表組織器官在結(jié)構(gòu)和機能上的協(xié)調(diào)、完整性以及在生理上的密切聯(lián)系和病理上的相互影響[1],耳診是診斷辨證和療效評價的重要依據(jù)之一. 在臨床中,醫(yī)者觀察耳部不同區(qū)域顏色和形態(tài)變化可探知內(nèi)在臟腑的健康狀態(tài)[2-3]. 經(jīng)歷幾千年的經(jīng)驗積累和多代科研人員的貢獻,2008年國家頒布了《耳穴名稱與定位》[4],明確劃分了人體各臟腑器官在耳廓的反射分布區(qū)域,并得到了世界衛(wèi)生組織的認可[5]. 但在臨床中,耳診仍然存在主觀模糊性描述,使其應用廣度和精度受到限制[6]. 隨著計算機技術(shù)的不斷發(fā)展,耳診有望借助數(shù)字圖像分析技術(shù),實現(xiàn)快速高效的客觀化診斷. 為了實現(xiàn)耳診圖像自動化分析,首先需要將臟腑反射區(qū)從圖像中有效分割出來. 然而,標準耳穴圖中各反射區(qū)僅占整體耳部的極小部分(如圖1所示),其劃分邊界在現(xiàn)實耳部中大部分不可見,因此,從耳診圖像中分割出五臟反射區(qū)的難度極大. 相比于傳統(tǒng)圖像分割方法,基于深度學習的圖像分割方法具有自動學習和提取重要特征的優(yōu)勢,在中醫(yī)醫(yī)學領(lǐng)域獲得了有價值的結(jié)果,尤其在面診[7]和舌診[8-9]方面,這給本文耳診圖像五臟反射區(qū)分割任務(wù)提供了思路.
圖1 中國標準耳穴圖
深度學習中,特征融合和注意力機制的應用越來越廣泛. U-Net[10]在醫(yī)學圖像分割領(lǐng)域有突出表現(xiàn),其結(jié)構(gòu)主要由編碼端和解碼端組成,編碼端與解碼端的同級卷積層通過跳躍連接相連,使圖像的高層與底層特征相融合,以達到良好的分割效果. 但U-Net存在以下缺點:編碼階段連續(xù)下采樣和卷積操作導致有用空間信息損失,在解碼階段這些信息不易恢復,使其對小目標區(qū)域及邊緣細節(jié)關(guān)注能力不足. 為了提高對目標的關(guān)注能力,圖像分割廣泛應用注意力網(wǎng)絡(luò)模塊PAN(Pyramid Attention Network)[11]以GAU(Global Attention Upsample)作為底層特征指導,提供全局語義. DANet(Dual Attention Network)[12]采用空間、通道兩個平行的注意力模塊,考慮全局的空間和通道關(guān)系. Attention UNet[13]設(shè)計AG(Attention Gate)模塊過濾由跳躍連接傳遞的特征以關(guān)注相關(guān)顯著特征. CPFNet[14]設(shè)計SAPF(Scale Aware Pyramid Fusion)注意力模塊置于編解碼網(wǎng)絡(luò)最底層,以融合不同尺寸的特征信息. 注意力機制與特征融合的結(jié)合有利于提取有效且豐富的信息,提高了對小目標及邊緣細節(jié)的分割能力. 因此,本文以U-Net[10]作為基本結(jié)構(gòu),構(gòu)建一個注意力與特征融合的深度學習模型.
由于耳診圖像五臟反射區(qū)面積占比小且邊緣不清晰,本文結(jié)合注意力機制與特征融合的思想,在U-Net[10]基礎(chǔ)上提出五臟反射區(qū)分割模型,如圖2所示. 除U-Net[10]基本結(jié)構(gòu)外,主要由自適應平均池化分支、多視圖空間注意力模塊和多尺度特征融合模塊3部分組成. 此外,通過改進二值交叉熵與交叉熵結(jié)合的損失函數(shù),進一步聚焦于目標區(qū)域.
圖2 注意力與特征融合網(wǎng)絡(luò)
原U-Net[10]網(wǎng)絡(luò)編碼階段下采樣和卷積操作會造成邊緣等有用空間信息損失,耳部五臟反射區(qū)面積小,若信息損失嚴重時在解碼階段難以恢復目標信息,為此設(shè)計自適應平均池化分支嵌入到網(wǎng)絡(luò)中,如圖2虛線框所示.Fm2、Fm3、Fm4和Fm5分別是原U-Net模型編碼階段經(jīng)過最大池化2×2操作在第2層、第3層、第4層、第5層生成的高層特征.Fa2、Fa3、Fa4和Fa5分別是原始輸入圖像經(jīng)過自適應平均池化操作后在第2、3、4、5層生成的3通道底層特征.aF的寬度和高度與位于同層的mF保持一致,兩者在通道維度上進行拼接,得到對應層的輸入特征. 由原始輸入圖像生成的底層特征包含豐富的邊緣特征信息,向高層特征引入底層特征,有利于提升分割精度.
由于耳部五臟反射區(qū)與背景具有一定相似性,且邊緣模糊,為了提高目標區(qū)域的關(guān)注能力,引入經(jīng)過線性注意力機制[15]簡化計算的位置注意力模塊[12](本文命名為空間線性注意力模塊SLA),即使用泰勒展開的一階近似以及2L范數(shù),簡化位置注意力模塊中的自然常數(shù)指數(shù)運算,簡化為:
式 中,輸 入 特 征X∈RC×H×W,其中C、H和W分別為通道數(shù)、高度和寬度. 特征X經(jīng)過卷積和重組操作后,生成3個特征A、B以及D. 特征A和B有H×W個C/r維位置向量,D有H×W個C維位置向量,即Ak∈RC/r、Bk∈RC/r以及Dk∈RC,r表示卷積操作中通道減少率,本文設(shè)為8,g是初始值為0,并在模型訓練中可學習的參數(shù). 位置j的輸出Oj為注意力權(quán)重Wj和原始輸入Xj對應元素相加,通過學習每個像素的重要程度,分配重要性權(quán)重,從而在空間維度上提取有用信息.以及對于B計算可以重復利用,從而達到減少運算量的目的.
結(jié)合反射區(qū)在全局視圖中面積占比小而可能不易捕捉和建立長距離依賴性的問題,對此,通過劃分原輸入特征為子特征塊,在子特征塊上使用空間線性注意力模塊(SLA),縮小指導范圍,然后結(jié)合全局和局部范圍設(shè)計位置重要性權(quán)重,兼顧全局與局部指導信息,設(shè)計了多視圖空間注意力模塊,如圖3所示,具體步驟如下:
圖3 多視圖空間注意力模塊
1)輸入特征Fx∈RC×H×W經(jīng)過空間線性注意力模塊SLA轉(zhuǎn)換,得到特征F1∈RC×H×W;
2)輸入特征Fx在空間維度上被分成4等分:左上、左下、右上以及右下的子部分. 此4子部分分別經(jīng)過SLA處理,得到4個子特征. 然后,這些子特征被放回原本的空間位置,得到特征F2∈RC×H×W;
3)輸入特征Fx中間部分也應被考慮在內(nèi),因為在生成上述F2過程中,中間部分的信息一定程度上被忽略. 為了使特征F3的尺寸與F1、F2保持一致,在F3中心子特征周圍區(qū)域以數(shù)值0填充;
4)特征F1、F2和F3在通道維度上進行拼接,得到特征Fc∈R3C×H×W. 特征cF通過1×1卷積操作進行信息融合和通道數(shù)降維,恢復與輸入特征xF相同尺寸,再與可學習參數(shù)g相乘構(gòu)成xF的注意力權(quán)重wF;
5)注意力權(quán)重wF與輸入特征xF的總和得到注意力模塊的輸出oF.
在五臟反射區(qū)面積占比小的情況下,反射區(qū)之間的面積大小還存在差異,對此,本文采用空洞卷積[16]融合不同感受野下的目標區(qū)域信息,以兼顧不同面積大小的反射區(qū)分割效果. 具體辦法是在本文網(wǎng)絡(luò)解碼部分最后的輸出層設(shè)計了帶有空洞卷積的多尺度特征融合模塊,結(jié)構(gòu)如圖4所示. 模塊結(jié)構(gòu)中,輸入特征通道數(shù)C為128,由第一層編碼層跳躍連接傳遞的特征與第二層解碼層通過上采樣后的特征拼接得到. 隨后,常規(guī)3×3卷積對輸入進行初步特征融合令通道數(shù)減半,緊接著常規(guī)1×1卷積逐像素點提取特征,通道數(shù)增加4倍,以獲取空間更精細信息. 最后,模塊并行使用卷積核大小為3×3,擴張率分別為6、12、18、24的空洞卷積,疊加不同感受野下的五臟反射區(qū)預測結(jié)果作為最后模型輸出,其中n為6. 綜上,模型會以在不同感受野中都得到目標區(qū)域為目的,從而提高分割準確率.
圖4 多尺度特征融合模塊
為進一步優(yōu)化模型,總損失函數(shù)是交叉熵LCE以及設(shè)計的改進二值交叉熵LBCE的結(jié)合.
式中,N表示圖像像素數(shù)目.c∈{1 ,… ,C},C為分割類別數(shù)目.fic和qic分別為在圖像位置i處對應類別c的標簽值和預測概率.
在交叉熵LCE中,已經(jīng)將背景計算在內(nèi),而耳部圖像中背景區(qū)域較大,因此式(4)中,LBCE不關(guān)注背景,即c∈{2 ,…,C},目的是為了更加聚焦于目標分割區(qū)域;e為 1e-9,分母包含類別數(shù)是為了防止計算溢出.
本文使用兩個帶五臟反射區(qū)標注的耳診圖像數(shù)據(jù)集對模型進行訓練和定量評價,分別為數(shù)據(jù)集一和數(shù)據(jù)集二. 數(shù)據(jù)集一由549張耳部圖像組成,在符合中醫(yī)耳診檢查要求下篩選自公開的AMI Ear數(shù)據(jù)集[17],圖像均為492×702. 數(shù)據(jù)集二由424張圖像組成,由本課題團隊在符合醫(yī)學倫理標準下采集自157位參與者. 數(shù)據(jù)集二使用中醫(yī)面舌診儀采集數(shù)據(jù),采集的圖像尺寸較大且含有較大部分的臉以及頭部等非耳部區(qū)域,要對圖像進行適當裁剪. 裁剪后的圖像尺寸不一,其寬度和高度大部分在400~1 000像素之間,耳部區(qū)域面積約占圖像的一半. 本文使用Labelme工具對上述兩個數(shù)據(jù)集的耳部五臟反射區(qū)進行逐像素點標注,由兩名臨床醫(yī)生全程指導. 標注有6類分割區(qū)域,分別為背景、心、肝、脾、肺、腎. 每份樣本經(jīng)3位醫(yī)生檢查核實.
數(shù)據(jù)集一和二的劃分均為60%用于訓練集,20%用于驗證集,20%用于測試集. 對耳部五臟各反射區(qū)域分割效果使用Jaccard系數(shù)、Dice系數(shù)以及平均對稱面距離ASSD評價,公式如下:
式中,A為真實標簽,B為分割結(jié)果代表點a至B中所有點的最短歐氏距離. Jaccard系數(shù)與Dice系數(shù)的取值范圍是[0,1],其值越高代表分割越準確. ASSD值越低代表分割越準確.
實驗在配置有Nvidia GeForce GTX 1080顯卡和16Gb RAM的計算機上進行,使用Pytorch 1.1.0訓練. 實驗采用SGD優(yōu)化器,批大小設(shè)為4,采用poly學習率策略,power為0.9,初始學習率為0.01,訓練1 000輪.
數(shù)據(jù)增強有助于網(wǎng)絡(luò)獲得所需的魯棒性. 本文數(shù)據(jù)增強分兩個階段. 模型訓練前,參照文獻[7]對訓練集進行幾何和光度變換,使圖像數(shù)目擴充7倍. 幾何變換中,以0.5概率進行水平翻轉(zhuǎn)、0.9~1.5倍隨機尺寸變換以及-45°~ 45°隨機旋轉(zhuǎn). 光度變換使用伽馬變換,伽馬值為{0.5,0.8,1.2,1.5}.模型訓練期間,對圖像隨機位置裁剪為128×128. 為了驗證前述數(shù)據(jù)增強的有效性,以U-Net[10]為基礎(chǔ),采用五折交叉驗證,共設(shè)計3種方式,結(jié)果如表1所示.
表1 數(shù)據(jù)增強實驗結(jié)果對比
由方式一、二可得,幾何、光度變換用于模型訓練前有利于提高分割效果,這是因為增加了每輪訓練的圖像數(shù)目并豐富了圖像多樣性. 由方式二、三可得,模型訓練期間,隨機位置裁剪相比于對耳部圖像整體進行尺寸調(diào)整為128×128,更適合耳部圖像訓練. 在輸入圖像尺寸相同的情況下,對圖像整體調(diào)整尺寸可以在模型訓練時保持全部反射區(qū)之間的位置關(guān)系,但五臟反射區(qū)本身在耳部圖像中所占面積小,經(jīng)過整體圖像尺寸縮小后使模型更難以發(fā)現(xiàn)目標分割區(qū)域;再者,隨機位置裁剪增加圖像多樣性,利于提升模型分割性能.
為驗證自適應平均池化分支及在分支情況下添加其余模塊的有效性,以U-Net作為基本網(wǎng)絡(luò)[10],采用五折交叉驗證,結(jié)果如表2所示. branch是自適應平均池化分支;MV是多視圖空間注意力模塊,MV1、MV2、MV3、MV4分別是在第一、二、三、四層跳躍連接處放置模塊,MVall是在四層所有跳躍連接處都放置模塊;“*”采用本文改進二值交叉熵與交叉熵結(jié)合的損失函數(shù),其余只使用交叉熵函數(shù);D是多尺度特征融合模塊.
表2 分支評估與模塊性能對比
首先,U-Net+branch說明U-Net嵌入自適應平均池化分支在兩個耳部數(shù)據(jù)集上都能提高分割性能,有效補償信息損失. 在添加分支的情況下,U-Net+branch+MV2,與注意力模塊分別置于其他3層跳躍連接處情況相比,得到最高Jaccard值與Dice值;進一步,U-Net+branch+MV2在Jaccard、Dice與ASSD指標上都比U-Net+branch+ MVall表現(xiàn)更優(yōu),說明多視圖空間注意力模塊的使用不是越多越好,而是與模塊所處的網(wǎng)絡(luò)位置有關(guān).結(jié)合各層注意力模塊輸出的通道圖可視化效果進行分析,如圖5所示. U-Net+branch+MV4突出顯示整體耳部輪廓;U-Net+branch+MV3相比于前者,對耳部輪廓關(guān)注減弱,對耳部內(nèi)小部分感興趣區(qū)域關(guān)注增強;U-Net+branch+MV1關(guān)注區(qū)域包含五臟反射區(qū)外,還有較多非目標區(qū)域;U-Net+branch+MV2相比以上3種情況,既更好地關(guān)注五臟反射區(qū)特定區(qū)域,抑制其他非目標區(qū)域的特征響應. 綜上,本文算法采用分支與第二層跳躍連接處的注意力模塊相結(jié)合.
圖5 注意力模塊的輸出通道圖可視化結(jié)果
然后在U-Net+branch+MV2基礎(chǔ)上,添加多尺度特征融合模塊于網(wǎng)絡(luò)輸出端,模型在數(shù)據(jù)集一上Jacarrd和Dice分別提高5.21%和5.17%,ASSD下降0.36像素;在數(shù)據(jù)集二上Jaccard和Dice分別提高7.09%和7.13%,ASSD下降2.44像素,模型性能得到提升. U-Net+branch+MV2與U-Net+branch+MV2+D在使用交叉熵與改進二值交叉熵結(jié)合的損失函數(shù)后,Jaccard、Dice與ASSD都達到更優(yōu)的結(jié)果,驗證了本文損失函數(shù)的有效性.
為了進一步驗證所提模型在耳診圖像五臟反射區(qū)的分割性能,在數(shù)據(jù)集一、二上分別用PAN[11]、DANet[12]、CPFNet[14]、U-Net[10]以及Attention UNet[13]進行對比,所有網(wǎng)絡(luò)均采用本文損失函數(shù),并進行五折交叉驗證,實驗結(jié)果如表3所示. 在數(shù)據(jù)集一上,所提模型在Jaccard、Dice以及ASSD均優(yōu)于其他模型,Jaccard和Dice比次優(yōu)模型分別高8.91%和8.56%,ASSD低1.13像素;在數(shù)據(jù)集二上,所提模型在五臟反射區(qū)整體分割性能都最高,Jaccard、Dice以及ASSD分別為47.31%、63.72%以及2.30像素.
表3 不同網(wǎng)絡(luò)性能對比
此外,結(jié)合表1與表2實驗結(jié)果,在同種實驗設(shè)置下,數(shù)據(jù)集二上的Jaccard、Dice低于數(shù)據(jù)集一上的值,ASSD值較高. 進一步,表3中除Attention UNet[13]外,其他網(wǎng)絡(luò)在數(shù)據(jù)集二上的整體分割性能比在數(shù)據(jù)集一上都有所下降. 與數(shù)據(jù)集一相比,數(shù)據(jù)集二圖像總數(shù)量少、尺寸不統(tǒng)一且相差較大,呈現(xiàn)五臟反射區(qū)情況更復雜,結(jié)合本文實驗結(jié)果較大程度上說明在數(shù)據(jù)集二上實現(xiàn)五臟反射區(qū)分割更具挑戰(zhàn)性.
結(jié)合圖6和圖7,原本用于自然場景分割的DANet[12]與PAN[11],在兩個數(shù)據(jù)集五臟反射區(qū)的分割形狀與真實標簽相比存在明顯差異. DANet[12]在脾區(qū)域存在欠分割問題且分割邊緣帶鋸齒狀;PAN[11]在心區(qū)域存在過分割問題. 用于醫(yī)學圖像分割的CPFNet[14]、U-Net[10]和Attention UNet[13],與本文方法分割效果相比存在明顯差距. 前述3種醫(yī)學圖像分割網(wǎng)絡(luò),對于心和肺反射區(qū)存在以下情況:肺區(qū)域的形狀預測更趨于包圍心反射區(qū),與標簽圖像的肺反射區(qū)U型形狀存在差距,而本文模型有效改善肺部反射區(qū)形狀分割. 與上述網(wǎng)絡(luò)相比,本文方法預測的目標區(qū)域更完整,形狀更接近標簽,預測邊緣比前述大多數(shù)網(wǎng)絡(luò)更連續(xù). 綜上,對于小區(qū)域且邊緣模糊的耳部圖像五臟反射區(qū)分割任務(wù),本文模型表現(xiàn)出較好的分割性能.
圖6 數(shù)據(jù)集一的分割結(jié)果
圖7 數(shù)據(jù)集二的分割結(jié)果
本文采用U-Net基本結(jié)構(gòu),結(jié)合注意力機制與特征融合,設(shè)計了一個面向耳診圖像五臟(心、肝、脾、肺、腎)反射區(qū)的分割模型,針對分割小目標的五臟反射區(qū)域和完善分割邊界細節(jié),并在兩個耳診圖像數(shù)據(jù)集上進行五臟反射區(qū)分割實驗. 設(shè)計自適應平均池化分支從輸入圖像中提取豐富的底層信息并與不同高層信息融合,補償信息損失;在跳躍連接處設(shè)計多視圖空間注意力模塊,兼顧全局、局部范圍,提高對目標區(qū)域的關(guān)注能力;在模型輸出端設(shè)計多尺度特征融合模塊,不同程度地擴大感受野,捕獲更多目標區(qū)域細節(jié)特征. 實驗表明,本文算法在耳診圖像五臟反射區(qū)分割任務(wù)精度上具有優(yōu)越性,分割效果與其他方法相比具有較大提升. 但本文算法在一定程度上增加了訓練代價,未來工作將對模型進一步探討,在保證分割性能的前提下對模型進行精簡.