魏天琦,肖志勇
江南大學(xué)人工智能與計算機學(xué)院,無錫 214122
作為全球發(fā)病率第3位(10.2%)、病死率第2位(9.2%)的疾病,自2018年以來,結(jié)直腸癌(colorectalcancer,CRC)的發(fā)病數(shù)量在中國快速上升,嚴重威脅了我國人民群眾的生命健康(田傳鑫和趙磊,2021)。然而大多數(shù)的CRC腫瘤在早期是以腺瘤性息肉的形式生長于腸道內(nèi)壁,隨著病情的進展逐漸發(fā)展成惡性腫瘤并擴散到其他組織,因此早期腸道息肉檢查至關(guān)重要,可以大大提高成活率(90%) (Siegel等,2019)。通過結(jié)腸鏡的胃腸道檢查以發(fā)現(xiàn)早期腸道息肉并進行切除仍然是CRC防治的金標準,目前大多數(shù)指南推薦從50歲時開始篩查(Finlay等,2021)。然而傳統(tǒng)的結(jié)腸鏡檢查需要至少一位有資質(zhì)的內(nèi)鏡醫(yī)生將長約1.5 m的腸鏡經(jīng)肛門順著腸腔插入到結(jié)腸及回盲部,從黏膜表面觀察結(jié)腸是否發(fā)生病變。這一方法不僅對內(nèi)鏡醫(yī)生的專業(yè)水平有較高要求,同時由于腸鏡的快速進出、不同息肉的發(fā)展狀態(tài)(如圖1所示)、內(nèi)鏡醫(yī)生的工作狀態(tài)以及采用設(shè)備的缺陷等因素,結(jié)腸鏡檢查有著高達6%-27%的漏診率(Ahn等,2012)。因此,計算機輔助系統(tǒng)在提高結(jié)腸鏡檢查效果方面有著巨大潛力。
圖1 結(jié)腸息肉大小、形狀和外觀示例圖Fig.1 Example images showing the differences in size, shape and appearance of colonic polyps
綜上所述,息肉的精確分割在臨床應(yīng)用中至關(guān)重要,使用先進的輔助算法對成像上的息肉進行自動分割可以顯著提高腺瘤的查出率。然而隨著息肉生長狀態(tài)的不同,在大小、顏色和紋理等特征上往往存在差異且息肉邊界模糊不清,這些因素使得息肉分割仍然是一項具有挑戰(zhàn)性的任務(wù)。為了解決這一問題,在過去的十幾年里有很多方法相繼提出,早期的息肉分割是傳統(tǒng)的基于手工特征的機器學(xué)習(xí)方法,例如Mamonov等人(2014)設(shè)計了基于幀的紋理內(nèi)容,利用幾何分析來標記圖像中是否包含多邊形的二分類器的結(jié)腸息肉分割算法,在視頻序列長度為3 747幀的前提下為操作員節(jié)省了約90%的工作量。隨著深度學(xué)習(xí)的快速發(fā)展,全卷積神經(jīng)網(wǎng)絡(luò)在醫(yī)療圖像分割上的應(yīng)用越來越廣泛,Jha等人(2019)在ResUNet(Xiao等,2018)的基礎(chǔ)上繼續(xù)加入空洞空間卷積池化金字塔(atrous spatial pyramid pooling,ASPP)和注意力模塊后提出的ResUNet++在多個結(jié)腸息肉數(shù)據(jù)集上取得了優(yōu)于U-Net(Ronneberger等,2015)和ResUNet的成績。Jha等人(2020)提出的Double U-Net將兩個U-Net的編碼器(encoder)和解碼器(decoder)進行skip connections,通過兩個U-Net的堆疊捕獲到更多的語義信息,并使用ASPP空間金字塔池化來捕獲上下文信息,在MICCAI(Medical Image Computing and Computer Assisted Intervention Society) 2015(Bernal等,2017)挑戰(zhàn)賽中對微小扁平息肉分割取得了更精確的結(jié)果。近年來,注意力機制越來越受到研究者們的重視,Chen等人(2021)認為,盡管U-Net系列網(wǎng)絡(luò)已經(jīng)取得了很大的進步,但仍然存在由全卷積網(wǎng)絡(luò)本身所帶來的無法進行長距離依賴建模的缺陷,因此將Transformer(Vaswani等,2017)引入到U-Net中,提出了TransUNet,為醫(yī)學(xué)圖像分割網(wǎng)絡(luò)的改進提供了新的思路。何康輝和肖志勇(2021)提出了多層多視角的卷積方法,增強了對特征的冗余學(xué)習(xí)。Oktay等人(2018)提出了一種應(yīng)用于醫(yī)學(xué)圖像的門控注意力模塊(attention gate,AGs),可在訓(xùn)練時自動學(xué)習(xí)抑制不相關(guān)區(qū)域,注重有用的顯著特征。
上述方法都能夠有效分割息肉的主體部分,尤其是注意力機制的運用可以使模型有效地聚焦前景部分,實現(xiàn)像素級的全局參考,但自注意力機制會帶來大量額外的計算開銷,同時對大規(guī)模預(yù)訓(xùn)練以及數(shù)據(jù)集具有較高的要求,這都極大提高了模型訓(xùn)練的成本。不同于以往的利用圖像本身構(gòu)造注意力權(quán)重圖的方法,受Jha等人(2020)使用兩個U-Net級聯(lián)的方式來加強上下文關(guān)系的啟發(fā),本文提出了一種由多個模型互相影響的注意力權(quán)重圖構(gòu)造方法,將上游網(wǎng)絡(luò)輸出的預(yù)測結(jié)果作為權(quán)重圖對下游分割網(wǎng)絡(luò)產(chǎn)生影響,同時在解碼階段加入輕量化模塊來更好地獲取全局信息,可以獲得更好的分割效果。
本文的主要貢獻包括5個方面:
1) 提出一種針對上述問題設(shè)計的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);
2) 提出一種新的注意力矩陣獲取方法,這種方法可以得到一個高精度的注意力權(quán)重圖;
3) 提出一種劃分子空間施加通道注意力的方法;
4) 在內(nèi)鏡圖像CVC-ClinicDB數(shù)據(jù)集和膠囊內(nèi)窺鏡圖像Kvasir-Capsule(Smedsrud等,2021;Jha等,2021)數(shù)據(jù)集上對模型的分割效率進行驗證,并與現(xiàn)有的息肉分割模型進行比較;
5) 混合了上文提到的兩種數(shù)據(jù)集,并對提出的方法進一步驗證,以顯示模型在使用不同設(shè)備捕獲的圖像上的分割效率。
以U-Net為代表的利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的強表征性來分割醫(yī)學(xué)圖像的方法通常是將分割任務(wù)分為兩個步驟,即檢測和分割:先確定待分割目標的感興趣區(qū)域(region of interest,ROI),再針對ROI進行小范圍的分割。但是由于醫(yī)學(xué)圖像本身的特點(目標組織/器官在形狀、大小和顏色等特征上呈多樣性等),精準地確定ROI一直是醫(yī)學(xué)圖像分割所要解決的難點之一。為此,Oktay等人(2018)提出了將軟注意力機制應(yīng)用于U-Net的門控注意力機制(attention gate,AGs),并通過對比試驗證明了AGs的有效性。
AGs的具體結(jié)構(gòu)如圖2所示,其中,g代表解碼部分的特征矩陣,xl是編碼部分的矩陣,兩個矩陣經(jīng)過大小為1×1的卷積操作統(tǒng)一通道數(shù)之后進行concat拼接后進入解碼層,通過Resampler重采樣器將特征圖重采樣到原來xl的大小,最終生成一個可以通過反向傳播學(xué)習(xí)的權(quán)重矩陣,獲得每個元素的重要性,再將權(quán)重矩陣與原編碼部分的特征矩陣相乘,得到注意力特征圖。AGs的定義為
(1)
(2)
模型的泛化性是指在獨立數(shù)據(jù)集上的性能;魯棒性指在具有挑戰(zhàn)性圖像上的性能,這兩者都是評價深度學(xué)習(xí)算法在臨床應(yīng)用價值的重要指標,因此建立一個強有力的醫(yī)學(xué)分割模型必須具備足夠的泛化性和魯棒性,然而AGs對于部分醫(yī)學(xué)圖像并不能展現(xiàn)出顯著的性能提升,尤其是針對像結(jié)腸息肉這一類細粒度、小目標的分割。針對這一問題,本文發(fā)現(xiàn)只需充分利用U-Net自身的分割性能就可以構(gòu)建精確的權(quán)重圖譜,因此嘗試了利用網(wǎng)絡(luò)自身產(chǎn)生注意力權(quán)重的方法,即雙重U-Net網(wǎng)絡(luò)結(jié)構(gòu)。
圖2 門控注意力機制Fig.2 Attention gate
傳統(tǒng)U-Net網(wǎng)絡(luò)包含兩部分:分析路徑和合成路徑。分析路徑負責(zé)學(xué)習(xí)圖像特征;合成路徑則根據(jù)學(xué)習(xí)到的特征生成分割結(jié)果。此外,U-Net還加入了跨越連接使合成路徑產(chǎn)生更精確的結(jié)果。然而普通的U-Net網(wǎng)絡(luò)并不能適應(yīng)所有類型的醫(yī)學(xué)圖像應(yīng)用,為了解決這一問題,Jha等人(2020)提出了一種用于語義分割的新框架Double U-Net,模型結(jié)構(gòu)如圖3所示。
Jha等人(2020)認為在ImageNet(Deng等,2009)上預(yù)訓(xùn)練過的模型可以顯著提升性能,因此選擇了VGG-19(Visual Geometry Group)(Simonyan和Zisserman,2015)作為上游U-Net結(jié)構(gòu)的編碼器,并在下游網(wǎng)絡(luò)結(jié)構(gòu)中使用了空間金字塔池化,在上下游網(wǎng)絡(luò)之間進行跨越連接進一步提高特征利用率。該網(wǎng)絡(luò)最終在CVC-ClinicDB(Colonoscopy Videos Challenge-ClinicDataBase)數(shù)據(jù)集(Bernal等,2015)上取得了state-of-the-art (SOTA)的結(jié)果。劉佳偉等人(2021)在此基礎(chǔ)上加入的注意力模塊在息肉分割上取得不錯的成績。
圖3 雙重U-NetFig.3 Double U-Net
但由于對上游網(wǎng)絡(luò)編碼器有較高的預(yù)訓(xùn)練要求,在實際應(yīng)用中往往需要有針對性地運用其他大型數(shù)據(jù)集對某一特定的醫(yī)學(xué)圖像進行預(yù)訓(xùn)練,這大大提高了使用成本,再加上U-Net已經(jīng)在多個醫(yī)學(xué)圖像任務(wù)中展現(xiàn)了極佳的性能,因此可以選擇U-Net作為上游網(wǎng)絡(luò)參與訓(xùn)練來生成注意力權(quán)重圖。
Saini等人(2020)認為現(xiàn)有注意力計算機制產(chǎn)生了較高的參數(shù)開銷,因此不適合以CNN為代表的緊湊型卷積神經(jīng)網(wǎng)絡(luò),并為此提出了一種簡單有效的超輕量級子空間注意力機制(ultra-lightweight subspace attention mechanism,ULSAM),如圖4所示,在ULSAM中將每個特征圖分解為多個子空間,并在多個子空間內(nèi)學(xué)習(xí)不同的注意力特征圖,從而實現(xiàn)多尺度、多頻率的特征表示。實驗結(jié)果證明,多尺度融合對精細化的目標邊緣分割效果的提升是有幫助的(吉淑瀅和肖志勇,2021)。
圖4 子空間注意機制Fig.4 Subspace attention mechanism
結(jié)腸息肉整體較為圓滑且顏色與腸壁較為相似,因此網(wǎng)絡(luò)會在目標邊界處理上產(chǎn)生一定誤差,影響分割性能。為了進一步提高模型在息肉邊界的分割能力,可以引入輕量化注意力模塊。受ULSAM的啟發(fā),在下游網(wǎng)絡(luò)的跨越連接中加入改進的子空間通道注意力模塊來提取每個特征子空間的個體注意力映射,為原始特征圖提供了跨通道信息高效學(xué)習(xí)的能力,進一步提升模型針對細粒度、小目標分割上的性能。
本文方法的整體結(jié)構(gòu)如圖5所示,因為傳統(tǒng)卷積操作不能對小目標進行精確分割,而注意力機制可以很好地解決這一難題,因此本文設(shè)計了一個包含兩種編—解碼網(wǎng)絡(luò)的模型結(jié)構(gòu),對輸入圖像進行兩次訓(xùn)練,第1次訓(xùn)練的目標是獲得注意力權(quán)重圖,通過平均池化操作縮小特征圖尺寸之后再將其與下游網(wǎng)絡(luò)的解碼器輸出逐級相乘得到注意力權(quán)重圖,利用權(quán)重圖對原始圖片進行拼接后進行第2輪的加強訓(xùn)練;通過在下游網(wǎng)絡(luò)跨越連接中添加改進的輕量級模塊ULSAM,增強通道之間的內(nèi)部關(guān)系;最后通過連接操作將兩部分的特征圖進行融合,再進行上采樣操作將融合信息匯總為增廣表示,最終實現(xiàn)端到端的像素級預(yù)測。
注意力是一種機制或方法論,其并沒有嚴格的數(shù)學(xué)定義,因此本文提出的通過添加額外的神經(jīng)網(wǎng)絡(luò)來給輸入的部分分配不同的權(quán)重應(yīng)該屬于軟注意力(soft attention)。軟注意力包括空間注意力和通道注意力,其最終目的就是選擇細粒度的重要像素點,進而讓網(wǎng)絡(luò)把注意力放到該區(qū)域上,簡單來說就是要讓目標區(qū)域的像素值變大。通常使用的方法是利用輸入圖像自身結(jié)合在編—解碼過程中的上下文信息來挖掘輸入和輸出之間的關(guān)系。
本文方法使用掩碼(mask)來形成注意力機制,是基于位置的軟注意力。掩碼的原理在于通過一層新的權(quán)重將圖像數(shù)據(jù)中關(guān)鍵的特征標識出來,通過學(xué)習(xí)訓(xùn)練讓雙層網(wǎng)絡(luò)學(xué)習(xí)到每一幅輸入圖像中需要關(guān)注的區(qū)域。在上游網(wǎng)絡(luò)的backbone中利用兩個大小為3×3、激活函數(shù)為ReLU的卷積塊提取出特征圖,為了防止在訓(xùn)練過程中數(shù)據(jù)分布發(fā)生改變以及梯度爆炸,在每一次卷積操作之后加入批歸一化層(batch normalization,BN)進行批歸一化操作。在解碼器中需要將圖像恢復(fù)至原來的尺寸,通過使用反卷積的上采樣操作可以增大特征圖的分辨率。由于網(wǎng)絡(luò)的整個操作都可反向傳播,因此上游網(wǎng)絡(luò)可以通過反向傳播不斷訓(xùn)練以提高輸出掩碼圖像的精確度,最后經(jīng)過Sigmoid操作可以將上游網(wǎng)絡(luò)輸出圖像的像素歸一化到0-1的范圍內(nèi),像素值越接近1就代表原圖像中對應(yīng)像素判斷為目標的概率越大。為了更大限度地利用上游網(wǎng)絡(luò)的輸出信息,整體模型的輸出還將與未進行Sigmoid操作的上游輸出進行一次殘差操作,模型輸出具體為
圖5 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network mechanism
y=F(σ2(f(x))×x)+f(x)
(3)
式中,y表示模型的最終輸出矩陣,x表示模型的輸入圖像,F(xiàn)表示下游網(wǎng)絡(luò)的操作函數(shù),f表示上游網(wǎng)絡(luò)的操作函數(shù),σ2表示Sigmoid函數(shù)。
與Attention U-Net類似,經(jīng)過上游網(wǎng)絡(luò)輸出的掩碼圖像可以在下游網(wǎng)絡(luò)解碼器中作為門控信號來調(diào)整特征圖。在壓縮掩碼分辨率的過程中選擇了2×2的平均池化層。因為相較于最大池化,平均池化可以保證在嵌套的池化操作中保留準確的掩碼信息,防止將低概率像素值增大。如圖6所示,在一個2×2的滑動窗口內(nèi)有3種可能的情況:4個像素均為背景、4個像素均為前景以及4個像素中部分為前景。當出現(xiàn)第1種情況時,雖然最大池化可以保證池化后的像素值仍然可以預(yù)測為背景,但是在經(jīng)過多輪最大池化后該像素值會不斷升高,最終導(dǎo)致原本應(yīng)該是背景的區(qū)域被放大;當4個像素均為前景時平均池化可以保證網(wǎng)絡(luò)始終給予這部分特征較大的關(guān)注;對于4個像素中大部分為前景或大部分為背景的情況下平均池化可以起到細化邊緣的作用。
圖6 平均池化與最大池化的比較Fig.6 Compare with Avgpooling and Maxpooling
需要特別指出的是,在下游網(wǎng)絡(luò)的第1層并沒有像其他層一樣將掩碼圖像作為門控信號來對解碼路徑中的特征圖進行調(diào)整,因為本文認為未經(jīng)池化壓縮的原始圖像具有最豐富的語義信息,壓縮再擴張操作反而會損失這些上層語義信息,因此選擇將上游網(wǎng)絡(luò)的輸出經(jīng)Sigmoid激活函數(shù)之后直接與輸入圖像進行乘操作,這樣可以確保在保留圖像的高級語義信息的同時又保證模型將注意力集中在目標區(qū)域。
為了使編碼器傳送給解碼器的特征空間包含更多的遠程依賴,同時盡可能減少計算量,本文參考了Saini等人(2020)方法將完整的特征圖劃分為互斥的多個子空間,以及DANet(Fu等,2019)的通道注意力的思想,在下游網(wǎng)絡(luò)的跨越連接中加入了輕量級子空間通道注意力模塊ULSCAM,對特征圖分塊計算注意力后進行信息匯總,這種方法可以用極少的附加參數(shù)和計算來捕捉更為復(fù)雜的跨通道信息交互。
具體結(jié)構(gòu)如圖7所示:對于拆分后的每個子空間,讓注意力機制分別學(xué)習(xí)各個子空間的注意力圖,以減少整體計算上的空間和通道冗余,同時對不同層的特征圖用劃分子空間求注意力圖的學(xué)習(xí)方式實現(xiàn)了多頻率的特征表示,這種方法對高頻率區(qū)域內(nèi)細微細節(jié)的精細化分割效果更為理想,計算為
(4)
(5)
圖7 輕量級子空間通道注意力模塊Fig.7 Ultra-lightweight subspace channel attention module
如表1所示,本文使用了兩種不同設(shè)備采集的帶有g(shù)round truth的結(jié)腸息肉數(shù)據(jù)集。Kvasir-Capsule數(shù)據(jù)集(Oktay等,2018)是包含了13類標記異常的開放數(shù)據(jù)集,在腸胃醫(yī)學(xué)專家的幫助下從膠囊內(nèi)窺鏡采集到的44 228個視頻幀中存在55個包含息肉的幀,Jha等人(2021)對這55個視頻幀進行了標注并提供了息肉的位置信息,將其整合成了KvasirCapsule-SEG數(shù)據(jù)集并開放于醫(yī)學(xué)圖像分割和定位任務(wù)。CVC-ClinicDB數(shù)據(jù)集(Bernal等,2015)來自西班牙巴塞羅那臨床醫(yī)院,由31個結(jié)腸鏡檢查視頻中提取的612幅息肉圖像和專家手工標注的ground truth組成,用于醫(yī)學(xué)圖像處理中的分割實驗。
表1 實驗中用到的醫(yī)學(xué)分割數(shù)據(jù)集Table 1 The biomedical segmentation datasets used in our experiments
上述兩個結(jié)腸息肉數(shù)據(jù)集是由不同設(shè)備提取得到的,在成像方面具有明顯差異性,膠囊內(nèi)鏡采集到的圖像呈現(xiàn)出魚眼鏡頭所特有的凸面效果,而常規(guī)腸胃鏡的圖像則更為舒展。為了研究提出的網(wǎng)絡(luò)在跨設(shè)備圖像上的分割效果,將上述兩種數(shù)據(jù)集混合,組成了一個全新數(shù)據(jù)集CVC-KC,分辨率統(tǒng)一到336×336像素。
為了評估本算法的性能,選擇Dice相似指數(shù)(DSC)、精確率(precision)、召回率(recall)以及均交并比(mIoU)作為評價指標,分別定義為
(6)
(7)
(8)
(9)
式中,真陽性TP(true positive)是將正樣例(息肉部分)正確分類的像素點數(shù);真陰性TN(true negative)是將負樣例(背景區(qū)域)正確分類的像素點數(shù);假陽性FP(false positive)是將負樣例錯誤分類的像素點數(shù);假陰性FN(false negative)是將正樣例錯誤分類的像素點數(shù)。Dice系數(shù)是一種集合相似度量函數(shù),其中|X∩Y|表示矩陣X和矩陣Y之間的交集元素的個數(shù),|X|和|Y|分別表示兩矩陣元素的個數(shù),k表示分類數(shù),在本文的實驗中均為1。所有評價指標值均介于0-1,指數(shù)越接近1表示分割結(jié)果與ground truth的相似度越高。
模型基于Pytorch框架,在一塊NVIDIA RTX 1080Ti上進行訓(xùn)練,為了充分利用GPU設(shè)備的顯存資源,將圖片的大小統(tǒng)一設(shè)置為224×224像素,batch-size設(shè)置為8。為了擴充訓(xùn)練集采取了隨機旋轉(zhuǎn)、翻轉(zhuǎn)和移位的數(shù)據(jù)增強策略,對于每一個數(shù)據(jù)集將其順序完全打亂并隨機劃分為6 ∶2 ∶2的3個互斥組分別作為訓(xùn)練、驗證和測試集;對于混合數(shù)據(jù)集CVC-KC,使用CVC-ClinicDB數(shù)據(jù)集中全部圖像進行4 ∶1的劃分作為訓(xùn)練集和驗證集,并在KvasirCapsule-SEG數(shù)據(jù)集上測試模型的分割性能,并交換二者位置進行第2次實驗,標記為數(shù)據(jù)集KC-CVC。使用Adam優(yōu)化器,為了得到最佳分割結(jié)果,將初始學(xué)習(xí)率設(shè)置為3E-4,學(xué)習(xí)率衰減定義為
(10)
M=E×T
(11)
式中,bl代表基礎(chǔ)學(xué)習(xí)率,G表示當前已訓(xùn)練的batch總數(shù),M是訓(xùn)練輪數(shù)與訓(xùn)練集大小的乘積,E則代表訓(xùn)練的epoch數(shù),T代表訓(xùn)練集大小。
Dice loss是Milletari等人(2016)在V-Net中提出的loss函數(shù),計算為
(12)
式中,矩陣X和矩陣Y分別代表進行對比的矩陣。由于對正負樣例不均衡的場景有著不錯的性能且訓(xùn)練過程中更注重對前景區(qū)域的挖掘,因此Dice loss非常適合于小目標、樣本不均衡場景下的語義分割,廣泛采用于醫(yī)學(xué)圖像分割任務(wù)中。但它也存在著訓(xùn)練loss不穩(wěn)定、曲線混亂等缺點,因此本文將二分類交叉熵損失函數(shù)BCE loss(BL)和Dice loss(DL)混合使用,最終loss函數(shù)定義為
Loss=BL×w+DL×(1-w)
(13)
式中,變量w代表二分類交叉熵損失函數(shù)的權(quán)重,默認大小設(shè)置為0.5。
3.5.1 消融實驗
為了度量文中提出的所有組件的有效性,進行兩組對比實驗來證明雙重U-Net結(jié)構(gòu)(U2 Net)、掩碼注意力門(mask attention gate,MAG)和ULSCAM都可以在一定程度上提高息肉分割的性能。
本文提出的多種改進策略結(jié)果如表2所示,可以發(fā)現(xiàn),當采用級聯(lián)U-Net并將第1個網(wǎng)絡(luò)的輸出作為注意力權(quán)重對第2個網(wǎng)絡(luò)的輸入進行改進后,各項性能指標均取得了較大的提升,尤其是在CVC-ClinicDB數(shù)據(jù)集上,準確率和召回率的提升都達到了2%以上;進一步將上游網(wǎng)絡(luò)的輸出經(jīng)過平均池化之后對下游網(wǎng)絡(luò)解碼器部分的特征矩陣進行權(quán)重分配后對召回率的提升最為顯著,接近4.5%,同時在KvasirCapsule-SEG數(shù)據(jù)集上也取得了提升;因此本模型相較于U-Net在分割性能上具有明顯優(yōu)勢。
3.5.2 ULSCAM中子空間數(shù)的影響
為了探究ULSCAM模塊中劃分子空間數(shù)對模型分割性能的影響,本文做了進一步實驗:分別將特征圖劃分為子空間數(shù)1(不劃分)、2、4、8和16且其他條件相同的情況下的各項指標??梢灶A(yù)測的是,雖然在劃分次數(shù)小時會損失一定的精度,但當劃分數(shù)逐漸增大之后,本模塊可以得到更好的跨通道信息交互,結(jié)果如表3所示。
3.5.3 以權(quán)重圖為基礎(chǔ)的門控注意力機制的作用
為了探究以上游網(wǎng)絡(luò)生成的權(quán)重圖對下游網(wǎng)絡(luò)的解碼過程中添加門控注意力機制的影響,本節(jié)對消融實驗中的MAG進行分析。相較于Attention U-Net,MAG機制的實現(xiàn)是通過附加的注意力權(quán)重圖譜,上游網(wǎng)絡(luò)的輸出結(jié)果經(jīng)過歸一化處理后會形成預(yù)測圖的注意力分布矩陣,用來表示每個像素的重要度,這個重要度是根據(jù)圖像的目標學(xué)習(xí)出來的,權(quán)重矩陣也可以通過反向傳播來學(xué)習(xí)。通過權(quán)重矩陣作為門控機制在下游網(wǎng)絡(luò)的解碼器部分進行乘操作可以引導(dǎo)模型側(cè)重目標區(qū)域。通過消融實驗表2可以看出:相較于傳統(tǒng)分割網(wǎng)絡(luò)U-Net,添加了MAG模塊的U2 Net網(wǎng)絡(luò)在DCS、mIoU以及Recall上均有明顯提升,證明了本文提出的MAG模塊的有效性。
表2 本文改進方法的比較Table 2 Comparison of segmentation algorithms of proposed improved strategies /%
表3 ULSCAM中子空間數(shù)的比較Table 3 Comparison of the number of subspaces in ULSCAM /%
3.5.4 不同算法的結(jié)果比較
為了更好地驗證算法的有效性,將本文算法在CVC-ClinicDB數(shù)據(jù)集和KvasirCapsule-SEG數(shù)據(jù)集上與近幾年提出的SOTA算法及一些經(jīng)典的語義分割算法進行比較,包括U-Net、ResUNet、ResUNet-mod(Zhang等,2018)、ResUNet++(Jha等,2019)、SFA(Fang等,2019)、PraNet(Fan等,2020)、TransFuse(Zhang等,2021)、HarDNet-MSEG(Huang等,2021)、FANet(Tomar等,2022)、UACANet(Kim等,2021)、MSBNet(Wang等,2021)、NanoNet(Jha等,2021),如表4和表5所示。
表4 CVC-ClinicDB數(shù)據(jù)集不同算法的結(jié)果Table 4 The results of different algorithms in the CVC-ClinicDB dataset
表5 KvasirCapsule-SEG數(shù)據(jù)集上不同算法的結(jié)果Table 5 The results of different algorithms in the KvasirCapsule-SEG dataset
通過表4可以看出,本文算法在DSC、mIoU、precision以及recall的結(jié)果均優(yōu)于早期的經(jīng)典算法和近期提出的SOTA算法,同時與選擇作為baseline的U-Net算法相比提升顯著。通過表5可以看出,本文方法在膠囊胃鏡數(shù)據(jù)集上的DSC、mIoU、precision等3個指標上都優(yōu)于其他算法,雖然在recall指標上不如ResUNet,但是兩者的差距僅有0.2%,仍然可以說明本文算法的有效性。為了更直觀地說明本文算法的有效性,圖8展示了選用數(shù)據(jù)集的可視化分割結(jié)果??梢园l(fā)現(xiàn),相較于U-Net,本文的算法可以更精確地分割息肉本體以及邊緣部分,這也證明了算法的有效性。
3.5.5 混合數(shù)據(jù)集的結(jié)果
為了檢測提出方法對使用不同設(shè)備捕獲到的圖像的性能,本文混合使用了CVC-ClinicDB和KvasirCapsule-SEG兩個數(shù)據(jù)集,組成了一個全新的數(shù)據(jù)集CVC-KC。在實驗階段交替使用兩個數(shù)據(jù)集中的全部圖像作為訓(xùn)練和驗證集,并將訓(xùn)練后的模型在另一個數(shù)據(jù)集上進行測試,表6和表7分別顯示了混合數(shù)據(jù)集在兩個數(shù)據(jù)集上的測試結(jié)果??梢钥闯?,相較于傳統(tǒng)的圖像分割算法,本文方法在各項性能指標上都能夠帶來較大的效果提升,尤其是表6中本文模型在DSC上的漲幅接近17%,同時在召回率上的提升超過了20%。同樣的情況也可以在表7中看到,本文模型在膠囊胃鏡圖像上訓(xùn)練后再在腸鏡圖像上的預(yù)測結(jié)果仍然優(yōu)于baseline,但由于訓(xùn)練集的圖像數(shù)量、橢圓/圓形的ground truth與測試集差距較大以及KvasirCapsule-SEG數(shù)據(jù)集圖像較不均衡等因素,性能提升的差距并沒有表6中所展示得那么顯著,這一類問題可以通過使用更大數(shù)據(jù)集或者數(shù)據(jù)增強的方式得到改善。在圖9展示了跨數(shù)據(jù)集分割的可視化結(jié)果,前兩行是先在CVC-ClinicDB上訓(xùn)練后在KvasirCapsule-SEG上測試的結(jié)果對比;后兩行是先在KvasirCapsule-SEG上訓(xùn)練后在CVC-ClinicDB上測試的結(jié)果對比。
圖8 分割結(jié)果的可視化Fig.8 Visualization of segmentation results((a)input;(b)ground truth;(c)U-Net;(d)ours)
表6 使用CVC-ClinicDB作為訓(xùn)練集的交叉數(shù)據(jù)集的結(jié)果Table 6 The cross-dataset results using CVC-ClinicDB as the training set
表7 使用KvasirCapsule-SEG作為訓(xùn)練集的交叉數(shù)據(jù)集的結(jié)果Table 7 The cross-dataset results using KvasirCapsule-SEG as the training set
圖9 跨數(shù)據(jù)集分割結(jié)果的可視化Fig.9 Visualization of cross-dataset segmentation results((a)input;(b)ground truth;(c)U-Net;(d)ours)
通過表6和表7的對比不難發(fā)現(xiàn):在表6中使用了612幅圖像的CVC-ClinicDB數(shù)據(jù)集進行訓(xùn)練后模型在KvasirCapsule-SEG數(shù)據(jù)集上的分割結(jié)果相較于傳統(tǒng)的U-Net網(wǎng)絡(luò)在DSC、mIoU、precision以及recall等4項指標上分別取得了16.73%、20.82%、2.11%以及21.88%的顯著提升,具有明顯的臨床應(yīng)用前景;而在表7實驗中使用KvasirCapsule-SEG數(shù)據(jù)集進行訓(xùn)練的實驗中雖然相較于U-Net有效果提升但是整體指標過低而不具備臨床應(yīng)用的可行性。這是由于KvasirCapsule-SEG數(shù)據(jù)集中圖像數(shù)量限制的同時又與測試集圖像存在明顯差異性的原因,但參考圖8仍可以看出本文模型在腸胃鏡圖像上方的息肉分割相較于U-Net在整體以及邊緣處理上仍然具有明顯優(yōu)勢,因此可以認為本文方法在臨床應(yīng)用特別是跨采集設(shè)備的圖像分割方向上雖然具有應(yīng)用前景但仍然需要足夠數(shù)量的圖像作為訓(xùn)練集才能保證分割結(jié)果的性能。
這進一步證明了在大多數(shù)結(jié)腸息肉數(shù)據(jù)集特別是采集設(shè)備跨度較大的情況下本文模型仍然具有一定的魯棒性,從醫(yī)師的角度來看,模型對于多種應(yīng)用環(huán)境下的臨床輔助診斷具有一定的準確性,為降低實際應(yīng)用中的漏報率提供了一種可行的解決方案,對提高大腸癌篩查策略具有潛力。
3.5.6 模型顯著性測試
顯著性驗證(significance test)作為判斷兩個乃至多個數(shù)據(jù)集之間是否存在顯著性差異以及差異是否明顯的方法應(yīng)用于各種研究領(lǐng)域,在統(tǒng)計學(xué)中,顯著性檢驗是“統(tǒng)計假設(shè)檢驗”的一種。對本文算法與baseline進行基于DSC數(shù)據(jù)的顯著性測試,以排除本文實驗所得數(shù)據(jù)的偶然性。
圖10顯示了兩個數(shù)據(jù)集的指標對比,其中粉色箱型圖為KvasirCapsule-SEG數(shù)據(jù)集,亮藍色箱型圖為CVC-ClinicDB數(shù)據(jù)集。兩組DSC數(shù)據(jù)不滿足正態(tài)分布,因此使用非參數(shù)檢測的Wilcoxon符號秩和檢驗方法求得兩數(shù)據(jù)集對應(yīng)顯著性差異概率值分別為0.006 835 937 5和0.037 927 273 453 751 33,均小于設(shè)定水準0.05,可以認為本文模型與baseline具有顯著性差異。
本文針對結(jié)腸息肉分割中性能提升和邊緣分割模糊這一問題提出了一種改進的基于編—解碼結(jié)構(gòu)模型,創(chuàng)新性地利用上、下游兩個分割網(wǎng)絡(luò)分別負責(zé)生成掩碼注意力權(quán)重圖以及語義分割,通過反向傳播不斷更新上游可訓(xùn)練網(wǎng)絡(luò)生成的權(quán)重,在下游網(wǎng)絡(luò)的解碼步驟中使用生成的注意力圖對特征圖進行權(quán)重配置,并通過平均池化壓縮權(quán)重圖使其能夠適配不同分辨率的特征圖,同時融合了輕量化通道注意力模塊,將下游網(wǎng)絡(luò)跨越連接部分的權(quán)重圖分割為多個子空間,針對各個子空間分別施加通道注意力,再將子空間合并,最終實現(xiàn)多頻特征下的跨通道注意融合。然后進一步在CVC-ClinicDB和KvasirCapsule-SEG兩個數(shù)據(jù)集上進行獨立實驗,并將兩個數(shù)據(jù)集融合驗證了本文模型在跨設(shè)備數(shù)據(jù)上的魯棒性,實驗數(shù)據(jù)證明其性能優(yōu)于很多經(jīng)典醫(yī)學(xué)圖像分割網(wǎng)絡(luò)以及近期的SOTA網(wǎng)絡(luò)。因此本文模型的優(yōu)點就是相較于其他網(wǎng)絡(luò)可以更好地細分割息肉的邊緣部分并更能成功分割息肉中扁而小的部分,這些恰恰是經(jīng)驗不足的內(nèi)鏡醫(yī)師容易忽略的。
圖10 本文方法與baseline對比的箱型圖結(jié)果Fig.10 Box plot results comparison between ours and with baseline((a) DSC;(b) mIoU;(c) precision;(d) recall)
此外,該模型不需要任何的后處理,這也是本文方法的一大優(yōu)勢,然而仍然需要一系列臨床試驗才能證明模型在應(yīng)用上的有效性,希望這項工作能夠在未來的臨床應(yīng)用中為更多內(nèi)鏡醫(yī)師提供工作上的便利,為保障我國人民的身體健康做出貢獻。