• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Transformer網(wǎng)絡(luò)的COVID-19肺部CT圖像分割

      2023-10-24 13:58:18樊圣瀾柏正堯陸倩杰周雪
      關(guān)鍵詞:解碼器靈敏度注意力

      樊圣瀾,柏正堯,陸倩杰,周雪

      云南大學(xué)信息學(xué)院,昆明 650500

      0 引言

      新型冠狀病毒引起的急性感染性肺炎(Lu 等,2020)自2019 年12 月以來持續(xù)在世界各地傳播,對(duì)全世界人民的生命健康造成了嚴(yán)重威脅和損失。快速而準(zhǔn)確地診斷新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)患者,對(duì)切斷病毒的傳播路徑,實(shí)現(xiàn)患者的動(dòng)態(tài)清零,具有重要意義。

      目前,核酸檢測(cè)是診斷新冠肺炎的“金標(biāo)準(zhǔn)”,但容易受到樣本采集質(zhì)量的影響,也比較耗時(shí)。因此,常采用CT(computed tomography)、X 射線等影像學(xué)方法進(jìn)行輔助診斷。在臨床實(shí)踐中,基于深度學(xué)習(xí)的方法正在成為新冠肺炎圖像分割和識(shí)別的熱點(diǎn)。

      自Shelhamer 等人(2017)提出全卷積網(wǎng)絡(luò)(fully convolution networks,F(xiàn)CN)以來,語義分割技術(shù)也在醫(yī)學(xué)影像領(lǐng)域得到廣泛應(yīng)用。采用語義分割技術(shù)對(duì)病變進(jìn)行自動(dòng)分割,替代醫(yī)生的人工標(biāo)注,能夠節(jié)省大量的人力和時(shí)間。Ronneberger 等人(2015)提出了包含壓縮路徑和擴(kuò)展路徑的對(duì)稱U 形網(wǎng)絡(luò)UNet,并在兩個(gè)路徑之間增加跳躍連接進(jìn)行特征互補(bǔ),已成為醫(yī)學(xué)圖像分割領(lǐng)域中最常用的網(wǎng)絡(luò)之一。除此之外,也有大量的學(xué)者提出了用于COVID-19病變分割的語義分割網(wǎng)絡(luò)。Fan 等人(2020)在Inf-Net中提出了邊緣注意模塊和反向注意模塊,用于關(guān)注COVID-19 病變區(qū)域中的邊緣信息和小病變區(qū)域。Zhao 等人(2021)利用由兩個(gè)注意力模塊組成的雙重注意力策略細(xì)化特征圖,提出了一種基于雙注意策略和混合擴(kuò)張卷積的新型擴(kuò)張雙注意U-Net 網(wǎng)絡(luò)。Elharrouss 等人(2022)針對(duì)COVID-19 病變,提出了先分割可能被感染的肺部區(qū)域,然后再對(duì)這些區(qū)域的感染進(jìn)行細(xì)分的方法。陸倩杰等人(2022)針對(duì)COVID-19病變多尺度的特點(diǎn),提出了多尺度編碼和解碼的方式,提升網(wǎng)絡(luò)對(duì)各尺度病變的關(guān)注。

      基于自注意力的架構(gòu),Transformer 已成為自然語言處理(natural language processing,NLP)中的首選模型。受到NLP 成功的啟發(fā),許多方法將自注意力模塊(self-attention,SA)替代卷積層應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域。Self-attention 是Transformer 的關(guān)鍵組件,它可以對(duì)所有輸入標(biāo)記(tokens)之間的相關(guān)性進(jìn)行建模,從而使Transformer 能夠處理長(zhǎng)依賴關(guān)系。Dosovitskiy 等人(2021)提出了vision Transformer,通過將圖像拆分為塊(patch),類似于NLP 應(yīng)用中的tokens,并將這些圖像塊的線性嵌入序列作為Transformer 的輸入,以有監(jiān)督方式訓(xùn)練圖像分類模型,在大規(guī)模的數(shù)據(jù)集圖像上取得了當(dāng)時(shí)最先進(jìn)的分類精度。與vision Transformer 不同,Swin Transformer(Liu等,2021)使用了類似卷積神經(jīng)網(wǎng)絡(luò)中的層次化構(gòu)建方法,與ResNet(residual network)(He 等,2016)一樣,在提取特征的過程中也經(jīng)歷了4倍、8倍、16倍和32倍的下采樣,輸出4級(jí)不同尺度的特征圖,可作為語義分割、目標(biāo)檢測(cè)等領(lǐng)域的主干網(wǎng)絡(luò)。

      隨著Transformer 在計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,優(yōu)異的全局上下文建模能力,讓很多學(xué)者紛紛提出了基于Transformer 的語義分割網(wǎng)絡(luò),并成功應(yīng)用于醫(yī)學(xué)圖像領(lǐng)域?;赨-Net 的結(jié)構(gòu),TransUNet(Chen等,2021)將來自卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)特征映射的標(biāo)記化圖像塊編碼作為輸入序列,用于提取全局上下文信息,很好地解決了U-Net 在顯式建模遠(yuǎn)程依賴方面存在的局限。Swin-Unet(Cao 等,2021)利用Swin Transformer 中的窗口多頭自注意力模塊(window-multihead self attention,W-MSA)計(jì)算量少的特點(diǎn),提出了基于U-Net 結(jié)構(gòu)的純Transformer網(wǎng)絡(luò),在多器官和心臟分割任務(wù)中,取得了最優(yōu)的效果。

      COVID-19 的病變紋理、大小和位置變化較大,與正常組織間差異較小,這些都為分割模型的構(gòu)建帶來了較大的挑戰(zhàn)(陸倩杰 等,2022)。本文認(rèn)為,充分利用Transformer在全局上下文信息方面的強(qiáng)建模能力,設(shè)計(jì)能夠兼顧全局與局部信息的網(wǎng)絡(luò)結(jié)構(gòu),在保證具有很好的假陰性關(guān)注度的同時(shí),提升對(duì)假陽性的關(guān)注度,增強(qiáng)對(duì)細(xì)節(jié)信息的分割能力,構(gòu)建多尺度預(yù)測(cè),能很好地應(yīng)對(duì)COVID-19病變的分割。因此,本文提出了一種用于COVID-19 患者肺部CT 圖像分割的純Transformer 網(wǎng)絡(luò):COVID-TransNet。在沒有進(jìn)行任何數(shù)據(jù)增強(qiáng)的情況下,在COVID-19 CT segmentation 數(shù)據(jù)集上實(shí)現(xiàn)了0.789 的Dice 系數(shù)、0.807 的靈敏度、0.960 的特異度和0.055 的平均絕對(duì)誤差,達(dá)到了目前先進(jìn)的水平。

      1 方 法

      1.1 網(wǎng)絡(luò)的整體結(jié)構(gòu)

      針對(duì)現(xiàn)有語義分割方法在COVID-19 的病變分割方面存在低靈敏度、高特異度的問題,本文網(wǎng)絡(luò)整體結(jié)構(gòu)設(shè)計(jì)思路是:1)在較少參數(shù)量的前提下,充分利用Transformer 強(qiáng)大的全局上下文信息捕獲能力,提升網(wǎng)絡(luò)對(duì)假陰性的關(guān)注;2)在數(shù)據(jù)量不足的前提下,有效緩解過擬合問題;3)在保證具有高靈敏度的同時(shí),提升網(wǎng)絡(luò)對(duì)假陽性的關(guān)注,提升特異度。

      與傳統(tǒng)的基于CNN 的語義分割網(wǎng)絡(luò)相同,COVID-TransNet 也是基于編碼器—解碼器的結(jié)構(gòu)。如圖1 所示,特征提取部分以Swin Transformer 為主干,為了盡量減少計(jì)算參數(shù),總共只迭代了12 個(gè)Swin Transformer 模塊,圖像塊劃分層(patch partition)用于將輸入圖像按4 × 4 的大小進(jìn)行分塊操作,塊合并層(patch merging)用于進(jìn)行2 倍下采樣。提取第2、4、10、12 個(gè)Swin Transformer 模塊后的輸出,總共輸出4 個(gè)不同尺度的特征圖。為了緩解網(wǎng)絡(luò)的過擬合問題,提出了線性前饋模塊用于調(diào)整特征圖的通道維度。將主干輸出的4個(gè)特征圖的通道數(shù)均調(diào)整到96 維,以減少計(jì)算參數(shù)。軸向注意力模塊(axial attention)用于取代跳躍連接,提升網(wǎng)絡(luò)對(duì)全局信息的關(guān)注。上采樣部分提出了對(duì)局部信息進(jìn)行逐級(jí)細(xì)化的特征融合方式,并引入深度監(jiān)督,對(duì)解碼器部分輸出的每個(gè)分支都接一個(gè)Swin Transformer 模塊進(jìn)行解碼,通過多級(jí)預(yù)測(cè),提升對(duì)假陰性的關(guān)注。

      圖1 網(wǎng)絡(luò)的整體架構(gòu)Fig.1 The overall architecture of the network

      1.2 Swin Transformer

      Swin Transformer使用了類似于卷積神經(jīng)網(wǎng)絡(luò)中的層次化構(gòu)建方法,使得該網(wǎng)絡(luò)能夠很好地插入語義分割、目標(biāo)檢測(cè)等方法中;其次提出了窗口化的多頭自注意力方法來減少網(wǎng)絡(luò)的計(jì)算參數(shù)。

      1.2.1 窗口多頭自注意力(W-MSA)

      在標(biāo)準(zhǔn)的Transformer 模塊中,要對(duì)整個(gè)特征圖都進(jìn)行自注意力的計(jì)算,成本是非常大的。與標(biāo)準(zhǔn)的Transformer 模塊不同,Swin Transformer 中采用了W-MSA。如圖2 所示,首先將224 × 224 像素的RGB圖像按4 × 4 進(jìn)行分塊操作,劃分為56 × 56 個(gè)4 × 4的圖像塊;然后將圖像塊沿通道方向上進(jìn)行展平,展平后的大小為4 × 4 × 3=48,得到 [3 136,48]的二維矩陣;在實(shí)現(xiàn)過程中相當(dāng)于得到了一個(gè)尺寸為56 × 56、通道數(shù)為48 的特征圖。之后再以7 × 7窗口對(duì)該特征圖進(jìn)行劃分,得到64 個(gè)7 × 7 × 48 的特征圖,對(duì)應(yīng)64 個(gè) [49,48]的二維矩陣,然后送入MSA,在7 × 7 窗口內(nèi)進(jìn)行自注意力的計(jì)算。計(jì)算過程中,首先通過全連接層對(duì)輸入進(jìn)行線性映射,分別得到查詢矩陣Q、鍵矩陣K、值矩陣V,然后將Q、K、V按照Head 設(shè)置的個(gè)數(shù)進(jìn)行均分操作,代入式(1)中并行地計(jì)算每個(gè)Head 的自注意力矩陣Ai,最后將得到的{A1,A2,…,An}進(jìn)行拼接(Concat),得到最終的輸出A。

      圖2 W-MSA的計(jì)算過程Fig.2 Calculation process of W-MSA

      1.2.2 移位窗口多頭自注意力(SW-MSA)

      相比MSA,W-MSA 能夠減少大量的計(jì)算參數(shù)。但是只在每個(gè)窗口內(nèi)進(jìn)行自注意力計(jì)算,窗口與窗口之間無法進(jìn)行信息交互。因此,SW-MSA 中采用了移位窗口劃分方法。如圖3所示,先通過窗口a中的方法對(duì)A、B、C、D 四個(gè)區(qū)域進(jìn)行再次劃分,然后采用窗口b—窗口d 中的方法對(duì)窗口a 進(jìn)行窗口移動(dòng)。首先將A 區(qū)域和C 區(qū)域移到最下方,然后再將A 區(qū)域和B 區(qū)域移到最右側(cè),移動(dòng)完成之后就可以得到4個(gè)獨(dú)立的窗口,然后再進(jìn)行MSA 的計(jì)算,保證了與W-MSA同樣計(jì)算量的同時(shí),實(shí)現(xiàn)了信息交互。

      圖3 SW-MSA中窗口移動(dòng)過程Fig.3 Window movement process of SW-MSA

      1.3 軸向注意力模塊

      W-MSA 將自注意力的計(jì)算控制在固定大小的窗口內(nèi),通過增加SW-MSA,既減少了計(jì)算量,又兼顧了全局信息和局部信息。但在處理高分辨率圖像時(shí),Swin Transformer 模塊的計(jì)算參數(shù)依然是比較大的,因此本文的主干部分總共只迭代了12 個(gè)Swin Transformer 模塊。然而這又會(huì)導(dǎo)致缺少足夠的全局信息。Ho 等人(2019)提出了軸向注意力模塊,該注意力模塊只在水平軸與垂直軸兩個(gè)方向上進(jìn)行自注意力的計(jì)算,通過堆疊兩個(gè)方向的自注意力建立長(zhǎng)依賴關(guān)系,因此具有更少的計(jì)算。與Swin Transformer 模塊相比,軸向注意力模塊的計(jì)算參數(shù)更少,因此本文將軸向注意力模塊取代U-Net 中的跳躍連接,在僅增加少量計(jì)算參數(shù)的情況下,提升網(wǎng)絡(luò)對(duì)全局信息的捕獲能力,提高對(duì)假陰性的關(guān)注。圖4 所示為行軸向自注意力的計(jì)算過程,對(duì)于形狀為C×H×W的特征圖(其中C為特征通道數(shù)),首先分別進(jìn)行3次卷積操作,通過重塑(reshape)、轉(zhuǎn)置(permute)處理之后得到3 個(gè)查詢矩陣Q、鍵矩陣K、值矩陣V,在計(jì)算過程分別對(duì)應(yīng)二維矩陣[W,C/2]、[W,C/2]、[W,C],然后代入自注意力的計(jì)算公式進(jìn)行計(jì)算,最后再次進(jìn)行重塑操作后得到原特征圖的形狀,并添加一個(gè)殘差連接防止梯度消失。

      圖4 行軸向自注意力的計(jì)算過程Fig.4 Calculation process of axial self-attention of rows

      1.4 線性前饋模塊

      與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中采用卷積調(diào)整通道維度的方法不同,本文提出了線性前饋模塊進(jìn)行通道數(shù)的調(diào)整,如圖5 所示,該模塊主要由兩個(gè)全連接層組成,為了防止過擬合,每個(gè)全連接層之前都接一個(gè)LN(layer normalization)層進(jìn)行層歸一化,模塊的中間使用了一個(gè)殘差連接防止梯度消失。由于全連接層只在通道上進(jìn)行,計(jì)算量很少。實(shí)驗(yàn)部分將對(duì)該模塊的計(jì)算參數(shù),以及過擬合的抑制性能進(jìn)行分析。

      圖5 線性前饋模塊Fig.5 Linear feed forward module

      1.5 解碼器

      Transformer 能夠建立長(zhǎng)距離的空間依賴關(guān)系,具有比較大的感受野,但是由于W-MSA 自注意力的計(jì)算限制在7 × 7大小的窗口內(nèi),因此淺層特征的感受野是不夠的,包含局部信息的同時(shí),也具有大量的肺部區(qū)域等噪聲。底層特征既具有足夠的感受野,又包含豐富的語義信息,但是分辨率太低。如圖6所示,根據(jù)前景與前景相乘為前景、前景與背景相乘為背景的原理,能夠從淺層特征中過濾出與底層特征相同的區(qū)域,并且細(xì)化底層特征中的邊緣信息,抑制淺層特征中的噪聲。通過這樣的逐級(jí)細(xì)化方式,在不需要任何卷積的前提下,就能有效提升網(wǎng)絡(luò)對(duì)局部信息的探索。

      圖6 相乘的原理Fig.6 Principle of multiplication

      因此,本文在解碼器部分提出了如圖7 所示的特征融合方式進(jìn)行逐級(jí)上采樣。X0,X1,X2,X3分別表示主干與軸向注意力模塊部分輸出的4 個(gè)不同尺度的特征圖,F(xiàn)0,F(xiàn)1,F(xiàn)2,F(xiàn)3分別對(duì)應(yīng)每一層特征融合后得到的輸出。對(duì)于某一層融合后得到的特征圖Fi,可以表示為:Xi首先與前一層得到的特征圖Fi-1相乘,利用Xi中的局部信息對(duì)Fi-1中的邊緣信息進(jìn)行細(xì)化,然后再與Fi相加,進(jìn)行特征互補(bǔ);同時(shí),為了得到更多細(xì)化后的特征,Xi-1與Fi-2的細(xì)化特征Xi-1×UP(Fi-2)也進(jìn)行2 倍上采樣,與之前得到的輸出相加,最終融合后的特征可以表示為

      圖7 解碼器中的特征融合方式Fig.7 Feature fusion method in the decoder

      式中,F(xiàn)i表示第i層特征融合后輸出的特征圖,UP表示2倍上采樣。

      Wang 等人(2015)通過在深度神經(jīng)網(wǎng)絡(luò)中的某些中間層增加輔助分類器,作為網(wǎng)絡(luò)分支來對(duì)主干網(wǎng)絡(luò)進(jìn)行監(jiān)督,有效地解決了梯度消失和收斂速度過慢等問題。Lin 等人(2017)提出了特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN),通過多級(jí)預(yù)測(cè),證明了深度監(jiān)督對(duì)提升靈敏度是有用的。為了降低網(wǎng)絡(luò)的學(xué)習(xí)難度,提高收斂速度,提升網(wǎng)絡(luò)對(duì)假陰性的關(guān)注,本文引入了深度監(jiān)督進(jìn)行多級(jí)預(yù)測(cè)。如圖1所示,在解碼器中每一層的輸出后都接一個(gè)Swin Transformer 模塊進(jìn)行解碼,然后用線性前饋模塊降維,并上采樣到原圖大小與真實(shí)標(biāo)簽求損失。

      2 實(shí)驗(yàn)

      2.1 實(shí)驗(yàn)設(shè)計(jì)

      2.1.1 數(shù)據(jù)集

      本實(shí)驗(yàn)采用COVID-19 CT segmentation(Fan 等,2020)和COVID-19 infection segmentation dataset(Fan等,2020)兩個(gè)數(shù)據(jù)集。COVID-19 CT segmentation數(shù)據(jù)集來自意大利醫(yī)學(xué)和介入放射學(xué)會(huì),包括60 名新冠肺炎患者的98 幅軸位CT 圖像。COVID-19 infection segmentation dataset 數(shù)據(jù)集包含9 例新冠肺炎患者的638幅切片,其中353幅標(biāo)記為陽性。

      2.1.2 數(shù)據(jù)預(yù)處理

      為了便于比較,以COVID-19 CT segmentation 數(shù)據(jù)集為主,按照Inf-Net 網(wǎng)絡(luò)中的劃分方法,將數(shù)據(jù)集劃分為兩部分,其中,訓(xùn)練集50 幅,測(cè)試集48 幅。由于訓(xùn)練數(shù)據(jù)比較少,為了提高網(wǎng)絡(luò)的魯棒性,降低過擬合,實(shí)驗(yàn)將數(shù)據(jù)縮放為512 × 512 像素,并進(jìn)行歸一化處理,引入多尺度策略(Wu 等,2019),按照{0.75∶1∶1.25}的比例重新采樣訓(xùn)練圖像。而COVID-19 infection segmentation dataset 數(shù)據(jù)集用于泛化性能分析。

      2.1.3 評(píng)估指標(biāo)

      為了評(píng)估該模型的性能,本實(shí)驗(yàn)使用了4 個(gè)與Inf-Net(Fan等,2020)中相同的指標(biāo):Dice系數(shù)、靈敏度(sensitivity,SE)、特異度(specificity,SP)、平均絕對(duì)誤差(mean absolute error,MAE)。其中Dice 系數(shù)用于評(píng)估預(yù)測(cè)結(jié)果與真實(shí)結(jié)果的重疊率,靈敏度用于衡量正確識(shí)別真陽性樣本的比率,特異度用于衡量正確識(shí)別真陰性樣本的比率,平均絕對(duì)誤差用于評(píng)估預(yù)測(cè)圖和分割標(biāo)簽之間的誤差。

      2.1.4 損失函數(shù)

      本文將分割損失函數(shù)l定義為加權(quán)交并比(intersection-over-union,IoU)損失lIoU和加權(quán)二進(jìn)制交叉熵(binary cross entropy,BCE)損失lBCE之和。具體為

      式中,α 和β 分別為IoU 損失和二進(jìn)制交叉熵?fù)p失的加權(quán)系數(shù),這里均取1。

      由于采用了多尺度監(jiān)督,解碼器每一層的輸出都引入伴隨目標(biāo)函數(shù),因此最終目標(biāo)函數(shù)可表示為

      式中,G 為真實(shí)標(biāo)簽,P 為預(yù)測(cè)值,l(G,P)為分割標(biāo)簽與解碼器輸出的分割損失為分割標(biāo)簽與解碼器每一層輸出的分割損失。

      2.2 實(shí)驗(yàn)細(xì)節(jié)及結(jié)果

      本文網(wǎng)絡(luò)基于Pytorch 實(shí)現(xiàn),并由RTX3060 GPU加速。使用Adama 優(yōu)化器進(jìn)行參數(shù)優(yōu)化,學(xué)習(xí)率設(shè)定為10-4,batch size 設(shè)置為4。主干網(wǎng)絡(luò)采用Swin-Transformer 在ImageNet-1K 上的預(yù)訓(xùn)練權(quán)重進(jìn)行初始化??偣灿?xùn)練30 個(gè)epoch,大約需要12 min。在48 幅測(cè)試集上的評(píng)估結(jié)果分別為Dice 系數(shù)0.789、靈敏度0.807、特異度0.960和平均絕對(duì)誤差0.051。

      2.2.1 定量結(jié)果分析

      如表1 所示,本文與目前在COVID-19 CT segmentation 數(shù)據(jù)集上的主流方法進(jìn)行了對(duì)比。其中Inf-Net 提出了邊緣注意力模塊(edge attention,EA)和反向注意力模塊(reverse attention,RA),取得了比較好的分割結(jié)果。MED-Net(multiscale encoding and decoding network)通過多尺度編碼以及多尺度解碼的方式,很好地提升了網(wǎng)絡(luò)對(duì)假陰性的關(guān)注。Semi-Inf-Net 提出了半監(jiān)督的方法解決數(shù)據(jù)量稀缺的問題。PVTA-Net(pyramid vision Transformer and axial attention network)(周雪 等,2023)首次將Transformer應(yīng)用于COVID-19 CT segmentation 數(shù)據(jù)集的分割。Elharrouss 等人(2022)通過級(jí)聯(lián)的方式,先分割可能被感染的區(qū)域,然后再分割感染區(qū)域,Dice系數(shù)和特異度在該數(shù)據(jù)集上取得了目前最好的效果。在分割精度比較靠前的網(wǎng)絡(luò)中,除了MED-Net 和PVTA-Net通過自身的網(wǎng)絡(luò)優(yōu)勢(shì)取得了較高的分割精度外,其他方法都不可避免地采用了比較復(fù)雜的方法進(jìn)行數(shù)據(jù)增強(qiáng)。Semi-Inf-Net 利用了大量未標(biāo)記的CT 圖像生成偽標(biāo)簽,有效地?cái)U(kuò)充訓(xùn)練數(shù)據(jù)集,但是生成偽標(biāo)簽的過程非常復(fù)雜,且耗時(shí)。Elharrouss 等人(2022)通過旋轉(zhuǎn)、縮放的方式將數(shù)據(jù)擴(kuò)增到2 000 幅,并且提前分割可能被感染的區(qū)域,也是非常耗時(shí)。COVID-TransNet 通過充分利用Transformer 的優(yōu)勢(shì),在沒有進(jìn)行任何數(shù)據(jù)增強(qiáng)的情況下,Dice 系數(shù)和靈敏度分別達(dá)到了0.789 和0.807,較Semi-Inf-Net 分別提升了5%和8.2%,平均絕對(duì)誤差(MAE)下降了0.9%。與Elharrouss 等人(2022)取得的目前最先進(jìn)的結(jié)果對(duì)比,Dice 系數(shù)和靈敏度分別提升了0.3%、9.6%,平均絕對(duì)誤差(MAE)下降了0.7%,雖然特異度下降了3.3%,但是對(duì)于新冠肺炎病變的分割來說,靈敏度是更重的指標(biāo)。除了特異度以外,均達(dá)到了目前最先進(jìn)的水平。

      表1 不同模型在數(shù)據(jù)集COVID-19 CT segmentation上的定性結(jié)果Table 1 Qualitative results of different models on the COVID-19 CT segmentation

      2.2.2 定性結(jié)果分析

      為了進(jìn)一步驗(yàn)證COVID-TransNet 的分割性能,實(shí)驗(yàn)結(jié)果分別與U-Net、U-Net++(Zhou 等,2018)、Inf-Net、Semi-Inf-Net 的定性結(jié)果做了對(duì)比。從圖8可以看出,COVID-TransNet 表現(xiàn)出最接近真實(shí)標(biāo)簽的性能,雖然沒有采用類似Transformer 與CNN 結(jié)合的方法去增強(qiáng)局部信息,但作為純Transformer 的結(jié)構(gòu),依然分割出比較完整的細(xì)節(jié)信息;整體結(jié)構(gòu)的完整性也證明了Transformer 在長(zhǎng)距離依賴方面的優(yōu)勢(shì)。

      圖8 不同模型的定性結(jié)果Fig.8 Qualitative results of different models((a)CT slices;(b)U-Net;(c)U-Net++;(d)Inf-Net;(e)Semi-Inf-Net;(f)COVID-TransNet;(g)labels)

      2.2.3 消融實(shí)驗(yàn)

      為了驗(yàn)證解碼器中多級(jí)預(yù)測(cè)、軸向注意力模塊、Swin Transformer模塊的有效性,本文做了消融實(shí)驗(yàn)。如表2 所示,通過引入多級(jí)預(yù)測(cè),Dice 系數(shù)和靈敏度分別提升了0.1%、2.8%。靈敏度有較大提升,驗(yàn)證了前文中提到的、深度監(jiān)督方法能夠提升網(wǎng)絡(luò)對(duì)假陰性的關(guān)注。在多級(jí)預(yù)測(cè)的前提下,增加Swin Transformer 模塊為每個(gè)分支解碼,Dice 系數(shù)和特異度分別提升了0.4%、0.6%。3 個(gè)模塊同時(shí)使用時(shí),Dice 系數(shù)和靈敏度分別提升了0.8%、2.5%。而對(duì)比整個(gè)網(wǎng)絡(luò),靈敏度在沒有使用軸向注意力模塊時(shí)下降了1.6%,因此也證明了軸向注意力模塊能夠提升網(wǎng)絡(luò)對(duì)全局信息的關(guān)注。

      表2 消融實(shí)驗(yàn)結(jié)果Table 2 Ablation experimental results

      為了驗(yàn)證解碼器部分特征融合方式的有效性,實(shí)驗(yàn)中分別與相加、相乘、拼接的特征融合進(jìn)行了對(duì)比。結(jié)果如表3 所示,雖然直接相加的方式靈敏度比較高,但同時(shí)也出現(xiàn)了更多的假陽性,局部信息沒有得到很好的關(guān)注,導(dǎo)致特異度較低。拼接和相乘出現(xiàn)了低靈敏度、高特異度的情況,對(duì)于相乘而言,由于高層特征具有更多的細(xì)節(jié)信息,因此相乘可以從底層特征中過濾出更多的局部信息,但因此也導(dǎo)致丟失了一部分高級(jí)語義信息,出現(xiàn)了更多的假陰性,導(dǎo)致靈敏度比較低。本文首先通過相乘的方法細(xì)化局部特征,然后相加進(jìn)行特征互補(bǔ),最后再加上前一級(jí)細(xì)化后的特征;通過這樣的方式兼顧全局信息與局部信息,靈敏度和特異度實(shí)現(xiàn)了比較好的平衡,最終提升了分割精度。

      表3 不同特征融合方式的對(duì)比Table 3 Comparison of different feature fusion methods

      2.2.4 線性前饋模塊的參數(shù)及過擬合分析

      雖然Swin Transformer 中提出了W-MSA,大大減少了計(jì)算參數(shù),但是相比CNN,網(wǎng)絡(luò)參數(shù)依然是比較龐大的。由于僅采用50 幅圖像進(jìn)行訓(xùn)練,模型的過擬合問題是難免的。本文提出了線性前饋模塊來替換1 × 1卷積進(jìn)行通道維度的調(diào)整,在提升分割精度的同時(shí),有效地緩解了訓(xùn)練過程中的過擬合問題。表4 為3 種不同通道調(diào)整方式下的模型參數(shù)及分割精度的對(duì)比。線性前饋模塊相比1 × 1的卷積,整體模型參數(shù)提升了0.8 M,但是比3 × 3 的卷積下降了0.21 M。因此相對(duì)來說,該模塊的參數(shù)量并不高,并且分割精度較采用1 × 1卷積提升了1.1個(gè)百分點(diǎn)。

      表4 不同特征通道調(diào)整方式的對(duì)比Table 4 Comparison of different feature channel adjustment methods

      不同特征通道調(diào)整方式下訓(xùn)練及驗(yàn)證損失的曲線如圖9所示。從圖9可以看出,相比用卷積進(jìn)行通道維度調(diào)整,線性前饋模塊有效緩解了過擬合。1 × 1和3 × 3的卷積都出現(xiàn)了嚴(yán)重的過擬合問題,并且驗(yàn)證損失的波動(dòng)幅度很大。而采用線性前饋模塊時(shí),驗(yàn)證損失的曲線并沒有出現(xiàn)較大幅度的波動(dòng);在到達(dá)最低點(diǎn)后,隨著epoch 的增大,損失上漲的趨勢(shì)得到了較大的緩解。因此線性前饋模塊在緩解過擬合問題上是有效的。

      圖9 不同特征通道調(diào)整方式下訓(xùn)練及驗(yàn)證損失的曲線Fig.9 Curves of training and validation losses with different feature channel adjustment methods((a)linear feed forward module;(b)convolution(1 × 1);(c)convolution(3 × 3))

      2.2.5 與主流Transformer網(wǎng)絡(luò)的對(duì)比

      為了驗(yàn)證COVID-TransNet 在Transformer 領(lǐng)域的分割能力,本文選取了Swin-Unet、MIT-Unet(Wang等,2022)和Med-Net(Valanarasu 等,2021)3 個(gè)主流的基于Transformer 的語義分割網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對(duì)比。為了公平比較,將圖像縮放到224 × 224 像素,取消{0.75∶1∶1.25}比例的重采樣策略。結(jié)果如表5所示,與另外3 個(gè)基于Transformer 的語義分割網(wǎng)絡(luò)相比,COVID-TransNet 在Dice 系數(shù)、靈敏度和特異度3 個(gè)方面都實(shí)現(xiàn)了比較大的提升,同時(shí)也證明了本文將Transformer 應(yīng)用于新冠肺炎CT 圖像分割的方法是成功的。

      表5 主流Transformer網(wǎng)絡(luò)在該數(shù)據(jù)集上的指標(biāo)對(duì)比Table 5 Comparison of metrics of mainstream Transformer networks on this dataset

      2.2.6 泛化性能分析

      為了驗(yàn)證網(wǎng)絡(luò)的泛化性能,本文與Semi-Inf-Net一樣,選取COVID-19 infection segmentation dataset數(shù)據(jù)集進(jìn)行泛化能力的測(cè)試。該數(shù)據(jù)集包含9 例新冠肺炎患者的638 幅切片,其中285 幅切片未感染。由于本實(shí)驗(yàn)只采用了COVID-19 CT segmentation 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),網(wǎng)絡(luò)沒有對(duì)未感染的切片進(jìn)行學(xué)習(xí),因此泛化能力的測(cè)試僅做了兩組實(shí)驗(yàn)。

      第1 組直接對(duì)COVID-19 infection segmentation dataset 數(shù)據(jù)集中感染的353 幅切片進(jìn)行測(cè)試,結(jié)果如表6 所示,實(shí)現(xiàn)了0.703 的Dice 系數(shù)、0.667 的靈敏度、0.982 的特異度,即使在未訓(xùn)練過的數(shù)據(jù)集上也實(shí)現(xiàn)了比較高的分割精度。

      表6 COVID-19 infection segmentation dataset數(shù)據(jù)集的測(cè)試結(jié)果(Ⅰ)Table 6 Test results for the COVID-19 infection segmentation dataset(Ⅰ)

      為了能夠與其他網(wǎng)絡(luò)進(jìn)行有效地對(duì)比,第2組采用Semi-Inf-Net中的偽標(biāo)簽進(jìn)行訓(xùn)練,學(xué)習(xí)未感染切片的特征,然后對(duì)COVID-19 infection segmentation dataset數(shù)據(jù)集中的638幅切片都進(jìn)行測(cè)試,結(jié)果如表7所示。Dice系數(shù)、靈敏度和特異度分別較Semi-Inf-Net提升了10.7%、0.1%和1.3%。結(jié)合表6和表7可以證明,COVID-TransNet的泛化性能是可靠的。

      表7 COVID-19 infection segmentation dataset數(shù)據(jù)集的測(cè)試結(jié)果(Ⅱ)Table 7 Test results for the COVID-19 infection segmentation dataset(Ⅱ)

      3 結(jié)論

      當(dāng)前新型冠狀病毒肺炎(COVID-19)疫情在全球的蔓延依然很嚴(yán)重,利用深度學(xué)習(xí)的方法對(duì)COVID-19 患者肺部CT 圖像中的病變區(qū)域進(jìn)行自動(dòng)分割,對(duì)幫助醫(yī)生快速準(zhǔn)確地診斷COVID-19患者具有重要意義。隨著Transformer在計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,它在上下文信息方面的強(qiáng)建模能力能夠很好地應(yīng)對(duì)醫(yī)學(xué)圖像中病變的多尺度問題,因此本文提出了一種用于COVID-19 患者胸部CT 圖像分割的Transformer 網(wǎng)絡(luò)。在編碼器部分以Swin Transformer為主干,提取豐富的上下文信息;在解碼器部分提出了先增強(qiáng)全局信息,再在上采樣的過程中逐級(jí)細(xì)化局部信息的方法,很好地在靈敏度和特異度之間取得了平衡,在保持高特異度的同時(shí),有效提升了靈敏度。在沒有進(jìn)行任何數(shù)據(jù)增強(qiáng)的情況下,Dice 系數(shù)和靈敏度在COVID-19 CT segmentation 數(shù)據(jù)集上均取得了目前最好的結(jié)果。為了解決小數(shù)據(jù)集存在的過擬合問題,提出了線性前饋模塊,通過對(duì)驗(yàn)證損失曲線的分析及泛化能力的測(cè)試,證明了它能夠有效地抑制過擬合問題,并且在泛化能力的測(cè)試中,Dice系數(shù)較Semi-Inf-Net提升了10.7%。

      雖然COVID-TransNet 取得了比較好的分割結(jié)果,但還存在以下問題:1)由于受限于硬件設(shè)備,本文只選取了Swin Transformer 中最小的主干進(jìn)行分析,Swin Transformer的優(yōu)勢(shì)沒有得到充分發(fā)揮;2)沒有在數(shù)據(jù)集的預(yù)處理方面進(jìn)行研究,網(wǎng)絡(luò)的潛力沒有充分體現(xiàn);3)在多級(jí)預(yù)測(cè)中直接將Swin Transformer 模塊用于解碼最后的輸出,增加了較多的計(jì)算參數(shù)。在未來的研究中,將考慮如何對(duì)數(shù)據(jù)進(jìn)行有效的擴(kuò)充和增強(qiáng),以充分挖掘本文網(wǎng)絡(luò)的潛力;其次在多級(jí)預(yù)測(cè)部分探索輕量級(jí)的方法。

      猜你喜歡
      解碼器靈敏度注意力
      讓注意力“飛”回來
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      導(dǎo)磁環(huán)對(duì)LVDT線性度和靈敏度的影響
      地下水非穩(wěn)定流的靈敏度分析
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      穿甲爆破彈引信對(duì)薄弱目標(biāo)的靈敏度分析
      天门市| 上高县| 赤水市| 阳信县| 英吉沙县| 盖州市| 股票| 沅江市| 新和县| 文成县| 陆川县| 且末县| 泰和县| 巫山县| 酉阳| 达拉特旗| 都昌县| 开远市| 延边| 苏尼特右旗| 北流市| 兰州市| 定日县| 青海省| 家居| 仪征市| 南阳市| 梁山县| 宁化县| 含山县| 宁津县| 界首市| 吴堡县| 旺苍县| 荣成市| 虎林市| 五寨县| 奇台县| 丹东市| 嘉义市| 百色市|