• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      LRSAR-Net語(yǔ)義分割模型用于新冠肺炎CT圖片輔助診斷

      2022-02-24 08:58:50張?zhí)壹t郭徐徐
      電子與信息學(xué)報(bào) 2022年1期
      關(guān)鍵詞:張量復(fù)雜度注意力

      張?zhí)壹t 郭徐徐 張 穎

      ①(北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院 北京 100083)②(材料領(lǐng)域知識(shí)工程北京市重點(diǎn)實(shí)驗(yàn)室 北京 100083)

      ③(華北理工大學(xué)輕工學(xué)院 唐山 064000)

      1 引言

      自2019年末新冠(Covid-19)疫情爆發(fā)以來,全球已經(jīng)有1億9千萬人感染了新冠病毒。Covid-19病毒傳播能力強(qiáng),可通過人與人之間的直接接觸、接觸帶有病毒的物體和氣溶膠的方式進(jìn)行傳播。通過對(duì)人體的肺部進(jìn)行入侵,造成肺部感染,主要癥狀為咳嗽、感冒和發(fā)燒等。直接對(duì)患者的情況進(jìn)行分析很難判斷是否感染新冠病毒[1],一般采用X射線對(duì)患者的肺部進(jìn)行計(jì)算機(jī)斷層掃描(Computed Tomography, CT),通過CT圖片可以進(jìn)行判斷,但是這需要經(jīng)過專門訓(xùn)練的醫(yī)生才可以。近年來,隨著人工智能、深度學(xué)習(xí)的快速發(fā)展,使用計(jì)算機(jī)輔助診療可以顯著提高診斷效率。常用的是分類和語(yǔ)義分割,其中語(yǔ)義分割不但可以診斷患病類型,還可以指出病患部位,是智能診斷的有效輔助手段。

      隨著深度學(xué)習(xí)的快速發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的圖像分割方法在醫(yī)學(xué)領(lǐng)域已經(jīng)展開了廣泛而深入的研究[2—4]。近年來,注意力機(jī)制的提出進(jìn)一步提高了神經(jīng)網(wǎng)絡(luò)的識(shí)別精度和準(zhǔn)確率。注意力機(jī)制最早由Vaswani等人[5]為解決機(jī)器翻譯的問題所提出。注意力機(jī)制可以對(duì)學(xué)習(xí)到的權(quán)重進(jìn)行調(diào)整,使重要的特征權(quán)重更高。Wang等人[6]首次將注意力機(jī)制引入到計(jì)算機(jī)視覺當(dāng)中,通過計(jì)算像素之間的相關(guān)性來對(duì)特征圖的權(quán)重進(jìn)行調(diào)整。隨后,注意力機(jī)制在醫(yī)療圖像領(lǐng)域被廣泛應(yīng)用。Li等人[7]設(shè)計(jì)了一種基于注意力的嵌套U-Net模型來對(duì)肝臟腫瘤圖片進(jìn)行分割。該網(wǎng)絡(luò)提出了注意力門(attention gate)的模塊,注意力模塊可以對(duì)編碼器和上采樣的信息進(jìn)行聚合,同時(shí)對(duì)權(quán)重調(diào)整。Fan等人[8]提出了一種用于分割新型冠狀肺炎CT圖像的網(wǎng)絡(luò)Inf-Net。該網(wǎng)絡(luò)利用一組隱式的反向注意力模塊和顯式的邊緣注意力指導(dǎo)來建立區(qū)域和邊界之間的關(guān)系。Liu等人[9]設(shè)計(jì)了一種基于注意力條件隨機(jī)場(chǎng)的CANet網(wǎng)絡(luò)來對(duì)腦膠質(zhì)瘤進(jìn)行分割,注意力可以調(diào)節(jié)不同特征之間流動(dòng)的信息量。Dou等人[10]設(shè)計(jì)了一種帶有深度注意力模塊卷積核的分割網(wǎng)絡(luò)來對(duì)胎兒皮質(zhì)板進(jìn)行分割。Jiang等人[11]提出了一種基于Ray-Shooting和長(zhǎng)短期記憶網(wǎng)絡(luò)的神經(jīng)元結(jié)構(gòu)分割模型。該模型使用包含通道注意力模塊的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)圖像進(jìn)行分割,通道注意力可以強(qiáng)調(diào)重要的特征信息。Zhang等人[12]提出了一種用于檢測(cè)視網(wǎng)膜連接點(diǎn)的O型注意力網(wǎng)絡(luò)。該網(wǎng)絡(luò)設(shè)計(jì)了具有注意力模塊的局部增強(qiáng)分支來增強(qiáng)視網(wǎng)膜中的低對(duì)比度的連接點(diǎn),并利用注意力機(jī)制來幫助檢測(cè)分支進(jìn)行識(shí)別。Chen等人[13]為了解決UNet中卷積步驟的采樣局部性,使用Transformer自注意力機(jī)制[5]對(duì)全局信息進(jìn)行編碼并且與經(jīng)過卷積得到的特征相結(jié)合實(shí)現(xiàn)更精確的定位。注意力機(jī)制通過對(duì)全局特征點(diǎn)的相關(guān)性信息進(jìn)行聚合,可以獲取長(zhǎng)范圍的特征信息同時(shí)對(duì)特征點(diǎn)的權(quán)重進(jìn)行調(diào)整。雖然注意力機(jī)制的提出顯著提高了模型的識(shí)別準(zhǔn)確率,但是注意力機(jī)制存在時(shí)間復(fù)雜度高、訓(xùn)練速度慢和權(quán)重參數(shù)多的問題。對(duì)于大小為H×W的特征圖,注意力模塊的時(shí)間復(fù)雜度為O(H×W×H×W)[6]。語(yǔ)義分割網(wǎng)絡(luò)為了保證豐富的語(yǔ)義信息通常使用大尺寸的特征圖,從而造成模型的時(shí)間復(fù)雜度過高。

      為了解決注意力機(jī)制所帶來的時(shí)間復(fù)雜度等問題,張量分解可以很好地降低注意力機(jī)制的時(shí)間復(fù)雜度。張量分解廣泛應(yīng)用于計(jì)算機(jī)視覺加速中。依據(jù)張量分解理論[14],高秩張量可以分解為低秩張量的線性組合。Lebedev[15]等人提出了一種基于CP張量分解的大型卷積網(wǎng)絡(luò)中的卷積層加速方法。該方法首先將4維卷積核的高秩張量分解為多個(gè)秩一張量,然后使用秩一卷積核來加速網(wǎng)絡(luò)訓(xùn)練。Wu等人[16]將全連接層的權(quán)重矩陣分解為多個(gè)子張量的Kronecker的乘積來近似全連接層,同時(shí)減少神經(jīng)網(wǎng)絡(luò)中的參數(shù)。Sun等人[17]設(shè)計(jì)了一種用于網(wǎng)絡(luò)優(yōu)化的張量分解方法。該方法通過利用網(wǎng)絡(luò)各層之間的權(quán)重張量包含相同或獨(dú)立分量的特性,對(duì)共享的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行耦合張量的序列分解,實(shí)現(xiàn)了模型的壓縮。Chen等人[18]提出了一種3維上下文特征表示語(yǔ)義分割模型Reco Net。該模型通過低秩子張量特征的線性組合來實(shí)現(xiàn)高秩張量的近似,相較于原特征圖顯著降低了模型的計(jì)算量。以上方法通常用多個(gè)低秩張量的來替換一個(gè)高秩張量。張量分解可以將計(jì)算復(fù)雜度較高的原始張量分解為一組低秩子張量。通過對(duì)低秩子張量計(jì)算,可以降低網(wǎng)絡(luò)模型的參數(shù)量同時(shí)進(jìn)行網(wǎng)絡(luò)加速。雖然張量分解的方法可以提高模型的壓縮率,但是在模型壓縮率很高的情況下模型的識(shí)別效率會(huì)降低。為了緩解張量分解導(dǎo)致識(shí)別效率低的問題,本文在網(wǎng)絡(luò)中使用共享的結(jié)構(gòu)來提高模型的性能。

      在醫(yī)療圖像領(lǐng)域,張量分解通常用于高光譜成像和圖像去噪。Zhang等人[19]提出了一種基于CP張量分解字典學(xué)習(xí)方法進(jìn)行光譜CT圖像重建。Wu等人[20]為解決光譜CT成像衰減的問題,提出了基于KBR(Kronecker Basis Representation)張量分解的方法應(yīng)用于光譜CT重構(gòu)模型。Hatvaniy等人[21]提出了一種基于規(guī)范多元分解的單圖像超分辨率去噪方法來對(duì)牙科CT圖像進(jìn)行去噪。張量分解的方法可以解決圖像重構(gòu)所帶來的模型復(fù)雜度過高的問題,但在醫(yī)療圖像分割領(lǐng)域應(yīng)用較少。本文通過使用張量分解的方法來降低自注意力模塊的時(shí)間復(fù)雜度并對(duì)新冠肺炎圖片進(jìn)行分割。

      為了降低自注意力模塊的時(shí)間復(fù)雜度并且計(jì)算各個(gè)特征點(diǎn)之間的相關(guān)性,本文作者提出了一種基于低秩張量自注意力重構(gòu)的語(yǔ)義分割網(wǎng)絡(luò)LRSARNet(Low Rank Self-Attention Reconstruction Net),此網(wǎng)絡(luò)使用的是編碼解碼結(jié)構(gòu),實(shí)現(xiàn)了不同尺度特征信息的融合。為了獲取更豐富的語(yǔ)義信息和降低自注意力模型的復(fù)雜度,本文設(shè)計(jì)了低秩張量自注意力重構(gòu)模塊,將高階張量分解為低秩張量,使用低秩張量來構(gòu)建自注意力特征圖,然后將多個(gè)低秩自注意力映射圖聚合生成高秩自注意力特征圖。與經(jīng)典的Non-Local[6]自注意力模塊相比,低秩自注意力重構(gòu)模塊計(jì)算量更小,網(wǎng)絡(luò)的預(yù)測(cè)速度更快。同時(shí),實(shí)驗(yàn)與相接近的Reco-Net網(wǎng)絡(luò)[18]進(jìn)行了比較,體現(xiàn)自注意力機(jī)制的重要性。

      2 模型結(jié)構(gòu)

      2.1 LRSAR-Net整體結(jié)構(gòu)

      本文所提出的低秩張量自注意力重構(gòu)語(yǔ)義分割模型LRSAR-Net如圖1所示。網(wǎng)絡(luò)主要包括3個(gè)部分:編碼器、解碼器和低秩自注意力重構(gòu)模塊。編碼器用來獲取圖像的特征信息。編碼器可以提出5個(gè)不同層次的多尺度特征信息,低層的特征主要用來獲取圖像的細(xì)節(jié)特征和位置信息,高層的特征為抽象的語(yǔ)義特征信息。主干網(wǎng)絡(luò)以帶有殘差結(jié)構(gòu)的ResNet50[22]為例,并移除了全連接層進(jìn)行圖像信息編碼。殘差結(jié)構(gòu)可以對(duì)網(wǎng)絡(luò)的深度進(jìn)行延伸,獲取更加豐富的語(yǔ)義信息。編碼器主要包括的下采樣結(jié)構(gòu)塊為卷積層、最大池化層和ReLU激活函數(shù)。

      圖1 LRSAR-Net網(wǎng)絡(luò)結(jié)構(gòu)圖

      注意力模塊用來獲取更加豐富的上下文信息,雖然卷積結(jié)構(gòu)可以通過疊加更多的層數(shù)來擴(kuò)大感受野,并提取豐富的信息,但是更深的卷積層結(jié)構(gòu)并不能很好地對(duì)全局信息進(jìn)行獲取。注意力模塊則可以對(duì)全局的信息進(jìn)行調(diào)整,圖片中的每個(gè)點(diǎn)都會(huì)與其他的點(diǎn)計(jì)算相關(guān)性。通過注意力特征圖得到的相關(guān)性信息對(duì)圖片中的像素權(quán)重進(jìn)行調(diào)整,屬于相同類別的點(diǎn)的權(quán)重會(huì)得到聚合,不同類別的像素點(diǎn)信息會(huì)得到抑制,來突出圖片中重要的部分。注意力機(jī)制可以獲得豐富的語(yǔ)義信息,但是計(jì)算量會(huì)比較大。本文所提出的低秩張量自注意力重構(gòu)模塊LRSAR Block可以很好地解決計(jì)算量復(fù)雜的問題。

      解碼器用來聚集不同層次的特征信息。解碼器可以將編碼器提取到的特征與上采樣特征圖進(jìn)行拼接,將不同層次的特征信息進(jìn)行融合。上采樣結(jié)構(gòu)如圖2(a)所示,特征圖X1表示編碼器特征,特征圖X2表示解碼器特征。特征圖X2經(jīng)過雙線性插值上采樣之后,與特征圖X1從通道維度進(jìn)行拼接。經(jīng)過拼接的特征圖輸入到通道注意力模塊(Squeeze Excitation Block, SE Block)[23],最后得到特征圖Y。通道注意力模塊的詳細(xì)結(jié)構(gòu)如圖2(b)所示,特征圖X經(jīng)過全局平均池化GAP提取到通道權(quán)重信息Z,Z經(jīng)過兩個(gè)全連接層FC,將獲取到的通道信息與特征圖X相乘進(jìn)行通道權(quán)重調(diào)整得到特征圖Y。

      圖2 解碼層的上采樣結(jié)構(gòu)和通道注意力

      2.2 低秩張量自注意力模塊

      低秩張量自注意力模塊包括3個(gè)部分:低秩張量生成子模塊、低秩自注意力子模塊和高秩張量重構(gòu)子模塊。

      2.2.1 低秩張量生成子模塊

      低秩張量生成子模塊如圖3所示,該子模塊可以沿寬、高和通道維度進(jìn)行高秩張量分解。依據(jù)CP張量分解理論[14],高秩張量可以分解為多個(gè)秩一張量的線性組合。秩一張量可以由3個(gè)1維向量的外積組成。根據(jù)秩一張量的定義,作者將高秩張量沿寬、高和通道維度進(jìn)行分解生成多個(gè)1維向量,這些1維向量輸入到低秩張量自注意力子模塊中可以生成秩一張量。編碼層提取到的高秩張量輸入到3個(gè)低秩張量生成模塊中,提取低秩張量特征信息。高秩張量多次輸入到低秩張量生成模塊中,生成多個(gè)不同的低秩張量特征。即高秩張量特征X輸入低秩張量生成子模塊s次會(huì)產(chǎn)生s個(gè)不同的低秩張量特征,沿著相同維度分解的低秩張量有相同的網(wǎng)絡(luò)結(jié)構(gòu),但是參數(shù)信息不同。如特征圖X沿高、寬和通道3個(gè)維度多次輸入到低秩張量生成子模塊生成不同的特征向量(Q1,K1,V1), (Q2,K2,V2), …(Qi,Ki,Vi), …, (Qs,Ks,Vs)。Qi,Ki和Vi分別代表沿高、寬和通道維度分解產(chǎn)生的1維向量,s代表沿某個(gè)維度生成的1維向量的個(gè)數(shù),式(1),式(2)和式(3)分別表示Qi,Ki和Vi。這些低秩特征向量經(jīng)過低秩自注意力模塊生成不同的低秩自注意力子特征圖Y1,Y2, …,Yi, …,Ys。每個(gè)低秩張量生成子模塊由全局平均池化(Global Average Pooling,GAP)、全連接層(Fully Connected layer, FC)和Sigmoid激活函數(shù)組成,并生成1維的特征向量,用于自注意力特征圖的構(gòu)建。全局平均池化原理為先對(duì)高秩張量沿某個(gè)維度進(jìn)行切片,對(duì)于每個(gè)切片矩陣進(jìn)行全局平均池化。通過全局平均池化,每個(gè)向量中的每個(gè)元素都聚合了相應(yīng)的切片矩陣信息。全連接層可以實(shí)現(xiàn)向量中任意一個(gè)元素對(duì)所有元素信息的聚合。Sigmoid激活函數(shù)可以增強(qiáng)網(wǎng)絡(luò)的非線性擬合能力,并且將特征信息映射到0至1的范圍內(nèi),突出特征向量中重要的特征信息。文獻(xiàn)[20]低秩張量生成模塊使用的是卷積結(jié)構(gòu),本文將卷積替換成了FC層。FC層中的每個(gè)特征點(diǎn)都會(huì)與其他的特征信息進(jìn)行聚合,而單層卷積結(jié)構(gòu)只能聚合局部的特征信息。不同的低秩張量特征的FC層參數(shù)信息是不相同的。雖然FC層會(huì)增加參數(shù)量,但是編碼層的最后一層特征維度比較低,參數(shù)量增加不會(huì)太多。

      圖3 低秩張量生成子模塊

      2.2.2 低秩自注意力子模塊

      如圖4所示,特征圖X ∈RH×W×C首先輸入到低秩張量生成子模塊中,產(chǎn)生多個(gè)不同的低秩張量特征Qi,Ki和Vi。高度特征Qi與寬度特征Ki相乘獲得空間相似度矩陣Ai ∈RH×W×1,使用Softmax層進(jìn)行激活,具體的計(jì)算過程如式(4)所示。式(5)是對(duì)特征相似度矩陣Ai更詳細(xì)的解釋,amn表示空間相似度矩陣上的每一個(gè)點(diǎn),qm和kn分別表示寬度特征信息和高度特征信息。獲得的空間注意力特征圖Ai沒有通道之間的相關(guān)性信息,特征Vi對(duì)通道之間的信息進(jìn)行了聚合。注意力特征圖Ai與通道注意力信息Vi相乘,獲得3維的注意力信息,計(jì)算過程如式(6)所示。輸入的特征圖X與注意力特征相加,獲取長(zhǎng)范圍的語(yǔ)義信息特征,得到特征圖Yi。

      圖4 低秩自注意力子模塊

      自注意力模塊Non-Local Block[6]在計(jì)算像素的相似度時(shí),計(jì)算圖像中任意兩個(gè)點(diǎn)之間的相關(guān)性。對(duì)于特征圖X,自注意力模塊的時(shí)間復(fù)雜度為O(H×W×H×W),而LRSAR Block只需要計(jì)算兩個(gè)向量的外積,時(shí)間復(fù)雜度為O(H×W),時(shí)間復(fù)雜度更低。相較于自注意力模塊,本文提出的LRSAR-Net時(shí)間復(fù)雜度更低,速度更快。

      2.2.3 高秩張量重構(gòu)子模塊

      依據(jù)張量分解理論,高階張量可以分解為多個(gè)秩一的張量的線性組合。如圖5所示,特征圖X經(jīng)過低秩自注意力模塊生成多個(gè)秩一注意力特征圖Yi,Yi只包含了低層次的語(yǔ)義信息。秩一注意力特征圖Yi是由不同的參數(shù)低秩張量生成模塊產(chǎn)生的,所以不同的秩一注意力特征圖所包含的特征信息是不相同的。作者在每個(gè)秩一注意力特征圖Yi之前引入了一個(gè)可學(xué)習(xí)的權(quán)重參數(shù)λi,λi會(huì)隨著訓(xùn)練而調(diào)整。各個(gè)低秩自注意力特征圖會(huì)與相應(yīng)的權(quán)重參數(shù)λi相乘,然后相加組合成高秩自注意力張量Y。張量重構(gòu)方法如式(7)所示。高秩注意力特征圖Y包含了豐富的語(yǔ)義信息,實(shí)現(xiàn)了全局特征信息的聚合,同時(shí)降低了自注意力特征圖的計(jì)算量。在本實(shí)驗(yàn)中,為了平衡模型的復(fù)雜度和計(jì)算量,將s設(shè)置為4。

      圖5 高秩張量重構(gòu)子模塊

      3 實(shí)驗(yàn)與分析

      3.1 數(shù)據(jù)集

      如表1所示,本實(shí)驗(yàn)使用了Covid-19 CT100和Covid-19 P9[24]兩個(gè)新冠患者CT圖片數(shù)據(jù)集。Covid-19 CT100數(shù)據(jù)集有100張軸向CT圖片,如圖6所示。Covid-19 P9數(shù)據(jù)集有829張CT圖片,其中有373張Covid-19的患病圖片。數(shù)據(jù)集包括3個(gè)標(biāo)簽:毛玻璃、病變和胸腔積液。數(shù)據(jù)集的標(biāo)簽是由經(jīng)過專業(yè)訓(xùn)練的放射科醫(yī)生通過自動(dòng)標(biāo)注程序MedSeg[25]完成的。為了更好地訓(xùn)練模型,我們將兩個(gè)數(shù)據(jù)集合成1個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,其中訓(xùn)練集圖片561張,驗(yàn)證集圖片184張和測(cè)試集圖片184張。訓(xùn)練集、測(cè)試集和驗(yàn)證集之間的比例為6∶2∶2。

      表1 不同的特征提取網(wǎng)絡(luò)的模型對(duì)比DataSet

      圖6 Covid-19患者肺部CT圖片

      3.2 實(shí)驗(yàn)過程

      本實(shí)驗(yàn)基于深度學(xué)習(xí)框架Pytorch。在圖片輸入到模型之前,先將大小為512×512×1的圖片進(jìn)行通道復(fù)制,得到的輸入為512×512×3。模型的迭代次數(shù)為80,批量大小設(shè)置為16,初始學(xué)習(xí)速率為0.001,使用的是Adam[26]優(yōu)化器。在訓(xùn)練的過程中,使用了早停的策略,當(dāng)驗(yàn)證集損失函數(shù)多次不下降時(shí),停止訓(xùn)練。為了提高模型的泛化性能,防止模型過擬合,在實(shí)驗(yàn)中使用了數(shù)據(jù)增強(qiáng)的策略。對(duì)訓(xùn)練集圖片進(jìn)行了裁切、旋轉(zhuǎn)、水平翻轉(zhuǎn)和垂直翻轉(zhuǎn)。

      實(shí)驗(yàn)使用平均交并比(mean Intersection over Union, mIoU)和像素精確度(Accuracy, Acc)兩種指標(biāo)來驗(yàn)證Covid-19新冠肺炎數(shù)據(jù)集的模型訓(xùn)練精確度。兩個(gè)指標(biāo)的數(shù)值越大,表示模型的效果越好。真正例(True Positive, TP)表示真實(shí)值和預(yù)測(cè)值都為正例的像素個(gè)數(shù)。假正例(False Positive,F(xiàn)P)表示預(yù)測(cè)為正例,但實(shí)際值為反例的像素個(gè)數(shù)。假反例(False Negative, FN)表示預(yù)測(cè)為反例,實(shí)際為正例的像素個(gè)數(shù)。mIoU和Acc的計(jì)算方法如式(8)和式(9)所示,α表示類別個(gè)數(shù)。

      實(shí)驗(yàn)用ED Net(Encoder-Decoder)表示不包括注意力機(jī)制的基礎(chǔ)的編碼解碼網(wǎng)絡(luò)。ED Net和LRSAR-Net模型訓(xùn)練過程如圖7和圖8所示,通過對(duì)比可以發(fā)現(xiàn),在模型訓(xùn)練的過程中ED Net在5到40代之間波動(dòng)程度比較大,在訓(xùn)練40代之后,模型趨于穩(wěn)定。ED Net從5到40代之間波動(dòng)比較頻繁,測(cè)試集的Acc變化范圍從65%到95%,測(cè)試集的mI-oU變化范圍從25%到65%,測(cè)試集的Loss的變化范圍從1.2到0.4。LRSAR-Net模型從訓(xùn)練到第5代之后,模型的Acc, mIoU相較于ED Net迅速上升到一個(gè)較高的數(shù)值,而損失也迅速降低到0.3左右。ED Net在加入LRSAR-Net模塊后,模型趨于穩(wěn)定的代數(shù)更早,提高了模型的穩(wěn)定程度。

      圖7 ED Net訓(xùn)練過程中的準(zhǔn)確率Acc、平均交并比mIoU和損失的變化

      圖8 LRSAR-Net訓(xùn)練過程中的準(zhǔn)確率Acc、平均交并比mIoU和損失的變化

      表2為不同的注意力機(jī)制對(duì)模型的影響,Non-Local為自注意力模塊、LRSAR為本文提出的低秩張量自注意力重構(gòu)模塊,SE表示通道注意力。Non-Local模塊與原模型相比,測(cè)試集的mIoU提升了1.6%,測(cè)試精確度Acc略有下降。本文模型與原模型相比,測(cè)試集的mIoU提升了3.6%,同時(shí)測(cè)試集準(zhǔn)確度提升了0.3%。SE通道注意力和LRSAR注意力效果相當(dāng),但是精確度Acc提升了0.3%。由于Reco Net網(wǎng)絡(luò)使用的也是張量分解的方法來降低模型的時(shí)間復(fù)雜度,本實(shí)驗(yàn)選擇Reco Net[18]作為對(duì)比模型。ED Net+LRSAR網(wǎng)絡(luò)相較于Reco Net網(wǎng)絡(luò)在測(cè)試集上提升了1.5%的mIoU準(zhǔn)確度,像素精確度Acc提升了0.5%。本文提出的LRSAR-Net比Reco Net網(wǎng)絡(luò)提升了2.5%的測(cè)試集mIoU準(zhǔn)確度,像素精確度Acc上提升了0.6%。雖然Reco Net網(wǎng)絡(luò)使用的是空間注意力模塊,但是沒有考慮像素點(diǎn)之間的相關(guān)性。由實(shí)驗(yàn)結(jié)果可見,LRSAR-Net同時(shí)融合了自注意力LRSAR和通道注意力SE,效果提升明顯,mIoU為70.0%,Acc為95.1%。由于疾病類型的像素?cái)?shù)量相比較背景而言占比較小(尤其毛玻璃、病變的像素),故整體的精確度較高,導(dǎo)致精確度參數(shù)的數(shù)值提升不明顯;但衡量圖片語(yǔ)義分割的交并比參數(shù)反映了本文方法的有效性,本文方法提高了整體分割的交并比。通過實(shí)驗(yàn)可以發(fā)現(xiàn)自注意力模塊和通道注意力模塊都可以顯著提升模型的性能,但是LRSAR低秩張量自注意力重構(gòu)模塊的模型復(fù)雜度更低。本文提出的LRSAR-Net模塊考慮像素點(diǎn)之間的相關(guān)性關(guān)系使得模型的識(shí)別精確度要比Reco Net所提出的注意力效果更好,同時(shí)時(shí)間復(fù)雜度更低。

      從表2的參數(shù)量和FLOPs可以看出,低秩張量注意力重構(gòu)LRSAR模塊的參數(shù)量為17.13M,而非局部自注意力NonLocal模塊的參數(shù)量為34.27M。從模型的計(jì)算復(fù)雜度比較,LRSAR模塊的復(fù)雜度為1.28G,而NonLocal模塊的復(fù)雜度為2.56G。NonLocal模塊的參數(shù)量和時(shí)間復(fù)雜度是LRSAR模塊的兩倍。LRSAR低秩張量自注意力重構(gòu)模塊要比NonLocal非局部自注意力模塊參數(shù)量更小,但是精確度提升更明顯。Reco Net網(wǎng)絡(luò)的參數(shù)量為L(zhǎng)RSAR-Net網(wǎng)絡(luò)模型的兩倍,時(shí)間復(fù)雜度增加了4.47G。由于Reco Net劃分了過多的子張量,導(dǎo)致模型的參數(shù)量和時(shí)間復(fù)雜度都顯著增加。本文提出的LRSAR-Net網(wǎng)絡(luò)在參數(shù)量和時(shí)間復(fù)雜度小于Reco Net的情況下,識(shí)別精確度更高。實(shí)驗(yàn)表明,自注意力模塊要比簡(jiǎn)單的空間軟注意力模塊效果好,因?yàn)樽宰⒁饬δK考慮特征點(diǎn)之間的相關(guān)性。

      表2 注意力模塊的影響

      3.3 對(duì)比分析

      為了對(duì)比不同的主干網(wǎng)絡(luò)特征提取對(duì)模型的影響,對(duì)比了不同的特征提取網(wǎng)絡(luò)之間的準(zhǔn)確率。從表3可以發(fā)現(xiàn)InceptionV4網(wǎng)絡(luò)的分割效果最好,測(cè)試集mIoU最高為70.9%,測(cè)試集準(zhǔn)確度Acc最高為95.5%,但是網(wǎng)絡(luò)的參數(shù)量和FLOPs也最大。MobileNetV2網(wǎng)絡(luò)的參數(shù)量和FLOPs都比較低,但是網(wǎng)絡(luò)的準(zhǔn)確度也是最低的。ResNet50網(wǎng)絡(luò)的準(zhǔn)確度僅次于InceptionV4,但是參數(shù)量和FLOPs都遠(yuǎn)低于InceptionV4。綜合考慮網(wǎng)絡(luò)的參數(shù)量和時(shí)間復(fù)雜度,本實(shí)驗(yàn)選擇ResNet50作為特征提取網(wǎng)絡(luò)。

      表3 不同的特征提取網(wǎng)絡(luò)的模型對(duì)比

      為了驗(yàn)證本文LRSAR-Net模型的有效性,本實(shí)驗(yàn)與其他優(yōu)秀的語(yǔ)義分割網(wǎng)絡(luò)比較了在新冠肺炎數(shù)據(jù)集上的準(zhǔn)確度。UNet是標(biāo)準(zhǔn)的編碼解碼結(jié)構(gòu),并且使用了跳躍連接來增強(qiáng)模型的性能,但是UNet模型的測(cè)試集mIoU最低。UNet++網(wǎng)絡(luò)在UNet的基礎(chǔ)上采用了更加靈活的跳躍連接結(jié)構(gòu),實(shí)現(xiàn)了更豐富的特征信息融合,同時(shí)參數(shù)量和FLOPs最大。所表4所示,UNet++網(wǎng)絡(luò)的分割效果提升不明顯,mIoU和Acc僅比U-Net高0.7%和0.2%。DeepLabV3網(wǎng)絡(luò)使用了空洞卷積金字塔,用來擴(kuò)大卷積核的感受野并提取多尺度的特征信息。該網(wǎng)絡(luò)的參數(shù)量和時(shí)間復(fù)雜度FLOPs都比較大,分割效果與UNet++相接近。DeepLabV3+網(wǎng)絡(luò)對(duì)DeepLabV3的解碼結(jié)構(gòu)進(jìn)行了改進(jìn),使得模型細(xì)化效果更好,參數(shù)量和FLOPs顯著降低。PSPNet使用了金字塔池化模塊來提取多尺度信息,網(wǎng)絡(luò)的分割效果僅次于LRSAR-Net。雖然PSPNet的參數(shù)量和FLOPs比較低,但是該網(wǎng)絡(luò)在訓(xùn)練過程中占用內(nèi)存比較大,不適合快速圖片分割。本文提出的LRSAR-Net網(wǎng)絡(luò)的mIoU和Acc都要比其他分割模型好,mIoU比UNet網(wǎng)絡(luò)提升了4.6%,精確度Acc也提升了0.4%。

      表4 不同的語(yǔ)義分割網(wǎng)絡(luò)之間的對(duì)比

      圖9展示了LRSAR-Net在新冠肺炎數(shù)據(jù)集上的分割效果,第1行為原始圖片,其他行依次為毛玻璃、病變、胸腔積液和背景的分割結(jié)果。從圖9可以發(fā)現(xiàn)毛玻璃和病變的樣本比較少,在網(wǎng)絡(luò)訓(xùn)練過程中本文改變了交叉熵?fù)p失函數(shù)的權(quán)重,來解決類別不平衡的問題。在數(shù)據(jù)集中,毛玻璃和病變兩個(gè)類型比較重要并且在圖像中占比較小,所以本文提升了兩種疾病的權(quán)重,降低了背景類的權(quán)重。4個(gè)類別毛玻璃、病變、胸腔積液和背景的權(quán)重比為1∶1∶0.5∶0.2。網(wǎng)絡(luò)可以很好地分割出這兩種肺部疾病類型。胸腔積液和背景類占比較大,網(wǎng)絡(luò)可以分割出清晰的輪廓和類別。本文提出的LRSARNet網(wǎng)絡(luò)的分割效果可以幫助醫(yī)生對(duì)新冠患者的病情進(jìn)行診斷和分析,也可以實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)的病情分析。

      圖9 實(shí)驗(yàn)分割結(jié)果

      4 結(jié)論

      本文提出了一種基于低秩張量自注意力重構(gòu)的語(yǔ)義分割網(wǎng)絡(luò)LRSAR-Net來對(duì)新冠肺炎患者的CT圖像進(jìn)行分割。其中,低秩張量自注意力重構(gòu)模塊用來獲取長(zhǎng)范圍的語(yǔ)義信息,與經(jīng)典的自注意力模塊Non-Local相比,參數(shù)和時(shí)間復(fù)雜度降低了50%。為了更好地獲取通道權(quán)重信息,網(wǎng)絡(luò)在上采樣過程中添加了通道注意力來增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力。為了驗(yàn)證網(wǎng)絡(luò)的有效性,分別對(duì)比了不同的特征提取網(wǎng)絡(luò)和其他優(yōu)秀的語(yǔ)義分割網(wǎng)絡(luò),LRSARNet網(wǎng)絡(luò)的效果比其他語(yǔ)義分割模型效果要好。實(shí)驗(yàn)結(jié)果證明,低秩張量自注意力重構(gòu)模塊LRSAR Block可以獲得長(zhǎng)范圍的語(yǔ)義信息有助于新冠肺炎患病情況進(jìn)行監(jiān)測(cè)。

      猜你喜歡
      張量復(fù)雜度注意力
      讓注意力“飛”回來
      偶數(shù)階張量core逆的性質(zhì)和應(yīng)用
      四元數(shù)張量方程A*NX=B 的通解
      一種低復(fù)雜度的慣性/GNSS矢量深組合方法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      求圖上廣探樹的時(shí)間復(fù)雜度
      擴(kuò)散張量成像MRI 在CO中毒后遲發(fā)腦病中的應(yīng)用
      A Beautiful Way Of Looking At Things
      某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
      出口技術(shù)復(fù)雜度研究回顧與評(píng)述
      塘沽区| 临颍县| 鄂州市| 桃江县| 奉节县| 临颍县| 福泉市| 沅陵县| 乌拉特后旗| 河间市| 张家川| 依安县| 丘北县| 五华县| 台湾省| 兰考县| 谢通门县| 滕州市| 平塘县| 灵丘县| 同江市| 奉节县| 澄迈县| 禄丰县| 博客| 突泉县| 蒙阴县| 栖霞市| 海丰县| 保康县| 杭锦后旗| 即墨市| 靖安县| 章丘市| 信阳市| 孟州市| 全椒县| 盖州市| 林甸县| 丹东市| 乌海市|