周 濤 葉鑫宇* 劉鳳珍 陸惠玲 周敬策 杜玉虎
①(北方民族大學計算機科學與工程學院 銀川 750021)
②(寧夏醫(yī)科大學理學院 銀川 750004)
③(江南大學人工智能與計算機學院 無錫 214122)
④(北方民族大學圖像圖形智能處理國家民委重點實驗室 銀川 750021)
新型冠狀病毒具有傳播速度快、傳染率高的特點[1],使其成為威脅全世界人類健康的急性呼吸道傳染病之一。計算機斷層掃描(Com puted Tom ography,CT)作為一種非入侵性影像學技術(shù),廣泛應(yīng)用于新冠肺炎疾病的初步診斷和篩查。新冠肺炎CT影像的分析和診斷過程復(fù)雜,需要專業(yè)知識和經(jīng)驗的醫(yī)生,手動分析過程耗時耗力,新冠肺炎CT的計算機輔助診斷模型可以進行快速的診斷和識別。
深度學習模型[2]是輔助醫(yī)生進行快速準確診斷新冠肺炎的重要手段。Song等人[3]使用特征金字塔網(wǎng)絡(luò)改進殘差神經(jīng)網(wǎng)絡(luò)(ResNet)以克服過擬合問題,在新冠肺炎CT數(shù)據(jù)集上實現(xiàn)93%召回率和86%精度;Ye等人[4]利用半監(jiān)督模型將類激活映射集成到前向傳播中,提高CT圖像新冠肺炎識別準確度;Rahhal等人[5]提出多尺度的復(fù)合縮放網(wǎng)絡(luò)(EfficientNet)模型,利用多尺度卷積提取密集特征,提高了分類性能;Kong等人[6]提出融合密集網(wǎng)絡(luò)(DenseNet)與VGG特征的分類網(wǎng)絡(luò),通過特征復(fù)用減少網(wǎng)絡(luò)參數(shù)量和緩解梯度消失問題;Garg等人[7]在新冠肺炎CT圖像上訓練和評估了20個卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的分類性能,其中DenseNet具有高性能和低網(wǎng)絡(luò)規(guī)模的優(yōu)勢。
設(shè)計適合移動設(shè)備的高效輕量化新冠肺炎計算機輔助診斷模型十分必要,常使用深度可分離卷積、分組、縮減模型層數(shù)等方法進行輕量化。M ontalbo[8]減少DenseNet層數(shù)來降低參數(shù)量,縮短新冠肺炎特征的端到端流動;A sif等人[9]通過集成DenseNet、初始多尺度網(wǎng)絡(luò)(Incep tion)、移動高效網(wǎng)絡(luò)(M obileNet)、神經(jīng)架構(gòu)搜索網(wǎng)絡(luò)(NasNet)、極限初始網(wǎng)絡(luò)(Xcep tion)5種輕量級網(wǎng)絡(luò),取得較好新冠肺炎分類效果;Chakraborty等人[10]設(shè)計由41個深度可分離卷積層構(gòu)成的輕量級架構(gòu),實現(xiàn)較好的分類性能。基于CNN的輕量化模型主要通過拆分空間維度和通道維度相關(guān)性,減少卷積計算的參數(shù)量,但限制了CNN模型的性能和準確性。
近年來,結(jié)合CNN和T ransform er的混合輕量級新冠肺炎模型取得較好性能。Dehkordi等人[11]結(jié)合CNN提取局部特征和T ransform er提取全局特征的優(yōu)勢,在淺層中減少T ransformer數(shù)量以減輕高計算復(fù)雜性;Park等人[12]對CNN與T ransform er結(jié)合的模型進行輕量化,先使用大數(shù)據(jù)集進行遷移學習,然后在X光片中進行新冠肺炎分類。CNN與T ransformer混合架構(gòu)仍存在模型參數(shù)量大、計算量多、推理緩慢的問題,這也是設(shè)計輕量化T ransformer的重要挑戰(zhàn)。
綜上所述,設(shè)計新冠肺炎的輕量化計算機輔助診斷模型主要存在以下問題:(1)深度學習模型占用的資源較大,限制了模型在特殊場景中的應(yīng)用;(2)新冠肺炎的早期,肺部皮層局部血管變粗,磨玻璃病灶內(nèi)部有細網(wǎng)格狀陰影,難以進行識別,后期病灶呈多葉多灶廣泛分布,充分提取新冠肺炎CT圖像的病灶局部信息與全局病灶信息仍然是一個難點。為解決以上問題,本文提出一種面向CT圖像新冠肺炎識別的密集重參輕量化T ransformer模型:
(1)圍繞輕量化問題,設(shè)計重參密集塊,在訓練和推理階段進行卷積結(jié)構(gòu)重參數(shù),增強性能同時降低復(fù)雜度;設(shè)計層次化T ransform er,將特征圖按通道分組后進行學習,降低復(fù)雜度;
(2)圍繞提高CT圖像新冠肺炎全局和局部信息的特征提取能力,首先使用鄰域T ransform er增強全局注意力中的局部特征相關(guān)性;其次構(gòu)造層次化T ransform er,融合不同組之間特征獲得多層次信息;然后在層次化T ransform er中進行信息融合,充分提高組內(nèi)和組間局部與全局特征的交互能力;最后對所有全局特征進行特征聚合,實現(xiàn)深淺層特征的進一步融合。
本文所提密集重參輕量化T ransformer(Dense Reparam eter Lightweight T ransform er,DRLT ransformer)模型架構(gòu)如圖1所示,利用3個重參密集塊進行特征提取,然后經(jīng)過4個層次化T ransform er單元進行特征提取,最后經(jīng)過全連接層和Softmax分類層進行新冠肺炎識別。
圖1 DRLT ransformer模型結(jié)構(gòu)圖
CNN通常使用復(fù)雜結(jié)構(gòu)提高模型性能,設(shè)計高性能且輕量化模型就變得非常重要。結(jié)構(gòu)重參數(shù)是指將多分支結(jié)構(gòu)模型的參數(shù)重新轉(zhuǎn)換為另一組結(jié)構(gòu)簡單的參數(shù),實現(xiàn)輕量化并保持多分支結(jié)構(gòu)的特征表達能力。為此,本文設(shè)計了如圖1(b)所示的重參密集塊,分別由6,12,24個重參單元密集連接組成,重參單元結(jié)構(gòu)如圖1(c)所示。重參單元通過多尺度和多分支結(jié)構(gòu)充分提取特征,采用線性縮放替換批量歸一化(Batch Normalization,BN)層,保持模型的非線性表達能力,1 ×1重參卷積結(jié)構(gòu)如圖2所示。
圖2 1×1重參卷積
首先進行串行結(jié)構(gòu)重參,然后進行并行結(jié)構(gòu)重參得到重參1×1卷積,降維減少計算量同時更充分融合各個通道的特征。5個分支結(jié)構(gòu)的3 ×3重參卷積結(jié)構(gòu)如圖3所示,對特征信息充分提取,其中3×3最大池化通過消除非極大值,捕獲局部信息的細節(jié)信息,深度卷積用于減少計算復(fù)雜度,點卷積保證跨通道信息的融合,下采樣的卷積可以獲得與擴張卷積相似的感受野,學習上下文信息的多樣性,3 ×3頻率濾波器較池化層可以提取更多分量信息,下采樣進一步擴大當前卷積層的感受野,從而提高性能。
圖3 3×3重參卷積
在訓練階段將不同分支的特征映射操作轉(zhuǎn)換為卷積核上的操作,并減少中間層特征映射操作進一步降低模型復(fù)雜度,對重參單元進行密集連接可以用較少參數(shù)量增加網(wǎng)絡(luò)深度和寬度,同時提高對新冠肺炎病灶特征的表示能力。
層次化輕量塊由如圖1(d)所示的4個層次化T ransform er單元聚合構(gòu)成,重參密集塊輸出特征圖轉(zhuǎn)換為層次化T ransformer單元的形式。首先信息融合方法將特征按通道進行均勻分組,輸入到不同層次的鄰域T ransform er,其次在不同組之間進行不同層的信息融合,拼接全部組的特征作層次化T ransformer單元的輸出特征,然后連續(xù)執(zhí)行3次相同操作,獲得4個不同單元的全局輸出特征,最后將全部全局輸出特征聚合到最后層,得到層次化輕量塊的最終輸出。
2.2.1鄰域Transformer
CNN通過局部相鄰像素點之間的聯(lián)系提取局部特征,表現(xiàn)出較好的優(yōu)勢,但學習全局特征能力有限;T ransform er[11]模型可以學習全局信息,但缺乏對局部信息的關(guān)注能力;移動窗口分層T ransform er(Sw inT ransform er)在局部窗口中計算全局注意力,但缺少窗口間信息交互,全局特征學習中難以關(guān)注到局部細節(jié);全局注意力的計算方式會導(dǎo)致模型參數(shù)量和計算量急劇上升。為此,本文使用鄰域T ransform er計算局部相鄰的像素之間的聯(lián)系,在全局特征學習同時提供豐富局部特征,保留了窗口間局部特征相關(guān)性和圖像細節(jié)信息,結(jié)構(gòu)如圖4所示。
圖4 鄰域T ransform er
首先用類似窗口滑動的方式以像素為X i,j為中心,L2大小的Pi,j為鄰域,依次向右滑動,直至取到所有像素的鄰域,然后,利用1×1卷積將輸入變換為矩陣Q i,j,將鄰域Pi,j變換為Ki,j和Vi,j,最后計算Q i,j與Ki,j之間的相關(guān)性,得到單個像素鄰域注意力(N A(X i,j)),可表示為
其中,Softmax表示歸一化指數(shù)函數(shù),T表示矩陣轉(zhuǎn)置,B i,j表示相對位置編碼,表示K i,j的維度。鄰域T ransform er將相關(guān)性權(quán)重轉(zhuǎn)換為對應(yīng)鄰域計算,考慮像素與其周圍像素的局部相關(guān)性,引入更多局部信息,彌補了細節(jié)信息的損失,提高全局計算過程中對新冠肺炎病灶局部特征相關(guān)性的學習能力。
2.2.2層次化Transformer單元
CNN可以按通道對輸入特征圖進行拆分,對每組進行分層計算學習多層次特征,T ransformer模型計算復(fù)雜,不斷堆疊計算可進一步擴大感受野,但缺乏多層次的信息。為此,本文基于分層計算設(shè)計了層次化Transformer單元,結(jié)構(gòu)如圖5所示。一方面將輸入特征圖按通道數(shù)均勻分為4組,分組后分別進行T ransform er計算,降低了參數(shù)量和計算量;另一方面融合上一組輸出特征,輸入到下一層處理,不同層次的特征圖拼接在一起,增加感受野同時可以學習多層次特征,進一步增強全局信息與局部信息的融合。
輸入特征圖按通道劃分為4個組,其中第i個 通道分組X i,i∈{1,2,3,4},計算后將輸出特征圖與下一個組輸入特征圖進行相加,實現(xiàn)不同層次的全局特征信息融合。第1組輸入特征圖X1,不做任何處理,節(jié)約1/4的參數(shù)量和計算量,同時提供原始信息,第2組輸入特征圖X2直接計算,并將輸出的全局特征圖與第3組輸入特征圖X3進行相加的融合,使下一個鄰域T ransformer接收來自上一個層次的全局特征,第4組輸入特征圖X4融合第3組輸出后進行計算,最終拼接4組的輸出特征,得到具有不同層次感受野的輸出特征。
T ransformer中拼接不同層次的全局信息,增加感受野同時學習多層次的全局與局部特征,提高對新冠肺炎的識別能力,按通道分組后進行T ransform er計算,減少了計算復(fù)雜度。采用3個鄰域T ransformer構(gòu)成一個層次化T ransformer單元,通過將輸入特征圖進行通道分組,分別提取不同層次的全局特征,減少T ransform er的計算量和參數(shù)量,保持了模型的輕量化。
2.2.3信息融合
層次化T ransformer單元中輸出的特征圖直接進行拼接,導(dǎo)致不同組的特征無法進行信息交互,為此,使用信息融合對層次化T ransform er單元輸入特征按通道進行均勻混洗,對不同組之間的特征圖進行信息傳遞和交互,信息融合具體過程如圖6所示。對輸入特征圖進行通道分組、轉(zhuǎn)換、轉(zhuǎn)置、展平完成信息融合,這樣做的優(yōu)勢:(1)沒有產(chǎn)生額外的參數(shù)量和計算量;(2)對包含全局信息和局部信息的輸出特征圖進行重組和交互;(3)融合交互CT圖像中新冠肺炎病灶的全局與局部信息,提高模型識別能力。
圖6 信息融合
2.2.4 Transformer塊輕量化
為進一步實現(xiàn)輕量化,本文設(shè)計如圖1紅色箭頭所示的聚合操作,將層次化T ransform er單元的輸出通道數(shù)壓縮為1/2,在最后單元聚合全部特征,聚合操作將淺層的全局上下文信息傳遞到深層,加強淺層全局病灶信息傳遞的有效性,充分利用深淺層的全局和局部病灶信息輕量化同時保證性能,降低參數(shù)量的同時提高模型性能。
本文使用的數(shù)據(jù)集包含來自嚴重急性呼吸綜合癥新冠肺炎第2代CT掃描(Severe Acute Respiratory Synd rom es Corona Virus disease version 2 Com puted Tomography scan,SARS-CoV-2 CTscan)[13]的2 481個CT圖像,和來自新冠肺炎CT(CO rona V Irus D isease Com pu ted Tom ography,COV ID-CT)[14]的746個CT圖像。按6:2:2比例分成訓練集、驗證集和測試集進行實驗,使用水平或垂直隨機翻轉(zhuǎn)進行增強。本次實驗環(huán)境為W indows Server 2019系統(tǒng),256 GB內(nèi)存,搭載兩塊3 GHz 36核處理器,并采用兩塊并行的泰坦第Ⅴ代(TITAN Volta,TITANⅤ)顯卡加速圖像處理,基于GPU的pytorch框架搭建網(wǎng)絡(luò),采用自適應(yīng)矩估計(Adaptivemoment estimation,Adam)優(yōu)化器進行優(yōu)化,采用0.01的初始學習率和每10周期0.9的衰減策略,采用0.2的隨機丟棄率防止過擬合,設(shè)置權(quán)重衰減值為1e–4,訓練周期為250,訓練批處理大小為48。
根據(jù)模型預(yù)測結(jié)果分類錯誤和正確的個數(shù),得到真正類(Ture Positive,TP)、假正類(False Positive,FP)、假負類(False Negative,FN)、真負類(T rue Negative,TN)。準確率為全部類預(yù)測正確的比例,精確率(Precision)為正類且預(yù)測正確占所有正類的比例,召回率(Recall)為預(yù)測出的正類占所有正類的比例,F(xiàn)1分數(shù)(F1)表示為
受試者操作特征(Receiver Operating Characteristic,ROC)曲線是以敏感度即真正類率(T rue Postive Rate,TPR)為縱軸、假正類率(False Postive Rate,FPR)為橫軸進行繪制的,TPR值等于召回率,其中FPR、特異度(T rue Negative Rate,TNR)可分別表示為
將ROC曲線下面積定義為曲線下面積(A rea Under Curve,AUC)值,越靠近左上角AUC值會越大,表示模型的排序能力和分類性能會越好,評價指標均是值越大表示模型越好。
為了評估模塊有效性,在DenseNet121基礎(chǔ)上依次進行7組實驗:添加重參密集塊、添加鄰域T ransform er、分別添加維度512或256的層次化T ransformer、分別添加信息融合、添加維度256的聚合。實驗結(jié)果對比如表1所示,不同模型的熱力圖[4]如圖7所示。實驗1,模型參數(shù)量和計算量急劇下降至1.07 M和70.38 M,5項指標提升近1.39%,重參密集塊有效降低模型的參數(shù)量,并提高對病灶的特征提取能力,圖7第3列可看出其關(guān)注病灶范圍更廣且主要集中在胸腔內(nèi)部;實驗2,5項指標提高近0.92%,鄰域T ransformer有效關(guān)注局部特征,但模型復(fù)雜度上升,圖7第4列可看出其更關(guān)注于肺部區(qū)域。
表1 在新冠肺炎CT數(shù)據(jù)集上的消融實驗結(jié)果對比
圖7 不同模型在新冠肺炎CT數(shù)據(jù)集上的熱力圖
實驗3和實驗4添加維度512或256的層次化T ransform er,模型參數(shù)量分別下降2.95倍和3.55倍,均有效降低計算復(fù)雜度且小幅提升性能,提高局部與全局特征的交互能力;實驗5和實驗6添加無參數(shù)量和計算量的信息融合,充分提高Transformer組內(nèi)和組間特征的交互能力;實驗7,5項指標均提高近0.47%并達到98.14%,特征聚合實現(xiàn)深淺層特征的進一步融合,從而進一步提高局部與全局特征的交互能力;實驗3—實驗7說明了層次化T ransform er輕量化的有效性,圖7最后列可看出模型聚焦和定位病灶區(qū)域的能力更強,性能得到有效提高。
將本文模型DRLT ransformer與11個模型進行對比,在新冠肺炎CT數(shù)據(jù)集上的具體分類結(jié)果如表2所示。本文模型整體表現(xiàn)均優(yōu)于其他方法,具有較好的輕量化和分類能力。
表2 不同模型在新冠肺炎CT數(shù)據(jù)集上的具體結(jié)果
從表2可以得出,本文模型較DenseNet模型參數(shù)量和計算量大幅降低,5項指標提高近3.57%,獲得了較大程度的輕量化且性能有明顯提升;較輕量級網(wǎng)絡(luò)代表M obileNet,參數(shù)量降低8倍、計算量降低29倍,5項指標提高近4.50%,進一步輕量化和提高識別精度;較Sw in-T ransformer模型參數(shù)量降低225倍、計算量降低191倍、訓練時間近1/2,5項指標提高近1.86%,降低復(fù)雜度和提高效率;較結(jié)合CNN與T ransform er輕量化的深度可分離全局注意力模型EdgeNeX t-B,參數(shù)量降低77倍、計算量降低23倍,各項性能提升近2%,參數(shù)量更少、性能更高;較交互式融合局部特征與全局特征的模型Con form er-B,參數(shù)量和計算量明顯降低,5項指標提高近0.96%,以較少資源消耗獲得更好的精度。綜上,本文模型DRLT ransform er具有較好的輕量化程度,同時具有較高的識別精度和較好的分類能力,對新冠肺炎的識別性能最佳。
圖8為12種模型在新冠肺炎CT數(shù)據(jù)集上的ROC曲線和曲線下面積AUC,本文模型具有明顯的優(yōu)勢和魯棒性,AUC值最大達0.9814,能較好地學習和識別新冠肺炎CT影像的全局病灶信息與局部病灶信息。圖9為12種模型在新冠肺炎CT數(shù)據(jù)集上的PR曲線,是以精確率為縱軸,召回率為橫軸的曲線。準確率越高,召回率就越低,向上方凸出、包圍面積大的曲線代表模型效果好,可以看出本文模型性能明顯最優(yōu)。
圖8 不同模型在新冠肺炎CT數(shù)據(jù)集上的ROC曲線和AUC值
圖9 不同模型在新冠肺炎CT數(shù)據(jù)集上的PR曲線
為驗證本文模型的魯棒性和泛化能力,在3個公開的新冠肺炎相關(guān)CT數(shù)據(jù)集上進行對比實驗,結(jié)果如表3、表4和表5所示。第1個來自文獻[19],共5 427張新冠肺炎和2 628張非新冠肺炎圖像。第2個來自文獻[20],共4 001張新冠肺炎陽性和9 979張新冠肺炎陰性圖像。第3個來自文獻[21],共510張正常和510張新冠肺炎圖像,本文模型DRLTransformer均取得較好性能。
表3 公開對比實驗結(jié)果
表4 公開對比實驗結(jié)果
表5 公開對比實驗結(jié)果
本文提出一種面向CT圖像新冠肺炎識別的密集重參輕量化T ransformer模型,設(shè)計重參密集塊和輕量級層次化T ransformer實現(xiàn)輕量化;重參中多分支結(jié)構(gòu)提高網(wǎng)絡(luò)性能,轉(zhuǎn)換特征映射操作為卷積核操作以減少模型計算復(fù)雜度;層次化T ransformer增強全局注意力對局部特征相關(guān)性的學習能力,分組提取多層次特征信息,信息融合提高特征交互能力,聚合所有全局特征進行深淺層特征深度融合。在新冠肺炎CT數(shù)據(jù)集中實驗結(jié)果表明本文模型以較好的輕量化實現(xiàn)了較高的識別精度和準確分類,充分提取病灶的全局和局部信息,熱力圖可視化技術(shù)對各模塊驗證說明,本文模型在3個公共新冠肺炎相關(guān)數(shù)據(jù)集中取得了較好的魯棒性和泛化能力。