丁維龍,朱峰龍,鄭魁,賈秀鵬
1.浙江工業(yè)大學(xué)計算機科學(xué)技術(shù)學(xué)院,杭州 310023;2.上海派影醫(yī)療科技有限公司,上海 201306;3.寧波市臨床病理診斷中心,寧波 315031
乳腺癌是我國女性最常見的惡性腫瘤之一,在所有癌癥中占比高達11.7%(Sung 等,2021;Xie 等,2021),同時也是全球女性死亡率最高的癌癥之一(滿芮 等,2020)。組織病理學(xué)檢查是乳腺癌診斷的“金標準”(金旭 等,2020;顏銳 等,2021;徐貴璇 等,2021),其準確性和及時性直接影響患者治療方案的選擇和預(yù)后。一般地,組織病理學(xué)診斷流程是病理醫(yī)生先在顯微鏡下對病理切片進行細致檢查(稱為鏡檢),而后給出癌癥分級和分期。這種人工閱片方式需要醫(yī)生對每一幅圖像進行審閱,耗時耗力。由于不同醫(yī)生的專業(yè)知識和臨床經(jīng)驗不同,其個人主觀性會影響最終的診斷結(jié)果。截至2018 年末,我國在冊的病理醫(yī)生(包括執(zhí)業(yè)醫(yī)師和助理執(zhí)業(yè)醫(yī)師)為1.8 萬人,病理醫(yī)生的缺口至少為6.6 萬人(卞修武和平軼芳,2019),我國各級醫(yī)院病理醫(yī)師人數(shù)均顯著低于原衛(wèi)生部制定的要求(每100 張床至少配備1~2 名病理醫(yī)師)。面對上述問題,迫切需要開發(fā)客觀且精確的計算機輔助診斷系統(tǒng)來幫助病理醫(yī)生進行診斷,識別癌癥區(qū)域和癌癥類型。
隨著掃描技術(shù)的發(fā)展,病理切片可以數(shù)字化為全切片掃描圖像(whole slide image,WSI)。病理專家無需借助顯微鏡在病理切片上費時費力地搜索癌變區(qū)域,而是直接通過電腦屏幕快速便捷地查看和分析病理圖像。計算病理學(xué)的出現(xiàn)促進了計算機輔助診斷的發(fā)展。國內(nèi)外已有諸多學(xué)者對乳腺病理圖像自動分類展開研究,并取得了一定的進展。這些研究主要可以分為兩類(顏銳 等,2021):1)基于人工特征提取結(jié)合傳統(tǒng)機器學(xué)習(xí)的方法;2)基于深度學(xué)習(xí)的方法。對于機器學(xué)習(xí)的方法,Zhang 等人(2014)提出一種基于單類核主成分分析(kernel principal component analysis,KPCA)模型集成的醫(yī)學(xué)圖像分類方法,采用乘積組合規(guī)則集成多個KPCA模型,以產(chǎn)生分類置信度分數(shù)。王帥等人(2018)提出基于二次聚類與隨機森林的腺管自動識別方法,通過一次聚類和二次聚類構(gòu)建出待分割圖像,最后使用隨機森林分類算法進行分類。Ed-daoudy 和Malmi(2020)使用關(guān)聯(lián)規(guī)則將特征空間維數(shù)由9 個降為8 個,然后輸入到多個支持向量機中對乳腺癌進行分類。上述方法采用人工特征提取,不僅需要病理醫(yī)生專業(yè)知識的支撐,整個過程耗時耗力且主觀性強,往往存在特征空間小、泛化能力不強等缺陷。
基于深度學(xué)習(xí)的乳腺組織病理圖像分類方法可以從數(shù)據(jù)中自動學(xué)習(xí)圖像的高維特征,從而推動自身在醫(yī)學(xué)圖像的應(yīng)用(Litjens 等,2017;Campanella等,2019;Senousy 等,2022;趙櫻莉 等,2023)?,F(xiàn)有的一些方法(Yu 等,2023;Zheng 等,2020;Wang 等,2016;Vesal 等,2018;Alom 等,2019;趙曉平 等,2023;Chhipa 等,2023)均采用單一倍率下的圖像作為神經(jīng)網(wǎng)絡(luò)的輸入(本文將其稱為單尺度網(wǎng)絡(luò)),忽略了相鄰patch 之間的相關(guān)性。這可能會帶來兩個問題:1)乳腺組織病理圖像中特定的結(jié)構(gòu)被裁剪為多個部分,分布在相鄰的patch 中,降低了patch 的特征表示能力;2)只使用高倍率下的圖像,忽略其他倍率的圖像,可能會丟失有用的信息。
為解決這些問題,Kang和Chun(2022)采用多尺度課程式學(xué)習(xí)策略來提高模型的準確率。然而,該方法并沒有對模型進行改進,只是將不同分辨率下的圖像組合成一個數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)。此外,Tong 等人(2019)利用WSI內(nèi)置的圖像金字塔結(jié)構(gòu)來融合低倍率圖像的上下文信息,以增強patch 的預(yù)測能力。Xie 等人(2021)提出一種基于ResNet50 的多尺度卷積網(wǎng)絡(luò)。通過同時輸入40× 和10× 放大倍率的圖像,然后合并不同尺度的特征。Chen 等人(2022)提出一個多尺度模型,提取全局和局部信息用于胃組織病理學(xué)圖像檢測。上述實驗結(jié)果表明,采用多尺度策略的神經(jīng)網(wǎng)絡(luò)的性能明顯優(yōu)于單尺度網(wǎng)絡(luò)。但上述多尺度方法多是將不同倍率的圖像輸入網(wǎng)絡(luò)模型,經(jīng)過多層卷積層運算之后對提取到的不同特征進行拼接。這種特征融合方式較為簡單,沒有區(qū)分不同尺度圖像特征之間存在的感受野上的差異。此外,在特征融合之前,模型對不同尺度的圖像進行單獨提取紋理、顏色等特征,并沒有考慮不同尺度圖像之間可能存在的關(guān)聯(lián)性。
針對上述問題,本文提出一種基于多尺度和注意力機制的卷積神經(jīng)網(wǎng)絡(luò)改進策略,并應(yīng)用于DenseNet 網(wǎng)絡(luò),提高了乳腺病理圖像分類性能。本文的創(chuàng)新之處包括:1)設(shè)計信息交互模塊,加強不同尺度的圖像之間的聯(lián)系,實現(xiàn)不同尺度的特征相互監(jiān)督和引導(dǎo);2)設(shè)計特征融合模塊,對不同尺度的圖像的特征有所側(cè)重,并通過提出的分組注意力結(jié)合通道注意力來提高模型的特征提取能力和泛化能力。本文在公開數(shù)據(jù)集Camelyon16 上進行了實驗。實驗結(jié)果表明本文方法能有效提高乳腺組織病理圖像的分類精度,為今后組織病理圖像在多尺度網(wǎng)絡(luò)方面的研究提供了重要參考。
本文基于DenseNet(dense convolutional network)(Huang 等,2017)提出一種結(jié)合多尺度和注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模型MA-DenseNet(multiscale and group attention dense convolutional network)。該模型能夠接受多種尺度的圖像作為輸入,并在特征提取階段加強不同尺度的特征之間的交互,以起到相互引導(dǎo)的作用,使得模型能夠從多種倍率的圖像中,提取到與分類任務(wù)相關(guān)的特征,進而提高模型的性能。此外,該模型在特征融合階段,充分考慮不同尺度的特征的重要性程度,使用分組空間注意力機制和通道注意力機制對特征賦予權(quán)重,從而區(qū)分不同區(qū)域和通道的特征對乳腺癌組織病理圖像分類任務(wù)的貢獻度。
由于WSI 的尺寸較大(一般為40 000×40 000像素)(Wang 等,2022),受限于硬件條件(Ciga 等,2021),現(xiàn)階段即使是對WSI進行下采樣也需要對其進行滑動窗口處理才能輸入到網(wǎng)絡(luò)模型中。并且,下采樣意味著分辨率的降低,會丟失大部分的細節(jié)信息,因而研究者往往將WSI 切割成尺度更小的patch(Lu等,2021;Gao等,2023)作為分類目標,尺寸一般為256×256 像素或512×512 像素??紤]到本文提出的多尺度網(wǎng)絡(luò)需要不同倍率下的圖像作為輸入,因此,采用同一中心點對同一幅WSI圖像切割出3 種尺度的patch,其尺寸分別為256×256 像素、512×512 像素、768×768 像素(下文分別記做256尺度、512 尺度和768 尺度)。根據(jù)下文的對比實驗結(jié)果可以發(fā)現(xiàn),20× 倍率下裁剪的512×512 像素的patch,作為單尺度網(wǎng)絡(luò)的輸入時所得到的分類性能較好。因此,在3個尺度中本文使用512尺度作為分類目標,模型所對應(yīng)的標簽使用512 尺度的標簽。通過該切割方式,可以在對512×512 像素的patch進行分類時,融合從高倍率的patch(256×256 像素)和低倍率的patch(768×768像素)中提取的特征,達到充分考慮其上下文信息的目的。本文方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,主要包括:1)信息交互模塊,用于增強多種尺度的特征之間的聯(lián)系;2)特征融合模塊,用于區(qū)分不同尺度的特征的重要性程度。考慮到現(xiàn)有網(wǎng)絡(luò)多采用模塊化設(shè)計以提高模型的深度,其結(jié)構(gòu)一般由一個卷積和池化組成的Stem 部分和多個特定的Layer 組成,如:ResNet 是以殘差塊的疊加形成一個Layer,而ViT(vision Transformer)則是通過多頭自注意力和多層感知機的堆疊形成一個Layer。為了保證多尺度策略的通用性,將Stem 和第1 個Layer作為插入位置,然后根據(jù)信息交互模塊和特征融合模塊的插入位置不同,分為淺層插入方式和深層插入方式,對應(yīng)的模型稱為淺層多尺度(圖1)和深層多尺度(圖2)。
圖1 淺層多尺度網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Shallow multiscale network structure
圖2 深層多尺度網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Deep multi-scale network structure
圖1 中,“3×3 Conv 64,/2”表示卷積核的大小為3×3,卷積核的數(shù)量為64,步長為2;“3×3Conv 64,1”表示卷積核的大小為3×3,卷積核的數(shù)量為64,步長為1;信息交互模塊和特征融合模塊將在下文進行詳細描述;“3×3 MaxPool 64,/2”表示最大池化,池化核大小為3×3、步長為2;DenseBlock 表示DenseNet 網(wǎng)絡(luò)中的密集連接塊,總共有4 個;Transition 表示DenseNet 中的降通道模塊,總共有3 個;Linear 表示全連接層,輸出為網(wǎng)絡(luò)模型對每個類別的預(yù)測概率。
圖2 中,Stem 表示網(wǎng)絡(luò)主干的頭部,在原始DenseNet 中,Stem 主要包括一個步長為2 的7×7 卷積核以及最大池化操作,本文將其改成3 個3×3 級聯(lián),在保證感受野大小相同的情況下,減少模型的參數(shù),并提高非線性泛化能力。與淺層多尺度的區(qū)別包括:1)信息交互模塊放到Stem 之后,而不是放在兩個卷積操作之后,同時將特征融合模塊放到DenseNet 的第1 個Transition 模塊之后,相對于放在DenseBlock1_1之后能夠減少近一半的計算量。
以往關(guān)于多尺度網(wǎng)絡(luò)的研究中,不同尺度的圖像特征在融合之前均是單獨計算,容易丟失多尺度特征之間的關(guān)聯(lián)性,從而導(dǎo)致特征的利用率低。為解決這個問題,本文提出的信息交互模塊在特征融合之前進行基于空間注意力機制的加權(quán)信息交互,能夠加強3種尺度輸入之間的聯(lián)系,使得256尺度和768 尺度中與512 尺度相關(guān)的局部信息獲得更大的權(quán)重。考慮到256 尺度和768 尺度對于512 尺度的重要性程度不相同,本文使用加權(quán)特征融合的方式,將256 尺度和768 尺度乘以其相應(yīng)的權(quán)重,再與512尺度的特征進行融合,然后反饋給256尺度和768尺度,引導(dǎo)這兩個分支對相關(guān)特征施以更大的關(guān)注。該模塊結(jié)構(gòu)如圖3 所示。具體步驟為:1)將256×256像素、512×512像素、768×768像素的輸入圖像經(jīng)過卷積運算之后,分別記做finfo_256,finfo_512,finfo_768;2)使用空間注意力機制對finfo_256和finfo_768中與finfo_512相關(guān)的區(qū)域賦予更大的權(quán)重,計算結(jié)果記做finfo_256_spatial和finfo_768_spatial,然后乘以對應(yīng)權(quán)重值,再與finfo_512進行逐元素相加,結(jié)果記做;3)將分別與finfo_256_spatial和finfo_768_spatial按通道維度進行拼接,并通過動態(tài)尺度選擇模塊(Feng 等,2020)選擇兩個尺度中重要的區(qū)域,促使256尺度和768尺度的分支關(guān)注與512尺度相關(guān)的特征信息。
圖3 信息交互模塊結(jié)構(gòu)圖Fig.3 Structure diagram of information interaction module
圖3 和圖4 中,Conv 表示卷積層,?表示逐元素相乘,⊕表示逐元素相加,a和b分別表示賦予給256 尺度,768 尺度的patch 的權(quán)重,用以區(qū)分不同尺度對于512 尺度的重要性,這兩個權(quán)重是可訓(xùn)練參數(shù),在模型的反向傳播過程中會自動調(diào)整。對于256 尺度和768 尺度的特征圖中與512 尺度相關(guān)的區(qū)域,本文采用空間注意力機制(Woo等,2018)賦予其更高的權(quán)重??臻g注意力機制的結(jié)構(gòu)如圖5所示。
圖4 動態(tài)尺度選擇模塊Fig.4 Dynamic scale selection module
圖5 空間注意力機制Fig.5 Spatial attention mechanism
圖5 中,輸入特征記做F,維度為(B,C,H,W),按通道維度進行最大池化和平均池化操作,得到Fmax,F(xiàn)avg,維度均為(B,1,H,W);然后,將Fmax、Favg按通道維度進行拼接,得到Fpool,維度為(B,2,H,W);再將Fpool經(jīng)過卷積運算并激活,得到權(quán)重張量,維度為(B,1,H,W);最后將原始特征F與權(quán)重張量逐元素相乘,并加上F后進行激活,得到最終輸出特征Fs。具體表示式為
式中,Conv3×3表示卷積核大小為3×3,步長為1,padding 為1 的卷積操作;Concat表示將Favg和Fmax按通道維度拼接,σ表示sigmoid激活函數(shù)。
一般地,多尺度網(wǎng)絡(luò)是直接將多種尺度的輸入所獲得的特征直接按維度進行拼接,不同尺度的輸入具有相同的權(quán)重,沒有關(guān)注最終要進行分類的patch。這有可能會造成下述問題:對多個尺度的圖像輸入在卷積之后進行簡單融合,容易引入和分類目標無關(guān)的特征以及對特征的利用率較低等問題。比如將512尺度的標簽作為真實標簽時,768尺度的圖像能夠提供更豐富的上下文信息,但不能保證所有的區(qū)域都與512 尺度的標簽一致。直接將不同尺度的特征相加會引入較多噪聲。同樣地,在更高的放大倍率下獲取到的256 尺度圖像,擁有清晰的細胞形態(tài)結(jié)構(gòu),如果沒有對最終分類目標相關(guān)的形態(tài)特征賦予更大的權(quán)重,則會造成特征利用率降低。
針對上述問題,本文提出基于分組注意力的多尺度特征融合模塊??紤]到多種尺度的圖像之間存在感受野的差異,利用空洞卷積實現(xiàn)網(wǎng)絡(luò)內(nèi)部的多尺度模塊。通過以上步驟,能夠較好地提高多尺度網(wǎng)絡(luò)在特征融合過程中的特征提取能力。本文提出的基于分組注意力的特征融合模塊結(jié)構(gòu)如圖6 所示。圖6 中,1×1 Conv 表示卷積核大小為1×1,主要的作用有兩個方面:1)降低通道數(shù),從而減少計算量;2)讓所有通道特征建立聯(lián)系。3×3 Conv表示卷積核大小為3×3,dilation=2 表示空洞卷積的膨脹系數(shù)是2(3×3 的卷積核,在dilation=2 時,其所對應(yīng)的感受野為5×5)。
圖6 特征融合模塊Fig.6 Feature fusion module
本文提出的分組空間注意力是通過分組卷積的方式,將特征圖分為8 組,每組計算一個權(quán)重,從而保證更多特征得到激活,其結(jié)構(gòu)如圖7所示。Concat表示將3 種尺度的特征圖按照通道維度進行拼接。由于Concat 操作會使得通道數(shù)翻倍,本文采用通道注意力機制區(qū)分不同特征通道的重要性程度,然后增強與任務(wù)相關(guān)的特征通道并抑制無關(guān)的特征通道,對應(yīng)的結(jié)構(gòu)如圖8所示。本文考慮到512尺度的感受野是256 尺度的兩倍,768 尺度是256 尺度的3 倍,當把3 種尺度的圖像按通道維度拼接之后,存在特征圖的感受野不一致問題。因此,本文采用空洞卷積的方式,構(gòu)建了網(wǎng)絡(luò)內(nèi)部的多尺度模塊。
圖7 分組注意力機制Fig.7 Grouped attention mechanism
圖8 通道注意力Fig.8 Channel attention
圖7中,Group Conv表示分組卷積,相比于傳統(tǒng)卷積操作,分組卷積能有效減少參數(shù)量和計算量,并具有一定的正則化作用。softmax表示對分組卷積的結(jié)果,按通道維度計算每組的權(quán)重向量。具體為
Repeat 表示將經(jīng)過softmax 的權(quán)重進行擴張,每一個通道復(fù)制8 次,從而讓原始特征圖能夠與注意力權(quán)重逐元素相乘。
圖8中,輸入的特征先經(jīng)過全局平均池化和全局最大池化,將特征圖的寬高變?yōu)?×1。隨后池化結(jié)果經(jīng)過全連接層FC1,降低通道數(shù),r在本文中設(shè)置為8。然后,將結(jié)果通過ReLU(rectified linear unit)函數(shù)激活,再經(jīng)過一層全連接層計算,將通道數(shù)恢復(fù)到C。最后,將兩種池化結(jié)果相加并使用sigmoid 函數(shù)激活后,與原始特征進行逐元素相乘得到輸出特征。
本文在公開數(shù)據(jù)集Camelyon16(Bejnordi 等,2017)上進行實驗,該數(shù)據(jù)集中的乳腺組織病理圖像由the Radboud University Medical Center(Nijmegen,the Netherlands)和the University Medical Center Utrecht(Utrecht,the Netherlands)提供,均由蘇木精—伊紅染色。對于患有癌癥的乳腺組織病理圖像,該數(shù)據(jù)集提供了由專業(yè)的病理醫(yī)生進行的像素級標注,標注信息以XML(extensible markup language)格式保存。本文為保證無癌(陰性)和有癌(陽性)的乳腺組織病理圖像在數(shù)量上一致,將訓(xùn)練集的111幅有癌圖像和測試集中的48 幅有癌圖像進行整合,然后和訓(xùn)練集中的159 幅無癌圖像形成新的數(shù)據(jù)集。本文在這318 幅乳腺組織病理圖像上以滑動窗口切割的方式,裁剪出固定數(shù)量的patch,并劃分為5 個部分,進行五折交叉驗證實驗,具體的數(shù)據(jù)分布如表1所示。
表1 五折交叉驗證數(shù)據(jù)集分布Table 1 Distribution of 5-fold cross-validation dataset
由于乳腺組織病理圖像的尺寸較大,Camelyon16數(shù)據(jù)集的平均圖像大小為1.4 GB左右,圖像的放大倍率為40 倍,每個像素點所代表的實際距離約為0.243 μm。受限于目前算力,卷積神經(jīng)網(wǎng)絡(luò)的輸入一般為224×224 像素、256×256 像素、384×384 像素,因此需要對乳腺組織病理圖像進行切割,獲得能夠輸入到卷積神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練的圖像塊。此外,乳腺組織病理圖像一般是由樣本切片通過光學(xué)數(shù)字掃描儀獲得的,包含大部分白色背景區(qū)域,需要對其進行去除以降低模型的計算量。具體有以下幾個處理步驟:1)本文采用最大類間方差法(Otsu,1979)對乳腺組織病理圖像進行閾值分割;2)在分割得到的掩碼圖像上以滑動窗口的方式選取patch 的中心坐標點;3)根據(jù)坐標點在原圖上切割3 種尺度的patch,大小分別為256×256 像素、512×512 像素和768×768 像素;4)考慮到不同乳腺組織病理圖像在制片過程中存在顏色差異,本文采用Reinhard(Reinhard 等,2001)方法,在保證組織結(jié)構(gòu)不變的前提下,將原圖像的顏色分布轉(zhuǎn)換到目標圖像上,保證不同圖像的顏色一致性。
深度學(xué)習(xí)的性能與樣本的數(shù)量有關(guān),為了提高模型的泛化能力,本文采用數(shù)據(jù)增強方法,主要包括水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和旋轉(zhuǎn)等操作。本文設(shè)計的是多尺度神經(jīng)網(wǎng)絡(luò),對于同一中心點裁剪的不同尺度的patch要進行相同的數(shù)據(jù)增強操作。鑒于此,先將3 種數(shù)據(jù)增強的方式進行隨機組合,根據(jù)產(chǎn)生的兩個隨機數(shù)是否大于0.5 來分別決定是否水平翻轉(zhuǎn)和垂直翻轉(zhuǎn)操作。同時,為了避免旋轉(zhuǎn)操作可能帶來的組織缺失問題,本文設(shè)定旋轉(zhuǎn)角度為0°、90°、180°、270°,保證在旋轉(zhuǎn)過程中不會引入空白區(qū)域,如圖9 所示。最后,本文將隨機組合的圖像增強方法同時應(yīng)用到不同尺度的圖像上,如圖10 所示,對不同尺度進行了圖像增強操作的組合,包括水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和逆時針旋轉(zhuǎn)270°。
圖9 不同旋轉(zhuǎn)角度對比圖Fig.9 Comparison chart of different rotation angles map((a)original image;(b)rotation by 90°;(c)rotation by 180°;(d)rotation by 270°;(e)rotation by 50°)
圖10 數(shù)據(jù)增強方式組合圖Fig.10 Data augmentation method combination map((a)original 256 image;(b)transformed 256 image;(c)transformed 512 image;(d)transformed 768 image)
通過對輸入的數(shù)據(jù)進行批歸一化操作能夠加快模型的收斂速度。本文并未使用隨機的均值和標準差或是在ImageNet(Deng 等,2009)數(shù)據(jù)集上計算出的均值和標準差,來進行批歸一化操作,而是在訓(xùn)練集上隨機選取10 000 張patch,計算經(jīng)過圖像增強之后的均值和標準差作為批歸一化參數(shù)。此外,無論是多輸入網(wǎng)絡(luò)還是單輸入網(wǎng)絡(luò),在沒有特別說明的情況下,本文都是將圖像變換為224×224 像素,目的是為了適應(yīng)網(wǎng)絡(luò)的輸入尺寸。
本實驗硬件環(huán)境為Inteli9-10940xCPU,兩張3080Ti 顯卡,單張顯卡的顯存為12 GB,操作系統(tǒng)版本為Ubuntu18.04。本文網(wǎng)絡(luò)模型基于Pytorch 深度學(xué)習(xí)框架實現(xiàn),Pytorch 版本為1.10。本文在模型訓(xùn)練中使用SGD(stochastic gradient descent)優(yōu)化器(Loshchilov 和Hutter,2016),并設(shè)定初始學(xué)習(xí)率為0.01,權(quán)重衰減系數(shù)為0.000 3,動量系數(shù)momentum為0.9,模型的數(shù)據(jù)批次大小為32,在訓(xùn)練過程中使用ReduceLROnPlateau 作為學(xué)習(xí)率調(diào)整策略。對于五折交叉驗證實驗中的每一個實驗,設(shè)定網(wǎng)絡(luò)模型的訓(xùn)練批次為60 次,然后將5 個實驗的結(jié)果在多個指標上計算平均值以及標準差,來客觀評估模型的性能。本文采用準確率(Hossin 和Sulaiman,2015)、精確率、召回率、F1-score 以及AUC(area under curve)共5個評價指標,對乳腺組織病理圖像識別模型進行評估。
2.4.1 通用性實驗
本文所提出的信息交互和特征融合模塊是一種通用策略,能夠讓單尺度網(wǎng)絡(luò)結(jié)構(gòu)轉(zhuǎn)變?yōu)槎喑叨染W(wǎng)絡(luò),模擬病理專家在顯微鏡下多倍率觀察病理切片的過程。為了驗證本文模塊的通用性,并且選取出更合適的網(wǎng)絡(luò)結(jié)構(gòu),在多種主流的主干網(wǎng)絡(luò)上進行實驗,將本文所提出的兩個模塊加入到主干網(wǎng)絡(luò)中,并采用上文提出的評價指標評判網(wǎng)絡(luò)性能。首先針對淺層多尺度網(wǎng)絡(luò)進行實驗,結(jié)果如表2 所示,括號內(nèi)的數(shù)值表示五折交叉實驗中各項指標的標準差,括號外的數(shù)值表示五折交叉實驗的平均值。從表2 可以發(fā)現(xiàn),帶有密集連接的DenseNet 網(wǎng)絡(luò)結(jié)構(gòu)在各項評價指標上具有較好的表現(xiàn),在五折交叉實驗中,基于DenseNet201 實現(xiàn)的多尺度網(wǎng)絡(luò)在準確率、召回率、F1-score 和AUC 指標上都領(lǐng)先于其他主干網(wǎng)絡(luò)。因為密集連接能夠讓淺層的特征隨著網(wǎng)絡(luò)深度的遞進,傳遞給深層的網(wǎng)絡(luò),對于組織病理圖像而言,能較好地保留淺層特征,如細胞形態(tài)、顏色和紋理特征等,使最終用于分類的特征更豐富。而SEResNet 雖然同時具備殘差結(jié)構(gòu)以及壓縮激勵模塊,表現(xiàn)卻低于ResNet50,可能是因為多層的壓縮激勵模塊在識別細胞形態(tài)時關(guān)注了錯誤的特征,即對于無關(guān)的特征賦予更大的權(quán)重。
表2 不同基礎(chǔ)網(wǎng)絡(luò)的實驗結(jié)果Table 2 Experimental results of different base networks
從表2 還可以發(fā)現(xiàn),基于SEResNet50 實現(xiàn)的多尺度網(wǎng)絡(luò)在各項評價指標中的標準差較大,表明該網(wǎng)絡(luò)的穩(wěn)定性較差,在5 個測試集中各項評價指標有較大波動。此外,為了驗證深層多尺度網(wǎng)絡(luò)和淺層多尺度網(wǎng)絡(luò)的性能差異,本文對表2 中各項評價指標都較好的DenseNet 網(wǎng)絡(luò)結(jié)構(gòu)進一步實驗,結(jié)果如表3 所示。可以發(fā)現(xiàn),隨著信息交互模塊和特征融合模塊插入位置的改變,在網(wǎng)絡(luò)深層部分能夠發(fā)揮更大的效果,取得比淺層多尺度更優(yōu)異的性能。由于深層插入方式相對于淺層插入方式會增加網(wǎng)絡(luò)的參數(shù)量和計算量,對本文使用到的網(wǎng)絡(luò)模型進行相應(yīng)數(shù)據(jù)的統(tǒng)計,結(jié)果如表4 所示。基于DenseNet169 的深層多尺度網(wǎng)絡(luò)性能在參數(shù)量與浮點數(shù)計算次數(shù)上與淺層插入方式的DenseNet201 較為接近,但在各項評價指標上均優(yōu)于后者。這表明本文所提多尺度策略在基于深層插入方式時,能夠進一步提高模型的識別性能。在后續(xù)實驗中,本文都將采用DenseNet201 作為多尺度改進的基礎(chǔ)網(wǎng)絡(luò),并使用深層多尺度的插入策略。
表3 深層多尺度的實驗結(jié)果Table 3 Experimental results of deep multi-scale
表4 網(wǎng)絡(luò)模型的參數(shù)量與計算量統(tǒng)計表Table 4 Statistics on the number of parameters and computation of the network model
2.4.2 對比實驗
為了驗證所改進的網(wǎng)絡(luò)結(jié)構(gòu)的有效性,本文將所提出的多尺度網(wǎng)絡(luò)模型和主流的卷積網(wǎng)絡(luò)模型進行對比實驗以及與Transformer網(wǎng)絡(luò)模型進行對比實驗,包括ResNet(He 等,2016)、DenseNet(Huang 等,2017)、EfficientNetV2(Tan 和Le,2021)、HaloNet(Vaswani 等,2021)、ViT(Dosovitskiy 等,2020)和TransPath(Wang 等,2021)??紤]到本文網(wǎng)絡(luò)包含多個尺度的輸入,為了實驗結(jié)果的準確性,對于上述單尺度網(wǎng)絡(luò),分別在256尺度和512尺度進行實驗。在圖像輸入到網(wǎng)絡(luò)中進行之前,對圖像進行上文提到的數(shù)據(jù)增強以及歸一化操作,并調(diào)整圖像大小為224×224 像素。HaloNet 網(wǎng)絡(luò)由于具備局部自注意力機制,需要輸入大小為8 的倍數(shù),所以對應(yīng)的圖像輸入調(diào)整為256×256像素。最終的實驗結(jié)果如表5所示,所有評價指標均在5-fold 實驗下計算平均值以及標準差。從單尺度網(wǎng)絡(luò)的實驗結(jié)果中可以發(fā)現(xiàn),以512 尺度作為輸入的網(wǎng)絡(luò),其各項評價指標都優(yōu)于以256 尺度作為輸入的網(wǎng)絡(luò),這也是上文選取512 尺度作為多尺度網(wǎng)絡(luò)分類目標的原因。在單尺度網(wǎng)絡(luò)中,ViT 模型的各項指標較低,這可能是因為ViT是將一張patch劃分為多個小塊,然后進行編碼,使得每個小塊對應(yīng)一個一維向量。這個過程中可能導(dǎo)致同一性質(zhì)的區(qū)域被分割開,并且ViT 相對于卷積神經(jīng)網(wǎng)絡(luò)來說存在訓(xùn)練困難的缺點,以上因素導(dǎo)致了本文中ViT 在patch 分類上的性能表現(xiàn)較差。在所有單尺度網(wǎng)絡(luò)模型中,取得最好性能的是TransPath,該網(wǎng)絡(luò)模型是Wang 等人(2021)通過將ResNetV2 和ViT 進行結(jié)合得到的,相較于ResNet50有接近0.8%的提升,在AUC和F1-score這兩個評價指標上也優(yōu)于其他的單尺度網(wǎng)絡(luò)模型。本文提出的多尺度網(wǎng)絡(luò)模型與TransPath 相比,在5 折交叉實驗結(jié)果中,各項指標都有明顯提升,其中AUC 達到了0.994 92,準確率達到了97.785%,精確率達到了98.845%,并且從各項評價指標的標準差中可以看出,本文所提出的方法穩(wěn)定性優(yōu)于其他方法。同時,本文采用純卷積結(jié)構(gòu),與ViT 以及TransPath 相比具備訓(xùn)練簡單和收斂速度快的優(yōu)點(Liu等,2022)。
表5 對比實驗結(jié)果Table 5 Results of comparative experimets
2.4.3 消融實驗
為了驗證本文提出的信息交互模塊和特征融合模塊的有效性,對各模塊進行了消融實驗。主要包含:1)一般多尺度模型,記做Basic_Multi,不包含信息交互模塊和特征融合模塊,并且采用全局平均池化的方式對卷積之后的特征圖進行融合,這也是現(xiàn)有多尺度研究普遍采用的策略;2)在一般多尺度模型的基礎(chǔ)上,使用原始的7×7大小的卷積核組成網(wǎng)絡(luò)的Stem部分,記做Stem7;3)在Basic_Multi基礎(chǔ)上添加了信息交互模塊的多尺度模型,記做+Info;4)在Basic_Multi基礎(chǔ)上添加了特征融合模塊的多尺度模型,記做+Feature;5)在Basic_Multi 基礎(chǔ)上同時添加信息交互模塊和特征融合模塊,即完整的多尺度網(wǎng)絡(luò)模型,記做+Info_Feature。所有消融實驗均在五折交叉驗證實驗下進行,并對每個評價指標取均值,并計算對應(yīng)的標準差。實驗結(jié)果如表6 所示,從表中可以看出,使用3 個3×3 卷積核來替換7×7卷積核,在保證感受野相同的條件下,對模型的性能能夠起到較小幅度的提升,同時可以發(fā)現(xiàn)普通的多尺度網(wǎng)絡(luò)得到的準確率等指標接近上文對比實驗中的TransPath 網(wǎng)絡(luò)。這表明在乳腺組織病理圖像分類問題中,通過模擬病理專家在多倍率下診斷的流程,可以提高網(wǎng)絡(luò)性能。通過在一般多尺度網(wǎng)絡(luò)中加入信息交互模塊(+Info),利用空間注意力機制從256 尺度和768 尺度中捕獲與512 尺度關(guān)聯(lián)密切的區(qū)域,使得網(wǎng)絡(luò)模型的各項評價指標有較大提升,準確率達到97.622%,并且在五折交叉驗證實驗中,各項結(jié)果的標準差小于一般多尺度網(wǎng)絡(luò),表明其具有較好的穩(wěn)定性。本文提出的基于分組空間注意力的融合策略(+Feature)可以減少一般空間注意力的特征激活不充分問題,特征金字塔結(jié)構(gòu)能夠緩解不同尺度圖像之間的感受野差距問題,網(wǎng)絡(luò)性能比一般多尺度網(wǎng)絡(luò)有一定的提升。值得注意的是,從+Info和+Feature 兩組實驗對比結(jié)果可以得出,信息交互模塊對于多尺度的性能影響比特征融合模塊大,進一步驗證了本文的思想:多尺度網(wǎng)絡(luò)需要在特征融合前進行不同分支的特征流通與引導(dǎo)。本文將兩個模塊結(jié)合得到的網(wǎng)絡(luò)在多項指標上都優(yōu)于一般多尺度網(wǎng)絡(luò),并且也高于添加單一模塊的性能,其精確率和召回率之間具有更好的平衡性,F(xiàn)1-score 達到97.762%。
表6 消融實驗結(jié)果Table 6 Results of ablation experiments
通過在卷積神經(jīng)網(wǎng)絡(luò),如ResNet、SEResNet 和DenseNet中加入本文提出的多尺度策略能有效提升模型的性能,相對于一般多尺度模型也有一定的提升。
目前大部分的乳腺癌病理圖像分類研究采用的是單尺度網(wǎng)絡(luò),其中Wang 等人(2021)提出的Trans-Path 模型將卷積神經(jīng)網(wǎng)絡(luò)與ViT 進行結(jié)合,取得了97.168%的分類準確率,在單尺度網(wǎng)絡(luò)模型中取得了SOTA(state-of-the-art)表現(xiàn),而本文采用一般多尺度改進策略(Tong 等,2019;Xie 等,2021),將單尺度DenseNet201 轉(zhuǎn)換成多尺度DenseNet 后,取得了97.102%的準確率,在其余各項指標上也與Trans-Path相接近。這表明通過多尺度網(wǎng)絡(luò)來模擬病理專家在不同倍率下觀察及診斷切片是可行的,具備良好的解釋性和應(yīng)用前景。一般多尺度策略中存在諸多問題,比如:1)特征融合方式較為簡單;2)忽略了不同尺度的圖像之間的相關(guān)性;3)在網(wǎng)絡(luò)模型淺層部分提取圖像的紋理特征時,沒有考慮不同尺度圖像之間的數(shù)據(jù)流通。為此,本文提出兩個通用模塊:信息交互模塊以及特征融合模塊。前者用于加強不同尺度的圖像之間的特征流通和相關(guān)性,后者則用于提升不同尺度的圖像特征利用率。將上述策略融合到DenseNet 網(wǎng)絡(luò)后,在5 折交叉驗證實驗中取得了97.785%的分類準確率和0.977 62的F1分數(shù),同時在其他各項評價指標上相較于一般多尺度網(wǎng)絡(luò)和TransPath 網(wǎng)絡(luò)也有一定提升。其中,加入信息交互模塊以后,網(wǎng)絡(luò)模型在各項指標上的提升較大。這可能是因為在網(wǎng)絡(luò)淺層提取的是形態(tài)紋理和顏色等特征,信息交互模塊可讓多個尺度的特征信息相互流通,使得網(wǎng)絡(luò)模型捕獲到與預(yù)測目標更相關(guān)的特征,從而提升了模型的性能。
本文所提出的兩個模塊具有良好的通用性,將兩個模塊應(yīng)用到不同的網(wǎng)絡(luò)結(jié)構(gòu)中并進行實驗,結(jié)果表明加入模塊后的網(wǎng)絡(luò)取得了較好的性能提升,超過一般多尺度網(wǎng)絡(luò)和單尺度網(wǎng)絡(luò)中表現(xiàn)良好的TransPath。本文在驗證所提出模塊的通用性時,采用的是使用較為廣泛的卷積網(wǎng)絡(luò)結(jié)構(gòu),并未對Transformer網(wǎng)絡(luò)結(jié)構(gòu)進行改進和實驗。計劃在未來拓展該模塊的有效性,并將改進后的多尺度網(wǎng)絡(luò)應(yīng)用于乳腺癌病理圖像處理的下游任務(wù),比如:用于多示例學(xué)習(xí)或自監(jiān)督學(xué)習(xí)的主干網(wǎng)絡(luò),提取更豐富的patch 特征;基于patch 進行的乳腺癌組織病理圖像分割等。
本文提出了一種新的卷積神經(jīng)網(wǎng)絡(luò)改進策略,能夠適應(yīng)不同的網(wǎng)絡(luò)結(jié)構(gòu),包括信息交互模塊和特征融合模塊,其中前者是為了加強不同尺度的分支之間的特征結(jié)合并且形成反饋;而后者能夠較好地區(qū)分重要特征并減少不同尺度圖像的感受野差異影響。本文在一些主流的網(wǎng)絡(luò)架構(gòu)上,比如ResNet、SEResNet 和DenseNet 上添加所提出的模塊,然后在Camelyon16 公開數(shù)據(jù)集上進行五折交叉實驗,結(jié)果表明本文方法在各項評價指標上都優(yōu)于單尺度網(wǎng)絡(luò)和一般多尺度網(wǎng)絡(luò),表現(xiàn)出較好的穩(wěn)定性。此外,本文提出的多尺度網(wǎng)絡(luò)模型可以很好地應(yīng)用于乳腺組織病理圖像的下游任務(wù),比如:基于patch 進行的乳腺癌組織病理圖像分割、基于patch提取特征進行乳腺癌大圖判別。同時本文提出的多尺度網(wǎng)絡(luò)也可以作為多示例學(xué)習(xí)或自監(jiān)督學(xué)習(xí)的主干網(wǎng)絡(luò),提取更豐富的patch特征。
未來可以將本文提出的模塊應(yīng)用于其他網(wǎng)絡(luò)中,驗證其通用性。同時,可以改進信息交互模塊的反饋策略,讓不同尺度的特征分階段交互并反饋。本文對圖像增強方法并未做過多的選擇和處理,之后可以使用其他的方法進一步提升模型性能。