易樂(lè),張蕾
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
肺癌是我國(guó)乃至全球癌癥相關(guān)死亡的主要原因,在2018年全球就有210萬(wàn)新增肺癌的確診病例和180萬(wàn)新增肺癌的死亡病例[1]。早期發(fā)現(xiàn)惡性肺結(jié)節(jié)是至關(guān)重要的,它能夠顯著提升肺癌患者的五年生存率[2]。肺癌在多個(gè)層面中都具有極大的時(shí)間和空間異質(zhì)性,包括基因、蛋白質(zhì)、細(xì)胞、微環(huán)境、組織、器官等層面[3]。計(jì)算機(jī)斷層掃描(CT)圖像能夠以非侵入的方式捕獲腫瘤的異質(zhì)性,因此,已經(jīng)成為臨床實(shí)踐中篩查肺癌的常規(guī)手段。計(jì)算機(jī)輔助診斷(CAD)系統(tǒng)利用胸部CT圖像,自動(dòng)地檢測(cè)出惡性的肺結(jié)節(jié),極大減輕了臨床醫(yī)生的工作負(fù)擔(dān)并加快了肺癌早期篩查流程。
近幾年,肺癌的CAD系統(tǒng)取得了極大的發(fā)展[4-12],其取得的突破與深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在醫(yī)學(xué)圖像分析任務(wù)上的應(yīng)用息息相關(guān)。然而,小樣本問(wèn)題始終阻礙著DCNN在肺結(jié)節(jié)的良惡性分類任務(wù)上的性能。這個(gè)問(wèn)題的出現(xiàn)主要是因?yàn)閹в袠?biāo)注的數(shù)據(jù)獲取存在很大的壁壘。
很多工作都致力于推進(jìn)肺結(jié)節(jié)良惡性分類的任務(wù)[4-6,8,11,12]。如何從只有少量樣本的肺結(jié)節(jié)數(shù)據(jù)集中,有效提取腫瘤異質(zhì)性的表達(dá),是這些研究的共同課題。這些方法包括了多視圖[5,6,10]/尺度[7,8]、半監(jiān)督學(xué)習(xí)[6]、遷移學(xué)習(xí)[5,12]等。然而,很少有研究涉及肺結(jié)節(jié)在影像中呈現(xiàn)出的形態(tài)學(xué)特征。臨床上,這些特征在一定程度上反映了肺結(jié)節(jié)的異質(zhì)性,能夠輔助肺結(jié)節(jié)的性質(zhì)的判斷[13,14]。例如,惡性肺結(jié)節(jié)通常具有毛刺征、分葉征的形態(tài)學(xué)表現(xiàn)。
為了解決此任務(wù)中的小樣本問(wèn)題,我們提出多任務(wù)的肺結(jié)節(jié)分類殘差網(wǎng)絡(luò)(MTLNC-Net)。其將肺結(jié)節(jié)影響特征作為DCNN訓(xùn)練的輔助監(jiān)督信號(hào),使得即使在少量訓(xùn)練數(shù)據(jù)的情況下,網(wǎng)絡(luò)依然能夠很好地提取肺結(jié)節(jié)異質(zhì)性表達(dá),最終提升良惡性分類的性能。具體地,我們采用三維殘差網(wǎng)絡(luò)(3D-ResNet)[15]和帶權(quán)交叉熵?fù)p失函數(shù)(W-CEL)[16]。更重要的是,應(yīng)用了多任務(wù)學(xué)習(xí)中參數(shù)共享的模式,從而為特征提取網(wǎng)絡(luò)引入輔助監(jiān)督信號(hào)的正則化影響。
我們采用了LIDC-IDRI數(shù)據(jù)集[17]來(lái)驗(yàn)證我們提出的方法。實(shí)驗(yàn)結(jié)果表明,MTLC-Net有效解決了肺結(jié)節(jié)良惡性分類任務(wù)中的小樣本問(wèn)題。并且,對(duì)比于目前僅用一個(gè)骨干網(wǎng)絡(luò)的肺結(jié)節(jié)良惡性分類工作,本方法取得了目前最好的結(jié)果。
LIDC-IDRI數(shù)據(jù)集[17]包含了1018個(gè)胸部CT掃描,其中包含2667個(gè)肺結(jié)節(jié)病灶。每個(gè)放射科醫(yī)生獨(dú)立地勾畫出這些肺結(jié)節(jié)的感興趣區(qū)域,并為它們的九個(gè)影像特征分配一個(gè)5-6個(gè)數(shù)值的程度評(píng)級(jí)。這些特征包括:難分辨度(subtlety)、內(nèi)部結(jié)構(gòu)(internal structure)、鈣化(calcification)、球度(sphericity)、邊緣(margin)、毛刺(spiculation)、分葉(lobulation)、質(zhì)地(texture)、和惡性(malignancy),本文分別用Sub、Int、Cal、Sph、Mar、Spi、Lob、Tex、Mal表示以上的特征。由于這些肺結(jié)節(jié)有至少一個(gè)至多四個(gè)放射科醫(yī)生標(biāo)注,因此需要合并同一個(gè)肺結(jié)節(jié)有多個(gè)標(biāo)注的情況。我們用了一個(gè)Python包,即pylidc(1)https://github.com/pylidc/pylidc,來(lái)查詢并合并肺結(jié)節(jié)。最終,我們獲得了2651個(gè)肺結(jié)節(jié)。另外,我們用多個(gè)標(biāo)注結(jié)果的中位數(shù)來(lái)作為金標(biāo)準(zhǔn)。
表1給出了LIDC-IDRI數(shù)據(jù)集中每個(gè)評(píng)級(jí)的結(jié)節(jié)數(shù)量,其中,特征Int只有16個(gè)結(jié)節(jié)的評(píng)級(jí)不為1,因此,我們?cè)诒狙芯恐信懦薎nt特征。另外,根據(jù)此前的研究[5,6,8,10,18],將Mal評(píng)級(jí)的3作為不確定,評(píng)級(jí)1-2作為良性,評(píng)級(jí)4-5作為。最終,一共納入1393個(gè)肺結(jié)節(jié)。此外,我們將Cal特征的1-5的評(píng)級(jí)作為肺結(jié)節(jié)具有鈣化特征(Cal=1,其他特征類似),將Spi和Lob的3-5的評(píng)級(jí)作為具有毛刺或者分葉征,將Tex和Sph的1-3的評(píng)級(jí)分別表示具有磨玻璃成分和肺結(jié)節(jié)呈現(xiàn)為線形或橢圓形,將Mar和Sub的1-2的評(píng)級(jí)作為肺結(jié)節(jié)呈現(xiàn)邊緣不清晰和難分辨的特征。表2給了良性肺結(jié)節(jié)和惡性肺結(jié)節(jié)在每個(gè)特征上分別的數(shù)量。
表1 LIDC-IDRI數(shù)據(jù)集特征標(biāo)簽以及合并后每個(gè)評(píng)級(jí)的結(jié)節(jié)個(gè)數(shù)(N/A:無(wú))
表2 不同性質(zhì)肺結(jié)節(jié)的數(shù)量以及每種肺結(jié)節(jié)影像特征為正樣本的數(shù)量
本研究中,我們將所有肺結(jié)節(jié)裁剪為32×48×48大小的圖片。另外,我們?cè)谟?xùn)練階段使用了數(shù)據(jù)增廣的方法,降低模型過(guò)擬合風(fēng)險(xiǎn)[4,8-10]。
圖1給出了MTLNC-Net的整體的架構(gòu):包含一個(gè)3D-ResNet[15]骨干網(wǎng)絡(luò)和W-CEL[16]函數(shù)。采用3D-ResNet的原因有以下兩個(gè)方面。第一,ResNet能夠靈活改變網(wǎng)絡(luò)的深度,從而方便選擇此數(shù)據(jù)集上最優(yōu)的網(wǎng)絡(luò)大?。坏诙?,不同于擴(kuò)展2D-DCNN來(lái)提取肺結(jié)節(jié)的空間特征[5,6,10],三維的網(wǎng)絡(luò)可以最大保留肺結(jié)節(jié)的空間異質(zhì)性。
圖1 MTLNC-Net的結(jié)構(gòu)框架
表3給出了3D-ResNet的具體結(jié)構(gòu),其中每個(gè)AL(Assembled Layer)層是由殘差塊堆積而成了,在每個(gè)AL層的開始都會(huì)增加特征圖的通道數(shù)量并對(duì)特征圖進(jìn)行降采樣。AL層的每個(gè)殘差塊都設(shè)計(jì)了一個(gè)快捷連接,它使得這個(gè)塊能夠?qū)W到輸入輸出之間的殘差,從而逼近一個(gè)恒等映射。通過(guò)殘差塊的堆積,ResNet能夠靈活改變網(wǎng)絡(luò)大小,并且也不會(huì)使得網(wǎng)絡(luò)的正確率隨著深度增加而出現(xiàn)顯著的下降。本研究中,我們?cè)?D-ResNet的輸出層設(shè)置了8個(gè)神經(jīng)元,其代表一個(gè)良惡性分類主任務(wù)和七個(gè)影像特征分類輔助任務(wù)。
表3 殘差網(wǎng)絡(luò)結(jié)構(gòu)(Conv:卷積層,MP:最大池化,AL:殘差塊堆積層,GAP:全局平均池化,F(xiàn)C:全連接層)
另外,我們采用帶權(quán)交叉熵?fù)p失函數(shù)[16]作為損失函數(shù)。它廣泛應(yīng)用于多標(biāo)簽分類,來(lái)緩解類別不平衡問(wèn)題。假設(shè)p=F(x)(p∈(0,1)8,x∈RD)為輸出的肺結(jié)節(jié)具有某種特征的概率,y∈{0,1}8為標(biāo)簽,其中y的每一位yl表示肺結(jié)節(jié)具有或者不具有此特征。W-CEL定義如下:
(1)
(2)
(3)
其中,|Pl|和|Nl|分別表示在一批數(shù)據(jù)中,第l個(gè)標(biāo)簽的正樣本和負(fù)樣本的數(shù)量。另外,ε用來(lái)防止沒(méi)有正樣本的情況,我們默認(rèn)設(shè)置它為0.1。
不同于以往的肺結(jié)節(jié)良惡性分類的研究,我們關(guān)注利用肺結(jié)節(jié)的影像特征作為良惡性分類網(wǎng)絡(luò)的輔助監(jiān)督信號(hào),從而解決此任務(wù)上的小樣本問(wèn)題。具體地,3D-ResNet同時(shí)輸出良惡性的概率和每個(gè)特征的概率,輸入到W-CEL中計(jì)算總體損失,再反向傳播到網(wǎng)絡(luò)中。由于肺結(jié)節(jié)的每個(gè)任務(wù)都共享同一個(gè)特征表達(dá),并在訓(xùn)練過(guò)程中根據(jù)所有任務(wù)進(jìn)行優(yōu)化。相較于只輸出良惡性的分類網(wǎng)絡(luò)來(lái)說(shuō),多任務(wù)網(wǎng)絡(luò)提取到的異質(zhì)性表達(dá)更具一般性、具有特定噪聲模式更少的,每個(gè)特征都能夠在這組特征表達(dá)的特征空間中以某種方式區(qū)分。最終,網(wǎng)絡(luò)能夠提取更具泛化性的表達(dá),即使僅有少量訓(xùn)練數(shù)據(jù),DCNN對(duì)肺結(jié)節(jié)異質(zhì)性特征提取依然有很好表現(xiàn),從而很好地應(yīng)對(duì)此任務(wù)上的小樣本問(wèn)題。
為了評(píng)估模型在肺結(jié)節(jié)良惡性分類任務(wù)上的性能,本文采用了正確率(Accuracy)、敏感性(Recall)、精確度(Precision)、特異性(Specificity)、F1值,以及受試者曲線下面積(AUC)。由于此數(shù)據(jù)集正負(fù)樣本存在著不平衡的問(wèn)題,因此,我們主要將AUC作為對(duì)比不同方法的主要參考指標(biāo)。
我們?cè)谝慌_(tái)有四塊Tesla K40(12GB)顯卡的服務(wù)器上進(jìn)行了實(shí)驗(yàn),其系統(tǒng)版本為Ubuntu(16.04),CUDA版本號(hào)為9。所有模型和實(shí)驗(yàn)代碼都使用PyTorch 1.0和Python 3.6實(shí)現(xiàn)。所有實(shí)驗(yàn)都在LIDC-IDRI數(shù)據(jù)集上進(jìn)行五次獨(dú)立的十折交叉驗(yàn)證。我們使用已經(jīng)在Kinetics數(shù)據(jù)集上收斂的3D-ResNet模型的參數(shù)進(jìn)行初始化,并在LIDC-IDRI數(shù)據(jù)集上微調(diào)160個(gè)周期。驗(yàn)證集上取得最好的良惡性分類AUC結(jié)果被保存下來(lái)。優(yōu)化器采用SGD,其初始學(xué)習(xí)率為0.001,并且會(huì)在每40個(gè)周期后減小10倍,每個(gè)批量的大小為32。另外,我們用0.5作為分類的閾值。所有結(jié)果都乘以了100,并用均值和標(biāo)準(zhǔn)差來(lái)呈現(xiàn)。
在本節(jié)中,我們將只進(jìn)行良惡性分類(SingleTask,ST)和使用輔助監(jiān)督信號(hào)進(jìn)行良惡性分類(MultiTask,MT)的情況進(jìn)行對(duì)比,以驗(yàn)證提出方法的有效性。另外,我們改變3D-ResNet的深度,以探索深度變化對(duì)于ST和MT性能的影響。實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同網(wǎng)絡(luò)深度和不同訓(xùn)練損失函數(shù)情況下肺結(jié)節(jié)良惡性分類的性能(ST:?jiǎn)稳蝿?wù),只進(jìn)行肺結(jié)節(jié)良惡性分類的任務(wù);ML:多任務(wù),肺結(jié)節(jié)良惡性分類與肺結(jié)節(jié)影像特征分類)
首先,在3D-ResNet-18的情況下,ST-WCEL整體表現(xiàn)更優(yōu),即,除了Recall以外,其他指標(biāo)都取得最好的結(jié)果;在3D-ResNet-34的情況下,兩種方法整體表現(xiàn)接近。但是,MT-WCEL的F1和AUC更優(yōu),在不平衡數(shù)據(jù)集的條件下,這兩個(gè)指標(biāo)能夠更好得衡量模型的性能;而在3D-ResNet-50和3D-ResNet-101的情況下,MT-WCEL在所有指標(biāo)上都能超過(guò)ST-WCEL。另外,從深度變化的角度來(lái)看,ST-WCEL和MT-WCEL的性能首先會(huì)提升,一定程度后性能會(huì)降低,兩者最優(yōu)的結(jié)果大致都在3D-ResNet-50取得,但過(guò)于深的模型表現(xiàn)也總體優(yōu)于較淺的模型,如3D-ResNet-101優(yōu)于3D-ResNet-18與3D-ResNet-34。第三,在同樣的分類閾值條件下,MT-WCEL相較于ST-WCEL的結(jié)果標(biāo)準(zhǔn)差更小,這表明MT-WCEL方法效果更加穩(wěn)定。
總的來(lái)說(shuō),在此小數(shù)據(jù)集上,通過(guò)在肺結(jié)節(jié)良惡性分類網(wǎng)絡(luò)中引入影像特征分類的監(jiān)督信號(hào),良惡性分類任務(wù)能夠取得較大提升。同時(shí),這種方法也能充分利用3D-ResNet-50與3D-ResNet-101這樣非常深的網(wǎng)絡(luò)的強(qiáng)大的特征表達(dá)能力,提取的肺結(jié)節(jié)異質(zhì)性表達(dá)更具一般性,并且網(wǎng)絡(luò)學(xué)習(xí)更加穩(wěn)定,大模型在單任務(wù)、小數(shù)據(jù)集上的過(guò)擬合風(fēng)險(xiǎn)顯著降低。
在本節(jié)中,我們探索在訓(xùn)練樣本數(shù)量不斷減少時(shí),ST-WCEL和MT-WCEL兩種方法效果的變化。具體地,我們使用3D-ResNet-50作為骨干網(wǎng)絡(luò),固定使用20%的數(shù)據(jù)作為測(cè)試集,然后每次減少整體10%的數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò)。每個(gè)實(shí)驗(yàn)獨(dú)立重復(fù)5次。結(jié)果如圖2所示。
圖2 訓(xùn)練數(shù)據(jù)集數(shù)量改變對(duì)網(wǎng)絡(luò)的分類性能的影響。左圖為F1的變化,右圖為AUC的變化。其中豎線表示標(biāo)準(zhǔn)差。
隨著訓(xùn)練數(shù)據(jù)量的變化,MT-WCEL整體性能都優(yōu)于ST-WCEL。另外,根據(jù)AUC的變化,MT-WCEL的效果從采樣為8/8訓(xùn)練數(shù)據(jù)到采樣3/8訓(xùn)練數(shù)據(jù)時(shí)下降相對(duì)于ST-WCEL更緩慢,這表明輔助監(jiān)督信號(hào)有助于網(wǎng)絡(luò)對(duì)主要分類任務(wù)的判別,此方法能夠有效地彌補(bǔ)訓(xùn)練數(shù)據(jù)量不足的缺陷。另外,在訓(xùn)練數(shù)據(jù)量減少到一定量時(shí),MT-WCEL性能會(huì)急劇下降,其原因可能是訓(xùn)練數(shù)據(jù)中肺結(jié)節(jié)具有影像特征的正樣本數(shù)量減少,致使W-CEL損失函數(shù)對(duì)于某種特征的權(quán)重過(guò)大,從而影響網(wǎng)絡(luò)整體的分類效果。
在本節(jié)中,我與目前研究報(bào)告的單模型得到的結(jié)果[5,8,11,18]對(duì)比。只對(duì)比單模型的結(jié)果的原因是,我們提出的方法也可以采用模型集成方法來(lái)提升整體分類結(jié)果。因此,在將來(lái)的工作中,我們也會(huì)進(jìn)一步利用本研究中的方法,結(jié)合模型集成,在肺結(jié)節(jié)良惡性分類任務(wù)上取得更好的效果。表5給出了從這些研究中找到的單模型結(jié)果,并給出了良惡性肺結(jié)節(jié)數(shù)量。
表5 與目前研究中單DCNN模型結(jié)果的對(duì)比(N/A:結(jié)果未給出)
本研究提出的方法可以在單模型的情況下,在F1和AUC兩個(gè)指標(biāo)上可以大幅超過(guò)其他研究里的結(jié)果。但是分類的準(zhǔn)確率較低,在此后的研究中也會(huì)關(guān)注提升整體的分類準(zhǔn)確率。另外,我們使用的結(jié)節(jié)數(shù)量也少于最近結(jié)果較好的兩個(gè)研究[5,8],因此,我們之后會(huì)重新處理數(shù)據(jù)集,以取得數(shù)量接近的數(shù)據(jù)集。
本文提出基于深度卷積神經(jīng)網(wǎng)絡(luò)的輔助監(jiān)督信號(hào)的肺結(jié)節(jié)良惡性行分類方法。具體地,我們使用了三維的殘差網(wǎng)絡(luò)作為特征提取的骨干網(wǎng)絡(luò),它能夠使得我們更好地選擇網(wǎng)絡(luò)的大小。更重要的是,我們將肺結(jié)節(jié)的在CT影像中的形態(tài)學(xué)特征作為輔助分類任務(wù),與良惡性分類的主要任務(wù)一起訓(xùn)練。這種多任務(wù)的監(jiān)督學(xué)習(xí)方式,使得僅有少量的訓(xùn)練數(shù)據(jù)時(shí),肺結(jié)節(jié)良惡性分類任務(wù)依然也能取得更好結(jié)果,從而有效地解決該任務(wù)上的小樣本問(wèn)題。
我們將結(jié)果與目前研究中報(bào)告的單模型取得的結(jié)果進(jìn)行對(duì)比,提出的多任務(wù)方法在此條件下是最優(yōu)的。將來(lái),我們會(huì)結(jié)合本研究中的方法,探索多個(gè)骨干網(wǎng)絡(luò)集成的方式,更好地提取肺結(jié)節(jié)的異質(zhì)性表達(dá),從而在此任務(wù)上超過(guò)目前研究報(bào)告的最好結(jié)果。