曹盼 王斐 劉哲 劉錦程 梁礦立 袁吉欣 池峰 黃燁東 楊健
作者單位:710061 西安交通大學(xué)第一附屬醫(yī)院醫(yī)學(xué)放射科(曹盼、王斐、劉哲、楊健);陜西省結(jié)核病防治院(劉錦程、梁礦立、袁吉欣);西安盈谷網(wǎng)絡(luò)科技有限公司(池峰、黃燁東)
當(dāng)前我國(guó)結(jié)核病防控任務(wù)十分艱巨[1],進(jìn)行便捷有效的肺結(jié)核篩查十分重要。世界衛(wèi)生組織推薦胸部X線攝影作為肺結(jié)核早期發(fā)現(xiàn)的重要篩查工具[2]。目前,大規(guī)模肺結(jié)核篩查工作主要在結(jié)核病流行區(qū)域(如新疆、廣東等地區(qū))、學(xué)校及社區(qū)的肺結(jié)核高危人群中開展[3-4],而如果缺乏結(jié)核病診斷經(jīng)驗(yàn)豐富的放射科醫(yī)師,容易造成誤診或漏診。所以開發(fā)自動(dòng)化、專業(yè)化和低成本的人工智能肺結(jié)核篩查技術(shù)顯得十分迫切和重要。
最近,隨著深度學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域的迅速發(fā)展,使得肺結(jié)核自動(dòng)化篩查變?yōu)榭赡躘5-8]。目前,基于醫(yī)學(xué)圖像的深度學(xué)習(xí)應(yīng)用主要分為三類,即分類問題、檢測(cè)問題和圖像分割問題,主要的解決方法是基于深度神經(jīng)卷積網(wǎng)絡(luò)(deep convolutional neural networks,DCNN)。最近3年來已有學(xué)者利用DCNN在肺結(jié)核自動(dòng)分類中取得了很好的效果[7]。而檢測(cè)問題是除了對(duì)圖像進(jìn)行分類之外,更要對(duì)圖像中的病灶進(jìn)行定位,這也是醫(yī)生最費(fèi)時(shí)費(fèi)力的工作之一。筆者嘗試在目前研究很少的肺結(jié)核檢測(cè)方面進(jìn)行探索,預(yù)采用DCNN的其中一種方法——特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN),解決圖像分類及病灶位置的檢測(cè)問題,在不增加原有模型計(jì)算量的情況下,大幅度提升了小病灶的位置檢測(cè)性能,將有希望實(shí)現(xiàn)基于胸部X線攝影圖像(簡(jiǎn)稱“胸片”)進(jìn)行肺結(jié)核人工智能的分類與定位。本研究不僅評(píng)估FPN在胸片上對(duì)健康人和肺結(jié)核患者進(jìn)行分類的效果,更重要的是評(píng)估FPN在肺結(jié)核患者胸片上對(duì)病灶進(jìn)行定位的價(jià)值。
本研究納入3個(gè)符合規(guī)定并且去標(biāo)識(shí)的數(shù)據(jù)集。第1個(gè)數(shù)據(jù)集來自中國(guó)陜西省結(jié)核病防治院2016年1月至2017年12月住院的490例肺結(jié)核患者和100名門診健康體檢者的胸片;其中男350例,女240例,男∶女=1.46∶1,年齡16~78歲,中位年齡45歲。另外2個(gè)數(shù)據(jù)集來自美國(guó)國(guó)立衛(wèi)生研究院[8],分別來自中國(guó)深圳和美國(guó)馬里蘭州蒙哥馬利縣,數(shù)據(jù)類型包括肺結(jié)核患者和正常人。本研究只納入2個(gè)公開數(shù)據(jù)集的肺結(jié)核患者胸片,中國(guó)深圳數(shù)據(jù)集是由深圳市第三人民醫(yī)院2012年9月門診和住院患者中收集的共332例肺結(jié)核患者的胸片,其中男223例,女109例,男∶女=2.05∶1,年齡2~82歲,中位年齡42歲。美國(guó)馬里蘭州蒙哥馬利縣數(shù)據(jù)集是該地區(qū)實(shí)施肺結(jié)核篩查計(jì)劃中收集的58例肺結(jié)核患者胸片,其中男37例,女21例,男∶女=1.76∶1,年齡14~89歲,中位年齡50歲。
陜西省結(jié)核病防治院肺結(jié)核患者納入標(biāo)準(zhǔn):(1)胸片異常,且符合肺結(jié)核及結(jié)核性胸膜炎的胸部X線征象;(2)痰涂片抗酸桿菌陽(yáng)性;(3)臨床可排除其他非結(jié)核性肺部疾病。
陜西省結(jié)核病防治院健康者納入標(biāo)準(zhǔn):(1)胸片正常;(2)臨床可排除肺結(jié)核等疾病。
中國(guó)深圳和美國(guó)馬里蘭州蒙哥馬利縣數(shù)據(jù)集肺結(jié)核納入標(biāo)準(zhǔn):(1)胸片異常,并且符合肺結(jié)核的胸部X線征象;(2)具有專家確診的臨床病例記錄;(3)深圳數(shù)據(jù)集原本共有336例患者,但本研究只納入其中的332例患者,有4例患者未納入,原因是2名參與標(biāo)注和審核的放射醫(yī)師均未在這4張胸片中發(fā)現(xiàn)明確病變。
1. 數(shù)據(jù)預(yù)處理和數(shù)據(jù)標(biāo)注:所有肺結(jié)核患者胸片圖像均由2名結(jié)核病??漆t(yī)院放射科醫(yī)師(分別擁有10年和15年閱讀胸片經(jīng)驗(yàn))進(jìn)行審查和圖像標(biāo)注,人工標(biāo)注的目的是得到圖像標(biāo)簽。根據(jù)FPN網(wǎng)絡(luò)對(duì)人群進(jìn)行分類和目標(biāo)檢測(cè)設(shè)計(jì)了流程圖,見圖1。
圖1 利用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行肺結(jié)核篩檢流程圖
2. 數(shù)據(jù)調(diào)整和擴(kuò)增:胸片圖像矩陣被調(diào)整為512×1024,提取該圖像中的有效區(qū)域,并轉(zhuǎn)換成便攜式網(wǎng)絡(luò)圖形格式(portable network graphics,PNG)。為盡量利用有限的訓(xùn)練數(shù)據(jù),將通過一系列隨機(jī)變換堆數(shù)據(jù)進(jìn)行提升,這有利于抑制過擬合,使得模型的泛化能力更好。本研究中對(duì)于圖像數(shù)據(jù)通過反轉(zhuǎn)、旋轉(zhuǎn)、扭曲、縮放圖像等方式來擴(kuò)展訓(xùn)練數(shù)據(jù)。
3. 硬件配置:在深度學(xué)習(xí)過程中需用圖形處理器(graphics processor unit,GPU)加快計(jì)算速度。本研究的仿真實(shí)驗(yàn)使用的是戴爾臺(tái)式機(jī),實(shí)驗(yàn)平臺(tái)使用Linux操作系統(tǒng),處理器為32核Intel(R)Xeon(R)CPU。
4. 建立FPN網(wǎng)絡(luò)模型:本研究基于基礎(chǔ)深度學(xué)習(xí)開源系統(tǒng)TensorFlow(谷歌研發(fā)的第二代人工智能學(xué)習(xí)系統(tǒng)),在已經(jīng)標(biāo)注的數(shù)據(jù)集上評(píng)價(jià)目前目標(biāo)檢測(cè)領(lǐng)域精度最優(yōu)之一的深度學(xué)習(xí)網(wǎng)絡(luò)模型FPN,其基本原理為利用深度卷積網(wǎng)絡(luò)內(nèi)在的多尺度、金字塔分級(jí)來構(gòu)造具有很少需要額外成本的特征金字塔,開發(fā)了一種具有橫向連接的自頂向下架構(gòu),用于在所有尺度上構(gòu)建高級(jí)語(yǔ)義特征映射。預(yù)訓(xùn)練網(wǎng)絡(luò)FPN是經(jīng)基礎(chǔ)的深度學(xué)習(xí)框架Tensor flow構(gòu)建,預(yù)訓(xùn)練模型總共進(jìn)行了200輪訓(xùn)練。
5. 數(shù)據(jù)訓(xùn)練及測(cè)試:本研究將上述980例數(shù)據(jù)按目前深度學(xué)習(xí)領(lǐng)域常用的訓(xùn)練集、測(cè)試集分配比例(分別為80%、20%)[7]的要求,將數(shù)據(jù)集分為訓(xùn)練集780例(張)和測(cè)試集200例(張)。訓(xùn)練集占比大的目的是為了保留足夠多的陽(yáng)性數(shù)據(jù)(本研究陽(yáng)性數(shù)據(jù)為肺結(jié)核患者胸片)用于訓(xùn)練FPN,最終生成最優(yōu)的網(wǎng)絡(luò)模型;測(cè)試集的200張胸片(100張肺結(jié)核患者胸片和100張健康人胸片)用于評(píng)價(jià)最終訓(xùn)練好的FPN泛化能力,即FPN對(duì)未知數(shù)據(jù)的分類定位效能,因此訓(xùn)練集和測(cè)試集的數(shù)據(jù)相互獨(dú)立無(wú)交叉。所有訓(xùn)練集和測(cè)試集數(shù)據(jù)用Python自帶的隨機(jī)數(shù)生成器(Python版本 2.7.6)進(jìn)行隨機(jī)化,目的是最終得出更好的預(yù)測(cè)和更精準(zhǔn)的模型。
當(dāng)臨床上要求對(duì)每幅圖像存在多個(gè)病灶進(jìn)行定性、定量、定位診斷時(shí),需要應(yīng)用自由響應(yīng)受試者工作特征曲線(free-response ROC,F(xiàn)ROC)方法[9]。FROC允許對(duì)每幅胸片圖像上任意區(qū)域的病灶或異常進(jìn)行評(píng)價(jià),因此本研究使用FROC曲線評(píng)價(jià)該模型對(duì)肺結(jié)核患者胸片中病灶的檢測(cè)定位表現(xiàn)。在測(cè)試集上,生成FROC曲線。本研究中的FROC曲線是由Python中的matplotlib庫(kù)生成。此外還對(duì)圖像分類的敏感度和特異度,以及病變定位的真實(shí)檢出率進(jìn)行了評(píng)估。
采用一致性檢驗(yàn),使用MedCalc 18.1.9軟件包進(jìn)行統(tǒng)計(jì)學(xué)處理,以Kappa系數(shù)評(píng)價(jià)2名放射科醫(yī)師間對(duì)肺結(jié)核診斷的一致性,K<0.4為一致性較差,0.4
以痰涂片和放射科醫(yī)師評(píng)估結(jié)果為標(biāo)準(zhǔn),F(xiàn)PN對(duì)測(cè)試集200張胸片進(jìn)行分類的敏感度、特異度和準(zhǔn)確度分別為96.0%、76.0%和86.0%(表1)。
以人工標(biāo)記的病灶為標(biāo)準(zhǔn),測(cè)試集100張肺結(jié)核患者胸片中人工標(biāo)記病灶共226處,F(xiàn)PN共檢測(cè)出病灶242處,標(biāo)記匹配數(shù)198處,檢出匹配數(shù)208處,F(xiàn)PN實(shí)際給出的標(biāo)注框與人工標(biāo)記的標(biāo)注框相同即為二者匹配,其敏感度為87.6%,假陽(yáng)性率為14.0%(表2)。
在評(píng)價(jià)FPN對(duì)肺結(jié)核患者胸片中的病灶定位效能時(shí),使用了FROC曲線,其定位最佳得分達(dá)到88.0%,并且當(dāng)允許更多假陽(yáng)性時(shí),F(xiàn)PN的敏感度不斷增加(圖2)。
表1 以痰涂片和放射科醫(yī)師評(píng)估為標(biāo)準(zhǔn)評(píng)價(jià)FPN對(duì)胸片(200張)分類的效能
注敏感度=真陽(yáng)性例數(shù)/(真陽(yáng)性例數(shù)+假陰性例數(shù))×100%;特異度=真陰性例數(shù)/(真陰性例數(shù)+假陽(yáng)性例數(shù))×100%;準(zhǔn)確度=(真陽(yáng)性例數(shù)+真陰性例數(shù))/(真陽(yáng)性例數(shù)+假陽(yáng)性例數(shù)+真陰性例數(shù)+假陰性例數(shù))×100%
表2 以人工標(biāo)記為標(biāo)準(zhǔn)評(píng)價(jià)FPN檢測(cè)病灶(226處)的效能
注敏感度=標(biāo)記匹配數(shù)/標(biāo)記數(shù)×100%;假陽(yáng)性率=(檢出數(shù)-檢出匹配數(shù))/檢出數(shù)×100%
圖2 FPN的FROC曲線圖
2名放射科醫(yī)師分別對(duì)測(cè)試集的200張胸片進(jìn)行診斷并統(tǒng)計(jì)結(jié)果(表3)。對(duì)2名放射科醫(yī)師診斷肺結(jié)核的結(jié)果進(jìn)行一致性檢驗(yàn),一致性分析結(jié)果顯示,K=0.89,其95%CI值為0.83~0.95。
對(duì)有病灶及異常的胸片,F(xiàn)PN將檢測(cè)定位結(jié)果輸出為自動(dòng)標(biāo)注的紅色邊界框,并在其上方給出該處被認(rèn)為是病灶的預(yù)測(cè)概率,用紅色阿拉伯?dāng)?shù)字標(biāo)明,并精確到小數(shù)點(diǎn)后6位(圖3,4);如果胸片中有多處病灶及異常,F(xiàn)PN將針對(duì)每一處給出紅色邊界框和預(yù)測(cè)概率(圖5,6);對(duì)于正常胸片,F(xiàn)PN不輸出任何標(biāo)注,即輸出為原胸片圖像(圖7,8)。
從2012年開始,深度學(xué)習(xí)逐漸成為機(jī)器學(xué)習(xí)的主流[10-11],已被廣泛應(yīng)用于醫(yī)學(xué)圖像的圖像分割、圖像配準(zhǔn)、計(jì)算機(jī)輔助診斷等領(lǐng)域,并取得了可喜的成果[12-13]。有效的自動(dòng)化和具有成本-效益的方法可幫助發(fā)展中國(guó)家結(jié)核病的篩查和評(píng)估工作,并有助于早期發(fā)現(xiàn)結(jié)核病,降低死亡率。因此,有學(xué)者開始研究利用深度學(xué)習(xí)網(wǎng)絡(luò)在胸片中篩查肺結(jié)核患者。Lakhani和Sundaram[7]使用2種不同的深度卷積神經(jīng)網(wǎng)絡(luò)模型GoogLeNet和AlexNet在公開數(shù)據(jù)集中對(duì)肺結(jié)核和健康人群進(jìn)行分類,2種方法的受試者曲線下面積分別達(dá)到了0.97和0.98。本研究使用了FPN檢測(cè)肺結(jié)核,其具有以下特點(diǎn):(1)主要用于目標(biāo)檢測(cè)、分割、標(biāo)注等相關(guān)研究,尤其是小物體檢測(cè)上效果更加顯著,該模型目前在微軟贊助的大規(guī)模數(shù)據(jù)集(COCO)上測(cè)試的結(jié)果排名第一(該數(shù)據(jù)集英文簡(jiǎn)稱“COCO”,其由30多萬(wàn)張圖片、80個(gè)類別構(gòu)成);(2)可以對(duì)病灶進(jìn)行準(zhǔn)確定位和概率預(yù)測(cè);(3)檢測(cè)結(jié)果直觀、明確,易被放射科醫(yī)師所接受;(4)很好地解決了訓(xùn)練數(shù)據(jù)分類不平衡的問題,增加了圖像中病灶區(qū)域的敏感度。
表3 2名放射科醫(yī)師診斷肺結(jié)核的一致性分析
注Kappa=(p0-pe)/(1-pe),p0為實(shí)際觀察一致率,pe為期望一致率(2次診斷結(jié)果由于偶然機(jī)會(huì)所造成的一致性)
圖3 為肺結(jié)核患者胸片原圖,顯示左肺上野滲出灶 圖4 為FPN輸出結(jié)果,圖中藍(lán)色方框表示人工標(biāo)記的病灶位置,紅色方框表示FPN預(yù)測(cè)的病灶位置,本例預(yù)測(cè)該處可能為病灶的概率是97.8% 圖5 為肺結(jié)核患者胸片原圖,顯示兩肺多發(fā)滲出病灶伴雙側(cè)胸腔積液,其中右側(cè)為液氣胸 圖6 為FPN輸出結(jié)果,圖中綠色邊界框表示人工標(biāo)記的病灶位置,紅色邊界框表示FPN預(yù)測(cè)的病灶位置,可觀察到FPN除檢測(cè)到兩肺實(shí)質(zhì)內(nèi)多發(fā)病變,給出最高95.8%的病灶預(yù)測(cè)概率,還檢測(cè)到雙側(cè)胸腔積液以及右側(cè)液氣胸,給出最高99.6%的病灶預(yù)測(cè)概率 圖7 為健康人胸片原圖,未去除體外異物 圖8 為FPN輸入結(jié)果,紅色邊界框表示FPN預(yù)測(cè)的病灶位置,從圖8中觀察,F(xiàn)PN將位于右肺上野的體外異物及肩胛骨重疊影誤認(rèn)為是病灶,分別給出76.1%和72.9%的預(yù)測(cè)值
本研究使用一個(gè)獨(dú)立而非公共的數(shù)據(jù)集測(cè)試了FPN的檢測(cè)定位性能,該數(shù)據(jù)集中的胸片均為痰涂片培養(yǎng)陽(yáng)性,并且包括了肺實(shí)質(zhì)結(jié)核和結(jié)核性胸膜炎患者,數(shù)據(jù)種類相對(duì)更復(fù)雜。
首先,F(xiàn)PN可對(duì)胸片中的病變進(jìn)行檢測(cè)和定位,使用了清晰直觀的邊界框?qū)Σ≡钸M(jìn)行定位,并在其上方給出該區(qū)域被認(rèn)為是病灶的概率,圖4中FPN認(rèn)為該處可能為病灶的概率為97.8%,這樣的指標(biāo)有利于影像科醫(yī)師對(duì)于結(jié)核病患者初診和復(fù)診胸片進(jìn)行對(duì)比,觀察病灶吸收情況,為臨床醫(yī)師提供療效評(píng)價(jià)。之前,Lakhani和Sundaram[7]及Hwang等[13]的研究中均為分類任務(wù),對(duì)病變的最終展示均為類熱成像圖,病變展示不夠直觀明確,可能會(huì)影響放射科醫(yī)師對(duì)結(jié)核病變的直觀判斷,并且未能提供對(duì)病變的預(yù)測(cè)概率等實(shí)用指標(biāo)。FPN的定位得分(FROC)達(dá)到88.0%,這與Liu等[14]的研究相符合,該研究是利用DCNN在高分辨率的病理圖片上檢測(cè)癌癥轉(zhuǎn)移,對(duì)惡性轉(zhuǎn)移性病變定位取得了很好的效果,其FROC得分高達(dá)89.0%。
其次,F(xiàn)PN可在胸片中檢測(cè)出胸腔積液、液氣胸等結(jié)核性胸膜炎病灶的位置(圖6),而國(guó)外相關(guān)的肺結(jié)核深度學(xué)習(xí)研究中[7,13]均未涉及結(jié)核性胸膜炎的檢測(cè),說明FPN可能對(duì)于結(jié)核性胸膜炎及氣胸等其他類型病灶具有很好的檢出定位效果。
本研究測(cè)試集數(shù)據(jù)都基于中國(guó)患者,更符合我國(guó)患者特征。鑒于目前FPN對(duì)肺內(nèi)病灶和結(jié)核性胸膜炎病灶均有較好的檢出效果,并且隨著高質(zhì)量標(biāo)注數(shù)據(jù)的增加和算法不斷的迭代更新,F(xiàn)PN對(duì)肺結(jié)核病灶的篩檢將更加高效和準(zhǔn)確。因此,在我國(guó)的結(jié)核病流行地區(qū)、學(xué)校及社區(qū)肺結(jié)核高危人群中引入FPN,可能會(huì)在減輕我國(guó)結(jié)核病負(fù)擔(dān)、增強(qiáng)基層醫(yī)療衛(wèi)生機(jī)構(gòu)對(duì)肺結(jié)核的篩檢能力減少漏診方面起到重要作用。
首先,F(xiàn)PN誤判1例患者(圖8),將胸片上異物和肩胛骨重疊影誤判為病灶,這要求患者在放射科進(jìn)行X線胸部攝影時(shí)必須去除體外異物,并且采取標(biāo)準(zhǔn)的攝影體位和曝光條件等。其次,本研究使用回顧性數(shù)據(jù)集,由于訓(xùn)練和測(cè)試數(shù)據(jù)過少,故FPN檢測(cè)性能有待提高。第三,最近Rajpurkar等[15]利用其發(fā)明的CheXnet卷積神經(jīng)網(wǎng)絡(luò),在美國(guó)國(guó)立衛(wèi)生院公開的大規(guī)模胸部X線數(shù)據(jù)集ChestX-ray14上檢測(cè)肺炎,結(jié)果表明該網(wǎng)絡(luò)在包括肺不張、肺實(shí)變、氣胸等14種胸部病變中檢出肺炎的敏感度、特異度和準(zhǔn)確度指標(biāo)均超過了放射科醫(yī)師,為真實(shí)世界中的疾病篩查提供了非常重要的研究方向;而本研究的數(shù)據(jù)集由健康人和肺結(jié)核患者胸片構(gòu)成,疾病種類單一,并且肺結(jié)核患病率遠(yuǎn)低于本研究測(cè)試環(huán)境,因此實(shí)用性不足。在未來將嘗試把本研究的數(shù)據(jù)集與ChestX-ray14數(shù)據(jù)集合并,探索在真實(shí)篩查環(huán)境中FPN檢測(cè)肺結(jié)核的能力。
總之,F(xiàn)PN不僅對(duì)肺結(jié)核患者胸片和健康人胸片分類效果良好,更重要的是實(shí)現(xiàn)了對(duì)病灶位置的檢測(cè)定位。