王穎珊,鄧奧琦,毛瑾玲,朱中旗,石 潔,楊 光,馬偉偉,路 青§,汪紅志*
基于3D VNetTrans的膝關(guān)節(jié)滑膜磁共振圖像自動分割
王穎珊1,鄧奧琦3,毛瑾玲1,朱中旗1,石 潔2#,楊 光1,馬偉偉4,路 青4§,汪紅志1*
1. 華東師范大學(xué) 物理與電子科學(xué)學(xué)院,上海市磁共振重點實驗室,上海 200062;2. 上海市光華中西醫(yī)結(jié)合醫(yī)院,上海 200052;3. 上海市中醫(yī)藥大學(xué) 針灸推拿學(xué)院,上海 200032;4. 上海交通大學(xué)醫(yī)學(xué)院附屬仁濟醫(yī)院,上海 200127
膝關(guān)節(jié)是類風(fēng)濕性關(guān)節(jié)炎(Rheumatoid Arthritis,RA)常見累及關(guān)節(jié),膝關(guān)節(jié)滑膜的精準分割對RA診斷和治療有重要影響,本文提出了一種基于VNet網(wǎng)絡(luò)的改進算法對膝關(guān)節(jié)滑膜磁共振圖像進行自動分割.首先對39名滑膜炎患者的膝關(guān)節(jié)磁共振圖像進行數(shù)據(jù)預(yù)處理,通過將Transformer編碼器嵌入VNet網(wǎng)絡(luò)底部的方式構(gòu)建VNetTrans網(wǎng)絡(luò),使用MemSwish激活函數(shù)進行訓(xùn)練. 最終模型平均Dice系數(shù)為0.758 5,HD為24.6 mm;相較于VNet,Dice系數(shù)提升0.083 6,HD距離減少10 mm.實驗結(jié)果表明,該算法可對膝關(guān)節(jié)磁共振圖像中滑膜增生區(qū)域?qū)崿F(xiàn)較好的3D分割,具有診斷和監(jiān)測RA發(fā)展過程的應(yīng)用價值.
磁共振圖像;醫(yī)學(xué)圖像分割;深度學(xué)習(xí);滑膜炎
類風(fēng)濕關(guān)節(jié)炎(Rheumatoid Arthritis,RA)是一種以慢性侵蝕性關(guān)節(jié)炎為特征的全身性自身免疫病,目前發(fā)病機制尚不明確且無法根治.RA的主要病理特征表現(xiàn)為滑膜炎、滑膜襯里層增厚、血管翳形成以及多種炎癥細胞浸潤,其中關(guān)節(jié)滑膜持續(xù)增多是RA的顯著特點[1].膝關(guān)節(jié)為RA常見累及關(guān)節(jié),膝類風(fēng)濕性關(guān)節(jié)炎多發(fā)于30~50歲中老年女性,在中國大陸地區(qū)總患病人數(shù)逾500萬,且致殘率較高[2].此外調(diào)查顯示,我國RA患者在風(fēng)濕免疫??剖状尉驮\比例低,就診及確診均存在時間延誤[3].
RA的早期診斷對治療和預(yù)后影響重大,臨床醫(yī)師需結(jié)合患者的臨床表現(xiàn)、實驗室和影像學(xué)檢查做出診斷. 選用合適的輔助診斷手段,可減少診斷經(jīng)驗少的醫(yī)師對部分患者的診斷誤差. 具有較高組織對比度的磁共振成像(Magnetic Resonance Image,MRI)作為檢測早期RA病變最敏感的工具,可比常規(guī)放射檢查更早地檢測到滑膜炎、關(guān)節(jié)間隙狹窄、骨侵蝕等癥狀. 同時對一些橫截面組織產(chǎn)生較為立體的觀察,對患者的治療指向性更強,且無電離輻射的傷害[3].
對感興趣的器官和結(jié)構(gòu)進行精確分割,是從醫(yī)學(xué)圖像中提取定量分析指標(biāo)、執(zhí)行計算機輔助診斷決策等任務(wù)不可或缺的前提. 對滑膜磁共振圖像進行分割,有助于在RA診斷和治療期間對滑膜炎患者的滑膜體積進行準確評估. 然而不同的磁共振成像序列對于滑膜的檢出率不盡相同,在T1WI和T2WI常規(guī)序列中滑膜組織呈等或稍高信號,邊界不清晰;層厚較厚時容易出現(xiàn)部分容積效應(yīng),導(dǎo)致一個體素的信號表現(xiàn)為多種組織信號的平均值,包裹積液的滑膜組織,與周圍的肌肉組織、積液之間存在邊界對比度較弱、灰度不均勻等現(xiàn)象,因此膝關(guān)節(jié)滑膜分割任務(wù)十分具有挑戰(zhàn)性.
對滑膜磁共振圖像的分割,手動標(biāo)注的時間成本高且易受主觀因素的影響. 傳統(tǒng)分割方法中,Sugimoto等[4]利用基于高斯法確定的閾值來界定手腕關(guān)節(jié)滑膜炎癥的信號強度邊界,此類基于閾值分割算法[4-7]的半自動分割方法相對手工分割雖可提高分割效率,但受圖像初始信息的影響較大且耗時較長.Perry等[8]使用基于活動輪廓模型的方法來量化膝關(guān)節(jié)滑膜組織的體積,Wang等[9]基于統(tǒng)計形狀模型對踝關(guān)節(jié)滑膜炎癥區(qū)進行分割,此類需使用預(yù)定義模型的半自動分割方法[8,9],相對閾值分割方法耗時減少,但對復(fù)雜圖像分割的準確性和魯棒性仍需提升.
近年來,基于深度學(xué)習(xí)的方法已經(jīng)成為許多醫(yī)學(xué)圖像分割和分類任務(wù)的主流方法.在超聲圖像的應(yīng)用方面,Andersen等[10]首次利用卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)對RA患者手腕關(guān)節(jié)超聲圖像滑膜炎的嚴重程度進行簡單分類;Christensen等[11]針對EULAR-OMERACT滑膜炎超聲評分系統(tǒng),設(shè)計了級聯(lián)的CNN網(wǎng)絡(luò)進行RA自動分級,進一步提升滑膜炎嚴重程度分類的準確性. 在磁共振圖像應(yīng)用方面,Iqbal等[12]利用改進的CNN進行遷移學(xué)習(xí)自動檢測T2序列膝關(guān)節(jié)磁共振圖像中的滑膜積液;Wong等[13]利用UNet對T2W脂肪抑制序列的手腕關(guān)節(jié)磁共振圖像的腕部骨骼進行分割;本課題組初步進行了利用改進的UNet系列網(wǎng)絡(luò)對T1W序列手腕關(guān)節(jié)磁共振圖像的滑膜進行分割的研究[14,15],但由于卷積運算只關(guān)注局部信息的局限性,對于滑膜的紋理和形狀個體差異較大的病例分割效果較差.此外,上述研究[12-15]均使用2D卷積核進行分割,缺少對于切片間連續(xù)信息的特征學(xué)習(xí).
本文選用針對三維醫(yī)學(xué)圖像數(shù)據(jù)設(shè)計的使用3D卷積核進行整體分割的VNet網(wǎng)絡(luò).另外,滑模分割任務(wù)的個體差異較大的特點與腦腫瘤分割任務(wù)的特點相似,因此本文參考腦腫瘤分割任務(wù)中表現(xiàn)較好的TransBTS[16]網(wǎng)絡(luò),引入對長距離關(guān)系建模的Transformer結(jié)構(gòu),對全局信息進行特征提取. 本文探究了膝關(guān)節(jié)滑膜分割任務(wù)下CNN-Transformer結(jié)構(gòu)的潛力,提出一種基于改進的VNet網(wǎng)絡(luò)的膝關(guān)節(jié)滑膜分割算法,對滑膜磁共振圖像進行3D分割.
本文在TransBTS的基礎(chǔ)上改進,提出了一種結(jié)合VNet網(wǎng)絡(luò)和Transformer編碼器的深度學(xué)習(xí)網(wǎng)絡(luò)模型—VNetTrans網(wǎng)絡(luò),用于實現(xiàn)膝關(guān)節(jié)滑膜磁共振圖像的自動3D分割. 該方法的流程如圖1所示,包含以下步驟:1)預(yù)處理階段,對原始膝關(guān)節(jié)磁共振圖像進行統(tǒng)一分辨率和方位、歸一化、直方圖均衡化操作;對于訓(xùn)練集數(shù)據(jù)進行ROI的裁剪和數(shù)據(jù)增強,擴充訓(xùn)練數(shù)據(jù),增加樣本多樣性;2)訓(xùn)練階段,搭建VNetTrans網(wǎng)絡(luò),訓(xùn)練網(wǎng)絡(luò)得到最佳模型;3)利用最佳模型對測試集進行分割.
圖1 本文實驗流程
在2D分割方面,完全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)首次實現(xiàn)端到端的語義分割,遵循編碼器-解碼器的網(wǎng)絡(luò)結(jié)構(gòu),可對輸入的任意尺寸的圖像進行語義分割[17]. 進一步改進和發(fā)展的UNet網(wǎng)絡(luò)[18]采用對稱的編碼解碼結(jié)構(gòu),添加了跳躍連接,將低分辨率和高分辨率的特征圖進行融合以提高細節(jié)保留率,從而成為醫(yī)學(xué)圖像分割的主流框架. 然而計算機斷層掃描(Computed Tomography,CT)和磁共振圖像等大多數(shù)醫(yī)學(xué)數(shù)據(jù)都以3D形式存在,因此使用3D卷積核可更好地挖掘數(shù)據(jù)的高維空間相關(guān)性. 3D UNet[19]將UNet架構(gòu)直接擴展應(yīng)用到3D數(shù)據(jù). 但由于計算資源的限制,該網(wǎng)絡(luò)只包含三次下采樣,無法有效提取深層圖像信息,導(dǎo)致分割精度有限.
VNet[20]作為3D UNet網(wǎng)絡(luò)的變體,針對3D UNet分割精度有限的問題,利用殘差連接設(shè)計了更深層次的網(wǎng)絡(luò)(采用4次下采樣),從而實現(xiàn)更高的分割性能. VNet網(wǎng)絡(luò)左側(cè)的下采樣路徑可分為若干階段,每個階段由1~3個卷積層對不同分辨率的特征圖進行編碼提取特征. 卷積過程中利用了殘差連接的思路,前層的特征圖與其在本階段卷積后的特征圖相加. 與UNet對稱的編碼解碼結(jié)構(gòu)類似,上采樣路徑采用跳躍連接融合左側(cè)下采樣過程中的特征圖,通過該方式收集在壓縮路徑中丟失的細粒度細節(jié).
盡管基于CNN的方法有很好的效果,但由于卷積核的感受野有限,很難充分利用上下文信息來對目標(biāo)建立長距離依賴關(guān)系. 卷積運算的局限性給全局語義信息的學(xué)習(xí)帶來挑戰(zhàn),然而對于分割任務(wù)而言,全局語義信息至關(guān)重要. 受啟發(fā)于自然語言處理領(lǐng)域中的注意力機制[21],Vision Transformer[22]直接將圖片分割為小塊,僅利用具有全局自注意力機制的Transformer為不同圖像塊的相關(guān)性進行建模,對圖像序列進行分類.Transformer完全基于注意力機制而摒棄了卷積操作,在建模全局上下文方面功能強大. 該編碼器主要包含多層感知器(Multi-Layer Perceptron,MLP)和多頭注意力機制(Multi-Head Attention,MHA)兩個子結(jié)構(gòu). 每個子結(jié)構(gòu)前進行層標(biāo)準化(Layer Norm),子結(jié)構(gòu)后添加殘差連接,如圖2(a)所示.
圖2 (a) Transformer編碼器;(b)多頭注意力機制(MHA)[21]
(2)
Hinton等[23]提出的ReLU激活函數(shù)表達式簡單,易于求導(dǎo),但由于函數(shù)負半軸梯度始終為0,在學(xué)習(xí)率設(shè)定較大時會發(fā)生神經(jīng)元壞死的情況.
Swish函數(shù)[24]是由Google Brain提出的效果優(yōu)于ReLU的激活函數(shù),對其負值部分進行了優(yōu)化. 通過自適應(yīng)學(xué)習(xí)參數(shù)在負半軸添加一個很小的線性分量,來緩解負值的零梯度問題,其數(shù)學(xué)表達如(3)式所示:
b為常數(shù)或可訓(xùn)練參數(shù),不同b取值的函數(shù)圖像及其一階導(dǎo)數(shù)如圖3所示. 可看到當(dāng)b趨向于0時,Swish函數(shù)變成線性函數(shù);當(dāng)b趨向正無窮時,部分趨向于離散的0-1函數(shù),Swish函數(shù)可近似為ReLU函數(shù). 由此,Swish函數(shù)可寬泛地視為平滑的函數(shù),非線性地內(nèi)插在線性函數(shù)和ReLU之間,降低了模型訓(xùn)練過程中發(fā)生梯度消失、梯度爆炸的概率. Swish函數(shù)具有無上界有下界、非單調(diào)且平滑的特性,使其在不同任務(wù)和不同數(shù)據(jù)集上表現(xiàn)出普遍優(yōu)于其他主流激活函數(shù)的性能.
本文選用的MemSwish激活函數(shù)參考了EfficientNet[25]的實現(xiàn)思路,重新設(shè)計了Swish激活函數(shù)在反向傳播過程中的計算方式,使得前向傳播過程中的計算量得以保存,并可被重構(gòu)在反向傳播過程中再使用,避免了重復(fù)計算造成的資源浪費及顯存占用. 相比于使用Swish激活函數(shù),MemSwish激活函數(shù)可在訓(xùn)練過程中節(jié)約10%~30%的顯存占用.
對于需要密集預(yù)測像素點的分割任務(wù),局部和全局信息都很重要. 若單純利用Transformer對分割的圖像塊進行編碼,將二維圖像轉(zhuǎn)換為一維序列,所有階段只關(guān)注于對全局上下文建模,將缺乏詳細定位信息的低分辨率特征直接上采樣到全分辨率特征圖時,會無法有效恢復(fù)相關(guān)定位信息而導(dǎo)致分割結(jié)果粗糙[26]. 對3D MRI掃描數(shù)據(jù)連續(xù)切片間的局部特征進行建模也是圖像分割的關(guān)鍵. 基于CNN架構(gòu)的網(wǎng)絡(luò)可以提供一種提取底層視覺線索的方法,很好彌補精細的空間信息. 由此本文嘗試采用CNN-Transformer的架構(gòu),綜合利用來自CNN編碼的局部空間信息和Transformer編碼的全局上下文信息. 參考TransBTS,提出VNetTrans網(wǎng)絡(luò)對膝關(guān)節(jié)滑膜磁共振圖像進行3D分割,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示.
圖4 VNetTrans網(wǎng)絡(luò)架構(gòu)
TransBTS在編碼過程中僅進行3次下采樣且每層卷積次數(shù)為固定2次;本文選擇將CNN左側(cè)編碼器進行4次下采樣(Downsample),在下采樣路徑中的不同階段,由1~3個卷積層(Convolution layer)對不同分辨率的特征圖進行特征提??;在每一層的編碼器添加殘差塊,將輸入每個階段的特征圖與其在本階段卷積后的特征圖相加(Add),增加模型深度的同時確保模型有效收斂;并且使用MemSwish激活函數(shù),提高模型的非線性表達能力,提升模型整體的分割性能.
Transformer編碼器由層編碼器組成,每層編碼器都有一個標(biāo)準結(jié)構(gòu),由一個MHA子結(jié)構(gòu)和一個MLP子結(jié)構(gòu)組成. 選用編碼器層數(shù)為4,MHA中的頭部數(shù)量為8,序列化編碼的圖像塊大小為16.
本文所用數(shù)據(jù)來自于上海市光華中西醫(yī)結(jié)合醫(yī)院2021年2月至2022年1月收治的膝關(guān)節(jié)受損的患者共40例,全部患者行MRI檢查. 檢查前均對病人告知檢查內(nèi)容,獲得其同意并簽署知情同意書. 患者中男性11例,女性29;年齡分布為37~87歲,均值為62歲;患類風(fēng)關(guān)的病人31例,患關(guān)節(jié)痛病人6例,患半月板損傷2例和尪痹1例. 除一例發(fā)生嚴重骨侵蝕,滑膜組織所剩無幾的類風(fēng)關(guān)晚期患者外,共39例病例納入研究. 按病例進行數(shù)據(jù)拆分,同一病例的所有圖像屬于同一數(shù)據(jù)集,以近似75:12.5:12.5的比例分為訓(xùn)練集、驗證集和測試集.
MRI掃描由影像科醫(yī)生負責(zé)操作. 圖像采集使用Siemens Avanto 1.5 T MRI掃描儀,采用為滿足本項目研究而定制的基于FLAIR和STIR優(yōu)化的PD序列. 掃描參數(shù)為:回波時間TE=21 ms,重復(fù)時間TR=10 420 ms,反轉(zhuǎn)時間TI=2 200 ms,視野FOV=160 mm′160 mm,掃描層厚=3 mm,單層圖像尺寸=256′256,方位為冠狀位,掃描層數(shù)為20~23. 所用圖像存儲格式為DICOM格式,由放射科一名副主任醫(yī)師和兩名主治醫(yī)師利用ITK-SNAP[27]對滑膜進行手工勾畫標(biāo)注作為金標(biāo)準.
在數(shù)據(jù)預(yù)處理過程中,本文對不同圖像對比度增強方法的處理效果進行了對比.圖5(b)直接進行簡單的直方圖對比度拉伸,結(jié)果顯示相比原始圖像,滑膜與周圍其他組織之間對比度區(qū)分不大. 圖5(c)使用傳統(tǒng)的直方圖均衡化進行圖像增強,當(dāng)圖像存在明顯的暗區(qū)像素值分布不均衡時放大了噪聲. 以圖5(d)箭頭所指髕上囊處、滑膜皺褶處和股骨軟骨周圍處為例,CLAHE算法可在增強圖像對比度同時較好的抑制噪聲,使得滑膜局部細節(jié)更為清晰和明顯. 圖5第二行4幅圖中的紅色曲線為累積分布函數(shù)(Cumulative Distribution Function,CDF),代表直方圖的積分;對比原始圖像,在保留了圖像原有特征的基礎(chǔ)上,圖5(d)對應(yīng)圖像下方的黑色直方圖整體分布更為均衡,CDF曲線更加平滑.
圖5 使用不同圖像對比度增強方法的效果對比. (a)原始圖像,(b)對比度拉伸,(c)直方圖均衡化,(d) CLAHE
模型訓(xùn)練和數(shù)據(jù)預(yù)處理使用基于PyTorch的醫(yī)療影像深度學(xué)習(xí)框架MONAI 0.8.0,實驗運行環(huán)境為NVIDIA GeForce RTX 2080Ti,操作系統(tǒng)為Ubuntu18.04,編程語言為Python3.7.本文所有模型訓(xùn)練超參設(shè)置相同,設(shè)定循環(huán)次數(shù)epoch為600次,學(xué)習(xí)率初始化為1e-4,優(yōu)化器為Adam,損失函數(shù)選擇Dice Loss.
為驗證本文使用MemSwish激活函數(shù)的改進算法VNetTrans對滑膜磁共振圖像進行3D分割的有效性,在訓(xùn)練超參設(shè)定相同的情況下,實驗對比了:(1)UNet和VNet模型使用2D和3D卷積核分割的效果;(2)UNet和VNetTrans模型分別使用ReLU、Swish、MemSwish激活函數(shù)訓(xùn)練的分割效果;(3)使用MemSwish激活函數(shù)的VNetTrans模型和使用原文獻相同激活函數(shù)的UNet、VNet、TransBTS、UNETR模型訓(xùn)練的分割效果;(4)針對使用MemSwish激活函數(shù)的VNetTrans模型的消融實驗.
本文使用Dice系數(shù)、相對體積差分(Relative Volume Difference,RVD)、靈敏度(Sensitivity)、特異性(Specificity)和豪斯多夫距離(Hausdorff distance,HD),來定量評估算法的分割性能.
對于給定mask的語義分割任務(wù),分別表示ground truth(真值)和prediction(預(yù)測值);分別表示真值和預(yù)測值的表面點集,屬于的子集;TP、FP、TN、FN分別為真陽性(被模型預(yù)測為滑膜的滑膜區(qū)域)、假陽性(被模型預(yù)測為滑膜的背景區(qū)域)、真陰性(被模型預(yù)測為背景的背景區(qū)域)、假陰性(被模型預(yù)測為背景的滑膜區(qū)域)的數(shù)量.
Dice系數(shù)對mask的內(nèi)部填充比較敏感,而HD則對分割出的邊界比較敏感.RVD用于評估過分割或欠分割,為正則表示過分割,為負則表示欠分割.靈敏度代表分割方法正確識別ROI像素的概率,特異性則代表正確識別背景像素的概率.HD使用真值和預(yù)測值的表面點集之間95%的距離,最小化離群值對HD計算的影響.
計算機視覺領(lǐng)域圖像分割任務(wù)中的醫(yī)學(xué)圖像與自然圖像之間存在數(shù)據(jù)維度的差異. 醫(yī)學(xué)影像數(shù)據(jù)(例如CT、MRI等)多以3D數(shù)據(jù)形式存在,2D網(wǎng)絡(luò)難以學(xué)習(xí)層與層之間具有相互關(guān)聯(lián)的上下文信息,使用3D卷積核可更好的挖掘到數(shù)據(jù)的高維空間相關(guān)性. 本文選用UNet和VNet針對本分割任務(wù)使用不同維度卷積核分割,其中UNet選用3′3的2D卷積核和3′3′3的3D卷積核進行三次下采樣,VNet選用相同卷積核進行四次下采樣. 如表1所示,3D卷積核在兩個網(wǎng)絡(luò)模型分割的表現(xiàn)均優(yōu)于2D卷積核,這表明對于本文分割任務(wù)而言,3D卷積核可更好的獲取切片間的連續(xù)信息,實現(xiàn)更優(yōu)的整體分割性能.
表1 2D和3D分割效果對比
本文選擇3D UNet和VNetTrans網(wǎng)絡(luò)來測試不同激活函數(shù)的表現(xiàn). 如表2所示,在UNet模型上,使用MemSwish激活函相比較于原Swish函數(shù)整體網(wǎng)絡(luò)訓(xùn)練耗時減少了12%. 相較于ReLU函數(shù),Dice系數(shù)提升了0.014 2,HD減少了34.8 mm. 在VNetTrans模型上,使用MemSwish激活函數(shù)也使得整體的分割表現(xiàn)更優(yōu). 該實驗表明在本分割任務(wù)中選用MemSwish函數(shù)可有效提升網(wǎng)絡(luò)整體性能.
表2 在UNet和VNetTrans模型中采用不同激活函數(shù)的結(jié)果對比
在相同的實驗環(huán)境及配置下,本文采用UNet[19]、VNet[20]、TransBTS[16]以及UNETR[28]四種分割網(wǎng)絡(luò)與本文方法對膝關(guān)節(jié)滑膜進行3D分割. 四種分割網(wǎng)絡(luò)的參數(shù)設(shè)置和使用的激活函數(shù)與原文獻相同,采用相同的數(shù)據(jù)預(yù)處理操作后輸入網(wǎng)絡(luò)進行訓(xùn)練,表3為對比結(jié)果.
表3 不同網(wǎng)絡(luò)模型之間的結(jié)果對比
相較于UNet網(wǎng)絡(luò),本文算法得到的Dice系數(shù)提升0.105 7,HD減少了47.6 mm,特異性提升了0.007 9. UNETR網(wǎng)絡(luò)使用Transformer結(jié)構(gòu)作為唯一的編碼器,由于本分割任務(wù)的數(shù)據(jù)量較少,并不能充分利用該編碼器提取特征信息,表3中UNETR網(wǎng)絡(luò)的Dice系數(shù)低于僅使用CNN結(jié)構(gòu)作為編碼器的UNet和VNet網(wǎng)絡(luò),與一些實驗研究[22]表明在數(shù)據(jù)量較少的情況下CNN結(jié)構(gòu)表現(xiàn)優(yōu)于Transformer結(jié)構(gòu)一致,說明直接將Transformer結(jié)構(gòu)作為編碼器對于本分割任務(wù)而言并不合理. 先使用CNN進行高維度語義信息的提取,再將Transformer結(jié)構(gòu)嵌入的本文算法可以更好的利用CNN獲取局部特征所需數(shù)據(jù)量小以及Transformer獲取全局特征的優(yōu)勢,提升網(wǎng)絡(luò)性能. 相較于VNet,本文算法的Dice系數(shù)提升0.083 6,HD減少10 mm,敏感度和特異性上均有所提升,算法整體有欠分割的傾向,但相比其他模型RVD絕對值最小,總體分割誤差最小.
針對分布位置、形態(tài)各不相同的滑膜進行分割,難點之一與腦腫瘤分割任務(wù)特點相似,即病灶形狀、紋理的個體差異大. 本文與在腦腫瘤分割任務(wù)上表現(xiàn)較優(yōu)的TransBTS作對比,由表3可以看出,本文模型的Dice系數(shù)更高,HD更?。畯膱D6(a)可以看出在前3 000步迭代中,本文模型整體收斂更快;從圖6(b)驗證集的Dice系數(shù)曲線可以看到,本文模型整體在驗證集上的Dice表現(xiàn)優(yōu)于TransBTS,證明利用殘差連接設(shè)計更深層次的網(wǎng)絡(luò)有助于網(wǎng)絡(luò)模型收斂和性能提升.
使用不同網(wǎng)絡(luò)模型對膝關(guān)節(jié)滑膜分割的結(jié)果比較如圖7所示,圖中選取了測試集的三個病例(上、中、下)進行展示,圖中數(shù)值為對應(yīng)模型分割結(jié)果的Dice系數(shù). 對比可得,本文算法在分割結(jié)果上整體與醫(yī)生的金標(biāo)準最相近. 相較于其他網(wǎng)絡(luò)模型,對于髕上囊處滑膜與肌肉組織間的區(qū)分更為清晰,且能很好的區(qū)別滑膜組織與積液. 相比于醫(yī)生的勾畫結(jié)果,在韌帶、股骨下端與脛骨上緣周圍許多細節(jié)部位的分割更為精細,彌補了醫(yī)生不能手動逐像素點勾畫的不足,整體邊界流暢無毛刺,便于后期更好地進行滑膜容積測算,觀察治療期間用藥情況的有效性.
圖6 基于不同網(wǎng)絡(luò)的膝關(guān)節(jié)滑膜磁共振圖像分割的訓(xùn)練過程. (a)訓(xùn)練集的loss曲線,(b)驗證集的Dice系數(shù)曲線
圖7 不同網(wǎng)絡(luò)模型的膝關(guān)節(jié)滑膜分割結(jié)果對比
為進一步評估本文模型中Transformer模塊和MemSwish激活函數(shù)的有效性,本文通過刪除和替換該模塊及激活函數(shù),以確定兩者對于網(wǎng)絡(luò)性能的影響. 以在本文模型的基礎(chǔ)上刪除了Transformer模塊,并選用ReLU激活函數(shù)的原VNet作為基礎(chǔ)網(wǎng)絡(luò). 然后比較(1)基礎(chǔ)VNet網(wǎng)絡(luò)、(2)將基礎(chǔ)VNet網(wǎng)絡(luò)中的ReLU激活函數(shù)替換為MemSwish后的網(wǎng)絡(luò)、(3)在基礎(chǔ)VNet網(wǎng)絡(luò)中加入Transformer模塊后的網(wǎng)絡(luò)、(4)在基礎(chǔ)VNet中同時加入(2)、(3)操作后的網(wǎng)絡(luò)(即本文網(wǎng)絡(luò))的分割性能(表4).
表4 消融實驗
從表4可以看到,相比于基礎(chǔ)VNet網(wǎng)絡(luò),替換了MemSwish激活函數(shù)后的網(wǎng)絡(luò)的Dice系數(shù)提升0.021 3,加入Transformer模塊后的Dice系數(shù)提升0.039 1.后者比前者的Dice系數(shù)提高0.017 8.說明Transformer模塊相對于激活函數(shù),對于網(wǎng)絡(luò)整體性能提升的影響更大. 兩者融合后的方法可以彌補僅改進激活函數(shù)后分割結(jié)果的過分割程度,相比基礎(chǔ)VNet網(wǎng)絡(luò)的敏感度和特異性分別提高了0.037 1、0.003 5.
本文提出了一種基于3D VNetTrans網(wǎng)絡(luò)的膝關(guān)節(jié)滑膜磁共振圖像分割算法. 首先利用3D CNN生成特征圖以捕獲空間和深度信息,再利用Transformer編碼器對于全局空間中的長距離依賴關(guān)系進行建模,最后在上采樣路徑中采用跳躍連接將下采樣壓縮路徑中不同階段的特征圖進行融合,逐步得到高分辨率的分割結(jié)果. 實驗結(jié)果表明,相比原VNet網(wǎng)絡(luò)和其他主流分割算法,VNetTrans可得到較好的分割結(jié)果. 這歸功于本文算法在下采樣過程的不同階段加入殘差結(jié)構(gòu),增加網(wǎng)絡(luò)深度的同時改善了網(wǎng)絡(luò)退化和梯度爆炸的問題. 利用具有捕獲長連接能力的Transformer模塊加深網(wǎng)絡(luò)對特征的學(xué)習(xí)能力,對于滑膜整體形態(tài)和分布有更強的學(xué)習(xí)能力. 同時,使用MemSwish激活函數(shù)相較Swish函數(shù)可有效減少顯存占用提升網(wǎng)絡(luò)訓(xùn)練速度.
但本文算法仍有需改進之處,存在對與軟骨交界處、匍匐包繞十字交叉韌帶生長的滑膜邊界不能進行較好分辨的問題. 針對該問題,可在未來的工作中嘗試利用不同模態(tài)的磁共振圖像,引入多模態(tài)磁共振圖像融合的特征進行學(xué)習(xí),以更好的分辨膝關(guān)節(jié)不同組織的解剖位置.
無
[1] SMOLEN J S, ALETAHA D, BARTON A, et al. Rheumatoid arthritis[J]. Nat Rev Dis Primers, 2018, 4(1): 18001.
[2] JIN S Y, LI M T, FANG Y F, et al. Chinese registry of rheumatoid arthritis (CREDIT): II.prevalence and risk factors of major comorbidities in Chinese patients with rheumatoid arthritis[J]. Arthritis ResTher, 2017, 19(1): 251.
[3] ASSOCIATION C R. 2018 Chinese guideline for the diagnosis and treatment of rheumatoid arthritis[J]. Chin J Intern Med, 2018, 57(4): 242-251.
中華醫(yī)學(xué)會風(fēng)濕病學(xué)分會. 2018中國類風(fēng)濕關(guān)節(jié)炎診療指南[J]. 中華內(nèi)科雜志, 2018, 57(4): 242-251.
[4] SUGIMOTO H, TAKEDA A, KANO S. Assessment of disease activity in rheumatoid arthritis using magnetic resonance imaging: quantification of pannus volume in the hands[J]. Bri J Rheumatol, 1998, 37(8): 854-861.
[5] OSTERGAARD M. Different approaches to synovial membrane volume determination by magnetic resonance imaging: manual versus automated segmentation[J]. Rheumatology, 1997, 36(11): 1166-1177.
[6] SAKASHITA T, KAMISHIMA T, KOBAYASHI Y, et al. Accurate quantitative assessment of synovitis in rheumatoid arthritis using pixel-by-pixel, time-intensity curve shape analysis[J]. Br JRadiol, 2016, 89(1061): 20151000.
[7] FOTINOS-HOYER A K, GUERMAZI A, JARA H, et al. Assessment of synovitis in the osteoarthritic knee: comparison between manual segmentation, semiautomated segmentation, and semiquantitative assessment using contrast-enhanced fat-suppressed T1-weighted MRI[J]. Magn Reson Med, 2010, 64(2): 604-609.
[8] PERRY T A, GAIT A, O’NEILL T W, et al. Measurement of synovial tissue volume in knee osteoarthritis using a semiautomated MRI-based quantitative approach[J]. Magn Reson Med, 2019, 81(5): 3056-3064.
[9] WANG A, FRANKE A, WESARG S. Semi-automatic segmentation of JIA-induced inflammation in MRI images of ankle joints[C]// Medical Imaging 2019: Image Processing, SPIE, 2019, 10949: 875-881.
[10] ANDERSEN J K H, PEDERSEN J S, LAURSEN M S, et al. Neural networks for automatic scoring of arthritis disease activity on ultrasound images[J]. RMD open, 2019, 5(1): e000891.
[11] CHRISTENSEN A B H, JUST S A, ANDERSEN J K H, et al. Applying cascaded convolutional neural network design further enhances automatic scoring of arthritis disease activity on ultrasound images from rheumatoid arthritis patients[J]. Ann Rheum Dise, 2020, 79(9): 1189-1193.
[12] IQBAL I, SHAHZAD G, RAFIQ N, et al. Deep learning-based automated detection of human knee joint's synovial fluid from magnetic resonance images with transfer learning[J]. IET Image Processing, 2020, 14(10): 1990-1998.
[13] WONG L M, SHI L, XIAO F, et al. Fully automated segmentation of wrist bones on T2-weighted fat-suppressed MR images in early rheumatoid arthritis[J]. Quant Imag Med Surg, 2019, 9(4): 579.
[14] WEI X N, XIN J Q, WANG Z Y, et al. Magnetic resonance image segmentation of articular synovium based on improved U-Net[J]. Journal of Computer Applications, 2020, 40(11): 3340-3345.
魏小娜, 邢嘉祺, 王振宇, 等. 基于改進U-Net的關(guān)節(jié)滑膜磁共振圖像的分割[J]. 計算機應(yīng)用, 2020, 40(11): 3340-3345.
[15] WANG Z Y, WANG Y S, MAO J L, et al. Magnetic resonance images segmentation of synovium based on Dense-UNet++[J]. Chinese J Magn Reson, 2022, 39(2): 208-219.
王振宇, 王穎珊, 毛瑾玲, 等. 基于Dense-UNet++的關(guān)節(jié)滑膜磁共振圖像分割[J]. 波譜學(xué)雜志, 2022, 39(2): 208-219.
[16] WANG W X, CHEN C, DING M, et al. TransBTS: Multimodal brain tumor segmentation using transformer[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2021: 109-119.
[17] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]// Proceedings of the IEEE conference on computer vision and pattern recognition, 2015: 3431-3440.
[18] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]// International Conference on Medical image computing and computer-assisted intervention, Cham: Springer, 2015: 234-241.
[19] ?I?EK ?, ABDULKADIR A, LIENKAMP S S, et al. 3D U-Net: learning dense volumetric segmentation from sparse annotation[C]// International conference on medical image computing and computer-assisted intervention. Springer, 2016: 424-432.
[20] MILLETARI F, NAVAB N, AHMADI S-A. V-net: Fully convolutional neural networks for volumetric medical image segmentation[C]// 2016 fourth international conference on 3D vision (3DV), IEEE, 2016: 565-571.
[21] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the Advances in Neural Information Processing Systems, 2017: 6000-6010.
[22] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16′16 words: Transformers for image recognition at scale[OL]. arXiv preprint arXiv:2010.11929, 2020.
[23] NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines[C]// Proceedings of the 27th International Conference on International Conference on Machine Learning, Haifa, Israel: 2010: 807-814.
[24] RAMACHANDRAN P, ZOPH B, LE Q V. Searching for activation functions[J]. arXiv preprint arXiv:1710.05941, 2017.
[25] TAN M, LE Q. Efficientnet: Rethinking model scaling for convolutional neural networks[C]// International conference on machine learning, PMLR, 2019: 6105-6114.
[26] YUAN L, CHEN Y, WANG T, et al. Tokens-to-token vit: Training vision transformers from scratch on imagenet[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 558-567.
[27] YUSHKEVICH P A, GAO Y, GERIG G. ITK-SNAP: An interactive tool for semi-automatic segmentation of multi-modality biomedical images[C]// 2016 38th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), IEEE, 2016: 3342-3345.
[28] HATAMIZADEH A, TANG Y, NATH V, et al. Unetr: Transformers for 3d medical image segmentation[C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2022: 574-584.
Automatic Segmentation of Knee Joint Synovial Magnetic Resonance Images Based on 3D VNetTrans
1,3,1,1,2#,1,4,4§,1*
1. Shanghai Key Laboratory of Magnetic Resonance, School of Physics and Electronic Science, East China Normal University, Shanghai 200062, China; 2. Shanghai Guanghua Hospital of Integrated Traditional Chinese and Western Medicine, Shanghai 200052; China; 3. College of Acupuncture and Massage, Shanghai University of Chinese Medicine, Shanghai 200032, China; 4. Renji Hospital, School of Medicine, Shanghai Jiao Tong University, Shanghai 200127, China
Knee joint is commonly hurt by rheumatoid arthritis (RA). Accurate segmentation of synovium is essential for the diagnosis and treatment of RA. This paper proposes an algorithm based on improved VNet for automatically segmenting knee joint synovial magnetic resonance images. Firstly, the knee joint magnetic resonance images of 39 patients with synovitis were preprocessed. VNetTrans was constructed by embedding Transformer at the bottom of VNet. The MemSwish activation function was used for training. The average Dice score of the final model is 0.758 5 and the HD is 24.6 mm. Compared with VNet, the proposed model increased Dice score by 0.083 6 and decreased HD by 10 mm. Experimental results demonstrated that the proposed algorithm achieved satisfying 3D segmentation of the synovial hyperplasia area in the knee magnetic resonance images. It can be utilized to facilitate the diagnosis and monitoring of RA.
magnetic resonance image, medical image segmentation, deep learning, synovitis
O482.53
A
10.11938/cjmr20222988
2022-03-23;
2022-05-11
國家自然科學(xué)基金重點項目(61731009).
* Tel: 13916346546, E-mail: hzwang@phy.ecnu.edu.cn;
# Tel: 021-62805833, E-mail: ghyyfsk@163.com;
§ Tel: 13621724042, E-mail: drluqingsjtu@163.com.