楊成文 馮遠明 李銘 郭露 王偉
食管癌是目前世界范圍內最為常見的惡性腫瘤之一[1]。放射治療在食管癌的臨床治療中起著關鍵作用,進展期食管癌通常采用根治性手術輔以放化療,晚期食管癌常使用化療和放射治療的綜合治療方案[2]。在放射治療前對腫瘤進行預后評估,并在放射治療過程中及時監(jiān)測腫瘤的治療響應,對于實施個體化精確放射治療和提高患者整體生存率至關重要。
放射組學被定義為“高通量、自動地從醫(yī)學影像中提取大批量化的影像特征”,通過量化醫(yī)學影像的灰度模式和灰度關聯,來解碼腫瘤細胞間或細胞內的異質性和病理學特征[3]。目前,文獻常用的放射組學特征包括腫瘤直方圖強度、腫瘤形狀特征、紋理特征和小波變換特征等[4]。
Yip等[3]使用CT圖像紋理評估食管癌在放化療前后的腫瘤異質性,結果顯示腫瘤區(qū)域紋理特征,如治療前后直方圖分布的峰態(tài)比例<3.54和標準差的比例<0.43,以及治療后的平均灰度級強度<3.51時,患者的生存期較長,預后較好。Larue等[4]從165例食管癌患者的CT圖像中提取1 049個紋理特征,最終篩選出灰度共生矩陣(gray-level co-occurrence matrix,GLCM)、灰度游程長度矩陣(gray-level run length matrix,GLRLM)、灰度尺寸區(qū)域(gray-level size zone matrix,GLSZM)、鄰域灰度依賴(neighbouring gray-level dependence matrix,NGLDM)、鄰域灰度差異(neighbouring gray tone difference matrix,NGTDM)等40個特征,與6個臨床指標相結合,用于預測患者的3年生存率;結果顯示,訓練組和驗證組的接收者操作曲線(receiver operating curve,ROC)下的面積(area under the curve,AUC)分別為0.69和0.61。
對于食管癌的放射治療,處方劑量、劑量分布和劑量體積直方圖(dose-volume histogram,DVH)等參數也可用于評估食管癌的治療響應和預后分析。Jin等[5]從94例食管癌患者的CT 圖像中提取42個放射組學特征,與18個劑量學參數相結合,用于預測患者的放射治療響應;研究結果表明放射組學特征與劑量學參數結合之后的AUC可到達0.71,而僅使用放射組學的AUC為0.69。
本研究使用治療計劃中實體腫瘤體積(gross tumor volune,GTV)內的放射組學和劑量學特征參數,利用最大相關最小冗余(minimal redundancy maximal relevance criterion,mRMR)方法[6-9]分別篩選與兩年生存相關性最大的放射組學和劑量學特征參數,并使用支持向量機(support vector machine,SVM)[10]、邏輯回歸(Logistic regression,LR)[11]和隨機森林(random forest,RF)[12]3種機器學習算法,建立基于放射組學與劑量學特征參數的預測模型,預測食管癌放射治療后兩年生存情況。
回顧性分析2013年1月至2017年12月在天津醫(yī)科大學腫瘤醫(yī)院行放射治療的579例食管癌患者的放療數據。其中96.7%為鱗癌類食管癌,以不可手術Ⅲ、Ⅳ期患者居多,分別占患者總數的51.2%和32.0%。胸上段和胸中段的食管癌患者占總數的77.7%,約77%患者接受同步放化療方案或序貫化療方案。放射治療主要采用調強放療(intensity modulated radiation therapy,IMRT)和容積旋轉調強放療(volumetric-modulated arc therapy,VMAT)兩項技術。GTV的計劃靶區(qū)PGTV的處方總劑量為56~66 Gy,使用1.8 Gy或2.0 Gy分次劑量。其中91%患者的放射治療計劃中定義GTV,剩余9%患者的放療計劃中無GTV研究對象,從本研究中排除。
1.2.1 研究設計 使用一套內部開發(fā)的放射治療計劃自動分析系統(tǒng),通過直接解析放射治療計劃的底層原始數據,快速獲取治療計劃中的CT圖像、GTV輪廓和GTV劑量,并通過二次計算來提取GTV的放射組學和劑量學特征參數。提取的放射組學包括:一階直方圖、灰度共生矩陣、灰階運行長度和鄰域灰度差特征,共6 515項特征。劑量學特征包括:一階統(tǒng)計學劑量參數、治療計劃參數、空間位置參數和空間加權劑量特征參數,共620項特征。579例食管癌患者的最長隨訪時間為70個月,中位生存期為19.4個月,其中20.0%患者生存期超過兩年。利用放射組學和劑量學特征作為食管癌患者放射治療后兩年生存情況的預測因子。
1.2.2 數據預處理 本研究采用mRMR算法對放射組學和劑量學特征進行預處理。mRMR算法的原理是:為每個特征計算一對相關性系數(A)和冗余系數值(B),其中相關性系數是特征與兩年生存情況的相關性,冗余系數是特征間的冗余系數。然后將所有特征參數的A-B值進行降序排列[13],從6 515項放射組學和620項劑量學特征參數中,分別選取排序靠前的50項放射組學和50項劑量學特征。然后使用人工方法從100項特征中,篩選與臨床相關的14項放射組學和14項劑量學特征作為預測因子。使用標準歸一化算法將28項特征分別縮放至[0,1]范圍。
1.2.3 預測模型 以食管癌放射治療后兩年生存情況作為預測目標,將生存時間在兩年以下標記為第一類,生存兩年及以上標記為第二類。利用SVM、LR和RF 3種機器學習算法構建預測模型。首先使用放射組學特征,然后使用放射組學和劑量學特征參數來預測食管癌放射治療后的兩年生存情況,探討劑量學特征參數對預測模型的影響。使用十折交叉驗證來計算模型的分類準確率、召回率和AUC值。
使用mRMR算法對6 515項放射組學和620項劑量學特征進行篩選后,分別選取排序前50項放射組學和50項劑量學特征,然后人工篩選14項放射組學和14項劑量學特征參數作為預測模型的輸入參數。其中放射組學包括:一階統(tǒng)計學、函數濾波和高階紋理的能量、偏態(tài)、平均值、均勻指數和百分灰度值等;劑量學特征包括:體積、劑量、方差、中心點位置、輪廓邊界、空間加權DVH的偏度和峰度等。應用mRMR方法和人工篩選得到14項放射組學和14項劑量學特征,見表1。
表2是使用不同特征和預測模型來預測食管癌放射治療后兩年生存情況的結果。其中僅使用放射組學特征,SVM、LR和RF模型的分類準確度分別為84.98%、85.92%和84.51%,十折交叉驗證得到的最高AUC分別為0.85、0.91和0.92。其中LR模型的分類準確率和召回率最高,RF模型的AUC 最高。圖1是SVM、LR和RF3個模型的ROC 曲線。當使用放射組學和劑量學特征進行訓練和測試時,SVM和RF模型的分類準確性和AUC 均有提高,其中準確率分別提高了1.34%和5.59%,對應的AUC分別提高了0.01和0.02;而LR模型的準確性和召回率降低了2.90%和0.03%,對應的AUC 降低了0.03%。圖2是SVM、LR和RF 3個模型對應的ROC曲線。
表1 最大相關最小冗余方法和人工篩選得到14項放射組學和14項劑量學特征參數
表2 支持向量機(SVM)、邏輯回歸(LR)和隨機森林(RF)模型預測食管癌放射治療兩年生存情況的結果
圖1 使用放射組學特征建立SVM、LR和RF模型得到ROC曲線
圖2 使用放射組學和劑量學特征建立SVM、LR和RF模型得到ROC曲線
本研究在放射組學特征基礎上,將GTV的空間位置和空間加權劑量等特征參數納入到訓練模型中。對于SVM和RF模型,劑量學特征可提高分類準確性,與Jin等[5]的研究結果一致。本研究使用相同的特征變量來訓練不同模型,對比不同模型的預測準確性。針對SVM和RF模型,結合放射組學與劑量學特征可獲得更為全面的腫瘤放射治療相關信息,有助于提高預測準確性。
預測模型的準確性不僅與樣本量和特征參數篩選有關,而且與機器學習算法相關。Suter等[14]使用卷積神經網絡和經典回歸模型來預測腦瘤生存率,卷積神經網絡的準確性僅為51.5%,經典回歸模型中的SVM和LR回歸模型的準確性最高,達到72.2%。Krafft等[6]使用LASSO算法來預測192例NSCLC患者放射治療后的3級及以上放射性肺炎,得到最高AUC為0.68。Jin等[5]使用SVM和梯度算法預測94例食管癌患者的放射治療響應,得到最高AUC為0.71。本研究使用了SVM、LR和RF模型得到的最高分類準確性分別是86.32%、83.02%和90.01%,對應的AUC分別是0.86、0.91和0.94,其中RF模型的預測準確性和AUC最高。通過增加劑量學特征參數,SVM和RF模型的分類準確性和AUC均得到小幅提高。本研究構建預測模型準確率均在85%以上,較現有研究[5-6]已有較大提升。但應用劑量學特征預測放射治療響應的研究尚處于初始階段,劑量學特征的作用還有待于進一步研究。
本研究使用放射治療前的CT圖像的放射組學特征和放射治療劑量學特征,構建SVM、LR和RF模型來預測食管癌放射治療后兩年生存情況。與僅使用放射組學特征相比,基于放射組學和劑量學特征參數的SVM和RF模型的準確性更高,其中RF模型的準確性最高,達到90.01%。