李建敦,蔣 鵬,李 桃,陳 霆,蔣坷宏,蔣伏松*,鄭西川,魏 麗
(1.上海電機(jī)學(xué)院電子信息學(xué)院,上海 201306;2.上海交通大學(xué)附屬第六人民醫(yī)院計(jì)算機(jī)中心,上海 200233;3.上海交通大學(xué)附屬第六人民醫(yī)院內(nèi)分泌代謝科,上海 200233)
頸動(dòng)脈斑塊(carotid plaque,CP),特別是易損斑塊(vulnerable plaque,VP),是典型的糖尿病并發(fā)癥,也是心血管疾病的重要根源之一,每年在世界范圍內(nèi)約造成1 770 萬人死亡(約占所有病因的30%)[1]。因此,對(duì)于醫(yī)院的內(nèi)分泌代謝科來講,CP 的早期診斷至關(guān)重要。臨床上,B 超成像以其非侵入性和較高精度而被廣泛采用,是事實(shí)上的黃金標(biāo)準(zhǔn)??紤]到經(jīng)驗(yàn)豐富的B 超醫(yī)師(也包括超聲系統(tǒng))數(shù)量有限,無法滿足日益增多的疑似CP 的檢測(cè)需求,獲得準(zhǔn)確的診斷結(jié)果仍然費(fèi)時(shí)費(fèi)力,因此這一黃金標(biāo)準(zhǔn)的大規(guī)模推廣存在明顯局限性,急需簡(jiǎn)單且高效的輔助診斷方法。臨床研究顯示,許多常規(guī)體檢指標(biāo)與CP密切相關(guān),如年齡、性別、高血壓、吸煙、肥胖、血糖、高密度脂蛋白(HDL)、低密度脂蛋白(LDL)、高同型半胱氨酸(Hcy)、血脂(LP)等[1-3]。相關(guān)研究同時(shí)表明,糖尿病和非酒精性脂肪肝(non-alcoholic fatty liver disease,NAFLD)可作為2 個(gè)獨(dú)立指標(biāo)來預(yù)測(cè)健康人群中的CP[4-5]。此外,作為血糖狀態(tài)的一個(gè)指標(biāo),糖化血紅蛋白(HbA1c)被證明與無糖尿病人群中的CP有關(guān)[6]。本文以上海交通大學(xué)附屬第六人民醫(yī)院的脫敏數(shù)據(jù)集為基礎(chǔ),開展內(nèi)分泌狀態(tài)與CP 相關(guān)性的實(shí)例研究,目的是利用盡可能少的常規(guī)體檢指標(biāo)和糖尿病相關(guān)指標(biāo)來建立一個(gè)CP 的輔助預(yù)測(cè)模型。
本文基于2012—2018 年上海交通大學(xué)附屬第六人民醫(yī)院5 993 例糖尿病患者的脫敏數(shù)據(jù)開展案例研究。根據(jù)已有的研究成果[1-2,4-6],聚焦其中的10個(gè)屬性來訓(xùn)練分類判別模型,包括性別、年齡、糖尿病病程、甘油三酯(TG)、LDL、HDL、總膽固醇(TC)、空腹血糖(FPG)、HbA1c、空腹胰島素(FINS)。表1 從均值±標(biāo)準(zhǔn)差、最小值、最大值幾個(gè)方面統(tǒng)計(jì)描述了其中的9 個(gè)屬性(不包括性別)。
表1 數(shù)據(jù)集的9 個(gè)屬性的基本數(shù)據(jù)
目前,世界衛(wèi)生組織公布的糖尿病診斷標(biāo)準(zhǔn)有FPG≥7.0 mmol/L 和HbA1c≥6.5%,而CP 則以B 型超聲作為金標(biāo)準(zhǔn)。在預(yù)處理方面,首先將年齡(18~78歲)離散化為7 個(gè)等寬(寬度為10 a)的數(shù)據(jù)段,然后使用最小-最大算法(min-max 算法)對(duì)其余屬性進(jìn)行歸一化。此外,根據(jù)診斷結(jié)果對(duì)這些病例數(shù)據(jù)進(jìn)行平衡,以避免標(biāo)簽比例對(duì)模型精度造成影響。
在傳統(tǒng)機(jī)器學(xué)習(xí)模型如線性回歸、邏輯回歸、支持向量機(jī)、決策樹等[1,7]的基礎(chǔ)上,本研究采用更多的監(jiān)督模型來擬合5 993 例脫敏數(shù)據(jù),即將性別、年齡等10 個(gè)屬性作為特征、5 993 個(gè)病例作為監(jiān)督數(shù)據(jù)輸入至單一規(guī)則、隨機(jī)森林(random forest,RF)[8]等17個(gè)不同的機(jī)器學(xué)習(xí)模型中,并以CP 的分類預(yù)測(cè)為目標(biāo)來訓(xùn)練參數(shù)(如圖1 所示)。其中,17 個(gè)模型皆由Weka(v3.8)軟件構(gòu)建[9],結(jié)果經(jīng)十折交叉驗(yàn)證得出。結(jié)果顯示,不同模型在CP 預(yù)測(cè)上的性能差異明顯,其中自助聚合(bootstrap aggregating,Bagging)[10]和RF 2 個(gè)模型在F1 值、AUC、查全率、查準(zhǔn)率方面均優(yōu)于其他模型,而RF 模型優(yōu)勢(shì)最明顯(查準(zhǔn)率為0.808,查全率為0.806,F(xiàn)1 值為0.805,AUC 為0.897)。
圖1 多種監(jiān)督模型的性能比較
作為一種集成學(xué)習(xí)模型,Bagging 模型可綜合利用多個(gè)單分類器的判別結(jié)果,具體包括3 個(gè)步驟。
第1 步:采用有放回抽樣的方式建立m 個(gè)子集。
第2 步:應(yīng)用決策樹模型為每個(gè)子集訓(xùn)練1 個(gè)分類器。
第3 步:在CP 預(yù)測(cè)中,給定病例的預(yù)測(cè)結(jié)果由各個(gè)分類器投票產(chǎn)生,規(guī)則是少數(shù)服從多數(shù),即選擇多數(shù)分類器得出的結(jié)果作為最終的預(yù)測(cè)結(jié)果。
RF 也是一個(gè)集成學(xué)習(xí)模型[11],因性能高、可用性好,在多個(gè)應(yīng)用領(lǐng)域廣受歡迎。一般來說,訓(xùn)練1個(gè)RF 模型需要4 個(gè)步驟,其中的閾值可根據(jù)已有的研究和經(jīng)驗(yàn)來設(shè)定。
第1 步:采用有放回抽樣的方式抽樣n 次(n 為訓(xùn)練集規(guī)模)。
第3 步:循環(huán)執(zhí)行前2 步k(k=10)次。
第4 步:基于投票法來匯總所有決策樹的預(yù)測(cè)結(jié)果。規(guī)則是少數(shù)服從多數(shù),即選擇多數(shù)分類器得出的結(jié)果作為最終的預(yù)測(cè)結(jié)果。
Bagging 和RF 2 個(gè)模型在性能上優(yōu)于其他模型的原因主要有:(1)較完整地維護(hù)了屬性間不完全獨(dú)立的事實(shí)。相比之下,基于獨(dú)立性假設(shè)的其他機(jī)器學(xué)習(xí)模型未能遵從這一事實(shí),導(dǎo)致性能較差,如樸素貝葉斯模型。(2)都屬于集成學(xué)習(xí)模型,其有效利用了多個(gè)弱分類器協(xié)同決策的優(yōu)勢(shì),因此性能較高。RF模型性能卓越的原因主要在于節(jié)點(diǎn)處的最優(yōu)分割加入了隨機(jī)化,即從全部屬性中隨機(jī)選取d 個(gè)屬性,分別按照它們的屬性值將病例分類,計(jì)算并比較劃分之后的信息增益,最后選擇得到最大信息增益的屬性,從而確定當(dāng)前節(jié)點(diǎn)的最優(yōu)分割。同時(shí),考慮到RF模型優(yōu)良的并行性,本文擬采用RF 模型對(duì)病例數(shù)據(jù)進(jìn)行擬合,以實(shí)現(xiàn)CP 的預(yù)測(cè)和臨床預(yù)檢。
根據(jù)在RF 模型中各屬性(10 個(gè))對(duì)CP 預(yù)測(cè)的貢獻(xiàn)度進(jìn)行排序。理論上,一個(gè)屬性的重要性可通過其在所有決策樹上的平均不純度減少值來量化,也可通過變量重要性度量(variable importance measures,VIM)來完成,即通過GI 來量化[12]。決策樹i 上節(jié)點(diǎn)m的GI 為
式中,K 為總類數(shù);pk為節(jié)點(diǎn)m 上第k 個(gè)類的份額。實(shí)際上,GIm可通過節(jié)點(diǎn)m 中源于不同類別的2 個(gè)樣本的概率來計(jì)算?;诖耍瑢傩詊 對(duì)節(jié)點(diǎn)m 的重要性可用公式(2)來度量:
式中,GIx和GIy是從節(jié)點(diǎn)m 派生出來的節(jié)點(diǎn)對(duì)應(yīng)的GI。此外,可以累計(jì)屬性j 占主角的所有樹和節(jié)點(diǎn)來計(jì)算VIMj。在算法實(shí)現(xiàn)上,使用Python(v3.6)軟件和Sklearn 模塊[13]來實(shí)現(xiàn)屬性重要性排序,結(jié)果如圖2所示。
圖2 屬性重要性排序
根據(jù)排序持續(xù)壓縮屬性集,以找到一個(gè)最佳的屬性子集,從而從5 993 例糖尿病患者中發(fā)現(xiàn)CP。壓縮屬性集的具體步驟是:首先刪除重要性最低的性別特征,將剩余特征及對(duì)應(yīng)數(shù)據(jù)輸入至RF 分類器進(jìn)行訓(xùn)練與驗(yàn)證;然后刪除FINS 屬性再進(jìn)行分類預(yù)測(cè),直到基于單一屬性完成實(shí)驗(yàn),結(jié)果如圖3 所示。鑒于0.75 通常被認(rèn)為是計(jì)算機(jī)輔助診斷的經(jīng)驗(yàn)閾值,可以得出如下結(jié)論:年齡、LDL 和HbA1c 3 個(gè)屬性構(gòu)成的屬性子集能夠以較高的精度識(shí)別CP。根據(jù)上述3 個(gè)屬性對(duì)預(yù)測(cè)結(jié)果的影響程度進(jìn)行重要性排序,結(jié)果為:年齡>LDL>HbA1c。
圖3 基于不同屬性子集的預(yù)測(cè)結(jié)果
由于FPG 和HbA1c 高度相關(guān),同時(shí)LDL 和HDL也具有強(qiáng)關(guān)聯(lián)性,因此本研究進(jìn)行了更多的實(shí)驗(yàn)來評(píng)估不同屬性集之間的性能差異。實(shí)驗(yàn)中的屬性子集有4 類,分別為S1(年齡、LDL、HbA1c)、S2(年齡、FPG、LDL)、S3(年齡、HDL、HbA1c)和S4(年齡、HDL、FPG)。從性能比較結(jié)果(如圖4 所示)中可以觀察到4 條曲線是平緩的,其中查準(zhǔn)率、查全率和F1 值保持在0.75~0.78 之間,而AUC=0.855±0.003。由此可以得出結(jié)論,LDL 和HDL 在預(yù)測(cè)CP 中效能相當(dāng),而HbA1c 和FPG 基本可以互換。
圖4 不同屬性集的性能比較
與已有研究[1-2]相呼應(yīng),本研究的實(shí)驗(yàn)結(jié)果也表明年齡是CP 診斷中最重要的獨(dú)立指標(biāo)。另外,本研究也表明,HbA1c 和FPG 不但能有效識(shí)別健康人群中的CP[4-5],而且對(duì)鑒別糖尿病患者中的CP 也具有顯著效果。與Chen 等[11]研究不同,本研究未發(fā)現(xiàn)男性和女性在CP 診斷中有明顯差異。
本研究以上海交通大學(xué)附屬第六人民醫(yī)院提供的脫敏數(shù)據(jù)集為基礎(chǔ),構(gòu)建了多個(gè)分類預(yù)測(cè)模型,其中,RF 模型可以充分利用內(nèi)分泌的常規(guī)屬性來預(yù)測(cè)CP。實(shí)驗(yàn)結(jié)果表明,HbA1c、LDL 和年齡3 類屬性在預(yù)測(cè)中發(fā)揮了關(guān)鍵作用,僅由它們訓(xùn)練完成的模型已獲得不錯(cuò)的預(yù)測(cè)效果;同時(shí)也說明基于常規(guī)體檢指標(biāo)訓(xùn)練而成的機(jī)器學(xué)習(xí)模型具有簡(jiǎn)單、高效、成本低和準(zhǔn)確率高等特點(diǎn),理論上能夠作為診斷CP 的輔助方法。本文提出的RF 方法有助于輔助內(nèi)分泌代謝科醫(yī)師在超聲診斷前對(duì)CP 的疑似病例進(jìn)行預(yù)診斷,以節(jié)省患者時(shí)間,減少不必要的醫(yī)療資源浪費(fèi)。本研究的局限性包括:未考慮CP 的演化或嚴(yán)重程度;數(shù)據(jù)均來自同一家醫(yī)院,因此訓(xùn)練而成的預(yù)測(cè)模型的一般適用性有待進(jìn)一步考證。鑒于深度學(xué)習(xí)在輔助診斷方面的良好可用性[14-15],本研究未來擬在大規(guī)模擴(kuò)充現(xiàn)有數(shù)據(jù)集的基礎(chǔ)上,探索深層神經(jīng)網(wǎng)絡(luò)模型的適用性,以進(jìn)一步提高CP 的預(yù)測(cè)精度。