常懷文 姚音
(復(fù)旦大學(xué)生命科學(xué)學(xué)院計算生物學(xué)系,上海 200438)
腦卒中包括缺血性腦卒中和出血性缺血性腦卒中兩種,其中缺血性腦卒中占70%~80%,是我國成年人致死和致殘的首位原因[1-2]。缺血性腦卒中是由于腦供血動脈(頸動脈和椎動脈)狹窄或閉塞,腦供血不足而引起的腦組織壞死的總稱[3]。然而,許多患者無法從早期治療中獲益,大量的時間在院外丟失,這往往是因為缺乏對腦卒中癥狀的認知,缺乏快速尋求緊急救治的途徑,或?qū)ζ淙狈?yīng)急反應(yīng)[4]。據(jù)不完全統(tǒng)計,缺血性腦卒中多發(fā)生于中老年人,其主要原因是長期吸煙、酗酒、肥胖,以及長期控制不佳的高血壓、糖尿病、高脂血癥,使腦動脈粥樣硬化越來越嚴(yán)重[5]。由于病理特征復(fù)雜,且影響因素眾多,目前臨床上難以判定多種因素作用的程度會對缺血性腦卒中的發(fā)生產(chǎn)生何種影響,而其前期的預(yù)防干預(yù)優(yōu)勢又顯著大于后期治療[2-3,5]。如今,隨著大數(shù)據(jù)的深入應(yīng)用,機器學(xué)習(xí)已經(jīng)進入醫(yī)療領(lǐng)域,其卓越的算法特性能夠更好、更快地幫助我們找出發(fā)病源及關(guān)聯(lián)屬性,為后期精準(zhǔn)醫(yī)療提供幫助[6]。因此本研究以選取江西地區(qū)的樣本數(shù)據(jù)為例,利用多種機器學(xué)習(xí)方法構(gòu)建缺血性腦卒中風(fēng)險預(yù)測模型,以此挖掘缺血性腦卒中的發(fā)病機制,為缺血性腦卒中的提前干預(yù)與控制提供理論依據(jù)。
1.1 一般資料 研究使用的數(shù)據(jù)共745例,來自于2020年1月~2020年12月就診于江西省某三甲醫(yī)院的574例缺血性腦卒中患者及171例健康人群問卷調(diào)查數(shù)據(jù)。納入標(biāo)準(zhǔn):①診斷為缺血性腦卒中成年患者。②具備基本的認知能力。③簽署知情同意書。其中,非腦卒中數(shù)據(jù)以問卷形式在江西地區(qū)發(fā)放,抽取無心腦血管疾病的健康人群問卷作為調(diào)查樣本;缺血性腦卒中患者均為首次就診,符合條件的參與者在癥狀出現(xiàn)后48 h內(nèi)通過CT或MRI證實為缺血性腦卒中,并且收縮壓升高在140~220 mmHg。該研究獲得了醫(yī)院機構(gòu)委員會的倫理批準(zhǔn)(CKLL-2018005),所有研究活動均按照其指導(dǎo)方針進行。在詳細解釋本研究的性質(zhì)后,從所有研究參與者處獲得書面知情同意書。
1.2 方法
1.2.1 指標(biāo)選取 由于人群特征的不同,不同地區(qū)心血管疾病危險因素的選擇存在一些差異,但相關(guān)專業(yè)人士一致認為主要危險因素應(yīng)符合以下標(biāo)準(zhǔn)[7]:①于許多人群中的存在率很高。②對心血管疾病的風(fēng)險有重要的獨立影響。③經(jīng)過治療和控制,可以降低風(fēng)險?;诖?,本研究對用于調(diào)查的影響心血管疾病發(fā)生的重要生物學(xué)指標(biāo)進行介紹并對其進行數(shù)據(jù)編碼,見表1。
表1 定性指標(biāo)的選取及變量定義
1.2.1.1 性別和年齡 影響心血管疾病的不可控制的危險因素之中主要包含性別和年齡。一般而言,心血管疾病的風(fēng)險隨著年齡的增長而增加[2-3,6]。研究表明,男性心血管疾病的風(fēng)險高于女性,同時,隨著年齡的增長,心血管疾病復(fù)發(fā)率的性別差異呈現(xiàn)逐漸減弱的跡象[5,7]。
1.2.1.2 高血壓 根據(jù)JNC-VII,年齡在40~70歲且血壓為(115~185)/(75~115) mmHg的個體,收縮壓(SBP)每增加20 mmHg和舒張壓(DBP)每增加10 mmHg,患心血管疾病的危險性將以倍數(shù)的形式提升[8]。高血壓最終會導(dǎo)致心臟、大腦、腎臟和外周血管發(fā)生病理變化,從而導(dǎo)致一系列并發(fā)癥,例如充血性心力衰竭、左心室肥大、冠心病及腦血管疾病等并發(fā)癥[9]。
2.1 指標(biāo)分布差異性分析及可視化 本研究考慮在患缺血性腦卒中與健康兩種情況下對比上述所選指標(biāo)間是否存在顯著差異性。對于參數(shù)檢驗,其假定數(shù)據(jù)可以由一個或多個參數(shù)定義的分布很好地描述,且在大多數(shù)情況下是通過正態(tài)分布來描述的[10]。如果樣本數(shù)據(jù)集無法被選擇的分布近似的時候,參數(shù)檢驗的結(jié)果會存在極大的誤差,此時應(yīng)當(dāng)考慮非參數(shù)檢驗[11]。因此,本研究對所選指標(biāo)繪制概率密度函數(shù)圖,發(fā)現(xiàn)收縮壓的分布不具有正態(tài)性,呈現(xiàn)偏態(tài)分布,見圖1。
圖1 所選指標(biāo)的概率密度函數(shù)圖
2.2 差異性檢驗
2.2.1 參數(shù)檢驗 本研究對患缺血性腦卒中與健康兩種情況下服從正態(tài)分布的指標(biāo)進行獨立組別之間的t檢驗。顯著性水平為α=0.05,檢驗統(tǒng)計量為
(1)
表2 正態(tài)性指標(biāo)獨立組別之間的t檢驗結(jié)果
2.2.2 非參數(shù)檢驗 本研究對患缺血性腦卒中與健康兩種情況下不服從正態(tài)分布的收縮壓指標(biāo)進行Mann-Whitney檢驗。顯著性水平為α=0.05,檢驗假設(shè)為
H0:F(x)=G(y);H1:F(x)≠G(y)
(2)
H0的拒絕域為
(3)
其中r1與r2由下式算出:
(4)
2.3 基于樸素貝葉斯的缺血性腦卒中風(fēng)險預(yù)測模型構(gòu)建
2.3.1 基本模型 樸素貝葉斯法對條件概率分布的條件獨立性假設(shè)為
P(X=x|Y=ck)=
P(X(1)=x(1),…,X(n)=x(n)|Y=ck)
(5)
針對所得輸入x,后驗概率分布P(Y=ck|X=x)可由學(xué)習(xí)模型計算所得。與此同時,x的類輸出可由后驗概率最大的類所得。根據(jù)貝葉斯定理計算后驗概率:
P(Y=ck|X=x)=
(6)
式(5)代入式(6),有
P(Y=ck|X=x)=
(7)
也即樸素貝葉斯分類公式。
2.3.2 模型構(gòu)建 基于樸素貝葉斯分類器的高效性,其通過單獨查看每個特征來學(xué)習(xí)參數(shù),并從每個特征中收集簡單的類別統(tǒng)計數(shù)據(jù),且本研究所選指標(biāo)數(shù)據(jù)大多為二分類數(shù)據(jù),考慮使用BernoulliNB進行機器學(xué)習(xí),其假設(shè)缺血性腦卒中特征的先驗概率為多項式分布,即為
(8)
其中,P(Xj=xjl|Y=ck)為第k個類別的第j維特征的取值條件概率,mk為訓(xùn)練集中第k類輸出的樣本數(shù)量,λ為大于0的常數(shù),通常等于1,即拉普拉斯平滑[12]。
由于BernoulliNB含有一個參數(shù)α(即上述拉普拉斯平滑參數(shù)λ),用于控制模型復(fù)雜度。α的工作原理是,算法向數(shù)據(jù)中添加α這么多的虛擬數(shù)據(jù)點,這些點對所有特征都取正值。這可以將統(tǒng)計數(shù)據(jù)“平滑化”。α越大,平滑化越強,模型復(fù)雜度就越低。另一方面,算法的性能對α值的魯棒性相對較好。需要強調(diào)的是,調(diào)整α將會使得精度略有提高。本研究分別選取α=1,α=10,α=100構(gòu)建伯努利樸素貝葉斯分類器,其中模型精度見表3。
表3 對于不同的α值的伯努利樸素貝葉斯分類器在缺血性腦卒中數(shù)據(jù)集上的模型精度
由于α=1時模型精度最高,故本研究最終選取考慮先驗概率且α=1的伯努利樸素貝葉斯分類器。
2.4 基于支持向量機的的缺血性腦卒中風(fēng)險預(yù)測模型構(gòu)建
2.4.1 基本模型 本文給出線性可分支持向量機學(xué)習(xí)算法步驟:輸入:線性可分訓(xùn)練集T={(x1,y1),(x2,y2),…,(xN,yN)},其中xi∈X=Rn,yi∈Y={-1,+1},i=1,2,…,N。
輸出:分類決策函數(shù)以及分離超平面。
(1)構(gòu)造并求解約束最優(yōu)化問題
(9)
(2)計算
(3)求得分離超平面
w*·x+b*=0
(12)
分類決策函數(shù):
f(x)=sign(w*·x+b*)
(13)
2.4.2 模型構(gòu)建 對于所得樣本數(shù)據(jù)集,由于樣本在不同特征上的維度不同,將會使得距離計算存在問題,則考慮先進行標(biāo)準(zhǔn)化[13]。同時考慮其具有較強的線性可分性,故使用線性支持向量機。要注意的是,對于線性支持向量機,與Logistic回歸類似,具有決定正則化強度的權(quán)衡參數(shù)C[11,14]。本研究分別選取C值0.001、1.000和100.000構(gòu)建線性支持向量機,模型精度見表4。
表4 對于不同的C值,線性支持向量機在缺血性腦卒中數(shù)據(jù)集上的模型精度
由于C=1.000時模型精度最高,故本研究最終選取C=1.000的線性軟間隔支持向量機,其分類決策函數(shù)見式(14),其中xj,j=1,…,5為缺血性腦卒中數(shù)據(jù)集輸入變量。
f(x)=sign(0.06x1+0.54x2+1.42x3-0.14x4+
0.63x5+1.60)
(14)
2.5 基于ROC與AUC的模型選擇ROC曲線考慮給定分類器的所有可能閾值,并顯示假正例率和真正例率,而不是報告準(zhǔn)確率和召回率[15-16]。對于ROC曲線,理想曲線應(yīng)接近左上角。本研究希望分類器的召回率很高,同時使假正例率很低。利用AUC分數(shù)來比較樸素貝葉斯模型及支持向量機,本研究發(fā)現(xiàn)支持向量機的表現(xiàn)比樸素貝葉斯模型要略好一些,見表5。綜上所述,本研究最終選取支持向量機模型(C=1.000)作為缺血性腦卒中風(fēng)險預(yù)測模型。
表5 兩種自動化模型的AUC
3.1 缺血性腦卒中的現(xiàn)狀分析 本研究的研究重點在于缺血性腦卒中前期風(fēng)險預(yù)測及干預(yù)。基于745例樣本數(shù)據(jù),借助t檢驗及Mann-Whitney檢驗發(fā)現(xiàn),在患缺血性腦卒中與健康兩種情況下年齡(P=0.000)、頸動脈狹窄或閉塞是否有癥狀(P=0.000)及收縮壓(u=14539.500,P=0.000)間存在顯著差異,在后續(xù)缺血性腦卒中的預(yù)防干預(yù)以及精準(zhǔn)醫(yī)療過程中應(yīng)當(dāng)重點關(guān)注。
3.2 缺血性腦卒中風(fēng)險預(yù)測模型 缺血性腦卒中具有發(fā)病率高、致殘率高、死亡率高和復(fù)發(fā)率高的特點。因此,在源頭控制缺血性腦卒中發(fā)病率及風(fēng)險干預(yù)尤為重要[17]。因此,本研究對所得樣本數(shù)據(jù)進行全方位、多角度的挖掘分析,利用機器學(xué)習(xí)方法構(gòu)建風(fēng)險預(yù)測模型并進行嚴(yán)格的模型選擇力求獲得最優(yōu)的缺血性腦卒中風(fēng)險預(yù)測模型。
在缺血性腦卒中的預(yù)測研究中,許多已構(gòu)建的穩(wěn)定的評分方法與預(yù)測模型普遍建議選擇改良的弗明漢缺血性腦卒中量表、匯集隊列方程、缺血性腦卒中風(fēng)險計算器等工具進行缺血性腦卒中風(fēng)險評估,但是這些模型主要針對歐美人群,對我國人群的缺血性腦卒中風(fēng)險評估預(yù)測效果不佳[18-20]。同時需要注意的是,上述模型雖然容易被理解,但準(zhǔn)確性不高、誤差較大。本研究以江西地區(qū)的案例為基礎(chǔ),從中國缺血性腦卒中實際病理情況出發(fā),通過數(shù)據(jù)挖掘的方式揭示影響缺血性腦卒中的危險因素,同時探討各因素之間的分布特征及相關(guān)性,并選取少數(shù)典型指標(biāo)用于后續(xù)建模,這極大降低了計算復(fù)雜度與算法迭代次數(shù),同時使得模型更準(zhǔn)確、誤差小且區(qū)分度高,更容易被理解[19,21-23]。
另一方面,憑借機器學(xué)習(xí)的卓越特性,本研究還利用ROC與AUC進行模型篩選。需要強調(diào)的是,由于本研究所得到的為不平衡數(shù)據(jù),認為AUC是一個比精度好得多的指標(biāo)。AUC等價于從正類樣本(患有缺血性腦卒中)中隨機挑選一個點,由分類器給出的分數(shù)比從反類樣本(健康)中隨機挑選一個點的分數(shù)更高的概率[21-24];可以被解釋為評估正例樣本的排名[25]。本研究所訓(xùn)練支持向量機模型的AUC為1.000,說明所有正類點的分數(shù)高于所有反類點。基于此,本研究認為對于所得不平衡的缺血性腦卒中數(shù)據(jù)集,使用AUC進行模型選擇比使用精度更有意義。本研究最終從數(shù)理方向論證支持向量機為最優(yōu)缺血性腦卒中風(fēng)險預(yù)測模型,所構(gòu)建模型具有較高的準(zhǔn)確性,在一定程度上極大地確保了本研究的完備性及可靠性,提高了最初無癥狀人群中缺血性腦卒中預(yù)測干預(yù)的準(zhǔn)確性。
本研究所構(gòu)建的基于現(xiàn)階段的符合我國國情的缺血性腦卒中風(fēng)險預(yù)測模型可在源頭上控制缺血性腦卒中發(fā)病率,并通過采取及時且準(zhǔn)確的干預(yù)措施,極大程度地確保國民的健康。