吳靜潔,楊麗黎
1.浙江大學醫(yī)學院,浙江杭州 310029;2.浙江大學醫(yī)學院附屬邵逸夫醫(yī)院,浙江杭州 310016
據(jù)世界衛(wèi)生組織(WHO)報道,截至2015年,全球約有11.3億人患有高血壓,其中2/3分布在中低收入國家[1]。高血壓會增加心、腦、腎及其他疾病的風險,是導致全球人口過早死亡的一個主要原因,給醫(yī)療和社會事業(yè)帶來巨大的經(jīng)濟損失[1-3]。盡早識別個體患高血壓的風險并對其進行針對性的疾病預防,在促進個體健康和減少醫(yī)療護理負擔方面格外重要。機器學習是一種使用迭代識別數(shù)據(jù)模式自動分析數(shù)據(jù)并從中學習的算法[4-5],在篩選糖尿病視網(wǎng)膜病變及相關眼病[6],預測急性腎損傷[7]、心血管疾病[8-9]等方面被證實具有良好的性能。本文通過對國內外高血壓領域中采用機器學習構建風險預測模型相關研究進行綜述,以期為深入開展高血壓防治研究提供借鑒。
機器學習特點為從經(jīng)驗中學習,并隨著學習提高技能[5]。與傳統(tǒng)統(tǒng)計學方法相比,現(xiàn)代的機器學習使用大量數(shù)學運算來更好地定義預測因子與結果間的復雜關系。根據(jù)學習種類可分為三種類型:監(jiān)督學習、無監(jiān)督學習以及強化學習[10]。目前,國內外研究中應用于高血壓風險預測模型構建的機器學習算法均屬于監(jiān)督學習。監(jiān)督學習是指計算機從環(huán)境中獲取信息,由環(huán)境提供對錯指示并告知最終答案的過程[10],最終目的是使計算機根據(jù)在學習過程中獲得的經(jīng)驗,對沒有學習過的問題也可做出正確解答。
數(shù)據(jù)集又稱為資料集、數(shù)據(jù)集合或資料集合,是一種由數(shù)據(jù)所組成的集合。模型構建前將數(shù)據(jù)集隨機分為訓練集、調整集和驗證集。訓練集用于開發(fā)機器學習模型,通過迭代更新參數(shù)直至得到最適合該集合的模型;調整集用于調整模型參數(shù);驗證集用于模型進行臨床應用前評估性能[11]。建模步驟一般為:先通過Logistic回歸分析等統(tǒng)計學方法或機器學習算法篩選出對結局變量具有顯著效應的自變量,成為模型的預測因子;再根據(jù)數(shù)據(jù)集特征選擇合適的機器學習算法,由算法自動分析訓練集數(shù)據(jù)后構建出風險預測模型;最終以診斷疾病的金標準對預測結果進行驗證,得出模型的敏感度、特異度、接收者操作特征曲線下面積(AUC)等統(tǒng)計學指標,進而判斷模型性能。
算法是指用系統(tǒng)的方法解決問題的系列策略機制[12]。機器學習有多種分類算法,包括Boost算法(分為Logitboost、Real Adaboost、Gental Adaboost等)、支持向量機、決策樹(包括分類樹和回歸樹)、隨機化森林、貝葉斯(包括樸素貝葉斯、貝葉斯網(wǎng)絡、增強樸素貝葉斯、局部加權樸素貝葉斯等)、人工神經(jīng)網(wǎng)絡等。Boost算法的本質在于通過多個簡單的弱分類器,構建出準確率很高的強分類器[13]。支持向量機使用鉸鏈損失函數(shù)計算經(jīng)驗風險,并在求解系統(tǒng)中加入了正則化項以優(yōu)化結構風險,是一類對數(shù)據(jù)進行二元分類的廣性分類器[14]。決策樹利用歸納算法生成可讀的規(guī)則和決策樹,然后使用決策對新數(shù)據(jù)進行分析,本質上是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程[15-16]。隨機化森林是由多個決策樹模型組成的組合分類模型,在給定數(shù)據(jù)集下,每個決策樹分類模型都有1票投票來選擇最優(yōu)的分類結果,根據(jù)投票結果來決定最終分類[15]。貝葉斯依據(jù)條件獨立性假設,通過計算目標先驗概率,采用貝葉斯定理求出其后驗概率,也就是該對象屬于某類的概率,對后驗概率進行比較,完成決策分類[17]。人工神經(jīng)網(wǎng)絡是一種模仿生物神經(jīng)網(wǎng)絡的結構和功能的數(shù)學模型或計算模型,結構包括輸入層、隱層和輸出層,原理是把上層節(jié)點的值加權平均到下層節(jié)點,最終到輸出層節(jié)點,然后誤差大小反饋回前面的層,再重新加權平均,如此反復訓練,直到誤差在允許范圍之內[15]。
Pei等[18]以北京某社區(qū)衛(wèi)生服務中心1 200例高血壓患者及健康人群的數(shù)據(jù),采用支持向量機算法建模并分析其性能。通過Logistic回歸納入9個環(huán)境因子(身高、體質量、性別、年齡、職業(yè)、吸煙史、酗酒史、家族高血壓史、家族心血管病史)和12個基因遺傳因子,構建出正確率80.1%,敏感度63.3%,特異度86.7%,AUC為0.886的高性能模型。研究表明,使用支持向量機算法建模時,選用合適函數(shù)對模型性能尤為重要,且綜合多方面預測因子的模型相較于單方面預測因子的模型具有更佳性能。Nimmala等[19]應用印度某醫(yī)療中心1 000例高血壓患者及健康人群的數(shù)據(jù),采用決策樹、隨機化森林、樸素貝葉斯算法建模并分析其性能,納入年齡、憤怒、焦慮、肥胖、總膽固醇水平共5個預測因子,結果顯示,使用隨機化森林(正確率87.5%)、決策樹(正確率83.3%)的模型均有良好性能。Golino等[20]應用巴西某州私立大學、年齡16~63歲不等的400例學生的數(shù)據(jù),采用決策樹算法構建高血壓風險預測模型并分析其性能,納入體質指數(shù)(BMI)、腰圍、臀圍和腰臀比共4個肥胖相關因子,研究結果顯示,在肥胖指標中,BMI是高血壓最佳的預測因子,綜合BMI、腰圍和腰臀比3項指標可提高女性模型的性能(敏感度80.86%,特異度81.22%),綜合BMI、腰圍、臀圍和腰臀比4項指標可提高男性模型的性能(敏感度72%,特異度86.25%)。由此可見,機器學習是作為構建風險預測模型有效且可靠的方法之一,年齡、性別、肥胖、血生化指標、家族史、精神因素、不良嗜好是高血壓風險模型中常見的預測因子,綜合多方面預測因子可提高模型性能。
Sakr等[21]應用1991年至2009年在亨利·福特健康機構進行跑步機運動壓力測試并進行10年隨訪的23 095例患者的數(shù)據(jù),采用Logitboost、貝葉斯網(wǎng)絡、局部加權樸素貝葉斯、人工神經(jīng)網(wǎng)絡、支持向量機和隨機化森林這6種機器學習算法建模并對比分析其性能,納入了年齡、跑步消耗能量值、靜息收縮壓、峰值舒張壓、靜息舒張壓、冠狀動脈疾病、測試原因、糖尿病史、高脂血癥史、心率、種族、阿司匹林使用、高血壓反應在內的共13個環(huán)境和運動因子,結果顯示,隨機化森林在6種算法中的綜合性能最佳(敏感度75.0%,特異度86.2%,AUC為0.89),支持向量機的敏感度(28.2%)在6種算法中最差,貝葉斯網(wǎng)絡的特異度在6種算法中最差(79.8%)。說明機器學習算法的復雜性和預測精度間未必呈正相關,關鍵是選擇最合適的算法。
針對機器學習算法和統(tǒng)計學方法預測性能優(yōu)劣問題,尚存爭議。楊洋[22]應用遼寧省某農村4 126例原發(fā)性高血壓患者流行病學調查資料,對人工神經(jīng)網(wǎng)絡算法和Logistic回歸在高血壓風險預測中的性能進行對比分析。通過Logistic回歸納入膽固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、血糖、血清鈣、年齡、性別、體質量、父母高血壓、父母腦卒中、父母冠心病、每月進鹽量、吸煙與否、吸煙量、吸煙年限、飲酒與否、飲酒量、飲酒年限、血壓差、BMI、民族共22個預測因子,結果顯示,對于高血壓,人工神經(jīng)網(wǎng)絡(正確率80.30%,敏感度76.16%,特異度84.48%,AUC為0.800)的預測能力略優(yōu)于Logistic回歸(正確率78.42%,敏感度76.62%,特異度80.45%,AUC為0.782),因此在高血壓風險預測中,人工神經(jīng)網(wǎng)絡可以作為Logistic回歸的必要補充。Nimmala等[19]對比分析了決策樹、隨機化森林、樸素貝葉斯算法和Logistic回歸在高血壓風險預測中的性能,發(fā)現(xiàn)使用隨機化森林算法(正確率87.5%)比Logistic回歸(正確率71.0%)更具優(yōu)勢。然而,Heo等[23]應用第6次韓國國民健康與營養(yǎng)調查中8 212例高血壓患者和健康人群的數(shù)據(jù),采用Logistic回歸及樸素貝葉斯、決策樹算法構建高血壓風險預測模型,納入人口測量學、血生化指標、肺活量3個方面預測因子,結果表明,使用Logistic回歸的模型具有最佳性能(Logistic回歸的男性AUC為0.777、女性AUC為0.845,樸素貝葉斯的男性AUC為0.748、女性AUC為0.833,決策樹的男性AUC為0.698、女性AUC為0.796)。Xu等[24]的研究發(fā)現(xiàn),采用人工神經(jīng)網(wǎng)絡(AUC為0.767)構建高血壓風險預測模型的性能優(yōu)于Cox回歸(AUC為0.765),但并非所有機器學習算法性能都優(yōu)于Cox回歸。目前,絕大多數(shù)研究證明機器學習算法構建模型的性能優(yōu)于或略優(yōu)于統(tǒng)計學方法,部分導致機器學習算法構建模型性能劣于統(tǒng)計學方法的原因可能是算法或預測因子選擇不當或不全、數(shù)據(jù)來源存在偏倚、樣本量不足等。
現(xiàn)有研究證明,轉變生活方式[25]和規(guī)律藥物治療[2,26]可有效預防高血壓及心血管病。因此,在臨床應用風險預測模型以評估和預警健康人群的高血壓發(fā)病風險顯得非常有意義[27-28]。機器學習可通過計算機輔助增強臨床工作者的決策[28],且相較傳統(tǒng)統(tǒng)計學方法,具有強大的解決共線性效應和變量間交互作用的能力[8,22],是建模有效且可靠的方法之一。有學者在美國緬因州分別收集823 627名個體和680 810名個體的血壓信息用于回顧性和前瞻性研究,用機器學習算法開發(fā)出一個高性能的高血壓風險預測模型(回顧性研究中AUC為0.917,前瞻性研究中AUC為0.870),目前已用于緬因州的高血壓防控中,并有望提高當?shù)氐母哐獕鹤o理水平[29]。
機器學習具有強大的數(shù)據(jù)處理和結局預測能力,是構建各類疾病風險預測模型有效且可靠的方法。目前,國內外已開展了選用不同機器學習算法構建高血壓風險預測模型的多項研究,綜合多方面預測因子及選擇合適算法對提高模型性能至關重要,現(xiàn)已篩選并驗證了年齡、性別、肥胖、血生化指標、家族史、精神心理、不良嗜好等預測因子,以及隨機化森林和人工神經(jīng)網(wǎng)絡等具有良好性能的機器學習算法。由于機器學習算法和傳統(tǒng)統(tǒng)計學方法間的性能比較尚存爭議,仍需對兩種方法進行深入研究。目前開展的研究重視風險預測模型的構建,相對缺乏模型應用方面的討論,考慮與臨床工作者缺乏機器學習知識有關,建議醫(yī)院科教部門開設相關培訓課程,以便臨床工作者能正確篩選、驗證并應用模型。