焦 嘉,劉 婷
(湖南信息職業(yè)技術(shù)學(xué)院,湖南 長沙 410203)
機器學(xué)習(xí)的本質(zhì)是學(xué)習(xí)計算機智能,并賦予計算機與人類相同的學(xué)習(xí)能力。利用糖尿病患者數(shù)據(jù)與機器學(xué)習(xí)的結(jié)合[1-2],能夠達到對專業(yè)數(shù)據(jù)進行處理提供定制醫(yī)療咨詢的能力。
圖1 集成模型總體流程
將Logistic回歸得到的結(jié)果按照概率值劃分為3個區(qū)間,分別是[0-0.4][0.4-0.6][0.6-1]。然后根據(jù)概率值區(qū)間將樣本訓(xùn)練集也劃分為3個區(qū)間,求出每個區(qū)間內(nèi)樣本預(yù)測的準確率。將劃分的3個區(qū)間分別使用C4.5決策樹算法進行訓(xùn)練,分別求出其預(yù)測準確率,然后分別比較兩種模型在3個區(qū)間的預(yù)測準確率,選擇準確率較高的作為最終判別標準。
如圖1所示為集成模型的總體流程,步驟包括原始數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、單因素分析、多因素Logistic回歸分析、樣本數(shù)據(jù)集劃分與處理、決策樹模型的形成、模型的集成比較、最終形成集成模型等。
單因素分析使用SPSS軟件進行,采用的是列鏈表x2檢驗,用于探討各因素與糖尿病的關(guān)系。糖尿病危險因素單因素分析結(jié)果如表1所示。
多因素Logistic回歸分析根據(jù)表1中單因素分析的結(jié)果選擇出來的影響因素進行,Logistic回歸分析使用的是sigmoid函數(shù),將線性回歸的結(jié)果變換后輸出到[0-1]區(qū)間,表達式如下:
(1)
其中,β和X為向量,Xi(i=1,2,…,7) 分別表示經(jīng)過單因素分析的影響因素,而βi則表示每個Xi所對應(yīng)的參數(shù),也就是所要求解的回歸系數(shù),β0為常數(shù),而最終要求的是βi(i=0,1,2,…,7)值。
將所有樣本按照sigmoid函數(shù)得到的概率進行區(qū)間劃分,其劃分標準如下:
H1=[0,0.4],H2=[0.4,0.6] ,H3=[0.6,1]
將樣本數(shù)據(jù)集劃分區(qū)間后,發(fā)現(xiàn)數(shù)據(jù)集H1,H3的數(shù)據(jù)不平衡,為了解決這個問題方便下面的模型構(gòu)建,本文采用的方法是Easy Ensemble:這是集成算法中最簡單的算法之一[3],具體做法是從0類中(樣本多的類)中取出1類等量樣本,并且不重復(fù)地取多次,用于構(gòu)建多個訓(xùn)練集,最終使得0類樣本大部分都參與訓(xùn)練一次。之后,根據(jù)得到的多個模型選擇其中預(yù)測準確率最好的模型作為最終模型。
決策樹先選擇根節(jié)點屬性,只要有一個可能的屬性值,就產(chǎn)生一個分支。本文以收集到的醫(yī)療數(shù)據(jù)為例,以Y(是否患病)作為輸出變量,輸入變量以Ti(i=1,2,……13)表示,決策樹輸出變量Y的信息熵為:
(2)
其中,P(y2)代表不患糖尿病的概率,P(y1)代表患糖尿病的概率。
在決策樹生成的過程中,由于數(shù)據(jù)可能存在噪聲和決策樹算法本身存在的問題,也就是常說的過擬合現(xiàn)象。本文采用的是PEP (Pessimistic Error Pruning)(悲觀剪枝)[3]。其剪枝過程如下所示:
(1)計算剪枝前錯誤率e。
(2)計算剪之前誤判次數(shù)均值E,其中E=N×e(其中N是樣本總數(shù))。
(4)計算剪枝后錯誤率e+。
(5)計算減值后誤判次數(shù)均值E+,其中E+=N×e+。
(6)判斷剪枝條件,若E-var>E+,則剪枝該子樹;若E-var≤E+,則不剪枝該子樹。
上述步驟中的錯誤率估計如下所示:
(3)
本文將數(shù)據(jù)集劃分之后結(jié)合Easy Ensemble技術(shù)形成決策樹的訓(xùn)練數(shù)據(jù)集,隨后生成多個決策樹模型,然后分別計算出各個模型決策樹的預(yù)測準確率,在3個分區(qū)H1=[0,0.4],H2=[0.4,0.6] ,H3=[0.6,1] 分別選擇預(yù)測準確率最高的模型作為最終形成的決策樹模型,其預(yù)測準確率分別記為PJi(i=1,2,3)。同時結(jié)合之前生成的Logistic回歸模型在3個分區(qū)H1=[0,0.4],H2=[0.4,0.6] ,H3=[0.6,1]的預(yù)測準確率PLi(i=1,2,3),最終比較并選出分別在3個分區(qū)上的模型。其集成過程如下:
(1)選擇分區(qū)Hi(i=1,2,3) ,分別計算兩種模型預(yù)測準確率。
(2)若PLi>PJi(i=1,2,3),在分區(qū)Hi上最終選擇Logistic回歸模型;若PLi≤PJi(i=1,2,3),在分區(qū)Hi上最終選擇決策樹模型。
(3)重復(fù)步驟1,直到i=3。
如圖2所示為3個分區(qū)內(nèi)的兩個模型的預(yù)測準確率,在H2分區(qū)內(nèi),決策樹和Logistic回歸模型的預(yù)測準確率相差明顯,決策樹預(yù)測準確率明顯高于Logistic回歸模型,在H1,H3兩個分區(qū)內(nèi)決策樹和Logistic回歸模型的預(yù)測準確率差別不大,最終在3個分區(qū)內(nèi)分別選擇H1決策樹、H2決策樹、Logistic回歸模型作為最終的集成模型的判別標準。
由集成模型和實驗數(shù)據(jù)可知,其訓(xùn)練集和測試集的預(yù)測準確率如表2所示。
表2 集成模型的預(yù)測準確率
由表2可知,集成模型的預(yù)測準確率在3個模型中最高,其中訓(xùn)練集預(yù)測準確率為91.16%,測試集的預(yù)測準確率為88.28%,所有樣本的預(yù)測準確率為90.34%。由此可知該模型在3個模型中最具有參考意義,對糖尿病的風(fēng)險預(yù)測作用最大。
本文立足實際的醫(yī)療數(shù)據(jù),采用機器學(xué)習(xí)技術(shù)中集成模型來建立糖尿病風(fēng)險預(yù)測模型,改進之處如下:
(1)將機器學(xué)習(xí)的幾種分類算法結(jié)合起來應(yīng)用到糖尿病的風(fēng)險預(yù)測中,采用Logistic回歸算法和決策樹算法構(gòu)建集成模型,結(jié)合了Logistic回歸模型的優(yōu)點與決策樹模型的優(yōu)點,在一定的程度上解決單分類模型預(yù)測結(jié)果不穩(wěn)定的問題。
圖2 3個分區(qū)內(nèi)兩種模型預(yù)測準確率對比
(2)使用集成模型進行實驗,通過對醫(yī)療數(shù)據(jù)的處理,最終證明了集成模型擁有較高的分類準確率和穩(wěn)定性,適合于糖尿病的風(fēng)險預(yù)測。