機器學(xué)習(xí)中集成模型的應(yīng)用問題研究

2023-01-16 06:00:32焦嘉，劉婷

無線互聯(lián)科技 2022年21期

焦嘉，劉婷

(湖南信息職業(yè)技術(shù)學(xué)院，湖南長沙 410203)

0 引言

機器學(xué)習(xí)的本質(zhì)是學(xué)習(xí)計算機智能，并賦予計算機與人類相同的學(xué)習(xí)能力。利用糖尿病患者數(shù)據(jù)與機器學(xué)習(xí)的結(jié)合[1-2]，能夠達到對專業(yè)數(shù)據(jù)進行處理提供定制醫(yī)療咨詢的能力。

圖1 集成模型總體流程

1 集成模型定義及流程

將Logistic回歸得到的結(jié)果按照概率值劃分為3個區(qū)間，分別是[0-0.4][0.4-0.6][0.6-1]。然后根據(jù)概率值區(qū)間將樣本訓(xùn)練集也劃分為3個區(qū)間，求出每個區(qū)間內(nèi)樣本預(yù)測的準確率。將劃分的3個區(qū)間分別使用C4.5決策樹算法進行訓(xùn)練，分別求出其預(yù)測準確率，然后分別比較兩種模型在3個區(qū)間的預(yù)測準確率，選擇準確率較高的作為最終判別標準。

如圖1所示為集成模型的總體流程，步驟包括原始數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、單因素分析、多因素Logistic回歸分析、樣本數(shù)據(jù)集劃分與處理、決策樹模型的形成、模型的集成比較、最終形成集成模型等。

2 模型及目標函數(shù)

2.1 單因素分析

單因素分析使用SPSS軟件進行，采用的是列鏈表x2檢驗，用于探討各因素與糖尿病的關(guān)系。糖尿病危險因素單因素分析結(jié)果如表1所示。

2.2 多因素Logistic回歸

多因素Logistic回歸分析根據(jù)表1中單因素分析的結(jié)果選擇出來的影響因素進行，Logistic回歸分析使用的是sigmoid函數(shù)，將線性回歸的結(jié)果變換后輸出到[0-1]區(qū)間，表達式如下：

(1)

其中，β和X為向量，Xi(i=1,2,…,7) 分別表示經(jīng)過單因素分析的影響因素，而βi則表示每個Xi所對應(yīng)的參數(shù)，也就是所要求解的回歸系數(shù)，β0為常數(shù)，而最終要求的是βi(i=0,1,2,…,7)值。

2.3 樣本數(shù)據(jù)集劃分與處理

將所有樣本按照sigmoid函數(shù)得到的概率進行區(qū)間劃分，其劃分標準如下：

H1=[0,0.4]，H2=[0.4,0.6] ，H3=[0.6,1]

將樣本數(shù)據(jù)集劃分區(qū)間后，發(fā)現(xiàn)數(shù)據(jù)集H1，H3的數(shù)據(jù)不平衡，為了解決這個問題方便下面的模型構(gòu)建，本文采用的方法是Easy Ensemble：這是集成算法中最簡單的算法之一[3]，具體做法是從0類中(樣本多的類)中取出1類等量樣本，并且不重復(fù)地取多次，用于構(gòu)建多個訓(xùn)練集，最終使得0類樣本大部分都參與訓(xùn)練一次。之后，根據(jù)得到的多個模型選擇其中預(yù)測準確率最好的模型作為最終模型。

2.4 決策樹生成

決策樹先選擇根節(jié)點屬性，只要有一個可能的屬性值，就產(chǎn)生一個分支。本文以收集到的醫(yī)療數(shù)據(jù)為例，以Y(是否患病)作為輸出變量，輸入變量以Ti(i=1,2,……13)表示，決策樹輸出變量Y的信息熵為：

(2)

其中，P(y2)代表不患糖尿病的概率，P(y1)代表患糖尿病的概率。

2.5 決策樹減枝

在決策樹生成的過程中，由于數(shù)據(jù)可能存在噪聲和決策樹算法本身存在的問題，也就是常說的過擬合現(xiàn)象。本文采用的是PEP (Pessimistic Error Pruning)(悲觀剪枝)[3]。其剪枝過程如下所示：

(1)計算剪枝前錯誤率e。

(2)計算剪之前誤判次數(shù)均值E，其中E=N×e(其中N是樣本總數(shù))。

(4)計算剪枝后錯誤率e+。

(5)計算減值后誤判次數(shù)均值E+，其中E+=N×e+。

(6)判斷剪枝條件，若E-var>E+，則剪枝該子樹；若E-var≤E+,則不剪枝該子樹。

上述步驟中的錯誤率估計如下所示：

(3)

2.6 模型集成

本文將數(shù)據(jù)集劃分之后結(jié)合Easy Ensemble技術(shù)形成決策樹的訓(xùn)練數(shù)據(jù)集，隨后生成多個決策樹模型，然后分別計算出各個模型決策樹的預(yù)測準確率，在3個分區(qū)H1=[0,0.4]，H2=[0.4,0.6] ，H3=[0.6,1] 分別選擇預(yù)測準確率最高的模型作為最終形成的決策樹模型，其預(yù)測準確率分別記為PJi(i=1,2,3)。同時結(jié)合之前生成的Logistic回歸模型在3個分區(qū)H1=[0,0.4]，H2=[0.4,0.6] ，H3=[0.6,1]的預(yù)測準確率PLi(i=1,2,3)，最終比較并選出分別在3個分區(qū)上的模型。其集成過程如下：

(1)選擇分區(qū)Hi(i=1,2,3) ，分別計算兩種模型預(yù)測準確率。

(2)若PLi>PJi(i=1,2,3)，在分區(qū)Hi上最終選擇Logistic回歸模型；若PLi≤PJi(i=1,2,3)，在分區(qū)Hi上最終選擇決策樹模型。

(3)重復(fù)步驟1，直到i=3。

3 實驗結(jié)果與分析

如圖2所示為3個分區(qū)內(nèi)的兩個模型的預(yù)測準確率，在H2分區(qū)內(nèi)，決策樹和Logistic回歸模型的預(yù)測準確率相差明顯，決策樹預(yù)測準確率明顯高于Logistic回歸模型，在H1，H3兩個分區(qū)內(nèi)決策樹和Logistic回歸模型的預(yù)測準確率差別不大，最終在3個分區(qū)內(nèi)分別選擇H1決策樹、H2決策樹、Logistic回歸模型作為最終的集成模型的判別標準。

由集成模型和實驗數(shù)據(jù)可知，其訓(xùn)練集和測試集的預(yù)測準確率如表2所示。

表2 集成模型的預(yù)測準確率

由表2可知，集成模型的預(yù)測準確率在3個模型中最高，其中訓(xùn)練集預(yù)測準確率為91.16%，測試集的預(yù)測準確率為88.28%，所有樣本的預(yù)測準確率為90.34%。由此可知該模型在3個模型中最具有參考意義，對糖尿病的風(fēng)險預(yù)測作用最大。

4 結(jié)語

本文立足實際的醫(yī)療數(shù)據(jù)，采用機器學(xué)習(xí)技術(shù)中集成模型來建立糖尿病風(fēng)險預(yù)測模型，改進之處如下：

(1)將機器學(xué)習(xí)的幾種分類算法結(jié)合起來應(yīng)用到糖尿病的風(fēng)險預(yù)測中，采用Logistic回歸算法和決策樹算法構(gòu)建集成模型，結(jié)合了Logistic回歸模型的優(yōu)點與決策樹模型的優(yōu)點，在一定的程度上解決單分類模型預(yù)測結(jié)果不穩(wěn)定的問題。

圖2 3個分區(qū)內(nèi)兩種模型預(yù)測準確率對比

(2)使用集成模型進行實驗，通過對醫(yī)療數(shù)據(jù)的處理，最終證明了集成模型擁有較高的分類準確率和穩(wěn)定性，適合于糖尿病的風(fēng)險預(yù)測。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看