• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      集成學(xué)習(xí)在糖尿病預(yù)測(cè)中的應(yīng)用

      2019-12-05 08:35張玉璽賀松尤思?jí)?/span>
      關(guān)鍵詞:機(jī)器學(xué)習(xí)預(yù)測(cè)糖尿病

      張玉璽 賀松 尤思?jí)?/p>

      摘 要:糖尿病、高血壓和心腦血管病并稱為影響人類健康的三大殺手,不僅對(duì)患者的生命健康造成嚴(yán)重的威脅,也給患者的家庭造成嚴(yán)重的經(jīng)濟(jì)負(fù)擔(dān)。對(duì)糖尿病做出準(zhǔn)確的預(yù)測(cè),意義深遠(yuǎn)。本文采用了KNN、支持向量機(jī)、邏輯回歸、隨機(jī)森林、集成學(xué)習(xí)五種方法對(duì)糖尿病數(shù)據(jù)進(jìn)行預(yù)測(cè),分別取得了71.86%,72.29%,74.46%,71.87%,76.62%的準(zhǔn)確率。結(jié)果表明,集成學(xué)習(xí)預(yù)測(cè)效果最佳,驗(yàn)證了其優(yōu)異性。

      關(guān)鍵詞: 集成學(xué)習(xí);糖尿病;預(yù)測(cè);機(jī)器學(xué)習(xí)

      【Abstract】 Diabetes, hypertension and cardiovascular and cerebrovascular diseases are called three killers of human health,which not only posed a serious threat to the patient's life and health , but also caused a serious economic burden to the patient's family.Accurate prediction of diabetes has profound implications.In this paper, five methods including KNN, Support Vector Machine, Logistic Regression, Random Forest and Integrated Learning are used to predict diabetes data, and the accuracy rates of 71.86%, 72.29%, 74.46%, 71.87% and 76.62% are achieved respectively.The results show that the integrated learning has the best prediction effect and its excellent performance is verified.

      【Key words】 ?integrated learning; diabetes; prediction; machine learning

      0 引 言

      目前,隨著科學(xué)技術(shù)的發(fā)展,大數(shù)據(jù)信息時(shí)代已悄然來(lái)臨,人工智能技術(shù)的研究也取得了長(zhǎng)足進(jìn)步,越來(lái)越多的學(xué)者將研究的關(guān)注點(diǎn)轉(zhuǎn)到醫(yī)療智能診斷上來(lái)。作為人工智能技術(shù)的重要分支,機(jī)器學(xué)習(xí)也已廣泛地被應(yīng)用于醫(yī)學(xué)模型的構(gòu)建中,并發(fā)揮著不可替代的作用。機(jī)器學(xué)習(xí)[1-2]( Machine Learning,ML) 是一門交叉學(xué)科,涉及統(tǒng)計(jì)學(xué)、概率論等多個(gè)領(lǐng)域,該算法是從已有數(shù)據(jù)中挖掘分析獲得規(guī)律,并利用這些規(guī)律對(duì)未知數(shù)據(jù)做出預(yù)測(cè)。

      糖尿病是一種以高血糖為主要特點(diǎn)的代謝性疾病,典型特征為多尿、多飲、多食、體重減輕。國(guó)際糖尿病聯(lián)盟(International Diabetes Federation,IDF)于2017發(fā)布的全球糖尿病地圖數(shù)據(jù)表明,目前全球共有4.25億成人(20~79歲)糖尿病患者,估計(jì)患病率為8.8%;中國(guó)成人糖尿病患者數(shù)量高達(dá)1.14億,占全球成人糖尿病患者總數(shù)的1/4以上,這一數(shù)據(jù)仍在繼續(xù)增長(zhǎng),預(yù)計(jì)到2045年將增至1.2億[3]。而中國(guó)大多數(shù)的糖尿病患者在患病之前,自身既沒(méi)有察覺(jué)、也沒(méi)有明確意識(shí),因此,對(duì)糖尿病進(jìn)行早期的診斷則顯得尤為重要。

      本文選用了機(jī)器學(xué)習(xí)算法中的KNN、支持向量機(jī)、邏輯回歸、隨機(jī)森林四種分類算法構(gòu)建糖尿病單一分類器,同時(shí)通過(guò)投票法作為結(jié)合策略結(jié)合上述四種分類算法構(gòu)成分類投票聚合模型Voting?;诖耍瑢⑦\(yùn)用前述五種分類器對(duì)糖尿病數(shù)據(jù)進(jìn)行分析、預(yù)測(cè),并運(yùn)用10折交叉驗(yàn)證方法對(duì)各個(gè)模型進(jìn)行評(píng)估比較,選出最好的糖尿病預(yù)測(cè)模型,以期為糖尿病的早期篩查與診斷提供輔助決策。本文擬展開(kāi)研究論述如下。

      1 機(jī)器學(xué)習(xí)算法

      1.1 KNN算法

      KNN(k-NearestNeighbor)算法,又叫K近鄰算法,或者說(shuō)K最近鄰分類算法,是著名的模式識(shí)別統(tǒng)計(jì)學(xué)方法。KNN算法在理論上比較成熟,是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一,在機(jī)器學(xué)習(xí)分類算法中占據(jù)著重要位置。K最近鄰指的是K個(gè)最近的鄰居,也就是可以用最接近的K個(gè)鄰居來(lái)表示每個(gè)樣本。

      K近鄰算法中,K值的選取對(duì)于整個(gè)算法起著決定性作用[5]。當(dāng)K的取值過(guò)小時(shí),一旦數(shù)據(jù)中有噪聲存在,將會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生比較大的影響。當(dāng)K的取值過(guò)大時(shí),容易受到樣本均衡問(wèn)題的影響,訓(xùn)練的模型會(huì)用較大鄰域中的訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測(cè),模型的近似誤差將會(huì)增大。

      K要盡量選擇奇數(shù)。選偶數(shù),很有可能會(huì)發(fā)生分類結(jié)果相等的情況,不利于模型的預(yù)測(cè),而選擇奇數(shù)則可以保證在預(yù)測(cè)結(jié)果的最后產(chǎn)生一個(gè)較多的類別。因此,研究必須要選擇合適的K值來(lái)構(gòu)建文中的KNN模型,本文通過(guò)10折交叉驗(yàn)證確定KNN模型的最優(yōu)K值為7。

      1.2 支持向量機(jī)算法

      支持向量機(jī)(Support Vector Machine, SVM)算法1964年由Cortes和Vapnik[6]提出,此后歷經(jīng)一系列改進(jìn)和擴(kuò)展,目前已經(jīng)發(fā)展成較為成熟的機(jī)器學(xué)習(xí)模型。SVM不僅能夠?qū)崿F(xiàn)分類、回歸任務(wù),而且能夠進(jìn)行異常值的檢測(cè),是機(jī)器學(xué)習(xí)領(lǐng)域中廣為流行的模型。

      支持向量機(jī)嘗試找到一個(gè)最優(yōu)超平面來(lái)對(duì)樣本進(jìn)行分割,分割的原則是間隔最大化,該超平面能夠?qū)⒄惡拓?fù)類正確分隔開(kāi)。雖然SVM分類器在許多數(shù)據(jù)上的表現(xiàn)都很好,可是仍需指出,現(xiàn)實(shí)中的大部分?jǐn)?shù)據(jù)并不是線性可分的,這個(gè)時(shí)候滿足這樣條件的超平面就根本不存在,即特征空間存在超曲面將正類和負(fù)類分開(kāi)。對(duì)于這種情況,可以將訓(xùn)練樣本從原始空間映射到一個(gè)更高維的希爾伯特空間(Hilbert space)中去,將其轉(zhuǎn)化為線性問(wèn)題,使得樣本在這個(gè)空間中線性可分。

      SVM將非線性問(wèn)題轉(zhuǎn)化為線性問(wèn)題的方法關(guān)鍵就是選擇一個(gè)核函數(shù),常用的核函數(shù)有線性核(linear)、多項(xiàng)式核(poly-nomial)、高斯RBF核和 Sigmoid 核函數(shù)。在本文SVM模型的構(gòu)建中,研究選擇的核函數(shù)是多項(xiàng)式核。

      1.3 邏輯回歸算法

      邏輯回歸(Logistic Regression,LR)算法,又稱對(duì)數(shù)幾率回歸,雖然名字中帶“回歸”字樣,但其實(shí)際上卻是一種分類學(xué)習(xí)方法,主要應(yīng)用于兩分類問(wèn)題。邏輯回歸由于具有計(jì)算速度快、解釋性好以及容易擴(kuò)展和實(shí)現(xiàn)等優(yōu)點(diǎn),常會(huì)應(yīng)用于疾病診斷,經(jīng)濟(jì)預(yù)測(cè)等方面。邏輯回歸算法使用Sigmoid函數(shù)作為研究中的預(yù)測(cè)函數(shù),對(duì)于輸入變量x,通過(guò)線性函數(shù)y=wx+b的運(yùn)算,輸出變量y,y則通過(guò)Sigmoid函數(shù)轉(zhuǎn)換成標(biāo)簽化的結(jié)果。模型函數(shù)的閾值可以進(jìn)行設(shè)置,當(dāng)Sigmoid函數(shù)的輸出值大于研究設(shè)定的閾值時(shí),模型會(huì)將其判定為“1”這一個(gè)類別;否則判定為“0”這一類別,函數(shù)閾值是一個(gè)可調(diào)節(jié)的參數(shù)。其對(duì)應(yīng)數(shù)學(xué)公式如下:

      Sigmoid(x)=11+e-x.(4)

      邏輯回歸也會(huì)面臨過(guò)擬合的問(wèn)題,所以就要采取一定的措施來(lái)緩解模型過(guò)擬合。通用的方法是在邏輯回歸的代價(jià)函數(shù)上,加入正則化項(xiàng),從而能得到一個(gè)擬合較為適度的機(jī)器學(xué)習(xí)模型,常見(jiàn)的正則化手段有L1正則化和L2正則化[7]。

      1.4 隨機(jī)森林算法

      隨機(jī)森林(Ramdom Forest,RF)算法是由Breiman提出的一種基于 CART 決策樹(shù)的組合分類器算法,可構(gòu)造出多個(gè)樹(shù)形分類模型。隨機(jī)森林是一種集成學(xué)習(xí)算法,是由多個(gè)決策樹(shù)合并在一起形成的組合識(shí)別模型?!半S機(jī)”一詞在這里有兩層含義。第一層可以理解為在總訓(xùn)練樣本中隨機(jī)有放回地為森林中的每個(gè)決策樹(shù)選取訓(xùn)練集; 第二層是對(duì)森林中的每個(gè)決策樹(shù)從所有樣本屬性中隨機(jī)不放回地選擇部分樣本屬性。

      隨機(jī)森林的每棵樹(shù)都可以得出分類決策結(jié)果,通過(guò)采用森林內(nèi)決策樹(shù)投票,根據(jù)少數(shù)服從多數(shù)的原則,來(lái)判定待測(cè)樣本的類別,而所有樹(shù)中票數(shù)較高的類別即為最終結(jié)果。隨機(jī)森林分類精度相對(duì)較高,具有不易過(guò)擬合、抗噪聲能力強(qiáng)且易實(shí)現(xiàn)等特點(diǎn)[8],但運(yùn)算量也相對(duì)較大。

      1.5 集成學(xué)習(xí)

      1.5.1 集成學(xué)習(xí)原理

      集成學(xué)習(xí)通過(guò)構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器完成學(xué)習(xí)任務(wù)。與一般的學(xué)習(xí)方法不同,一般的學(xué)習(xí)方法是用訓(xùn)練數(shù)據(jù)構(gòu)造一個(gè)學(xué)習(xí)器,而集成學(xué)習(xí)方法是構(gòu)造多個(gè)學(xué)習(xí)器并通過(guò)一定的策略將其結(jié)合起來(lái),上文中提到的隨機(jī)森林算法就是最常見(jiàn)的集成學(xué)習(xí)算法。但在實(shí)際模型構(gòu)建中,由于每個(gè)模型都有其各自的優(yōu)勢(shì)及局限性,研究只能得到多個(gè)在某些方面有偏好的學(xué)習(xí)器(弱學(xué)習(xí)器)。而集成學(xué)習(xí)則能將多個(gè)弱學(xué)習(xí)器相結(jié)合,以期得到一個(gè)穩(wěn)定且在各個(gè)方面性能表現(xiàn)都比較出色的模型。在此情況下,集成學(xué)習(xí)能夠綜合各個(gè)學(xué)習(xí)器的預(yù)測(cè)結(jié)果,即使某一學(xué)習(xí)器因?yàn)樽陨聿蛔銓?dǎo)致分類錯(cuò)誤,可是只要大部分的學(xué)習(xí)器預(yù)測(cè)正確,最終仍能得到正確的預(yù)測(cè)結(jié)果[9]。

      1.5.2 集成學(xué)習(xí)結(jié)合策略

      對(duì)于機(jī)器學(xué)習(xí)中的分類任務(wù),最常用的結(jié)合策略是投票法,每個(gè)弱分類器給出自己的分類預(yù)測(cè),再通過(guò)投票法結(jié)合后得出最終的結(jié)果。機(jī)器學(xué)習(xí)中的投票法也有不同的方式,最常見(jiàn)的是簡(jiǎn)單投票法,包括相對(duì)多數(shù)投票法和絕對(duì)多數(shù)投票法。對(duì)此可做闡釋分述如下。

      在本文中,使用了4個(gè)單一分類器,即:KNN分類器、SVM分類器、邏輯回歸分類器和隨機(jī)森林分類器,通過(guò)把4個(gè)分類器的預(yù)測(cè)結(jié)果采用簡(jiǎn)單投票法中的相對(duì)多數(shù)投票法作為結(jié)合策略結(jié)合起來(lái),得票數(shù)最多的類別作為集成模型最終的預(yù)測(cè)類別。

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 數(shù)據(jù)來(lái)源

      本研究采用的數(shù)據(jù)來(lái)源于開(kāi)放的皮馬印第安人糖尿病數(shù)據(jù)集,該數(shù)據(jù)集由768個(gè)皮馬印第安人糖尿病信息樣本組成(樣本均為女性)。其中,每個(gè)樣本均包含Pregnancies(是否懷孕)、Glucose(葡萄糖含量)、Blood Pressure(血壓指數(shù))、Skin Thickness(皮膚厚度指數(shù))、Insulin(胰島素含量)、BMI(體重指數(shù))、Diabetes Pedigree Function(糖尿病譜系功能)、Age(年齡)共8個(gè)輸入變量,8個(gè)輸入變量全部為連續(xù)型變量,無(wú)需設(shè)置啞變量,同時(shí)包含Out come(結(jié)果)一個(gè)輸出變量,當(dāng)Out come的值為1時(shí)代表患糖尿病,當(dāng)Out come的值為0時(shí)表示未患糖尿病。

      2.2 模型建立

      機(jī)器學(xué)習(xí)算法模型的預(yù)測(cè)能力與訓(xùn)練樣本的數(shù)量關(guān)系密切,根據(jù)以往的經(jīng)驗(yàn)和相關(guān)文獻(xiàn)研究,將數(shù)據(jù)集按照7:3的比例進(jìn)行劃分,其中70%(包含538條樣本)作為訓(xùn)練集的數(shù)據(jù)資料,用來(lái)建造預(yù)測(cè)模型;另外30%(包含230條樣本)作為測(cè)試集數(shù)據(jù)資料,用來(lái)檢測(cè)和評(píng)價(jià)模型的性能效果。

      研究中,采用Python語(yǔ)言開(kāi)發(fā)的sklearn機(jī)器學(xué)習(xí)庫(kù)中的KNN算法、支持向量機(jī)算法、邏輯回歸算法、隨機(jī)森林算法,以是否懷孕、葡萄糖含量、年齡等8個(gè)特征作為自變量,患者是否患糖尿病作為因變量,分別構(gòu)建4個(gè)單一分類器和以相對(duì)多數(shù)投票法作為結(jié)合策略的集成分類器。實(shí)驗(yàn)中,使用10折交叉驗(yàn)證對(duì)模型參數(shù)進(jìn)行調(diào)優(yōu),以使模型具有最優(yōu)的參數(shù)組合。

      2.3 模型評(píng)估

      本文主要通過(guò)準(zhǔn)確率、靈敏度、ROC曲線下面積等指標(biāo)對(duì)構(gòu)建的分類器模型進(jìn)行性能評(píng)價(jià),具體結(jié)果見(jiàn)表1和圖1。

      由表1可知,在對(duì)糖尿病數(shù)據(jù)的預(yù)判上,集成模型Voting的效果是這5個(gè)模型中最好的,其準(zhǔn)確率達(dá)到了76.62%,比最高的單一分類器提升了

      2.16%,其次是邏輯回歸74.46%,再次是支持向量機(jī)72.29%和隨機(jī)森林71.87%,KNN的效果最差,為71.86%。

      AUC(ROC曲線下面積)能夠體現(xiàn)模型性能的優(yōu)劣,圖1顯示的是各個(gè)分類器的ROC曲線。曲線越是靠近左上方,曲線下的面積就越大,表明該算法的預(yù)測(cè)效果越好。本實(shí)驗(yàn)采用10折交叉驗(yàn)證預(yù)測(cè)得到了各模型的AUC值。由表1和圖1可知,5種機(jī)器學(xué)習(xí)方法AUC值的排名依次是:集成模型Voting為0.802,邏輯回歸為0.791,隨機(jī)森林為0.782,支持向量機(jī)為0.718,KNN為0.717。

      綜上,研究將選擇準(zhǔn)確率最高、AUC值最大的集成模型Voting作為最終的糖尿病數(shù)據(jù)預(yù)測(cè)模型。

      3 結(jié)束語(yǔ)

      本文闡述了機(jī)器學(xué)習(xí)中的KNN、支持向量機(jī)、邏輯回歸、隨機(jī)森林四種算法以及集成學(xué)習(xí)的基本原理與特點(diǎn),并基于糖尿病數(shù)據(jù)分別建立相應(yīng)的模型,利用交叉驗(yàn)證對(duì)模型的參數(shù)進(jìn)行了優(yōu)化,通過(guò)準(zhǔn)確率、AUC值等模型評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行選擇。結(jié)果表明以相對(duì)多數(shù)投票法作為結(jié)合策略的集成模型Voting具有更好的預(yù)測(cè)效果。由于數(shù)據(jù)集樣本量有限,導(dǎo)致整體預(yù)測(cè)準(zhǔn)確率偏低。但有理由相信,在有足夠數(shù)據(jù)的情況下,將會(huì)構(gòu)建出更加準(zhǔn)確的預(yù)測(cè)模型。希望本次研究能夠?yàn)樘悄虿〉念A(yù)測(cè)提供一定的幫助,并能夠?yàn)閲?guó)內(nèi)的醫(yī)療事業(yè)做出應(yīng)有的貢獻(xiàn)。

      參考文獻(xiàn)

      [1]MORPURGO R,MUSSI S.An intelligent diagnostic support system[J].Expert Systems,2001,18(l):43-58.

      [2]SELA R J,SIMONOFF J S.RE-EM trees:A data mining approach for longitudinal and clustered data[J]. Machine Learning,2012,86(2):169-207.

      [3]International Diabetes Federation. IDF Diabetes Atlas[M]. 8th ed. Brussels:International Diabetes Federation,2017.

      [4]吳興惠,周玉萍,邢海花,等. 機(jī)器學(xué)習(xí)分類算法在糖尿病診斷中的應(yīng)用研究[J].電腦知識(shí)與技術(shù),2018,14(35):177-178,195.

      [5]楊帆,林琛,周綺鳳,等.基于隨機(jī)森林的潛在k近鄰算法及其在基因表達(dá)數(shù)據(jù)分類中的應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐,2012,32(4):815-825.

      [6]CORTES C,VAPNIK V. Support vector networks[J].Machine Learning,1995,20(3) : 273-297.

      [7]史雙睿. 異質(zhì)集成學(xué)習(xí)器在鳶尾花卉分類中的應(yīng)用[J].電子制作,2019(2):45-47,79.

      [8]闞紅星,張璐瑤,董昌武.一種2型糖尿病中醫(yī)證型的舌圖像識(shí)別方法[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2016,35(6):658-664.

      [9]曾一平. 基于集成學(xué)習(xí)的小麥識(shí)別研究[J].現(xiàn)代商貿(mào)工業(yè),2019,40(17):207-209.

      [10]ZHOU Zhihua. Ensemble methods: foundations and algorithms[M]. Boca Raton: CRC Press,2012.

      猜你喜歡
      機(jī)器學(xué)習(xí)預(yù)測(cè)糖尿病
      選修2—2期中考試預(yù)測(cè)卷(B卷)
      選修2—2期中考試預(yù)測(cè)卷(A卷)
      跟蹤導(dǎo)練(一)(5)
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      Ending teen smoking
      《福彩3D中獎(jiǎng)公式》:提前一月預(yù)測(cè)號(hào)碼的驚人技巧!
      預(yù)測(cè)高考
      視力改變與糖尿病等
      襄樊市| 山阳县| 马公市| 县级市| 买车| 丹凤县| 健康| 阿坝县| 焉耆| 竹北市| 临安市| 香格里拉县| 霞浦县| 江津市| 福安市| 文安县| 车险| 浦江县| 汝阳县| 南充市| 桑植县| 崇信县| 神农架林区| 阳谷县| 南昌市| 淮阳县| 鄂伦春自治旗| 德格县| 德惠市| 花垣县| 宝兴县| 巴楚县| 汾西县| 工布江达县| 南昌市| 牡丹江市| 江都市| 绥化市| 独山县| 名山县| 同心县|