• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于迭代隨機(jī)森林算法的糖尿病預(yù)測

      2020-01-03 08:05:38劉文博梁盛楠秦喜文董小剛王純杰
      關(guān)鍵詞:度量患病精度

      劉文博, 梁盛楠, 秦喜文, 董小剛*, 王純杰

      (1.黔南民族師范學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院, 貴州 都勻 558000;2.長春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院, 吉林 長春 130012)

      0 引 言

      糖尿病是一組以高血糖為特征的代謝性疾病,高血糖是由于胰島素分泌、胰島素作用缺陷或兩者兼而有之所致[1],其中,Ⅱ型糖尿病是最為常見的類型,約占糖尿病患者總數(shù)的90%,該類糖尿病是由于胰島素抵抗致使進(jìn)行性胰島素分泌缺陷[2]。糖尿病的發(fā)病率和患病率正在呈現(xiàn)出逐年上升且低齡化的趨勢,已成為我國乃至世界的重大公共健康安全問題[3]。由于多數(shù)患者意識不到糖尿病患病前期出現(xiàn)的癥狀,以致最終發(fā)展為糖尿病。若在發(fā)病前的潛伏期及早地對糖尿病風(fēng)險進(jìn)行有效干預(yù),每年大約有6%~10%的患者不會發(fā)展為糖尿病[4]。故對糖尿病進(jìn)行有效預(yù)防和檢測是一項至關(guān)重要的工作,進(jìn)行干預(yù)的實質(zhì)就是要盡早地發(fā)現(xiàn)糖尿病風(fēng)險。

      傳統(tǒng)的診斷依據(jù)主要是通過檢測餐后血糖和糖化血紅蛋白,進(jìn)而對糖尿病進(jìn)行評估,盡管十分精確但成本較高[5];另一方面將醫(yī)生積累多年的個人經(jīng)驗作為重要參考,隨著診斷數(shù)量的增加和疲勞感上升,時常會出現(xiàn)誤診或漏診現(xiàn)象。為了有效解決傳統(tǒng)診療方式的弊端,減少治療成本,提高糖尿病預(yù)測的精度,近年來,基于機(jī)器學(xué)習(xí)算法的各種分類器系統(tǒng)在糖尿病、乳腺癌等醫(yī)學(xué)診斷中的應(yīng)用逐漸增多。

      Smith等[6]使用Logistic回歸和ADAP方法對皮瑪族印第安女性糖尿病數(shù)據(jù)集(Pima Indians Women Diabetes)進(jìn)行分類預(yù)測,得到相應(yīng)的精度分別為79.17%和76%;Stern等[7]通過預(yù)測7.5 a的Ⅱ型糖尿病發(fā)病率,驗證了與單純依賴2 h口服糖耐量試驗結(jié)果相比,使用多元Logistic回歸模型可更好地識別糖尿病高危人群;Raymer等[8]利用Na?ve Bayes 和Nonlinear Bayes分類器對皮瑪族印第安女性糖尿病數(shù)據(jù)集進(jìn)行分類研究,在測試集上的分類精度分別為64.6%和70.4%;Eggermont等[9]利用C4.5和Bagged C4.5算法對皮瑪族印第安女性糖尿病數(shù)據(jù)集進(jìn)行分類預(yù)測,獲得的分類精度分別為71.6%和75.6%。

      以往研究結(jié)果表明,與其它類型的糖尿病數(shù)據(jù)集相比較,皮瑪族印第安女性糖尿病數(shù)據(jù)是一類比較難分的數(shù)據(jù)集,體現(xiàn)在多數(shù)分類算法對其分類時得到的分類精度不高,最差時僅有60%左右。應(yīng)從更好的檢測特征間交互作用的角度,來提高Pima數(shù)據(jù)集的分類精度。當(dāng)下很多機(jī)器學(xué)習(xí)方法盡管可以檢測特征間的交互作用,但并沒有考慮到不影響預(yù)測精度的前提下去檢測“高階交互作用”,諸如CART[10],Node Harvest[11],F(xiàn)orest Garrote[12],Rulefit3[13]和Bayesian epistasis mapping[14]。

      為了克服上述算法的缺點,在隨機(jī)森林(RF)、隨機(jī)交叉樹(RITs)的基礎(chǔ)上,通過廣泛的生物模擬,Basu等[15]開發(fā)了迭代隨機(jī)森林算法(Iterative Random Forests, IRF),IRF訓(xùn)練一個特征加權(quán)的決策樹集合來檢測穩(wěn)定、高階的交互作用,其計算代價與RF相同。鑒于此,文中提出一種可識別高階交互作用的迭代隨機(jī)森林算法,應(yīng)用于Pima糖尿病數(shù)據(jù)集的分類預(yù)測研究。

      1 迭代隨機(jī)森林

      1.1 隨機(jī)森林

      隨機(jī)森林(Random Forest)是由Breiman[16]提出的,其基本原理為:對原始數(shù)據(jù)集做多次有放回抽樣(Bootstrap),每次抽取的樣本容量與原始數(shù)據(jù)相同,由于是“有放回”,所以總會有一些數(shù)據(jù)被重復(fù)抽取,而另外一些根本就沒被抽取到,由公式(1-1/N)N≈1/e可知,沒抽到樣本約占原始數(shù)據(jù)集的37%,如此就會得到許多不同的數(shù)據(jù)集;然后對每個數(shù)據(jù)集建立一個決策樹(Decision Tree),對于隨機(jī)森林中每棵樹的每個節(jié)點,變量的拆分不是由所有變量競爭,而是由“隨機(jī)挑選”的少數(shù)變量競爭,且每棵樹都長到底,這樣可以避免由于強(qiáng)勢變量的主宰而忽略數(shù)據(jù)關(guān)系中的細(xì)節(jié),極大地提高了模型對數(shù)據(jù)的代表性;最后,對于一個新的觀測值,通過n棵樹得到n個預(yù)測結(jié)果,對于回歸問題取這n個預(yù)測值的平均作為最終預(yù)測結(jié)果,而對于分類問題,采取“少數(shù)服從多數(shù)原則”,即n個預(yù)測中出現(xiàn)最多的類作為最終預(yù)測類。

      1.2 迭代隨機(jī)森林

      迭代隨機(jī)森林的基本思想是在隨機(jī)森林的基礎(chǔ)上通過對選定的特征進(jìn)行“迭代重新賦權(quán)”(Iterative Re-weighting)得到一個帶有特征權(quán)重的隨機(jī)森林[17],然后利用泛化的隨機(jī)交叉樹[18]作用于帶有特征權(quán)重的隨機(jī)森林上,進(jìn)而識別出特征的高階交互作用,同時能夠保證迭代隨機(jī)森林也有很好的預(yù)測能力,至少與隨機(jī)森林不相上下。

      迭代隨機(jī)森林的具體工作流程主要為以下三步[19]:

      2)泛化的隨機(jī)交叉樹作用于RF(ωK),其中RF(ωK)為第K次迭代產(chǎn)生的具有特征權(quán)重的隨機(jī)森林,本步驟產(chǎn)生了一組交叉作用集S。

      3)Bagged穩(wěn)定得分,我們使用“外層”(Out Layer)自助法用以評價重現(xiàn)交叉作用的穩(wěn)定性,生成自助抽樣的數(shù)據(jù)集D(b),b=1,2,…,B,在每一數(shù)據(jù)集D(b)上擬合隨機(jī)森林RF(ωK),并且在每一個自助抽樣集上使用泛化隨機(jī)交叉樹來識別交互作用集S(b),給出交叉作用集S的穩(wěn)定分?jǐn)?shù)公式

      (1)

      1.3 分類模型的性能指標(biāo)

      為了比較不同分類模型的優(yōu)劣,需要給出評價模型性能的度量指標(biāo),以最常見的二分類問題為例給出相應(yīng)的模型評價指標(biāo)。在二分類問題中,可將樣本根據(jù)真實類和分類模型給出的預(yù)測類的組合,劃分為真正例(True Positive, TP)、假正例(False Positive, FP)、真反例(True Negative, TN)、假反例(False Negative, FN)四種情況[21],令TP、FP、TN、FN分別表示對應(yīng)的樣本數(shù),易見TP+FP+TN+FN=n,其中n為樣本容量,分類結(jié)果的混淆矩陣(Confusion Matrix)見表1。

      表1 二分類問題預(yù)測結(jié)果的混淆矩陣

      分類精度(Accuracy)、查準(zhǔn)率(Precision)和查全率(Recall)分別定義為:

      (2)

      (3)

      (4)

      盡管分類精度可以從總體上較好地刻畫分類模型的分類性能,但有時并不能滿足所有的任務(wù)需求。以醫(yī)學(xué)診斷為例,分類精度表明有多少比例的就診人數(shù)被正確歸類(患病、無病),但是往往我們更關(guān)心“被診斷為患病的人群中有多少比例的人確實患病”或“在所有患病人群中有多少比例的人被診斷為患病”,顯然精度就無法進(jìn)行衡量了,這就需要借助于式(3)和式(4)的P和R來進(jìn)行度量。需要指出的是P和R是一對相互矛盾的度量,即其中一個量增大,另外一個量往往減少。

      有時需要綜合P和R去度量一個分類器的好壞,而不是僅就P和R某單一指標(biāo)去評價分類模型,更為常用的是F1度量

      (5)

      等價的可表示為

      (6)

      式中:F1——基于P和R的調(diào)和平均。

      2 實證分析

      2.1 數(shù)據(jù)來源與探索性分析

      文中研究數(shù)據(jù)來自于美國國家糖尿病消化病腎病研究所,該數(shù)據(jù)集提供了亞利桑那州中南部皮瑪族印第安后裔成年女性(年齡在21歲以上)的糖尿病診斷信息,共786個觀測樣本,其中268例被診斷為糖尿病陽性,500例為糖尿病陰性。提取的多項相關(guān)糖尿病危險因素分別為懷孕次數(shù)(npreg)、血糖濃度(glu)、舒張壓(bp)、三頭肌皮褶厚度(skin)、血清胰島素(insulin)、身體質(zhì)量指數(shù)(bmi)、糖尿病家族影響因素(ped)、年齡(age),同時還提取了一個類別標(biāo)簽,未來5年是否會患有糖尿病(type,1代表是,0代表否)。按照世界衛(wèi)生組織的標(biāo)準(zhǔn)進(jìn)行診斷,數(shù)據(jù)集中包含的患者為Ⅱ型糖尿病,即“非胰島素依賴型”糖尿病。

      為了解數(shù)據(jù)集取值基本情況,給出數(shù)據(jù)集中的部分樣本觀測值,見表2。

      表2 皮瑪族成年女性糖尿病診斷信息

      為了進(jìn)一步了解屬性特征對患病類別的影響以及數(shù)據(jù)的分布狀況,對數(shù)據(jù)集進(jìn)行基本的探索性分析,給出數(shù)據(jù)集所有屬性特征對類別標(biāo)簽的箱線圖,如圖1所示。

      圖1 皮瑪族印第安成年女性糖尿病數(shù)據(jù)集在類別標(biāo)簽下屬性特征取值的分布狀況

      由于各個屬性特征單位不盡相同,需要對數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,即轉(zhuǎn)換均值為0、標(biāo)準(zhǔn)差為1的形式,進(jìn)而生成更有意義的統(tǒng)計圖形。圖1給出了每個類別下各個屬性特征的取值分布狀況,例如患有糖尿病的人群身體質(zhì)量指數(shù)(bmi)、年齡(age)、血糖濃度(glu)明顯要高于非患病人群。由于血清胰島素是人體內(nèi)降低血糖的主要激素,糖尿病患者體內(nèi)血清胰島素含量應(yīng)低于正常人群,從圖1中可以看出,在所有特征中只有血清胰島素(insulin)這一項因素在糖尿病人群中要低于非患病人群,符合實際情形。

      接下來,基于迭代隨機(jī)森林對影響糖尿病發(fā)展程度的屬性變量做重要性分析,探索出哪些特征對算法的分類精度會產(chǎn)生主要影響,得到相應(yīng)的變量重要性排序結(jié)果如圖2所示。

      圖2(a)是利用“袋外數(shù)據(jù)”(Out of Bag)作為訓(xùn)練集所做的交叉驗證得到的度量,表示刪除某個自變量后平均減少的精度,減少的越多說明變量越重要,按照平均減少的精度進(jìn)行變量重要性從大到小排序可得glu、bmi、age、npreg、insulin、ped、skin、bp;圖2(b)為綜合了每個自變量在各個節(jié)點的表現(xiàn)而產(chǎn)生的重要性度量(使得數(shù)據(jù)變“純”,即分支節(jié)點所包含的樣本盡可能屬于同一類),表示刪除某個變量后平均減少的基尼指數(shù)[22],減少的越多說明變量越重要,按照基尼指數(shù)的減少程度對變量的重要性從大到小進(jìn)行排序可得glu、bmi、age、ped、bp、npreg、insulin、skin。從排序結(jié)果可以看出,無論按照哪種衡量標(biāo)準(zhǔn)對變量的重要程度排序,對是否患有糖尿病影響最深的三個變量都是血糖濃度、身體質(zhì)量指數(shù)和年齡,說明血糖濃度過高、肥胖、年齡偏大的人群更易患有糖尿病。所以在糖尿病的預(yù)防工作中,應(yīng)對血糖濃度和身體質(zhì)量指數(shù)這兩項指標(biāo)應(yīng)加以控制。

      (a) 數(shù)據(jù)集平均精度減少率 (b) 數(shù)據(jù)集平均基尼指數(shù)減少率

      圖2 基于迭代隨機(jī)森林的皮瑪族糖尿病數(shù)據(jù)集8項屬性特征重要性分析

      2.2 迭代隨機(jī)森林Ⅱ型糖尿病分類

      為了進(jìn)一步提高糖尿病數(shù)據(jù)集的分類精度,即能夠?qū)μ悄虿』颊吲c非患者進(jìn)行正確識別,提出一種“可識別高階交互作用的迭代隨機(jī)森林算法”,針對皮瑪族成年女性是否患有糖尿病進(jìn)行判別分類研究。文中所建立的分類預(yù)測模型是在Windows7,64位操作系統(tǒng)下實現(xiàn)的,采用的開發(fā)平臺是R*64 3.5.0,硬件為i3-2310M CPU 2.10 GHz,4 G內(nèi)存。

      首先,通過Bootstrap隨機(jī)抽樣把數(shù)據(jù)集分為訓(xùn)練集和測試集。在利用迭代隨機(jī)森林進(jìn)行分類時,需要設(shè)置迭代次數(shù),為了比較不同次數(shù)是否會產(chǎn)生不同的分類效果,設(shè)置迭代次數(shù)為8次,基于測試集各個迭代次數(shù)下得到的A、P、R和F1度量見表3。

      從表3可以看出,當(dāng)訓(xùn)練集與測試集樣本比例為7∶3時,進(jìn)行到4次迭代隨機(jī)森林分類時,模型A達(dá)到最大為78.21%,意味著在100個樣本中大約有78個樣本被正確歸類;在3次迭代時P達(dá)到最大為70.27%,意味著在100個被預(yù)測為患病人群中大約有70人確實患??;在8次迭代時R達(dá)到最大為63.22%,表明100個患病人群中,約有63人能夠被正確識別為患??;在第4次迭代時,綜合考慮了P與R性能的F1度量達(dá)到最大為65.85%,綜合考慮各個評價指標(biāo),可以認(rèn)為在迭代隨機(jī)森林進(jìn)行到第4次迭代時,得到的分類模型最優(yōu)。通過表3得到的實驗結(jié)果可知,為了得到更好的A、P、R,不必一味增大迭代的次數(shù),對于次數(shù)的設(shè)置一般3~6次即可。

      表3 迭代隨機(jī)森林不同迭代次數(shù)下A、P、R和F1度量 %

      注:訓(xùn)練集與測試集樣本比為7∶3。

      迭代隨機(jī)森林最明顯的優(yōu)勢就是可以靈活地調(diào)整迭代次數(shù),最優(yōu)的A、P、R可能分別對應(yīng)不同的迭代次數(shù)。例如表3中顯示,最好的A在第4次時出現(xiàn),而最好的R卻在第8次時出現(xiàn)。因此迭代隨機(jī)森林為我們提供了更多的選擇余地,如果我們更關(guān)心A,可以選第4次迭代時的隨機(jī)森林模型;如果更傾向于R,可以選定第8次迭代產(chǎn)生的隨機(jī)森林模型。需要強(qiáng)調(diào)的是,在實際中相比于A,可能更關(guān)心R,即在患病人群中可以被正確識別為患病的比率,如果可以獲得更高的R,那么在患病人群中就會有更多的糖尿病患者被正確診斷,進(jìn)而得到及時治療。

      2.3 不同分類模型比較

      為了對比不同分類模型的精度,分別采用隨機(jī)森林(Random Forest, RF)、K最近鄰(K-Nearest Neighbor, KNN)、基于不同核函數(shù)的支持向量機(jī)(Support Vector Machine, SVM)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)、Logistic回歸(Logistic Regression, LR)和梯度提升機(jī)方法(Gradient Boosting Machine, GBM)、決策樹(Decision Tree, DT)與迭代隨機(jī)森林(Iterative Random Forests, IRF)進(jìn)行比較,基于測試集得到的A、P、R、F1度量和運行時間見表4和表5。

      表4 不同分類模型A、P、R、F1度量和運行時間對比 %

      注:訓(xùn)練集與測試集樣本比為7∶3。

      表5 不同分類A、P、R、F1度量和運行時間對比 %

      注:訓(xùn)練集與測試集樣本比為8∶2。

      由表4和表5可以看出,對皮瑪族成年女性是否患有糖尿病進(jìn)行判別分類時,在8種分類模型中,迭代隨機(jī)森林的A是最高的。當(dāng)訓(xùn)練集與測試集樣本比為7∶3時,A為78.21%、R為66.04%和F1度量的68.63%均為所有方法中最高的,而P在所有方法中排名第二,僅稍低于基于多項式核函數(shù)的支持向量機(jī)。當(dāng)訓(xùn)練集與測試集樣本比為8∶2時,迭代隨機(jī)森林的A、P、R、F1度量均為所有分類方法中最高的,可見其分類優(yōu)勢明顯優(yōu)于其它分類模型。

      從算法運行時間效率的角度進(jìn)行比對,可以看出,基于8次迭代隨機(jī)森林基于30%和20%的測試集用時分別為3.68 s和3.34 s,只少于支持向量機(jī),但是應(yīng)考慮到迭代隨機(jī)森林要生成多個帶有權(quán)重的森林,在算法默認(rèn)的情形下,每個森林包含500顆決策樹,同時該算法能保證提高分類預(yù)測的精度,可以認(rèn)為迭代隨機(jī)森林算法運行已經(jīng)十分高效。

      接下來繪制各個分類器下的ROC(Receiver Operating Characteristic)曲線[23],并計算ROC曲線下的面積值A(chǔ)UC[24](Area Under ROC Curve),進(jìn)而更為直觀地比較各個分類模型孰優(yōu)孰劣,對應(yīng)于文中的8個分類器的ROC曲線和AUC值如圖3所示。

      圖3 基于30%的測試集迭代隨機(jī)森林、隨機(jī)森林、K最近鄰、支持向量機(jī)、Logistic 回歸、梯度提升機(jī)、決策樹和人工神經(jīng)網(wǎng)絡(luò)分類模型的ROC曲線以及相應(yīng)的AUC值

      圖3給出了各個分類算法的ROC曲線和AUC值,如果一個分類器的ROC曲線被另外一個分類器的ROC曲線完全包住,則可認(rèn)為后者的性能要優(yōu)于前者,按照這個原則可以看出,迭代隨機(jī)森林、隨機(jī)森林和K最近鄰三個分類模型的ROC曲線顯然包住了其它分類器的ROC曲線,說明這三個分類器的分類效果要優(yōu)于其它分類模型。由于迭代隨機(jī)森林、隨機(jī)森林和K最近鄰的ROC曲線之間存在交叉,此時就要借助于AUC的值,即計算ROC曲線下方的面積比較分類器之間的性能,圖3的最右側(cè)給出了各個分類模型對應(yīng)的AUC值,迭代隨機(jī)森林的AUC值為0.742 7,高于K最近鄰的0.740 7和隨機(jī)森林的0.736 8。

      通過實驗對比,無論是基于A、P、R、F1度量,還是借助于ROC曲線和AUC值,可以得出迭代隨機(jī)森林對于皮瑪族印第安女性糖尿病數(shù)據(jù)集的分類性能,是眾多的分類算法中最優(yōu)的。正是由于“迭代隨機(jī)森林算法”可以較好檢驗出特征間的高階交互作用,因此,在提高數(shù)據(jù)集的預(yù)測精度上表現(xiàn)的更為出色。

      3 結(jié) 語

      提出一種可檢測變量特征間交互作用的迭代隨機(jī)森林算法,應(yīng)用于皮瑪族成年女性Ⅱ型糖尿病數(shù)據(jù)集分類研究。借助于迭代隨機(jī)森林算法,基于精度與基尼系數(shù)的平均減少量給出了影響糖尿病病情屬性特征的重要性排序,發(fā)現(xiàn)血糖濃度、身體質(zhì)量指數(shù)和年齡是影響糖尿病病情的三項最重要指標(biāo)。

      為了橫向比較迭代隨機(jī)森林與目前主流的機(jī)器學(xué)習(xí)方法的分類效果,分別選取隨機(jī)森林、K最近鄰、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、Logistic回歸、梯度提升機(jī)和決策樹方法對皮瑪族糖尿病數(shù)據(jù)集進(jìn)行分類。實驗分析表明,基于30%和20%的測試集迭代隨機(jī)森林的精度分別達(dá)到78.21%和80.37%,優(yōu)于其它的7種分類模型;同時又借助于ROC曲線和AUC值,在基于30%的測試集上,迭代隨機(jī)森林的ROC曲線也在其它分類模型ROC曲線的上方且AUC值也是所有分類方法中最高的。

      通過迭代隨機(jī)森林算法可以對糖尿病進(jìn)行有效地監(jiān)測與識別,并挖掘出患病因素,及時地對糖尿病作出提早預(yù)防和風(fēng)險控制,進(jìn)而降低醫(yī)療成本,減少誤診率。

      猜你喜歡
      度量患病精度
      有趣的度量
      模糊度量空間的強(qiáng)嵌入
      為照顧患病家父請事假有何不可?
      上海工運(2020年8期)2020-12-14 03:11:56
      野生動物與人獸共患病
      科學(xué)(2020年3期)2020-11-26 08:18:20
      迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
      基于DSPIC33F微處理器的采集精度的提高
      電子制作(2018年11期)2018-08-04 03:25:38
      “glifo”幫助患病兒童圓提筆之夢
      GPS/GLONASS/BDS組合PPP精度分析
      地質(zhì)異常的奇異性度量與隱伏源致礦異常識別
      改進(jìn)的Goldschmidt雙精度浮點除法器
      龙海市| 白玉县| 万荣县| 当雄县| 微山县| 衡阳县| 宁德市| 左贡县| 大兴区| 巴塘县| 毕节市| 嵩明县| 剑河县| 文化| 宝丰县| 甘孜县| 中西区| 开远市| 珠海市| 晋宁县| 肥乡县| 磴口县| 华宁县| 卢龙县| 板桥市| 墨竹工卡县| 利辛县| 淮滨县| 晴隆县| 石阡县| 宜都市| 都江堰市| 漾濞| 科技| 周至县| 瑞丽市| 璧山县| 黔南| 达孜县| 双鸭山市| 稷山县|