• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      早期糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型的比較研究

      2021-07-11 18:44王成武晏峻峰
      關(guān)鍵詞:機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘糖尿病

      王成武 晏峻峰

      摘?要:糖尿病是一種比較常見的慢性疾病,并且存在較長(zhǎng)的無(wú)癥狀階段。本文主要介紹了機(jī)器學(xué)習(xí)中的5種分類算法,分別是樸素貝葉斯、支持向量機(jī)、邏輯回歸、決策樹和集成分類器Random Forest,并在Weka數(shù)據(jù)挖掘平臺(tái)上,對(duì)糖尿病數(shù)據(jù)進(jìn)行挖掘分析,根據(jù)混淆矩陣、Kappa系數(shù)、ROC曲線、均方根誤差以及相對(duì)絕對(duì)誤差這幾個(gè)性能指標(biāo)對(duì)分類器效果進(jìn)行分析,找到最適合糖尿病疾病預(yù)測(cè)的算法,為當(dāng)今醫(yī)療行業(yè)其他疾病數(shù)據(jù)的挖掘分析提供思路。

      關(guān)鍵詞: 糖尿病;機(jī)器學(xué)習(xí);集成分類器;數(shù)據(jù)挖掘;Weka

      文章編號(hào): 2095-2163(2021)01-0064-05 中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

      【Abstract】Diabetes is a relatively common chronic disease, and there is a long asymptomatic stage. This article mainly introduces five classification algorithms in machine learning, which are Naive Bayes, Support Vector Machine, Logistic Regression, Decision Tree, and Random Forest, an integrated classifier. On the Weka data mining platform, the diabetes data is mined and analyzed. The effect of the classifier is analyzed according to the confusion matrix, Kappa coefficient, ROC curve, root mean square error and relative absolute error, and the most suitable algorithm for diabetic disease prediction is achieved, which could provide ideas for the current medical industry data mining.

      【Key words】diabetes; machine learning; integrated classifier; data mining; Weka

      0 引?言

      糖尿病是一種終身疾病,可引發(fā)心臟病、血管疾病等并發(fā)癥[1],不僅影響了患者的生活質(zhì)量,也會(huì)帶來(lái)相應(yīng)的經(jīng)濟(jì)負(fù)擔(dān),所以進(jìn)行早期糖尿病風(fēng)險(xiǎn)預(yù)測(cè)具有十分重要的意義。

      作為重要的數(shù)據(jù)挖掘技術(shù),機(jī)器學(xué)習(xí)等人工智能技術(shù),在糖尿病預(yù)測(cè)與治療上應(yīng)用得很多。例如,Purushottam等人[2]分別用C4.5算法和Partial Tree算法自動(dòng)提取糖尿病預(yù)測(cè)規(guī)則來(lái)預(yù)測(cè)患者的糖尿病風(fēng)險(xiǎn)。Santhanam等人 [3]用遺傳算法對(duì)糖尿病數(shù)據(jù)集進(jìn)行維數(shù)約簡(jiǎn)并利用支持向量機(jī)進(jìn)行了糖尿病的預(yù)測(cè)。胡瑋[4]基于改進(jìn)鄰域粗糙集和隨機(jī)森林算法進(jìn)行了糖尿病的預(yù)測(cè)研究。黃艷群等人[5]利用患者相似性建立了個(gè)性化糖尿病預(yù)測(cè)模型。

      本文將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用在早期糖尿病風(fēng)險(xiǎn)預(yù)測(cè)數(shù)據(jù)集上,構(gòu)建多種分類模型,通過(guò)各種性能評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行分析,選擇最優(yōu)分類模型,該模型可通過(guò)評(píng)估癥狀來(lái)檢查用戶患糖尿病的風(fēng)險(xiǎn)。

      1 基本原理及方法

      1.1 實(shí)驗(yàn)數(shù)據(jù)

      本文選取的是UCI機(jī)器學(xué)習(xí)庫(kù)中的早期糖尿病風(fēng)險(xiǎn)預(yù)測(cè)數(shù)據(jù)集,共包含520個(gè)樣本,其中陽(yáng)性樣本為320個(gè),陰性樣本為200個(gè),每條樣本數(shù)據(jù)包含16個(gè)特征屬性和一個(gè)類屬性,分別是:Age(年齡)、Gender(性別)、 Polyuria(多尿癥)、 Polydipsia(煩渴)、 sudden weight loss(體重減輕)、weakness(虛弱)、Polyphagia(多食癥)、Genital thrush(生殖器鵝口瘡)、visual blurring(視覺(jué)模糊)、Itching(瘙癢)、Irritability(煩躁)、delayed healing(延遲康復(fù))、partial paresis(部分偏癱)、muscle stiffness(肌肉緊張)、Alopecia(脫發(fā))、Obesity(肥胖)、class(類別)。

      1.2 算法原理

      1.2.1 樸素貝葉斯

      樸素貝葉斯算法(Naive Bayes,NB算法)是常用的概率分類算法[6],樸素貝葉斯具有一些明顯的特征,例如計(jì)算的速度非???、準(zhǔn)確率高、方法簡(jiǎn)單等特點(diǎn),在一般貝葉斯理論的基礎(chǔ)上,樸素貝葉斯中的‘樸素一詞就是假定樣本中的屬性彼此獨(dú)立地對(duì)其產(chǎn)生影響,并不考慮屬性之間的依賴關(guān)系,在實(shí)際應(yīng)用中對(duì)于大部分比較復(fù)雜的問(wèn)題都是很有成效的。

      基于屬性條件獨(dú)立性假設(shè),在樣本分類任務(wù)中,計(jì)算樣本w所屬類別的概率P(c|w),計(jì)算方式為:

      其中,n表示屬性個(gè)數(shù),Wi表示樣本w在第i個(gè)屬性上的取值。P(w)在所有類別中都是相同的,因此在公式(1)的基礎(chǔ)上知樸素貝葉斯分類器的基本表達(dá)式:

      1.2.2 支持向量機(jī)

      支持向量機(jī)(Support Vector Machine, SVM)是一種常用的二分類模型[7],通過(guò)使用給定的樣本數(shù)據(jù)集進(jìn)行建模,在樣本空間中找到一個(gè)最優(yōu)的劃分超平面,該平面產(chǎn)生的分類結(jié)果是最具有魯棒性的,并且對(duì)未見示例有最好的泛化能力。SVM是針對(duì)線性可分情況進(jìn)行分析的,對(duì)于非線性分類問(wèn)題,可以通過(guò)核函數(shù)將低維樣本空間映射到高維特征空間,這樣高維特征空間即可采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析。常用的核函數(shù)有以下幾種:

      1.2.3 邏輯回歸

      邏輯回歸(logistics regression)屬于監(jiān)督學(xué)習(xí)方法,是一種廣義的線性回歸分析模型,主要用于概率預(yù)測(cè)或分類。邏輯回歸最基本的學(xué)習(xí)算法是極大似然,即假設(shè)數(shù)據(jù)是伯努利分布,通過(guò)極大似然函數(shù)來(lái)推導(dǎo)損失函數(shù),使用梯度下降來(lái)求解參數(shù),以此來(lái)對(duì)數(shù)據(jù)進(jìn)行二分類。邏輯回歸中常用建模函數(shù)的數(shù)學(xué)表達(dá)式如下:

      其中,?f(x)指觀測(cè)個(gè)體患上糖尿病的概率,是一個(gè)Sigmoid函數(shù);x1,x2,…,x16是糖尿病數(shù)據(jù)集的16個(gè)特征屬性;θ是權(quán)重參數(shù)。將Sigmoid函數(shù)與線性回歸兩者結(jié)合,使最終預(yù)測(cè)概率的值處于0~1之間:若大于0.5,將其歸為Positive類;若小于0.5,則歸為Negative類。

      1.2.4 決策樹J48

      ID3算法中根據(jù)信息增益評(píng)估和選擇特征,每次選擇信息增益最大的特征作為判斷模塊建立子結(jié)點(diǎn),使用信息增益的缺點(diǎn)是偏向于具有大量值的屬性,而且該算法不能夠處理連續(xù)分布的數(shù)據(jù)特征,于是就有了C4.5算法,在WEKA中稱為J48算法,該算法是在ID3 算法的基礎(chǔ)上進(jìn)行改進(jìn)而產(chǎn)生的[8],算法中包含ID3 算法的所有功能, 除此之外,還可以利用信息增益率來(lái)選擇屬性, 合并具有連續(xù)屬性值、處理含有未知屬性值的訓(xùn)練樣本等。

      1.2.5 隨機(jī)森林

      隨機(jī)森林(Random Forest)是由Breiman提出的[9],是一種組合分類器,其基本單元就是決策樹。將決策樹作為個(gè)體學(xué)習(xí)器,加入了隨機(jī)樣本選擇和隨機(jī)特征選擇策略。對(duì)于本文而言,即隨機(jī)地從16個(gè)屬性特征中選擇m個(gè)屬性(m<16),并且使用有放回的抽樣策略從數(shù)據(jù)集中選取樣本。在新數(shù)據(jù)集上訓(xùn)練決策樹,通過(guò)每棵決策樹的預(yù)測(cè)結(jié)果來(lái)決定測(cè)試樣本最終的預(yù)測(cè)結(jié)果。算法的整體流程如圖1所示。

      1.3 性能指標(biāo)

      1.3.1 混淆矩陣

      混淆矩陣可用來(lái)判斷分類器的優(yōu)劣,詳見表1。所有評(píng)價(jià)指標(biāo)具體定義如下。

      1)精確率(Precision):預(yù)測(cè)結(jié)果為正例樣本中真實(shí)為正例的比例,公式如下:

      (2)召回率(Recall):真實(shí)為正例的樣本中預(yù)測(cè)結(jié)果為正例的比例,公式如下:

      (3)F:為精確率(Precision)和召回率(Recall)兩者的調(diào)和平均值,公式如下:

      1.3.2 Kappa系數(shù)

      Kappa系數(shù)是一種計(jì)算分類精度的方法,用于衡量模型預(yù)測(cè)結(jié)果和實(shí)際分類結(jié)果是否一致,其計(jì)算公式為:

      其中,Pa為實(shí)際一致率,Pe為理論一致率。Kappa系數(shù)的取值在0~1之間,若Kappa≥0.75,則表明分類器的一致性很好。

      1.3.3 ROC曲線

      受試者工作特征曲線receiver operating characteristic curve,ROC曲線),用來(lái)比較2個(gè)分類模型有效性的可視化工具,AUC表示ROC曲線下的面積,取值在0.5~1之間。AUC可以直觀地評(píng)價(jià)分類器的好壞,值越大越好。

      1.3.4 均方根誤差

      均方根誤差(RMSE)是對(duì)樣本數(shù)據(jù)集抽樣誤差的度量,其數(shù)值越小表示模型越穩(wěn)定。

      1.3.5 相對(duì)絕對(duì)誤差

      相對(duì)絕對(duì)誤差(RAE)是預(yù)測(cè)數(shù)值與實(shí)際數(shù)值兩者差的絕對(duì)值,數(shù)值越小則表明模型越優(yōu)。

      2 實(shí)驗(yàn)結(jié)果與分析

      使用WEKA數(shù)據(jù)挖掘平臺(tái)對(duì)6個(gè)分類器進(jìn)行分析。在Test options欄目下選擇十折交叉驗(yàn)證法,依此選擇分類算法進(jìn)行實(shí)驗(yàn),其中SVM算法的核函數(shù)選用徑向基核函數(shù)。實(shí)驗(yàn)產(chǎn)生的各性能指標(biāo)的結(jié)果見表2和表3。

      由表2分析可知,精確率(Precision)為預(yù)測(cè)出的真陽(yáng)性病例在預(yù)測(cè)為陽(yáng)性病例中的比例,召回率(Recall)為預(yù)測(cè)出的真陽(yáng)性病例在實(shí)際真陽(yáng)性病例中的比例,精確率和召回率是相互影響的,理想情況下是兩者都高,但一般情況下是精確率高,召回率就低;反之,召回率高,精確率就低。在各種疾病的監(jiān)測(cè)研究中,一般采用的方法是在保證精確率的條件下,提升召回率。精度指標(biāo)中的F值綜合了精確率和召回率,可以用來(lái)綜合評(píng)價(jià)實(shí)驗(yàn)結(jié)果的質(zhì)量。可以看出Random Forest的精確率、召回率和F值遠(yuǎn)遠(yuǎn)高于Naive Bayes、Logistics 等分類器。

      在此基礎(chǔ)上,對(duì)表3所得實(shí)驗(yàn)結(jié)果進(jìn)行分析,可得各項(xiàng)指標(biāo)的闡釋分述如下。

      (1)分類器準(zhǔn)確率(Accuracy):由表3中數(shù)據(jù)分析可知,在這5個(gè)分類器中,Random Forest算法對(duì)樣本分類的準(zhǔn)確率最高,其次是J48算法,Naive Bayes算法的準(zhǔn)確率較差,于是通過(guò)屬性約簡(jiǎn)的方式來(lái)優(yōu)化Naive Bayes算法的預(yù)測(cè)結(jié)果,即找出預(yù)測(cè)效果最好的屬性集,使用CfsSubsetEval屬性評(píng)估器和GreedyStepwise搜索方法進(jìn)行屬性選擇,根據(jù)最終的屬性集進(jìn)行實(shí)驗(yàn),得出Naive Bayes算法的準(zhǔn)確率為0.88,相比之前的準(zhǔn)確率略有提升,但還是遠(yuǎn)不及其它分類器的預(yù)測(cè)結(jié)果??偟貋?lái)說(shuō),集成分類器Random Forest的識(shí)別準(zhǔn)確率要高于一般的單一分類器。

      (2)Kappa系數(shù)比較(Kappa):若分類器與隨機(jī)一個(gè)分類器的分類結(jié)果全一致,則Kappa系數(shù)為 1,反之為0。所以Kappa系數(shù)越大,表明分類的效果越好。由表3中數(shù)據(jù)可以得知Random Forest算法的Kappa系數(shù)值最大,故該算法相比其它算法在此數(shù)據(jù)集上建立的模型更好。

      (3)均方根誤差比較(RMSE):由表3中數(shù)據(jù)可知Random Forest算法和J48算法所建立模型運(yùn)行產(chǎn)生的RMSE值是最低的兩個(gè),其次是Logistics和SVM,兩者的結(jié)果較為相近,5種分類器中的Naive Bayes的RMSE值最大,效果最差。

      (4)相對(duì)絕對(duì)誤差比較(RAE):由表3中數(shù)據(jù)可知SVM和J48的RAE值較為相近,預(yù)測(cè)結(jié)果相差不大,5種分類算法中Random Forest的RAE值最小,表明該模型最優(yōu),所預(yù)測(cè)的數(shù)據(jù)值最為貼近實(shí)際值。

      (5)ROC曲線面積比較(ROC Area):曲線圖的橫縱坐標(biāo)分別表示模型預(yù)測(cè)數(shù)據(jù)的假陽(yáng)性率和真陽(yáng)性率,ROC曲線越靠近縱軸,表示模型越好。5類預(yù)測(cè)模型ROC曲線圖如圖2~圖6所示。

      由圖2~圖6可看出,Random Forest預(yù)測(cè)模型的ROC曲線最為靠近縱軸,所以該算法的建模效果最優(yōu),其次是Logistics預(yù)測(cè)模型。同樣地,該結(jié)果表明集成分類器的建模效果要高于一般的單一分類器。

      為了驗(yàn)證這幾種模型在不同數(shù)據(jù)量的數(shù)據(jù)集上的表現(xiàn)是否具有一致性,分別隨機(jī)抽取320,420個(gè)樣本,重復(fù)以上實(shí)驗(yàn),選取F-Measure作為此次實(shí)驗(yàn)中模型的性能評(píng)價(jià)指標(biāo),最終的訓(xùn)練結(jié)果如圖7所示。

      從圖7中可以看出,隨著數(shù)據(jù)集的減少,各模型的分類效果是有所變化的,在樣本數(shù)據(jù)集數(shù)量為320的時(shí)候,樸素貝葉斯算法的分類效果相比之前有較大的上升幅度,而支持向量機(jī)算法在數(shù)據(jù)集減少到320的時(shí)候分類效果相比之前有較大的下降幅度。數(shù)據(jù)集大小為520和420時(shí),各模型分類效果的變化趨勢(shì)基本一致,而數(shù)量為320的時(shí)候Logistics的分類效果是勝于SVM算法的,但總地來(lái)說(shuō),不論數(shù)據(jù)集是多少,分類效果最優(yōu)的還是集成分類器Random Forest。

      3 結(jié)束語(yǔ)

      本文基于WEKA數(shù)據(jù)挖掘平臺(tái),使用5種分類算法對(duì)早期糖尿病風(fēng)險(xiǎn)預(yù)測(cè)數(shù)據(jù)集進(jìn)行分析,并利用多種評(píng)價(jià)指標(biāo)來(lái)確定分類效果。從實(shí)驗(yàn)結(jié)果可以看出,集成分類器Random Forest在該糖尿病數(shù)據(jù)集上的分類效果最佳。故今后醫(yī)療行業(yè)其它疾病的預(yù)測(cè),可根據(jù)實(shí)際情況,通過(guò)結(jié)合策略將多個(gè)單一分類器整合起來(lái)形成集成分類器,以此來(lái)提升模型的分類精度。

      參考文獻(xiàn)

      [1]劉月. 基于數(shù)據(jù)挖掘技術(shù)的2型糖尿病的預(yù)測(cè)與健康管理研究[D]. 秦皇島:燕山大學(xué),2018.

      [2]PURUSHOTTAM, SAXENA K, SHARMA R. Diabetes mellitus prediction system evaluation using C4.5 rules and partial tree[C]// 2015 4th International Conference on Reliability, Infocom Technologies and Optimization (ICRITO) (Trends and Future Directions). Noida, India:IEEE, 2015:1-6.

      [3]SANTHANAM T, PADMAVATHI M S. Application of K-means and genetic algorithms for dimension reduction by integrating SVM for diabetes diagnosis[J]. Procedia Computer ence, 2015, 47:76-83.

      [4]胡瑋. 基于改進(jìn)鄰域粗糙集和隨機(jī)森林算法的糖尿病預(yù)測(cè)研究[D]. 北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2018.

      [5]黃艷群,王妮,張慧,等. 利用患者相似性建立個(gè)性化糖尿病預(yù)測(cè)模型[J]. 醫(yī)學(xué)信息學(xué)雜志,2019,40(1):54-58.

      [6]KONONENKO I. Seminaive bayesian classifier[C]// Proc. of the 6th European Working Session on Learning. Berlin, Heidelberg:Springer, 1991:206-219.

      [7]蘭欣,衛(wèi)榮,蔡宏偉,等. 機(jī)器學(xué)習(xí)算法在醫(yī)療領(lǐng)域中的應(yīng)用[J]. 醫(yī)療衛(wèi)生裝備,2019,40(3):93-97.

      [8]高海賓. 基于Weka平臺(tái)的決策樹J48算法實(shí)驗(yàn)研究[J]. 湖南理工學(xué)院學(xué)報(bào)(自然科學(xué)版),2017,30(1):21-25.

      [9]劉文博,梁盛楠,秦喜文,等. 基于迭代隨機(jī)森林算法的糖尿病預(yù)測(cè)[J]. 長(zhǎng)春工業(yè)大學(xué)學(xué)報(bào),2019,40(6):604-611.

      猜你喜歡
      機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘糖尿病
      跟蹤導(dǎo)練(一)(5)
      數(shù)據(jù)挖掘綜述
      軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      基于R的醫(yī)學(xué)大數(shù)據(jù)挖掘系統(tǒng)研究
      Ending teen smoking
      一本面向中高級(jí)讀者的數(shù)據(jù)挖掘好書
      視力改變與糖尿病等
      丰镇市| 怀柔区| 个旧市| 莱州市| 龙州县| 那曲县| 张家口市| 吉隆县| 高台县| 萝北县| 麻阳| 徐汇区| 溆浦县| 沅陵县| 老河口市| 嵩明县| 兰西县| 罗甸县| 康马县| 乌鲁木齐市| 防城港市| 信阳市| 天祝| 壶关县| 眉山市| 崇左市| 弥勒县| 濮阳市| 自治县| 邻水| 巨野县| 文登市| 云安县| 昌黎县| 罗平县| 汉川市| 获嘉县| 鲁甸县| 新蔡县| 广汉市| 平遥县|