• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于組合Stacking的心臟病患病情況評估模型研究

      2021-04-18 23:56:53曹菲菲
      甘肅科技縱橫 2021年1期
      關(guān)鍵詞:人工神經(jīng)網(wǎng)絡(luò)分類器患病

      曹菲菲

      摘要:心臟病是對人類生命的一個威脅,如何發(fā)現(xiàn)被提早預(yù)防就顯得尤為重要。以心臟病數(shù)據(jù)集為研究對象,對數(shù)據(jù)集進(jìn)行簡單介紹,對分類特征值和連續(xù)特征值與患病情況的關(guān)系進(jìn)行分析;分別構(gòu)建單一評估模型,如隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、K最近鄰等,分另0對患病情況進(jìn)行預(yù)測,結(jié)果表明人工神經(jīng)網(wǎng)絡(luò)預(yù)測效果最好,準(zhǔn)確率為87.6%;我們采用組合Stacking模型后,發(fā)現(xiàn)組合Stacking模型的準(zhǔn)確率為92.7%,比人工神經(jīng)網(wǎng)絡(luò)提高大約5%,而且通過訓(xùn)練集和測試集上各評價指標(biāo)的比較發(fā)現(xiàn),組合Stacking模型具有很好的泛化性能.

      關(guān)鍵詞:心臟病;單一評估模型;人工神經(jīng)網(wǎng)絡(luò);組合模型Stacking;評估模型

      中圖分類號:TPl81 文獻(xiàn)標(biāo)志碼:A

      心臟病是人類健康的最大威脅,全世界1/3人口死亡由心臟病引起。我國每年有幾十萬人死于心臟病,對心臟病的研究顯得尤為重要。如果可以通過提取人體相關(guān)的體測指標(biāo),對心臟病患病情況進(jìn)行預(yù)測,將對預(yù)防心臟病起到至關(guān)重要的作用。

      對心臟病的病癥及原因進(jìn)行了一定的檢索,有李廣平所著的實用臨床心臟病診斷治療學(xué);弓孟春和嚴(yán)曉偉對歐洲心臟病學(xué)會2008年版心力衰竭的診斷和治療指南解讀;李世軍和司全金對2017年歐洲心臟病學(xué)會外周動脈疾病診斷與治療指南解讀;劉江生對我國康復(fù)心臟病學(xué)的發(fā)展及現(xiàn)狀的研究等。對心臟病患病情況的預(yù)測研究主要有:Krishnaiah V,NarsimhaG,Subhash N使用數(shù)據(jù)挖掘技術(shù)和智能模糊方法對心臟病患病情況進(jìn)行預(yù)測研究;Palaniappan s,AwangR提出使用決策樹和神經(jīng)網(wǎng)絡(luò)對心臟病患病情況進(jìn)行預(yù)測,并對預(yù)測結(jié)果進(jìn)行決策制定;Thomas J,PrincyR T使用決策樹、K最近鄰、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)斡分類技術(shù)對心臟病患病情況進(jìn)行預(yù)測;Ramachandran,s使用弗雷明漢模型對心臟病患病情況進(jìn)行預(yù)測;Kan-chan B D,Kishor M M基于構(gòu)件分析原理在特殊疾病上使用機(jī)器學(xué)習(xí)算法對患病情況進(jìn)行預(yù)測研究;Giardina M,Azuaje F,Mccullagh P等人提出一種用于預(yù)測2型糖尿病患者冠心病并發(fā)癥的監(jiān)督學(xué)習(xí)方法對此病的患病情況進(jìn)行預(yù)測。

      本論述選取UCI的開源數(shù)據(jù)集Heart_Disease(https://archive.ics.uci.edu/ml/datasets/Heart+Disease),使用組合模型Stacking對心臟病患病情況進(jìn)行預(yù)測,我們的貢獻(xiàn)是將一些初級分類器如用決策樹、K最近鄰、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)等進(jìn)行組合,并使用簡單的線性模型如邏輯斯蒂回歸作為次級分類器,采用這種方法不僅使模型的準(zhǔn)確率提高,而且模型的泛化性能也得到提高,我們認(rèn)為這在分類預(yù)測中是非常重要的。

      1數(shù)據(jù)描述

      1.1數(shù)據(jù)集介紹

      此數(shù)據(jù)集包含303個心臟病檢查患者的體測數(shù)據(jù),包含13個特征和一個目標(biāo),為了便于理解,我們將特征重新命名,其具體的特征及介紹見表1所列。

      1.2分類特征值與患病情況的比率關(guān)系

      圖1中a,b,c分別描述了8種分類特征值與患病情況之間的關(guān)系,圖中的數(shù)字和百分?jǐn)?shù)分別表示該種特征值患病與否的數(shù)量與比例,為了表示方便,將某些特征名在標(biāo)注時進(jìn)行了簡寫,如exang表示運(yùn)動時是否心絞痛,其他簡寫類似,從表1中可以找到其對應(yīng)的全稱.從圖1可以清楚看出各分類特征值在患病情況中占的比例,當(dāng)透視檢查血管數(shù)越多,不患病的比例越高;對于缺陷種類,有兩位受試者不能確定,在后面的建模中,會將其刪去,當(dāng)受試者的缺陷種類為固有缺陷時,患病比例大大提升;當(dāng)運(yùn)動引起心絞痛時,不患病比例的人數(shù)增多;當(dāng)心電圖sT段=向下傾斜時,患病人數(shù)比例增多;不管空腹血糖是否大于120mg/dl,其患病與不患病人數(shù)都差不多;當(dāng)心電圖顯示患有ST-T波異常時,患病人數(shù)比例增多;對于這四種胸痛類型,都有較高的患病比例;性別顯示女性相比男性有更高的患病比例。

      1.3連續(xù)特征值及患病情況的分布

      對連續(xù)特征值進(jìn)行可視化結(jié)果如圖2所示。其中年齡,靜息血壓、最大心跳數(shù)和膽固醇呈近似正態(tài)分布,年齡在50至60歲之間的受試者患心臟病的頻率最大,目標(biāo)患病情況的分布基本均衡,這在分類預(yù)測中是非常重要的;而sT段抑郁呈明顯的右偏分布,大量受試者分布在0-1之間。

      2方法

      1992年Wolpert提出集成學(xué)習(xí)Stacking算法,主要組合多個不同學(xué)習(xí)器提高預(yù)測效果。Stacking算法分為初級學(xué)習(xí)器和次級學(xué)習(xí)器兩部分,其原理如圖3所示。

      組合學(xué)習(xí)Stacking算法先將數(shù)據(jù)集分為訓(xùn)練集(Training Data)和測試集(Test Data),具體訓(xùn)練過程如下。

      2.1第一層初級學(xué)習(xí)器

      訓(xùn)練集采用5折交叉驗證,其中訓(xùn)練模型數(shù)據(jù)集(Learn)占4/5,驗證模型的數(shù)據(jù)集(Predict)占1/5;首先選擇第一個單一評估模型Model 1,用數(shù)據(jù)集(Learn)訓(xùn)練模型,將訓(xùn)練好的模型對數(shù)據(jù)集(Predict)進(jìn)行預(yù)測,經(jīng)過第一次交叉驗證后,預(yù)測結(jié)果記為a1,同理訓(xùn)練模型對測試集(Test Data)預(yù)測結(jié)果為b1,經(jīng)過5此交叉驗證,訓(xùn)練集得到預(yù)測結(jié)果(a1,a2,a3,a4,a5),將其合并為矩陣A1;測試集預(yù)測結(jié)果(b1,b2,b3,b4,b5),對各部分預(yù)測值對應(yīng)相加求均值,結(jié)果記為矩陣B1,以上步驟為Stacking中第一個基本學(xué)習(xí)器為Model 1的完整算法流程,同理計算n個不同模型,最終訓(xùn)練集的預(yù)測結(jié)果矩陣為A=(A1,A2,A3,…,A5),測試集的預(yù)測結(jié)果矩陣為B=(B1,B2,B3,…,B5)。

      2.2第二層次級學(xué)習(xí)器

      矩陣A為訓(xùn)練集,矩陣曰為測試集,構(gòu)造簡單的邏輯斯蒂回歸模型,其中第j個單一評估模型Model.j對第i個訓(xùn)練樣本點(diǎn)的預(yù)測值,作為新的訓(xùn)練集中第i個樣本的第i個特征值,即解釋變量為不同模型的預(yù)測值,被解釋變量為實際的變量值。

      采用組合模型Stacking算法,具體流程圖如圖4所示,首先對數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,并將數(shù)據(jù)集按4:1比例隨機(jī)分為訓(xùn)練集和測試集,然后第一層初級學(xué)習(xí)器,選擇單一非線性結(jié)構(gòu)的評估模型,如隨機(jī)森林、Gra-dientBoosting、KNN、SVM、人工神經(jīng)網(wǎng)絡(luò)等,采用5折交叉驗證,計算得到訓(xùn)練集和測試集的矩陣為A和B;第二層為次級學(xué)習(xí)器,將舉證A和B組合成新的矩陣為D=(A,B)T,即將5個單一評估模型的預(yù)測結(jié)果作為新特征,且矩陣A和B分別為訓(xùn)練集和測試集,心臟病患病情況target為因變量,構(gòu)建簡單的邏輯斯蒂回歸模型,其評估模型如圖4所示。

      3結(jié)果

      3.1評估指標(biāo)

      構(gòu)建心臟病患病情況評估模型之前,需要將數(shù)據(jù)劃分為訓(xùn)練集和測試集,其中訓(xùn)練集用來訓(xùn)練評估模型,測試集用來測試評估效果。一般為了評估模型穩(wěn)健性,采用K折交叉驗證法,該方法將數(shù)據(jù)分成K份樣本集,每次將其中一份作為測試集,剩余的K=1份作為訓(xùn)練集,如此重復(fù)K次,并計算K個預(yù)測結(jié)果的均值作為最終預(yù)測結(jié)果。

      本論述通過5折交叉驗證,隨機(jī)分配訓(xùn)練集和測試集,對測試集的心臟病患病情況進(jìn)行預(yù)測評估,其中評估指標(biāo)主要有以下三種,敏感性(sensitivity)、特異性(specificity)、準(zhǔn)確率(Accuracy)和F1 Score,敏感性和特異性是心臟病診斷測試常用的指標(biāo).分別對預(yù)測結(jié)果評估分析,下面給出它們的計算公式:

      3.2單一評估模型預(yù)測

      首先對每個單一模型進(jìn)行訓(xùn)練,得到最優(yōu)模型,再進(jìn)行預(yù)測,所有這些工作我們通過編程語言Python來完成。

      對于隨機(jī)森林分類器,通過網(wǎng)格搜索法確定參數(shù)的最優(yōu)組合為最大深度(max_depth)設(shè)置為5,建立子樹的數(shù)量(n_estimators)設(shè)置為50,由于心臟病數(shù)據(jù)集合特征數(shù)量都較小,其他參數(shù)使用默認(rèn)值;對于支持向量機(jī)分類器,選擇高斯核函數(shù)(RBF)進(jìn)行預(yù)測時模型表現(xiàn)最好;對于梯度提升分類器,定義損失函數(shù)為指數(shù)損失函數(shù),學(xué)習(xí)速率(Eearning_rate)為0.03,需要擬合的樹的數(shù)量(n estimators)為75,最大深度(max_depth)為5;對于K最近鄰分類器,將權(quán)重考慮在內(nèi),并使用uniform作為權(quán)重,使用歐幾里得法計算距離,使用10折交叉驗證對近鄰數(shù)K進(jìn)行選擇,在訓(xùn)練集上預(yù)測表現(xiàn)最好的K值為10,測試集上預(yù)測表現(xiàn)最好的K值為6;對于人工神經(jīng)網(wǎng)絡(luò)分類器,使用Relu作為激活函數(shù),學(xué)習(xí)速率為0.0023,使用交叉熵?fù)p失函數(shù)作為衡量標(biāo)準(zhǔn),采用反向傳播算法訓(xùn)練模型,當(dāng)?shù)芷冢╪um_epochs)達(dá)到7000次時,平均損失達(dá)到最小,此時的模型達(dá)到最優(yōu)。對每個單一評估模型進(jìn)行最優(yōu)選擇后,我們分別將它們運(yùn)行在訓(xùn)練集和測試集上,得到的結(jié)果見表2所列。

      由表可知,單一評估模型中人工神經(jīng)網(wǎng)絡(luò)分類器的預(yù)測效果最佳,其中測試集的敏感率(Sensitivity)為0.85,特異率(specificity)為0.89,準(zhǔn)確率(Accuracy)為0.900,其次為隨機(jī)森林分類器、支持向量機(jī)分類器、梯度提升分類器和K最近鄰分類器。

      3.3組合模型Stacking預(yù)測

      現(xiàn)在用第3章提出的組合模型Stacking算法對心臟病患病情況進(jìn)行預(yù)測,并與4.2節(jié)提到的單一評估模型中預(yù)測性能最好的人工神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行比較,最終預(yù)測結(jié)果如表所示,組合模型Stacking訓(xùn)練集的敏感率(sensitivity)為0.94,而人工神經(jīng)網(wǎng)絡(luò)分類器敏感率(sensitivity)為0.865;組合模型Stacking測試集的敏感率(sensitivity)為0.935,而人工神經(jīng)網(wǎng)絡(luò)分類器敏感率(sensitivity)為0.89,因此組合模型Stacking的預(yù)測敏感率相對人工神經(jīng)網(wǎng)絡(luò)提高了4.5%;同理測試集上組合模型Stacking預(yù)測特異率提高了6%,準(zhǔn)確率提高了2.7%。

      組合模型Stacking的預(yù)測效果最佳,準(zhǔn)確率較高,且具有很好的泛化性能。

      4結(jié)論與展望

      本論述以心臟病數(shù)據(jù)為例,通過對心臟病患病情況的預(yù)測分布建立單一評估模型和組合模型Stacking模型。該模型主要分為初級學(xué)習(xí)器和次級學(xué)習(xí)器兩層,其中第一層初級學(xué)習(xí)器將多個不同單一評估模型組合,采用5折交叉驗證,有效防止過擬合;第二層次級學(xué)習(xí)器,建立簡單的邏輯斯蒂回歸模型,最終發(fā)現(xiàn)組合模型Stacking優(yōu)于單一評估模型,具有較好的泛化能力,值得被推廣應(yīng)用到心臟病患病情況預(yù)測中。心臟病一直是患者與醫(yī)院十分關(guān)注的疾病,對心臟病的預(yù)防和緊急治療是當(dāng)前需要解決的重大問題,希望能在醫(yī)院安裝這種程序,當(dāng)心臟病潛在患者或者健康人群來醫(yī)院就診時,可以使用該程序?qū)@些人群進(jìn)行心臟病患病情況的評估,對于預(yù)測出可能患心臟病的人群,提早告知他們并給予建議多加防范,這也是這個模型提出的意義所在。

      猜你喜歡
      人工神經(jīng)網(wǎng)絡(luò)分類器患病
      為照顧患病家父請事假有何不可?
      野生動物與人獸共患病
      科學(xué)(2020年3期)2020-11-26 08:18:20
      利用人工神經(jīng)網(wǎng)絡(luò)快速計算木星系磁坐標(biāo)
      人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)簡單字母的識別
      電子制作(2019年10期)2019-06-17 11:45:10
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      “glifo”幫助患病兒童圓提筆之夢
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      基于聲發(fā)射和人工神經(jīng)網(wǎng)絡(luò)的混凝土損傷程度識別
      天全县| 科技| 鄢陵县| 云梦县| 察哈| 广州市| 泸西县| 太原市| 嘉兴市| 巍山| 黄大仙区| 运城市| 合肥市| 郑州市| 正阳县| 定南县| 安阳市| 即墨市| 六安市| 朝阳县| 盐山县| 沙田区| 出国| 师宗县| 津市市| 泰兴市| 阿拉善左旗| 汤阴县| 武威市| 安宁市| 南雄市| 本溪市| 天水市| 威海市| 秀山| 新乡市| 乃东县| 德兴市| 阿坝| 福建省| 黄平县|