• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于行為數(shù)據(jù)的急性心肌梗塞患病風(fēng)險(xiǎn)預(yù)測(cè)

      2021-11-17 06:45:22楊楚詩(shī)張朋柱
      計(jì)算機(jī)仿真 2021年4期
      關(guān)鍵詞:準(zhǔn)確性機(jī)器樣本

      楊楚詩(shī),張朋柱

      (上海交通大學(xué)安泰經(jīng)濟(jì)與管理學(xué)院,上海 200030)

      1 引言

      我國(guó)心血管病患病率處于持續(xù)上升階段,據(jù)推算,心血管病現(xiàn)患病人數(shù)2.9億,且至2016年,心血管病死亡率仍居首位,高于腫瘤等其它疾病。隨著我國(guó)心血管病負(fù)擔(dān)日漸加重,已成為重大的公共衛(wèi)生問(wèn)題,防治心血管病刻不容緩[1]。急性心肌梗死(AMI)作為一種常見(jiàn)的心血管疾病,是冠狀動(dòng)脈急性、持續(xù)性缺血缺氧所引起的心肌壞死,具有發(fā)病急、死亡率高等特點(diǎn),在歐美較為常見(jiàn)。中國(guó)在世界上屬低發(fā)區(qū),但近年來(lái)患病率也有上升趨勢(shì)。據(jù)統(tǒng)計(jì),中國(guó)2002年至2015年,AMI死亡率總體呈上升態(tài)勢(shì)。

      學(xué)者多采用計(jì)量的方法,根據(jù)每個(gè)因素的卡方值、P值確定每個(gè)因素的顯著性水平,進(jìn)而確定AMI的主要危險(xiǎn)因素[5][9]。學(xué)者一般會(huì)設(shè)置對(duì)照組以及觀察組,對(duì)照組為未患AMI的患者,而觀察組為患有AMI的患者。實(shí)際上,高血壓、血脂異常等危險(xiǎn)因素難以在對(duì)照組患者中體現(xiàn),觀察組患者的某些指標(biāo)也與對(duì)照組患者明顯不同。因此利用DID思想,根據(jù)卡方值、P值確定的AMI危險(xiǎn)因素在實(shí)際中解釋性不強(qiáng),無(wú)法直接根據(jù)AMI危險(xiǎn)因素進(jìn)行AMI的預(yù)防、管控。因此,采用機(jī)器學(xué)習(xí)方法,基于危險(xiǎn)因素,對(duì)心血管疾病發(fā)生的可能性進(jìn)行預(yù)測(cè)便應(yīng)運(yùn)而生。

      AMI是多個(gè)疾病的并發(fā)癥,受多種危險(xiǎn)因素影響,且發(fā)病急,因此僅基于心血管疾病的傳統(tǒng)危險(xiǎn)因素來(lái)預(yù)測(cè),準(zhǔn)確度低,解釋性不強(qiáng)。因此,對(duì)AMI的預(yù)測(cè)需要基于更多的變量,并嘗試不同的機(jī)器學(xué)習(xí)算法。有學(xué)者利用不限于患者生理學(xué)指標(biāo)的變量,以及神經(jīng)網(wǎng)絡(luò)算法,對(duì)AMI進(jìn)行預(yù)測(cè)。

      與以往研究不同,本文的患者數(shù)據(jù)的特征值涵蓋豐富的人口學(xué)指標(biāo),包括患者的教育水平、經(jīng)濟(jì)情況、住宅附近樓房的密集程度;豐富的生理學(xué)指標(biāo),包括過(guò)去一年各類(lèi)與心血管疾病相關(guān)或者不相關(guān)的疾病的診斷情況;豐富的患者行為指標(biāo),過(guò)去一年的服藥情況、身體檢查情況等。a)本文將患者的行為納入對(duì)AMI的預(yù)測(cè)中,充分考慮近期行為會(huì)對(duì)疾病產(chǎn)生影響(特征選擇的創(chuàng)新);b)基于2016年患者的各項(xiàng)指標(biāo)和行為,預(yù)測(cè)2017年患者患AMI的可能性(數(shù)據(jù)時(shí)間跨度的創(chuàng)新)。相較于以往的設(shè)置對(duì)照組與觀察組的研究模式,考慮到AMI是急性病,短期的行為相較于長(zhǎng)期的行為,對(duì)AMI的解釋程度更高,即近一年內(nèi)被診斷為糖尿病相較于十年的糖尿病病史更可能是導(dǎo)致AMI病發(fā)的原因;c)對(duì)比了不同的算法對(duì)AMI預(yù)測(cè)的準(zhǔn)確性以及算法的泛化能力強(qiáng)弱(算法的創(chuàng)新)。

      2 理論支持

      2.1 醫(yī)療大數(shù)據(jù)

      狹義的大數(shù)據(jù)被定義為難以用現(xiàn)有的一般技術(shù)管理的大數(shù)據(jù)的集合,廣義上其數(shù)據(jù)量(Volume)含義可以擴(kuò)展延伸到數(shù)據(jù)的產(chǎn)生速度(Velocity)、多樣性(Variety)和價(jià)值(Value)[14]。通常所說(shuō)的醫(yī)療大數(shù)據(jù),泛指所有與醫(yī)療和生命健康相關(guān)的數(shù)字化的極大量數(shù)據(jù),種類(lèi)繁多,來(lái)源廣泛??煞譃獒t(yī)院醫(yī)療大數(shù)據(jù)、區(qū)域衛(wèi)生服務(wù)平臺(tái)大數(shù)據(jù)、基于大量人群的醫(yī)學(xué)研究或疾病監(jiān)測(cè)大數(shù)據(jù)、自我量化大數(shù)據(jù)、網(wǎng)絡(luò)大數(shù)據(jù)、生物信息大數(shù)據(jù)等六大類(lèi)[14]。

      2.2 機(jī)器學(xué)習(xí)

      機(jī)器學(xué)習(xí)(Machine Learning),為一項(xiàng)多領(lǐng)域綜合學(xué)科,涉及算法復(fù)雜度理論、逼近論、統(tǒng)計(jì)學(xué)及概率論等多項(xiàng)理論。此學(xué)科將計(jì)算機(jī)如何模擬及實(shí)現(xiàn)人類(lèi)學(xué)習(xí)行為作為主要研究?jī)?nèi)容,探究計(jì)算機(jī)獲取新知識(shí)、技能方式,將已存在知識(shí)結(jié)構(gòu)予以重新組織,實(shí)現(xiàn)自身性能不斷優(yōu)化。一般包括監(jiān)督、半監(jiān)督、無(wú)監(jiān)督學(xué)習(xí)問(wèn)題。在監(jiān)督學(xué)習(xí)中,數(shù)據(jù)輸入對(duì)象會(huì)預(yù)先分配標(biāo)簽,通過(guò)數(shù)據(jù)訓(xùn)練出模型,然后利用模型進(jìn)行預(yù)測(cè)。無(wú)監(jiān)督學(xué)習(xí)中,數(shù)據(jù)沒(méi)有標(biāo)簽。其重點(diǎn)在于分析數(shù)據(jù)的隱藏結(jié)構(gòu),發(fā)現(xiàn)是否存在可區(qū)分的組或集群。

      若脫離實(shí)際,那么大數(shù)據(jù)是毫無(wú)意義的,將大數(shù)據(jù)運(yùn)用到實(shí)際的決策中,才賦予了大數(shù)據(jù)意義[15]。機(jī)器學(xué)習(xí)算法是大數(shù)據(jù)分析的重要工具,為大數(shù)據(jù)賦予了實(shí)際的意義。分析師以大數(shù)據(jù)集為數(shù)據(jù)支持,利用機(jī)器學(xué)習(xí)算法,構(gòu)建、評(píng)估以及不斷優(yōu)化模型,最終賦予模型對(duì)事件進(jìn)行預(yù)測(cè)的功能。機(jī)器學(xué)習(xí)算法在醫(yī)療大數(shù)據(jù)分析中發(fā)揮著重要的作用,臨床應(yīng)用的機(jī)器學(xué)習(xí)算法包括淺層機(jī)器學(xué)習(xí)算法,如回歸分析、決策樹(shù)、基于內(nèi)核的算法、降低維度的算法等;還包括深度學(xué)習(xí)算法模型,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、深度信念網(wǎng)絡(luò)(DBN)等[16]。上述算法在分析不同類(lèi)型的醫(yī)療健康大數(shù)據(jù)、預(yù)測(cè)不同類(lèi)型的疾病等領(lǐng)域各有運(yùn)用。

      3 對(duì)象與方法

      3.1 數(shù)據(jù)

      本文數(shù)據(jù)由美國(guó)商業(yè)保險(xiǎn)公司哈門(mén)那公司(Humana)提供,總計(jì)10萬(wàn)條標(biāo)簽數(shù)據(jù)。標(biāo)簽為是否在2017年第1季度被診斷為AMI,若被診斷為AMI,則AMI_FLAG=1;若未被診斷為AMI,則AMI_FLAG=0。指標(biāo)包括人口學(xué)指標(biāo)、生理學(xué)指標(biāo)、購(gòu)買(mǎi)藥物行為、接受CMS(美國(guó)聯(lián)邦醫(yī)療保險(xiǎn)暨補(bǔ)助服務(wù)中心)服務(wù)情況、目前投保情況等。每個(gè)大類(lèi)下的細(xì)分類(lèi)目見(jiàn)表1。

      表1 依據(jù)變量分類(lèi)數(shù)據(jù)

      其中,女性人數(shù)與男性人數(shù)的比例為1.31。均為40歲及以上的患者數(shù)據(jù),年齡分布大致呈正態(tài)分布。女性AMI_FLAG=1的人數(shù)占比2.28%,男性AMI_FLAG=1的人數(shù)占比3.31%??偟腁MI_FLAG=1的患者數(shù)量為2743,約占比2.8%??梢?jiàn)數(shù)據(jù)存在嚴(yán)重的正負(fù)樣本不平衡問(wèn)題,數(shù)據(jù)處理的第一步即為解決該問(wèn)題。

      圖1 不同性別是否患AMI對(duì)比

      圖2 數(shù)據(jù)年齡段分布

      3.2 數(shù)據(jù)預(yù)處理

      3.2.1 缺失值處理

      針對(duì)缺失值較少的變量,直接刪除對(duì)應(yīng)數(shù)據(jù),比如直接刪除將沒(méi)有性別標(biāo)簽(SEX_CD)的數(shù)據(jù);針對(duì)缺失值占比較高且對(duì)因變量可能產(chǎn)生影響的變量,設(shè)置一個(gè)新類(lèi)(如“空類(lèi)”)。

      圖3 數(shù)據(jù)缺失情況

      3.2.2 解決正負(fù)樣本不平衡問(wèn)題

      Chawla等人2002年提出解決正負(fù)樣本不平衡問(wèn)題的算法,即SMOTE算法。現(xiàn)實(shí)世界中的數(shù)據(jù)集只有一小部分異常示例,同樣的情況下,將異常示例錯(cuò)誤地分類(lèi)為正常示例的成本比將正常示例錯(cuò)誤地分類(lèi)為異常示例的成本要高得多。Chawla等人通過(guò)將過(guò)采樣類(lèi)和前采樣類(lèi)相結(jié)合的方式,獲得了更好的分類(lèi)器性能[21]。

      基本思想是與原樣本,按照以下公式構(gòu)建新的樣本:

      利用SMOTE算法對(duì)原樣本中的負(fù)樣本進(jìn)行拓展,保證正負(fù)樣本比例達(dá)到1:1。

      3.3 特征選擇預(yù)處理

      3.3.1 移除低方差特征值

      使用方差選擇法,計(jì)算各個(gè)特征的方差值。根據(jù)事先設(shè)定好的閾值,選擇方差大于閾值的特征。若方差值較小,說(shuō)明該特征在所有樣本上的值離散程度低,該特征的解釋性不強(qiáng);若方差較大,則說(shuō)明該特征在所有樣本上的值離散程度高,該特征的識(shí)別能力較強(qiáng)。

      本文利用方差選擇法,將242個(gè)特征值數(shù)量降低至139個(gè)。

      3.3.2 單變量特征選擇

      利用相關(guān)系數(shù),計(jì)算各個(gè)特征與目標(biāo)值的相關(guān)系數(shù),結(jié)合顯著性水平p,對(duì)特征值進(jìn)行進(jìn)一步的選擇。本文采取的方法為綜合SelectKBest與卡方檢驗(yàn)方法,即檢驗(yàn)定性自變量對(duì)定性因變量的相關(guān)性,并將計(jì)算得到的卡方值從大到小排序,選擇排名前k名的所有特征。

      本文選取了排名前20名的特征變量作為模型的輸入變量。

      3.4 模型構(gòu)建

      醫(yī)療大數(shù)據(jù)領(lǐng)域多應(yīng)用有監(jiān)督的機(jī)器學(xué)習(xí)方法,即預(yù)先知道患者的患病標(biāo)簽,結(jié)合患者的各項(xiàng)指標(biāo),比如生理指標(biāo)、病史、基因等,對(duì)患者患病的可能性進(jìn)行預(yù)測(cè)。以下是對(duì)醫(yī)療大數(shù)據(jù)領(lǐng)域常用的機(jī)器學(xué)習(xí)算法的簡(jiǎn)單總結(jié)。

      本文利用醫(yī)療大數(shù)據(jù)領(lǐng)域的常用的幾種有監(jiān)督的機(jī)器學(xué)習(xí)算法,包括邏輯回歸、決策樹(shù)、隨機(jī)森林、GBDT等,分別構(gòu)建分類(lèi)模型。70%的數(shù)據(jù)設(shè)為訓(xùn)練集,其余的30%設(shè)為測(cè)試集,并分別計(jì)算模型在訓(xùn)練集和測(cè)試集的預(yù)測(cè)準(zhǔn)確性,對(duì)比不同模型的預(yù)測(cè)準(zhǔn)確性及模型的泛化能力。

      4 結(jié)果

      若模型在訓(xùn)練集的準(zhǔn)確性高而在測(cè)試集的準(zhǔn)確性不高,說(shuō)明模型可能存在過(guò)擬合問(wèn)題,即泛化能力不強(qiáng);若在測(cè)試集的準(zhǔn)確性高而在訓(xùn)練集的準(zhǔn)確性不高,則說(shuō)明模型可能存在欠擬合的問(wèn)題,模型的訓(xùn)練程度不足。表3為選取的幾個(gè)模型的訓(xùn)練集和測(cè)試集預(yù)測(cè)準(zhǔn)確性的對(duì)比??梢?jiàn),決策樹(shù)模型和隨機(jī)森林模型的預(yù)測(cè)準(zhǔn)確性較高,且泛化能力較強(qiáng),GBDT模型次之,隨機(jī)森林最弱。圖4是對(duì)主要特征值對(duì)模型的影響程度的測(cè)試,數(shù)值越高,則說(shuō)明特征值對(duì)模型的影響程度越大。

      表2 醫(yī)療大數(shù)據(jù)領(lǐng)域機(jī)器學(xué)習(xí)方法簡(jiǎn)介

      表3 算法及其準(zhǔn)確性

      圖4 參數(shù)對(duì)模型的影響程度對(duì)比

      5 討論

      模型模擬結(jié)果表明,可利用患者一段時(shí)間的行為(本文采取時(shí)間段為1年)行為,預(yù)測(cè)患者未來(lái)一個(gè)時(shí)間段(本文預(yù)測(cè)未來(lái)一個(gè)季度)內(nèi)是否會(huì)患AMI。并對(duì)比了不同模型預(yù)測(cè)準(zhǔn)確性的高低及泛化能力的強(qiáng)弱,證明基于本文采用的數(shù)據(jù)集,利用決策樹(shù)和隨機(jī)森林模型,可以得到更高的預(yù)測(cè)準(zhǔn)確性。

      本文對(duì)于結(jié)合患者生理指標(biāo)與短期行為進(jìn)行未來(lái)患病可能性的預(yù)測(cè)有一定的借鑒意義,大多相關(guān)研究是基于患者的生理指標(biāo)進(jìn)行患病風(fēng)險(xiǎn)預(yù)測(cè),且大多無(wú)法預(yù)測(cè)未來(lái)較短時(shí)間段內(nèi)患病的風(fēng)險(xiǎn)。另外,本文的研究思想對(duì)于保險(xiǎn)行業(yè)有一定的參考價(jià)值,通過(guò)預(yù)測(cè)潛在投保人未來(lái)短期內(nèi)患急性病的可能性,可更好的設(shè)置保險(xiǎn)賠付額度、保費(fèi)等條款。

      未來(lái)的研究可進(jìn)一步深入,不局限于二分類(lèi)問(wèn)題,預(yù)測(cè)患者患AMI的類(lèi)型;另外,算法的準(zhǔn)確性與泛化能力存在提升的空間。

      猜你喜歡
      準(zhǔn)確性機(jī)器樣本
      機(jī)器狗
      機(jī)器狗
      淺談如何提高建筑安裝工程預(yù)算的準(zhǔn)確性
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      未來(lái)機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      村企共贏的樣本
      美劇翻譯中的“神翻譯”:準(zhǔn)確性和趣味性的平衡
      論股票價(jià)格準(zhǔn)確性的社會(huì)效益
      沁水县| 行唐县| 洪洞县| 汕尾市| 富平县| 满城县| 宝应县| 泰和县| 乌拉特中旗| 喀喇| 封开县| 额敏县| 商南县| 白城市| 综艺| 宁波市| 桓仁| 手游| 邹城市| 林口县| 定结县| 隆化县| 远安县| 厦门市| 玛曲县| 城口县| 大渡口区| 界首市| 肇州县| 兴海县| 德安县| 离岛区| 米脂县| 梅州市| 华池县| 永福县| 徐闻县| 邵阳县| 铜川市| 弋阳县| 武邑县|