• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于C4.5分類(lèi)的呼吸系統(tǒng)疾病危險(xiǎn)因素定量分析方法

      2016-03-21 11:40:56,,,
      關(guān)鍵詞:決策樹(shù)分類(lèi)器人群

      , ,,

      隨著環(huán)境污染問(wèn)題日益凸顯,呼吸系統(tǒng)疾病發(fā)病人數(shù)隨之增加,意味著呼吸系統(tǒng)發(fā)病與暴露在環(huán)境空氣污染中存在某些關(guān)聯(lián),尤其是PM10、二氧化硫(SO2)和二氧化氮(NO2)。如果環(huán)境污染問(wèn)題得以控制,呼吸系統(tǒng)發(fā)病率也將隨之降低。

      目前,歐洲和北美在這一領(lǐng)域已開(kāi)展了大量的研究[1]。歐洲空氣污染與健康項(xiàng)目(Air Pollution andHealth: A European Approach,APHEA)研究表明

      在溫暖季節(jié)中,臭氧濃度每小時(shí)增加10μg/m3,這種情況會(huì)引起每天死亡人數(shù)增加0.33%,心血管疾病死亡人數(shù)增加0.45%,呼吸系統(tǒng)疾病死亡人數(shù)增加1.13%[2-3]。而且在北美90個(gè)大城市開(kāi)展的NMMAPS(National Morbidity, Mortality, and Air Pollution Study)研究指出,前一天空氣中PM10濃度每增加10μg/m3將導(dǎo)致日死亡率大約增加0.2%[4]。亞洲PAPA(Public Health and Air Pollution in Asia)項(xiàng)目研究表明,采用時(shí)間序列方法研究上海2001-2004年4年中室外空氣污染與死亡率的關(guān)系[5]。環(huán)境污染在不同人群中的影響存在差異性,因此本文的重點(diǎn)是分析在特定人群中引發(fā)呼吸系統(tǒng)疾病的危險(xiǎn)因素。

      在不同的人群中,定量分析各自對(duì)應(yīng)的呼吸系統(tǒng)疾病危險(xiǎn)因素和進(jìn)行重要因素選擇,有利于提升分類(lèi)準(zhǔn)確率。因此本文基于C4.5分類(lèi)方法分析特定人群的呼吸系統(tǒng)疾病發(fā)生的危險(xiǎn)因素,其結(jié)果可以應(yīng)用于預(yù)防和控制呼吸系統(tǒng)疾病發(fā)生。

      1 數(shù)據(jù)來(lái)源

      本文的數(shù)據(jù)來(lái)自于2009年1月1日至2011年12月31日北京3家大型綜合醫(yī)院的135 008例急診、診呼吸系統(tǒng)疾病數(shù)據(jù),包括患者就診日期,患者性別、年齡、就診科室、診斷結(jié)果及對(duì)應(yīng)的ICD編碼等(表1)。

      門(mén)診數(shù)據(jù)資源(均為急診門(mén)診的呼吸系統(tǒng)疾病數(shù)據(jù))中有76 359例男性數(shù)據(jù)(占56.56%),58 649例女性數(shù)據(jù)(占43.44%)。按照性別和年齡劃分的疾病數(shù)據(jù)資源如表2所示。

      表1 門(mén)診數(shù)據(jù)實(shí)例

      表2 按性別和年齡劃分的急診門(mén)診呼吸系統(tǒng)疾病數(shù)據(jù)資源

      從2009年1月1日到2011年12月31日的環(huán)境監(jiān)測(cè)數(shù)據(jù)來(lái)自北京環(huán)境監(jiān)測(cè)中心,共采集1 095天,主要包括空氣污染物和氣象指標(biāo)兩部分。其中已監(jiān)測(cè)的空氣污染物包括二氧化氮(NO2)、二氧化硫(SO2)、PM10,氣象指標(biāo)包括24小時(shí)平均溫度、相對(duì)濕度、風(fēng)速、氣壓、日照時(shí)長(zhǎng)和降水量等(表3)。

      表3 環(huán)境數(shù)據(jù)實(shí)例

      2 方法

      本文中的危險(xiǎn)因素是指從不同人群的眾多因素中發(fā)現(xiàn)引發(fā)呼吸系統(tǒng)疾病的重要危險(xiǎn)因素。利用急診門(mén)診數(shù)據(jù)和環(huán)境記錄數(shù)據(jù),確定一種危險(xiǎn)因素定量分析方法,采用數(shù)據(jù)挖掘方法構(gòu)建算法模型。首先在數(shù)據(jù)預(yù)處理階段將急診門(mén)診數(shù)據(jù)分成兩類(lèi)(一類(lèi)是急性上呼吸道感染,另一類(lèi)是流感、肺炎、慢性下呼吸道疾病等),并采用SMOTE(Synthetic Minority Over-sampling Technique)方法解決數(shù)據(jù)不平衡問(wèn)題[6-8],然后將按照性別和年齡全體人群分成9組,再采用C4.5分類(lèi)算法構(gòu)建危險(xiǎn)因素定量分析模型。整個(gè)過(guò)程主要包括數(shù)據(jù)預(yù)處理、解決數(shù)據(jù)不平衡問(wèn)題、人群劃分和危險(xiǎn)因素定量分析四部分。

      2.1 數(shù)據(jù)預(yù)處理

      2.1.1 數(shù)據(jù)清洗

      由于在門(mén)診數(shù)據(jù)中存在空缺值、噪聲和語(yǔ)義不一致等問(wèn)題,可能會(huì)對(duì)實(shí)驗(yàn)結(jié)果帶來(lái)一些不利影響。本文首先通過(guò)填充空缺值、識(shí)別孤立點(diǎn)、降噪、糾正不一致數(shù)據(jù)等逐一進(jìn)行處理,然后去除重復(fù)數(shù)據(jù)和空缺值過(guò)多的因素,最終得到30維135 008條數(shù)據(jù)資源。這些數(shù)據(jù)包含疾病情況、患者自身情況(如性別、年齡)和環(huán)境因素(如二氧化氮、二氧化硫、PM10、24小時(shí)平均氣溫、日最高氣溫、日最低氣溫、相對(duì)濕度、風(fēng)速、日最高風(fēng)速、日最低風(fēng)速、氣壓、日平均氣壓、日最高氣壓、日最低氣壓、日照時(shí)長(zhǎng)、降水量和季節(jié)等)。

      2.1.2 數(shù)據(jù)分類(lèi)

      根據(jù)患者病情,采用ICD-10編碼對(duì)呼吸系統(tǒng)疾病的診斷結(jié)果進(jìn)行編碼,如急性上呼吸道感染(J00-J06)、流感和肺炎(J09-J18)、慢性下呼吸道疾病(J40-J47)等[9]。依據(jù)呼吸道系統(tǒng)疾病病理及診斷結(jié)果,把本文中急性上呼吸道感染(J00-J06)定義為類(lèi)型I[10],占整個(gè)數(shù)據(jù)量的87.74%;流感和肺炎(J09-J18)(占5.99%)、慢性下呼吸道疾病(J40-J47)(占4.12%)和其他疾病定義為類(lèi)型II,共占12.26%。類(lèi)型I和類(lèi)型II的比例為7.16:1。因此,類(lèi)型I類(lèi)型II間存在數(shù)據(jù)不平衡問(wèn)題。

      2.2 數(shù)據(jù)平衡

      為了解決數(shù)據(jù)不平衡問(wèn)題,本文采用SMOTE采樣方法[6-8]。SMOTE方法是一種改進(jìn)的采樣方法,通過(guò)對(duì)少數(shù)類(lèi)樣本的人工合成,來(lái)提高少數(shù)類(lèi)樣本所占的比例,從而降低數(shù)據(jù)集中過(guò)度傾斜的問(wèn)題。文中通過(guò)SMOTE方法增加少數(shù)類(lèi)的樣本量,提升分類(lèi)器的性能,消除或減少少數(shù)類(lèi)的不平衡問(wèn)題。

      比較采用SMOTE方法前后分類(lèi)器的性能詳見(jiàn)表4。從表4可以看出,采用SMOTE方法之后分類(lèi)器的性能普遍提升,類(lèi)型I與類(lèi)型II的比例基本接近1:1。

      表4 采用SMOTE 前后分類(lèi)器性能對(duì)比

      注:AUC :ROC曲線(xiàn)下面積,可以直觀(guān)的評(píng)價(jià)分類(lèi)器好壞,介于0.1~1之間,值越大越好

      2.3 人群劃分

      為了在不同人群中定量分析危險(xiǎn)因素,本文根據(jù)性別和年齡將全體人群分成8個(gè)子組。并根據(jù)C4.5算法原理,距離決策樹(shù)根節(jié)點(diǎn)越近的因素對(duì)急性呼吸系統(tǒng)疾病的影響越大。全體人群決策樹(shù)的上半部分如圖1所示,在決策樹(shù)中年齡和性別距離根節(jié)點(diǎn)最近,且年齡在49歲、11歲和68歲幾個(gè)節(jié)點(diǎn)處被分開(kāi)[11-12]。因此我們按性別和年齡將全體人群劃分成8個(gè)子組,具體包括年齡>49歲、≤49歲、男性>49歲、女性>49歲、11<男性≤49歲、11<女性≤49歲、男性≤11歲和女性≤11歲,連同全體人群在一起共9組。

      圖1 全體人群決策樹(shù)的上半部分

      2.4 危險(xiǎn)因素定量分析

      在每組人群中發(fā)現(xiàn)的危險(xiǎn)因素原理圖如圖2所示,主要包括C4.5模型訓(xùn)練、危險(xiǎn)因素作用程度 (如公式1)計(jì)算、作用程度分析3個(gè)步驟。

      圖2 危險(xiǎn)因素定量分析的原理圖

      2.4.1 C4.5 模型訓(xùn)練

      由于C4.5算法用信息增益率來(lái)選擇重要因素,且在決策樹(shù)構(gòu)造過(guò)程中對(duì)只有幾個(gè)元素的節(jié)點(diǎn)采取剪枝處理,避免出現(xiàn)過(guò)擬合,同時(shí)提升分類(lèi)準(zhǔn)確率。因此文中采用C4.5決策樹(shù)算法訓(xùn)練分類(lèi)器模型,利用十折交叉法驗(yàn)證分類(lèi)器。以>49歲組為例,首先通過(guò)訓(xùn)練集數(shù)據(jù)訓(xùn)練C4.5模型,再用十折交叉法驗(yàn)證,同時(shí)分析分類(lèi)器模型的性能,得到?jīng)Q策樹(shù)。利用 Weka 3.5.8軟件訓(xùn)練分類(lèi)器模型,訓(xùn)練參數(shù)分別為置信因子0.25,每個(gè)節(jié)點(diǎn)至少有兩個(gè)子節(jié)點(diǎn)。類(lèi)似地,利用全體人群和其他7組子人群分別訓(xùn)練各自的分類(lèi)器模型,各組C4.5分類(lèi)器模型的性能如表5所示。

      表5 各組C4.5模型的性能

      2.4.2 因素作用程度計(jì)算

      通過(guò)全體人群和8個(gè)子組人群分別訓(xùn)練得到各自決策樹(shù),根據(jù)決策樹(shù)前4層結(jié)構(gòu)分別計(jì)算各個(gè)危險(xiǎn)因素的作用程度,具體計(jì)算公式如公式(1)所示。

      其中,L 是某一危險(xiǎn)因素位于決策樹(shù)第L層,n是該危險(xiǎn)因素在第L層出現(xiàn)次數(shù)。

      2.4.3 作用程度分析

      分別對(duì)各組人群危險(xiǎn)因素的作用程度進(jìn)行統(tǒng)計(jì)分析發(fā)現(xiàn),共有年齡(age)、性別(gender)、二氧化硫(SO2)、二氧化氮(NO2)、PM10、風(fēng)速(wind speed)、降水量(rainfall)、濕度(humidity)、溫度(temperature)、氣壓(air pressure)、光照時(shí)長(zhǎng)(sunshine)、季節(jié)(season)等12個(gè)危險(xiǎn)因素出現(xiàn)在9個(gè)決策樹(shù)的前4層,具體分析結(jié)果在結(jié)果部分展示。

      3 結(jié)果

      3.1 危險(xiǎn)因素作用程度

      各組人群危險(xiǎn)因素引發(fā)急性呼吸系統(tǒng)疾病的作用程度如圖3-圖5所示。

      圖3 年齡>49人群環(huán)境危險(xiǎn)因素作用程度對(duì)比結(jié)果

      圖4 11<年齡≤49人群環(huán)境危險(xiǎn)因素作用程度對(duì)比結(jié)果

      圖5 年齡≤11人群環(huán)境危險(xiǎn)因素作用程度對(duì)比結(jié)果

      結(jié)合圖3-圖5對(duì)不同人群中環(huán)境危險(xiǎn)因素作用程度進(jìn)行分析,得到如下結(jié)果。一是NO2、PM10和SO2對(duì)11<年齡≤49男性的影響要大于11<年齡≤49女性;在11<年齡≤49人群中,NO2和PM10對(duì)男性的影響明顯大于女性,這兩種污染物對(duì)女性的影響很?。籗O2對(duì)男性的影響是女性的2倍;日照時(shí)長(zhǎng)對(duì)11<年齡≤49女性的影響較大,而對(duì)11<年齡≤49男性基本沒(méi)有影響;氣壓對(duì)11<年齡≤49女性的影響是11<年齡≤49男性的3倍(圖4)。二是SO2對(duì) >49歲女性的影響遠(yuǎn)大于>49歲男性,>49歲男性比>49歲女性更易受NO2和PM10影響 (圖3)。三是日照時(shí)長(zhǎng)對(duì)≤11歲女孩的影響要遠(yuǎn)大于≤11歲男孩,但≤11歲男孩比≤11歲女孩更易受NO2的影響(圖5)。四是年齡≤49歲人群比>49歲老年人更容易受空氣污染的影響,尤其是NO2和SO2;NO2對(duì)≤49歲人群中的作用程度是>49歲老年人的5倍多;濕度和溫度對(duì)>49歲老年人的作用程度比≤49歲要大,但≤49歲人群的影響很小。

      3.2 對(duì)比分析

      為了評(píng)價(jià)本文中所用分析方法的有效性,采用元分析方法開(kāi)展對(duì)比實(shí)驗(yàn),元分析方法是該研究領(lǐng)域通常采用的方法[13-15]。同樣利用Weka 3.5.8訓(xùn)練元分析模型。以全體人群為例,通過(guò)元分析模型得到年齡、NO2和降水量是位于前3位引發(fā)呼吸系統(tǒng)疾病的危險(xiǎn)因素,與C4.5模型前3位危險(xiǎn)因素一致。但是該模型的準(zhǔn)確率比C4.5模型低12.70%,如表5和表6所示,且ROC曲線(xiàn)下面積AUC值比C4.5模型要小。構(gòu)建其他子人群的元分析模型,各模型性能如表6所示。

      表6 各人群元分析模型的性能表

      4 討論

      本文定量分析了引發(fā)呼吸系統(tǒng)疾病的危險(xiǎn)因素,該方法結(jié)合不同人群的特征分別給出各自的危險(xiǎn)因素,以及這些危險(xiǎn)因素對(duì)呼吸系統(tǒng)疾病影響程度的排序,并在因素之間進(jìn)行了定量對(duì)比分析,結(jié)果可應(yīng)用于挖掘空氣污染與呼吸系統(tǒng)疾病發(fā)生之間的關(guān)聯(lián)關(guān)系,有助于臨床醫(yī)生了解暴露于空氣污染環(huán)境與呼吸系統(tǒng)疾病就診情況的關(guān)系,以制定在不同的環(huán)境條件下相應(yīng)的接診應(yīng)對(duì)措施。

      本文采用基于C4.5決策樹(shù)的計(jì)算方法,以生成決策樹(shù)的形式展示分類(lèi)規(guī)則,直觀(guān)易于理解,且算法準(zhǔn)確率較高。與元分析方法對(duì)比分析發(fā)現(xiàn)9組人群C4.5模型的準(zhǔn)確率都有提升(如表3和表4所示)。但C4.5方法在構(gòu)造決策樹(shù)的過(guò)程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的計(jì)算效率較低。同時(shí)本文中按性別和年齡細(xì)化人群的方法,對(duì)不同人群進(jìn)行有針對(duì)性的定量分析。之前相關(guān)研究中普遍使用元分析[16]、時(shí)間序列方法[17-18]和病歷交叉方法[19-20],如APHENA(Air Pollution and Health: A Combined European and North American Approach)研究中應(yīng)用元回歸方法和多城市的時(shí)間序列方法研究空氣污染對(duì)公眾健康的影響[2,21];Ling Tong采用時(shí)間序列分析方法研究空氣污染與心血管疾病發(fā)病率的關(guān)系[22];Valerie B Haley基于時(shí)間分層的病歷交叉方法估計(jì)PM2.5的短期影響對(duì)美國(guó)紐約地區(qū)心血管疾病住院人數(shù)的影響[23]。

      Francesca Dominici等人研究了北美地區(qū)空氣中PM10對(duì)全人群呼吸系統(tǒng)疾病死亡率的影響[4],Kan H等人研究了上海地區(qū)空氣污染與全人群中死亡率的關(guān)系[5],本文群在按年齡和性別劃分在人群的基礎(chǔ)上,進(jìn)一步細(xì)化了污染物因素對(duì)呼吸系統(tǒng)疾病的影響。

      由于從2013年1月1日起,環(huán)保部正式將PM2.5列入空氣監(jiān)測(cè)指標(biāo)中,本文暫未能獲取2009-2011年間PM2.5監(jiān)測(cè)數(shù)據(jù),文中未涉及PM2.5的分析。又因急診患者多由短期暴露在空氣污染中引發(fā)疾病,本文暫不考慮長(zhǎng)期暴露于污染物對(duì)慢性病患者的影響,因此空氣污染物累積的長(zhǎng)期影響在本文中沒(méi)有涉及?;颊咦陨砦鼰熓?、慢性病史等在急診門(mén)診中尚未采集,也是本文不足之處。

      本文定量分析了不同人群發(fā)生呼吸系統(tǒng)疾病的危險(xiǎn)因素,但這些危險(xiǎn)因素的敏感區(qū)間尚未知,如何發(fā)現(xiàn)敏感區(qū)間是下一步研究的重點(diǎn)。

      猜你喜歡
      決策樹(shù)分類(lèi)器人群
      在逃犯
      糖尿病早預(yù)防、早控制
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      BP-GA光照分類(lèi)器在車(chē)道線(xiàn)識(shí)別中的應(yīng)用
      我走進(jìn)人群
      百花洲(2018年1期)2018-02-07 16:34:52
      財(cái)富焦慮人群
      加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
      結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
      基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
      西青区| 牟定县| 松滋市| 平山县| 泌阳县| 海丰县| 习水县| 泾源县| 凤凰县| 牟定县| 象州县| 屯门区| 平遥县| 师宗县| 深圳市| 黄梅县| 柳江县| 杭州市| 岑巩县| 石景山区| 宜宾市| 长兴县| 江川县| 肃北| 高要市| 虎林市| 新河县| 东港市| 抚松县| 五指山市| 嘉定区| 望奎县| 信宜市| 深水埗区| 饶阳县| 南皮县| 全南县| 喀什市| 响水县| 河津市| 灵寿县|