• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      集成氣象環(huán)境數(shù)據(jù)的門診量預(yù)測研究

      2020-04-29 11:01:06張家艷鄭建立
      智能計算機(jī)與應(yīng)用 2020年2期
      關(guān)鍵詞:門診量差分環(huán)境監(jiān)測

      張家艷, 鄭建立

      (上海理工大學(xué), 上海 200093 )

      0 引 言

      門診是醫(yī)院對外服務(wù)的窗口。人口老齡化導(dǎo)致患者人數(shù)的增加以及人們越來越關(guān)注自身健康狀況,每年的門診壓力越來越大。此外,門診量與體檢和住院服務(wù)的工作量直接相關(guān)[1]。對門診病人數(shù)量進(jìn)行準(zhǔn)確和可靠的預(yù)測,有助于科學(xué)合理地分配醫(yī)院的人力物力資源如醫(yī)生坐診人數(shù)、醫(yī)療設(shè)備等,從而能更好應(yīng)對門診壓力。

      在研究門診量隨時間變化過程中,影響其變化的因素太多,難以考慮全面。由于時間序列模型僅考慮日期因素,故常把門診預(yù)測當(dāng)作時間序列數(shù)據(jù)分析。在時間序列模型中,最常見的是差分整合移動自回歸模型(ARIMA)[2-3]。ARIMA起初是出于經(jīng)濟(jì)學(xué)目的設(shè)計,現(xiàn)已廣泛用于醫(yī)學(xué)領(lǐng)域。如范曉欣等人[4]用ARIMA預(yù)測門急診人次,mape為7.01%。近年來,人們采用深度學(xué)習(xí)等新技術(shù)預(yù)測,如Wang等人[5]將時間序列分解,再用廣義回歸神經(jīng)網(wǎng)絡(luò)模型預(yù)測; Huang等人[6]使用經(jīng)驗(yàn)?zāi)J椒纸饨Y(jié)合粒子群算法優(yōu)化的反向傳播人工神經(jīng)網(wǎng)絡(luò)預(yù)測;相比傳統(tǒng)技術(shù),均得到了更準(zhǔn)確的預(yù)測結(jié)果。但深度學(xué)習(xí)技術(shù)在大數(shù)據(jù)量上效果較好,針對少數(shù)據(jù)量的情況,常采用機(jī)器學(xué)習(xí)方法。Islam等人[7]用支持向量回歸預(yù)測社區(qū)醫(yī)院的門診人次。Yang等人[8]用多層感知器預(yù)測門診就診上呼吸道感染人數(shù)。2016年以來,xgboost[9]在Kaggle等各大數(shù)據(jù)科學(xué)比賽中都得到廣泛應(yīng)用,成為比賽中的高分模型。

      空氣污染是一個重大的全球性問題,空氣里的污染物能夠影響人體健康。同時,天氣的變化也能給人帶來不適,這些可能都影響門診量的變化。Seo等人[10]采用環(huán)境監(jiān)測數(shù)據(jù)與氣象數(shù)據(jù)建立韓國結(jié)膜炎門診量預(yù)測模型,發(fā)現(xiàn)門診量O3濃度相關(guān)系數(shù)為0.49。經(jīng)學(xué)者研究發(fā)現(xiàn),臺灣干眼病與環(huán)境監(jiān)測因素如一氧化碳、二氧化氮等的含量正相關(guān)(P<0.05)[11]。因此,在對門診量進(jìn)行預(yù)測時,選擇氣象因素及環(huán)境監(jiān)測因素作為門診預(yù)測因素是必要的。

      1 xgboost算法

      極端梯度提升(Extreme Gradient Boosting,xgboost)是在集成學(xué)習(xí)GBDT的基礎(chǔ)上對目標(biāo)函數(shù)進(jìn)行了二階泰勒展開,在陳剛等人[12]提出之后,就得到了廣泛的應(yīng)用,在許多問題上得到了優(yōu)勝的解決方案。

      1.1 xgboost

      xgboost是在GBDT上進(jìn)行改進(jìn)的算法,故也是由k個cart樹集成學(xué)習(xí)而來。但不同的是GBDT的基函數(shù)為決策樹,而xgboost的基函數(shù)為其他的機(jī)器學(xué)習(xí)器。在xgboost中,損失函數(shù)的計算公式在GBDT的損失函數(shù)的基礎(chǔ)上加上了正則化項(xiàng)Ω(ht),即損失函數(shù)為:

      (1)

      其中,Ω(ht)計算公式為:

      (2)

      其中,γ,λ為正則化系數(shù);J為葉子節(jié)點(diǎn)的個數(shù);wt, j為對應(yīng)葉子節(jié)點(diǎn)Rt, j的輸出值。

      在GBDT中,損失函數(shù)僅僅對誤差部分做負(fù)梯度、即一階泰勒展開,但在xgboost中對誤差部分做二階泰勒展開,從而使擬合結(jié)果更準(zhǔn)確,即:

      (3)

      在最小化損失函數(shù)的過程中,由于L(yi,ft-1(xi))為常數(shù),故不影響最小化的過程,可省略。同時,由上知wt, j的定義,而ht(xi)為xi經(jīng)過第t個決策樹處理后在子節(jié)點(diǎn)區(qū)域的輸出值,故式(3)可改為:

      (4)

      其中,

      1.2 xgboost的差分化處理

      機(jī)器學(xué)習(xí)技術(shù)廣泛應(yīng)用在機(jī)器翻譯,語音識別等領(lǐng)域,而這些領(lǐng)域的數(shù)據(jù)有些是非數(shù)值數(shù)據(jù),很少有數(shù)值不平穩(wěn)的情況。但作為時間序列數(shù)據(jù),門診量經(jīng)常會存在不平穩(wěn)的情況。非平穩(wěn)序列包含了季節(jié)、趨勢等因素,這些不確定因素使預(yù)測結(jié)果的準(zhǔn)確性降低[13]。故在數(shù)據(jù)預(yù)處理時,先對數(shù)據(jù)進(jìn)行平穩(wěn)性檢測,如不平穩(wěn),常用的方法是進(jìn)行差分化處理,即將數(shù)據(jù)的后一個數(shù)減去前一個數(shù),依次相減得到數(shù)據(jù)集,重復(fù)檢測直到數(shù)據(jù)轉(zhuǎn)化成平穩(wěn)序列,最后將預(yù)測結(jié)果進(jìn)行反差分化得到最終預(yù)測結(jié)果。

      本文數(shù)據(jù)采用ADF平穩(wěn)性檢測結(jié)果得到p-value值為0.874 3,即數(shù)據(jù)是不平穩(wěn)的。將數(shù)據(jù)集進(jìn)行一次差分后便發(fā)現(xiàn)p-value值變?yōu)?,數(shù)據(jù)已經(jīng)變成平穩(wěn)序列了。

      2 差分化xgboost門診量預(yù)測

      2.1 數(shù)據(jù)獲取與預(yù)處理

      本文采用kettle工具抽取了上海市某三甲醫(yī)院2017/01~2019/05年的門診日值數(shù)據(jù)。對假期和周末的門診異常值,匯合氣象環(huán)境數(shù)據(jù)后一起進(jìn)行處理。

      在中國氣象數(shù)據(jù)網(wǎng)上,下載了對應(yīng)2017/01~2019/05的氣象數(shù)據(jù)。這些數(shù)據(jù)總共包括22個氣象特征,對其中缺失值和異常值采用均值法進(jìn)行處理。選取的主要?dú)庀髷?shù)據(jù)特征及值見表1。

      表1 部分氣象數(shù)據(jù)特征及值

      同期環(huán)境監(jiān)測數(shù)據(jù)來自于pm2.5歷史數(shù)據(jù)網(wǎng)站[13],其中的數(shù)據(jù)全部來自于國家環(huán)境保護(hù)部。對數(shù)據(jù)中的缺失數(shù)值采用均值處理。環(huán)境監(jiān)測數(shù)據(jù)特征及值見表2。

      表2 環(huán)境監(jiān)測數(shù)據(jù)特征及值

      整合上述三份數(shù)據(jù),刪除其中的周末以及假期數(shù)據(jù),共得到565份數(shù)據(jù)。從這565份數(shù)據(jù)中選取508份作為訓(xùn)練集,將剩下的57份數(shù)據(jù)作為預(yù)測集。

      2.2 xgboost模型訓(xùn)練

      2.2.1 超參數(shù)取值

      本算法在調(diào)參時首先采用隨機(jī)搜索調(diào)參法,確定大致的參數(shù)范圍,然后采用網(wǎng)格搜索調(diào)參法獲取最優(yōu)的參數(shù)組合。

      在本次隨機(jī)搜索調(diào)參時,采用三折交叉驗(yàn)證,n_iters選擇為10即搜索次數(shù)為10。在隨機(jī)搜索調(diào)參的結(jié)果上,取每個超參數(shù)左鄰和右鄰幾個數(shù)一起作為網(wǎng)格搜索參數(shù)的初始值,最終得到的網(wǎng)格搜索參數(shù)結(jié)果見表3。

      表3 超參數(shù)取值

      2.2.2 評價標(biāo)準(zhǔn)

      對于門診量預(yù)測的結(jié)果,采用平均百分比誤差(mean absoulute percent error,mape)來衡量預(yù)測值與真實(shí)值之間的差距,采用模型擬合度R2來衡量模型的擬合程度,其計算公式具體如下:

      (5)

      (6)

      其中,yreal表示實(shí)際的門診量值;ypred表示門診量預(yù)測值;yavg表示門診量平均值。

      mape越小說明預(yù)測的準(zhǔn)確程度越高,R2越大說明模型選擇越合理。

      2.3 結(jié)果

      2.3.1 門診量預(yù)測

      在模型確定之后,便可以訓(xùn)練模型進(jìn)行門診量預(yù)測。未來50天日門診量預(yù)測值與真實(shí)值的對比曲線如圖1所示。其中,虛線即為未來50天的預(yù)測值,實(shí)線為未來50天的真實(shí)值,由圖1可以看出除了在最高值或最低值處有部分偏差之外,預(yù)測走向基本一致。

      圖1 未來50天日門診量預(yù)測值與真實(shí)值

      Fig. 1 Forecast and actual values of daily outpatient visits in future 50 d

      2.3.2 差分化處理對預(yù)測結(jié)果的影響

      在數(shù)據(jù)預(yù)處理后,將數(shù)據(jù)進(jìn)行差分化處理,轉(zhuǎn)化為平穩(wěn)序列,再進(jìn)行預(yù)測,最終得到的預(yù)測結(jié)果是差分?jǐn)?shù)據(jù)。在計算R2和mape時,需要將差分?jǐn)?shù)據(jù)反差分化得到最終數(shù)據(jù)集。差分處理與未進(jìn)行差分處理的R2和mape值見表4??梢钥闯觯瑢τ诜欠€(wěn)定的時間序列數(shù)據(jù),差分處理對預(yù)測結(jié)果的準(zhǔn)確性影響明顯,因此在預(yù)測之前進(jìn)行差分處理是必要的。

      表4 差分對模型結(jié)果的影響

      2.3.3 氣象及環(huán)境監(jiān)測因素對預(yù)測結(jié)果的影響

      對于門診量的預(yù)測,傳統(tǒng)的方法就是采用日期和門診量數(shù)據(jù)當(dāng)作時間序列數(shù)據(jù)進(jìn)行預(yù)測。這種方法解決了門診量影響因素太多無法選取全部因素的問題。在此方法中,只用時間變量來替代所有變化的因素,從而達(dá)到大致較好的預(yù)測結(jié)果。但時間因素是個籠統(tǒng)的特征,內(nèi)在的變量太多,時間變量并不能完全替代這些變量。本文將對疾病影響較大的氣象因素及環(huán)境監(jiān)測數(shù)據(jù)再加上時間變量一起預(yù)測門診量,比僅采用時間變量預(yù)測效果好。結(jié)果見表5。

      表5 預(yù)測結(jié)果對比

      3 結(jié)束語

      門診量數(shù)據(jù)為時間序列數(shù)據(jù),由于數(shù)據(jù)隨著時間變化存在波動現(xiàn)象,即數(shù)據(jù)是不穩(wěn)定的,常見的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域,很少需要時間序列處理,故該領(lǐng)域的常規(guī)化處理思路便沒有差分化這一方法。為了改善預(yù)測效果,翻閱了大量統(tǒng)計學(xué)文獻(xiàn)后,進(jìn)行了差分化處理,結(jié)果顯示采用差分化處理后的xgboost模型預(yù)測方法,得到的預(yù)測結(jié)果之平均絕對百分比誤差低于原生數(shù)據(jù)的xgboost模型,展現(xiàn)了強(qiáng)大的預(yù)測能力。而且,相對于僅用時間來預(yù)測門診量的方法,將氣象、環(huán)境監(jiān)測因素引入門診量預(yù)測的方法,其平均絕對百分比誤差及模型擬合度均獲得更好的效果。與其他門診量預(yù)測的研究相比[7-8],本文提出的模型的預(yù)測結(jié)果高于平均水平。由于數(shù)據(jù)集較小,深度學(xué)習(xí)方法效果不好,在后續(xù)的研究中,可以考慮抽取更多的臨床數(shù)據(jù)以擴(kuò)大數(shù)據(jù)量以及引入經(jīng)濟(jì)因素,并采用優(yōu)化的深度學(xué)習(xí)模型,進(jìn)一步增大預(yù)測的準(zhǔn)確性。

      猜你喜歡
      門診量差分環(huán)境監(jiān)測
      COVID-19疫情對一家三級醫(yī)院兒內(nèi)科門診量和比例的影響
      數(shù)列與差分
      遺傳編程在醫(yī)院日門診量預(yù)測中的應(yīng)用
      環(huán)境監(jiān)測系統(tǒng)的數(shù)據(jù)分析與處理
      電子制作(2019年19期)2019-11-23 08:41:54
      大氣污染問題的環(huán)境監(jiān)測
      北京市通州區(qū)空氣污染與醫(yī)院門診量關(guān)系初探
      對環(huán)境監(jiān)測數(shù)據(jù)造假必須零容忍
      公民與法治(2016年4期)2016-05-17 04:09:15
      便攜式GC-MS在環(huán)境監(jiān)測中的應(yīng)用
      基于差分隱私的大數(shù)據(jù)隱私保護(hù)
      相對差分單項(xiàng)測距△DOR
      太空探索(2014年1期)2014-07-10 13:41:50
      堆龙德庆县| 金门县| 青州市| 永靖县| 龙州县| 诸暨市| 吴堡县| 板桥市| 白城市| 武宣县| 三穗县| 隆尧县| 郁南县| 会理县| 南开区| 马公市| 鄱阳县| 京山县| 乳山市| 乐清市| 汝州市| 胶南市| 巴林左旗| 和静县| 定日县| 来宾市| 车致| 巴中市| 临朐县| 曲水县| 桃江县| 闵行区| 漾濞| 济阳县| 岗巴县| 临清市| 邯郸市| 富裕县| 布拖县| 依安县| 罗甸县|