大連理工大學(xué)經(jīng)濟(jì)管理學(xué)院(116023)
劉曉冰 顧福來(lái)△
【提 要】 目的 醫(yī)院門診量預(yù)測(cè)對(duì)于提高醫(yī)院的工作效率具有重要意義。方法 針對(duì)日門診量預(yù)測(cè)問(wèn)題,提出一種基于遺傳編程的日門診量預(yù)測(cè)方法,該方法首先采用基于距離的離群點(diǎn)挖掘算法識(shí)別節(jié)日效應(yīng)的有效時(shí)間范圍。同時(shí),用節(jié)氣作為表示氣候變化的最小時(shí)間單位,以及其他若干屬性來(lái)描述日門診量歷史數(shù)據(jù)。最后,以遺傳編程為框架,提出了日門診量預(yù)測(cè)函數(shù)的分段學(xué)習(xí)策略。結(jié)果 算法對(duì)日門診量的預(yù)測(cè)結(jié)果的決定系數(shù)均在0.9以上。結(jié)論 遺傳編程方法具有較強(qiáng)的日門診量預(yù)測(cè)能力。
門診作為醫(yī)院醫(yī)療服務(wù)的第一道窗口,為居民提供早期診斷,開展及時(shí)治療,具有服務(wù)面廣、隨意性大和可控性小等特點(diǎn)。門診服務(wù)水平直接影響患者的就醫(yī)體驗(yàn)和醫(yī)院的工作效率[1]。門診量預(yù)測(cè)是根據(jù)門診量的發(fā)展變化規(guī)律,預(yù)計(jì)和判斷其未來(lái)發(fā)展趨勢(shì)和狀況的活動(dòng)。準(zhǔn)確的門診量預(yù)測(cè)對(duì)提高醫(yī)療資源的利用效率具有重要意義,可以根據(jù)門診量預(yù)測(cè)的結(jié)果動(dòng)態(tài)安排出診醫(yī)師及導(dǎo)醫(yī)、收費(fèi)及藥房等窗口服務(wù)人員,合理調(diào)配診室數(shù),從而縮短患者就醫(yī)時(shí)間,維持良好的門診秩序。
門診量預(yù)測(cè)的研究可分為以下三種方法:(1)統(tǒng)計(jì)預(yù)測(cè)方法,即采用數(shù)理統(tǒng)計(jì)方法研究門診量的變化規(guī)律。(2)人工智能方法,即采用人工智能算法(如神經(jīng)網(wǎng)絡(luò),遺傳算法)學(xué)習(xí)門診量數(shù)據(jù)的規(guī)律,(3)混合方法,即將統(tǒng)計(jì)預(yù)測(cè)和人工智能方法相結(jié)合。上述預(yù)測(cè)方法在門診量的預(yù)測(cè)上取得了一定的成果,但目前的研究還存在如下問(wèn)題:(1)預(yù)測(cè)時(shí)間粒度較粗:目前研究主要以季度或月份為單位進(jìn)行預(yù)測(cè),鮮有日門診量的預(yù)測(cè)研究。事實(shí)上,日門診量對(duì)醫(yī)院每天的工作安排更有指導(dǎo)意義,相反,以季度或月份為單位的門診量預(yù)測(cè)缺乏實(shí)際的工作指導(dǎo)意義;(2)鮮有節(jié)假日的門診量預(yù)測(cè):準(zhǔn)確預(yù)測(cè)節(jié)假日門診量對(duì)合理安排醫(yī)護(hù)人員的休假有重要指導(dǎo)作用,可緩解“醫(yī)護(hù)人員過(guò)勞”的普遍狀態(tài);(3)缺乏門診量的節(jié)日效應(yīng)研究,所謂的節(jié)日效應(yīng)是指門診量在某節(jié)假日的前或后的一段時(shí)間內(nèi),日門診量數(shù)據(jù)發(fā)生異常變化。
本文提出了一種日門診量預(yù)測(cè)方法,首先采用“節(jié)氣”等數(shù)據(jù)特征來(lái)描述日門診量歷史數(shù)據(jù),相比于季節(jié)和月份,節(jié)氣更準(zhǔn)確地反應(yīng)了氣候變化的規(guī)律和對(duì)疾病的影響;然后,采用基于距離的離群點(diǎn)挖掘算法識(shí)別節(jié)假日門診量的節(jié)日效應(yīng)的時(shí)間范圍,為節(jié)假日的門診量預(yù)測(cè)奠定數(shù)據(jù)基礎(chǔ);最后,基于遺傳編程(genetic programming,GP),設(shè)計(jì)了日門診量的預(yù)測(cè)學(xué)習(xí)算法。
1.數(shù)據(jù)描述
本文所使用的數(shù)據(jù)為大連市某三甲醫(yī)院2015年1月1日至2017年12月31日期間共計(jì)1096條日門診量的歷史數(shù)據(jù),如圖1所示。由圖1觀察可知:日門診量數(shù)據(jù)呈逐年上漲趨勢(shì),且具有季節(jié)性波動(dòng)特征。全部數(shù)據(jù)的部分統(tǒng)計(jì)特征如下:均值為5500,方差為4653076,最大值為9639,最小值為619。
圖1 2015年1月1日至2017年12月31日的日門診量
2.數(shù)據(jù)準(zhǔn)備
參考相關(guān)文獻(xiàn)[2-3],本文將描述日門診量數(shù)據(jù)的特征或?qū)傩约隙x為:
{year,season,month,day,weekday,festival,festIndex,outpaNo}
其中,year={2015,2016,2017}表示年份;season={1,2,3,4}表示季度,1為第一季度,其他依次類推;month={1,2,…,12}表示月份,1為一月,其他依次類推;day={2015/01/01,…,2017/12/31}表示具體的日期;weekday={1,2,…,7}表示該天是星期幾,1為星期一,其他依次類推;festival={0,1,2,3,4,5,6,7}表示節(jié)假日類型,0表示非節(jié)日,1為元旦,2為春節(jié),3為清明節(jié),4為五一勞動(dòng)節(jié),5為端午節(jié),6為中秋節(jié),7為國(guó)慶節(jié);festIndex={1,2,…,n}表示某節(jié)假日內(nèi)的第幾天,1為該節(jié)假日內(nèi)的第一天,其他依次類推;outpaNo表示該天的門診量。
表1展示了2016年春節(jié)前后一段時(shí)間的日門診量,數(shù)據(jù)顯示春節(jié)期間的日門診量急劇下降。
表1 2016年春節(jié)前后一段時(shí)間范圍內(nèi)的日門診量
3.預(yù)測(cè)評(píng)價(jià)指標(biāo)
使用均方根誤差(root mean square error,RMSE)和決定系數(shù)(coefficient of determination,R2)作為預(yù)測(cè)結(jié)果的評(píng)價(jià)指標(biāo),定義如下:
4.特征集調(diào)整
ARIMA模型和SARIMA模型是當(dāng)前常用的預(yù)測(cè)門診量的時(shí)間序列預(yù)測(cè)模型[4-6],二者區(qū)別在于SARIMA更適用于具有季節(jié)性波動(dòng)的時(shí)間序列預(yù)測(cè)。圖1可知日門診量具有顯著的季節(jié)性波動(dòng)特性,因此本文采用SARIMA模型進(jìn)行初步預(yù)測(cè),預(yù)測(cè)結(jié)果為:R2=0.773,RMSE=1029.418。圖2顯示了全部三年的日門診量預(yù)測(cè)結(jié)果,圖3詳細(xì)地顯示了2016年2月的預(yù)測(cè)結(jié)果,其中,2016年2月7日為春節(jié),該天的日門診量為747,SARIMA預(yù)測(cè)結(jié)果為4532。
圖2 2015年1月1日至2017年12月31日的預(yù)測(cè)結(jié)果
圖3 2016年2月的預(yù)測(cè)結(jié)果
SARIMA模型預(yù)測(cè)結(jié)果顯示:日門診量的預(yù)測(cè)值與實(shí)際值的誤差較大,特別是節(jié)假日以及節(jié)假日前后一段時(shí)間范圍內(nèi)的日門診量的預(yù)測(cè)值很大程度偏離實(shí)際值。經(jīng)過(guò)分析,造成預(yù)測(cè)誤差較大的可能原因如下:
(1)節(jié)假日的日門診量較非節(jié)假日的日門診量有顯著下降,特別是重要節(jié)日,如春節(jié),國(guó)慶等節(jié);
(2)日門診量存在節(jié)日效應(yīng),所謂的節(jié)日效應(yīng)是指在節(jié)假日的前后一定時(shí)間內(nèi),日門診量數(shù)據(jù)異常變化;
(3)日門診量與醫(yī)院所在地的氣候條件存在較密切的關(guān)系[7],而季度和月份兩個(gè)時(shí)間特征反應(yīng)氣候變化的粒度較為粗糙,同一個(gè)季度和月份的在不同的年份的同一天,可能在氣候上存在顯著差異;
(4)ARIMA和SARIMA模型在日門診量的預(yù)測(cè)上能力不足,目前,這類模型主要用于月度和季度的門診量預(yù)測(cè),如文獻(xiàn)[4]和[5],鮮有日門診量預(yù)測(cè)的案例。
此外,自然界現(xiàn)象周期性、節(jié)律性變化,直接或間接地影響著人體,而節(jié)氣的劃分充分考慮了季節(jié)、氣候、溫度、濕度等自然現(xiàn)象的變化以及變化的滯后效應(yīng)。因此很多醫(yī)學(xué)研究表明,人體疾病的發(fā)生發(fā)展與“二十四節(jié)氣”有密切關(guān)系[8-9]。為此,本文根據(jù)SARIMA模型的分析結(jié)果以及節(jié)氣對(duì)疾病的影響的事實(shí),將描述日門診量數(shù)據(jù)的特征集合調(diào)整為:
{year,month,solarTerm,weekIndex,weekday,festival,festIndex,festEffitive,outpaNo}
其中,新的特征定義如下:solarTerm={1,2,…,24}表示24節(jié)氣,1為小寒,其他按照“二十四節(jié)氣”的順序依次類推;weekIndex={1,2,3}表示在當(dāng)前節(jié)氣內(nèi)的第幾周,1表示當(dāng)前節(jié)氣內(nèi)的第一周,其他依次類推,由于每個(gè)節(jié)氣最多16天,weekIndex的最大取值為3;festEffitive={-nb,…,-1,1,…,na}表示節(jié)日效應(yīng)的時(shí)間范圍,-1表示某節(jié)假日有節(jié)日效應(yīng)的節(jié)前第一天,1表示某節(jié)假日有節(jié)日效應(yīng)的節(jié)后第一天,其余依次類推,需要說(shuō)明的是:節(jié)日效應(yīng)變量nb和na具有如下特征:(1)該節(jié)假日的節(jié)前的第nb天和該節(jié)假日節(jié)后的第na天一定有節(jié)日效應(yīng);(2)該節(jié)假日的節(jié)前的第nb+1天和節(jié)后的第na+1天一定沒(méi)有節(jié)日效應(yīng);(3)對(duì)于同一節(jié)假日,nb和na可能不相等。
根據(jù)調(diào)整后的特征集合,表2重新給出了表1中的數(shù)據(jù)(2016年春節(jié)的nb=2,na=4,后文給出計(jì)算方法)。需要說(shuō)明的是,每年的任意一天可由屬性year,solarTerm,weekIndex和weekday上的取值唯一確定。
表2 2016年春節(jié)前后一段時(shí)間范圍內(nèi)的日門診量(新)
5.門診量的節(jié)日效應(yīng)識(shí)別
節(jié)日效應(yīng)廣泛存在于股市、期貨、旅游等領(lǐng)域。顯然,日門診量存在明顯的節(jié)日效應(yīng),它是指節(jié)假日對(duì)日門診量的波動(dòng)產(chǎn)生的影響(不包括節(jié)假日本身),且可能同時(shí)存在節(jié)前效應(yīng)和節(jié)后效應(yīng),即節(jié)假日前后一定時(shí)間的日門診量發(fā)生異常變化,或顯著增加,或顯著減少。
為了識(shí)別門診量的節(jié)日效應(yīng),首先需要確定節(jié)日效應(yīng)的時(shí)間范圍,即nb和na。本文將采用識(shí)別離群點(diǎn)的方法確定節(jié)日效應(yīng)的時(shí)間范圍,即:若某節(jié)假日的節(jié)前或節(jié)后的某天的日門診量發(fā)生異常變化,則該天的日門診量是相對(duì)于該天一定時(shí)間范圍內(nèi)的日門診量數(shù)據(jù)集的離群點(diǎn)(outlier)。離群點(diǎn)挖掘算法通常有基于統(tǒng)計(jì)、基于距離、基于深度、基于密度和基于聚類等方法[10]。由于門診量的節(jié)日效應(yīng)僅由節(jié)假日造成,因此,日門診量的節(jié)日效應(yīng)屬于低維度離群點(diǎn)挖掘,本文選用基于距離的離群點(diǎn)挖掘算法來(lái)識(shí)別節(jié)日效應(yīng)的時(shí)間范圍。需要說(shuō)明的是基于距離的離群點(diǎn)挖掘算法對(duì)于低維度數(shù)據(jù)特別有效[9]。
確定節(jié)日效應(yīng)的時(shí)間范圍,首先需要確定節(jié)假日前或后的某天的日門診量是否為離群點(diǎn),為此,本文設(shè)計(jì)了如下的離群點(diǎn)識(shí)別算法(lth_Day_Check):
(1)
(2)
(3)
以2016年春節(jié)為例(數(shù)據(jù)見表2),針對(duì)春節(jié)后第一天(即2016年2月14日),確定該天是否有節(jié)日效應(yīng),該天為星期日,假設(shè)k=8,λ=0.6,數(shù)據(jù)集db(7,1,9)的實(shí)際取值為{3427,2158,1725,1687,2053,2074,2250,2469,2277},其中,第一個(gè)數(shù)據(jù)(3427)為春節(jié)后第一天的日門診量,其他8個(gè)數(shù)據(jù)為該天前后4個(gè)同為星期日的正常日期的日門診量。計(jì)算可知:Mean_outpaNo=2236.56,maxdb(7,1,9)=3427,mindb(7,1,9)=1687。式(1)計(jì)算結(jié)果為vu=3280.56,小于3427,因此該天疑似有節(jié)日效應(yīng)。由式(2)、式(3)可得:P=0.89,r=98.56。通過(guò)計(jì)算可知該天的日門診量與數(shù)據(jù)集中db(7,1,9)中除自身之外其他天的日門診量的距離均大于r,故該天的日門診量為數(shù)據(jù)集db(7,1,9)的離群點(diǎn),即:2016年春節(jié)后的第一天存在節(jié)日效應(yīng)。
在算法lth_Day_Check的基礎(chǔ)上,確定某個(gè)節(jié)假日x的節(jié)日效應(yīng)的時(shí)間范圍的完整算法如下:
Step1:sum_nb=sum_na=0
Step2:foreachy∈year
Step2.1:采用lth_Day_Check算法,確定該節(jié)假日在本年度的假日效應(yīng)參數(shù)nb,y和na,y
Step2.2:sum_nb+=nb,y,sum_na+=na,y
Step3:end for
1.基于遺傳編程日門診量預(yù)測(cè)算法概述
遺傳編程(GP)是由Koza教授提出的一種人工智能算法[11],它采用分層結(jié)構(gòu)表示解空間,且結(jié)構(gòu)大小可變。遺傳編程廣泛應(yīng)用于預(yù)測(cè)、符號(hào)回歸等領(lǐng)域。本文基于遺傳編程,結(jié)合函數(shù)符號(hào)集與終端符號(hào)集,隨機(jī)產(chǎn)生日門診量的預(yù)測(cè)表達(dá)式(即初始群體),通過(guò)選擇,交叉和變異等操作進(jìn)行日門診量預(yù)測(cè)表達(dá)式的學(xué)習(xí)。下面將從編碼、選擇和適應(yīng)度評(píng)價(jià)、交叉、變異四個(gè)方面進(jìn)行介紹。
(1)編碼
個(gè)體編碼的基因值來(lái)源于函數(shù)符號(hào)集與終端符號(hào)集,其中,函數(shù)符號(hào)集由數(shù)學(xué)運(yùn)算符號(hào)構(gòu)成,終端符號(hào)集由問(wèn)題的輸入變量和常數(shù)構(gòu)成。本文中,個(gè)體編碼為樹狀結(jié)構(gòu)組織,并采用“生長(zhǎng)法”產(chǎn)生初始群體,其步驟如下:預(yù)先給定一個(gè)樹的最大深度(即節(jié)點(diǎn)層數(shù)),之后隨機(jī)從函數(shù)符號(hào)集中選擇一個(gè)元素作為根節(jié)點(diǎn),然后隨機(jī)產(chǎn)生與該元素所對(duì)應(yīng)的函數(shù)的操作數(shù)數(shù)目相同的子樹,如果某個(gè)節(jié)點(diǎn)的深度小于給定的最大深度,則隨機(jī)從函數(shù)符號(hào)集或終端符號(hào)集中選擇一個(gè)元素填充該節(jié)點(diǎn),若深度等于最大深度,則從終端符號(hào)集中選擇一個(gè)元素填充該節(jié)點(diǎn)。
(2)選擇和適應(yīng)度評(píng)價(jià)
在適應(yīng)度評(píng)價(jià)結(jié)束后,采用錦標(biāo)賽算子選擇個(gè)體參與交叉和變異。錦標(biāo)賽算子基本操作如下:假設(shè)錦標(biāo)賽規(guī)模為m,隨機(jī)從父代種群中選擇m個(gè)個(gè)體,m個(gè)個(gè)體中適應(yīng)度最好的個(gè)體被選中。此外,本文還使用了精英保留策略,即保存每代適應(yīng)度最好的個(gè)體。
(3)交叉
交叉是產(chǎn)生新個(gè)體的主要操作,新個(gè)體繼承父代基因并產(chǎn)生新基因。本文采用的交叉操作如下:隨機(jī)從種群中選擇兩個(gè)個(gè)體(P1,P2)作為父代,然后從每個(gè)父代中隨機(jī)選擇一個(gè)點(diǎn)作為交叉點(diǎn),兩個(gè)父代交換以交叉點(diǎn)為根節(jié)點(diǎn)的子樹,得到新個(gè)體(O1,O2)。圖4給出了一個(gè)交叉的例子。
圖4 交叉
(4)變異
變異可以增加種群多樣性,有利于算法跳出局部最優(yōu)。本文的變異操作具體如下:隨機(jī)從種群中選擇一個(gè)個(gè)體作為父代,然后隨機(jī)選擇父代一個(gè)節(jié)點(diǎn)作為變異點(diǎn),刪除以該變異點(diǎn)為根節(jié)點(diǎn)的子樹,最后隨機(jī)生成一個(gè)新的子樹插到該變異點(diǎn)。圖5給出了一個(gè)變異例子。
圖5 變異
2.分段學(xué)習(xí)
觀察圖1可發(fā)現(xiàn),在不同的時(shí)間區(qū)間,門診量的曲線形狀有所不同,部分區(qū)間差異非常大。存在日門診量預(yù)測(cè)函數(shù)的分段現(xiàn)象,即:不同區(qū)間的日門診量預(yù)測(cè)表達(dá)式有所不同,不能采用一個(gè)統(tǒng)一的預(yù)測(cè)表達(dá)式來(lái)預(yù)測(cè)全部的日門診量。本文采用分段學(xué)習(xí)策略來(lái)實(shí)現(xiàn)日門診量預(yù)測(cè)函數(shù)的分段學(xué)習(xí),其基本思想為:預(yù)先設(shè)定一個(gè)適應(yīng)度閾值,采用GP算法進(jìn)行預(yù)測(cè)表達(dá)式的學(xué)習(xí)。若所得預(yù)測(cè)表達(dá)式的適應(yīng)度低于閾值,則任選一個(gè)特征進(jìn)行分段并確定其分段邊界,再根據(jù)分段情況分別生成預(yù)測(cè)表達(dá)式并進(jìn)行預(yù)測(cè)學(xué)習(xí),直到適應(yīng)度達(dá)到閾值為止。
由于日門診量數(shù)據(jù)的異常變化主要由節(jié)假日導(dǎo)致,因此,優(yōu)先選擇festival特征采用二分法進(jìn)行分段學(xué)習(xí)。
使用某三甲醫(yī)院的1096條日門診量歷史數(shù)據(jù)作為實(shí)驗(yàn)樣本,首先采用前面提出的特征定義和節(jié)日效應(yīng)的時(shí)間范圍確定算法進(jìn)行數(shù)據(jù)預(yù)處理,之后采用遺傳編程進(jìn)行日門診量的預(yù)測(cè)表達(dá)式的學(xué)習(xí)。GP的參數(shù)如下:種群規(guī)模為200,最大深度為10,交叉概率為0.8,變異概率為0.1,迭代次數(shù)500。函數(shù)符號(hào)集為{+,-,*,/,sin,cos,tan,log10,exp,ln,sqrt},終端符號(hào)集為{X0,X1,X2,X3,X4,X5,X6,X7}∪{1,2,3,5,7,11,13,100}。各變量含義為:X0代表年份;X1代表月份;X2代表節(jié)氣;X3代表節(jié)氣的第幾周;X4代表星期幾;X5代表節(jié)假日類型;X6代表某節(jié)假日內(nèi)的第幾天;X7代表節(jié)日效應(yīng)的時(shí)間范圍。{1,2,3,5,7,11,13,100}為常量集,常量集主要由1~13的素?cái)?shù)構(gòu)成,這樣的常量集有助于預(yù)測(cè)表達(dá)式中常數(shù)項(xiàng)的挖掘[13]。
為了避免學(xué)習(xí)過(guò)程中的過(guò)擬合和欠擬合等問(wèn)題,采用如下方式進(jìn)行實(shí)驗(yàn):若某一待學(xué)習(xí)區(qū)間的樣本數(shù)量大于50,則將75%的數(shù)據(jù)作為學(xué)習(xí)集,25%數(shù)據(jù)作為測(cè)試集;否則,采用“留一法”,即:假設(shè)有k個(gè)樣本,每次只留下一個(gè)樣本做測(cè)試集,其他樣本做學(xué)習(xí)集,共學(xué)習(xí)k次,選擇適應(yīng)度最高的預(yù)測(cè)表達(dá)式作為最終結(jié)果。
具體實(shí)驗(yàn)結(jié)果如表3所示,表中“函數(shù)分段條件”列中的所有節(jié)假日均表示某節(jié)假日以及該節(jié)假日的具有節(jié)日效應(yīng)的區(qū)間。
表3 日門診量預(yù)測(cè)的實(shí)驗(yàn)結(jié)果
由實(shí)驗(yàn)結(jié)果可知:R2均在0.9以上,表明日門診量預(yù)測(cè)表達(dá)式能夠解釋門診量預(yù)測(cè)中90%以上的因素,證明本文的日門診量預(yù)測(cè)方法有很好的預(yù)測(cè)能力。其中,非節(jié)假日(即:X5=0且X7=0)的日門診量預(yù)測(cè)表達(dá)式,在學(xué)習(xí)集上的預(yù)測(cè)精度為:R2=0.9381,RMSE=498.6147;在測(cè)試集的預(yù)測(cè)精度為:R2=0.98163,RMSE=463.0586。測(cè)試集的預(yù)測(cè)結(jié)果如圖6所示。從圖中可看出,非節(jié)假日的日門診量預(yù)測(cè)值曲線和實(shí)際值曲線基本吻合。
圖6 日門診量預(yù)測(cè)值和實(shí)際值的對(duì)比
由對(duì)比可知,本文所提出的算法的預(yù)測(cè)結(jié)果的R2均在0.9以上,相對(duì)于前述SARIMA模型的預(yù)測(cè)結(jié)果有顯著提高,且克服了SARIMA模型在節(jié)假日及節(jié)日效應(yīng)時(shí)間范圍內(nèi)預(yù)測(cè)精度較差的問(wèn)題。此外,由實(shí)驗(yàn)結(jié)果可知,測(cè)試集的R2和RMSE均優(yōu)于訓(xùn)練集,說(shuō)明預(yù)測(cè)算法不存在過(guò)擬合的問(wèn)題,且具有較強(qiáng)的泛化能力。
從實(shí)驗(yàn)可以看出,本文算法具有較好的日門診量預(yù)測(cè)能力,其原因如下:(1)采用節(jié)氣來(lái)標(biāo)識(shí)氣候條件的變化,細(xì)化了氣候條件對(duì)日門診量的影響;(2)基于距離的日門診量節(jié)日效應(yīng)離群點(diǎn)挖掘算法準(zhǔn)確識(shí)別了節(jié)日效應(yīng)的有效長(zhǎng)度;(3)基于二分法的分段函數(shù)的分段策略,有助于日門診量分段函數(shù)的挖掘。
針對(duì)醫(yī)院門診量分析與預(yù)測(cè)問(wèn)題,首先根據(jù)日門診量數(shù)據(jù)和SARIMA模型的預(yù)測(cè)結(jié)果不足進(jìn)行分析,采用基于距離的日門診量節(jié)日效應(yīng)離群點(diǎn)挖掘算法進(jìn)行節(jié)日效應(yīng)的判別。為了更為準(zhǔn)確判斷氣候變化對(duì)門診量的影響,采用節(jié)氣作為表示氣候變化的最小單位。在此基礎(chǔ)上,提出了分段學(xué)習(xí)策略,實(shí)現(xiàn)了基于遺傳編程的日門診量預(yù)測(cè),取得了較好的預(yù)測(cè)效果。
在未來(lái)的研究中,可考慮在日門診量預(yù)測(cè)時(shí)加入更多的特征,如空氣質(zhì)量、患者年齡、交通出行指數(shù)等因素對(duì)門診量的影響等。也可在本文所提出的研究方法基礎(chǔ)上,開展突發(fā)性公共衛(wèi)生事件,如新冠肺炎等,對(duì)門診量的影響研究。
中國(guó)衛(wèi)生統(tǒng)計(jì)2021年1期