李望晨 王在翔 肖文靜 張利平△
兩類思想時(shí)間序列建模方法在醫(yī)療收入趨勢(shì)周期預(yù)測(cè)中的應(yīng)用*
李望晨1,2王在翔2肖文靜2張利平1,2△
時(shí)間序列分析是利用歷史時(shí)序資料分析事物本身隨時(shí)間變化規(guī)律,經(jīng)數(shù)學(xué)模型擬合后提取歷史延續(xù)性信息,慣性外推后預(yù)測(cè)未來。隨著交叉學(xué)科多樣化方法引入,時(shí)間序列分析技術(shù)和軟件工具不斷拓展,為不同問題數(shù)據(jù)資料提供適應(yīng)空間[1-4]。經(jīng)濟(jì)事物季度或月度數(shù)據(jù)常有周期波動(dòng)與長期趨勢(shì),觀測(cè)數(shù)據(jù)多且有連貫性,周期起伏波動(dòng)與長期延續(xù)性趨勢(shì)明顯。常規(guī)模型方法性能有限,如灰色法適于短期較平緩性隨機(jī)時(shí)序分析,曲線擬合法適于長期平滑趨勢(shì)時(shí)序分析,ARIMA法適于長時(shí)平穩(wěn)隨機(jī)時(shí)序分析[5]。于是考慮以下兩種新思路:第一種思路是,對(duì)于季節(jié)或周期性變化時(shí)間序列數(shù)據(jù),先用季節(jié)效應(yīng)分解法計(jì)算處理,將時(shí)間序列分解為長期趨勢(shì)因素、季節(jié)性因素和隨機(jī)波動(dòng)因素,然后分別提取不同類型規(guī)律性信息。第二種思路是,對(duì)季節(jié)性變化數(shù)據(jù)也可直接用季節(jié)效應(yīng)ARIMA法建立模型(簡單季節(jié)模型或乘積季節(jié)模型[6])。前者是針對(duì)趨勢(shì)性和季節(jié)性的時(shí)序數(shù)據(jù)資料,先用低階差分消除長期趨勢(shì),再用周期步長差分消除周期性波動(dòng),轉(zhuǎn)化為平穩(wěn)序列后由ARIMA模型對(duì)其進(jìn)行擬合。若短期相關(guān)和季節(jié)效應(yīng)間有交互關(guān)系,應(yīng)考慮后者(即乘積季節(jié)模型)。
針對(duì)趨勢(shì)和季節(jié)性時(shí)序數(shù)據(jù)分析問題,借助算例載體建立模型,比較兩類思路的原理,進(jìn)行方案設(shè)計(jì)和效果比較。算例資料為某醫(yī)院2001-2012年季度收入數(shù)據(jù),建立擬合模型并外推預(yù)測(cè)。先從數(shù)據(jù)散點(diǎn)圖進(jìn)行預(yù)分析,發(fā)現(xiàn)隨時(shí)間呈現(xiàn)周期波動(dòng)和平緩發(fā)展延續(xù)特點(diǎn),即以年為周期有季節(jié)波動(dòng)起伏和長期平滑遞增趨勢(shì),數(shù)據(jù)資料見表1。
表1 某醫(yī)院2001-2012年按季度收入數(shù)據(jù)(萬元)
以X11過程法進(jìn)行時(shí)間序列分解[7],提取季節(jié)指數(shù)因素,并經(jīng)調(diào)整后得到趨勢(shì)序列,再分別用ARIMA法或多項(xiàng)式曲線法擬合與外推,將外推值與季節(jié)指數(shù)乘積還原合成預(yù)測(cè)值,該思想屬于組合預(yù)測(cè)法的范疇。X11、ARIMA法可用SAS軟件,曲線擬合法可用Excel軟件。
X11過程法可以實(shí)現(xiàn)時(shí)間序列因素分解目的,然后將分解后的長期趨勢(shì)、季節(jié)波動(dòng)、交易日、不規(guī)則等因素建立模型。該算法較復(fù)雜:以多次短期中心移動(dòng)平均消除不規(guī)則波動(dòng),周期移動(dòng)平均消除長期趨勢(shì),交易周期移動(dòng)平均消除交易日因素,等等,前后共作11次移動(dòng)平均,剔除季節(jié)波動(dòng)影響,交易日影響不存在,計(jì)算季節(jié)指數(shù)和長期趨勢(shì)。鑒于因素交叉關(guān)聯(lián),該法使用X11乘法模型,借助SAS軟件實(shí)現(xiàn)。
原始序列經(jīng)X11法提取季節(jié)指數(shù),分別為96.13%,97.77%,100.26%和105.86%,經(jīng)季節(jié)調(diào)整后得到長期趨勢(shì)序列(圖1),以及剩余隨機(jī)波動(dòng)序列(圖2)。
1.ARIMA法 ARIMA就是自回歸移動(dòng)平均模型,表達(dá)式為Φ(B)dxt=Θ(B)εt,設(shè)φi,θj為自回歸和移動(dòng)平均系數(shù)。Φ(B)=(1-φ1B-…-φpBp), Θ(B)=(1-θ1B-…-θqBq), 其中Bkxt=xt-k為k步延遲算子,d階差分算子為d=(1-B)d。簡明步驟包括模型定階、識(shí)別、檢驗(yàn)和應(yīng)用。{xt}經(jīng)過低階差分后消除增長趨勢(shì)得到平穩(wěn)序列,經(jīng)純隨機(jī)性檢驗(yàn)資料有無建模必要。根據(jù)AIC、SBC最小準(zhǔn)則定階適合模型結(jié)構(gòu),以t檢驗(yàn)法識(shí)別模型參數(shù)。最后對(duì)殘差序列{εt}進(jìn)行純隨機(jī)性檢驗(yàn),分析模型是否顯著,最后進(jìn)行預(yù)測(cè)應(yīng)用。
圖1 季節(jié)調(diào)整后長期趨勢(shì)
圖2 剩余不規(guī)則波動(dòng)
X11法消除原始序列季節(jié)影響后,以ARIMA法擬合長期發(fā)展趨勢(shì)。先經(jīng)差分處理為平穩(wěn)序列,用于擬合數(shù)據(jù)變化規(guī)律。序列經(jīng)二階差分消除趨勢(shì)平穩(wěn),不是純隨機(jī)平穩(wěn)序列;在p,q≤6中自動(dòng)尋優(yōu)定階,MA(2)模型BIC=5.843最小,參考自相關(guān)圖和偏自相關(guān)圖最優(yōu)定階。由條件最小二乘法識(shí)別參數(shù),最終得到模型表達(dá)式(1-B)2xt=(1-1.083 7B+0.335 61B2)εt。經(jīng)分析,擬合后殘差序列為純隨機(jī)序列,延遲階數(shù)為6,12,18,24時(shí),P=0.561,0.889,0.975和0.824>0.05,由模型得到趨勢(shì)外推值3703,3752,3802,3851,乘以季節(jié)指數(shù)后還原計(jì)算2012年醫(yī)院收入預(yù)測(cè)值3560,3668,3812,4077;計(jì)算相對(duì)誤差1.04%,1.44%,1.76%,2.29%。
X11過程法消除季節(jié)影響后以曲線擬合法分析長期趨勢(shì),計(jì)算增長特征,二階差分與時(shí)序有線性變化特點(diǎn),可確定二次多項(xiàng)式xt=2767.58-10.2318t+0.67456t2為模型表達(dá)式,決定系數(shù)R2=0.980,F(xiàn)檢驗(yàn)P<0.001,說明模型擬合理想,趨勢(shì)外推值為3673,3724,3777,3831,乘以季節(jié)指數(shù)還原后得到2012年醫(yī)院收入預(yù)測(cè)值3531,3641,3787,4055,計(jì)算相對(duì)誤差1.84%,2.17%,2.41%,2.80%。經(jīng)驗(yàn)證,三次多項(xiàng)式擬合稍優(yōu)于二次多項(xiàng)式,決定系數(shù)R2=0.991>0.980,F(xiàn)檢驗(yàn)P<0.0001,建立模型xt=2679.66+11.976t-0.545t2+0.018t3擬合理想,趨勢(shì)外推值為3761,3836,3914,3997,乘以季節(jié)指數(shù)還原后為預(yù)測(cè)值3616,3750,3924,4231,計(jì)算相對(duì)誤差0.51%,0.75%,1.14%,1.41%。多項(xiàng)式回歸系數(shù)均有統(tǒng)計(jì)學(xué)意義,不作贅述。
ARIMA作為隨機(jī)時(shí)序分析法,應(yīng)根據(jù)序列過去值、當(dāng)前值與殘差制定線性模型;趨勢(shì)序列存在較平滑穩(wěn)定變化趨勢(shì),隨時(shí)間呈多項(xiàng)式延續(xù)增長特點(diǎn)。經(jīng)季節(jié)調(diào)整后對(duì)長期趨勢(shì)進(jìn)行擬合、外推。經(jīng)比較,X11-三次多項(xiàng)式模型(黑色粗線)為最佳,長期趨勢(shì)的擬合與外推效果比較分別見圖3~5。三種組合模型對(duì)原始序列的擬合及外推效果比較見圖6。
圖3 ARIMA模型
圖4 二次多項(xiàng)式模型
圖5 三次多項(xiàng)式模型
圖6 三種組合模型的擬合外推效果比較
先用低階與周期差分提取趨勢(shì)與季節(jié)信息,轉(zhuǎn)化為平穩(wěn)序列后直接用簡單季節(jié)ARIMA模型或乘積季節(jié)ARIMA模型分析,驗(yàn)證并比較擬合與外推效果。
1.簡單季節(jié)ARIMA模型 趨勢(shì)季節(jié)數(shù)據(jù)可經(jīng)周期步長差分提取季節(jié)信息,經(jīng)簡單低階差分提取趨勢(shì)信息,根據(jù)提取后的殘差序列作為平穩(wěn)序列擬合依據(jù)。構(gòu)造模型結(jié)構(gòu):
Φ(B)Ddxt=Θ(B)εt,Θ(B)=(1-θ1B-…-θqBq), Φ(B)=(1-φ1B-…-φpBp)。其中D為周期步長,d為差分階數(shù);{εt}為白噪聲序列。對(duì)于按年度呈季節(jié)周期、長期趨勢(shì)變化序列而言,若存在多項(xiàng)式趨勢(shì)則用二階差分,若存在季節(jié)變化特點(diǎn),則用4步周期差分4=(1-B4),觀察差分處理后序列是否達(dá)到平穩(wěn),對(duì)其用ARIMA法建立模型。
前面計(jì)算顯示季節(jié)效應(yīng)消除后,長期趨勢(shì)呈現(xiàn)二次或三次多項(xiàng)式特點(diǎn)。由于差分計(jì)算會(huì)損失隨機(jī)性信息,于是僅用2階差分消除趨勢(shì),再經(jīng)過4步周期差分消除季節(jié)趨勢(shì)。不必提取季節(jié)指數(shù)信息,直接建立低階差分ARIMA模型。在SAS程序中由ACF和PACF特點(diǎn)反復(fù)調(diào)試模型階數(shù)并識(shí)別模型參數(shù)。最后確定(1-0.33455B+0.25349B4)(1-B4)(1-B)2xt=εt為模型表達(dá)式。經(jīng)過延遲6,12,18,24時(shí),P=0.6489,0.9700,0.9915,0.8880,表明殘差序列已經(jīng)為純隨機(jī)序列,模型顯著。經(jīng)模型預(yù)測(cè)得到2012年醫(yī)院收入預(yù)測(cè)值為3567,3670,3815,4079;計(jì)算相對(duì)誤差0.83%,1.40%,1.68%,2.23%。
2.乘積季節(jié)ARIMA模型。簡單季節(jié)模型中季節(jié)效應(yīng)、趨勢(shì)效應(yīng)之間若有交互影響,則需要構(gòu)建乘積季節(jié)模型。低階差分后序列用ARMA(p,q)提取短期相關(guān)性,用ARMA(P,Q)提取季節(jié)效應(yīng)或季節(jié)相關(guān)性。假設(shè)二者有交互效應(yīng)和乘積關(guān)系,則須構(gòu)造為乘積模型結(jié)構(gòu)形式:
ARIMA(p,d,q)×(P,D,Q)S: Φ(B)ΦS(B)Ddxt=Θ(B)ΘS(B)εt;
其中,Θ(B)=(1-θ1B-…-θqBq), Φ(B)=(1-φ1B-…-φpBp);
ΘS(B)=(1-θ1BS-…-θQBQS), ΦS(B)=(1-φ1BS-…-φpBPS)。
二次多項(xiàng)式特點(diǎn)長期趨勢(shì)可用二階差分,季度周期可用4步周期差分。為避免過度差分喪失隨機(jī)信息,仍用2階、4步差分。同理在SAS中經(jīng)反復(fù)調(diào)試模型階數(shù)及識(shí)別參數(shù),得到模型ARIMA(4,2,0)×(1,1,0)4,其表達(dá)式為(1-0.39647B)(1+0.33027B4)(1-B4)(1-B)2xt=εt。殘差序列延遲6,12,18,24時(shí),P=0.8449,0.9893,0.9957,0.9147,說明為純隨機(jī)序列,模型顯著。由乘積季節(jié)模型直接外推2012年醫(yī)院收入預(yù)測(cè)值3577,3680,3828,4088。計(jì)算相對(duì)誤差0.56%,1.13%,1.34%,2.01%。經(jīng)模型擬合效果比較,乘積季節(jié)ARIMA模型最佳,季節(jié)效應(yīng)和短期相關(guān)性有交互影響。
以上從兩類建模方案設(shè)計(jì)5種擬合模型。第一種方案:X11法與隨機(jī)時(shí)序分析法(ARIMA)或確定性時(shí)序分析法(多項(xiàng)式曲線)建立組合模型。第二種方案:根據(jù)季節(jié)效應(yīng)和短期相關(guān)性間存在簡單加法或交互乘法影響,直接可以建立兩類季節(jié)ARIMA模型。
經(jīng)過模型定階、識(shí)別等數(shù)據(jù)計(jì)算處理,然后由模型得出2012年預(yù)測(cè)值、相對(duì)誤差。經(jīng)比較分析,模型擬合和外推效果均不錯(cuò),優(yōu)劣順序依次為X11-三次多項(xiàng)式、乘積季節(jié)ARIMA、簡單季節(jié)ARIMA、X11-ARIMA、X11-二次多項(xiàng)式。預(yù)測(cè)值和相對(duì)誤差絕對(duì)值見表2。
表2 5種模型預(yù)測(cè)精度比較情況
用X11過程法提取季節(jié)指數(shù),經(jīng)調(diào)整后得到長期趨勢(shì)序列,用ARIMA法或曲線擬合法建模擬合外推,與季節(jié)指數(shù)相乘后還原計(jì)算預(yù)測(cè)值。該方案體現(xiàn)組合建模思想。須說明,長期趨勢(shì)序列預(yù)測(cè)效果已經(jīng)很好了,無須對(duì)ARIMA法和曲線法再進(jìn)行加權(quán)組合計(jì)算。另一種方案是采用周期差分和低階差分提取季節(jié)變動(dòng)和長期趨勢(shì)因素,將轉(zhuǎn)化后的平穩(wěn)序列建立ARIMA擬合模型,根據(jù)是否季節(jié)效應(yīng)和短期相關(guān)是簡單加法關(guān)系還是復(fù)雜交互乘法關(guān)系,分別考慮構(gòu)建簡單季節(jié)模型或乘積季節(jié)模型。
以某醫(yī)院收入的季度數(shù)據(jù)作為實(shí)證算例,周期波動(dòng)穩(wěn)定和長期變化趨勢(shì)規(guī)律明顯,數(shù)據(jù)資料豐富連貫,受隨機(jī)混雜因素影響小。兩種方案原理不同,第一種體現(xiàn)時(shí)間序列分解后的組合建模思想,第二種是對(duì)兩類季節(jié)模型的選擇使用。經(jīng)比較發(fā)現(xiàn)乘積季節(jié)ARIMA模型、X11-三次多項(xiàng)式模型擬合性能最佳,擬合與外推效果均不錯(cuò)。
[1]張利平,于貞杰,張建華,等.六種時(shí)間序列組合建模方案在衛(wèi)生費(fèi)用趨勢(shì)擬合中的應(yīng)用研究.中國衛(wèi)生經(jīng)濟(jì),2015,34(8):56-58.
[2]李望晨,王春平,張利平基于時(shí)間序列方法適配建模分析的衛(wèi)生支出預(yù)測(cè)實(shí)證研究.中國衛(wèi)生統(tǒng)計(jì),2015,32(2):273-274.
[3]張利平,李望晨.趨勢(shì)外推與ARIMA法在衛(wèi)生費(fèi)用組合預(yù)測(cè)建模中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2015,32(3):430-432.
[4]李望晨.基于增長特征法與ARIMA的人均衛(wèi)生事業(yè)費(fèi)趨勢(shì)預(yù)測(cè)比較研究.中國衛(wèi)生統(tǒng)計(jì),2014,31(3):450-452.
[5]李望晨,王素珍,劉洪慶,等.預(yù)測(cè)問題應(yīng)用設(shè)計(jì)中的若干適配對(duì)策與實(shí)證研究.中國衛(wèi)生統(tǒng)計(jì),2015,32(3):547-549.
[6]張愛紅,周培,申銅倩,等.乘積季節(jié)ARIMA 模型在食源性疾病預(yù)測(cè)中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2014,31(3):68-73.
[7]申銅倩,劉文東,胡建利,等.X11-ARIMA過程在痢疾疫情預(yù)測(cè)中的應(yīng)用研究.中國衛(wèi)生統(tǒng)計(jì),2014,31(3):395-397.
(責(zé)任編輯:郭海強(qiáng))
*資助項(xiàng)目:教育部人文社科基金(15YJCZH087);山東省自然科學(xué)基金(ZR2015HL101);山東統(tǒng)計(jì)科研項(xiàng)目(KT16230,KT16231)
1.濰坊醫(yī)學(xué)院“健康山東”重大社會(huì)風(fēng)險(xiǎn)預(yù)測(cè)與治理協(xié)同創(chuàng)新中心(261053)
2.濰坊醫(yī)學(xué)院公共衛(wèi)生與管理學(xué)院
△通信作者:張利平