竇一峰,王富彪,賈新亮,趙一犇,呂勁松
天津市寶坻區(qū)人民醫(yī)院,天津 301800
慢性阻塞性肺疾?。╟hronic obstructive pulmonary disease,COPD)是包括慢性支氣管炎、肺氣腫等肺通氣病理受阻的一組疾病,嚴(yán)重危害人類健康[1]。COPD 居全球死亡原因的第4位,世界衛(wèi)生組織(WTO)預(yù)計到2030年,COPD 將升至第3 位[2-3]。由于COPD 晚期預(yù)后差,嚴(yán)重影響患者的勞動能力和生活質(zhì)量,給整個家庭帶來巨大的經(jīng)濟(jì)負(fù)擔(dān)[4]。針對COPD患病率的預(yù)測,目前參考文獻(xiàn)中主要采用統(tǒng)計學(xué)中的假設(shè)檢驗進(jìn)行研究,但運(yùn)用向量自回歸模型(vector autoregression model,VAR)進(jìn)行預(yù)測的文獻(xiàn)較少。同時,向量自回歸是基于數(shù)據(jù)的統(tǒng)計性質(zhì)建立模型,它把系統(tǒng)中每一個內(nèi)生變量作為系統(tǒng)中所有內(nèi)生變量的滯后值的函數(shù)來構(gòu)造模型,從而將單變量自回歸模型推廣到由多元時間序列變量組成的“向量”自回歸模型,具有不用區(qū)分內(nèi)生變量和外生變量,是一種無約束模型。基于以上兩點,本文采用VAR探究建立天津市COPD患病率與氣象因素之間的動態(tài)數(shù)量關(guān)系并進(jìn)行預(yù)測,以期為更好地對該疾病的預(yù)防和控制提供新的參考依據(jù)。
本文中COPD 的患病率數(shù)據(jù)主要來源于天津市疾病預(yù)防控制中心收集的全死因監(jiān)測數(shù)據(jù),時間周期為2000—2016年。按照《國際疾病分類》,周期為2000—2002年時采用ICD-9編碼,2003—2016年采用ICD-10編碼[5-6]??紤]到目前死因登記報告中絕大多數(shù)的未特指的肺源性心臟病都是由慢性支氣管炎、肺氣腫引起的,極少數(shù)才是由肺動脈栓塞、原發(fā)性肺動脈高壓等引起的肺源性心臟病,因此本文也將這類疾病劃歸為COPD來統(tǒng)計分析[7]。本文的數(shù)據(jù)由天津市各醫(yī)院統(tǒng)一進(jìn)行網(wǎng)絡(luò)直報,通過層級質(zhì)檢和抽樣復(fù)核相結(jié)合的方式對數(shù)據(jù)的可靠性和一致性進(jìn)行質(zhì)量控制,保證了數(shù)據(jù)的有效性和準(zhǔn)確性。
本文主要應(yīng)用EViews 10.0 軟件對數(shù)據(jù)進(jìn)行處理和分析,在建模準(zhǔn)備階段主要采用描述性統(tǒng)計分析和平穩(wěn)性檢驗對數(shù)據(jù)進(jìn)行初步感知,在模型建立與預(yù)測階段主要采用VAR[8-10]進(jìn)行建模和預(yù)測,并采用均方根誤差(root mean square error,RMSE),平均絕對誤差(mean absolute error,MAE),平均絕對百分比誤差(mean absolute percentage error,MAPE) 和希爾不等式系數(shù)(thiel inequality coefficient,TIC)對預(yù)測效果進(jìn)行評價。
VAR的理論基礎(chǔ)在于數(shù)據(jù)的統(tǒng)計性質(zhì),通過將系統(tǒng)中每個內(nèi)生變量作為所有內(nèi)生變量的滯后期的結(jié)果來進(jìn)行建模,因而使得由最初的單變量自回歸模型向多元化序列變量自回歸模型演變,完成從一元到VAR 的升級[11]。VAR對于各模塊的系數(shù)關(guān)注不敏感,這是由于改模型中系數(shù)矩陣特別多的原因,所以很難通過分析模型系數(shù)估計值來分析模型所顯示出的結(jié)果和意義。本研究主要通過關(guān)注特征根檢驗等前提條件[12],能夠比較全面的反應(yīng)各個變量之間動態(tài)影響的IRF脈沖響應(yīng)函數(shù)[13],將系統(tǒng)內(nèi)一個變量的方差分解到各個擾動項上的方差分解步驟[14],來對模型進(jìn)行分析。
VAR(p) 模型的數(shù)學(xué)表達(dá)式如下:
其中,yt代表n維內(nèi)生變量向量,Xt代表d維外生變量向量,p 是滯后階數(shù),樣本個數(shù)為N。n×n 維矩陣A1,…,Ap和B 是要被估計的系數(shù)矩陣。是n 維擾動向量,也稱為沖擊向量或者抖動,因為它沒有結(jié)構(gòu)性的含義,被稱為簡化形式的沖擊向量。
本文收集了2000—2016年共計17年的COPD患病率數(shù)據(jù),整體來看該疾病患病率為4.34%~6.23%,Z 統(tǒng)計量為329.98,P 值小于0.001,APC 值為2.26%,數(shù)據(jù)呈現(xiàn)出明顯的上升趨勢,見表1。
表1 天津市2000—2016年COPD患病率和氣象數(shù)據(jù)描述性分析
時間序列的平穩(wěn)性決定了能否進(jìn)行VAR 模型分析,這 里 采 用 單 位 根 檢 驗[15](augmented dickey-fuller,ADF)對各個變量進(jìn)行平穩(wěn)性檢驗。為了克服異方差和消除量綱的影響,本文對數(shù)據(jù)先進(jìn)行對數(shù)化處理。由表2可知,在的條件下,各序列0 階差分是平穩(wěn)的,1 階差分也是平穩(wěn)的。
表2 天津市2000—2016年COPD患病率和氣象數(shù)據(jù)平穩(wěn)性檢驗結(jié)果
本文考慮到VAR 模型是無約束模型,因此設(shè)定包含COPD患病率和平均氣溫、平均風(fēng)速等指標(biāo)的VAR模型如式(2)所示:
采用模型滯后階數(shù)確定準(zhǔn)則,以AIC和SC最小化為判定依據(jù)確定滯后階數(shù)為2,此時的AIC=-9.418 6,SC=-8.993 7。VAR模型結(jié)果見表3,其中模型擬合優(yōu)度檢驗結(jié)果中R方為0.999 8,調(diào)整后的R方為0.999 6,說明模型擬合效果較優(yōu),F(xiàn) 統(tǒng)計量為4 693.735 0,對應(yīng)的P=0.000 0<0.01。同時根據(jù)COPD 患病率作為因變量的格蘭杰因果檢驗結(jié)果可知,整體的卡方值為19.607 7,P=0.003 3<0.05,說明各氣象因素均為COPD 患病率的格蘭杰原因,表明建立的VAR模型是合理有效的。
表3 天津市2000—2016年COPD患病率和氣象數(shù)據(jù)VAR模型結(jié)果
隨著時間的推進(jìn),將一個脈沖作用在VAR中每個方程的信息上,發(fā)現(xiàn)該次沖擊的影響會逐漸減退直至消失,則說明該系統(tǒng)是穩(wěn)定的,否則是不穩(wěn)定的。對于VAR模型來說,系統(tǒng)的穩(wěn)定性是進(jìn)行脈沖響應(yīng)函數(shù)、方差分解等分析的基礎(chǔ),而衡量VAR是否穩(wěn)定的方式就是借助AR特征根檢驗。本文中由4個內(nèi)生變量且滯后期為2,因此會產(chǎn)生8個特征根,所建立的VAR模型的所有特征根的倒數(shù)的模均小于1,即根據(jù)圖1 所示,所有點都位于單位圓內(nèi),說明本文建立的VAR模型是穩(wěn)定的。
圖1 AR特征根的倒數(shù)的模的單位圓結(jié)果
脈沖響應(yīng)函數(shù)分析是一類描述系統(tǒng)中每一個內(nèi)生變量的沖擊對其他內(nèi)生變量所帶來的影響的分析方法。如圖2所示,LNHBL受自身沖擊后產(chǎn)生小幅波動,隨后開始逐步下降直至平穩(wěn)狀態(tài),總體表現(xiàn)為正向長期影響;LNHBL受LNQW 沖擊后呈現(xiàn)正負(fù)向交替波動影響;LNHBL 受LNFS和LNSD 的沖擊后,均表現(xiàn)為負(fù)向影響,到第5 期影響達(dá)到最高點,隨后逐漸減弱,直至到長期穩(wěn)定的趨勢。圖中實線表示的是變量受沖擊后的走勢情況,兩側(cè)的虛線表示走勢的兩倍標(biāo)準(zhǔn)誤差。
圖2 VAR模型脈沖響應(yīng)函數(shù)結(jié)果
方差分解提供的是關(guān)于每個擾動因素影響VAR模型內(nèi)各個變量的相對程度的信息,即一個沖擊要素的方差能由其他隨機(jī)擾動項解釋多少。表4 給出了COPD 患病率的變動方差由自身和氣象因素導(dǎo)致的結(jié)果,COPD 患病率變化貢獻(xiàn)率最大的影響因素是其自身的變化,主要表現(xiàn)為逐年遞減趨勢,從第5期開始下降幅度變緩趨于平穩(wěn),直至第15期貢獻(xiàn)率仍超過24%,風(fēng)速的變化對COPD患病率的貢獻(xiàn)影響逐年增高,到第6 期后期逐漸趨于平穩(wěn),最終達(dá)62.694 5%,其他因素的貢獻(xiàn)率均不超過12%。由圖3可以看出,由各個氣象因素變動解釋的部分逐年增加,說明受氣象因素影響較明顯。
表4 方差分解結(jié)果
圖3 方差分解趨勢
基于本文所研究的是COPD 患病率和氣象因素之間的關(guān)系,因此選取COPD患病率為被解釋變量,得到VAR模型表達(dá)式如式(3)所示。
根據(jù)上述公式采用動態(tài)預(yù)測法對2017—2021 年的COPD 發(fā)病率進(jìn)行預(yù)測,采用RMSE、MAE、MAPE 和TIC進(jìn)行效果評價,如果RMSE、MAE、MAPE 介于0~5 之間,TIC 在0~1 之間,則說明預(yù)測結(jié)果較好,評價指標(biāo)值越小,則說明模型的預(yù)測精度越高。由表5可知,各個指標(biāo)均在可接受的范圍內(nèi),說明模型可以較好地預(yù)測未來5年的COPD患病率。
表5 VAR模型預(yù)測COPD患病率結(jié)果
從所建立的VAR模型得到的脈沖響應(yīng)函數(shù)結(jié)果來看,氣溫對于COPD的發(fā)病表現(xiàn)為正負(fù)交替影響,說明氣溫的驟增和驟減均會使COPD發(fā)病的風(fēng)險增大,分析原因可能是天津地處華北地區(qū),四季較為分明,尤其冬天早晚溫差較大,對支氣管和心肺功能會有較大影響。通過方差分解結(jié)果可知,風(fēng)速和濕度對于COPD 發(fā)病率的貢獻(xiàn)度較高,分析原因可能是由于空氣中濕度增加以及風(fēng)速的增大,病毒繁殖和活動能力增強(qiáng),也有利于污染物的擴(kuò)散,從而增加了患病的風(fēng)險,這也與相關(guān)文獻(xiàn)研究結(jié)果一致[15]。
本研究通過對COPD患病率和氣象因素數(shù)據(jù)建立VAR模型來預(yù)測未來COPD 患病率的發(fā)生情況,根據(jù)結(jié)果來看,所建立的VAR模型的穩(wěn)定性和擬合效果均較好,模型的預(yù)測結(jié)果評價指標(biāo)也說明該模型可以較好的對未來COPD患病率進(jìn)行預(yù)測,其RMSE、MAE、MAPE和希爾不等式系數(shù)均較小,說明利用COPD患病率和氣象資料數(shù)據(jù)所建立的天津市COPD患病率預(yù)測的VAR模型的適用性較好,可操作性強(qiáng),進(jìn)一步說明運(yùn)用數(shù)學(xué)模型的思想來科學(xué)動態(tài)的對COPD發(fā)病率進(jìn)行研究是可行的。雖然整體上各氣象因素可作為模型預(yù)測的變量,但是各氣象因素是否真正對COPD 患病率具有影響作用仍有待進(jìn)一步研究。未來,通過收集更多的特征信息和數(shù)據(jù)資料,提升數(shù)據(jù)的準(zhǔn)確性和全面性,對于疾病患病率的預(yù)測可以從模型融合和信息融合的角度進(jìn)行建模嘗試,并根據(jù)統(tǒng)計和分類等多維度評價指標(biāo)對模型進(jìn)行評價分析。