陳宗楠
關鍵詞:新冠疫情;民航客運量;組合預測;SARIMA預測模型;BP神經網絡
中圖分類號:G642 文獻標識碼:A
文章編號:1009-3044(2023)03-0016-03
1 引言
新冠病毒自2019年12月被發(fā)現(xiàn)以來,迅速蔓延至全球,給全世界的經濟發(fā)展帶來了不容小覷的影響,民航業(yè)是受疫情沖擊最大的行業(yè)之一。吳婷婷等將新冠疫情與非典疫情作比較,提出新冠疫情短期內對交通運輸行業(yè)會產生較大不利影響[1]。在新冠疫情的沖擊下,我國民航市場受到了較大的損失,基于預測的角度研究疫情對民航業(yè)的影響,將為后疫情時代我國民航客運市場的恢復提供幫助。錢名軍等運用GARCH模型對SARIMA預測模型的殘差部分進行擬合,其構建的組合預測模型解決了殘差的異方差性,預測精度更高[2]。Andreas K等比較了ARIMA模型與深度學習神經網絡模型對民航需求預測的效果,研究結果顯示航空客運量具有明顯的季節(jié)趨勢,神經網絡模型進行的預測更全面[3]。本文選取SARIMA模型與BP神經網絡模型構建并聯(lián)式組合預測模型,追溯預測了疫情后的民航客運量,與實際數據進行比較,實現(xiàn)量化新冠疫情對民航客運市場影響的目標。
2.2 BP神經網絡
BP神經網絡由Rumelhart D.E.等在1986年提出,在各領域有廣泛應用,它是一種有監(jiān)督學習方式,主要包括:一是將輸入的信號不斷向前傳遞,以輸入至輸出的方向進行訓練;二是以輸出至輸入的方向傳遞輸出層與期望值的誤差,實時調整網絡結構的權重,不斷迭代直至所有訓練集的誤差滿足精度要求[5]。輸入層、輸出層與隱含層共同構成了BP神經網絡,建模的關鍵是確定隱含層節(jié)點數,根據Robert H的研究理論,隱層數設置為1的網絡可實現(xiàn)較好的擬合[6]。本文選擇的神經網絡拓撲結構見圖1。
2.3 組合預測模型
SARIMA模型能夠很好地表達出旅客運輸量時間序列的上升趨勢及季節(jié)波動,而BP神經網絡對非線性特征部分的表達效果更好,本文選擇這兩種模型構建組合預測模型[7]。組合預測模型包括串聯(lián)式與并聯(lián)式,串聯(lián)式組合模型的結構簡單,但需要實際數據計算其中一個模型的殘差作為神經網絡的輸入,模型泛化能力較差,同時本文要對客運量進行樣本外預測,因此選擇并聯(lián)式組合模型,即:
式中ω1、ω2為權重系數,本文選用以下方法確定組合預測模型的權重[8]:
(1) 等權重法對各個模型賦予相同的權重,取模型總數的倒數。這種方法簡單易操作,但是準確率較低,預測效果不是最優(yōu)。
(2) 誤差平方和最小法誤差平方和最小法本質上是利用優(yōu)化思想將權重的確定轉化為求最值問題,根據最優(yōu)準則構造目標函數,對目標函數極小化確定權重。
(3) 誤差平方和倒數法對每個模型的誤差平方和取倒數,每個誤差平方和的倒數除以倒數和作為各模型的權重系數,即對誤差小的模型賦予更大的權重。
選取均方誤差(MSE)和平均絕對誤差(MAE)兩種評價指標對不同模型進行驗證。MSE, MAE 計算公式如下:
3 實證分析
選取2009—2019年我國民航旅客運輸量月度數據進行實證分析,共132組,取2009—2018年的數據作為訓練集,2019年數據作為測試集。數據來源于中國民用航空局主要生產指標統(tǒng)計月報,本試驗在RStudio及Matlab軟件環(huán)境下編程實現(xiàn)。
3.1 SARIMA模型
首先通過時序圖觀察訓練集數據,可以看出該時間序列整體呈現(xiàn)上升趨勢并伴隨著季節(jié)性波動,經adf.test函數進行ADF檢驗P=0.3325>0.05,說明該時間序列不平穩(wěn)。先通過1階差分(d=1)消除時間序列的上升趨勢,差分后的時間序列ACF圖顯示在延遲12、24、36階時有明顯的突出,說明一階差分處理后仍沒有消除季節(jié)波動,因此再通過1次12步的季節(jié)差分(D=1, s=12)消除季節(jié)波動。平穩(wěn)化處理后的時間序列ADF檢驗P<0.01,ACF、PACF圖見圖2。
由圖2可知,延遲12 階內ACF 圖呈3階截尾,PACF圖呈3階截尾,可以取q=3, p=2或3。季節(jié)部分兩個圖中延遲12階的系數不為零,延遲24、36階系數均為零,可以取P=1, Q=1。僅通過觀察無法確定模型的最優(yōu)參數,結合最小信息量準則通過forecast包對不同參數進行比較篩選,SARIMA(2, 1, 3) (1, 1, 1)12模型的AIC值最小,對該模型進行檢驗結果顯示:殘差相關性Ljung-Box P=0.7682>0.5,正態(tài)性檢驗Shapiro=0.97869,該模型可用。
3.2 BP神經網絡模型
取SARIMA模型2009-2018年擬合值及相應客運量實際值作為訓練樣本對神經網絡進行訓練,該部分建模通過Matlab軟件實現(xiàn)。首先對數據進行預處理,由于民航客運量樣本數據為單一時間序列,選擇輸入層節(jié)點數為6,輸出層節(jié)點數為1,依次將6 個月的SARIMA擬合值作為輸入向量,后1個月的客運量實際數據作為輸出滾動排列,歸一化處理通過mapmin?max函數實現(xiàn)。
隱含層節(jié)點數的設定對神經網絡的性能影響較大,通過經驗公式只能大致確定隱層節(jié)點數的范圍[9]。取不同節(jié)點數進行試驗,當節(jié)點數>10 時可以達到10-4的目標精度,因此隱含層節(jié)點數取10。隱含層及輸出層傳遞函數分別選擇Log-sigmoid 型及Purelin 型,經過試驗發(fā)現(xiàn)trainlm訓練函數效果較好,學習速率取0.01。對2019年客運量進行預測結果見圖3,該模型預測效果較好。
3.3 組合預測模型
依據三種不同的權重確定方法,以均方誤差和平均絕對誤差兩種評價指標驗證不同權重組合預測模型的效果,MSE和MAE兩個指標取值越小越好,各組合模型的效果見表1:
由表1可知,組合預測模型的預測效果明顯優(yōu)于單一模型,由誤差平方和最小法確定權重的組合預測模型MSE和MAE最小。最終確定組合預測模型如下:
3.4 樣本外預測
用上文建立的組合預測模型對2020-2021年客運量做樣本外預測,同時與真實數據作對比,結果如圖4所示。
圖4可見,2020~2021年民航客運量的實際數據與預測值相差甚遠,客運量平均每月相差2500萬人次,該結果表明新冠疫情對我國民航客運量的影響十分顯著。受新冠疫情影響,民航客運量斷崖式下降在2年內出現(xiàn)了3次:2020年2月最為明顯,當月客運量僅為834萬人,3~5月市場持續(xù)低迷,客運量實際值不及預測值的50%;第二次斷崖發(fā)生在2021年2月,隨著冬季本土疫情的反彈,民航市場再次受到較大影響,旅客實際運輸量僅為預測值的40%;第三次發(fā)生在2021年末,因新冠病毒新變種奧密克戎,本土疫情再次出現(xiàn)較大反彈,民航旅客運輸量降至3000萬人次/月以下,僅為預測值的35%左右。
4 結論
本文基于預測的角度,實現(xiàn)了新冠疫情對民航客運量影響的量化,為后疫情時期民航客運市場的發(fā)展提供了參考。通過構建時間序列與神經網絡的民航客運量組合預測模型,對新冠疫情后的2020~2021年客運量進行了樣本外預測,試驗結果表明,我國民航客運量受新冠疫情影響很大。2020、2021年民航全年客運量的預測值分別為70331.0萬人次和73499.9萬人次,而實際客運量僅為41763.7萬人次和44048.3萬人次,在新冠疫情的影響下,我國民航實際客運量相較于行業(yè)正常發(fā)展的情況下降了約40%,我國民航客運市場恢復到疫情前的規(guī)模還需要一些時間。