賀菁偉 楊東諭
(1.北京市統(tǒng)計(jì)應(yīng)用研究所,北京 100054;2.北京市商業(yè)經(jīng)濟(jì)調(diào)查總隊(duì),北京 100054)
新冠肺炎疫情發(fā)生以來,經(jīng)濟(jì)社會(huì)各領(lǐng)域均受到較大沖擊。以消費(fèi)領(lǐng)域?yàn)槔?020年1—8月,北京市社零額同比下降14.1%。其中,2020年1—3月,北京市社零額規(guī)??s減明顯,同比下降21.5%;2020年4月以來,伴隨北京市復(fù)工復(fù)產(chǎn)的逐步推進(jìn)和疫情防控形勢(shì)穩(wěn)中向好,社零額降幅持續(xù)收窄,但恢復(fù)過程較為緩慢。
鑒于疫情滯后影響仍然存在,科學(xué)構(gòu)建預(yù)測模型評(píng)估疫情對(duì)消費(fèi)品市場的影響顯得尤為重要。本文利用北京市社零額月度數(shù)據(jù),引入3個(gè)影響社零額的變量,即常住人口規(guī)模、城鎮(zhèn)居民人均可支配收入和居民消費(fèi)價(jià)格指數(shù),測算疫情對(duì)北京市社零額的影響程度和作用時(shí)滯,為后疫情時(shí)期支持北京市消費(fèi)市場發(fā)展、促進(jìn)消費(fèi)潛力釋放提供數(shù)據(jù)支撐。同時(shí),通過深入分析單變量模型和多變量模型之間的適用性,為時(shí)間序列數(shù)據(jù)的預(yù)測分析提供可借鑒思路。
關(guān)于疫情對(duì)經(jīng)濟(jì)社會(huì)造成的影響,國內(nèi)很多學(xué)者都進(jìn)行過相關(guān)研究。如朱迎波等(2003)利用雙變量ARIMA模型,結(jié)合SARS疫情發(fā)生后人們的心理發(fā)展變化曲線,研究三類心理發(fā)展變化情況下疫情對(duì)中國入境旅游人數(shù)的影響;孫玉環(huán)(2006)重點(diǎn)探討ARMA模型在預(yù)測SARS對(duì)中國入境旅游外匯收入影響上的作用,并與傳統(tǒng)的“同期比”法進(jìn)行對(duì)比,結(jié)果表明,ARMA模型充分考慮了時(shí)間序列自身的發(fā)展趨勢(shì),在測算重大突發(fā)事件的影響時(shí)比“同期比”法更準(zhǔn)確客觀。
時(shí)間序列分析方法是預(yù)測社零額的主要方法,包括自回歸協(xié)整移動(dòng)平均模型(ARIMA)、考慮季節(jié)影響的ARIMA乘積模型、灰色模型(GM)等。其中,張華初等(2006)使用1978—2004年的月度全國社零額數(shù)據(jù),構(gòu)建了同時(shí)考慮時(shí)序滯后和季節(jié)影響的ARIMA乘積模型,并將2005年全國社零額月度實(shí)際值用于模型的預(yù)測檢驗(yàn);李庭輝等(2012)引入城鎮(zhèn)居民家庭人均可支配收入為自變量,使用經(jīng)過季節(jié)調(diào)整的ARIMAX模型對(duì)2002年第一季度至2011年第二季度的社零額數(shù)據(jù)進(jìn)行擬合分析,以擬合相對(duì)誤差為依據(jù)對(duì)社零額統(tǒng)計(jì)質(zhì)量進(jìn)行評(píng)估;王志堅(jiān)等(2014)對(duì)我國1953—2010年社零額年度數(shù)據(jù)進(jìn)行ARMA建模,并用該模型預(yù)測未來五年社零額的變化情況。
長短期記憶模型(LSTM)是一種改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN),能夠記住更長周期的信息,并且規(guī)避了RNN中梯度爆炸和梯度消失的問題,近年來在自然語言處理、文本分析等領(lǐng)域有較好的應(yīng)用。同時(shí),相關(guān)研究顯示,LSTM在預(yù)測領(lǐng)域表現(xiàn)出較強(qiáng)的對(duì)時(shí)序數(shù)據(jù)的處理能力。趙軍豪等(2018)以微博數(shù)據(jù)為切入點(diǎn),提出了融合情感分析和深度學(xué)習(xí)的多變量預(yù)測模型(SA-LSTM),結(jié)果表明,SA-LSTM的預(yù)測精度顯著高于ARIMA、LR、反向傳播(BP)神經(jīng)網(wǎng)絡(luò)以及單變量LSTM模型;吳翌琳等(2020)應(yīng)用傳統(tǒng)時(shí)間序列模型和神經(jīng)網(wǎng)絡(luò)模型,對(duì)基于某社交新聞?lì)怉pp的日廣告收入數(shù)據(jù)進(jìn)行互聯(lián)網(wǎng)企業(yè)廣告收入預(yù)測研究,結(jié)果表明,基于時(shí)間序列和神經(jīng)網(wǎng)絡(luò)構(gòu)建的組合模型對(duì)低頻數(shù)據(jù)預(yù)測有較強(qiáng)的有效性和適用性。
結(jié)合已有研究和統(tǒng)計(jì)實(shí)踐,本文認(rèn)為影響社零額的因素主要有以下幾個(gè)方面:
一是人口因素。人是消費(fèi)的主體和直接參與者,人的衣食住行必然與消費(fèi)市場相連,直接或間接影響社零額。通常來說,城市人口越多,其消費(fèi)需求越旺盛,社零額也會(huì)隨之增加。同時(shí),人口的結(jié)構(gòu)性變動(dòng)也會(huì)影響社零額規(guī)模,主要體現(xiàn)在在總?cè)丝谝?guī)模相似的前提下,城鎮(zhèn)化率高的地區(qū),其社零額通常大于城鎮(zhèn)化率低的地區(qū),即城鎮(zhèn)居民的消費(fèi)能力普遍強(qiáng)于農(nóng)村居民。
二是居民消費(fèi)水平因素。居民消費(fèi)水平的變化直接影響社零額,伴隨居民收入的增加和生活水平的提高,人們對(duì)美好生活的追求推動(dòng)消費(fèi)結(jié)構(gòu)升級(jí),改善型、高端型消費(fèi)需求持續(xù)涌現(xiàn),拉動(dòng)社零額不斷增長。
三是價(jià)格因素。消費(fèi)市場產(chǎn)業(yè)鏈較長,價(jià)格傳導(dǎo)特點(diǎn)明顯,即上中下游任一環(huán)節(jié)的價(jià)格變化,都會(huì)影響最終消費(fèi)品的定價(jià),進(jìn)而影響社零額。
基于上述分析,我們以北京市統(tǒng)計(jì)局官網(wǎng)公布的數(shù)據(jù)為基礎(chǔ),重點(diǎn)選取3個(gè)影響社零額的變量,即常住人口規(guī)模、城鎮(zhèn)居民人均可支配收入和居民消費(fèi)價(jià)格指數(shù),以月度為單位(2008年1月—2019年12月)構(gòu)建各指標(biāo)時(shí)間序列數(shù)據(jù)。
由于各指標(biāo)統(tǒng)計(jì)頻率不盡相同,本文對(duì)4個(gè)變量數(shù)據(jù)分別進(jìn)行處理:(1)根據(jù)公布的2005—2008年社零額1月和2月數(shù)據(jù)①根據(jù)國家統(tǒng)計(jì)局制度方法調(diào)整,2009年起,1—2月社會(huì)消費(fèi)品零售總額指標(biāo)按累計(jì)進(jìn)行統(tǒng)計(jì)。,分別計(jì)算社零額1月和2月平均占比情況,并根據(jù)統(tǒng)計(jì)經(jīng)驗(yàn),將2009—2019年社零額1—2月累計(jì)數(shù)據(jù)換算成月度數(shù)據(jù);(2)采用差值法,按月均增速變化對(duì)常住人口規(guī)模進(jìn)行增補(bǔ),形成月度數(shù)據(jù);(3)根據(jù)公布的2005—2007年城鎮(zhèn)居民可支配收入月度數(shù)據(jù)②根據(jù)國家統(tǒng)計(jì)局制度方法調(diào)整,2008年起,居民收支數(shù)據(jù)按季度統(tǒng)計(jì)。,分別計(jì)算各月城鎮(zhèn)居民可支配收入平均占比(本年),將2008—2019年城鎮(zhèn)居民可支配收入的季度數(shù)據(jù)和月度累計(jì)數(shù)據(jù)換算成月度數(shù)據(jù);(4)將居民消費(fèi)價(jià)格指數(shù)進(jìn)行定基處理。
1.LSTM模型
LSTM是一種改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN)。RNN模型因?yàn)榭赡馨l(fā)生梯度消失現(xiàn)象所以只能短期記憶。LSTM在每個(gè)序列索引t時(shí)刻向前傳播的信息除了和RNN一樣的ht外,還多了一個(gè)細(xì)胞狀態(tài)Ct,并通過遺忘門、輸入門和輸出門三種門控狀態(tài)來控制傳輸狀態(tài),可以記住需要長時(shí)間記憶的信息,忘記不重要的信息。LSTM結(jié)構(gòu)及表達(dá)式如下:
(1)遺忘門
遺忘門決定從細(xì)胞狀態(tài)中丟棄的信息。表達(dá)式為:
(2)輸入門
輸入門決定加入細(xì)胞狀態(tài)中的新信息。表達(dá)式為:
(3)輸出門
輸出門確定最終的輸出值。表達(dá)式為:
其中,ft表示需要記憶的信息比例;σ表示sigmoid激活函數(shù);W與b分別表示權(quán)重與偏置;ht-1表示上一序列的輸出;xt表示本序列輸入;it表示需要更新的信息比例;表示更新的細(xì)胞信息;Ct-1表示上一序列的細(xì)胞狀態(tài);Ct表示本序列的細(xì)胞狀態(tài);ot表示需要輸出的信息比例;ht表示本序列的輸出。
2.SARIMA模型
SARIMA模型在ARIMA模型的基礎(chǔ)上增加了對(duì)季節(jié)性因素的預(yù)測,加入季節(jié)性自回歸、季節(jié)性移動(dòng)平均和季節(jié)差分算子,轉(zhuǎn)換為SARIMA(p,d,q)×(P,D,Q)S模型,其表達(dá)式為:
其中,Yt為在時(shí)刻t下待預(yù)測的時(shí)間序列觀測值;S為季節(jié)周期長度(月度數(shù)據(jù)S=12);c為常量;∈t為殘差序列;B表示延遲或滯后算子,是原始時(shí)間序列觀測值Xt滯后k個(gè)周期的符號(hào)化體現(xiàn);φρ(B)表示p階自回歸算子;θq(B)表示q階移動(dòng)平均算子;(1-B)d表示d階差分得到的非季節(jié)性平穩(wěn)序列;Φρ(BS)表示P階季節(jié)性自回歸算子;ΘQ(BS)表示Q階季節(jié)性移動(dòng)平均算子;(1-BS)D表示D階季節(jié)差分得到的季節(jié)性平穩(wěn)序列。
我們選取均方根誤差(RMSE)和平均絕對(duì)百分比誤差(MAPE)兩個(gè)評(píng)價(jià)指標(biāo)度量模型的預(yù)測能力。其中,RMSE偏向于呈現(xiàn)模型整體的預(yù)測效果,常用于機(jī)器學(xué)習(xí)模型預(yù)測結(jié)果衡量的標(biāo)準(zhǔn),值越小表示預(yù)測效果越好。但由于社零額數(shù)據(jù)量級(jí)較大,而測試集數(shù)據(jù)樣本較小,因此本文利用MAPE指標(biāo)(值越小表示預(yù)測效果越好),通過計(jì)算誤差在真實(shí)值中的占比情況,比較不同模型的預(yù)測準(zhǔn)確性,進(jìn)一步分析各模型預(yù)測效果。
其中,yi是第i個(gè)測試樣本的真實(shí)值,是第i個(gè)測試樣本的預(yù)測值,n代表測試樣本數(shù)量。
本文通過建立單變量SARIMA模型、單變量LSTM模型和多變量LSTM模型預(yù)測社零額。其中,單變量SARIMA模型、單變量LSTM模型只考慮社零額的時(shí)間序列數(shù)據(jù);多變量LSTM模型引入影響社零額的3個(gè)變量,對(duì)社零額進(jìn)行預(yù)測。
基于R語言,選取2008年1月—2019年12月的社零額數(shù)據(jù),其中,利用2008年1月—2018年12月社零額建立SARIMA模型,取2019年1—12月社零額作為測試集。第一步,通過ADF單位根檢驗(yàn)對(duì)原始序列進(jìn)行平穩(wěn)化處理,初步確定模型的差分d=1,季節(jié)性差分D=1。第二步,繪制平穩(wěn)化序列的ACF和PACF圖,初步確定p、q、P、Q的取值范圍。第三步,采用低階到高階逐步實(shí)驗(yàn)的方法,根據(jù)AIC準(zhǔn)則檢驗(yàn)和Ljung-Box檢驗(yàn),確定擬合度最優(yōu)模型SARIMA(1,1,1)×(0,1,0)12,預(yù)測出 2019年 1—12月社零額。
1.單變量LSTM模型預(yù)測。基于Python語言,利用單變量LSTM模型進(jìn)行預(yù)測,選取2008年1月—2019年12月的社零額數(shù)據(jù)。第一步對(duì)數(shù)據(jù)進(jìn)行歸一化處理。第二步取2008年1月—2018年12月的社零額數(shù)據(jù)作為訓(xùn)練集,取2019年1—12月的社零額數(shù)據(jù)作為測試集。由于LSTM具有記憶功能,本文在構(gòu)建模型時(shí)將時(shí)間階數(shù)設(shè)置為12,即認(rèn)為每一時(shí)期的社零額與它前面12期(即1年)的社零額是相關(guān)的。故我們令模型的輸出變量yt為每一時(shí)期t的社零額數(shù)據(jù),令模型的輸入變量Xt為它前面相鄰12期的社零額數(shù)據(jù),進(jìn)而預(yù)測出單變量LSTM模型中2019年1—12月社零額。
2.多變量LSTM模型預(yù)測。對(duì)多變量LSTM模型,選擇2008年1月—2019年12月的社零額、常住人口規(guī)模、城鎮(zhèn)居民人均可支配收入和居民消費(fèi)價(jià)格指數(shù)數(shù)據(jù)。建模步驟與單變量LSTM模型基本一致,其中,令模型的輸出變量yt為每一時(shí)期t的社零額數(shù)據(jù),令模型的輸入變量Xt為它前面相鄰12期的社零額、常住人口規(guī)模、城鎮(zhèn)居民人均可支配收入和居民消費(fèi)價(jià)格指數(shù)數(shù)據(jù)。由于該模型引入了影響社零額的3個(gè)變量,我們先將3個(gè)變量2008年1月—2018年12月的數(shù)據(jù)作為訓(xùn)練集,分別建立單變量LSTM模型,預(yù)測出3個(gè)變量2019年1—12月的值,進(jìn)而預(yù)測多變量LSTM模型中2019年1—12月的社零額。
利用模型評(píng)價(jià)指標(biāo),通過對(duì)模型效果的預(yù)測進(jìn)行比對(duì)(見表1),可以得出如下結(jié)論:
表1 各模型預(yù)測效果對(duì)比
1.LSTM模型的預(yù)測效果好于SARIMA模型。單變量LSTM模型的RMSE指標(biāo)值小于單變量SARIMA模型,即單變量LSTM模型在精準(zhǔn)性和穩(wěn)定性上優(yōu)于單變量SARIMA模型。同時(shí),單變量LSTM模型MAPE指標(biāo)值更小,可以得出,基于本文數(shù)據(jù)建立的單變量LSTM模型效果好于單變量SARIMA模型,即在數(shù)據(jù)顆粒度較粗、數(shù)據(jù)量較小的情況下,LSTM模型仍能顯示出較好的預(yù)測效果。
2.多變量模型優(yōu)于單變量模型。單變量和多變量LSTM模型的MAPE指標(biāo)值相近,多變量LSTM模型RMSE指標(biāo)值小于單變量LSTM模型,可以得出,基于本文數(shù)據(jù)建立的多變量LSTM模型在測試集上的預(yù)測效果好于單變量LSTM模型,引入的3個(gè)變量對(duì)社零額均有顯著影響。
附圖 模型預(yù)測效果對(duì)比圖
結(jié)合模型預(yù)測對(duì)比分析結(jié)果,我們利用多變量LSTM模型,預(yù)測非新冠肺炎疫情影響下2020年北京市社零額月度變化情況,探討新冠肺炎疫情對(duì)北京市社零額的影響。
國家統(tǒng)計(jì)局根據(jù)第四次全國經(jīng)濟(jì)普查數(shù)據(jù)結(jié)果對(duì)全國及各省、自治區(qū)、直轄市2019年社會(huì)消費(fèi)品零售總額進(jìn)行了修訂,本文根據(jù)2019年公布的社零額數(shù)據(jù)和2020年社零額同比增速情況,對(duì)2020年社零額實(shí)際值進(jìn)行調(diào)整。
表2 2020年北京市社零額實(shí)際值與預(yù)測值比較
受新冠肺炎疫情影響,2020年1—8月,北京市社零額累計(jì)損失1012.8億元。其中,在疫情暴發(fā)初期,即較為嚴(yán)重的一季度,北京市社零額累計(jì)損失703億元,占累計(jì)總損失額的69.4%。隨著全國疫情防控形勢(shì)持續(xù)向好、北京市復(fù)工復(fù)產(chǎn)穩(wěn)步推進(jìn)、各類促消費(fèi)政策有序出臺(tái)等,2020年二季度以來,北京市社零額損失額逐月減少。2020年1—8月,北京市社零額實(shí)際值較預(yù)測值降低13.2%,降幅較2020年一季度收窄11.3個(gè)百分點(diǎn)。
本文以社零額指標(biāo)為例,通過傳統(tǒng)時(shí)間序列模型(SARIMA)和神經(jīng)網(wǎng)絡(luò)模型(LSTM),預(yù)測新冠肺炎疫情對(duì)北京市社零額的影響。在模型構(gòu)建上,引入多維變量,建立多變量LSTM模型。模型預(yù)測結(jié)果顯示,基于本文建立的時(shí)間序列數(shù)據(jù),LSTM模型可以發(fā)揮神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì),預(yù)測效果優(yōu)于SARIMA模型。多變量LSTM模型的預(yù)測效果優(yōu)于單變量LSTM模型,且引入的3個(gè)變量對(duì)社零額有顯著影響。最后,利用擬合度較好的多變量LSTM模型,對(duì)2020年北京市社零額排除新冠肺炎疫情影響進(jìn)行預(yù)測,結(jié)果表明,疫情對(duì)北京市社零額的負(fù)面影響逐漸減弱。
長短期記憶模型在處理復(fù)雜數(shù)據(jù)的應(yīng)用效果普遍優(yōu)于傳統(tǒng)時(shí)間序列模型,但在處理低頻率數(shù)據(jù)上較難體現(xiàn)其優(yōu)勢(shì)。本文引入多維變量,通過優(yōu)化調(diào)整模型參數(shù),證明了長短期記憶模型在處理傳統(tǒng)時(shí)間序列數(shù)據(jù)方面仍可發(fā)揮較好的預(yù)測效果,為提升傳統(tǒng)統(tǒng)計(jì)模型預(yù)測的準(zhǔn)確性提供了經(jīng)驗(yàn)。