張敬信 秦蔚瑤 羅志坤
【摘? 要】黑龍江省自2005年進(jìn)入人口老齡化階段并且人口老齡化趨勢(shì)越來(lái)越嚴(yán)重,由此產(chǎn)生的影響需要全社會(huì)為此做出相應(yīng)的措施。本文搜集黑龍江省1982年~2019年的65歲及以上老年人口數(shù)據(jù),分別用常規(guī)指數(shù)平滑模型ETS(A,A,N)和基于Bootstrap和Bagging的ETS(A,A,N)模型,對(duì)老齡人口變化規(guī)律進(jìn)行建模,預(yù)測(cè)黑龍江省未來(lái)5年老齡化人口數(shù),并從提高生育率和減少人口流失兩個(gè)視角題出了緩解黑龍江人口老齡化問(wèn)題的建議。
【關(guān)鍵詞】Bootstrap;Bagging,;時(shí)間序列;指數(shù)平滑法;老齡人口
引言
全國(guó)第七次人口普查數(shù)據(jù)表明,我國(guó)60歲以上人口占人口總數(shù)的13.50%,人口老齡化程度進(jìn)一步加深。面對(duì)我國(guó)人口老齡化這一不可逆轉(zhuǎn)的過(guò)程,黨和政府高度重視,《“十四五”規(guī)劃綱要》提出,我國(guó)要實(shí)施積極應(yīng)對(duì)人口老齡化戰(zhàn)略,完善公共服務(wù)體系,促進(jìn)人口長(zhǎng)期均衡發(fā)展。近年來(lái),有很多文章研究人口老齡化問(wèn)題。黑龍江自2005年進(jìn)入人口老齡化社會(huì),雖晚于全國(guó)時(shí)間,但老齡化速度非???。在此背景下,明確黑龍江人口老齡化趨勢(shì),對(duì)政策和計(jì)劃的制定具有前瞻性意義。
Bootstrap法也稱(chēng)為自助重抽樣,其基本思想是:樣本是從總體中隨機(jī)抽取的,則包含總體的全部信息,那么不妨就把該樣本視為”總體”,進(jìn)行多次有放回抽樣生成一系列經(jīng)驗(yàn)樣本,再對(duì)每個(gè)經(jīng)驗(yàn)樣本計(jì)算統(tǒng)計(jì)量,就可以得到統(tǒng)計(jì)量的分布,進(jìn)而用于統(tǒng)計(jì)推斷。可以證明,在初始樣本量足夠大且是從總體中隨機(jī)抽取的情況下,自助重抽樣能夠無(wú)偏接近總體的分布。
時(shí)間序列數(shù)據(jù)可用于預(yù)測(cè)未來(lái)值的數(shù)據(jù)有限,預(yù)測(cè)精度很受影響。借助Bootstrap法,可以模擬出很多個(gè)具有相似分布的時(shí)間序列數(shù)據(jù),分別在各個(gè)時(shí)間序列數(shù)據(jù)上進(jìn)行建模并得到多個(gè)預(yù)測(cè)結(jié)果,再將多個(gè)預(yù)測(cè)結(jié)果按集成學(xué)習(xí)中的Bagging法合成,得到最終預(yù)測(cè),將有效地提高時(shí)間序列模型的預(yù)測(cè)準(zhǔn)確性。
Bagging也稱(chēng)為“裝袋法”是機(jī)器學(xué)習(xí)的集成學(xué)習(xí)的一種常用策略,是用“有放回”抽樣方式(即Bootstrap法)抽取訓(xùn)練集,對(duì)于包含個(gè)樣本的訓(xùn)練集,進(jìn)行次有放回的隨機(jī)抽樣操作,得到樣本子集(有重復(fù))中有接近36.8%的樣本沒(méi)有被抽到。按照同樣的方式重復(fù)進(jìn)行,就可以采集到個(gè)包含個(gè)樣本的數(shù)據(jù)集,從而訓(xùn)練出個(gè)基學(xué)習(xí)器。最終對(duì)這個(gè)基學(xué)習(xí)器的輸出進(jìn)行結(jié)合,分類(lèi)問(wèn)題就采用“多數(shù)決”,回歸問(wèn)題就采用“取平均”。比如隨機(jī)森林就是自助重抽樣若干個(gè)子樣本,訓(xùn)練多棵CART樹(shù),將多個(gè)預(yù)測(cè)結(jié)果做“多數(shù)決/取平均”得到最終預(yù)測(cè),模型性能比CART樹(shù)有顯著的提升。
本文嘗試將上述Bootstrap和Bagging思想用于時(shí)間序列模型。
1.基于Bootstrap和Bagging時(shí)間序列模型
經(jīng)典的時(shí)間序列模型包括:確定性分解(STL)、指數(shù)平滑法(ETS)、ARIMA。
按Bootstrap法生成多個(gè)相似的時(shí)間序列數(shù)據(jù),適合結(jié)合STL法來(lái)用。STL法認(rèn)為時(shí)間序列是受不同影響因素共同影響的疊加效果,故非平穩(wěn)時(shí)間序列可按下式確定性因素進(jìn)行分解:
其中,為原始時(shí)間序列,為趨勢(shì)部分,為季節(jié)部分、為剩余部分。
先對(duì)剩余部分進(jìn)行重洗牌(shuffled)得到自助的剩余序列,因?yàn)镾TL剩余序列中可能存在自相關(guān)性,所以不能使用普通的Bootstrap,而是采用“分塊Bootstrap”,即不是隨機(jī)抽樣單個(gè)值,而是隨機(jī)抽樣時(shí)間序列的連續(xù)片段,再合并到一起,這樣就會(huì)保持原來(lái)的短期依賴結(jié)構(gòu)。這樣得到的Bootstrap剩余序列加上趨勢(shì)部分和季節(jié)部分,再做反向變換就得到與原始時(shí)間序列相似的模擬序列。
圖1展示了Bootstrap時(shí)間序列的一種常用做法分塊Bootstrap,需要說(shuō)明的是,本文并不是直接對(duì)原時(shí)間序列,而是對(duì)其分解的剩余部分做分塊Bootstrap.
基于Bootstrap法得到的模擬時(shí)間序列,一種用途是提高預(yù)測(cè)準(zhǔn)確性。具體來(lái)說(shuō),是采用Bagging法思想:從每個(gè)時(shí)間序列生成預(yù)測(cè),并對(duì)得到的預(yù)測(cè)求平均,作為最終預(yù)測(cè)。這與簡(jiǎn)單地直接用原始時(shí)間序列得到預(yù)測(cè)相比,可以獲得更好的預(yù)測(cè)。
每個(gè)時(shí)間序列預(yù)測(cè)采用指數(shù)平滑法建模,指數(shù)平滑法包含很多種類(lèi),fpp3包中的ETS()函數(shù)能夠根據(jù)AICc值(小樣本偏差做修正的AIC,評(píng)估模型好壞的指標(biāo))自動(dòng)選擇最優(yōu)的指數(shù)平滑模型,對(duì)于本文的老齡人口數(shù)據(jù),選出的最優(yōu)模型是帶加法誤差的Holt線性趨勢(shì)模型ETS(A,A,N):
其中,表示時(shí)刻的序列水平,表示時(shí)刻的斜率,為平滑系數(shù),
綜上,基于Bootstrap和Bagging時(shí)間序列模型的算法步驟:
(1)用原始時(shí)間序列生成個(gè)Bootstrap模擬時(shí)間序列
(2)對(duì)每個(gè)模擬時(shí)間序列,分別用ETS(A,A,N)模型建模,得到預(yù)測(cè)
(3)按Bagging法取平均得到最終預(yù)測(cè)
2.實(shí)證分析
本文使用最新4.1.0版本的R語(yǔ)言軟件和專(zhuān)門(mén)做時(shí)間序列分析的fpp3包(0.4.0)實(shí)現(xiàn)。
從《黑龍江統(tǒng)計(jì)年鑒》獲取1986-2019年黑龍江省的總?cè)丝诤屠淆g人口數(shù)據(jù)(65歲及以上人口數(shù)),并計(jì)算老齡人口占比,繪制點(diǎn)線圖。
由圖2可見(jiàn),黑龍江省的老齡人口和老齡人口占比基本相似的具有明顯的逐年上升趨勢(shì)。2019年黑龍江省老齡人口占比已達(dá)到13.75%, 并且沒(méi)有放緩的趨勢(shì),老齡化問(wèn)題是非常嚴(yán)峻的。
2.1常規(guī)指數(shù)平滑預(yù)測(cè):ETS(A,A,N)模型
先只對(duì)原始時(shí)間序列自動(dòng)ETS建模,R代碼:
運(yùn)行結(jié)果表明,自動(dòng)選擇ETS(A,A,N)模型,模型的AICc值=270.7287;模型光滑參數(shù)估計(jì)值; 初始狀態(tài)值, 預(yù)測(cè)方差. 帶入(2)式就可以得到該時(shí)間序列的預(yù)測(cè)過(guò)程:
2.2基于Bootstrap和Bagging的ETS(A,A,N)模型
先用Bootstrap法生成模擬時(shí)間序列。以老齡人口數(shù)據(jù)作為原始時(shí)間序列數(shù)據(jù),用tsibble()函數(shù)創(chuàng)建為年度時(shí)間序列對(duì)象,再用model()+STL()函數(shù)做STL分解,下面給出其圖形展示(圖3):
圖3的上子圖是原始時(shí)間序列,中子圖是趨勢(shì)序列,下子圖是剩余序列。注意,未包含季節(jié)序列,因?yàn)樵紩r(shí)間序列沒(méi)有周期性。
接下來(lái),用generate()函數(shù)實(shí)現(xiàn)“分塊塊Bootstrap法”生成多個(gè)自助抽樣時(shí)間序列,需要提供模擬次數(shù)和塊長(zhǎng)度,并用new_data參數(shù)傳入原始序列以保持相同時(shí)間索引。以塊長(zhǎng)度為4生成10個(gè)抽樣時(shí)間序列為例,可視化模擬效果(圖4):
黑色曲線是原始時(shí)間序列,彩色曲線是模擬的時(shí)間序列。本文原始時(shí)間序列比較平滑,若原始序列有較多的波動(dòng),模擬序列也能很好地模擬相應(yīng)的波動(dòng)。
本文采用上述Bootstrap法模擬100個(gè)時(shí)間序列:
df_stl = model(df, stl = STL(old))? ?# 先做STL分解
set.seed(123)? ? ? ? ? ? ? ? ? ?# 讓抽樣結(jié)果可重現(xiàn)
sim = df_stl %>%
generate(new_data = df, times = 100,
bootstrap_block_size = 4) %>%
select(-.model, -old)
接著對(duì)這100個(gè)模擬序列分別擬合ETS模型,并預(yù)測(cè)未來(lái)5年老齡人口:
ets_forecasts = sim %>%
model(ets = ETS(.sim)) %>%
forecast(h = 5)
得到的結(jié)果是未來(lái)5年每一年都有100個(gè)預(yù)測(cè)值。
根據(jù)Bagging法,對(duì)各組100個(gè)預(yù)測(cè)值取平均,得到最終預(yù)測(cè):
summarise(ets_forecasts, pre = mean(.mean))
并可視化預(yù)測(cè)結(jié)果(代碼略)
圖5中藍(lán)色線為常規(guī)ETS(A,A,N)模型預(yù)測(cè),紅色線為基于Bootstrap和Bagging的ETS(A,A,N)模型預(yù)測(cè),藍(lán)色陰影區(qū)域?yàn)?5%和80%置信區(qū)間。兩種預(yù)測(cè)方法的結(jié)果如表1所示:
3.政策建議
通過(guò)對(duì)黑龍江省老齡化人口進(jìn)行實(shí)證分析,構(gòu)建常規(guī)指數(shù)平滑模型ETS(A,A,N)和基于Bootstrap和Bagging的ETS(A,A,N)模型預(yù)測(cè)未來(lái)5年黑龍江人口老齡化趨勢(shì),預(yù)測(cè)結(jié)果表明:未來(lái)5年,黑龍江人口老齡化程度將進(jìn)一步加深,65歲老年人口數(shù)將持續(xù)穩(wěn)定上升。
基于此,結(jié)合我國(guó)基本國(guó)情和黑龍江省具體情況,本文提出以下建議:
(1)適度提高生育率,避免產(chǎn)生勞動(dòng)力短缺。人口老齡化不斷加深會(huì)造成勞動(dòng)力供給不足,而適當(dāng)提高生育水平有助于緩解這一局面。我國(guó)已實(shí)行“放開(kāi)二孩”
政策,據(jù)此進(jìn)一步增強(qiáng)政策包容性,推動(dòng)生育政策與經(jīng)濟(jì)社會(huì)銜接,可促進(jìn)政策潛力的釋放,改善人口結(jié)構(gòu),消除人口老齡化帶來(lái)的負(fù)面影響。
(2)充分發(fā)揮本地人力資本,避免人口流失。黑龍江省經(jīng)濟(jì)發(fā)展環(huán)境使得人才逐漸流失,適齡勞動(dòng)力的流失和老年勞動(dòng)資源的不足,又進(jìn)一步阻礙了黑龍江省的經(jīng)濟(jì)發(fā)展。因此,一方面可借鑒發(fā)達(dá)國(guó)家經(jīng)驗(yàn),實(shí)行彈性退休機(jī)制,鼓勵(lì)退休老人再就業(yè),有效利用老年人力資本;另一方面制定符合本省的人才福利政策,優(yōu)化產(chǎn)業(yè)結(jié)構(gòu),吸引人才回流,充分發(fā)揮人力資本對(duì)經(jīng)濟(jì)增長(zhǎng)的促進(jìn)作用。(通訊作者:張敬信)
參考文獻(xiàn)
[1]王曉峰,張正云.東北地區(qū)人力資本問(wèn)題及其對(duì)經(jīng)濟(jì)發(fā)展的長(zhǎng)期影響研究[J].經(jīng)濟(jì)縱橫,2016(01):60-64.
[2]都陽(yáng),封永剛.人口快速老齡化對(duì)經(jīng)濟(jì)增長(zhǎng)的沖擊[J].經(jīng)濟(jì)研究,2021,56(02):71-88.
[3]杜鵬,李龍.新時(shí)代中國(guó)人口老齡化長(zhǎng)期趨勢(shì)預(yù)測(cè)[J].中國(guó)人民大學(xué)學(xué)報(bào),2021,35(01):96-109.
[4]敖榮軍,常亮.基于結(jié)構(gòu)方程模型的中國(guó)縣域人口老齡化影響機(jī)制[J].地理學(xué)報(bào),2020,75(08):1572-1584.
[5]張芳,孟昭為.Bootstrap法對(duì)時(shí)間序列問(wèn)題預(yù)測(cè)區(qū)間的修正[J].山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,24(04):12-14.
[6]徐繼偉,楊云.集成學(xué)習(xí)方法:研究綜述[J].云南大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,40(06):1082-1092.
[7]Hyndman, R.J., & Athanasopoulos, G. (2021) Forecasting: principles and practice, 3rd edition, OTexts: Melbourne, Australia. OTexts.com/fpp3.
基金項(xiàng)目:黑龍江省哲學(xué)社科青年項(xiàng)目:全面二孩政策對(duì)黑龍江省人口的影響及對(duì)策研究,項(xiàng)目編號(hào):17TJC134
作者簡(jiǎn)介:
通訊作者:張敬信(1982-),男,河北保定人,哈爾濱商業(yè)大學(xué)基礎(chǔ)科學(xué)學(xué)院副教授,基礎(chǔ)數(shù)學(xué)博士,研究方向?yàn)閿?shù)學(xué)模型、數(shù)據(jù)挖掘、人口就業(yè)等。
秦蔚瑤(1998-),女,漢族,山西晉城人,研究生,應(yīng)用統(tǒng)計(jì)碩士,研究方向?yàn)閼?yīng)用統(tǒng)計(jì)。
羅志坤(1984-),男,河南周口人,哈爾濱商業(yè)大學(xué)基礎(chǔ)科學(xué)學(xué)院講師,基礎(chǔ)數(shù)學(xué)博士,研究方向?yàn)閿?shù)學(xué)模型、商業(yè)經(jīng)濟(jì)等。