施怡
摘要:針對(duì)近年來(lái),全國(guó)各地碩士研究生報(bào)名人數(shù)穩(wěn)增不減的情況,利用R語(yǔ)言以及時(shí)間序列相關(guān)分析,結(jié)合近20年的全國(guó)碩士研究生報(bào)名人數(shù)數(shù)據(jù)采用ARIMA建立模型進(jìn)行分析研究。根據(jù)實(shí)驗(yàn)尋找恰當(dāng)?shù)腁RIMA模型并對(duì)未來(lái)三年全國(guó)碩士研究生報(bào)名人數(shù)進(jìn)行預(yù)測(cè)。從預(yù)測(cè)結(jié)果可以發(fā)現(xiàn)研究生考試已逐步成為大四畢業(yè)生的首要選擇。
關(guān)鍵詞:ARIMA模型;差分;時(shí)間序列分析;平穩(wěn)
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1009-3044(2018)08-0212-03
十九大報(bào)告,對(duì)教育方面做出了詳細(xì)說(shuō)明。近年來(lái),隨著研究生招生規(guī)模的逐漸擴(kuò)大,報(bào)名參加碩士研究生考試的人數(shù)也逐年增加。大多數(shù)關(guān)于研究生的文章是以研究生的現(xiàn)狀、研究生的教育、研究生的就業(yè)等方面為主題。就目前新聞熱點(diǎn)而言,全國(guó)碩士研究生報(bào)名人數(shù)的增長(zhǎng)問(wèn)題也是一熱門話題。報(bào)考人數(shù)與錄取人數(shù)也存在著極大差異。本文就對(duì)近20年的全國(guó)碩士研究生報(bào)名人數(shù)為主線,研究運(yùn)用ARIMA模型預(yù)測(cè)未來(lái)三年全國(guó)碩士研究生報(bào)名人數(shù),分析其變化。
利用R語(yǔ)言軟件選擇最優(yōu)模型,提高預(yù)測(cè)的準(zhǔn)確性。
1資料與方法
1.1資料來(lái)源
本研究數(shù)據(jù)資料來(lái)源于考研幫以及部分考研信息網(wǎng)址,使用的數(shù)據(jù)資料包括1995—2018年全國(guó)碩士研究生報(bào)名人數(shù)。
1.2研究方法
運(yùn)用時(shí)間序列中的ARIMA模型。ARIMA(p,d,q),p為自回歸階數(shù),d為時(shí)間序列稱為平穩(wěn)序列進(jìn)行差分的階數(shù),q為移動(dòng)平均階數(shù),其一般表達(dá)式為
運(yùn)用ARIMA模型建立模型通常從以下三個(gè)方面出發(fā):(1)時(shí)間序列平穩(wěn)化處理:根據(jù)時(shí)間序列趨勢(shì)圖,如果所得出的時(shí)間序列不是平穩(wěn)時(shí)間序列,應(yīng)當(dāng)采用差分的方法將原時(shí)間序列變?yōu)槠椒€(wěn)時(shí)間序列,幾階差分需要通過(guò)單方根檢驗(yàn)得出最優(yōu)差分階數(shù)d。(2)模型參數(shù)估計(jì)與檢驗(yàn):根據(jù)自相關(guān)函數(shù)圖(ACF)與偏相關(guān)函數(shù)圖(PACF)的拖尾與截尾的性質(zhì),通過(guò)由低階到高階的嘗試,選取最優(yōu)的模型參數(shù)值;并進(jìn)行殘差的白噪聲檢驗(yàn),選擇合適的模型;如果未通過(guò)檢驗(yàn),應(yīng)當(dāng)重新選擇模型。(3)模型預(yù)測(cè):運(yùn)用選擇的適當(dāng)?shù)腁RIMA模型對(duì)未來(lái)三年全國(guó)碩士研究生報(bào)名人數(shù)進(jìn)行預(yù)測(cè)并分析。
2結(jié)果
2.1根據(jù)資料列出1995—2018年全國(guó)碩士研究生報(bào)名人數(shù)的表格
1995—2018年全國(guó)碩士研究生報(bào)名人數(shù)如表1所示。根據(jù)表1,運(yùn)用R語(yǔ)言中的繪圖程序,繪制全國(guó)碩士研究生隨時(shí)間的趨勢(shì)圖。由圖1可以得出,1995—2018年全國(guó)碩士研究生報(bào)名人數(shù)總體上呈上升趨勢(shì),由1995年的15.5萬(wàn)人上升到2018年的238萬(wàn)人(見(jiàn)表1),年平均增長(zhǎng)率為12.1%。
2.2時(shí)間序列平穩(wěn)化處理
由圖1提供的信息非常明確,1995—2018年全國(guó)碩士研究生報(bào)名人數(shù)這樣的時(shí)間序列有明顯的遞增趨勢(shì),所以它一定不是平穩(wěn)序列。因此需要將原始的數(shù)據(jù)進(jìn)行差分運(yùn)算。
進(jìn)行差分遵循從小到大這一特點(diǎn),故現(xiàn)對(duì)該時(shí)間序列進(jìn)行1階差分運(yùn)算,得出如圖2所示的趨勢(shì)圖。
1階差分時(shí)間序列圖顯示,1階差分處理后的數(shù)據(jù)增減趨勢(shì)較為平穩(wěn),但是依據(jù)數(shù)據(jù)最優(yōu)化及準(zhǔn)確性原則,需要對(duì)1階差分后的時(shí)間序列再做一次差分運(yùn)算。
故現(xiàn)對(duì)該序列進(jìn)行2階差分運(yùn)算。
在理論上,足夠多的差分運(yùn)算可以充分提取原時(shí)間序列中的非平穩(wěn)確定性信息。但進(jìn)行差分運(yùn)算需要注意的是,差分運(yùn)算的階數(shù)不是越多越好。差分是對(duì)信息的提取、加工的過(guò)程,每次差分都會(huì)有信息的損失,所以差分的階數(shù)需要適當(dāng),以免過(guò)度差分。
差分后的時(shí)間序列是否平穩(wěn),可以通過(guò)對(duì)差分后的時(shí)間序列進(jìn)行單位根檢驗(yàn)以此來(lái)判斷差分的階數(shù)是否最優(yōu)。通過(guò)R語(yǔ)言可以迅速得出,報(bào)名人數(shù)在1階差分有常數(shù)均值下和2階差分下ADF檢驗(yàn)P值均小于0.05,則差分兩次后的時(shí)間序列均為平穩(wěn)序列,參數(shù)d的選取需要考慮1與2兩個(gè)值。
2.3模型選擇與參數(shù)估計(jì)
以上是對(duì)差分階數(shù)d的選擇,而在ARIMA模型中參數(shù)p與q也需要進(jìn)行選擇。時(shí)間序列的自相關(guān)系數(shù)(ACF)與偏自相關(guān)系數(shù)(PACF)可以判斷參數(shù)p與q。
對(duì)平穩(wěn)后的時(shí)間序列,即對(duì)1階與2階差分處理后的時(shí)間序列繪制自相關(guān)圖與偏自相關(guān)圖。
一階差分后的自相關(guān)圖顯示滯自相關(guān)值基本沒(méi)有超過(guò)邊界值,雖然1階與3階自相關(guān)值超出邊界,那么很可能屬于偶然出現(xiàn)的,而自相關(guān)值在其他上都沒(méi)有超出顯著邊界。偏自相關(guān)圖顯示除去1階基本上也沒(méi)有超過(guò)邊界值??梢钥紤]p=2,q=0,即ARIMA(2,1,0)模型。
二階差分后的自相關(guān)圖與偏自相關(guān)圖顯示沒(méi)有超過(guò)邊界值。那么此時(shí)選擇ARIMA(p,d,q)模型進(jìn)行預(yù)測(cè)時(shí),參數(shù)根據(jù)0,1,2從低階到高階選擇,根據(jù)AIC準(zhǔn)則作為選擇最優(yōu)值模型(表2)。
根據(jù)比較發(fā)現(xiàn)模型ARIMA(2,2,1)的AIC=160.44最小,則此模型最好。對(duì)殘差序列進(jìn)行白噪聲檢驗(yàn),得出P值=0.9165>0.05,殘差序列白噪聲檢驗(yàn)說(shuō)明模型顯著成立。ARIMA(2,2,1)模型對(duì)該時(shí)間序列擬合成功。
2.4模型預(yù)測(cè)
運(yùn)用上述得到的ARIMA(2,2,1)模型對(duì)全國(guó)碩士研究生報(bào)名人數(shù)(表3)及置信水平分別為80%和90%雙層置信區(qū)間進(jìn)行預(yù)測(cè),并給出預(yù)測(cè)圖(圖6)。
對(duì)于2019年報(bào)名人數(shù)的預(yù)測(cè)266萬(wàn)相比前一年只增加了28萬(wàn)人,而2018年與2017年相差37萬(wàn),二者相比可能存在不足。增長(zhǎng)的速度有所下降。
3結(jié)論
以上是對(duì)全國(guó)碩士研究生報(bào)名人數(shù)的數(shù)據(jù)分析研究,主要使用R語(yǔ)言的時(shí)間序列分析方法,繪制時(shí)間序列圖,檢驗(yàn)其是否為平穩(wěn)序列,非平穩(wěn)序列進(jìn)行差分處理,直到平穩(wěn)為止。然后使用ARIMA方法進(jìn)行分析建模,再進(jìn)一步完成預(yù)測(cè)。
通過(guò)ARIMA模型進(jìn)行分析,在進(jìn)行差分處理時(shí),需要考慮多方面因素,選擇較好的階數(shù)進(jìn)行判斷。在全國(guó)碩士研究生報(bào)名人數(shù)上的分析可以看出,全國(guó)碩士報(bào)名已逐漸占據(jù)大四畢業(yè)生的選擇方式,且有越來(lái)越多的學(xué)生報(bào)名碩士考試。