張艷輝,殷向宇,閆 亮
(河北經(jīng)貿(mào)大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)學(xué)院,河北 石家莊 050061)
隨著經(jīng)濟發(fā)展和社會進步,人們的投資意識開始轉(zhuǎn)變,越來越多的人開始關(guān)注金融投資市場。如何對金融投資市場進行分析和預(yù)測,進而幫助投資者進行決策是當(dāng)前的熱點問題。
目前許多學(xué)者對金融投資市場進行了預(yù)測研究。一些學(xué)者使用單一模型進行預(yù)測。Harsha等[1]通過構(gòu)建ARMA模型對股票價格進行了預(yù)測。王雨晨[2]對上證指數(shù)收盤價構(gòu)建了ARIMA模型并進行預(yù)測。徐珺[3]對黃金期貨價格進行平穩(wěn)化處理,然后對其建立ARMA模型并進行預(yù)測。徐涇[4]對滬深300指數(shù)收益率進行研究,結(jié)果表明GARCH族模型可有效擬合證券投資市場波動特征。由于組合模型能同時兼顧數(shù)據(jù)線性和非線性特征,更多學(xué)者將ARMA模型與GARCH模型結(jié)合對金融數(shù)據(jù)進行預(yù)測。Yaziz等[5]通過建立ARIMA-TGARCH模型對黃金價格進行了預(yù)測。楊琦和曹顯兵[6]通過構(gòu)建ARMA-GARCH模型對大眾公用股票價格進行了分析和預(yù)測。王莉[7]基于深圳綜指擬合了ARMAGARCH和ARMA-EGARCH兩種模型,發(fā)現(xiàn)前者更優(yōu)。潘雪艷[8]對黃金價格建立了ARIMA-GARCH模型并進行預(yù)測,取得了較精確的預(yù)測結(jié)果。
由于金融市場存在個別突出數(shù)據(jù)會對模型擬合產(chǎn)生影響,所以要考慮到異常值的存在。陳立等[9]在分析黃金定價數(shù)據(jù)時進行了異常值的檢測。但是,經(jīng)了解,尚未有學(xué)者把異常值加入ARMA-GARCH模型之中。因此,為進一步提高對金融數(shù)據(jù)的預(yù)測精度,本文除了考慮到ARMA模型和GARCH模型分別處理線性和非線性數(shù)據(jù)的優(yōu)越性外,還考慮到異常值對模型的影響,將可加異常值以外生變量的形式加入ARMA-GARCH模型之中,以提高模型的預(yù)測精度。
ARMA(p,q)模型,即自回歸移動平均模型,是由美國統(tǒng)計學(xué)家Box和英國統(tǒng)計學(xué)家Jenkins提出的一種時間序列模型。它的一般形式可表示為:
式中:{εt}是白噪聲序列,p和q均為非負(fù)整數(shù)。
異常值是指一些不規(guī)則的觀測值,其出現(xiàn)可能源自測量誤差和復(fù)制誤差,也可能是源于基礎(chǔ)過程發(fā)生了突發(fā)的短期性變化。異常值可分為可加異常值(AO)和新息異常值(IO),本文主要介紹可加異常值。AO指的是基礎(chǔ)過程在時刻T時受到了可疊加性擾動。如果序列Yt在T時刻出現(xiàn)AO,那么序列就變?yōu)榱似渲袨橐粋€脈沖函數(shù),可表示為因此,Y′t還可表示為:
Engle在1982年首先提出了對金融數(shù)據(jù)中條件異方差進行處理的自回歸條件異方差(ARCH)模型,但當(dāng)參數(shù)過多時,ARCH模型往往不太適用。為解決此缺陷,Bollerslev在1986年提出了廣義自回歸條件異方差(GARCH)模型,該模型定義如下:
式中,f(t,Yt-1,Yt-2,…)為序列{Yt}的自回歸模型;為殘差序列;為殘差序列在t時刻的方差,反映了序列的條件異方差性。
金融數(shù)據(jù)受到多方面復(fù)雜因素的影響,往往具有極強的不確定性,通常表現(xiàn)出明顯的波動聚集現(xiàn)象。這時,如果僅用研究平穩(wěn)序列的ARMA模型來進行擬合,往往不恰當(dāng),而ARMA-GARCH模型同時考慮了誤差項的同方差和異方差分布。此外,本文還考慮金融數(shù)據(jù)受到突發(fā)事件的影響往往會產(chǎn)生異常值,而其也會影響模型的擬合效果,因此將AO納入ARMA-GARCH模型之中,建立了ARMA-AO-GARCH組合模型對金融收益率序列進行預(yù)測,具體建模步驟如圖1所示。
圖1 ARMA-AO-GARCH組合模型建模流程圖
本文采用均方根誤差(RMSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)三項統(tǒng)計學(xué)誤差指標(biāo)來評判ARMA-AO-GARCH模型的預(yù)測效果,各誤差指標(biāo)越小,模型預(yù)測效果越佳,具體表達(dá)式如下:
本文共選取兩個金融投資數(shù)據(jù)集進行實證分析,分別為上證指數(shù)收益率序列和黃金價格收益率序列。本文利用R軟件進行數(shù)據(jù)分析及模型建立與預(yù)測。
1.數(shù)據(jù)來源及說明
實例一選取了上證指數(shù)的相關(guān)數(shù)據(jù)進行實證研究。選取從2016年1月4日~2021年3月31日共1322個日收盤價格作為樣本,數(shù)據(jù)來源于網(wǎng)易財經(jīng)網(wǎng)站。由于收益率序列比價格序列具有更好的統(tǒng)計特征,對收盤價格序列計算收益率序列。定義Pt為第t個交易日的收盤價,則收益率rt為:rt=(Pt-Pt-1)/Pt-1,得到1321個收益率序列,將前1261個數(shù)據(jù)作為訓(xùn)練集建立模型并進行為期60天的預(yù)測,將后60個數(shù)據(jù)劃分為測試集來檢驗預(yù)測效果。
2.描述性分析
為了更清楚地了解上證指數(shù)收益率的變化趨勢,對其進行描述性分析。
由表1可知收益率序列的均值很小,大于0且?guī)缀鯙?,表明股票市場的投資回報率較低。偏度為-0.943164<0,故其為左偏分布。峰度為6.960956>3,說明其具有尖峰厚尾的特征,且左尾較厚。JB檢驗p值為0.000000,顯著地拒絕了該序列為正態(tài)分布的原假設(shè)。因此,在后續(xù)建模時可以優(yōu)先考慮更適用的學(xué)生t分布或GED分布。
表1 上證指數(shù)收益率的統(tǒng)計描述表
3.ARMA模型建立
首先對收益率序列進行ADF單位根檢驗,結(jié)果表明序列是平穩(wěn)的。然后進行純隨機檢驗(Box-Ljung test),結(jié)果表明該序列具有自相關(guān)性,判斷該序列為平穩(wěn)非白噪聲序列,可用ARMA模型擬合該序列。下面使用AUTO.ARIMA函數(shù)自動識別模型,該函數(shù)可根據(jù)AIC準(zhǔn)則自動定階。經(jīng)識別,模型為ARMA(4,3)模型。
4.異常值識別
使用detectAO和detectIO函數(shù)識別ARMA模型中的異常值,經(jīng)檢測,該序列存在7個AO。出現(xiàn)AO的日期分別為:2016年的1月7日、1月11日、1月26日,2018年的10月8日,2019年的2月25日,2020年的2月3日、7月16日。通過查閱資料找到了可能導(dǎo)致出現(xiàn)AO的原因:2016年1月4日起A股開始實行熔斷機制,在該機制的保護下,A股市場在1月份開始了下跌浪潮,1月7日與11日均因觸發(fā)熔斷機制使得上證指數(shù)下跌。2016年1月26日上證指數(shù)下跌了6.42%,產(chǎn)生暴跌的原因有:人民幣在該日附近遭遇大幅波動;央行近期頻繁釋放流動性,因此市場在春節(jié)前將轉(zhuǎn)降息或?qū)⒋蟾怕事淇铡?018年10月8日是國慶假期后的首個交易日,A股市場受外圍市場節(jié)日期間大跌影響呈大幅低開,上證指數(shù)跌了3.72%。2019年2月21日~24日,中美雙方就技術(shù)轉(zhuǎn)讓、知識產(chǎn)權(quán)保護、非關(guān)稅壁壘等方面的問題進行磋商并取得實質(zhì)性進展,2月25日,受利好消息刺激,上證指數(shù)暴漲5.59%。2020年2月3日,受新冠肺炎疫情影響,上證指數(shù)跌了7.72%。蓬佩奧在2020年7月15日晚宣布,美國將對華為部分員工實施制裁,并將對華為等科技公司實施新的簽證限制,7月16日上證指數(shù)下跌4.5%。將AO納入ARIMAX模型之中,ARIMAX模型較ARMA的AIC更小,說明加入AO使模型的擬合效果更好。
5.ARMA-AO-GARCH組合模型的建立
對ARIMAX模型的殘差使用ARCH-LM法檢驗是否存在異方差,結(jié)果表明存在ARCH效應(yīng),也即存在異方差,應(yīng)建立GARCH模型。在實際應(yīng)用中,常用的GARCH模型有GARCH(1,1),GARCH(1,2),GARCH(2,1)。將上述模型與ARMA(4,3)模型結(jié)合并且分別采用t分布、GED分布擬合模型,綜合AIC、SC、HQC以及參數(shù)的顯著性確定最優(yōu)模型。經(jīng)過比較,最終模型為ARMA(4,3)-GARCH(2,1)模型,分布為t分布。接下來將AO加入ARMA(4,3)-GARCH(2,1)模型之中,具體操作為:生成一個長度與訓(xùn)練集長度相等的向量作為外生變量,由于AO只在T時刻對序列造成擾動,因此在存在AO的位置設(shè)置為1,其余位置均為0。利用external.regressors函數(shù)將變量加入ARMA-GARCH模型的均值方程之中,至此建立了ARMA(4,3)-AO-GARCH(2,1)模型。對殘差進行ARCH-LM檢驗,結(jié)果表明模型中不存在ARCH效應(yīng)。
6.模型預(yù)測及結(jié)果比較
接下來用本文最終建立的模型進行為期60天的預(yù)測,此外,對于文中建立的ARMA(4,3)和ARMA(4,3)-GARCH(2,1)模型也均進行為期60天的預(yù)測。各模型的預(yù)測精度如表2所示。
表2 上證指數(shù)收益率不同模型預(yù)測精度比較表
由表2可以看出,ARMA模型的預(yù)測精度最低,可見單純地用ARMA線性模型不能充分地提取數(shù)據(jù)中的信息。對比ARMA-GARCH模型和ARMA-AO-GARCH組合模型,可以看出二者的RMSE相同,而后者的MAE和MAPE均小于前者??傮w而言,ARMA-AO-GARCH模型的預(yù)測效果最好。
實例二選取2018年1月1日~2021年3月31日倫敦黃金交易市場下午定盤價格,共847個數(shù)據(jù),數(shù)據(jù)來源于世界黃金協(xié)會官網(wǎng)。根據(jù)收益率計算公式,計算得到846個收益率序列,將前796個數(shù)據(jù)劃分為訓(xùn)練集,后50個數(shù)據(jù)作為測試集。
首先對黃金價格收益率進行描述性分析,結(jié)果表明該序列與上證指數(shù)收益率序列類似,具有明顯的波動聚集現(xiàn)象。接下來進行ARMA建模,經(jīng)識別該模型為ARMA(4,2)模型。然后識別該模型中的異常值,發(fā)現(xiàn)存在2個可加異常值。將異常值納入模型之中,對殘差序列進行ARCH效應(yīng)的檢驗,發(fā)現(xiàn)序列存在明顯的ARCH效應(yīng)。經(jīng)過識別與比較,最終建立了ARMA(4,2)-AO-GARCH(1,1)組合模型,利用該模型對該序列進行為期50天的預(yù)測。同樣,建立ARMA(4,2)模型與ARMA(4,2)-GARCH(1,1)進行預(yù)測效果的比較,結(jié)果見表3。
表3 黃金價格收益率不同模型預(yù)測精度比較表
由表3可以看出ARMA-GARCH模型與ARMA-AOGARCH模型的MAPE大于ARMA模型,但RMSE與MAE均小于ARMA模型。此外,ARMA-AO-GARCH模型的三項誤差指標(biāo)均小于ARMA-GARCH模型。整體而言,對于該序列,ARMA-AO-GARCH模型的預(yù)測效果是最好的。
本文充分考慮到金融投資市場的波動聚集性以及易受到異常事件影響的特點,建立了ARMA-AO-GARCH組合模型并將其應(yīng)用到上證指數(shù)收益率和黃金價格收益率的預(yù)測之中。此外,本文還建立了ARMA模型和ARMA-GARCH模型與其進行預(yù)測精度的對比。實證結(jié)果表明ARMA-AOGARCH模型具有較高的預(yù)測精度,預(yù)測效果總體優(yōu)于其他兩種模型,說明該模型能夠很好地擬合和預(yù)測股票收益率以及黃金價格收益率等金融投資收益率序列,能夠?qū)鹑谑袌龅耐顿Y、分析以及決策提供一定的參考價值。