方坷昊,趙 凌
(1.四川文理學(xué)院教務(wù)處,四川達(dá)州635000;2.四川師范大學(xué)數(shù)學(xué)與軟件科學(xué)學(xué)院,四川成都610068)
股票市場(chǎng)作為國(guó)家經(jīng)濟(jì)的重要組成部分,對(duì)國(guó)家經(jīng)濟(jì)有較強(qiáng)的影響,其活躍程度更是衡量國(guó)家經(jīng)濟(jì)的一項(xiàng)重要指標(biāo).此外,股票指數(shù)的上漲(下跌)幅度大小亦對(duì)投資者的投資決策有著積極(消極)的作用,間接地反饋了股市的活躍程度信息.而股票指數(shù)作為股票市場(chǎng)的重要綜合指標(biāo),所以較普通股票而言,對(duì)股市有著更為重大的影響,更具備研究意義.
1999年,國(guó)內(nèi)學(xué)者最早在國(guó)內(nèi)給出了ARIMA模型在股票價(jià)格預(yù)測(cè)方面的應(yīng)用;[1]2006年,覃思乾利用ARIMA模型與GM模型的組合模型對(duì)股票指數(shù)進(jìn)行預(yù)測(cè);[2]2011年,李美利用ARIMA模型對(duì)股價(jià)進(jìn)行預(yù)測(cè),并利用傅立葉修正方法進(jìn)行修正;[3]2012年,王丹楓實(shí)證分析了從投資者視角來(lái)進(jìn)行股票價(jià)格預(yù)測(cè)的可能性.ARIMA模型結(jié)合股票指數(shù)序列的自身規(guī)律對(duì)股票指數(shù)進(jìn)行了較好的預(yù)測(cè),但并未考慮其他的相關(guān)變量對(duì)股票指數(shù)的影響.[4]1983年,偏最小二乘回歸由S.Wold和C.Alban首次提出后,該方法在關(guān)于存在多重共線性問(wèn)題的解決方面迅速得到應(yīng)用,在股市方面的研究亦有廣泛應(yīng)用,2004年,鄭承利應(yīng)用偏最小二乘法對(duì)美式期權(quán)的仿真定價(jià)問(wèn)題進(jìn)行了研究;[5]2010年,姬強(qiáng)應(yīng)用偏最小二乘法對(duì)中美股票市場(chǎng)的協(xié)動(dòng)性作出分析.[6]偏最小二乘回歸在股票指數(shù)預(yù)測(cè)的應(yīng)用上考慮了把股票指數(shù)影響較大的變量納入自變量組進(jìn)行回歸分析,較好地對(duì)各個(gè)相關(guān)指標(biāo)的多重共線性進(jìn)行消除,但并未利用自身存在的規(guī)律性進(jìn)行分析.
本文的意義在于以上證指數(shù)為例利用偏最小二乘方法對(duì)股票指數(shù)進(jìn)行回歸分析,將ARIMA模型得出的股票指數(shù)預(yù)測(cè)值歸為原始變量組,在建立偏最小二乘回歸模型時(shí)充分地利用了股票指數(shù)自身存在的規(guī)律性,且納入投資者視角所關(guān)注的股票指數(shù)相關(guān)變量,建立了在真正意義上充分考慮了投資者行為的偏最小二乘回歸模型,在統(tǒng)計(jì)于行為金融方面的探究中有重大意義.
本文數(shù)據(jù)包括上海證券交易所公布的2016年1月到2016年6月上證指數(shù)數(shù)據(jù)、上證指數(shù)證券成交量、人民幣對(duì)美元匯率、上證指數(shù)期貨價(jià)格;美國(guó)NASDAQ證券交易所公布的NASDAQ指數(shù)數(shù)據(jù),變量選取如下:因變量Y為上證指數(shù)當(dāng)日價(jià)格、自變量X1為上證指數(shù)當(dāng)日ARIMA模型預(yù)測(cè)價(jià)格、X2為上證指數(shù)上一日交易量,其數(shù)值大小代表每日交易所成交數(shù)量,一定程度上能反映短期內(nèi)股民投資意愿、X3為上證指數(shù)上一日期貨價(jià)格,此變量的意義在于反映市場(chǎng)對(duì)目標(biāo)股票的漲跌期望,同時(shí)對(duì)目標(biāo)股票價(jià)格具有一定的指導(dǎo)意義、X4為美元對(duì)人民幣匯率,反映短期內(nèi)金融市場(chǎng)的活躍程度、X5為美國(guó)NASDAQ指數(shù)價(jià)格,作為NASDAQ世界最大的股票交易市場(chǎng),其指數(shù)價(jià)格作為同類型股票對(duì)上證指數(shù)價(jià)格亦具有相當(dāng)?shù)闹笇?dǎo)意義,如表1所示:
表1 變量關(guān)系表
2.2.1 ARIMA模型
自回歸滑動(dòng)平均模型(Auto-RegressionIntegrated Moving Average Model,ARIMA)是由自回歸模型(Auto-Regression Model,AR)、差分項(xiàng)I(d)和滑動(dòng)平均模型(Moving Average Model,MA)兩部分組成,主要用于短期時(shí)間序列建模,與傳統(tǒng)相比,優(yōu)勢(shì)在于建模簡(jiǎn)便,對(duì)非線性模型有較好的解釋能力.且定義如下:
若{εt}是高斯白噪聲WN(0,σ2),φ1,φ2,…,φp(φp≠0),?1,?2,…,?q(?q≠0),皆為實(shí)數(shù),則稱
φ(B)dXt=θ(B)εt
為求和自回歸滑動(dòng)平均模型,并記為ARIMA(p,d,q)模型.其中B為延遲算子,d=(1-B)d為差分算子,φ(B)=1-φ1B-φ2B2-…-φpBp為自回歸系數(shù)多項(xiàng)式,θ(B)=1-?1B-?2B2-…-?pBq為滑動(dòng)平均系數(shù)多項(xiàng)式.
1.2.2 偏最小二乘回歸模型
偏最小二乘回歸(Partial Least Squares Regression,PLSR)是在1983年由S.Wold和C.Alban首次提出的, 是近年來(lái)應(yīng)實(shí)際需要而生產(chǎn)和發(fā)展的一個(gè)有廣泛適用性的多元統(tǒng)計(jì)方法.在常見的多因變量對(duì)多自變量的回歸建模中,特別是在觀測(cè)值數(shù)量少以及存在多重相關(guān)性等問(wèn)題時(shí),該方法具有傳統(tǒng)的回歸方法所不具備的意義明確、計(jì)算簡(jiǎn)便、省時(shí)、建模效果好、解釋性強(qiáng)等優(yōu)點(diǎn).
偏最小二乘回歸是一類解決由p個(gè)自變量X=(X1,X2,…,Xp)和q個(gè)因變量Y=(Y1,Y2,…,Yq)的n個(gè)觀測(cè)值組成的數(shù)據(jù)表存在多重相關(guān)性時(shí)的回歸分析問(wèn)題的模型,首先偏最小二乘回歸不直接對(duì)X與Y進(jìn)行回歸,而是先從X和Y中提取成分t1和u1,在提取成分時(shí),有下列兩個(gè)要求:
a.t1和u1應(yīng)盡可能大地?cái)y帶他們各自數(shù)據(jù)表X和Y中的變異信息;
b.t1與u1的相關(guān)程度最大.
在第一輪提取后,分別實(shí)施X對(duì)t1的回歸及Y對(duì)t1的回歸,如果回歸方程已經(jīng)達(dá)到滿意的精度,則算法終止;否則,將利用X被解釋后殘余信息以及Y被t1解釋后的殘余信息進(jìn)行第二輪的成分提取,直到達(dá)到回歸方程滿意精度,算法終止.
若最終提取成分?jǐn)?shù)量為m,則偏最小二乘回歸將通過(guò)施行yk對(duì)t1,…,tm的回歸,然后表達(dá)為yk關(guān)于原自變量x1,…,xp的回歸方程,k=1,2,…,q.
本文首先對(duì)上證股票指數(shù)序列進(jìn)行ARIMA模型建立與分析:對(duì)股票指數(shù)序列做二階差分處理后序列平穩(wěn),采用ARIMA模型對(duì)其價(jià)格進(jìn)行一個(gè)初步的預(yù)測(cè)后,模型擬合效果較為理想,為進(jìn)一步提高預(yù)測(cè)精度,根據(jù)偏最小二乘回歸在處理多重共線性方面問(wèn)題的優(yōu)勢(shì);第二步把ARIMA模型的預(yù)測(cè)結(jié)果納入原始變量組,記為X1、再選取上證指數(shù)上一日交易量X2、上證指數(shù)上一日期貨價(jià)格X3、上一日美元對(duì)人民幣匯率X4、美國(guó)NASDAQ指數(shù)價(jià)格X5四個(gè)對(duì)股票指數(shù)價(jià)格Y影響較大的變量作為原始變量組對(duì)股票指數(shù)作回歸分析,利用回歸分析進(jìn)行擬合預(yù)測(cè),研究表明,組合模型較ARIMA模型取得較大的修正效果.
3.2.1 平穩(wěn)性檢驗(yàn)
圖1 上證指數(shù)價(jià)格時(shí)間序列
首先在EVIEWS軟件中作出上證指數(shù)股票價(jià)格的時(shí)間序列圖(圖1),由時(shí)序圖法,可見圖像變化并不規(guī)則,不存在對(duì)于一個(gè)確定的價(jià)格附近震蕩的現(xiàn)象,并無(wú)規(guī)律可言,認(rèn)為該序列并不具有平穩(wěn)性,需要對(duì)其做出差分處理;在對(duì)上證指數(shù)股票價(jià)格序列二階差分(DDLAVE)后,差分序列在0附近震蕩,初步確定平穩(wěn),對(duì)其做單位根檢驗(yàn)(圖2),可見該序列的ADF統(tǒng)計(jì)量的p值趨近于0,遠(yuǎn)小于0.01,通過(guò)平穩(wěn)性檢驗(yàn),上證指數(shù)股票價(jià)格二階差分序列為平穩(wěn)序列,下面對(duì)該序列進(jìn)行模型建立.
圖2 單位根檢驗(yàn)圖
3.2.2 模型選擇
圖3 自相關(guān)檢驗(yàn)圖
由自相關(guān)檢驗(yàn)圖(圖3),Q統(tǒng)計(jì)量對(duì)應(yīng)p值均趨于零,可見模型并非白噪聲.我們對(duì)所要建立的ARIMA模型階數(shù)進(jìn)行確定:首先,對(duì)上證股票指數(shù)二階差分序列做自相關(guān)檢驗(yàn)后,得出該差分序列的自相關(guān)圖(圖3),可見該序列的自相關(guān)系數(shù)與偏相關(guān)系數(shù)都具有拖尾性,考慮建立ARIMA模型,有圖三可見,自相關(guān)系數(shù)三階后有迅速下降且趨于0的趨勢(shì),偏相關(guān)系數(shù)在二階后有迅速下降且趨于0的趨勢(shì),因此建立ARIMA(1,2,1)、ARIMA(1,2,2)、ARIMA(2,2,2)、ARIMA(2,2,3)模型進(jìn)行比較,模型對(duì)應(yīng)結(jié)果如表2所示:
表2 ARIMA模型階數(shù)選擇
由表2可見ARIMA(2,2,3)模型在四個(gè)模型中擬合優(yōu)度最大,AIC值最小,模型效果最好,所以對(duì)序列建立ARIMA(2,2,3)模型.
3.2.3 模型評(píng)價(jià)
圖4 ARIMA模型
Xt=-0.905Xt-4-0.047Xt-3+1.809Xt-1-0.143Xt-1+εt+0.942εt-1-0.943εt-2-0.965εt-3
由圖四可見,對(duì)該模型做t檢驗(yàn)后,各參數(shù)對(duì)應(yīng)t統(tǒng)計(jì)量均處在較好水平,模型系數(shù)對(duì)應(yīng)p值均小于0.01,通過(guò)顯著性檢驗(yàn);對(duì)殘差做白噪聲檢驗(yàn)后,Q統(tǒng)計(jì)量對(duì)應(yīng)p值均大于0.05,結(jié)果表明殘差為白噪聲,ARIMA模型為有效模型.結(jié)合上證指數(shù)與其ARIMA模型預(yù)測(cè)價(jià)格的時(shí)間序列圖(圖5)以及ARIMA模型對(duì)上證指數(shù)Xt的四期預(yù)測(cè)結(jié)果(表3)可見:模型的平均相對(duì)誤差率為0.5%,說(shuō)明ARIMA模型能較好地預(yù)測(cè)出上證指數(shù)股票價(jià)格.
表3 ARIMA模型預(yù)測(cè)結(jié)果
圖5 ARIMA模型擬合效果圖
3.3.1 模型建立
在2.2中,通過(guò)ARIMA模型對(duì)上證指數(shù)進(jìn)行擬合預(yù)測(cè),擬合優(yōu)度達(dá)到0.71,平均相對(duì)誤差率為0.5%.為進(jìn)一步提高預(yù)測(cè)精度,使用線性回歸對(duì)ARIMA模型進(jìn)行修正,基于偏最小二乘方法處理復(fù)共線性數(shù)據(jù)上的適用性:首先把ARIMA模型預(yù)測(cè)值納入原始變量組,記為X1、再加入與上證指數(shù)價(jià)格相關(guān)的上證指數(shù)上一日交易量X2、上證指數(shù)上一日期貨價(jià)格X3、上一日美元對(duì)人民幣匯率X4、美國(guó)NASDAQ指數(shù)價(jià)格X5作為原始變量組進(jìn)行偏最小二乘回歸分析,組合模型得出結(jié)果后與ARIMA模型輸出結(jié)果X1進(jìn)行比較.
本文用SIMCA-P軟件對(duì)上證指數(shù)Y進(jìn)行偏最小二乘回歸分析,輸入標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行成分提取,建立解釋變差表(表4)進(jìn)行分析后,對(duì)模型成分個(gè)數(shù)進(jìn)行選擇,可以得出模型成分?jǐn)?shù)量為3時(shí)自變量可被解釋變差累計(jì)為96.9%,因變量可被解釋變差累計(jì)為81.7%,均處在較好水平,所以確定模型提取成分個(gè)數(shù)為3,建立模型如下:
Y=30.300+0.655X1+0.010X2+0.320X3+0.027X4-0.055X5+ε
表4 解釋變差表
3.3.2 模型評(píng)價(jià)
得出模型結(jié)果為數(shù)據(jù)標(biāo)準(zhǔn)化后的模型,組合模型結(jié)果較單ARIMA模型得到較大修正,擬合優(yōu)度由原本的0.71上升到0.82.
通過(guò)基于偏最小二乘方法的ARIMA組合模型對(duì)上證指數(shù)Y的后四期預(yù)測(cè)值與單ARIMA模型預(yù)測(cè)值對(duì)比(表5)可見,四個(gè)上證指數(shù)預(yù)測(cè)值殘差均有較大程度的減少,平均相對(duì)誤差值減少27.5%.這說(shuō)明基于偏最小二乘方法的ARIMA組合模型預(yù)測(cè)值較單ARIMA模型預(yù)測(cè)值效果更好,使用偏最小二乘方法的組合修正模型能夠有效提高預(yù)測(cè)精度.
對(duì)模型中每個(gè)變量的重要程度作出分析:由于本文建立的模型為標(biāo)準(zhǔn)化模型,其系數(shù)只與影響方向有關(guān),不能決定其影響大小;本文選取SIMCA-P軟件中的VIP統(tǒng)計(jì)量(圖6)對(duì)模型的每個(gè)變量重要程度作出分析,VIP統(tǒng)計(jì)量的值越大說(shuō)明該變量的重要程度越高.由圖可見,自變量重要程度排名依次為X1、X3、X5、X4、X2;說(shuō)明ARIMA(2,2,3)模型的預(yù)測(cè)結(jié)果對(duì)偏最小二乘回歸模型的結(jié)果影響最大.ARIMA模型在股票價(jià)格預(yù)測(cè)中通過(guò)添加相關(guān)變量做偏最小二乘回歸的方法可以有效提高預(yù)測(cè)精度.
表5 組合模型預(yù)測(cè)結(jié)果
圖6 VIP統(tǒng)計(jì)量圖
本文首先在ARIMA模型對(duì)股票價(jià)格得出預(yù)測(cè)值的基礎(chǔ)上,根據(jù)偏最小二乘方法在股票類數(shù)據(jù)的相關(guān)性消除方面的優(yōu)勢(shì),引入ARIMA模型預(yù)測(cè)值作為因變量,再加入上一日交易量,上一日期貨價(jià)格,上一日美元對(duì)人民幣匯率,美國(guó)NASDAQ指數(shù)價(jià)格等變量,以上變量具有較強(qiáng)的相關(guān)性,通過(guò)偏最小二乘方法對(duì)其回歸建模,能得到較好的修正模型,有效提高模型精度.