于卓熙,秦 璐,趙志文,溫 馨
(1.吉林財經(jīng)大學a.管理科學與信息工程學院;b.互聯(lián)網(wǎng)金融重點實驗室,長春 130117;2.吉林師范大學 數(shù)學學院,吉林 四平 136000)
隨著股市的發(fā)展,國內(nèi)外學者提出了許多股票預測的方法:(1)傳統(tǒng)投資分析法,主要包括基本分析法和技術分析法?;痉治龇ㄟm用于周期相對較長的證券價格預測,以及相對成熟的證券市場和預測精準度要求不高的領域。技術分析法更適用于短期行情預測,但其方法多種多樣,選擇哪一種方法依賴于主觀判斷。多種方法綜合使用,對使用者要求較高,并且占用大量時間,影響時效性[1]。(2)時間序列分析法,主要包括趨勢外推法、移動平均預測法以及指數(shù)平滑法。適用于較為簡單、平滑的數(shù)列預測,此方法應用簡單、直觀[1]。(3)非線性系統(tǒng)分析法,主要包括神經(jīng)網(wǎng)絡。適用于處理類似于股價預測等多因素、不確定、非線性的時間序列預測問題,既可以模擬基本分析,也可以模擬技術分析,具有分布處理、自組織、自適應、自學習、容錯性等優(yōu)良特性。但是該算法本身存在一定的局限性[3],比如神經(jīng)網(wǎng)絡不能對輸入變量進行選取。如果輸入變量過多時,就會使網(wǎng)絡結果變得復雜,從而對神經(jīng)網(wǎng)絡的訓練造成負擔,進而使學習速度下降;同時,如果主觀選擇變量,很可能選出與輸出相關性很小的輸入變量,由于帶有人為的主觀性,會嚴重影響神經(jīng)網(wǎng)絡的預測精度[2]。針對以上神經(jīng)網(wǎng)絡中的問題,結合Donald(1990)[3]提出的廣義神經(jīng)網(wǎng)(簡稱GRNN),其是由徑向基函數(shù)引申而來。與前饋神經(jīng)網(wǎng)絡相比,有較短的訓練時間和較低的計算成本以及網(wǎng)絡計算結果能達到全局收斂而不會停止在局部收斂的優(yōu)勢。且只有一個自由參數(shù)的優(yōu)點,決定了該網(wǎng)絡能夠最大限度地避免人為主觀選擇對預測結果帶來影響。
本文運用廣義回歸神經(jīng)網(wǎng)絡(GRNN)模型對華夏銀行(600015)從2013年3月11日到2015年6月3日內(nèi)的股票數(shù)據(jù)進行了驗證性測試與分析。首先運用主成分分析法對影響股價的因素進行降維,避免輸入變量過多和選擇主觀性問題。將主成分分析與廣義回歸神經(jīng)網(wǎng)絡相結合的預測效果與時間序列ARIMA模型的預測效果進行了對比分析。
確定主成分的方法有兩種,一是通過選取特征值大于1的指標來選取主成分;二是通過方差累計貢獻率來選取,一般要求選取的主成分的累計貢獻率大于等于85%。本文通過第一種方法來選取影響股價的主成分。其主要的算法步驟如下:
(1)對原始變量進行標準化。目的在于消除原始變量間量綱影響和數(shù)值差異的影響,使得原始數(shù)據(jù)間具有可比性。即:
(2)計算相關系數(shù)矩陣。
其中,rij為原始變量xi與xj的相關系數(shù)。
原變量協(xié)方差矩陣的特征根是主成分的方差,即前m個較大特征根為前m個較大主成分方差值;原變量協(xié)方差矩陣前m個較大特征值所對應的特征向量為相應主成分Fi表達式的系數(shù)。將計算得出的各主成分得分值作為廣義神經(jīng)網(wǎng)絡的輸入值。
廣義回歸神經(jīng)網(wǎng)絡(GRNN)是徑向基神經(jīng)網(wǎng)絡(RBF)的一個分支,是一種通用的非參數(shù)回歸模型,不像傳統(tǒng)的回歸分析需要先假設一個明確的函數(shù)形式,只需要以機率密度函數(shù)的方式表達[4]。GRNN神經(jīng)網(wǎng)絡結構的四部分,即分別為輸入層、模式層、求和層和輸出層,如圖1所示。
圖1 廣義回歸神經(jīng)網(wǎng)絡模型的結構
網(wǎng)絡的輸入為X=[X1,X2,…,Xn-1,…,Xn]T,輸出為Y=[Y1,Y2,…,Yn-1,Yn]T。
(1)輸入層。用來接收學習樣本,并將輸入樣本直接傳送給模式層。
(2)模式層。平滑參數(shù)存在于模式層,模式層中不同的神經(jīng)元對應不同的樣本,該層的傳遞函數(shù)為徑向基函數(shù),即:
其中,X為網(wǎng)絡輸入變量;Xi為第i個神經(jīng)元對應的學習樣本;σ代表光滑因子[5]。
(3)求和層。對模式層所有神經(jīng)元的輸出進行求和,該層的傳遞函數(shù)也為徑向基函數(shù)。該層中使用兩類神經(jīng)元求和:
一類為:
它對所有模式層神經(jīng)元的輸出進行了算術求和,其中,模式層和各個神經(jīng)元的連接權值為1,傳遞函數(shù)為:
它對所有模式層神經(jīng)元的輸出進行加權求和,模式層中第i個神經(jīng)元與求和層中第j個分子求和,神經(jīng)元之間的連接權值為第i個輸出樣本Yi中的第j個元素[8]。其中傳遞函數(shù)為:
另一類為:
(4)輸出層。該層的函數(shù)為線性函數(shù),對結果進行輸出,對應的函數(shù)方程為:
本文選取了華夏銀行(600015)從2013年3月11日到2015年6月3日共543個交易日的數(shù)據(jù),根據(jù)該股票的信息,選取了開盤價、收盤價、最高價、最低價、成交量、成交金額、每股收益、凈資產(chǎn)收益率、每股凈資產(chǎn)這9項重要指標進行分析[6]。選擇收盤價作為股票價格預測指標,其他指標作為股票價格的影響因素,數(shù)據(jù)來源于瑞思金融研究數(shù)據(jù)庫。部分數(shù)據(jù)如表1所示。
表1 華夏銀行在批發(fā)和零售業(yè)的部分數(shù)據(jù)
2.2.1 主成分析析結果
運用SPSS軟件對所有數(shù)據(jù)進行分析,從得到的KMO和Bartlett檢驗結果可以看出,原變量之間存在著很顯著的相關關系,說明存在數(shù)據(jù)冗余,有必要對這些數(shù)據(jù)指標進行主成分分析。經(jīng)過選擇特征值大于1這項指標進行主成分選擇,并結合表2所示的解釋總方差,可以看出前兩個主成分的累計貢獻率已超過85%,因此需要提取兩個主成分。
表2 解釋的總方差
由表3所示的成分矩陣表,可以提取到的主成分公式為:
式(10)和式(11)中F1、F2分別代表兩個主成分,X1、X2、X3、X4、X5、X6、X7、X8、X9分別代表開盤價、最高價、最低價、成交量、成交金額、每股收益、凈資產(chǎn)收益率、每股凈資產(chǎn)、收盤價。
表3 成分矩陣
2.2.2 GRNN預測建模
將提取出的兩個主成分作為PCA-GRNN神經(jīng)網(wǎng)絡模型的輸入進行網(wǎng)絡訓練建模,運用交叉驗證法選出最優(yōu)的輸入輸出值及最優(yōu)的平滑參數(shù)。經(jīng)過不斷測試,最終選擇運用4折交叉驗證,再將運用4折交叉驗證選出的最優(yōu)輸入輸出值進行歸一化,歸一化的數(shù)據(jù)分布在[-1,1]區(qū)間。運用歸一化的輸入輸出值及最優(yōu)平滑參數(shù)進行建模,進而對后五天的股票價格進行預測,此過程均在Matlab軟件中實現(xiàn),且得到最優(yōu)的平滑參數(shù)值spread為0.009。數(shù)據(jù)分為兩部分,2013年3月11日到2015年5月29日期間的數(shù)據(jù)作為訓練數(shù)據(jù)集,2015年5月30日到2015年6月3日期間的數(shù)據(jù)作為測試數(shù)據(jù)集。本文選取交叉驗證方法的原因是:(1)可以從有限的股票數(shù)據(jù)中獲取到盡可能多的信息;(2)從多個方向開始學習樣本的,能夠有效地避免陷入局部最小值;(3)可以在一定程度上避免過擬合的問題。
ARIMA(p,d,q)模型處理的是平穩(wěn)序列。本文中原始數(shù)據(jù)的時序圖如圖2所示。
圖2 時序圖
從時序圖可以看出總體呈上升趨勢,可判斷該序列是非平穩(wěn)序列;需要對該序列進行平穩(wěn)化處理,即需要對原始序列進行差分,差分后的序列為圖3所示。
圖3 三階差分序列圖
根據(jù)差分后序列方差的變化,最終決定選擇三階差分;接著對差分后的序列進行單位根檢驗,檢驗結果為該序列為平穩(wěn)序列;因此可以根據(jù)該序列進行建模。
根據(jù)ACF圖(下頁圖4)可以看出在3階之后截尾;由PACF圖(下頁圖5)可以看出5階之后,誤差大部分都在2倍標準差左右,并根據(jù)AIC最小的原則,最終得到的綜合模型為ARIMA(1,3,1)。該模型的方程為:
模型的建模參數(shù)結果如表4所示。
表4 ARIMA(1,3,1)模型參數(shù)估計
從表4可以看出回歸系數(shù)均顯著,且擬合優(yōu)度相對較高為R2=0.980。
運用ARIMA模型與基于PCA-GRNN神經(jīng)網(wǎng)絡模型對2015年5月28日到2015年6月3日五天的收盤價進行預測。預測結果如表5所示,并對兩種模型的預測結果進行了誤差分析,分析結果如表6所示,兩種模型對后五天的股票價格的預測值與真實值之間的對比結果如圖6所示。
圖4 三階差分序列自相關圖
圖5 三階差分序列偏自相關圖
表5 預測結果分析
表6 誤差分析結果
由表5的對比分析可知,PCA-GRNN神經(jīng)網(wǎng)絡的預測結果比ARIMA模型的預測結果更接近真實值,說明PCA-GRNN是一種較為有效的股票價格預測方法。
從表6可以得出PCA-GRNN模型的均方誤差(MSE)為0.062922,要低于ARIMA模型的均方誤差值(MSE)0.68748;由平均絕對誤差百分比(MAPE),PCA-GRNN神經(jīng)網(wǎng)絡模型1.304%的值也明顯低于ARIMA模型的4.522%。說明PCA-GRNN模型的預測效果要優(yōu)于ARIMA模型。
圖6預測值與真實值的對比圖
圖6 中,y1表示股價真實值,y2表示基于PCA-GRNN模型的預測值,y3表示ARIMA模型的預測值;橫坐標x表示天數(shù),1代表預測的第一天即2015年5月28號,依次類推,5代表2015年6月3號。從圖6可以得出PCA-GRNN神經(jīng)網(wǎng)絡的預測結果趨勢與真實值基本一致,且誤差較小,而ARIMA模型的預測結果明顯均高于真實值,存在較大的誤差。
通過主成分分析和廣義回歸神經(jīng)網(wǎng)絡結合的模型以及時間序列ARIMA模型對股票價格進行預測分析,結果表明:基于PCA-GRNN模型的預測結果要優(yōu)于ARIMA模型。這主要是由于股票數(shù)據(jù)是隨機的、非線性的、不確定的非平穩(wěn)時間序列,而ARIMA模型屬于線性模型,對股票價格預測分析這種非線性行為的分析與預測存在一定缺陷;而神經(jīng)網(wǎng)絡能夠以任意精度逼近任何非線性連續(xù)函數(shù),同時它在模擬多變量時,并不需要對輸入變量做出復雜的假定,只需依靠觀測到的數(shù)據(jù),通過訓練得到精確的模型。且廣義回歸神經(jīng)網(wǎng)絡只有一個受人為因素影響的參數(shù),大大降低了人為因素帶來的誤差[7],對投資者能夠準確地預測股票價格及更好地把握股票市場的發(fā)展提供了相應的參考依據(jù)。