李緗珍
摘 要:股票市場短期趨勢預(yù)測對政府實施有效市場監(jiān)管和投資者優(yōu)化資源配置具有重要意義,近年來成為學界業(yè)界的研究熱點。針對股票市場短期趨勢非線性和非平穩(wěn)的特點,對股票歷史數(shù)據(jù)進行離散化處理并基于核密度方法實現(xiàn)非參數(shù)的類概率估計,在此基礎(chǔ)上運用增強學習模型實現(xiàn)股票市場的短期趨勢預(yù)測。以國藥一致和伊利股份2019年1/2季度的股票價格進行實證研究,將所提出的離散分類預(yù)測模型與三種股票市場短期趨勢預(yù)測模型(線性回歸模型、支持向量回歸模型及BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型)進行比較,結(jié)果表明,所提出的離散分類預(yù)測模型對股價短期趨勢的預(yù)測效果更好且更加穩(wěn)定。
關(guān)鍵詞:股票趨勢;短期預(yù)測;離散分類模型;增強學習
中圖分類號:F830.91? ? ? ? 文獻標志碼:A? ? ? 文章編號:1673-291X(2019)26-0136-05
一、研究背景及意義
股票市場具有的融資功能、轉(zhuǎn)讓轉(zhuǎn)化資本和給股票賦予價格等重要職能,有助于提高資金運作效率和反映社會經(jīng)濟及公司的發(fā)展情況,對國家經(jīng)濟建設(shè)具有重要作用。一方面,股票價格受多種潛在因素影響,如國家政治經(jīng)濟與政策、經(jīng)濟周期變動、貨幣供應(yīng)量以及公司的經(jīng)營狀況、行業(yè)發(fā)展前景和股利分配政策等,故被稱為社會經(jīng)濟的“晴雨表”[1];另一方面,股票價格對公司經(jīng)營決策和投資者交易動機具有重要影響,可以說與社會經(jīng)濟發(fā)展狀況與人民生活的密切相關(guān)。因此,股票短期趨勢預(yù)測成為近年來稱為學界業(yè)界的重點研究對象。然而,股票市場是由各種人群參與的、時變的、復(fù)雜的非線性系統(tǒng),受到自然災(zāi)害、社會、政治經(jīng)濟以及人群心理等因素影響,使得對股票短期預(yù)測面臨巨大挑戰(zhàn)[2-3]。
現(xiàn)有股票短期趨勢變化預(yù)測總體上可分為三類:(1)宏觀經(jīng)濟與企業(yè)發(fā)展狀況相結(jié)合分析方法[4-5]。其主要思想是認為股票是國家整體經(jīng)濟與企業(yè)運營狀況的晴雨表,故可以通過分析宏觀經(jīng)濟事件或分析企業(yè)的決策業(yè)績等對未來股票的趨勢進行預(yù)測。這類方法的挑戰(zhàn)在于影響趨勢的相關(guān)因素過多,例如,宏觀經(jīng)濟事件包括國家貨幣政策、行業(yè)相關(guān)政策和金融突發(fā)事件等,而企業(yè)決策業(yè)績因素包括行業(yè)前景、產(chǎn)品科技含量、管理及財務(wù)狀況等,導(dǎo)致收集相關(guān)資料費時費力且很難建立股票變化趨勢與這些因素之間的定量模型。(2)基于時間序列統(tǒng)計學模型的預(yù)測方法[6-7]。股票數(shù)據(jù)屬于時間序列數(shù)據(jù),故傳統(tǒng)用于時間序列預(yù)測的統(tǒng)計學模型都可用于股票短期趨勢預(yù)測,例如常見的ARMA模型[8]、ARIMA模型[9]、GARCH模型[10]和馬爾科夫模型[11]等。這類預(yù)測技術(shù)假設(shè)股票成交信息反映宏觀經(jīng)濟與企業(yè)經(jīng)營狀況且對未來價格具有影響,通過對股票歷史數(shù)據(jù)分析,運用統(tǒng)計回歸模型挖掘股票時序數(shù)據(jù)的內(nèi)在規(guī)律,建立股票過去價格與未來價格的量化關(guān)系。(3)基于機器學習的預(yù)測方法。近年來,隨著數(shù)據(jù)挖掘和深度學習等機器學習技術(shù)的快速發(fā)展,利用機器學習進修股票趨勢預(yù)測受到越來越多的關(guān)注,特別是LSTM[12]和循環(huán)神經(jīng)網(wǎng)絡(luò)[13]等深度神經(jīng)網(wǎng)絡(luò)模型由于具有強大非線性和自學習能力,受到眾多學者重視。與基于時間序列統(tǒng)計學模型的預(yù)測方法不同,基于機器學習的股票預(yù)測模型不預(yù)先設(shè)定模型或數(shù)據(jù)分布,對股票短期趨勢預(yù)測具有較大實用性。但現(xiàn)有大部分基于機器學習的股票預(yù)測模型需要海量歷史數(shù)據(jù)訓練模型,且模型復(fù)雜導(dǎo)致所需預(yù)測時間較長。
針對上述挑戰(zhàn),本文提出股票短期趨勢的離散分類預(yù)測模型。該模型首先對小規(guī)模的股票時間序列數(shù)據(jù)進行離散化處理以增強預(yù)測穩(wěn)定性。其次利用核密度方法實現(xiàn)對股票價格進行非參數(shù)的類概率估計。最后以決策樹作為弱預(yù)測模型并利用增強學習模型進行集成預(yù)測。通過參考來自上海/深圳證券交易所、和新浪財經(jīng)的數(shù)據(jù)對國藥一致(000028)和伊利股份(600887)在2019年1/2季度的股票價格數(shù)據(jù)進行有效驗證,結(jié)果表明,所提出的股票短期趨勢預(yù)測模型預(yù)測準確率較高且更穩(wěn)定。
二、股票短期趨勢的離散分類預(yù)測模型
現(xiàn)有股票短期趨勢預(yù)測大多利用回歸模型基于前k個股票價格序列數(shù)據(jù)X={x1,x2,…,xk-1}未來時刻的股票價格xk,即可表述為:xk=f(x1,x2,…,xk-1)。其中,回歸模型f可選擇統(tǒng)計學回歸模型,如ARMA和ARIMA等,也可以選擇支持向量回歸和馬爾科夫鏈等機器學習模型。然而,由于回歸模型將少量連續(xù)值(例如前k個股票價格序列數(shù)據(jù))作為特征輸入,將導(dǎo)致預(yù)測模型容易過擬合且模型復(fù)雜度較高。為此,本文提出一種將連續(xù)特征離散化處理的股票短期趨勢分類預(yù)測模型,其具體步驟如下。
(一)連續(xù)特征離散化
連續(xù)特征的離散化過程是將一組連續(xù)值轉(zhuǎn)換為一組間隔,將這些間隔作為樣本的離散類標簽。將模型輸入數(shù)據(jù)樣本記為:{(x1,y1),(x2,y2),…,(xk-1,yk-1)},其中,xi=yi,1≤i≤k-1,離散化的目的是將的范圍劃分為等間距的一系列間隔:[b0,b1),[b1,b2),…,[bk,bk+1],其中b0為{x1,x2,…,xk-1}的最小值且b1為{x1,x2,…,xk-1}的最大值,劃分點{b1,b2,…,bk}的選擇需要滿足輸入數(shù)據(jù)落入每個間隔的數(shù)目相等的要求。對連續(xù)特征離散化處理后,將劃分后落入[bi,bi+1)的數(shù)據(jù)樣本類別記為ci。
假設(shè)股票價格數(shù)據(jù)的前k個股票價格序列數(shù)據(jù)為{1,3,6,7,8,9.5,10,11,12},將其離散化為三組間隔,可求得一組劃分點為{1,6.5,9.75,12},這樣每組間隔都包括三個序列數(shù)據(jù)對:{(1,1),(3,3),(6,6)},{ (7,7),(8,8),(9.5,9.5)},{(10,10),(11,11),(12,12)},這三個間隔的類別分別為c0,c1,c2。
(二)類條件概率密度估計
類概率密度估計首先使用標記數(shù)據(jù)樣本學習類概率密度估計模型,實現(xiàn)對未知類別數(shù)據(jù)的類別估計。具體包括以下兩個步驟。
1.數(shù)據(jù)樣本類別權(quán)重估計
假定cy記為輸入數(shù)據(jù)樣本y的離散化類別,p(cy|X)記為給定股票短期價格序列數(shù)據(jù)的離散化樣本為y的概率,訓練數(shù)據(jù)的數(shù)據(jù)樣本總數(shù)記為n,nc記為離散化樣本類別為y的樣本數(shù)量。通過加權(quán)訓練數(shù)據(jù)的離散化類別先驗概率來估計數(shù)據(jù)樣本的類別權(quán)重,記為w(yi|X),其計算方法是加權(quán)所有離散化類別cyi的先驗概率,計算公式如下:
數(shù)據(jù)樣本的類別權(quán)重w(yi|X)表示待預(yù)測的數(shù)據(jù)樣本序列數(shù)據(jù)的離散化樣本為yi的可能性,其計算過程依賴于離散化訓練樣本的類概率。
2.條件概率密度估計
給定訓練數(shù)據(jù)集中所有離散化類別的權(quán)重估計,基于單變量密度估計得到類條件概率密度估計f(y|X)。利用非參數(shù)的核密度估計方法,使用寬度為?啄k的高斯核,可得到如下的核密度估計:
高斯核寬度?啄k決定上述密度估計公式與訓練樣本數(shù)據(jù)的切合度,可利用數(shù)據(jù)依賴的全局標準差進行確定。
經(jīng)過上述兩個步驟,根據(jù)給定的股票短期序列數(shù)據(jù)X={x1,x2,…,xk-1}可以估計出未來股票價格數(shù)據(jù)xk所在的離散化所在間隔,將該間隔的中值作為xk的預(yù)測值。此外,采樣基于增強學習模型(Boosting)的思想提升模型的預(yù)測性能,具體做法重點關(guān)注預(yù)測誤差較大的數(shù)據(jù)樣本,在具體實現(xiàn)上,初始化所有訓練樣本的權(quán)重都相等,對于第m次模型迭代訓練,根據(jù)這些權(quán)重來選取樣本數(shù)據(jù),進而訓練單個預(yù)測模型f1。然后,基于該預(yù)測模型的預(yù)測結(jié)果,提高被它預(yù)測誤差較大的樣本的權(quán)重,并降低被正確預(yù)測的數(shù)據(jù)樣本權(quán)重。隨后,將權(quán)重更新過的數(shù)據(jù)樣本集用于訓練下一個預(yù)測模型f2,不斷迭代,直到預(yù)測誤差小于設(shè)定閾值或者達到設(shè)定的迭代次數(shù)。
三、應(yīng)用研究——以國藥一致(000028)及伊利股份(600887)為例
為了評估本文所提出的方法的效果,本文實證研究從選擇來自上海/深圳證券交易所的股票國藥一致(000028)和伊利股份(600887)在2019年1/2季度的股票價格數(shù)據(jù)進行短期趨勢進行預(yù)測。
(一)比較方法及評價指標
為說明所提出的方法的客觀性與合理性,將本文提出的股票短期趨勢預(yù)測模型與以下三種常用的股票短期趨勢預(yù)測模型進行比較。
1.線性回歸預(yù)測模型[14]。該方法假設(shè)前k個股票價格序列數(shù)據(jù)X={x1,x2,…,xk-1}與未來時刻的股票價格之間存在多元線性關(guān)系,即xk可由{x1,x2,…,xk-1}完全線性解釋,不能解釋項為不可觀察的誤差項e,回歸預(yù)測模型如下式所示:
xk=?茁0+?茁1x1+?茁2x2+…+?茁k-1xk-1+e(3)
其中,{?茁1,?茁2,…,?茁k-1}為帶估計的模型參數(shù),由最小二乘法進行估計。
2.支持向量回歸預(yù)測模型[15]。該方法借鑒支持向量思想和拉格朗日算子建立股票短期趨勢的回歸預(yù)測模型,相對于最小二乘回歸,支持向量回歸可用于非線性回歸預(yù)測模型,可處理多重共線性問題,且對數(shù)據(jù)噪聲的抗噪性更好。
3.BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型[16]。該方法基于BP神經(jīng)網(wǎng)絡(luò)建立xk與{x1,x2,…,xk-1}之間的隱射關(guān)系,網(wǎng)絡(luò)包括輸入層(包括k-1個神經(jīng)元,即{x1,x2,…,xk-1})、隱藏層(包括m個神經(jīng)元,即{z1,z2,…,zm})和輸出層(包括1個神經(jīng)元,即xk)。輸入層i與隱藏層j之間的鏈接權(quán)重為Wij,隱藏層j與輸出層k之間的鏈接權(quán)重為Wjk?;谡`差反向傳播算法可利用訓練數(shù)據(jù)求得連接權(quán)重Wij與Wjk。
采用均方根誤差(RMSE)和平均絕對誤差(MAE)來評價各個預(yù)測模型的性能,記N為測試數(shù)據(jù)樣本數(shù)目,xk(i)和x■■(i)分別表示第i個待預(yù)測股票價格的真實值和模型預(yù)測值,則RMSE和MAE的計算公式如下所示:
(二)股票短期預(yù)測結(jié)果分析
利用國藥一致(000028) 2019年1/2季度共118個交易日的數(shù)據(jù)進行實證研究,采樣過去10日的收盤價預(yù)測未來5日的股票價格短期趨勢,一共包括104個預(yù)測數(shù)據(jù),三種對比模型與本文所提出的預(yù)測模型的預(yù)測值與真實值的擬合如圖1所示。
由圖1可以看出,有了這四種股票短期趨勢預(yù)測模型(線性回歸預(yù)測模型、支持向量回歸預(yù)測模型、BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型和本文所提出的預(yù)測模型)對于股票短期趨勢就能進行較好的預(yù)判。但是,當股票短期趨勢出現(xiàn)由重組和突變引起的小幅震蕩情況時,三種對比預(yù)測模型(線性回歸預(yù)測模型、支持向量回歸預(yù)測模型、BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型)的適應(yīng)度都出現(xiàn)不同程度的下降,而本文所提出的預(yù)測模型由于對少量的歷史數(shù)據(jù)進行離散化處理,提高了模型的穩(wěn)定性。因此,對于由重組或突變引起的股票短期趨勢反復(fù)震蕩也能進行較好的預(yù)判,預(yù)測性能優(yōu)于對比的其他三種預(yù)測方法。
為量化比較本文所提出的股票短期趨勢預(yù)測模型與其他三種對比模型的性能,還要計算出每種方法預(yù)測結(jié)果的平均絕對誤差(MAE)和均方根誤差(RMSE),如表1所示。從表1的結(jié)果可以看出,本文所提出的離散分類預(yù)測模型預(yù)測效果最好,預(yù)測結(jié)果的平均絕對誤差和均方根誤差分別為0.75和1.24,這再次說明對股票短期趨勢預(yù)測的少量連續(xù)特征進行離散化處理不但能提高模型預(yù)測的穩(wěn)定性,還能提高模型的預(yù)測準確度。相反,BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型則取得了最差的預(yù)測性能,其平均絕對誤差和均方根誤差分別為1.82和2.31,相比于本文所提出的離散分類預(yù)測模型,性能分別下降了58%和46%。出現(xiàn)該現(xiàn)象的原因在于,股票短期趨勢預(yù)測能用的連續(xù)特征較少,BP神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)過擬合現(xiàn)象,雖然在訓練數(shù)據(jù)上能取得不錯的效果,但對于出現(xiàn)不同模式(如局部反復(fù)震蕩)的測試數(shù)據(jù)則不能進行較好預(yù)測。
為說明本文所提出離散分類預(yù)測模型的優(yōu)越性,還利用伊利股份(600887)2019年1/2季度共118個交易日的數(shù)據(jù)進行驗證,同樣采樣過去10日的收盤價預(yù)測未來5日的股票價格短期趨勢。圖2為這四種預(yù)測模型的預(yù)測結(jié)果與真實值的對比情況,可以看出這幾種模型的預(yù)測結(jié)果與國藥一致基本類似,即對于股票整體上的趨勢都能進行較好的預(yù)判。但當股票短期趨勢出現(xiàn)局部小幅震蕩時,三種對比預(yù)測模型的性能會急劇下降,而本文所提出的離散分類預(yù)測模型則能較好適應(yīng)這一情況。
這四種股票短期趨勢預(yù)測模型在伊利股份預(yù)測的平均絕對誤差和均方根誤差如表2所示??梢钥闯?,本文所提出的離散回歸預(yù)測模型仍然取得了最好的預(yù)測結(jié)果,其平均絕對誤差和均方根誤差分別為0.36和0.52。與國藥一致數(shù)據(jù)的預(yù)測性能不同,這四種預(yù)測模型的平均絕對誤差和均方根誤差都存在較大幅度下降,而其他三種對比方法與本文所提出的方法的性能差距也較小。這是因為國藥一致在這一時期的趨勢較為復(fù)雜多變,存在先上升在下降的整體趨勢,還有較多局部反復(fù)震蕩的現(xiàn)象。而伊利股份在這一時期雖然也存在一些局部反復(fù)震蕩的現(xiàn)象,但整體趨勢是向上走多的,所以預(yù)測模型相對來說比較容易做出預(yù)測。
結(jié)語
股票市場關(guān)系到國家經(jīng)濟發(fā)展、企業(yè)運營和投資者未來盈虧,故對股票短期趨勢預(yù)測對國家行政部門、企業(yè)決策參考和投資者利益都有重大影響。但國家宏觀政策、國內(nèi)外經(jīng)濟形勢、企業(yè)運營狀況和新聞輿論等因素都能影響股票的短期趨勢,導(dǎo)致股價波動存在復(fù)雜性和非線性,因此對股票短期趨勢預(yù)測存在嚴峻挑戰(zhàn)。與之前大多數(shù)基于連續(xù)變量回歸模型的股票預(yù)測方法不同,本文將股票預(yù)測的少量連續(xù)特征離散化,基于核密度方法實現(xiàn)非參數(shù)的類概率估計,隨后運用增強學習技術(shù)建立股票短期趨勢預(yù)測模型。通過國藥一致和伊利股份2019年1/2季度的股票數(shù)據(jù)進行實證研究,本文所提出的股票短期趨勢的離散分類預(yù)測模型不但能取得較好預(yù)測效果,而且預(yù)測穩(wěn)定性更高。
參考文獻:
[1]? 郭琨,周煒星,成思危.中國股市的經(jīng)濟晴雨表作用[J].管理科學學報,2012,(15):1-9.
[2]? 李志輝,王近,李夢雨.中國股票市場操縱對市場流動性的影響研究——基于收盤價操縱行為的識別與監(jiān)測[J].金融研究,2018,(2):135-152.
[3]? 黃苑,謝權(quán)斌,胡新.股票市場漲跌停影響因素及定價效應(yīng)[J].財經(jīng)科學,2018,(10):24-35.
[4]? 徐添添.宏觀經(jīng)濟政策對股票市場影響的實證分析[J].商業(yè)會計,2015,(18):74-76.
[5]? 王磊.基于財務(wù)視角下的股票投資分析[J].現(xiàn)代經(jīng)濟信息,2017,(17):244-245.
[6]? 張楠.基于時間序列的股票趨勢預(yù)測研究及 R 語言應(yīng)用[J].現(xiàn)代商業(yè),2016,(23):112-113.
[7]? 孫曉宇,李卓然.基于線性時間序列模型對金融數(shù)據(jù)分析——以云南白藥股票數(shù)據(jù)為例[J].時代金融,2016,(14):264-265.
[8]? 林藍玉,陳秀芳,張德飛.ARMA 模型在股票中的應(yīng)用[J].經(jīng)濟研究導(dǎo)刊,2018,(26):53,146-148.
[9]? 吳玉霞,溫欣.基于 ARIMA 模型的短期股票價格預(yù)測[J].統(tǒng)計與決策,2016,(23):83-86.
[10]? 柯希均.基于 GARCH 模型的股票市場風險度量[J].當代經(jīng)濟,2016,(32):12-14.
[11]? 陳爽,李丹,高洪韻.馬爾科夫鏈及其在股票價格預(yù)測中的應(yīng)用[J].現(xiàn)代經(jīng)濟信息,2017,(16):288.
[12]? 鄧鳳欣,王洪良.LSTM 神經(jīng)網(wǎng)絡(luò)在股票價格趨勢預(yù)測中的應(yīng)用——基于美港股票市場個股數(shù)據(jù)的研究[J].金融經(jīng)濟,2018,(14):96-98.
[13]? 黃麗明,陳維政,閆宏飛,等.基于循環(huán)神經(jīng)網(wǎng)絡(luò)和深度學習的股票預(yù)測方法[J].廣西師范大學學報:自然科學版,2019,37(1):13-22.
[14]? 李瀟寧.多元線性回歸與時間序列模型在股票預(yù)測中的應(yīng)用[J].科技創(chuàng)業(yè)月刊,2019,32(2):153-155.
[15]? 張鵬.基于 SVR 的股市預(yù)測與擇時研究[J].重慶文理學院學報,2016,35(2):148-151.
[16]? 劉佳祺,劉德紅,林甜甜.基于 BP 神經(jīng)網(wǎng)絡(luò)模型的股票價格研究[J].中國商論,2018,(8):29-30.
Short-term Prediction in Stock Market by Discrete Classification Forecasting Model
Li Xiangzhen
(Zhejiang University City College,Hangzhou 310015,China)
Abstract:Short-term prediction of the stock market is of great significance to government effective market regulation and investor resource allocation optimization,which has become a research hotspot for both academic and industry in recent years.However,the non-linear and non-stationary characteristics of short-term trend in the stock market makes it extremely difficult to predict.To solve the non-linear and non-stationary characteristics of the short-term prediction of the stock market,the stock historical data is discretized and the non-parametric class probability estimation is implemented based on kernel density method.Then,this study utilizes a boosting-based classification model to predict short-term trend of stock market.Experiment data is from the stock price of two companies in the first half of 2019,i.e.,China National Accord Medicines Corporation Ltd and Inner Mongolia Yili Industrial Group Corporation Ltd.Using this data,we compare the proposed method with three short-term forecasting models for stock market,i.e.,linear regression model,support vector regression model and BP neural network.The results show that the proposed discrete classification prediction model achieves better prediction accuracy and is more stable.
Key words:Stock trend;Short-term forecast;Discrete classification model;Boosting model