楊妥 李萬龍 鄭山紅
摘 要:由于股票市場變化存在著多因素、非線性、時變性等特點,傳統(tǒng)預測模型忽視了股指波動影響因素特征提取的合理性與準確性,導致預測效果不理想。鑒于此,提出了融合情感分析和SVM_LSTM特征提取模型的股指預測方法以提高股指預測精度,將SVM和LSTM方法相結(jié)合建立SVM_LSTM模型,提取影響股指波動的情感極性特征、漲跌趨勢特征以及股票技術(shù)指標特征,進而彌補影響股指波動的存在因素實現(xiàn)股指預測。通過與傳統(tǒng)股指預測方法相比較,該方法實驗結(jié)果的MSE(均方差)達到了0.172 2,比傳統(tǒng)模型的均方差縮小了約0.083 7,證明了該預測方法在準確度上效果更好。
關鍵詞:股指預測;技術(shù)指標;LSTM;情感分析
DOI:10. 11907/rjdk. 192512 開放科學(資源服務)標識碼(OSID):
中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2020)008-0014-05
Abstract: Due to the multi-factor, non-linear and time-varying characteristics of stock market changes, traditional prediction models ignore the rationality and accuracy of extracting the characteristics of factors that affect stock index fluctuations, resulting in unsatisfactory prediction effect. Therefore, this article puts forward the integration analysis and SVM_LSTM emotional feature extraction model of stock index prediction method to improve the predictive accuracy of the stock index. By combining the SVM and the LSTM method SVM_LSTM model is established to extract the influence of stock index volatility emotion polarity features, price trend and the characteristics of stock technical indicators so as to make up for the factors affecting the existence of the stock index fluctuation index prediction.Compared with the traditional stock index prediction method, the MSE (mean square deviation) of the experimental results of the proposed method reached 0.172 2, which is about 0.083 7 smaller than the mean square deviation of the traditional model, proving that the proposed prediction method has better accuracy effect.
Key Words: stock index prediction; technical indicators; LSTM; emotional analysis
0 引言
股指預測實際就是時間序列的預測,是指利用股市中各項技術(shù)指標的歷史數(shù)據(jù)建立預測模型,挖掘各大技術(shù)指標在時間序列上的變化規(guī)律。然而,以往的股指預測方法中,常常選用單一的股票技術(shù)指標作為影響股指波動的特征參數(shù),忽視了股指波動存在多種影響因素的特性[1-4],造成預測結(jié)果不理想,給予了投資者錯誤引導。由此可見,提高預測模型準確度十分重要,不僅能夠為金融領域的發(fā)展提供幫助,還可以給予投資者正確引導,從而降低投資者的投資風險。因此,股指預測研究具有重要意義[5-6]。
近年來,人們發(fā)現(xiàn)影響股票市場波動的因素眾多。Gilbert等[7]從LiveJournal中提取大眾焦慮指標,根據(jù)指標變化情況進行預測,發(fā)現(xiàn)大眾情緒在一定程度上對股票市場有一定波動影響;董理等[8]發(fā)現(xiàn)大眾評論信息對股票指數(shù)波動有一定影響,因此將文本信息與技術(shù)指標相結(jié)合,采用機器學習的方法(SVR)進行模型預測,并與傳統(tǒng)模型方法進行比較,獲得了相對較好的預測精度;Schumaker等[9]使用3種不同文本表示方法,抽取其中有價值的詞條,利用支持向量機(SVM)訓練器進行分析,發(fā)現(xiàn)將文字字段和股票價格一起訓練可以獲得較好表現(xiàn);Nikfarjam等[10]通過采用SVM分類器對比新聞文本和股票價格兩種方法對股票預測的準確性,最終發(fā)現(xiàn)將新聞文本與股票價格兩種方法相結(jié)合更能提高股票預測效果;宋敏晶[11]采用文本分類技術(shù)提取股票評論數(shù)據(jù)的情感值,驗證了股票評論與股票市場存在一定聯(lián)系。
綜上可以看出,已有研究大多從某個角度進行分析,忽視了股指預測最優(yōu)方法利用及特征組合利用的重要價值,僅僅依靠單一影響因素進行股指預測,很難獲得理想預測效果。同時,股票市場自身是一個非線性、不穩(wěn)定的時間序列,使用線性結(jié)構(gòu)模型進行預測并不能很好地表示這種復雜關系[12-16]。因此,本文在影響股票波動的特征因素上加以改進,在股票技術(shù)指標特征的基礎上,融入情感分類結(jié)果和股指漲跌趨勢預測結(jié)果作為影響股指波動的特征因素進行股指預測。在特征提取上,提出利用SVM_LSTM組合訓練模型對特征參數(shù)進行提取,同時采用BP神經(jīng)網(wǎng)絡進行股指預測,改進了采用單一影響因素作為特征值的特征提取方式,通過與多種預測方法相比較,證明本文提出的方法能夠更好地提高模型預測效果。
1 相關工作
1.1 LSTM神經(jīng)網(wǎng)絡
LSTM(Long short-Term Memory)全稱長短時記憶神經(jīng)網(wǎng)絡,是一種時間循環(huán)神經(jīng)網(wǎng)絡,也即在循環(huán)神經(jīng)網(wǎng)絡的基礎上,在隱層的各神經(jīng)單元上加入記憶單元,使時間序列上的記憶信息可以控制,使其更適用于處理和預測時間序列問題。LSTM神經(jīng)網(wǎng)絡通過控制門(輸入門[it]、遺忘門[ft]、輸出門[ot])調(diào)節(jié)之前信息與當前信息的記憶和遺忘程度,將短期記憶與長期記憶結(jié)合起來,使循環(huán)神經(jīng)網(wǎng)絡具備了長期記憶能力,并且一定程度上解決了梯度消失的問題。因此,本文采用LSTM方法對技術(shù)指標數(shù)據(jù)進行特征提取,其工作過程可以表述為:
1.2 數(shù)據(jù)采集
股票的技術(shù)指標數(shù)據(jù)采用Python爬蟲進行收集處理,其中包含開盤價、成交量、MACD、KDJ、ROC、RSI 6個股票技術(shù)指標。
文本數(shù)據(jù)采集選擇以排名靠前的“東方財富網(wǎng)”作為收集數(shù)據(jù)來源,通過訪問移動端頁面,對股民在股吧中的言論信息進行搜索,收集每日股民對上證指數(shù)(上海證券綜合指數(shù))的股票評論及針對股市大盤趨勢的評論,以滿足本文預測所需數(shù)據(jù)量。收集時間為2018年10月18日至12月7日,共37個交易日,約11萬條上證綜指的股民言論信息,文本數(shù)據(jù)信息內(nèi)容如表1所示。
2.悲催,4天的利潤不夠今天一天跌的,清倉回家種地\&]
2 融合情感分析與SVM_LSTM模型
本文從影響股票技術(shù)指標波動的主要因素出發(fā),融入情感分類結(jié)果和股指漲跌趨勢分析值作為股指預測的特征因素,從而提高預測精度[17-19]。同時,基于LSTM神經(jīng)網(wǎng)絡的長期存儲記憶優(yōu)勢以及SVM處理分類問題的準確性優(yōu)勢,將這兩種方法結(jié)合起來,對股指預測中訓練所需的特征參數(shù)進行提取,提出SVM_LSTM特征提取模型,以提高特征提取的準確性和有效性,進而提高股指預測效果。基本步驟如下:
(1)模型輸入包含處理好的文本數(shù)據(jù)[D={(x1,y1),][(x2,y2)][?(xn,yn)}],其中[xi]代表每一條熱帖的文本數(shù)據(jù),[yi]代表每條熱帖數(shù)據(jù)的情感標簽,[xi∈Rn,yi∈(-1,1),][i=1,2,3,?n],以及收集到的股票技術(shù)指標數(shù)據(jù)[I={x1,x2,?,xi}],其中[xi]表示第i組技術(shù)指標數(shù)據(jù)。
(2)針對輸入的文本信息D,采用支持向量機對文本數(shù)據(jù)進行情感分類,融入情感分類結(jié)果作為模型預測的特征參數(shù)(S:)。SVM_LSTM特征提取模型針對輸入的技術(shù)指標數(shù)據(jù),采用LSTM神經(jīng)網(wǎng)絡捕捉股票技術(shù)指標的時間序列特征,分別將前9天和當天技術(shù)指標構(gòu)成的向量作為循環(huán)神經(jīng)網(wǎng)絡每一時刻的輸入(C:),同時,針對股指漲跌趨勢特征提取問題,采用SVM分類方法對收集的股票技術(shù)指標進行趨勢分析,得到股票漲跌趨勢結(jié)果(T:),作為模型預測的特征參數(shù)。將最終特征向量[F={S:T:C}]輸入到BP神經(jīng)網(wǎng)絡中進行股指預測,最后輸出股指預測結(jié)果。其模型訓練過程如圖2所示。
2.1 言論信息的情感特征提取
目前,情感分析方法主要有:基于詞典和規(guī)則的方法、基于機器學習的方法、基于深度學習的方法以及其它方法?;谠~典的方法主要利用情感詞典資源,該方法依賴領域、時間、語言等方面的背景知識,且很難及時捕捉新詞、變形詞,使如何構(gòu)造高質(zhì)量的情感詞典成為一大難點;基于規(guī)則的情感分類方法,雖然可以在訓練前加入限定規(guī)則提高分類結(jié)果的準確率,但是在數(shù)據(jù)量較大的情況下,規(guī)則的維護卻比較復雜且不易擴展;基于深度學習的方法(LSTM)可以提取到更復雜的語義特征信息,在情感分析任務上具有很好表現(xiàn),但是深度神經(jīng)網(wǎng)絡訓練需要大量樣本數(shù)據(jù),在數(shù)據(jù)量少的情況下,訓練得到的情感分析結(jié)果往往準確率不高?;跈C器學習的方法(SVM)不僅在小樣本中存在優(yōu)勢,而且使用傳統(tǒng)的機器學習模型進行情感分析,在數(shù)據(jù)量少的情況下與深度學習對比訓練得到的模型泛化性更佳,以上情感分析方法對比實驗結(jié)果如表2所示。
本文選用支持向量機方法提取情感極性特征,基本步驟如下:
(1)將處理后的文本數(shù)據(jù)利用train_test_split函數(shù),構(gòu)建7∶3的訓練集和測試集。
(2)[D={(x1,y1),(x2,y2)?(xn,yn)}]作為訓練樣本集,其中[xi]代表第i條熱帖文本數(shù)據(jù),[yi]代表第i條熱帖數(shù)據(jù)存在的情感因素(情感標簽),[xi∈Rn,yi∈(-1,1),i=1,2,3,][?n]。訓練模型就是基于訓練集D在樣本空間中找到一個劃分超平面,將不同類別的樣本分開。劃分超平面通過決策函數(shù)[f(x)=σ(WTx+b)]找到最大間隔超平面,其中[W=(w1,w2,?,wd)]為法向量,b為位移項。訓練結(jié)果:[f(x)>0或f(x)<0],如果其訓練結(jié)果大于0,則訓練樣本被標記為1,反之結(jié)果小于0則訓練樣本被標記為-1。
(3)利用SVM分類器,結(jié)合本文自構(gòu)建的詞典進行情感分類,得到情感極性值(用0,1表示),0代表消極情緒,1代表積極情緒。將訓練得到的結(jié)果作為股指預測的特征參數(shù),用大寫字母S表示,記為[S={(x1,s1),(x2,s2),?,(xn,][sn)}],其中[xi]代表第i條樣本信息,[si]代表第i條文本信息的情感極性值。
2.2 股票技術(shù)指標特征提取
LSTM神經(jīng)網(wǎng)絡擁有記憶單元,能夠?qū)σ恍┯幸饬x的信息予以長期保存,并通過“門”結(jié)構(gòu)控制信息,同時LSTM神經(jīng)網(wǎng)絡在修正權(quán)重的過程中,有些誤差可以通過門的控制直接遺忘,并且善于處理時序問題。由此,本文選用LSTM神經(jīng)網(wǎng)絡進行特征提取。技術(shù)指標特征提取方法如圖3所示,每天的技術(shù)指標數(shù)據(jù)用[xi]表示輸入,輸入到LSTM訓練模型中通過“門”的控制進行訓練,即:[D=(x1,x2,x3,?,x10)],其中[xi∈R,i=1,2,?10],前一時刻的輸出[h(9)]為[x10]時刻的輸入;Y為輸出結(jié)果;[xi]表示i時刻下的樣本。利用LSTM捕捉股票技術(shù)指標的時間序列特征,分別利用前9天和當天技術(shù)指標構(gòu)成的向量作為循環(huán)神經(jīng)網(wǎng)絡每一時刻的輸入特征,提取最后一次訓練結(jié)果Y作為股指預測模型的訓練特征。
2.3 股指漲跌趨勢特征提取
漲跌趨勢特征選取主要考慮股票技術(shù)指標原有特性以及股票指數(shù)未來走勢等信息。本文充分考慮各技術(shù)指標的關聯(lián)性,選取開盤價、成交量、MACD(指數(shù)平滑異同平均線)、KDJ(隨機指標)、RSI(相對強弱指標)、ROC(變動率指標)6大指標,采用SVM方法對技術(shù)指標數(shù)據(jù)進行股票漲跌趨勢分析,提取漲跌趨勢特征信息?;静襟E如下:①在樣本空間中,尋找最大間隔劃分超平面:[wTx+b=0];②為尋找具有最大間隔的劃分超平面,就要找到能夠滿足上式的約束參數(shù)w和b:[min12w2,其中yi(wTxi+b)1,][i=1,2,?,m]。
訓練樣本結(jié)果大于0的定義為上漲趨勢,結(jié)果小于0定義為下跌趨勢。將訓練得到的結(jié)果作為股指預測的特征參數(shù),用大寫字母T表示,記為[T={(x1,t1),(x2,t2),?,][(xn,tn)}],其中[xi]代表第i個樣本,[ti]代表第i個訓練樣本的結(jié)果值。
3 實驗
3.1 數(shù)據(jù)處理
文本數(shù)據(jù)處理:首先將收集的文本數(shù)據(jù)按照一定規(guī)則進行處理,其中包括對原始數(shù)據(jù)的去重處理,減少冗余信息,同時對其進行標點符號及停用詞去除處理,得到凈化后的數(shù)據(jù);然后按照日期過濾掉非當日交易時間段(收盤15:00到次日開盤9:00之間)發(fā)布的帖子,并將處理后的文本數(shù)據(jù)按照日期分別存儲在不同的文件中,得到處理后的價值信息;最后利用Jieba分詞工具并結(jié)合自主構(gòu)建的詞典對預處理后的數(shù)據(jù)進行分詞處理,得到更加準確的詞信息。
根據(jù)《證券投資大辭典》[20]對金融領域?qū)I(yè)名詞及常用術(shù)語進行總結(jié)歸納,同時對網(wǎng)頁中查詢到的股民常用網(wǎng)絡語言進行收集整理,在“知網(wǎng)”情感詞典的基礎上加入整理后的金融領域?qū)I(yè)術(shù)語,自行建立金融領域情感詞典。情感詞典示例如表3所示。
3.2 融合情感分析特征有效性
本文選用情感詞典、深度學習、機器學習方法,分別對收集的文本信息進行訓練,實驗結(jié)果如表4所示。
基于機器學習的方法(SVM)在利用文本信息進行情感分析的優(yōu)勢在于,它的決策函數(shù)是由支持向量確定,計算復雜度取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),從而避免了維數(shù)災難問題。同時,SVM不僅可以有效抽取關鍵樣本,還可以剔除大量冗余樣本,確保分類信息的準確性,從而得到準確的情感極性特征信息,實驗結(jié)果證明了應用SVM進行情感特征提取的合理性。同時,對不同特征下的參數(shù)應用神經(jīng)網(wǎng)絡進行股指預測,實驗結(jié)果采用MSE以及股價損失值,證明融入情感分析特征進行股指預測準確和有效。融入情感分析特征實驗結(jié)果如表4所示,均方差[MSE=1ni=1n(yi-y)2],損失值[loss=yi-y],其中y是真實值,[y]是預測值,n為樣本個數(shù)。
3.3 實驗設置
選取最佳特征組合構(gòu)建模型SVM_LSTM與其它特征組合預測模型進行對比,在實驗對比過程中,其它5個特征預測模型分別是:Model_SVM、Model_BP、SVR_emotion、BP_emotion、SVM_BP,以上模型均采用特征值選取和預測方法選擇這兩種方式對預測結(jié)果產(chǎn)生的影響進行對比。在數(shù)據(jù)預處理過程中,對特征值進行標準化處理,并將股指數(shù)據(jù)進行一定倍數(shù)的縮放。
Model_SVM和Model_BP均利用股票市場中的技術(shù)指標值作為特征,分別采用SVM算法和BP網(wǎng)絡方法進行模型預測;SVR_emotion和BP_emotion則是利用Jieba分詞得到的詞信息、結(jié)合情感詞典得到的情感詞信息、采用SVM分類方法得到的情感分類結(jié)果和技術(shù)指標值4種結(jié)果作為特征,分別采用支持向量機SVR的方法和BP網(wǎng)絡方法進行股指預測;SVM_BP模型將得到的情感分類結(jié)果和技術(shù)指標值作為特征,利用SVM方法進行情感分類,利用BP神經(jīng)網(wǎng)絡進行股指預測。實驗結(jié)果用MSE作為評判標準以衡量以上預測模型的預測準確性。
3.4 實驗結(jié)果與分析
根據(jù)上述實驗設置,本文應用SVM_LSTM特征提取模型,以情感分析結(jié)果、漲跌趨勢結(jié)果和技術(shù)指標值相結(jié)合的方式作為股指預測的特征參數(shù),采用BP神經(jīng)網(wǎng)絡進行預測并與其它預測方法進行實驗對比,實驗結(jié)果如表5所示。
從實驗對比結(jié)果可以看出,模型Model_SVM和Model_BP僅僅依靠技術(shù)指標作為特征值進行股指預測,其預測效果不及采用增加其它影響因素的模型。產(chǎn)生這種結(jié)果的原因在于影響股票市場價格變動的因素眾多,單純依靠股票市場技術(shù)指標值并不能真正反映股票市場的變化情況。雖然,SVR_emotion和BP_emotion兩個模型融合了多種可能影響股票指數(shù)波動的因素作為特征值,但是預測效果并不理想。原因在于情感詞典構(gòu)建和數(shù)據(jù)源選取不同,特征選取方法也不盡合理,造成情感分類結(jié)果值不準確,從而影響了股指預測效果。
實驗結(jié)果對比如圖4—圖6所示,從中可見融合情感分析的SVM_LSTM模型股票指數(shù)預測準確、有效,且具有相對最小的MSE值。在股票走勢變化上,以情感極性信息、漲跌趨勢信息和技術(shù)指標為特征,采用BP神經(jīng)網(wǎng)絡進行預測,得到的預測效果更接近真實股票變化,預測值和真實值之間的離散程度較小。以上結(jié)果充分說明,本文提出的方法可以獲得更加理想的預測效果。
4 結(jié)語
本文股指預測研究中融入情感分析影響因素以及股指漲跌趨勢信息,將其作為股指預測的特征參數(shù),增加了影響股指預測的可能因素,采用深度學習與機器學習相結(jié)合的方法,構(gòu)建SVM_LSTM特征提取訓練模型并進行股指預測,提高了股指預測準確率。實驗對比分析發(fā)現(xiàn),融入情感分析和漲跌趨勢特征的股票技術(shù)指標預測模型能夠獲得更好的預測效果。下一步工作是繼續(xù)收集影響股票行情波動的新聞信息數(shù)據(jù),結(jié)合深度學習等方法進行特征提取并建立預測模型,進一步提升模型預測效果。
參考文獻:
[1] 黃霞. 基于神經(jīng)網(wǎng)絡和遺傳算法的金融數(shù)據(jù)分析方法研究[D]. 廣州:廣東財經(jīng)大學,2017.
[2] 楊春霞. 金融復雜性研究與金融市場建模[D]. 合肥:中國科學技術(shù)大學,2006.
[3] 霍咪咪. 金融風險的建模與管理方式分析及研究[J]. 現(xiàn)代經(jīng)濟信息,2017(21):240-241.
[4] 張栗粽,王謹平,劉貴松,等. 面向金融數(shù)據(jù)的神經(jīng)網(wǎng)絡時間序列預測模型[J]. 計算機應用研究,2018,35(9):2632-2637.
[5] FAMA E F. Market efficiency, long-term returns, and behavioral finance[J]. ?Journal of Financial Economics,1998,49:283-306.
[6] 孫培星. 基于情感傾向性的網(wǎng)絡輿情分析及演化預測研究[D]. 長春:吉林大學,2016.
[7] GILBERT E,KARAHALIOS K.Widespread worry and the stock market[C]. Fourth International AAAI conference on Weblogs and Social Media,2010:58-65.
[8] 董理,王中卿,熊德意. 基于文本信息的股票指數(shù)預測[J]. 北京大學學報(自然科學版),2017,53(2):273-278.
[9] SCHUMAKER R P, CHEN H. Textual analysis of stock market prediction using breaking financial news: the AZFinText system[J]. ?ACM Transactions on Information System, 2009,27(2):1139-1141.
[10] NIKFARJAM A,EMADZADEH E,MUTHAIYAH S.Text mining approaches for market prediction[C]. International Conference on Computer & Automation Engineer, 2010:256-26.
[11] 宋敏晶. 基于情感分析的股票預測模型研究[D]. 哈爾濱:哈爾濱工業(yè)大學,2013.
[12] 李玉梅. 基于互聯(lián)網(wǎng)評論的股票市場趨勢預測[D]. 哈爾濱:哈爾濱工業(yè)大學,2012.
[13] 陳佳,劉冬雪,武大碩. 基于特征選取與LSTM模型的股指預測方法研究[J]. 計算機工程與應用,2019,55(6):108-112.
[14] 張世軍. 基于網(wǎng)絡輿情的SVM股票價格預測研究[D]. 南京:南京信息工程大學,2014.
[15] 張玲,劉臣. 基于深度記憶網(wǎng)絡的特定目標情感分類研究[J]. 軟件導刊,2019(12):40-43.
[16] 李佳,黃之豪,陳冬蘭. 基于LSTM等深度學習方法的股指預測研究[J]. 軟件導刊,2019,18(9):17-21.
[17] 黃霞. 基于神經(jīng)網(wǎng)絡和遺傳算法的金融數(shù)據(jù)分析方法研究[D]. 廣州:廣東財經(jīng)大學,2017.
[18] 謝夢蝶,秦江濤. 遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡預測股指研究[J]. 軟件導刊,2019,18(4):41-45.
[19] 陳佳,劉冬雪,武大碩. 基于特征選取與LSTM模型的股指預測方法研究[J]. 計算機工程與應用,2019,55(6):108-112.
[20] 韓雙林,馬秀巖. 證券投資大辭典[M]. 哈爾濱:黑龍江人民出版社,1993.
(責任編輯:孫 娟)