毛月月,張秋悅
(1.貴州師范大學(xué)大數(shù)據(jù)與計算機科學(xué)學(xué)院,貴陽550025;2.貴州師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,貴陽550025)
股票市場是國家經(jīng)濟和金融活動的重要體現(xiàn),在各國的經(jīng)濟發(fā)展中發(fā)揮著重要的作用,同時對于國家、企業(yè)、個人都有著重要的影響。如果能夠提前掌握股市的動向,將會給投資機構(gòu)和投資者帶來收益。但是由于股票市場的不確定性和波動性,如果股民盲目投資,將會帶來不可計量的損失。因此,股票的預(yù)測一直是一項具有挑戰(zhàn)性和重要意義的任務(wù)。
股票預(yù)測,作為一個交叉的研究方向,數(shù)學(xué)家、經(jīng)濟學(xué)家、計算機領(lǐng)域的研究者們都在這個領(lǐng)域做了相當(dāng)多的工作。這些工作主要分為兩類,第一類方法是僅使用股票的歷史數(shù)據(jù)[1-6]去預(yù)測股市,其忽略了影響股市的關(guān)鍵來源:金融新聞和社交平臺的股民評論。近年來,大數(shù)據(jù)的計算技術(shù)、人工智能等技術(shù)的發(fā)展,促使人們不僅可以處理結(jié)構(gòu)化的數(shù)據(jù),對于非結(jié)構(gòu)化的文本數(shù)據(jù)也能很好的處理。深度學(xué)習(xí)技術(shù)的廣泛使用,使得自然語言處理的能力逐漸提升。越來越多的研究者開始使用數(shù)據(jù)挖掘技術(shù)從大量金融新聞、社交媒體中挖掘重要信息,研究其和股票歷史數(shù)據(jù)的相關(guān)性,通過結(jié)合兩者一起預(yù)測股市的波動情況,從而為股民們提供建議。下面從以上兩種方法對相關(guān)的工作進行介紹。
金融領(lǐng)域的許多分析和假設(shè)表明,股票市場是可預(yù)測的。研究者們通過對過去股票市場的數(shù)據(jù)進行研究來預(yù)測股市,下面介紹其預(yù)測使用的方法。
Tang C 等人[1-2]都使用分段線性表示(PLR)來確定歷史數(shù)據(jù)的波谷或波峰。前者結(jié)合高斯過程分類來預(yù)測股票價格的轉(zhuǎn)折點。后者結(jié)合隨機森林去分類和預(yù)測轉(zhuǎn)折點,最后使用深度遞歸神經(jīng)網(wǎng)絡(luò)(DRNN)設(shè)計投資決策模型。
傳統(tǒng)的模型都是基于歷史數(shù)據(jù)的統(tǒng)計特征和圖像特征來分析數(shù)據(jù),其只通過默認(rèn)值固定每一個時間窗口來獲取股票數(shù)據(jù)中不同指標(biāo)的特征,這樣預(yù)測的結(jié)果精度不高。RIT Ritzmann Junior 等人[3]提出使用遺傳算法來最優(yōu)化時間窗口的值,然后使用支持向量機(SVM)來決定未來交易是購買、持有還是出售。
傳統(tǒng)的方法大多數(shù)使用線性模型來預(yù)測股票,例如支持向量機、決策樹、隨機森林等。這種方法的優(yōu)點是僅使用結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)的處理比較簡單且運算速度快。這種線性統(tǒng)計模型的主要缺點是無法解釋各種公司股票價格之間存在的潛在動態(tài)和關(guān)系,而且股票數(shù)據(jù)是帶時間屬性的,這種方法也不能捕獲其時序特征。
CHEN Y 等人[4]提出深度學(xué)習(xí)的方法去預(yù)測股票的變化趨勢和持續(xù)時間。使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)去提取短期的特征,使用PLR 對時間序列數(shù)據(jù)進行分割,提取長期的特征,最后通過雙重注意力機制去關(guān)注長短期特征對股票預(yù)測的影響。
ZHANG K 等人[5]提出使用生成對抗網(wǎng)絡(luò)來預(yù)測股票市場,其以多層感知機(MLP)為鑒別器,長短期記憶網(wǎng)絡(luò)(LSTM)為生成器來預(yù)測收盤價,這是一種新方法的突破,但是其僅僅和基準(zhǔn)的方法做了對比,值得繼續(xù)深入和改進。
這種方法的優(yōu)點是能夠捕獲到股票數(shù)據(jù)的時序特征,缺點是由于僅使用單一的歷史股票數(shù)據(jù),其預(yù)測結(jié)果精度不高,忽略了突發(fā)事件對股市造成的即時影響。
股票市場中,股市的波動受國家宏觀經(jīng)濟發(fā)展、法律法規(guī),以及股民的情緒等因素的影響。因此,結(jié)合歷史股票數(shù)據(jù)以及相應(yīng)的金融新聞和股民的評論進行分析具有重要意義?;趯π侣勎谋镜奶卣魈崛》绞竭M行劃分,使用的方法分為如下三個類型。
Xiao Ding 等人[6]證明了使用結(jié)構(gòu)化的事件去預(yù)測股票的有效性。其總結(jié)了前任的不足,即以前關(guān)于新聞驅(qū)動的股票市場預(yù)測的工作通過詞袋模型、命名實體識別和名詞短語的方式提取文本特征,得到的僅是文本淺層的特征,這些特征不能捕獲結(jié)構(gòu)化的實體關(guān)系信息。其提出采用事件的結(jié)構(gòu)化表示即:E=(O1,P,O2,T),其中O1代表參與者,P 代表行動,O2代表執(zhí)行動作的對象,T 代表時間戳,用于將股票數(shù)據(jù)與新聞數(shù)據(jù)對齊。以此來實現(xiàn)股票漲、跌的預(yù)測。
Xiao Ding 等人[7]在2015 年提出一個基于深度學(xué)習(xí)方法的事件驅(qū)動型股票預(yù)測模型。首先,將大型的財經(jīng)新聞?wù)Z料轉(zhuǎn)換為詞向量的形式。其次,不同于文獻[6],這里使用神經(jīng)張量網(wǎng)絡(luò)去獲取新聞的事件表示,然后將提取到的具有時間順序的向量表示作為輸入,采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)去提取長、中、短期的特征,長期使用30 天的數(shù)據(jù),一天的事件通過取平均值獲得。將其按照時間順序排列,設(shè)置一個滑動窗口,同一個窗口內(nèi)的事件進行卷積操作。之后,將所有卷積層輸出的向量進行最大池化(獲得局部的最大特征),得到最終的長期事件向量。中期時間定義為過去的一周,方法和上面類似,短期事件使直接將前一天的所有事件求平均。最終得到長、中、短期的三個事件向量,將三者拼接為一個向量表示,聯(lián)系這個特征向量和股票價格,得到最后的分類結(jié)果即股票價格的漲跌。
Dev Shah 等人[8-12]都提出基于詞典的新聞情緒分析模型來研究新聞文章中情感表達對股票的影響。首先需要建立一個情感詞典,然后對新聞文本進行情感極性分析,最后結(jié)合新聞的情感極性、股票歷史數(shù)據(jù)以及相鄰日收盤價的方差來進行股市的預(yù)測。
Manoj S Hegde 等人[13]提出利用公司歷史股價和金融新聞及社交媒體內(nèi)容的情緒得分進行預(yù)測。與上述方法不同的是,其使用了LSTM 模型去捕獲數(shù)據(jù)中的時間序列信息,同時還提出了基于CNN 分類器的推薦模塊,最后采用背包投資模型來使投資者收益最大化,投資最小化。
Luca Cagliero 等人[14]提出了一種將新聞信息、歷史股票價格相結(jié)合的趨勢逆轉(zhuǎn)方法來量化股票交易。文章中主要研究三個問題,在基于分類的趨勢逆轉(zhuǎn)方法中新聞信息是否值得考慮?新聞信息對于股票預(yù)測有什么影響?什么特征應(yīng)該結(jié)合新聞情感分析去最大化趨勢逆轉(zhuǎn)的平均回報率?其使用方法也是對新聞進行情感分析,不同的是其提出了基于股票預(yù)測分類的趨勢反轉(zhuǎn)策略。其監(jiān)控每只股票的每日收盤價格變化,以檢測用戶在持續(xù)時間的上升趨勢或下降趨勢,最后針對上一步檢測到的每一個趨勢,訓(xùn)練分類器以便于預(yù)測未來五天的收盤價格變化。
Ryo Akita 等人[15]提出將每一篇新聞文檔表示成一個固定長度的向量,然后將所有文章的向量表示連接起來,同時與經(jīng)過標(biāo)準(zhǔn)化處理的股票價格一同送入長短期記憶網(wǎng)絡(luò)(LSTM)中捕獲文本和股票的時序信息,最后通過回歸輸出預(yù)測值。LSTM 捕獲文本和股票的時序信息時,LSTM 的輸入是文本序列和股票價格序列的連接,其存在一個問題,即文本信息的表示維度遠(yuǎn)大于股票數(shù)值表示的維度,其容易造成文本信息對于預(yù)測的影響更大,導(dǎo)致預(yù)測精度的不平衡。為了解決這個問題,文章提出對向量的大小進行縮放,以使每個向量具有相同的維數(shù)。
Che-Yu Lee 等人[16]提出基于遞歸神經(jīng)網(wǎng)絡(luò)的股票預(yù)測模型,采用Word2Vec 將新聞標(biāo)題轉(zhuǎn)化為詞向量的形式,然后使用CNN 提取文本的局部特征,將提取的文本特征向量和過去的股票價格送入到LSTM 中,其可以捕獲金融新聞和價格的長期時間依賴性,最后預(yù)測輸出股票類別,分別是上升、下降、持平。
結(jié)合非結(jié)構(gòu)化的文本數(shù)據(jù)(金融新聞、社交媒體數(shù)據(jù))和結(jié)構(gòu)化的歷史數(shù)據(jù)(股票數(shù)值數(shù)據(jù))來對股市進行預(yù)測時,如何從眾多文本數(shù)據(jù)中挖掘出對于股票價格影響的信息十分重要。同時,如何把非結(jié)構(gòu)化的文本數(shù)據(jù)表示成輕量、精簡而不失其語義信息的抽象特征十分重要。
以上就是對近年來股票預(yù)測方法的總結(jié),我們可以看出使用股票的歷史數(shù)據(jù)去預(yù)測股市,其忽略了市場波動中金融新聞和公眾評論所造成的影響。結(jié)合歷史數(shù)據(jù)和金融新聞和公眾評論去預(yù)測股票時,如何準(zhǔn)確、快速地從文本中挖掘出關(guān)鍵信息十分重要。基于深度學(xué)習(xí)的預(yù)測方法能更好地提取文本和股票數(shù)據(jù)的特征,特別是循環(huán)神經(jīng)網(wǎng)絡(luò)其能夠捕獲數(shù)據(jù)的時序特征。
股票預(yù)測領(lǐng)域大多數(shù)是確定并跟蹤持續(xù)的價格趨勢,這個趨勢在未來幾天將會持續(xù)。相反,利用機器學(xué)習(xí)算法預(yù)測股市趨勢的逆轉(zhuǎn)的研究相對較少,未來可以在這個方向上深入研究。