李曉寒,賈華丁,程雪,李太勇
(西南財(cái)經(jīng)大學(xué) 經(jīng)濟(jì)信息工程學(xué)院,成都 611130)(?通信作者電子郵箱lixiaohan134@163.com)
基于改進(jìn)遺傳算法和圖神經(jīng)網(wǎng)絡(luò)的股市波動(dòng)預(yù)測(cè)方法
李曉寒*,賈華丁,程雪,李太勇
(西南財(cái)經(jīng)大學(xué) 經(jīng)濟(jì)信息工程學(xué)院,成都 611130)(?通信作者電子郵箱lixiaohan134@163.com)
針對(duì)支持向量機(jī)(SVM)、長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)等智能算法在股市波動(dòng)預(yù)測(cè)過程中股票評(píng)價(jià)特征選擇困難及時(shí)序關(guān)系維度特征缺失的問題,為能夠準(zhǔn)確預(yù)測(cè)股票波動(dòng)、有效防范金融市場(chǎng)風(fēng)險(xiǎn),提出了一種基于改進(jìn)遺傳算法(IGA)和圖神經(jīng)網(wǎng)絡(luò)(GNN)的股市波動(dòng)預(yù)測(cè)方法——IGA-GNN。首先,利用相鄰交易日間的時(shí)序關(guān)系構(gòu)建股市交易指標(biāo)圖數(shù)據(jù);其次,通過評(píng)價(jià)指標(biāo)特性優(yōu)化交叉、變異概率來改進(jìn)遺傳算法(GA),從而實(shí)現(xiàn)節(jié)點(diǎn)特征選擇;然后,建立圖數(shù)據(jù)的邊與節(jié)點(diǎn)特征的權(quán)重矩陣;最后,運(yùn)用GNN進(jìn)行圖數(shù)據(jù)節(jié)點(diǎn)的聚合與分類,實(shí)現(xiàn)了股市波動(dòng)預(yù)測(cè)。在實(shí)驗(yàn)階段,所研究的股票總評(píng)價(jià)指標(biāo)數(shù)為130個(gè),其中IGA在GNN方法下提取的有效評(píng)價(jià)指標(biāo)87個(gè),使指標(biāo)數(shù)量降低了33.08%。應(yīng)用所提IGA在智能算法中進(jìn)行特征提取,得到的算法與未進(jìn)行特征提取的智能算法相比,預(yù)測(cè)準(zhǔn)確率整體提升了7.38個(gè)百分點(diǎn);而與應(yīng)用傳統(tǒng)GA進(jìn)行智能算法的特征提取相比,應(yīng)用所提IGA進(jìn)行智能算法的特征提取的總訓(xùn)練時(shí)間縮短了17.97%。其中,IGA-GNN方法的預(yù)測(cè)準(zhǔn)確率最高,相較未進(jìn)行特征提取的GNN方法的預(yù)測(cè)準(zhǔn)確率整體提高了19.62個(gè)百分點(diǎn);而該方法與用傳統(tǒng)GA進(jìn)行特征提取的GNN方法相比,訓(xùn)練時(shí)間平均縮短了15.97%。實(shí)驗(yàn)結(jié)果表明,所提方法可對(duì)股票特征進(jìn)行有效提取,預(yù)測(cè)效果較好。
股市預(yù)測(cè);遺傳算法;圖神經(jīng)網(wǎng)絡(luò);機(jī)器學(xué)習(xí);特征選擇
股票價(jià)格走勢(shì)是一種非線性、非穩(wěn)定的時(shí)間序列,在過去三十多年里,為能夠有效防范金融風(fēng)險(xiǎn),對(duì)股票價(jià)格的分析和預(yù)測(cè)從未停止過。實(shí)際上,關(guān)于股票價(jià)格預(yù)測(cè)的研究發(fā)展歷程與信息技術(shù)的迭代息息相關(guān),最早的股價(jià)預(yù)測(cè)研究可以追溯到20世紀(jì)末,Lo等[1]證明了股票價(jià)格并不會(huì)遵循非隨機(jī)漫步理論,從而佐證了股市價(jià)格的可預(yù)測(cè)性。隨著計(jì)算機(jī)技術(shù)的發(fā)展,對(duì)于股市價(jià)格波動(dòng)的預(yù)測(cè)從最初的人工逐漸轉(zhuǎn)變?yōu)橛?jì)算機(jī)算法:Dierks等[2]采用遺傳算法通過歷史交易數(shù)據(jù)實(shí)現(xiàn)了對(duì)股票價(jià)格趨勢(shì)的捕捉;Kim等[3]提出了支持向量機(jī)(Support Vector Machine, SVM)用于股票價(jià)格的研究,后續(xù)又進(jìn)一步利用多層感知器研究股票價(jià)格的波動(dòng)[4]。自此之后,越來越多的智能算法被應(yīng)用到股市價(jià)格波動(dòng)的研究中。Nelson等[5]以歷史交易數(shù)據(jù)和技術(shù)分析指標(biāo)為基礎(chǔ)運(yùn)用長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)來預(yù)測(cè)股價(jià)波動(dòng)趨勢(shì)?;诰矸e神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[6-7]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)等神經(jīng)網(wǎng)絡(luò)及其改進(jìn)神經(jīng)網(wǎng)絡(luò)的算法在股票價(jià)格波動(dòng)研究領(lǐng)域得到了廣泛的應(yīng)用[8-9]。特征選擇是影響智能算法預(yù)測(cè)性能的重要因素,上述智能算法輸入不同的特征指標(biāo),呈現(xiàn)出了不同的預(yù)測(cè)結(jié)果。目前股票市場(chǎng)具有多個(gè)維度上萬種股票特征因子用于預(yù)測(cè)和評(píng)價(jià)股票。為解決股票評(píng)價(jià)特征選擇問題,Huang等[10]和He等[11]提出了通過遺傳算法進(jìn)行特征選擇,并與智能算法結(jié)合預(yù)測(cè)股市波動(dòng);然而所選用的傳統(tǒng)遺傳算法忽略了評(píng)價(jià)特征的時(shí)間序列特點(diǎn),特征選擇效率較低。如何高效選擇用于智能算法的股市評(píng)價(jià)特征成為亟待解決的問題。過往研究對(duì)于已選定的特征指標(biāo)數(shù)據(jù)側(cè)重于單個(gè)交易日。為獲取股市波動(dòng)趨勢(shì)信息,Selvin等[7]提出了應(yīng)用滑動(dòng)窗口方法[12]來預(yù)測(cè)短期內(nèi)的股市波動(dòng),但是其忽略了不同交易間隔中變化的相關(guān)性。如何有效捕獲及準(zhǔn)確表示時(shí)間序列特征因子的動(dòng)態(tài)趨勢(shì)也是需要研究和解決的問題。
為能夠準(zhǔn)確獲取股票特征因子及變化趨勢(shì)信息,本文提出了基于改進(jìn)遺傳算法(Improved Genetic Algorithm, IGA)和圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)的股市波動(dòng)預(yù)測(cè)方法IGA-GNN進(jìn)行股票特征因子的選擇,通過遺傳算法(Genetic Algorithm, GA)進(jìn)行全局搜索,應(yīng)對(duì)量化特征因子的評(píng)價(jià)選擇[13],并引入自適應(yīng)交叉概率和變異概率提高全局搜索效率[14]。同時(shí),構(gòu)建了股票特征圖數(shù)據(jù),每個(gè)交易日為一個(gè)節(jié)點(diǎn),將經(jīng)過選擇的特征因子設(shè)置為節(jié)點(diǎn)特征,相鄰交易日設(shè)置為節(jié)點(diǎn)的邊,相鄰交易日的特征因子變動(dòng)量設(shè)置為邊權(quán)重,運(yùn)用圖神經(jīng)網(wǎng)絡(luò)對(duì)構(gòu)建的圖數(shù)據(jù)分析預(yù)測(cè)股市波動(dòng)。
股票市場(chǎng)的研究中已經(jīng)證明,股價(jià)趨勢(shì)預(yù)測(cè)與金融時(shí)間序列的特征密切相關(guān)[1]。事實(shí)上,金融數(shù)據(jù)之間具有噪聲、非線性、隨機(jī)的金融時(shí)間特征,影響因素眾多且復(fù)雜[15]。但是Edwards等[16]研究證明金融時(shí)間序列走勢(shì)會(huì)重現(xiàn),個(gè)別特殊時(shí)間序列走勢(shì)會(huì)極其相似地出現(xiàn)在未來時(shí)間序列的走勢(shì)中。因此,股票價(jià)格走勢(shì)可以被預(yù)測(cè),學(xué)者們引入各種評(píng)價(jià)指標(biāo),用于股市價(jià)格波動(dòng)的預(yù)測(cè)。從最初的開盤價(jià)、收盤價(jià)等直接指標(biāo)逐漸衍生出動(dòng)能、重量等有效顯示某一特性的間接指標(biāo),如:Jegadeesh等[17]提出了股票的價(jià)格有延續(xù)原來的運(yùn)動(dòng)方向的趨勢(shì),成交量、換手率均衍生出動(dòng)量因子用于股票價(jià)格走勢(shì)預(yù)測(cè);Fama等[18]利用總市值、賬面市值比等衍生指標(biāo)因子構(gòu)建了因子定價(jià)模型用于解釋預(yù)期股票報(bào)酬率的橫截面變化。隨著評(píng)價(jià)指標(biāo)研究的更新變化,股市預(yù)測(cè)方法也在不斷發(fā)展。預(yù)測(cè)方法從最初的人工通過交易數(shù)據(jù)進(jìn)行預(yù)測(cè)逐漸轉(zhuǎn)變?yōu)橥ㄟ^計(jì)算機(jī)獲得的金融時(shí)間序列統(tǒng)計(jì)特性輔助預(yù)測(cè),例如,ARMA(Auto Regressive Moving Average)等方法就是基于時(shí)序的統(tǒng)計(jì)學(xué)特性進(jìn)行股票價(jià)格預(yù)測(cè)[19]。隨著人工智能的飛速發(fā)展,股票走勢(shì)預(yù)測(cè)逐漸由機(jī)器輔助預(yù)測(cè)轉(zhuǎn)變?yōu)橛?jì)算機(jī)可自主迭代學(xué)習(xí)預(yù)測(cè)。經(jīng)典的機(jī)器學(xué)習(xí)算法如SVM、LSTM等廣泛應(yīng)用于股票價(jià)格走勢(shì)預(yù)測(cè)[20],但始終存在引言中所述的問題需要進(jìn)一步探索。
Holland教授基于優(yōu)勝劣汰的生物進(jìn)化理論于1975年提出了遺傳算法[21],遺傳算法具有簡(jiǎn)單易于實(shí)現(xiàn),且具有普遍適用性的特點(diǎn)。在之后的幾十年中遺傳算法在各個(gè)領(lǐng)域得到了廣泛應(yīng)用[22-24],并且隨著算法應(yīng)用的深入,遺傳算法不斷得到優(yōu)化改進(jìn)[25-26]。金融預(yù)測(cè)方面遺傳算法也得到了廣泛應(yīng)用,如:1)對(duì)于智能算法的參數(shù)優(yōu)化,Kim等[27]提出了一種基于遺傳算法的特征離散化方法,優(yōu)化神經(jīng)網(wǎng)絡(luò)層間的連接權(quán)值和特征離散化的閾值降低特征空間維度,預(yù)測(cè)股票價(jià)格指數(shù);Fang等[28]提出了改進(jìn)遺傳算法優(yōu)化目標(biāo)和小波神經(jīng)網(wǎng)絡(luò)變化的網(wǎng)絡(luò)參數(shù)以改善神經(jīng)網(wǎng)絡(luò)在股市預(yù)測(cè)中的表現(xiàn)。2)對(duì)于時(shí)間窗口的優(yōu)化,Chung等[29]運(yùn)用現(xiàn)有財(cái)務(wù)數(shù)據(jù)建立了長(zhǎng)短期記憶網(wǎng)絡(luò)和遺傳算法融合的股票市場(chǎng)預(yù)測(cè)模型,利用遺傳算法來確定長(zhǎng)短期記憶網(wǎng)絡(luò)的時(shí)間窗大小及拓?fù)浣Y(jié)構(gòu),通過實(shí)驗(yàn)選擇韓國(guó)股票價(jià)格指數(shù)驗(yàn)證了所提方法的預(yù)測(cè)準(zhǔn)確率優(yōu)于基準(zhǔn)模型。采用遺傳算法進(jìn)行特征選擇及權(quán)重優(yōu)化,Bonde等[30]取得了上市公司的6個(gè)屬性,并使用6個(gè)連接權(quán)重進(jìn)行連接,每個(gè)連接權(quán)重值定義了每個(gè)屬性在預(yù)測(cè)股票價(jià)格時(shí)給出的貢獻(xiàn),運(yùn)用遺傳算法優(yōu)化連接權(quán)重用于量化分析公司股票波動(dòng)。但是,遺傳算法對(duì)于股票評(píng)價(jià)特征選擇的維度較少,且對(duì)于多維特征選擇的效率也并不理想。
為能夠解決圖數(shù)據(jù)的深度學(xué)習(xí)問題,圖神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生。短短幾年時(shí)間圖神經(jīng)網(wǎng)絡(luò)技術(shù)突飛猛進(jìn),得到了廣泛的應(yīng)用[31]。Bruna等[32]首次提出了圖卷積神經(jīng)網(wǎng)絡(luò),采用譜空間方法定義圖卷積。ChebNet(Chebyshev Net)[33]和圖神經(jīng)網(wǎng)絡(luò)(GNN)[34]為能夠降低時(shí)空復(fù)雜度,從空間角度定義節(jié)點(diǎn)的權(quán)重矩陣,對(duì)核函數(shù)進(jìn)行參數(shù)優(yōu)化。近年來,部分金融領(lǐng)域?qū)W者也嘗試使用關(guān)系數(shù)據(jù)進(jìn)行金融領(lǐng)域研究,并提出了運(yùn)用此類方法預(yù)測(cè)股市波動(dòng)。Kim等[35]提出了一種利用關(guān)系數(shù)據(jù)進(jìn)行股票市場(chǎng)預(yù)測(cè)的分層注意力網(wǎng)絡(luò),用于預(yù)測(cè)個(gè)股價(jià)格和市場(chǎng)指數(shù)的走勢(shì);Liu等[36]提出了一種利用上市公司之間各種關(guān)系知識(shí)圖譜并采用門控循環(huán)單元(Gated Recurrent Unit, GRU)的模型用于股市波動(dòng)預(yù)測(cè);Matsunaga等[37]研究了市場(chǎng)預(yù)測(cè)和圖神經(jīng)網(wǎng)絡(luò)交叉工作的有效性;Chan[38]則通過構(gòu)建相關(guān)公司關(guān)系圖的方式采用圖卷積神經(jīng)網(wǎng)絡(luò)方法進(jìn)行信息融合分析。雖然學(xué)者們針對(duì)利用圖神經(jīng)網(wǎng)絡(luò)方法對(duì)股市預(yù)測(cè)進(jìn)行了研究探索,但是仍處于起步階段。對(duì)于金融圖數(shù)據(jù)關(guān)系維度的表示及應(yīng)用,特別是股市評(píng)價(jià)特征的圖數(shù)據(jù)并未有更為深入的探究。
總結(jié)以上研究的局限性,主要有以下幾個(gè)方面:1)首先,遺傳算法對(duì)于機(jī)器學(xué)習(xí)算法在股市預(yù)測(cè)方面的優(yōu)化,多基于對(duì)算法參數(shù)的優(yōu)化,而非立足于股市金融屬性本身對(duì)股市評(píng)價(jià)特征因子進(jìn)行相關(guān)優(yōu)化及搜索。2)其次,面對(duì)海量股市評(píng)價(jià)特征因子進(jìn)行選擇,以往的研究多以靜態(tài)截面數(shù)據(jù)為主,而忽略了特征因子波動(dòng)趨勢(shì)信息,特征節(jié)點(diǎn)信息與趨勢(shì)信息未能較好實(shí)現(xiàn)融合。3)另外,傳統(tǒng)的機(jī)器學(xué)習(xí)算法缺乏對(duì)金融市場(chǎng)波動(dòng)維度的分析,忽略了股市波動(dòng)的趨勢(shì)規(guī)律及延續(xù)性,主要以歐幾里得結(jié)構(gòu)樣本進(jìn)行數(shù)據(jù)訓(xùn)練及預(yù)測(cè),對(duì)于股市波動(dòng)趨勢(shì)傳導(dǎo)機(jī)制有待進(jìn)一步探索。
為了克服現(xiàn)有相關(guān)工作的局限性,本文提出了一種基于改進(jìn)遺傳算法和圖神經(jīng)網(wǎng)絡(luò)的股市波動(dòng)預(yù)測(cè)方法,通過提高交叉及變異效率改進(jìn)遺傳算法進(jìn)行股市評(píng)價(jià)特征因子的選擇,構(gòu)建包含特征因子波動(dòng)趨勢(shì)信息的股市評(píng)價(jià)圖數(shù)據(jù),并運(yùn)用圖神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)股市波動(dòng)情況。本文的主要工作如下:
1)解決股市評(píng)價(jià)特征因子預(yù)測(cè)股市波動(dòng)的過擬合問題,利用因子間的相關(guān)性更新變異概率優(yōu)化遺傳算法完成股市特征因子選擇。
2)以交易日為節(jié)點(diǎn)構(gòu)建股市圖數(shù)據(jù),創(chuàng)新股市評(píng)價(jià)特征嵌入方法,以此捕獲傳遞股市趨勢(shì)信息。
3)鑒于圖神經(jīng)網(wǎng)絡(luò)對(duì)于非歐氏數(shù)據(jù)處理的優(yōu)勢(shì)[39],本文從圖神經(jīng)網(wǎng)絡(luò)邊的消息傳遞角度,結(jié)合構(gòu)建的股市圖數(shù)據(jù)特點(diǎn)優(yōu)化圖神經(jīng)網(wǎng)絡(luò)的消息傳遞機(jī)制,對(duì)股市波動(dòng)進(jìn)行預(yù)測(cè)。
本文所提出的方法通過改進(jìn)遺傳算法選擇股票特征因子構(gòu)建圖數(shù)據(jù),并運(yùn)用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行股市波動(dòng)的預(yù)測(cè),模型框架如圖1所示,通過接口獲取Yahoo財(cái)經(jīng)數(shù)據(jù),加工生成股市評(píng)價(jià)因子。
圖1 本文模型框架示意圖Fig. 1 Schematic diagram of proposed model framework
如圖1所示,模型對(duì)所要進(jìn)行選擇的因子進(jìn)行基因編碼,并采用改進(jìn)遺傳算法進(jìn)行全局搜索。本文所提出的IGA的核心為根據(jù)股票特征因子的特性動(dòng)態(tài)調(diào)整交叉概率和變異概率,以提高GA的效率,避免陷入局部最優(yōu)。將經(jīng)選擇后的股市評(píng)價(jià)特征因子用于構(gòu)建預(yù)測(cè)股市的圖數(shù)據(jù),采用圖神經(jīng)網(wǎng)絡(luò)對(duì)圖數(shù)據(jù)節(jié)點(diǎn)聚合,以股市漲跌為標(biāo)記進(jìn)行節(jié)點(diǎn)分類。將量化評(píng)價(jià)預(yù)測(cè)準(zhǔn)確率作為適應(yīng)度函數(shù)的輸出對(duì)本文IGA進(jìn)行迭代優(yōu)化。最終,得到有效評(píng)價(jià)股票的特征因子用于股市波動(dòng)預(yù)測(cè),如圖2所示。
本文中選取較為常用的13個(gè)股票評(píng)價(jià)特征指標(biāo)數(shù)據(jù)表示為一個(gè)二進(jìn)制向量:。表示第個(gè)指標(biāo)是否用于評(píng)價(jià)股票,表示第個(gè)指標(biāo)不用于評(píng)價(jià)預(yù)測(cè)股票,表示第個(gè)指標(biāo)用于評(píng)價(jià)預(yù)測(cè)股票。本文參考文獻(xiàn)[16-17]中提及的指標(biāo)參數(shù),進(jìn)行了指標(biāo)參數(shù)的合并歸納,本文采用的13個(gè)股票指標(biāo)數(shù)據(jù)如表1所示,包括:最高價(jià)(High price, High)、最低價(jià)(Low price, Low)、開盤價(jià)(Opening price, Open)、成交量(Volume of transaction, Volume)、復(fù)權(quán)后的收盤價(jià)(Closing price, Close)、簡(jiǎn)單移動(dòng)平均值(simple Moving Average, MA)、指數(shù)移動(dòng)平均值(Exponential Moving Average, EMA)、順勢(shì)指標(biāo)(Commodity Channel Index, CCI)、動(dòng)量指標(biāo)(MoMenTum, MMT)、動(dòng)量指標(biāo)%K(StOchastic K%, SOK)、動(dòng)能指標(biāo)%D(StOchastic D%, SOD)、強(qiáng)力指數(shù)(Force Index, FI)、重量指數(shù)(Mass Index, MI)。在取以上指標(biāo)參數(shù)的基礎(chǔ)上,賦予不同的時(shí)間跨度(3 d,5 d,10 d和15 d)。
遺傳算法是根據(jù)生物進(jìn)化理論衍生出來的搜索最優(yōu)解的方法,其核心是“適者生存”的理念,通過不停地迭代個(gè)體和種群,完成優(yōu)勝劣汰。本文將量化投資收益作為一個(gè)種群適應(yīng)度,每一個(gè)量化投資策略作為一個(gè)個(gè)體,股票特征因子則作為染色體,染色體將會(huì)通過不同的機(jī)器學(xué)習(xí)算法帶來盈利,種群個(gè)體在迭代進(jìn)化過程中,算法采用交叉、變異等遺傳操作實(shí)現(xiàn)最優(yōu)個(gè)體及染色體的選擇。尋找最優(yōu)股票特征因子作為機(jī)器學(xué)習(xí)的訓(xùn)練資源,達(dá)到最優(yōu)適應(yīng)度,實(shí)現(xiàn)量化投資策略收益的最大化。
2.3.1 染色體編碼的設(shè)置
染色體編碼是遺傳算法優(yōu)化機(jī)器學(xué)習(xí)算法的關(guān)鍵,本文選取2.2節(jié)中介紹的較為常用的13個(gè)股票指標(biāo)數(shù)據(jù)作為染色體基因,包括最高價(jià)、最低價(jià)、開盤價(jià)、成交量、復(fù)權(quán)后的收盤價(jià)、簡(jiǎn)單移動(dòng)平均值、指數(shù)移動(dòng)平均值、順勢(shì)指標(biāo)、動(dòng)能指標(biāo)、動(dòng)能指標(biāo)%K、動(dòng)能指標(biāo)%D、強(qiáng)力指數(shù)、重量指數(shù)。
圖2 股市評(píng)價(jià)特征因子Fig. 2 Feature factors of stock market evaluation
表1 常用的股票指標(biāo)參數(shù)Tab. 1 Common stock index parameters
2.3.2 適應(yīng)度函數(shù)的確定
機(jī)器學(xué)習(xí)模型的準(zhǔn)確率是評(píng)價(jià)機(jī)器學(xué)習(xí)預(yù)測(cè)模型的重要指標(biāo),模型的準(zhǔn)確率與預(yù)測(cè)性能密切相關(guān)。個(gè)體適應(yīng)度則為算法的最終追求目標(biāo),也是算法迭代的動(dòng)力,設(shè)為適應(yīng)度函數(shù),機(jī)器學(xué)習(xí)的混淆矩陣如表2所示。
表2 混淆矩陣Tab. 2 Confusion matrix
個(gè)體的適應(yīng)度函數(shù)為:
機(jī)器學(xué)習(xí)的準(zhǔn)確率為遺傳算法不斷進(jìn)化的目標(biāo),機(jī)器學(xué)習(xí)的預(yù)測(cè)準(zhǔn)確率越高,個(gè)體表現(xiàn)越好,其個(gè)體及種群的適應(yīng)度就越大。
2.3.3 遺傳操作的設(shè)計(jì)
傳統(tǒng)選擇算子常采用輪盤賭法或最優(yōu)個(gè)體保存策略,采用傳統(tǒng)方法選擇算子會(huì)把適應(yīng)度高的個(gè)體淘汰,或者出現(xiàn)局部最優(yōu)現(xiàn)象,降低了遺傳進(jìn)化效率。設(shè)是種群中個(gè)體的個(gè)數(shù),是的適應(yīng)度,采用輪盤法選出的個(gè)體的概率依賴于種群向量,概率表達(dá)式為:
由大數(shù)定理可知,大樣本平均值與單個(gè)實(shí)驗(yàn)結(jié)果的期望值接近。隨著種群數(shù)量不斷變多,選擇每一個(gè)個(gè)體的比例會(huì)接近于。
具體流程為:初始化種群,計(jì)算種群內(nèi)個(gè)體的適應(yīng)度,將個(gè)體適應(yīng)度按照最優(yōu)進(jìn)行排序,如果,即種群中個(gè)體適應(yīng)度大于上一個(gè)種群中個(gè)體適應(yīng)度中的最大值,則作為精英個(gè)體進(jìn)行保留,剩余個(gè)體按照式(3)給出的隨時(shí)間、適應(yīng)度值及初始向量變化的比例向量實(shí)施選擇動(dòng)作。
2.3.4 自適應(yīng)交叉概率和變異概率的設(shè)計(jì)
通過實(shí)驗(yàn)驗(yàn)證可知,傳統(tǒng)遺傳算法對(duì)于不同應(yīng)用場(chǎng)景并未表現(xiàn)出高效的普適性,結(jié)合各個(gè)領(lǐng)域、應(yīng)用場(chǎng)景的改進(jìn)遺傳算法應(yīng)運(yùn)而生。改進(jìn)遺傳算法多采用自適應(yīng)的方式調(diào)整交叉概率。適應(yīng)度好的,賦予一個(gè)較小的交叉概率,而且隨著迭代不斷增加,賦予的交叉概率不斷減小。引入這種自適應(yīng)的交叉概率策略以提高GA的全局搜索能力。
本文基于現(xiàn)有研究[40](如表3所示)的基礎(chǔ)上,對(duì)交叉和變異概率進(jìn)行了重新設(shè)計(jì),交叉概率設(shè)計(jì)如下:
表3 遺傳算法的參數(shù)設(shè)置Tab. 3 Parameter setting of genetic algorithm
本文IGA部分中個(gè)體基因是股票特征因子,其之間存在相關(guān)關(guān)系,變異概率不采用固定值,基因突變是保持物種多樣的必要操作,因此選擇個(gè)體基因之間相關(guān)系數(shù)的平均值作為變異概率,相關(guān)系數(shù)平均值越大,變異概率越大。為了避免導(dǎo)致近親繁殖和進(jìn)入進(jìn)化的死胡同,根據(jù)式(7)求得各基因之間的相關(guān)系數(shù),形成相關(guān)系數(shù)矩陣。
不同個(gè)體結(jié)合相關(guān)系數(shù)矩陣,可以獲得基因之間的相關(guān)系數(shù)平均值,則變異概率設(shè)計(jì)如下:
本文借鑒GraphSAGE(Graph Sample and AggreGatE)嵌入生成方法[41],對(duì)于股市評(píng)價(jià)特征因子圖數(shù)據(jù)指標(biāo)均采用消息傳遞模式進(jìn)行相應(yīng)指標(biāo)子圖的節(jié)點(diǎn)更新嵌入。基于圖神經(jīng)網(wǎng)絡(luò)進(jìn)行股市波動(dòng)預(yù)測(cè)的流程如圖3所示。
圖3 基于圖神經(jīng)網(wǎng)絡(luò)股市波動(dòng)預(yù)測(cè)流程Fig. 3 Flow chart of stock market volatility prediction based on graph neural network
本文數(shù)據(jù)來源于雅虎財(cái)經(jīng)2000年1月1日至2019年6月15日蘋果(AAPL)、臉書(FB)、特斯拉(TSLA)、通用汽車(GM)、國(guó)際商業(yè)機(jī)器公司(IBM)、微軟(MSFT)、卡特彼勒(CAT)、埃克森美孚(XOM)、家得寶(HD)、標(biāo)普500ETF-SPDR(SPY)的指標(biāo)數(shù)據(jù),包括最高價(jià)、最低價(jià)、開盤價(jià)、成交量、復(fù)權(quán)后的收盤價(jià)、移動(dòng)平均值、指數(shù)移動(dòng)平均值、順勢(shì)指標(biāo)、動(dòng)量指標(biāo)、動(dòng)量指標(biāo)%K、動(dòng)量指標(biāo)%D、強(qiáng)力指標(biāo)、重量指數(shù),指標(biāo)構(gòu)建方式如表1所示。其中,2000年1月1日至2015年12月31日為訓(xùn)練數(shù)據(jù),2016年1月1日至2019年6月15日為測(cè)試數(shù)據(jù)。采用標(biāo)準(zhǔn)普爾500指數(shù)中的500支成分股進(jìn)行訓(xùn)練,為能有效測(cè)量準(zhǔn)確率和收益,采用標(biāo)準(zhǔn)普爾500指數(shù)基金進(jìn)行回測(cè)。實(shí)驗(yàn)在Intel Xeon Silver4114 CPU RAM 128 GB的服務(wù)器上運(yùn)行完成,軟件環(huán)境為Python3.6.1。
為能夠進(jìn)一步驗(yàn)證所構(gòu)建模型的優(yōu)越性,本文將IGA應(yīng)用在K最近鄰(K-Nearest Neighbor, KNN)分類算法、支持向量機(jī)(SVM)算法、長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)算法、樸素貝葉斯(Naive Bayesian, NB)算法進(jìn)行比較。將實(shí)驗(yàn)數(shù)據(jù)按交易日指標(biāo)數(shù)據(jù)和波動(dòng)值組成向量進(jìn)行其他算法的訓(xùn)練及測(cè)試。
KNN算法的理論來源于極限定理,樣本的分類主要根據(jù)其最近鄰的一個(gè)或幾個(gè)樣本來決定待分類樣本的所屬類別。KNN算法更加適合類域的交叉和重疊較多的樣本集。
支持向量機(jī)(SVM)是一種應(yīng)用廣泛的機(jī)器學(xué)習(xí)分類算法,將特征指標(biāo)拼接成向量,并將向量輸入支持向量機(jī)進(jìn)行預(yù)測(cè)。
長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)在1997年被首次提出,是為了解決RNN存在的問題,避免梯度消失和爆炸。該算法將原來簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)改造為鏈?zhǔn)浇Y(jié)構(gòu),通過門結(jié)構(gòu)實(shí)現(xiàn)對(duì)信息的控制、保護(hù)和傳遞。
樸素貝葉斯(NB)理論是基于貝葉斯定理和特征條件獨(dú)立假設(shè)。樸素貝葉斯算法屬于監(jiān)督機(jī)器學(xué)習(xí),其核心是基于概率進(jìn)行分類,概率值則取決于待分類客體的設(shè)定特征。用于對(duì)比的模型參數(shù)設(shè)置參考文獻(xiàn)[42-45],如表4所示,其中GNN參數(shù)為式(9)~(11)中的變量,指標(biāo)因子為13個(gè),且圖數(shù)據(jù)中的邊為無向邊,所以GNN參數(shù)設(shè)置為。
表4 不同算法參數(shù)設(shè)置Tab. 4 Parameter setting of different algorithms
將各經(jīng)典機(jī)器學(xué)習(xí)算法采用GA和本文IGA的訓(xùn)練時(shí)間進(jìn)行比較,通過圖神經(jīng)網(wǎng)絡(luò)采用不同的遺傳算法策略進(jìn)行特征選擇,圖4以蘋果公司股票(AAPL)為例展示了特征選擇遺傳算法的進(jìn)化過程,同時(shí)給出了自適應(yīng)交叉和變異概率過程,GA為基本遺傳算法[46],IGA1為改進(jìn)算法采用固定的交叉變異算子進(jìn)行優(yōu)化[40],IGA2為采用了交叉變異算子自調(diào)整策略[47],IGA3為采用了本文提出的改進(jìn)遺傳算法。
圖4 不同改進(jìn)遺傳算法的進(jìn)化過程Fig. 4 Evolution processes of improved genetic algorithms
訓(xùn)練時(shí)間的對(duì)比結(jié)果如表5所示,從表5中可以看出:采用本文提出的IGA進(jìn)行機(jī)器學(xué)習(xí)的訓(xùn)練速度優(yōu)于采用傳統(tǒng)GA進(jìn)行特征選擇機(jī)器學(xué)習(xí)的訓(xùn)練速度,本文所提的IGA相較于傳統(tǒng)GA在特征選擇效率方面更有優(yōu)勢(shì)。傳統(tǒng)GA應(yīng)用于實(shí)驗(yàn)中智能算法進(jìn)行特征提取的總訓(xùn)練時(shí)間為1 520 126 s,本文IGA用于該過程的總訓(xùn)練時(shí)間為1 246 886 s,總訓(xùn)練時(shí)間縮短了17.97%。其中,IGA有效提升了圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率,IGA-GNN相較使用GA的圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間平均縮短了15.97%。
表6中,經(jīng)過本文IGA優(yōu)化的機(jī)器學(xué)習(xí)算法提高了股市預(yù)測(cè)精度。實(shí)驗(yàn)結(jié)果表明,對(duì)于遺傳算法所選擇出的股票評(píng)價(jià)特征,不同股票和機(jī)器學(xué)習(xí)算法所選擇的最優(yōu)特征體系是不同的,進(jìn)一步驗(yàn)證了采用本文IGA進(jìn)行特征選擇的必要性,每支股票和機(jī)器學(xué)習(xí)算法通過適配提取出的因子最大限度提高了預(yù)測(cè)準(zhǔn)確率和效率。
表7則給出了改進(jìn)遺傳算法在圖神經(jīng)網(wǎng)絡(luò)方法下選擇的最優(yōu)評(píng)價(jià)股票因子。表7中涉及個(gè)股10支,總評(píng)價(jià)指標(biāo)數(shù)130個(gè),結(jié)果顯示有效指標(biāo)87個(gè),指標(biāo)數(shù)量下降了33.08%。下文將按照表7所示特征因子體系進(jìn)行策略回測(cè),驗(yàn)證策略的收益。
表5 不同算法的訓(xùn)練時(shí)間對(duì)比 單位: sTab. 5 Comparison of training time among different algorithms unit: s
表6 不同算法的準(zhǔn)確率對(duì)比Tab. 6 Comparison of accuracy among different algorithms
表7 IGA-GNN方法選擇的股票評(píng)價(jià)指標(biāo)Tab. 7 Stock evaluation indexes selected by IGA- GNN method
本文選取2020年6月1日至2020年12月31日的150個(gè)交易日的數(shù)據(jù)進(jìn)行文本策略的回測(cè)。模型預(yù)測(cè)上漲,則生成買入信號(hào),下降則生成賣出信號(hào),連續(xù)相同信號(hào)不觸發(fā)交易操作。策略初始資金為10 000,以交易日收盤價(jià)作為收益結(jié)算標(biāo)準(zhǔn)。根據(jù)表6中的預(yù)測(cè)準(zhǔn)確率,選取IGA-KNN、IGA-SVM、IGA-LSTM、IGA-NB、GNN與本文方法進(jìn)行比較。圖5給出了本文所提方法形成的策略在投資蘋果、臉書、特斯拉、通用汽車、國(guó)際商業(yè)機(jī)器公司、微軟、卡特彼勒、??松梨?、家得寶、標(biāo)普500ETF-SPDR(AAPL、FB、TSLA、GM、IBM、MSFT、CAT、XOM、HD、SPY)的所得收益情況。
由表6~7可以初步得出,不同的股票及算法對(duì)于股票評(píng)價(jià)特征體系具有不同的要求,但是在幾支股票中,特征指標(biāo)均選擇了重量指數(shù)、移動(dòng)平均值和復(fù)權(quán)后的收盤價(jià)。移動(dòng)平均值能夠反映股票價(jià)格變化的慣性指標(biāo),慣性的特質(zhì)使其可以作為判斷股市走勢(shì)的有效工具,其波峰、波谷及形態(tài)則可以提供量化交易中進(jìn)行交易的有效信號(hào)。復(fù)權(quán)后的收盤價(jià)為每日最終股票狀態(tài)。兩種重要指標(biāo)也是量化策略經(jīng)常采用的指標(biāo),如金叉死叉策略等??梢钥闯觯疚奶岢龅母倪M(jìn)遺傳算法具有較好的評(píng)價(jià)股票特征指標(biāo)選擇的能力。采用該方法進(jìn)行特征選擇的算法的預(yù)測(cè)準(zhǔn)確率優(yōu)于傳統(tǒng)采用全維度特征的算法。
圖5 不同算法的量化策略投資收益情況Fig. 5 Investment returns of quantitative strategies in different algorithms
如圖5中個(gè)股及標(biāo)準(zhǔn)普爾500指數(shù)策略收益結(jié)果所示,IGA-GNN形成的策略交易收益最優(yōu),與表6中呈現(xiàn)的結(jié)果基本相符。股市交易指標(biāo)圖數(shù)據(jù)嵌入和圖神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法的準(zhǔn)確率與經(jīng)過本文IGA進(jìn)行特征選擇后的LSTM、KNN、SVM、LSTM、NB方法準(zhǔn)確率相當(dāng),甚至略優(yōu)于以上方法。表6結(jié)果表明本文所提基于改進(jìn)遺傳算法和圖神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)方法遠(yuǎn)優(yōu)于未經(jīng)過該方法進(jìn)行特征選擇的方法,驗(yàn)證了本文所提出的IGA有效提升了智能算法的預(yù)測(cè)性能。將節(jié)點(diǎn)特征作為圖數(shù)據(jù)的核心組成部分,圖5給出了經(jīng)過本文改進(jìn)遺傳算法特征選擇的圖神經(jīng)網(wǎng)絡(luò)IGA-GNN具有更好的預(yù)測(cè)性能,明顯優(yōu)于GNN方法,進(jìn)一步驗(yàn)證了改進(jìn)遺傳算法特征選擇對(duì)于圖神經(jīng)網(wǎng)絡(luò)的重要性。然而,圖5(h)中對(duì)于XOM個(gè)股的GNN與IGA-GNN方法的策略收益最為接近,經(jīng)表7的特征選擇結(jié)果分析可知,采用本文改進(jìn)遺傳算法進(jìn)行特征選擇的方法經(jīng)訓(xùn)練優(yōu)化后,最優(yōu)評(píng)價(jià)指標(biāo)中并未選擇重量指數(shù)(Mass Index)。XOM個(gè)股波動(dòng)的預(yù)測(cè)最優(yōu)評(píng)價(jià)指標(biāo)維度與全量維度最為接近,進(jìn)一步驗(yàn)證了特征選擇的有效性。綜上,實(shí)驗(yàn)結(jié)果充分驗(yàn)證了本文改進(jìn)遺傳算法與圖神經(jīng)網(wǎng)絡(luò)方法融合的必要性和優(yōu)越性。
目前主流的機(jī)器學(xué)習(xí)算法廣泛應(yīng)用于量化投資領(lǐng)域,由于機(jī)器學(xué)習(xí)算法存在面對(duì)海量的數(shù)據(jù)和瞬息萬變的市場(chǎng)行情算法訓(xùn)練時(shí)間過長(zhǎng)的問題,模型迭代更新速度嚴(yán)重影響預(yù)測(cè)準(zhǔn)確率,本文提出了IGA-GNN方法以自適應(yīng)交叉概率和變異概率的方式改進(jìn)GA,使其作為選擇特征的核心,并運(yùn)用圖神經(jīng)網(wǎng)絡(luò)方法進(jìn)行股票評(píng)價(jià)預(yù)測(cè)。本文方法在提高股票特征因子使用效率的同時(shí),保證了所選擇股票特征因子的可解釋性,通過實(shí)驗(yàn)驗(yàn)證了本文方法有效提高了股市波動(dòng)預(yù)測(cè)準(zhǔn)確率。但是,本文采用的評(píng)價(jià)指標(biāo)為股票交易數(shù)據(jù),而實(shí)際金融市場(chǎng)中影響股票波動(dòng)的因素非常多,對(duì)于股票多源異構(gòu)信息的融合及分析將成為下一步研究的方向。
[1] LO A W, MACKINLAY A C. Stock market prices do not follow random walks:evidence from a simple specification test [J]. The Review of Financial Studies, 1988, 1(1): 41-66.
[2] DIERKS T, ALLEN C. The TLS protocol version 1.0: RFC 2246[S]. Reston: Internet Society, 1999.
[3] KIM K. Financial time series forecasting using support vector machines [J]. Neurocomputing, 2003, 55(1/2): 307-319.
[4] 鄧一沙.多層感知器神經(jīng)網(wǎng)絡(luò)構(gòu)建交易策略——基于滬深300股指期貨數(shù)據(jù)[D].成都:西南財(cái)經(jīng)大學(xué),2012:62-71.(DENG Y S. Building a trading strategy via multilayer perceptron neural network — base on the CSI300Stock index futures data [D]. Chengdu:Southwestern University of Finance and Economics, 2012: 62-71.)
[5] NELSON D M Q, PEREIRA A C M, DE OLIVEIRA R A. Stock market’s price movement prediction with LSTM neural networks [C]// Proceedings of 2017 International Joint Conference on Neural Networks. Piscataway: IEEE,2017: 1419-1426.
[6] WHITE H. Economic prediction using neural networks: the case of IBM daily stock returns [C]// Proceedings of the IEEE 1988 International Conference on Neural Networks. Piscataway: IEEE, 1988:451-458.
[7] SELVIN S, VINAYAKUMAR R, GOPALAKRISHNAN E A, et al. Stock price prediction using LSTM, RNN and CNN-sliding window model [C]// Proceedings of the 2017 International Conference on Advances in Computing,Communications and Informatics. Piscataway: IEEE, 2017: 1643-1647.
[8] RATHER A M, AGARWAL A, SASTRY V N. Recurrent neural network and a hybrid model for prediction of stock returns [J]. Expert Systems with Applications, 2015, 42(6): 3234-3241.
[9] JAHAN I, SAJAL S. Stock price prediction using Recurrent Neural Network (RNN) algorithm on time-series data [EB/OL]. [2021-01-12]. http://micsymposium.org/mics2018/proceedings/MICS_2018_paper_55.pdf.
[10] HUANG C F, CHANG B R, CHENG D W, et al. Feature selection and parameter optimization of a fuzzy-based stock selection model using genetic algorithms [J]. International Journal of Fuzzy Systems, 2012,14(1):65-75.
[11] HE Y Q, FATALIYEV K, WANG L P. Feature selection for stock market analysis [C]// Proceedings of the 2013 International Conference on Neural Information Processing, LNCS 8227. Berlin: Springer, 2013: 737-744.
[12] CHOU J S, NGUYEN T K. Forward forecast of stock price using sliding-window metaheuristic-optimized machine-learning regression [J]. IEEE Transactions on Industrial Informatics, 2018, 14(7): 3132-3142.
[13] BARON M, BROGAARD J, HAGSTR?MER B, et al. Risk and return in high-frequency trading [J]. Journal of Financial and Quantitative Analysis, 2019, 54(3): 993-1024.
[14] BERAT SEZER O, OZBAYOGLU A M. Algorithmic financial trading with deep convolutional neural networks: time series to image conversion approach [J]. Applied Soft Computing, 2018, 70: 525-538.
[15] 李立輝,田翔,楊海東,等.基于SVR的金融時(shí)間序列預(yù)測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2005,41(30):221-224.(LI L H,TIAN X, YANG H D, et al. Financial time series forecasting based on SVR [J]. Computer Engineering and Applications,2005, 41(30): 221-224.)
[16] EDWARDS R D, MAGEE J, BASSETTI W H C. Technical Analysis of Stock Trends [M]. 11th ed. Boca Raton: CRC Press, 2018:34-45.
[17] JEGADEESH N, TITMAN S. Returns to buying winners and selling losers:implications for stock market efficiency [J]. The Journal of Finance, 1993, 48(1): 65-91.
[18] FAMA E F, FRENCH K R. Common risk factors in the returns on stocks and bonds [J]. Journal of Financial Economics, 1993, 33(1): 3-56.
[19] TANG H, CHIU K C, XU L. Finite mixture of ARMA-GARCH model for stock price prediction [EB/OL]. [2021-03-10]. http://www.cse.cuhk.edu.hk/~lxu/papers/conf-chapters/TangCIEF2003.pdf.
[20] CHEN K, ZHOU Y, DAI F Y. A LSTM-based method for stock returns prediction: a case study of China stock market [C]// Proceeding of 2015 IEEE International Conference on Big Data. Piscataway: IEEE, 2015: 2823-2824.
[21] 李敏強(qiáng),寇紀(jì)淞,林丹,等.遺傳算法的基本理論與應(yīng)用[M].北京:科學(xué)出版社,2002:31-62.(LI M Q, KOU J S, LIN D, et al. Basic Theory and Application of Genetic Algorithm [M]. Beijing: Science Press, 2002: 31-62.)
[22] 李壯年,儲(chǔ)滿生,柳政根,等.基于機(jī)器學(xué)習(xí)和遺傳算法的高爐參數(shù)預(yù)測(cè)與優(yōu)化[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,41(9):1262-1267.(LI Z N, CHU M S, LIU Z G, et al. Prediction and optimization of blast furnace parameters based on machine learning and genetic algorithm [J]. Journal of Northeastern University (Natural Science), 2020, 41(9): 1262-1267.)
[23] SILVA R C C, DE MENEZES JúNIOR J M P, DE ARAúJO JúNIOR J M. Optimization of NARX neural models using PSO and GA algorithms applied to identification of photovoltaic systems [J]. Journal of Solar Energy Engineering, 2021, 143(5): Article No. 051001.
[24] 孫波,姜平,周根榮,等.改進(jìn)遺傳算法在移動(dòng)機(jī)器人路徑規(guī)劃中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(17):162-168.(SUN B, JIANG P, ZHOU G R, et al. Application of improved genetic algorithm in path planning of mobile robots [J]. Computer Engineering and Applications,2019, 55(17): 162-168.)
[25] WHITLEY D, STARKWEATHER T. GENITOR II: a distributed genetic algorithm [J]. Journal of Experimental and Theoretical Artificial Intelligence, 1990,2(3): 189-214.
[26] JIAO L C, WANG L. A novel genetic algorithm based on immunity[J]. IEEE Transactions on Systems, Man, and Cybernetics — Part A: Systems and Humans, 2000, 30(5): 552-561.
[27] KIM K J, HAN I. Genetic algorithms approach to feature discretization in artificial neural networks for the prediction of stock price index [J]. Expert Systems with Applications, 2000, 19(2): 125-132.
[28] FANG Y, FATALIYEV K, WANG L P, et al. Improving the genetic-algorithm-optimized wavelet neural network for stock market prediction [C]// Proceeding of the 2014 International Joint Conference on Neural Networks. Piscataway: IEEE, 2014: 3038-3042.
[29] CHUNG H, SHIN K S. Genetic algorithm-optimized long short-term memory network for stock market prediction [J]. Sustainability,2018, 10(10): Article No.3765.
[30] BONDE G, KHALED R. Stock price prediction using genetic algorithms and evolution strategies [EB/OL]. [2021-02-10]. http://worldcomp-proceedings.com/proc/p2012/GEM4716.pdf.
[31] 呼延康,樊鑫,余樂天,等.圖神經(jīng)網(wǎng)絡(luò)回歸的人臉超分辨率重建[J].軟件學(xué)報(bào),2018,29(4):914-925.(HU Y K, FAN X, YU L T, et al. Graph based neural network regression strategy for facial image super-resolution [J]. Journal of Software, 2018, 29(4): 914-925.)
[32] BRUNA J, ZAREMBA W, SZLAM A, et al. Spectral networks and locally connected networks on graphs [EB/OL]. [2021-02-12]. http://arxiv.org/pdf/1312.6203.pdf.
[33] DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering [C]// Proceedings of the 2016 30th International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2016:3844-3852.
[34] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [EB/OL]. [2021-02-12]. https://arxiv.org/pdf/1609.02907.pdf.
[35] KIM R, SO C H, JEONG M, et al. HATS: a hierarchical graph attention network for stock movement prediction [EB/OL]. [2021-02-12]. https://arxiv.org/pdf/1908.07999.pdf.
[36] LIU J, LU Z C, DU W. Combining enterprise knowledge graph and news sentiment analysis for stock price volatility prediction [EB/OL]. [2021-02-10]. https://scholarspace.manoa.hawaii.edu/bitstream/10125/59565/1/0125.pdf.
[37] MATSUNAGA D, SUZUMURA T, TAKAHASHI T. Exploring graph neural networks for stock market predictions with rolling window analysis [EB/OL]. [2021-02-12]. https://arxiv.org/pdf/1909.10660.pdf.
[38] CHAN W S. Stock price reaction to news and no-news: drift and reversal after headlines [J]. Journal of Financial Economics, 2003, 70(2): 223-260.
[39] BRONSTEIN M M, BRUNA J, LECUN Y, et al. Geometric deep learning: going beyond Euclidean data [J]. IEEE Signal Processing Magazine, 2017, 34(4): 18-42.
[40] DE JONG K A, SPEARS W M, GORDON D F. Using genetic algorithms for concept learning [J]. Machine Learning, 1993, 13(2/3): 161-188.
[41] HAMILTON W L, YING R, LESKOVEC J. Inductive representation learning on large graphs [C]// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2017: 1025-1035.
[42] CHEN Y J, HAO Y T. A feature weighted support vector machine andK-nearest neighbor algorithm for stock market indices prediction [J]. Expert Systems with Applications, 2017, 80:340-355.
[43] LI Q, JIANG L L, LI P, et al. Tensor-based learning for predicting stock movements [C]// Proceedings of the 2015 29th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2015: 1784-1790.
[44] LIU X W, DOU Y, YIN J P, et al. Multiple kernelk-means clustering with matrix-induced regularization [C]// Proceedings of the 2016 30th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2016: 1888-1894.
[45] SHIHAVUDDIN A S M, AMBIA M N, AREFIN M M N, et al. Prediction of stock price analyzing the online financial news using Naive Bayes classifier and local economic trends [C]// Proceedings of the 2010 3rd International Conference on Advanced Computer Theory and Engineering. Piscataway: IEEE, 2010: V4-22-V4-26.
[46] VOSE M D. The Simple Genetic Algorithm: Foundations and Theory [M]. Cambridge: MIT Press, 1999: 89-95.
[47] JAFAR-ZANJANI S, INAMPUDI S, MOSALLAEI H. Adaptive genetic algorithm for optical metasurfaces design [J]. Scientific Reports, 2018, 8: Article No.11040.
Stock market volatility prediction method based on improved genetic algorithm and graph neural network
LI Xiaohan*, JIA Huading,CHENG Xue, LI Taiyong
(School of Economic Information Engineering,Southwestern University of Finance and Economics,Chengdu Sichuan611130,China)
Aiming at the difficulty in selecting stock valuation features and the lack of time series relational dimension features during the prediction of stock market volatility by intelligent algorithms such as Support Vector Machine (SVM) and Long Short-Term Memory (LSTM) network, in order to accurately predict stock volatility and effectively prevent financial market risks, a new stock market volatility prediction method based on Improved Genetic Algorithm (IGA) and Graph Neural Network (GNN)named IGA-GNN was proposed. Firstly, the data of stock market trading index graph was constructed based on the time series relation between adjacent trading days. Secondly, the characteristics of evaluation indexes were used to improve Genetic Algorithm (GA) by optimizing crossover and mutation probabilities, thereby realizing the node feature selection. Then, the weight matrix of edge and node features of graph data was established. Finally, the GNN was used for the aggregation and classification of graph data nodes, and the stock market volatility prediction was realized. In the experiment stage, the studied number of total evaluation indexes of stock was 130, and 87 effective evaluation indexes were extracted from the above by IGA under GNN method, making the number of stock evaluation indexes reduced by 33.08%. The proposed IGA was applied to the intelligent algorithms for feature extraction. The obtained algorithms has the overall prediction accuracy improved by 7.38 percentage points compared with the intelligent algorithms without feature extraction. Compared with applying the traditional GA for feature extraction of the intelligent algorithms, applying the proposed IGA for feature extraction of the intelligent algorithms has the total training time shortened by 17.97%. Among them, the prediction accuracy of IGA-GNN method is the highest, which is 19.62 percentage points higher than that of GNN method without feature extraction. Compared with the GNN method applying the traditional GA for feature extraction, the IGA-GNN method has the training time shortened by 15.97% on average. Experimental results show that, the proposed method can effectively extract stock features and has good prediction effect.
stock market prediction; Genetic Algorithm (GA); Graph Neural Network (GNN); machine learning; feature selection
TP391.7
A
1001-9081(2022)05-1624-10
10.11772/j.issn.1001-9081.2021030519
2021?04?06;
2021?07?15;
2021?07?15。
中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(JBK2102001)。
李曉寒(1985—),男,山東濟(jì)南人,博士研究生,CCF會(huì)員,主要研究方向:金融信息管理、智能決策、大數(shù)據(jù)、商務(wù)智能; 賈華丁(1956—),男,四川成都人,教授,博士,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、算法交易、擴(kuò)頻序列設(shè)計(jì); 程雪(1997—),女,山西河津人,碩士研究生,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、量化交易; 李太勇(1979—),男,四川安岳人,教授,博士,CCF高級(jí)會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、模式識(shí)別、自然計(jì)算。
This work is partially supported by Fundamental Research Funds for Central Universities (JBK2102001).
LI Xiaohan, born in 1985, Ph. D. candidate. His research interests include financial information management, intelligent decision-making, big data, business intelligence.
JIA Huading, born in 1956, Ph. D., professor. His research interests include machine learning, algorithmic trading, spread spectrum sequence design.
CHENG Xue, born in 1997, M. S. candidate. Her research interests include machine learning,quantitative trading.
LI Taiyong, born in 1979, Ph. D., professor. His research interests include machine learning, pattern recognition, natural computing.