朱星星
關(guān)鍵詞:股價(jià)漲跌;機(jī)器學(xué)習(xí);實(shí)證研究;XGBoost
一、文獻(xiàn)綜述
與傳統(tǒng)時(shí)間序列模型相比,機(jī)器學(xué)習(xí)模型對(duì)數(shù)據(jù)沒(méi)有嚴(yán)格的假設(shè)條件,受到研究者的喜愛(ài)。王燕基于參數(shù)尋優(yōu)后的XGBoost模型對(duì)中國(guó)平安等股票收盤(pán)價(jià)的短期預(yù)測(cè)在多個(gè)評(píng)價(jià)指標(biāo)上較SVM模型和GBDT模型有更好的效果。王禹利用boosting級(jí)聯(lián)多棵決策樹(shù)算法預(yù)測(cè)儀器儀表領(lǐng)域的股票漲跌走勢(shì),結(jié)合股票的行情指標(biāo)和技術(shù)指標(biāo),預(yù)測(cè)結(jié)果對(duì)比單一決策樹(shù)的預(yù)測(cè)準(zhǔn)確率有明顯的提升。王亞紅利用隨機(jī)森林算法基于12個(gè)財(cái)務(wù)指標(biāo)對(duì)隨機(jī)選取的股票價(jià)格預(yù)測(cè)的準(zhǔn)確率超過(guò)70%。何錚認(rèn)為任何單一因素都難以完全解釋股票價(jià)格水平和波動(dòng),通過(guò)結(jié)合基本面因素和技術(shù)面因素作為輸入特征構(gòu)建股價(jià)模型,可以獲得較好的預(yù)測(cè)能力。
二、模型分析
(一)數(shù)據(jù)處理和指標(biāo)選擇
量化投資特征選取一般分成基本面指標(biāo)和技術(shù)指標(biāo)兩大類?;久嬷笜?biāo)主要由盈利因子、成長(zhǎng)因子、流動(dòng)性因子、估值因子和品質(zhì)因子等組成。盈利因子技術(shù)指標(biāo)主要有趨勢(shì)因子、均線因子和交易因子。通過(guò)查閱相關(guān)文獻(xiàn)最終在基本面指標(biāo)和技術(shù)指標(biāo)兩大類指標(biāo)中選取了12個(gè)基本面指標(biāo)、25個(gè)技術(shù)指標(biāo)。部分指標(biāo)如表1所示。
將去除缺失值后的股票數(shù)據(jù)的所有特征進(jìn)行標(biāo)準(zhǔn)化處理,以消除不同量綱帶來(lái)的影響。
(二)模型理論概述
本文是對(duì)股票價(jià)格漲跌標(biāo)簽進(jìn)行預(yù)測(cè),所以選擇監(jiān)督學(xué)習(xí)里面的二分類學(xué)習(xí)算法。接下來(lái)對(duì)邏輯回歸、決策樹(shù)和XGBoost算法模型設(shè)置為二分類有關(guān)的內(nèi)容。
1.機(jī)器學(xué)習(xí)算法理論
(1)邏輯回歸。邏輯回歸是一種主要用于分類的統(tǒng)計(jì)分析方法。通過(guò)引入sigmoid函數(shù)得到邏輯回歸表達(dá)式:
將上式對(duì)數(shù)變換后,通過(guò)極大似然估計(jì)得到其損失函數(shù):
(2)決策樹(shù)。決策樹(shù)通常只有一個(gè)根節(jié)點(diǎn),是所有訓(xùn)練數(shù)據(jù)集合。測(cè)試實(shí)例中的某一屬性,依據(jù)不同的測(cè)試結(jié)果進(jìn)
(3)XGBoost。XGBoost是一種基于樹(shù)模型的Boosting集成算法。其特點(diǎn)是逐一構(gòu)建弱評(píng)估器,經(jīng)過(guò)多次迭代逐漸累積多個(gè)弱評(píng)估器。XGBoost的目標(biāo)函數(shù)構(gòu)成如下所示:
2.模型評(píng)價(jià)標(biāo)準(zhǔn)
模型的評(píng)價(jià)標(biāo)準(zhǔn)是檢驗(yàn)?zāi)P陀行缘闹匾笜?biāo)?;煜仃嚾绫?所示:
準(zhǔn)確率指所有的預(yù)測(cè)正確(包括正例負(fù)例)的所占比重。精準(zhǔn)度指所有被預(yù)測(cè)為正例中實(shí)際為正例的概率。召回率指實(shí)際為正例且被預(yù)測(cè)為正例的概率。
(三)模型的預(yù)測(cè)與評(píng)價(jià)
實(shí)驗(yàn)一:使用個(gè)股2015年1月5日至2019年6月28日作為訓(xùn)練期,2019年7月1日至2019年12月10日為測(cè)試期。將未來(lái)第15天的收盤(pán)價(jià)減去當(dāng)天的收盤(pán)價(jià),若大于0,標(biāo)簽記為1;若小于0,標(biāo)簽記為0。A組以12個(gè)財(cái)務(wù)指標(biāo)和25個(gè)技術(shù)指標(biāo)作為輸入特征,以股票收盤(pán)價(jià)的漲跌作為預(yù)測(cè)對(duì)象分別建立邏輯回歸、決策樹(shù)和XGBoost模型。以準(zhǔn)確率、精準(zhǔn)度和召回率作為模型的評(píng)價(jià)指標(biāo)。為了形成對(duì)比,B組除了將輸入特征改為25個(gè)純技術(shù)指標(biāo),其他與A組類似。評(píng)價(jià)指標(biāo)結(jié)果如表3所示。
實(shí)驗(yàn)二:c組以12個(gè)財(cái)務(wù)指標(biāo)和25個(gè)技術(shù)指標(biāo)作為輸入特征,分別對(duì)另外四只A股收盤(pán)價(jià)的漲跌作為預(yù)測(cè)對(duì)象建立模型。D組除了將輸入特征改為25個(gè)純技術(shù)指標(biāo),其他與c組類似。評(píng)價(jià)指標(biāo)結(jié)果如表4所示:
(四)模型結(jié)果分析
實(shí)驗(yàn)一中除邏輯回歸模型以外,A組中決策樹(shù)和XGBoost模型分別比B組中對(duì)應(yīng)的模型的準(zhǔn)確率降低了近3%。B組決策樹(shù)模型的精準(zhǔn)度比A組降低了近4%。A組中XGBoost模型召回率比B組提高了26%,通過(guò)分析實(shí)驗(yàn)一的結(jié)果說(shuō)明了加入財(cái)務(wù)指標(biāo)后模型的優(yōu)良性。
為了驗(yàn)證輸入特征以財(cái)務(wù)指標(biāo)和技術(shù)指標(biāo)相結(jié)合的有效性設(shè)計(jì)實(shí)驗(yàn)二,對(duì)比實(shí)驗(yàn)二中的c組和D組結(jié)果,四只股票的各個(gè)預(yù)測(cè)模型在D組中的準(zhǔn)確率較c組都有一定的降低,除了股票1在決策樹(shù)模型上有不明顯的提高,但在邏輯回歸和XGBoost模型上預(yù)測(cè)的準(zhǔn)確率分別降低了約30%和20%。其他三只股票,在模型上的預(yù)測(cè)準(zhǔn)確率均出現(xiàn)一定程度降低。進(jìn)一步說(shuō)明加入財(cái)務(wù)指標(biāo)后的股票預(yù)測(cè)模型的有效性。
三、結(jié)論與建議
本文結(jié)合財(cái)務(wù)指標(biāo)和技術(shù)指標(biāo),對(duì)股票價(jià)格漲跌建立一種短中期預(yù)測(cè)模型。從以上實(shí)驗(yàn)得出:第一,以財(cái)務(wù)指標(biāo)和技術(shù)指標(biāo)作為輸入特征,模型的預(yù)測(cè)準(zhǔn)確率均超過(guò)50%,體現(xiàn)了模型的可靠性和股票市場(chǎng)的可預(yù)測(cè)性;第二,剔除財(cái)務(wù)指標(biāo)的模型的預(yù)測(cè)精度會(huì)發(fā)生明顯的降低,進(jìn)一步驗(yàn)證同時(shí)選取兩類指標(biāo)作為模型輸入特征的有效性,為廣大投資愛(ài)好者提高更有價(jià)值的參考。