基于集成學(xué)習(xí)的高送轉(zhuǎn)股票研究

2017-03-31 05:44王凱龍衛(wèi)江

時(shí)代金融 2016年36期

關(guān)鍵詞：投資組合

王凱+龍衛(wèi)江

【摘要】高送轉(zhuǎn)預(yù)案公告發(fā)布前，高送轉(zhuǎn)股票具有顯著的累計(jì)正收益，因此預(yù)測高送轉(zhuǎn)股票對于投資具有重要意義。高送轉(zhuǎn)股票的預(yù)測是分類預(yù)測問題，本文利用上市公司三季度財(cái)報(bào)數(shù)據(jù)，采用3種集成學(xué)習(xí)算法：由K-近鄰算法、決策樹以及加lasso懲罰項(xiàng)的邏輯斯蒂回歸算法構(gòu)建預(yù)測模型——“組合”模型，經(jīng)典的集成學(xué)習(xí)算法——AdaBoost算法以及隨機(jī)森林算法進(jìn)行建模。本文采用準(zhǔn)確率以及G-mean作為模型評價(jià)標(biāo)準(zhǔn)，結(jié)果顯示：“組合”模型的準(zhǔn)確率最高，隨機(jī)森林和“組合”模型的G-mean表現(xiàn)相當(dāng)，均優(yōu)于adaboost算法。由于每年高送轉(zhuǎn)股票所占比例小于50%，數(shù)據(jù)可以看成是非平衡數(shù)據(jù)，為了改善“組合”模型較差的召回率，本文采用K-Means聚類的欠抽樣方法，將此方法用在“組合”模型上，效果顯著。最后分別對上面三種模型預(yù)測的股票構(gòu)建投資組合，并以HS300指數(shù)做基準(zhǔn)。結(jié)果顯示：“組合”模型預(yù)測得到的高送轉(zhuǎn)股票組合表現(xiàn)優(yōu)于另外兩種集成學(xué)習(xí)模型。

【關(guān)鍵詞】高送轉(zhuǎn) 集成學(xué)習(xí) 非平衡數(shù)據(jù) 投資組合

一、引言

所謂“高送轉(zhuǎn)股票”是指上市公司大比例送紅股或大比例以資本公積金轉(zhuǎn)增股票，市場送轉(zhuǎn)股比例超過0.5的股票為“高送轉(zhuǎn)股票”。雖然上市公司送股、轉(zhuǎn)增股票及不影響其當(dāng)期現(xiàn)金流，也不影響其未來現(xiàn)金流，從而這種分紅并不影響公司價(jià)值，但高送轉(zhuǎn)事件向市場傳遞了公司發(fā)展良好、行業(yè)發(fā)展前景樂觀的信息，這導(dǎo)致不少投資者盲目的投資具有高送轉(zhuǎn)概念的股票。據(jù)文獻(xiàn)研究：中國股市具有明顯的高送轉(zhuǎn)公告效應(yīng)，即高送轉(zhuǎn)股票在預(yù)案日公布前會(huì)出現(xiàn)正的超額收益率[1]，陳珠明（2010）通過實(shí)證研究發(fā)現(xiàn)：高送轉(zhuǎn)股票在預(yù)案公告日之前具有顯著的超額收益[2]，因此，投資者為了在高送轉(zhuǎn)事件中獲取更多的超額收益率，在公告前預(yù)測高送轉(zhuǎn)股票顯得至關(guān)重要了。影響上市公司實(shí)施高送轉(zhuǎn)的因素有很多，車仲春等人認(rèn)為高送轉(zhuǎn)股票通常具有高積累、高業(yè)績、高股價(jià)和小股本這些特征[3]，同時(shí)結(jié)合市場上一些券商的研究，本文將影響高送轉(zhuǎn)事件的主要因素定為：每股資本公積金、每股未分配利潤、每股收益、每股凈資產(chǎn)、每股現(xiàn)金凈流量、每股營業(yè)收入、上市時(shí)間以及股價(jià)九大因素。因此，投資者將預(yù)測高送轉(zhuǎn)事件是否發(fā)生視為一個(gè)二分類問題，即股票要么“高送轉(zhuǎn)”，要么“不高送轉(zhuǎn)”。由于高送轉(zhuǎn)股票在A股市場上所占比例遠(yuǎn)小于50%，此分類問題可以看成是非平衡數(shù)據(jù)分類問題，因此本文將采用K-Means聚類的欠抽樣方法[4]解決非平衡問題。

二、高送轉(zhuǎn)預(yù)測模型構(gòu)建及評價(jià)

（一）數(shù)據(jù)來源

本文研究的樣本是2009年至2015年剔除ST、PT股票的全部A股市場股票，選用的指標(biāo)數(shù)據(jù)如表1所示，數(shù)據(jù)來源于天軟（Tinysoft）數(shù)據(jù)庫。

（二）模型算法

令T年為測試集年份，為了構(gòu)建“高送轉(zhuǎn)”預(yù)測模型，我們訓(xùn)練集數(shù)據(jù)選為T-1年的三季度數(shù)據(jù)，訓(xùn)練集樣本選取T-1年10月31日這天公布三季度報(bào)的非ST、PT股票，訓(xùn)練集的響應(yīng)變量則由T-1年樣本公告預(yù)案日公布的送、轉(zhuǎn)股比例是否超過0.5決定，如果超過0.5，表明樣本為“高送轉(zhuǎn)”股票，訓(xùn)練集的樣本標(biāo)簽為1，否則為0；本文的測試集樣本為T年10月31日公布三季度報(bào)的非ST、PT股票。

首先，我們將分別使用K-近鄰算法、決策樹決策樹以及正則化的Logistic回歸構(gòu)建預(yù)測模型，并對這三種預(yù)測結(jié)果進(jìn)行投票以構(gòu)建一種“組合”模型，同時(shí)我們也分別采用集成學(xué)習(xí)算法Adaboost、隨機(jī)森林來構(gòu)建“高送轉(zhuǎn)”預(yù)測模型。

1.K-近鄰算。K-近鄰算法[5]的工作原理是：存在一個(gè)樣本數(shù)據(jù)集合，并且樣本集中的每一數(shù)據(jù)都存在標(biāo)簽，輸入沒有標(biāo)簽的新數(shù)據(jù)后，將新數(shù)據(jù)的每個(gè)特征與樣本數(shù)據(jù)集中數(shù)據(jù)對應(yīng)的特征進(jìn)行比較，然后算法提取樣本集中前K個(gè)最相似（最近鄰）的數(shù)據(jù)，選擇數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類，作為新數(shù)據(jù)的分類。采用K-近鄰算法需要對自變量數(shù)據(jù)歸一化，這里采用下面公式對數(shù)據(jù)歸一化：

newValue=（oldValue-min）/（max-min）（1）

其中min和max分別是對應(yīng)屬性數(shù)據(jù)集的最小特征值和最大特征值。

對應(yīng)K-近鄰算法，模型的參數(shù)主要為K和距離，通過對該樣本數(shù)據(jù)進(jìn)行檢驗(yàn)，發(fā)現(xiàn)K取3，距離選用歐氏距離時(shí)，預(yù)測結(jié)果較好。

2.決策樹算法。決策樹算法[5]由Breiman等人在1984年提出的，是應(yīng)用廣泛的決策樹學(xué)習(xí)方法，該算法有兩部分組成：（1）決策樹生成；（2）決策樹剪枝。本文決策樹生成就是遞歸地構(gòu)建二叉決策樹的過程，對回歸樹用平方誤差最小化準(zhǔn)則，對分類樹用基尼指數(shù)最小化準(zhǔn)則，進(jìn)行特征選擇，生成二叉樹。決策樹剪枝算法由兩部分組成：首先從生成的決策樹T0底端開始不斷剪枝，直到根節(jié)點(diǎn)，形成1個(gè)子樹序列{T0，T1，…，Tn}；然后通過交叉驗(yàn)證法在獨(dú)立的驗(yàn)證數(shù)據(jù)集上對子樹序列進(jìn)行測試，從中選擇最優(yōu)子樹。

3.正則化Logistic算法。二項(xiàng)邏輯斯蒂回歸模型[5]是一種分類模型，由條件分布P（Y|X）表示，形式為參數(shù)化的邏輯斯蒂分布，條件概率分布如下：

P（Y=1|x）=exp（w*x+b）/[1+exp（wx+b）] （2）

P（Y=0|x）=1/（1+exp（wx+b））（3）

其中隨機(jī)變量Y取值為1或0，隨機(jī)變量x為實(shí)數(shù)，w和b是參數(shù)。

邏輯斯蒂回歸模型學(xué)習(xí)時(shí)，對于給定的訓(xùn)練數(shù)據(jù)集T={（x1，y1），（x2，y2），…，（xn，yn）}，可以應(yīng)用極大釋然估計(jì)求出參數(shù)。為了解決多重共線性的問題，本文采用增加lasso懲罰項(xiàng)的方法，采用10折交叉驗(yàn)證求出lasso的最優(yōu)參數(shù)lambda，然后求出邏輯斯蒂回歸。

4.AdaBoost算。AdaBoost算法[5]是一種常用的集成學(xué)習(xí)算法，它從弱學(xué)習(xí)算法出發(fā)，反復(fù)學(xué)習(xí)，得到一系列弱分類器，然后組合這些弱分類器，構(gòu)成一個(gè)強(qiáng)分類器。AdaBoost根據(jù)每次訓(xùn)練樣本中樣本的分類是否正確，來確定下一次學(xué)習(xí)時(shí)的樣本權(quán)值，將修改權(quán)值的樣本再次進(jìn)行弱分類算法學(xué)習(xí)，這樣構(gòu)成一個(gè)弱分類器組合，AdaBoost采取加權(quán)多數(shù)表決的方法，具體的，加大分類誤差率小的弱分類器的權(quán)值，使其在表決中起到較大的作用，減少分類誤差率大的弱分類器的權(quán)值，使其在表決中起到較小的作用。

5.隨機(jī)森林算法。隨機(jī)森林算法（RF）[6]是Breiman在2001年提出的一種集成算法。它利用bootstrap重抽樣方法從原始樣本中抽取多個(gè)樣本，對每個(gè)bootstrap樣本進(jìn)行決策樹建模，然后通過投票取得最終分類結(jié)果。

6.基于K-Means聚類的欠抽樣算法。K-Means聚類是最常用的聚類方法之一，常采用距離作為樣本相似性的度量，即樣本之間的距離越小，則樣本的相似性越高。

欠抽樣是通過減少多數(shù)類樣本的數(shù)量來平衡兩類樣本的，欠抽樣可以有效減少數(shù)據(jù)的不平衡性，然而欠抽樣會(huì)破壞多數(shù)類樣本的整體結(jié)構(gòu)，針對此問題本文使用了一種基于K-Means聚類的欠抽樣算法[3]：首先，將多類數(shù)據(jù)聚類，然后采用欠抽樣計(jì)數(shù)按照一定比例在多類數(shù)據(jù)的每個(gè)類別里抽取一定數(shù)量的樣本。

（三）模型評價(jià)指標(biāo)

本文所使用的數(shù)據(jù)為非平衡數(shù)據(jù)，關(guān)注的重點(diǎn)是高送轉(zhuǎn)股票，因此本文以高送轉(zhuǎn)股票（正類樣本）的準(zhǔn)確率作為模型評價(jià)指標(biāo)，同時(shí)G-mean也是衡量分類器性能的常用指標(biāo)，表2是二分類的混淆矩陣：

其中，TP和TN分別表示正確預(yù)測的正類和負(fù)類的樣本數(shù)量，F(xiàn)P和FN分別表示誤分類的正類和負(fù)類的樣本數(shù)量。在高送轉(zhuǎn)預(yù)測模型中，高送轉(zhuǎn)股票占比比較少，我們關(guān)注更多的是發(fā)生高送轉(zhuǎn)的股票（正類樣本），正類樣本的準(zhǔn)確率為：

三、實(shí)驗(yàn)

下面分別使用由K-近鄰，決策樹以及邏輯斯蒂回歸構(gòu)成的“組合”模型、Adaboost算法模型以及隨機(jī)森林算法模型，對2009年～2014年的年報(bào)公布的“高送轉(zhuǎn)”股票進(jìn)行預(yù)測，訓(xùn)練數(shù)據(jù)集選用相應(yīng)年份前一年的三季度財(cái)報(bào)數(shù)據(jù)。分別求出每個(gè)模型每年的正類準(zhǔn)確率、召回率以及G-mean值，結(jié)果如下面圖所示：

由上面兩個(gè)圖形可以看出，“組合”模型的準(zhǔn)確率較高，而在G-mean值上，隨機(jī)森林與“組合”模型的表現(xiàn)相當(dāng)。由此可以看出，“組合”模型在高送轉(zhuǎn)預(yù)測模型中表現(xiàn)的最好。

為了處理非平衡數(shù)據(jù)，本文采用K-mean聚類的欠抽樣技術(shù)減少數(shù)據(jù)的非平衡度，本文將每年正、負(fù)類比例調(diào)整為2，然后比較“組合”模型在數(shù)據(jù)平衡化前后的表現(xiàn)，以G-mean值作為衡量整體分類性能的指標(biāo)，比較結(jié)果如下圖所示：

由上圖可知，平衡化數(shù)據(jù)后模型的整體分類性能有所提高，這表明對于非平衡數(shù)據(jù)，先對非平衡數(shù)據(jù)進(jìn)行平衡化處理，之后再進(jìn)行分類，可以提高模型的整體分類性能。采取欠抽樣計(jì)數(shù)只是處理非平衡數(shù)據(jù)眾多技術(shù)之一，對于欠抽樣，最理想的正、負(fù)類的比例并不一定是1：1，針對不同的數(shù)據(jù)，可以不斷嘗試以獲得使模型達(dá)到較好的表現(xiàn)。

為了檢驗(yàn)“組合”模型、adaboost算法模型以及隨機(jī)森林模型的投資表現(xiàn)，本文對每年模型預(yù)測得到的高送轉(zhuǎn)股票進(jìn)行等權(quán)配資，每年的1月30日后一交易日開倉，當(dāng)持倉票發(fā)布年報(bào)時(shí)，將這只股票平倉，在3月30日將還在持倉的股票全部平倉，共231個(gè)交易日，另外以HS300指數(shù)為基準(zhǔn)，則各個(gè)模型及基準(zhǔn)的凈值曲線如圖6所示，各個(gè)模型的最終收益率、年化收益率、夏普比率以及最大回撤率如表3所示：

由圖5可以看出，高送轉(zhuǎn)股票具有高送轉(zhuǎn)公告效應(yīng)，每個(gè)模型表現(xiàn)均明顯優(yōu)于基準(zhǔn)HS300指數(shù)，同時(shí)，“組合2”模型的表現(xiàn)表現(xiàn)要好于非平衡數(shù)據(jù)下的“組合”模型，而它們均優(yōu)于Adaboost和隨機(jī)森林模型。本次實(shí)驗(yàn)表明，經(jīng)過平衡化處理的“組合2”模型對于投資有較好的指導(dǎo)作用。

四、結(jié)論

本文為了建立有效的高送轉(zhuǎn)股票預(yù)測模型，以KNN，邏輯斯蒂回歸以及決策樹為基分類器構(gòu)建了“組合”模型，同時(shí)也采用Adaboost以及隨機(jī)森林等集成學(xué)習(xí)算法構(gòu)建預(yù)測模型。本文以高送轉(zhuǎn)股票（正類）的準(zhǔn)確率以及G-mean值為模型的評價(jià)指標(biāo)，發(fā)現(xiàn)“組合”模型表現(xiàn)高于Adaboost算法以及隨機(jī)森林算法，同時(shí)具有令人滿意的準(zhǔn)確率，這說明多分類器構(gòu)建的分類模型在高送轉(zhuǎn)股票應(yīng)用中有很多的實(shí)際價(jià)值。本文針對數(shù)據(jù)的非平衡性，使用了基于K-mean聚類的欠抽樣技術(shù)，采用“組合”模型進(jìn)行實(shí)驗(yàn)，結(jié)果顯示：平衡化數(shù)據(jù)后，“組合”模型的投資效用有所提升。

參考文獻(xiàn)

[1]沈海平.我國上市公司高送轉(zhuǎn)公告效應(yīng)的實(shí)證研究[J].區(qū)域金融市場，2011，28（4）：47-51.

[2]車仲春，趙玉新，關(guān)爽.上市公司“高送轉(zhuǎn)”政策的趨勢與特征分析[J].會(huì)計(jì)之友，2013，（6）：26-31.

[3]陳珠明，史余森.高送轉(zhuǎn)股票財(cái)富效應(yīng)的實(shí)證研究[J].系統(tǒng)工程，2010，（10）

[4]周賓賓.基于非平衡數(shù)據(jù)的集成學(xué)習(xí)分類及應(yīng)用[D].廣州：華南理工大學(xué)，2014.

[5]統(tǒng)計(jì)學(xué)習(xí)方法/李航著.——北京：清華大學(xué)出版社，2012.3.

[6]Verikas A，Gelzinis A，Bacauskiene M.Mining data with random forests：a survey and results of new tests[J].Pattern Recognition，2011.44（2）：330-349.

作者簡介：王凱（1992-），男，漢族，河南周口，華南理工大學(xué)碩士研究生，研究方向：金融工程；龍衛(wèi)江（1962-），男，博士，副教授，研究方向：金融工程。