• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于集成學(xué)習(xí)的高送轉(zhuǎn)股票研究

      2017-03-31 05:44王凱龍衛(wèi)江
      時(shí)代金融 2016年36期
      關(guān)鍵詞:投資組合

      王凱+龍衛(wèi)江

      【摘要】高送轉(zhuǎn)預(yù)案公告發(fā)布前,高送轉(zhuǎn)股票具有顯著的累計(jì)正收益,因此預(yù)測高送轉(zhuǎn)股票對于投資具有重要意義。高送轉(zhuǎn)股票的預(yù)測是分類預(yù)測問題,本文利用上市公司三季度財(cái)報(bào)數(shù)據(jù),采用3種集成學(xué)習(xí)算法:由K-近鄰算法、決策樹以及加lasso懲罰項(xiàng)的邏輯斯蒂回歸算法構(gòu)建預(yù)測模型——“組合”模型,經(jīng)典的集成學(xué)習(xí)算法——AdaBoost算法以及隨機(jī)森林算法進(jìn)行建模。本文采用準(zhǔn)確率以及G-mean作為模型評價(jià)標(biāo)準(zhǔn),結(jié)果顯示:“組合”模型的準(zhǔn)確率最高,隨機(jī)森林和“組合”模型的G-mean表現(xiàn)相當(dāng),均優(yōu)于adaboost算法。由于每年高送轉(zhuǎn)股票所占比例小于50%,數(shù)據(jù)可以看成是非平衡數(shù)據(jù),為了改善“組合”模型較差的召回率,本文采用K-Means聚類的欠抽樣方法,將此方法用在“組合”模型上,效果顯著。最后分別對上面三種模型預(yù)測的股票構(gòu)建投資組合,并以HS300指數(shù)做基準(zhǔn)。結(jié)果顯示:“組合”模型預(yù)測得到的高送轉(zhuǎn)股票組合表現(xiàn)優(yōu)于另外兩種集成學(xué)習(xí)模型。

      【關(guān)鍵詞】高送轉(zhuǎn) 集成學(xué)習(xí) 非平衡數(shù)據(jù) 投資組合

      一、引言

      所謂“高送轉(zhuǎn)股票”是指上市公司大比例送紅股或大比例以資本公積金轉(zhuǎn)增股票,市場送轉(zhuǎn)股比例超過0.5的股票為“高送轉(zhuǎn)股票”。雖然上市公司送股、轉(zhuǎn)增股票及不影響其當(dāng)期現(xiàn)金流,也不影響其未來現(xiàn)金流,從而這種分紅并不影響公司價(jià)值,但高送轉(zhuǎn)事件向市場傳遞了公司發(fā)展良好、行業(yè)發(fā)展前景樂觀的信息,這導(dǎo)致不少投資者盲目的投資具有高送轉(zhuǎn)概念的股票。據(jù)文獻(xiàn)研究:中國股市具有明顯的高送轉(zhuǎn)公告效應(yīng),即高送轉(zhuǎn)股票在預(yù)案日公布前會(huì)出現(xiàn)正的超額收益率[1],陳珠明(2010)通過實(shí)證研究發(fā)現(xiàn):高送轉(zhuǎn)股票在預(yù)案公告日之前具有顯著的超額收益[2],因此,投資者為了在高送轉(zhuǎn)事件中獲取更多的超額收益率,在公告前預(yù)測高送轉(zhuǎn)股票顯得至關(guān)重要了。影響上市公司實(shí)施高送轉(zhuǎn)的因素有很多,車仲春等人認(rèn)為高送轉(zhuǎn)股票通常具有高積累、高業(yè)績、高股價(jià)和小股本這些特征[3],同時(shí)結(jié)合市場上一些券商的研究,本文將影響高送轉(zhuǎn)事件的主要因素定為:每股資本公積金、每股未分配利潤、每股收益、每股凈資產(chǎn)、每股現(xiàn)金凈流量、每股營業(yè)收入、上市時(shí)間以及股價(jià)九大因素。因此,投資者將預(yù)測高送轉(zhuǎn)事件是否發(fā)生視為一個(gè)二分類問題,即股票要么“高送轉(zhuǎn)”,要么“不高送轉(zhuǎn)”。由于高送轉(zhuǎn)股票在A股市場上所占比例遠(yuǎn)小于50%,此分類問題可以看成是非平衡數(shù)據(jù)分類問題,因此本文將采用K-Means聚類的欠抽樣方法[4]解決非平衡問題。

      二、高送轉(zhuǎn)預(yù)測模型構(gòu)建及評價(jià)

      (一)數(shù)據(jù)來源

      本文研究的樣本是2009年至2015年剔除ST、PT股票的全部A股市場股票,選用的指標(biāo)數(shù)據(jù)如表1所示,數(shù)據(jù)來源于天軟(Tinysoft)數(shù)據(jù)庫。

      (二)模型算法

      令T年為測試集年份,為了構(gòu)建“高送轉(zhuǎn)”預(yù)測模型,我們訓(xùn)練集數(shù)據(jù)選為T-1年的三季度數(shù)據(jù),訓(xùn)練集樣本選取T-1年10月31日這天公布三季度報(bào)的非ST、PT股票,訓(xùn)練集的響應(yīng)變量則由T-1年樣本公告預(yù)案日公布的送、轉(zhuǎn)股比例是否超過0.5決定,如果超過0.5,表明樣本為“高送轉(zhuǎn)”股票,訓(xùn)練集的樣本標(biāo)簽為1,否則為0;本文的測試集樣本為T年10月31日公布三季度報(bào)的非ST、PT股票。

      首先,我們將分別使用K-近鄰算法、決策樹決策樹以及正則化的Logistic回歸構(gòu)建預(yù)測模型,并對這三種預(yù)測結(jié)果進(jìn)行投票以構(gòu)建一種“組合”模型,同時(shí)我們也分別采用集成學(xué)習(xí)算法Adaboost、隨機(jī)森林來構(gòu)建“高送轉(zhuǎn)”預(yù)測模型。

      1.K-近鄰算。K-近鄰算法[5]的工作原理是:存在一個(gè)樣本數(shù)據(jù)集合,并且樣本集中的每一數(shù)據(jù)都存在標(biāo)簽,輸入沒有標(biāo)簽的新數(shù)據(jù)后,將新數(shù)據(jù)的每個(gè)特征與樣本數(shù)據(jù)集中數(shù)據(jù)對應(yīng)的特征進(jìn)行比較,然后算法提取樣本集中前K個(gè)最相似(最近鄰)的數(shù)據(jù),選擇數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類,作為新數(shù)據(jù)的分類。采用K-近鄰算法需要對自變量數(shù)據(jù)歸一化,這里采用下面公式對數(shù)據(jù)歸一化:

      newValue=(oldValue-min)/(max-min) (1)

      其中min和max分別是對應(yīng)屬性數(shù)據(jù)集的最小特征值和最大特征值。

      對應(yīng)K-近鄰算法,模型的參數(shù)主要為K和距離,通過對該樣本數(shù)據(jù)進(jìn)行檢驗(yàn),發(fā)現(xiàn)K取3,距離選用歐氏距離時(shí),預(yù)測結(jié)果較好。

      2.決策樹算法。決策樹算法[5]由Breiman等人在1984年提出的,是應(yīng)用廣泛的決策樹學(xué)習(xí)方法,該算法有兩部分組成:(1)決策樹生成;(2)決策樹剪枝。本文決策樹生成就是遞歸地構(gòu)建二叉決策樹的過程,對回歸樹用平方誤差最小化準(zhǔn)則,對分類樹用基尼指數(shù)最小化準(zhǔn)則,進(jìn)行特征選擇,生成二叉樹。決策樹剪枝算法由兩部分組成:首先從生成的決策樹T0底端開始不斷剪枝,直到根節(jié)點(diǎn),形成1個(gè)子樹序列{T0,T1,…,Tn};然后通過交叉驗(yàn)證法在獨(dú)立的驗(yàn)證數(shù)據(jù)集上對子樹序列進(jìn)行測試,從中選擇最優(yōu)子樹。

      3.正則化Logistic算法。二項(xiàng)邏輯斯蒂回歸模型[5]是一種分類模型,由條件分布P(Y|X)表示,形式為參數(shù)化的邏輯斯蒂分布,條件概率分布如下:

      P(Y=1|x)=exp(w*x+b)/[1+exp(wx+b)] (2)

      P(Y=0|x)=1/(1+exp(wx+b)) (3)

      其中隨機(jī)變量Y取值為1或0,隨機(jī)變量x為實(shí)數(shù),w和b是參數(shù)。

      邏輯斯蒂回歸模型學(xué)習(xí)時(shí),對于給定的訓(xùn)練數(shù)據(jù)集T={(x1,y1),(x2,y2),…,(xn,yn)},可以應(yīng)用極大釋然估計(jì)求出參數(shù)。為了解決多重共線性的問題,本文采用增加lasso懲罰項(xiàng)的方法,采用10折交叉驗(yàn)證求出lasso的最優(yōu)參數(shù)lambda,然后求出邏輯斯蒂回歸。

      4.AdaBoost算。AdaBoost算法[5]是一種常用的集成學(xué)習(xí)算法,它從弱學(xué)習(xí)算法出發(fā),反復(fù)學(xué)習(xí),得到一系列弱分類器,然后組合這些弱分類器,構(gòu)成一個(gè)強(qiáng)分類器。AdaBoost根據(jù)每次訓(xùn)練樣本中樣本的分類是否正確,來確定下一次學(xué)習(xí)時(shí)的樣本權(quán)值,將修改權(quán)值的樣本再次進(jìn)行弱分類算法學(xué)習(xí),這樣構(gòu)成一個(gè)弱分類器組合,AdaBoost采取加權(quán)多數(shù)表決的方法,具體的,加大分類誤差率小的弱分類器的權(quán)值,使其在表決中起到較大的作用,減少分類誤差率大的弱分類器的權(quán)值,使其在表決中起到較小的作用。

      5.隨機(jī)森林算法。隨機(jī)森林算法(RF)[6]是Breiman在2001年提出的一種集成算法。它利用bootstrap重抽樣方法從原始樣本中抽取多個(gè)樣本,對每個(gè)bootstrap樣本進(jìn)行決策樹建模,然后通過投票取得最終分類結(jié)果。

      6.基于K-Means聚類的欠抽樣算法。K-Means聚類是最常用的聚類方法之一,常采用距離作為樣本相似性的度量,即樣本之間的距離越小,則樣本的相似性越高。

      欠抽樣是通過減少多數(shù)類樣本的數(shù)量來平衡兩類樣本的,欠抽樣可以有效減少數(shù)據(jù)的不平衡性,然而欠抽樣會(huì)破壞多數(shù)類樣本的整體結(jié)構(gòu),針對此問題本文使用了一種基于K-Means聚類的欠抽樣算法[3]:首先,將多類數(shù)據(jù)聚類,然后采用欠抽樣計(jì)數(shù)按照一定比例在多類數(shù)據(jù)的每個(gè)類別里抽取一定數(shù)量的樣本。

      (三)模型評價(jià)指標(biāo)

      本文所使用的數(shù)據(jù)為非平衡數(shù)據(jù),關(guān)注的重點(diǎn)是高送轉(zhuǎn)股票,因此本文以高送轉(zhuǎn)股票(正類樣本)的準(zhǔn)確率作為模型評價(jià)指標(biāo),同時(shí)G-mean也是衡量分類器性能的常用指標(biāo),表2是二分類的混淆矩陣:

      其中,TP和TN分別表示正確預(yù)測的正類和負(fù)類的樣本數(shù)量,F(xiàn)P和FN分別表示誤分類的正類和負(fù)類的樣本數(shù)量。在高送轉(zhuǎn)預(yù)測模型中,高送轉(zhuǎn)股票占比比較少,我們關(guān)注更多的是發(fā)生高送轉(zhuǎn)的股票(正類樣本),正類樣本的準(zhǔn)確率為:

      三、實(shí)驗(yàn)

      下面分別使用由K-近鄰,決策樹以及邏輯斯蒂回歸構(gòu)成的“組合”模型、Adaboost算法模型以及隨機(jī)森林算法模型,對2009年~2014年的年報(bào)公布的“高送轉(zhuǎn)”股票進(jìn)行預(yù)測,訓(xùn)練數(shù)據(jù)集選用相應(yīng)年份前一年的三季度財(cái)報(bào)數(shù)據(jù)。分別求出每個(gè)模型每年的正類準(zhǔn)確率、召回率以及G-mean值,結(jié)果如下面圖所示:

      由上面兩個(gè)圖形可以看出,“組合”模型的準(zhǔn)確率較高,而在G-mean值上,隨機(jī)森林與“組合”模型的表現(xiàn)相當(dāng)。由此可以看出,“組合”模型在高送轉(zhuǎn)預(yù)測模型中表現(xiàn)的最好。

      為了處理非平衡數(shù)據(jù),本文采用K-mean聚類的欠抽樣技術(shù)減少數(shù)據(jù)的非平衡度,本文將每年正、負(fù)類比例調(diào)整為2,然后比較“組合”模型在數(shù)據(jù)平衡化前后的表現(xiàn),以G-mean值作為衡量整體分類性能的指標(biāo),比較結(jié)果如下圖所示:

      由上圖可知,平衡化數(shù)據(jù)后模型的整體分類性能有所提高,這表明對于非平衡數(shù)據(jù),先對非平衡數(shù)據(jù)進(jìn)行平衡化處理,之后再進(jìn)行分類,可以提高模型的整體分類性能。采取欠抽樣計(jì)數(shù)只是處理非平衡數(shù)據(jù)眾多技術(shù)之一,對于欠抽樣,最理想的正、負(fù)類的比例并不一定是1:1,針對不同的數(shù)據(jù),可以不斷嘗試以獲得使模型達(dá)到較好的表現(xiàn)。

      為了檢驗(yàn)“組合”模型、adaboost算法模型以及隨機(jī)森林模型的投資表現(xiàn),本文對每年模型預(yù)測得到的高送轉(zhuǎn)股票進(jìn)行等權(quán)配資,每年的1月30日后一交易日開倉,當(dāng)持倉票發(fā)布年報(bào)時(shí),將這只股票平倉,在3月30日將還在持倉的股票全部平倉,共231個(gè)交易日,另外以HS300指數(shù)為基準(zhǔn),則各個(gè)模型及基準(zhǔn)的凈值曲線如圖6所示,各個(gè)模型的最終收益率、年化收益率、夏普比率以及最大回撤率如表3所示:

      由圖5可以看出,高送轉(zhuǎn)股票具有高送轉(zhuǎn)公告效應(yīng),每個(gè)模型表現(xiàn)均明顯優(yōu)于基準(zhǔn)HS300指數(shù),同時(shí),“組合2”模型的表現(xiàn)表現(xiàn)要好于非平衡數(shù)據(jù)下的“組合”模型,而它們均優(yōu)于Adaboost和隨機(jī)森林模型。本次實(shí)驗(yàn)表明,經(jīng)過平衡化處理的“組合2”模型對于投資有較好的指導(dǎo)作用。

      四、結(jié)論

      本文為了建立有效的高送轉(zhuǎn)股票預(yù)測模型,以KNN,邏輯斯蒂回歸以及決策樹為基分類器構(gòu)建了“組合”模型,同時(shí)也采用Adaboost以及隨機(jī)森林等集成學(xué)習(xí)算法構(gòu)建預(yù)測模型。本文以高送轉(zhuǎn)股票(正類)的準(zhǔn)確率以及G-mean值為模型的評價(jià)指標(biāo),發(fā)現(xiàn)“組合”模型表現(xiàn)高于Adaboost算法以及隨機(jī)森林算法,同時(shí)具有令人滿意的準(zhǔn)確率,這說明多分類器構(gòu)建的分類模型在高送轉(zhuǎn)股票應(yīng)用中有很多的實(shí)際價(jià)值。本文針對數(shù)據(jù)的非平衡性,使用了基于K-mean聚類的欠抽樣技術(shù),采用“組合”模型進(jìn)行實(shí)驗(yàn),結(jié)果顯示:平衡化數(shù)據(jù)后,“組合”模型的投資效用有所提升。

      參考文獻(xiàn)

      [1]沈海平.我國上市公司高送轉(zhuǎn)公告效應(yīng)的實(shí)證研究[J].區(qū)域金融市場,2011,28(4):47-51.

      [2]車仲春,趙玉新,關(guān)爽.上市公司“高送轉(zhuǎn)”政策的趨勢與特征分析[J].會(huì)計(jì)之友,2013,(6):26-31.

      [3]陳珠明,史余森.高送轉(zhuǎn)股票財(cái)富效應(yīng)的實(shí)證研究[J].系統(tǒng)工程,2010,(10)

      [4]周賓賓.基于非平衡數(shù)據(jù)的集成學(xué)習(xí)分類及應(yīng)用[D].廣州:華南理工大學(xué),2014.

      [5]統(tǒng)計(jì)學(xué)習(xí)方法/李航著.——北京:清華大學(xué)出版社,2012.3.

      [6]Verikas A,Gelzinis A,Bacauskiene M.Mining data with random forests:a survey and results of new tests[J].Pattern Recognition,2011.44(2):330-349.

      作者簡介:王凱(1992-),男,漢族,河南周口,華南理工大學(xué)碩士研究生,研究方向:金融工程;龍衛(wèi)江(1962-),男,博士,副教授,研究方向:金融工程。

      猜你喜歡
      投資組合
      實(shí)例模型在投資組合最優(yōu)化中的應(yīng)用
      美國紐約州羅伯特小學(xué)“健康的投資組合”課外體育活動(dòng)分析與啟示
      個(gè)人理財(cái)投資組合策略分析
      含有模糊約束的最優(yōu)投資組合模型
      證券投資組合實(shí)證研究及績效評價(jià)
      我國開放式證券投資基金投資組合研究
      幾何Levy市場下的最優(yōu)投資與超額損失再保險(xiǎn)
      舟曲县| 额尔古纳市| 宿松县| 海兴县| 南溪县| 石景山区| 诏安县| 大理市| 五河县| 桑植县| 吉木萨尔县| 绥宁县| 平陆县| 张家港市| 民权县| 田东县| 武功县| 大城县| 兴城市| 顺昌县| 永泰县| 长岛县| 老河口市| 翁源县| 六枝特区| 绥江县| 景洪市| 江川县| 黑河市| 延寿县| 女性| 玉溪市| 集安市| 伽师县| 夹江县| 阳新县| 华安县| 凤山县| 富锦市| 汉阴县| 高密市|