王文軒 蔡偉宏
[摘? 要]將Logistic回歸應(yīng)用在多因子模型時,模型可利用反映股票漲跌信息的因子與股票收益率的歷史數(shù)據(jù)實現(xiàn)Logistic回歸對未來股價上漲概率的預(yù)測。實證分析結(jié)果顯示,2012—2018年間運用Logistic回歸篩選出的大概率上漲的股票組合可獲得較高的平均收益率、勝率和夏普比率,Logistic回歸在滬深市場上可成功發(fā)揮其對股價上漲概率的預(yù)測功能。
[關(guān)鍵詞]Logistic回歸;多因子選股;股票價格
1? 引言
作為證券投資學(xué)中的重點研究問題,股票價格預(yù)測對幫助投資者做出理性投資決策及推動我國金融市場穩(wěn)定發(fā)展有著重要意義。21世紀初,Logistic回歸模型在統(tǒng)計學(xué)和金融學(xué)領(lǐng)域的應(yīng)用逐漸被引起重視,如Hulisi and Ramazan(2009)發(fā)現(xiàn)Logistic回歸可用于判別股票價格有無人為干預(yù);張德鴻(2016)提出以通貨膨脹指數(shù)等作為宏觀經(jīng)濟指標,運用Logistic回歸模型可預(yù)警系統(tǒng)性金融危機;邵志高(2017)探究了以收入異動預(yù)測未來股票高收益概率的Logistic回歸模型應(yīng)用方法。利用Logistic回歸的預(yù)測功能,文章提出基于Logistic回歸的多因子選股模型在滬深市場上的應(yīng)用方法,并利用歷史數(shù)據(jù)回測驗證其有效性。
2 ?模型構(gòu)建
套利定價理論作為線性多因子模型的理論基礎(chǔ),假設(shè)風(fēng)險資產(chǎn)均衡收益與多個因素之間呈線性映射關(guān)系。若使風(fēng)險資產(chǎn)均衡收益與多個因子之間呈現(xiàn)“Sigmoid”函數(shù)的非線性映射關(guān)系,便可得到基于Logistic回歸的多因子選股模型。
Logistic回歸模型屬于廣義線性回歸模型,與其他廣義線性回歸模型不同的是,Logistic回歸模型的因變量是二分類或多分類的。文章實證研究使用季度數(shù)據(jù),當個股i次季度收益率大于滬深300指數(shù)次季度收益率時,記響應(yīng)變量=1;當個股i次季度收益率小于滬深300指數(shù)次季度收益率時,記響應(yīng)變量
=0。由于因變量在每次觀測中服從兩點分布,我們便構(gòu)造了
=1和
=0的二分變量矩陣。設(shè)概率函數(shù)
表示在一次試驗中事件發(fā)生的概率(
),即次季度個股i收益率大于次季度滬深300指數(shù)收益率事件發(fā)生的概率,構(gòu)造Logistic回歸方程:
3? 實證分析
3.1 樣本數(shù)據(jù)處理
文章選取2012年第一季度至2018年第二季度,共計26個季度的市盈率(PE)、營業(yè)收入增長率(ir_MBR)、凈資產(chǎn)收益率增長率(ir_ROE)、凈利潤增長率(ir_NP)和資產(chǎn)負債率(DA)作為反映股票漲跌信息的因子,選取滬深300指數(shù)收益率作為業(yè)績基準,并采用滬深300指數(shù)成分股的個股的指標作為模型構(gòu)建的指標。為使模型具備對次季度收益率的預(yù)測作用,樣本數(shù)據(jù)中季度收益率數(shù)據(jù)要比因子指標數(shù)據(jù)滯后一期,即研究當期成分股收益率與上期成分股因子指標的相關(guān)性關(guān)系,樣本數(shù)據(jù)來源為RESSET銳思數(shù)據(jù)庫。
剔除數(shù)據(jù)缺失嚴重及2012年之后上市的股票,剔除ST股票,進行股票樣本處理后,本文將從含有259只股票的股票池樣本數(shù)據(jù)中選取股票構(gòu)建投資組合。
3.2 模型應(yīng)用
根據(jù)條件概率結(jié)果,通過Logistic回歸求得中的各個自變量的回歸系數(shù)
,然后將各季度每支個股的因子值
代入概率公式,即可求得每支個股次季度跑贏滬深300指數(shù)的概率。
3.3 策略回測
經(jīng)過ROC曲線檢驗,上述回歸均有較好的擬合優(yōu)度。將2012年第一季度至2018年第二季度的每個成分股的解釋變量代入公式,即可得到各季度中各股票的個股次季度收益率大于滬深300指數(shù)季度收益率事件發(fā)生的概率。通過對每個季度成分股的次季度收益率跑贏滬深300指數(shù)次季度收益率的概率值由高至低進行降序排序,選取概率最高的10只股票在下個季度初等權(quán)重買入,構(gòu)建投資組合。因為構(gòu)建模型時所用的季度收益率滯后于因子指標一個季度,所以回測時間段為2012年第二季度初至2018年第三季度末。
本文在模型回測時將收益率數(shù)據(jù)分為兩組:Logistic預(yù)測組和被動指數(shù)組。在Logistic預(yù)測組中,在2012年第一季度末第一次買入投資組合,至2018年第二季度末最后一次買入投資組合,權(quán)重配比方法為等權(quán)重地在26個季度中不間斷投資;在被動指數(shù)組中,被動地投資滬深300指數(shù)基金,不進行選股。
相對于被動指數(shù)組的策略收益波動率12.84%,Logistic預(yù)測組的策略收益波動率高達19.56%,表明基于Logistic回歸的多因子選股策略需要承擔(dān)的風(fēng)險相對較大,收益不如被動指數(shù)組穩(wěn)定。雖然Logistic預(yù)測組的收益波動較大,但是其勝率在兩組中表現(xiàn)較好,達到了80.77%,說明大部分季度中Logistic預(yù)測組都成功構(gòu)建了正收益的投資組合。Logistic預(yù)測組的平均季度收益率11.35%大于被動指數(shù)組的平均季度收益率2.09%,Logistic預(yù)測組能得到相對滬深300指數(shù)較高的平均收益。最后,Logistic預(yù)測組28.57%的收益回撤比率和0.58的夏普比率遠高于被動指數(shù)組,表明Logistic預(yù)測組在承擔(dān)每單位風(fēng)險的同時可以取得較高的股價上漲帶來的收益。
4? 結(jié)論
文章提出了Logistic回歸在多因子模型中發(fā)揮其股價上漲概率預(yù)測功能的應(yīng)用方法。利用Logistic回歸能夠起到預(yù)測作用的特性,文章通過對次季度259只成分股個股收益率大于次季度滬深300指數(shù)收益率的概率排序,構(gòu)建了每個季度的投資組合。實證結(jié)果表明,應(yīng)用Logistic回歸模型的預(yù)測功能進行回歸法量化選股時,雖然在投資過程中收益率波動較大,但是相對地可以獲得在承擔(dān)每單位風(fēng)險下的較高的超額收益,Logistic回歸在滬深市場上可成功發(fā)揮其對股價上漲概率的預(yù)測功能。
參考文獻:
[1]張德鴻.基于Logistic回歸的系統(tǒng)性金融風(fēng)險研究[J].重慶理工大學(xué)學(xué)報,2016(3):137-146.
[2]邵志高.基于二元logistic回歸模型的收入異動影響未來股票收益研究[J].湖南科技大學(xué)學(xué)報,2017(5):103-111.
[3]劉輝,黃建山.中國A股市場股票收益率風(fēng)險因素分析:基于Fama-French三因素模型[J].當代經(jīng)濟科學(xué),2013,35(4):27-31,125.
[4]HAN J, MORAG C.The influence of the sigmoid function parameters on the speed of backpropagation learning[J].Lecture Notes in Computer Science,1995:195-201.
[5]HULISI, RAMAZAN. Detecting stock-price manipulation in an emerging market: the case of Turkey[J].Expert systems with applications,2009,36(9):11944-11949.
[6]FAMAAND M. Risk, return, and equilibrium:empirical tests[J]. Journal of Political Economy,1973(81):607-636.
[作者簡介]王文軒(1997—),男,黑龍江哈爾濱人,本科,研究方向:金融市場;蔡偉宏(1975—),男,福建福清人,博士,副教授,研究方向:金融市場。