丁琦
摘要:本文利用中國(guó)A股市場(chǎng)中所有股票近年來(lái)的相關(guān)財(cái)務(wù)數(shù)據(jù)與行情數(shù)據(jù),對(duì)500多個(gè)股票因子進(jìn)行了顯著性分析與主成分分析,構(gòu)建了兩個(gè)新的選股主因子:技術(shù)因子與價(jià)值因子,并以此為基礎(chǔ)建立了多因子量化選股策略。最后利用近五年數(shù)據(jù)對(duì)該策略進(jìn)行了回測(cè)與實(shí)證分析,結(jié)果表明該策略在不同市場(chǎng)行情下都能夠在低風(fēng)險(xiǎn)的同時(shí)穩(wěn)定地獲取超過(guò)基準(zhǔn)收益率的高額回報(bào)。
關(guān)鍵詞:量化投資 股票 主成分分析 多因子模型
一、引言
Famma與French(1993)[1]基于市值、賬面市值比和市盈率建立了著名的三因子模型,奠定了多因子選股模型的理論基礎(chǔ)。目前,人們已經(jīng)提出了上千種能夠反應(yīng)股票各種信息的因子,因而如何從中選取符合市場(chǎng)行情的有效因子成為了當(dāng)下熱點(diǎn)研究問(wèn)題之一。而主成分分析方法[2] [3][4]可以很好地解決這一問(wèn)題,其不僅可以提煉出對(duì)股票收益率有顯著影響的因子,并且可以解決各因子數(shù)據(jù)間的相關(guān)性問(wèn)題。
二、數(shù)據(jù)預(yù)處理
本文以中國(guó)A股市場(chǎng)中的全部3000余只股票和點(diǎn)寬網(wǎng)因子庫(kù)中的所有500多個(gè)因子作為研究對(duì)象,數(shù)據(jù)來(lái)源于點(diǎn)寬網(wǎng)的商用數(shù)據(jù)庫(kù),研究的樣本區(qū)間為2016年1月1日至2018年9月30日。所使用的數(shù)據(jù)分析軟件和編程軟件為SPSS、AutoTrader與MATLAB。
首先根據(jù)準(zhǔn)則對(duì)數(shù)據(jù)進(jìn)行去極值處理,然后采用零均值化,將數(shù)據(jù)按照一定比例縮放到0與1之間,并滿足均值為0、標(biāo)準(zhǔn)差為1,最終得到標(biāo)準(zhǔn)化的數(shù)據(jù)。記為因子庫(kù)中的全部因子,為A股市場(chǎng)中的全部股票,其中N、M分別表示因子的總個(gè)數(shù)和股票的總只數(shù)。用序列表示股票對(duì)應(yīng)于因子的日頻數(shù)據(jù),其中為樣本區(qū)間內(nèi)總交易天數(shù)。
由于某些因子值需要根據(jù)各公司月度財(cái)報(bào)數(shù)據(jù)進(jìn)行更新,因而本文的模型均采用按月?lián)Q倉(cāng)的交易策略,這就需要將前文的日頻數(shù)據(jù)序列轉(zhuǎn)化為月度數(shù)據(jù)序列。設(shè)整個(gè)樣本區(qū)間共包含了T個(gè)月,用序列表示股票Si對(duì)應(yīng)于因子X(jué)j的月度數(shù)據(jù),其中取為中第t個(gè)月的最后一個(gè)交易日所對(duì)應(yīng)的數(shù)值。
三、IC顯著性分析
IC(信息系數(shù))是由因子在某只股票上的因子暴露與對(duì)應(yīng)股票下一期收益序列間的相關(guān)系數(shù)來(lái)確定的,即因子X(jué)j關(guān)于股票Si的IC值為
其中為因子月度數(shù)據(jù)序列的前T-1個(gè)分量,而為股票Si的每期收益率序列,其中每期的收益率為
可見(jiàn)IC值的絕對(duì)值越大股票收益率就越高,故使用IC值的絕對(duì)值去判斷因子與股票收益之間的關(guān)系。由此定義每個(gè)因子針對(duì)全市場(chǎng)所有股票的 IC 顯著性為
顯著性越大表明該因子與股票價(jià)格之間的相關(guān)性就越高,則其對(duì)股價(jià)的預(yù)測(cè)能力就越強(qiáng)。通過(guò)計(jì)算因子庫(kù)中500多個(gè)因子的IC顯著性,本文篩選出最優(yōu)的20個(gè)候選因子(見(jiàn)表1)。
對(duì)于IC顯著性大的因子還需要進(jìn)一步考察其選股能力的實(shí)際表現(xiàn),即觀察因子值高的股票是否能夠保持盈利。為此本文建立了單因子選股模型(詳見(jiàn)模型1),并利用樣本區(qū)間的真實(shí)市場(chǎng)數(shù)據(jù),對(duì)表2中的因子逐一進(jìn)行回測(cè)分析。
模型1 單因子選股模型
1.手續(xù)費(fèi)為雙邊3‰,每月月初調(diào)倉(cāng)。
2.在每月最后一個(gè)交易日計(jì)算股票的因子得分。
3.分值最大的前3%的股票作為備選股票池。
4.在下月首個(gè)交易日,以當(dāng)天的收盤(pán)價(jià)將持倉(cāng)股票更換為備選股票池中股票。
5.對(duì)歷史收益率進(jìn)行回測(cè)并計(jì)算夏普比率。
其中第2步的因子得分是通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理之后得到的一個(gè)數(shù)值(詳見(jiàn)算法1)。
算法1 計(jì)算單只股票的因子得分
1.提取之前30個(gè)交易日的原始因子數(shù)據(jù)。
2.按照第一節(jié)的方法進(jìn)行去極值與標(biāo)準(zhǔn)化處理。
3.以最后一個(gè)交易日對(duì)應(yīng)的數(shù)值作為因子得分。
由于夏普比率能夠同時(shí)反映出投資的收益與風(fēng)險(xiǎn),故本文以此作為度量選股能力的指標(biāo),并據(jù)此選取夏普比率最高的前6個(gè)因子作為最終的有效因子,分別記為Y1,…,Y6(見(jiàn)表2)。
四、主成分分析及多因子選股模型
為防止不同因子之間存在內(nèi)在關(guān)聯(lián)而導(dǎo)致信息重疊,本文利用樣本區(qū)間內(nèi)的月度數(shù)據(jù)對(duì)上述有效因子進(jìn)行主成分分析。
其次,利用SPSS對(duì)于矩陣A進(jìn)行主成分分析,得到了表3所示的主成分方差貢獻(xiàn)累積和特征值。
由于前兩個(gè)成分的累積方差貢獻(xiàn)率達(dá)到了87.291%,已經(jīng)能夠涵蓋的絕大部分的信息量,因而選擇F1,F(xiàn)2作為主成分,其關(guān)于Y1,...,Y6的組成系數(shù)分別為:
如果兩個(gè)主成分對(duì)因子的影響程度相似,則這兩個(gè)主成分是很難區(qū)分的,為此需要進(jìn)行適當(dāng)?shù)淖鴺?biāo)旋轉(zhuǎn),將其換成新的主成分。記,觀察發(fā)現(xiàn)V的前三行和后三行分別對(duì)應(yīng)平面上兩類(lèi)不同的點(diǎn)。因而構(gòu)造二階正交旋轉(zhuǎn)矩陣S,對(duì)V進(jìn)行旋轉(zhuǎn)變換得到,其中為W的列向量,且滿足分別只在前三行和后三行的位置上取值最顯著,容易解得:
通過(guò)中各分量取值的權(quán)重可以看出,與三個(gè)價(jià)值類(lèi)因子NegMktValue、MktValue、LFL密切相關(guān),其所包含的信息主要為公司的基本面信息,因此稱(chēng)為價(jià)值因子。而與三個(gè)技術(shù)指標(biāo)類(lèi)因子LINEARREG_INTERCEPT、HT_TRENDLINE、KAMA密切相關(guān),其所包含的信息主要為股票行情K線的基本數(shù)據(jù),因此稱(chēng)為技術(shù)因子。
將價(jià)值因子與技術(shù)因子的值進(jìn)行等權(quán)重相加,作為衡量股票優(yōu)劣性的指標(biāo),由此建立如下多因子量化選股模型(詳見(jiàn)模型2)。
模型2 多因子量化選股模型
1.手續(xù)費(fèi)為雙邊3‰,每月月初調(diào)倉(cāng)。
2.在每月最后一個(gè)交易日,根據(jù)算法1計(jì)算股票關(guān)于有效因子的因子得分。
3.計(jì)算出合成因子的值,并以作為該股票的綜合得分。
4.取分值最大的3%的股票作為備選股票池。
5.在下個(gè)月的首個(gè)交易日,以當(dāng)天的收盤(pán)價(jià)將持倉(cāng)股票更換為備選股票池中股票(根據(jù)不同股票價(jià)格等權(quán)重配置資金)。
6.對(duì)歷史收益率進(jìn)行回測(cè),計(jì)算其年化收益率、夏普比率與最大回撤等相關(guān)指標(biāo)。
五、實(shí)證分析
從整體上來(lái)觀察上證50指數(shù)自2014年5月至今的走勢(shì)(見(jiàn)圖1),可以清晰地看出大盤(pán)經(jīng)歷了從大漲到大跌、最后進(jìn)入一個(gè)緩慢盤(pán)整的過(guò)程。
因而可以將整個(gè)時(shí)間段分為3個(gè)不同走勢(shì)的部分,即“牛市”“熊市”“震蕩市”,其具體時(shí)間分段如下:
a)牛市:14年5月1日至15年5月31日。
b)熊市:15年6月1日至16年4月30日。
c)震蕩市:16年5月1日至19年6月30日。
將模型2分別在這三個(gè)時(shí)間段上進(jìn)行回測(cè),結(jié)果如下表所示。
由表4可知,該模型在不同行情下的年化收益率都顯著優(yōu)于同期滬深300指數(shù)的收益率。在牛市行情當(dāng)中,該模型取得了較高的夏普比率和較低的最大回撤率,表明該模型不僅能夠獲取非常穩(wěn)定的高額收益,而且具有非常低的投資風(fēng)險(xiǎn)。在熊市和震蕩市期間,該模型受行情影響較大,從而導(dǎo)致了收益率與夏普比率的下降以及最大回撤率的上升,但相對(duì)于滬深300指數(shù)而言,仍然具有明顯的投資優(yōu)勢(shì)。
總之,模型2能夠很好地適應(yīng)各種市場(chǎng)行情,不僅獲得了超過(guò)市場(chǎng)平均水準(zhǔn)的收益,而且也完全體現(xiàn)出了低風(fēng)險(xiǎn)性。進(jìn)而也說(shuō)明了本文所構(gòu)造的價(jià)值因子與技術(shù)因子,在各種行情下都能夠較為準(zhǔn)確地反應(yīng)出股票的優(yōu)劣性。
參考文獻(xiàn):
[1]E Fama,K French. Common Risk Factors in the Returns on Stocks and Bonds[J].Journal of Financial Economics,1993,33(3):3-56.
[2]朱晨曦.我國(guó)A股市場(chǎng)多因子量化選股模型實(shí)證分析[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2017.
[3]王春麗.劉光.王齊.多因子量化選股模型與擇時(shí)策略[J].東北財(cái)經(jīng)大學(xué)學(xué)報(bào),2018,(5):81-87.
[4]于卓熙.秦璐.趙志文.溫馨.基于主成分分析與廣義回歸神經(jīng)網(wǎng)絡(luò)的股票價(jià)格預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2018,510(18):168-171.
基金項(xiàng)目:北京師范大學(xué)珠海校區(qū)教師科研能力促進(jìn)計(jì)劃項(xiàng)目。
作者單位:北京師范大學(xué)珠海校區(qū)應(yīng)用數(shù)學(xué)學(xué)院