劉麗萍(貴州財(cái)經(jīng)大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,貴州 貴陽 550025)
在大數(shù)據(jù)時(shí)代,隨著數(shù)據(jù)可獲得性的提高,金融數(shù)據(jù)的維度呈爆炸式增長。目前,國外已有不少學(xué)者在變量選擇方面對高維數(shù)據(jù)進(jìn)行了研究[1-2],但國內(nèi)對于如何估計(jì)高維資產(chǎn)協(xié)方差陣的研究并不多見,協(xié)方差陣在投資組合和風(fēng)險(xiǎn)管理中扮演著重要角色,如何估計(jì)高維金融數(shù)據(jù)的協(xié)方差陣已是統(tǒng)計(jì)領(lǐng)域中越來越重要的亟待解決的問題。近年來,已有很多學(xué)者對高維協(xié)方差陣的估計(jì)問題進(jìn)行了研究;Fan等不僅提出了基于因子結(jié)構(gòu)的協(xié)方差陣估計(jì)方法,還提出了基于主成分分析的高維協(xié)方差陣估計(jì)方法[3-4];Cai和Zhou、Cai和Liu提出了基于門限函數(shù)的稀疏協(xié)方差陣估計(jì)方法[5-6];Wu和Pourahmadi[7]、Li和Wang等[8]將喬列斯基分解法和非參數(shù)收縮法相結(jié)合,提出了基于喬列斯基分解的高維協(xié)方差陣估計(jì)方法;還有學(xué)者提出了高維數(shù)據(jù)的動態(tài)協(xié)方差陣估計(jì)方法。
上述方法都是在數(shù)據(jù)服從正態(tài)分布的假定下進(jìn)行的。但是,金融數(shù)據(jù)大多是服從厚尾分布的,極端風(fēng)險(xiǎn)出現(xiàn)的次數(shù)要明顯多于正態(tài)分布,而考慮金融數(shù)據(jù)的厚尾特征,有助于發(fā)現(xiàn)市場的異常走向,防范和化解金融極端風(fēng)險(xiǎn)。在估計(jì)金融數(shù)據(jù)的協(xié)方差陣時(shí),通常采用的懲罰最小二乘估計(jì)法不再適用,因其對誤差的分布非常敏感,尤其對于超高維變量而言,由于忽略厚尾分布而產(chǎn)生的噪聲大大影響了協(xié)方差陣的估計(jì)效果,進(jìn)而會影響投資者的投資決策。
在厚尾分布的假定下,如何估計(jì)高維協(xié)方差陣的研究還非常少。Xue和Zou針對厚尾數(shù)據(jù),提出了基于秩方法的高維協(xié)方差陣的估計(jì)方法[9],但是該方法的應(yīng)用并不廣泛,因其是在變量之間具有自然順序的假定下進(jìn)行的,針對其研究的不足,本文考慮將Fan、Li、Wang提出的RA-Lasso方法和喬列斯基分解法相結(jié)合,提出新的方法以估計(jì)高維厚尾金融數(shù)據(jù)的協(xié)方差陣(記為ΣRA-Lasso):首先,通過喬列斯基分解法將復(fù)雜的高維協(xié)方差陣估計(jì)方法轉(zhuǎn)化為一系列的回歸模型;然后,將基于懲罰Huber損失函數(shù)的穩(wěn)健Lasso方法(RA-Lasso)應(yīng)用到這一系列的回歸模型中,并將一些回歸系數(shù)壓縮為0來精簡模型,以達(dá)到降維的目的。Fan、Li、Wang的研究指出:RA-Lasso方法能夠很好地估計(jì)高維厚尾數(shù)據(jù)的回歸模型[10]。因此,筆者將RA-Lasso方法應(yīng)用到基于喬列斯基分解的回歸模型中,在解決維數(shù)詛咒問題的同時(shí),很好地克服了金融數(shù)據(jù)的厚尾特征對協(xié)方差陣估計(jì)的影響,明顯提高了高維協(xié)方差陣的估計(jì)效率。
Wu等提出將喬列斯基分解方法應(yīng)用到高維協(xié)方差陣的估計(jì)中,將繁瑣的協(xié)方差陣估計(jì)問題轉(zhuǎn)化為一系列回歸模型的估計(jì)問題。對于協(xié)方差陣Σ,其改進(jìn)的喬列斯基分解形式如下:
TΣT′=D
(1)
(2)
式(2)也可以寫成如下形式:
εt=Tyt
(3)
根據(jù)式(1)~(3)得協(xié)方差陣Σ的估計(jì)值為:
(4)
根據(jù)Fan、Li、Wang的研究,本文將RA-Lasso方法應(yīng)用于式(2)所代表的系列回歸模型中。在估計(jì)式(2)時(shí),首先引入Huber損失函數(shù)[11],其形式為:
(5)
Huber損失函數(shù)是一種使用魯棒性回歸的損失函數(shù),相比均方誤差而言,它對異常值不敏感,對于小的yj值該損失函數(shù)是二次的,而對大的yj值該函數(shù)則是線性的。根據(jù)式(5)知,可將最小二乘回歸和最小絕對偏差回歸看成是Huber損失函數(shù)中α取值為0和的兩種極端情況;ια(yj)也被稱為近似穩(wěn)健的二次損失函數(shù),即RA損失函數(shù),其中α為調(diào)整參數(shù),是變化的,其取值直接影響到Huber損失函數(shù),而如何選取最優(yōu)的α值,將在后文詳細(xì)介紹。
Fan、Li、Wang研究指出:將RA損失函數(shù)和Lasso方法相結(jié)合得到的RA-Lasso方法,能夠解決維數(shù)詛咒問題,并很好估計(jì)高維數(shù)據(jù)的回歸模型。所以,可將RA-Lasso方法應(yīng)用到同樣是高維回歸模型的式(2)中,得到基于RA-Lasso方法的φtj的估計(jì)值:
(6)
在式(6)的估計(jì)中涉及到兩個(gè)未知參數(shù)α和λ,調(diào)整參數(shù)α的選擇直接影響到Huber損失函數(shù),將采用交叉驗(yàn)證法來選擇最優(yōu)的α。在Wang的研究中指出,懲罰參數(shù)λ依賴于樣本量n以及資產(chǎn)的維度p,Wang給出λ的取值近似為[12]:
(7)
在后文的研究中,均采用式(7)來計(jì)算λ值。
(8)
由式(7)進(jìn)一步得到:
(9)
從而得到高維厚尾數(shù)據(jù)協(xié)方差陣的估計(jì)量ΣRA-Lasso:
(10)
在ΣRA-Lasso估計(jì)過程中,先引入喬列斯基分解法將復(fù)雜的協(xié)方差陣估計(jì)問題轉(zhuǎn)化為一系列的回歸模型;再在回歸模型的估計(jì)過程中引入RA-Lasso方法,該方法在解決了維數(shù)詛咒的同時(shí),還考慮了由于數(shù)據(jù)的厚尾特征而引起的估計(jì)偏差問題,從而使高維協(xié)方差陣的估計(jì)更加有效。
為了驗(yàn)證ΣRA-Lasso方法的有效性,筆者在模擬研究時(shí)采用本文提出的ΣRA-Lasso方法來估計(jì)模擬數(shù)據(jù)的協(xié)方差陣,并與其他協(xié)方差陣估計(jì)方法進(jìn)行比較以說明其有效性。模擬數(shù)據(jù)可根據(jù)式(11)產(chǎn)生,這是因?yàn)楸疚奶岢龅摩睷A-Lasso方法是將RA-Lasso法直接應(yīng)用到協(xié)方差陣的喬列斯基分解回歸模型中的,其形如式(11)的回歸模型,即:
(11)
具體的模擬步驟如下:
步驟一:令φtj=1-0.3t-j(1≤j 步驟二:對于誤差εt分布,考慮兩種情況:一種是εt服從于均值為0、方差為2的正態(tài)分布;另一種情況是εt服從于自由度為3的t分布。根據(jù)εt所屬的分布,可以產(chǎn)生n個(gè)服從正態(tài)分布的殘差數(shù)據(jù)和n個(gè)服從t分布的厚尾數(shù)據(jù)。 步驟三:根據(jù)式(11)知y1=ε1,將產(chǎn)生的φtj和εt代入到式(11)中,得到兩組數(shù)據(jù)向量y,y=c(y1,y2,…,yn)′,其中一組為服從t分布的厚尾數(shù)據(jù)。 步驟四:重復(fù)上述步驟N次,便得到了樣本量為N、資產(chǎn)維度為n的數(shù)據(jù),在本文的研究中取N=200、n=300、n=500。 由式(6)知,在采用ΣRA-Lasso方法估計(jì)高維數(shù)據(jù)的協(xié)方差陣時(shí),調(diào)整參數(shù)α和λ的選擇至關(guān)重要。將樣本量n和資產(chǎn)維度p代入式(7)可得λ。對于參數(shù)α,通常采用K折交叉驗(yàn)證法選擇最優(yōu)值。本文選取K=5,即采用5折交叉驗(yàn)證法來選取最優(yōu)的參數(shù)α,即將數(shù)據(jù)集等分成5份,輪流將其中4份作為訓(xùn)練數(shù)據(jù),1份作為測試數(shù)據(jù)而進(jìn)行試驗(yàn);每次試驗(yàn)都會得出相應(yīng)的正確率,將5次結(jié)果的正確率的平均值作為對算法精度的估計(jì)。 在本文的研究中,采用的交叉驗(yàn)證的統(tǒng)計(jì)量為2-范數(shù)損失函數(shù),將其定義為: (12) 圖1 最優(yōu)調(diào)整參數(shù)α選擇圖 由圖1不難發(fā)現(xiàn),當(dāng)數(shù)據(jù)的維度分別為300和500時(shí),通過交叉驗(yàn)證法選擇的最優(yōu)調(diào)整參數(shù)α的值分別為5.1和5.4。 為了驗(yàn)證ΣRA-Lasso方法的估計(jì)效果,將其與Wu和Pourahmadi提出的協(xié)方差陣估計(jì)方法(ΣLasso)進(jìn)行比較。ΣLasso方法與本文提出的ΣRA-Lasso方法的思想有些類似,都是在高維協(xié)方差陣的估計(jì)過程中引入了喬列斯基分解方法,只是ΣLasso方法在估計(jì)喬列斯基分解的回歸模型時(shí),通過引入Lasso方法來壓縮回歸系數(shù),以解決維數(shù)詛咒問題,而沒有考慮到數(shù)據(jù)的厚尾特征。在比較ΣRA-Lasso和ΣLasso方法時(shí),采用以下兩種類型的損失函數(shù)作為比較標(biāo)準(zhǔn): MSE= (13) (14) 本文采用上證180指數(shù)成分股進(jìn)行實(shí)證研究,數(shù)據(jù)來自于CSMAR數(shù)據(jù)庫,樣本區(qū)間的時(shí)間范圍為2011年1月4日至2014年9月30日。將交易缺失的數(shù)據(jù)剔除后所有股票共有交易的天數(shù)為906,根據(jù)上海證券市場的CSRC行業(yè)分類標(biāo)準(zhǔn),可以將180只股票分成8個(gè)板塊,分別為:制造業(yè)、采掘業(yè)、金融保險(xiǎn)業(yè)、交通運(yùn)輸和倉庫業(yè)、房地產(chǎn)行業(yè)、信息技術(shù)業(yè)、電氣水的生產(chǎn)和供應(yīng)業(yè)以及綜合業(yè)。由于數(shù)據(jù)的分布特征會影響到協(xié)方差陣的估計(jì)效果,所以對全樣本股票以及各個(gè)板塊的收益率數(shù)據(jù)的分布進(jìn)行分析。對于樣本股票的收益率,本文采用的是對數(shù)收益率,即第i只股票在第t日的收益率為Ri,t=log(Pi,t)-log(Pi,(t-1))。股票收益率的正態(tài)性分析具體見表2。 表2 股票收益率的正態(tài)性分析表 注:用**表示在5%的水平下顯著。 從表2可以看出,無論是對于全樣本股票還是對于各個(gè)板塊的股票,其收益率的峰度明顯大于3,說明上證股票收益率數(shù)據(jù)具有明顯的尖峰厚尾的特征,并且JB檢驗(yàn)在5%的顯著水平下均拒絕了正態(tài)分布的假定,進(jìn)一步證實(shí)了上證180指數(shù)成分股的收益率并不服從正態(tài)分布。 1.投資組合的構(gòu)建。在估計(jì)和預(yù)測出資產(chǎn)的協(xié)方差陣后,將其應(yīng)用于投資組合。本文主要構(gòu)建了兩種類型的投資組合,即最小方差投資組合和等比例風(fēng)險(xiǎn)投資組合。最小方差投資組合思想是通過尋找組合方差的最小值尋找最優(yōu)的組合權(quán)重向量,當(dāng)資本市場不允許賣空時(shí),該投資組合的權(quán)重滿足下式: s.t ∑w1t=1 (0≤wit≤1) (15) 其中wit(i=1,2,…,n)為第i個(gè)資產(chǎn)在t日的權(quán)重向量,Wt=(w1t,w2t,…,wnt)為第t日組合權(quán)重向量。根據(jù)Liu的研究[13],最小方差投資組合的權(quán)重最優(yōu)解為: (16) 其中1為全1向量。 等比例風(fēng)險(xiǎn)投資組合是由Maillard等提出的[14],即主要通過調(diào)整權(quán)重使每個(gè)資產(chǎn)在投資組合中的風(fēng)險(xiǎn)比例相等。當(dāng)資本市場不允許賣空時(shí),該組合權(quán)數(shù)滿足下式: s.t ∑w1t=1 (0≤wit≤1) (17) 2.各投資組合的收益和波動分析。將預(yù)測的160天的協(xié)方差陣ΣLasso和ΣRA-Lasso應(yīng)用于投資組合時(shí),為了比較二者的實(shí)際應(yīng)用績效,根據(jù)筆者的研究,將組合收益、組合標(biāo)準(zhǔn)差以及夏普比率作為衡量指標(biāo)。夏普比率是由Sharpe提出的,其有效衡量了每單位風(fēng)險(xiǎn)所獲得的收益。顯然,標(biāo)準(zhǔn)差越小收益越高,夏普比率越高的投資組合越受投資者的青睞。表3給出了預(yù)測的協(xié)方差陣在投資組合中的應(yīng)用效果。 表3 不同投資組合的平均收益、組合波動、Sharpe比率表 根據(jù)表3知,無論選擇何種投資組合,較預(yù)測的協(xié)方差陣ΣLasso而言,由ΣRA-Lasso構(gòu)造的投資組合的組合收益更高,組合波動更小,其夏普比率值也更高,從而說明了在收益一定的情況下,由預(yù)測的協(xié)方差陣ΣRA-Lasso構(gòu)造的投資組合風(fēng)險(xiǎn)更小,或者說是在風(fēng)險(xiǎn)一定的情況下,由ΣRA-Lasso構(gòu)造的投資組合的組合收益更高。 圖2中Lasso表示的是由ΣLasso構(gòu)造組合的Sharpe比率值,RA-Lasso表示的是由ΣRA-Lasso構(gòu)造組合的Sharpe比率值。據(jù)圖2易得,無論選擇何種投資組合,由ΣRA-Lasso所構(gòu)造的投資組合的Sharpe比率值顯然要高于ΣLasso。 圖2 動態(tài)Sharpe比率變化示意圖 在大數(shù)據(jù)時(shí)代,隨著數(shù)據(jù)可獲得性的提高,金融數(shù)據(jù)的維度呈爆炸式的增長。如何估計(jì)高維金融數(shù)據(jù)的協(xié)方差陣已引起了學(xué)者們的廣泛關(guān)注,但以往的研究大都是在數(shù)據(jù)服從正態(tài)分布的假定下進(jìn)行的,而金融數(shù)據(jù)大多是服從厚尾分布的,極端風(fēng)險(xiǎn)出現(xiàn)的次數(shù)明顯要多于正態(tài)分布。在估計(jì)高維金融數(shù)據(jù)的協(xié)方差陣時(shí),考慮金融數(shù)據(jù)的厚尾特征,有助于發(fā)現(xiàn)市場異常走向,防范和化解金融極端風(fēng)險(xiǎn)。本文將RA-Lasso方法和喬列斯基分解法相結(jié)合,提出新的方法來估計(jì)高維厚尾金融數(shù)據(jù)的協(xié)方差陣(記為ΣRA-Lasso)。該方法首先通過喬列斯基分解法將復(fù)雜的高維協(xié)方差陣估計(jì)方法轉(zhuǎn)化為一系列的回歸模型;然后將基于懲罰Huber損失函數(shù)的穩(wěn)健的lasso方法(RA-Lasso)法應(yīng)用到這一系列的回歸模型中,并將一些回歸系數(shù)壓縮為0以精簡模型,達(dá)到降維之目的。RA-Lasso方法能夠很好地估計(jì)高維厚尾數(shù)據(jù)的回歸模型,因此將RA-Lasso方法應(yīng)用到基于喬列斯基分解的回歸模型中,在解決維數(shù)詛咒問題的同時(shí),很好地克服了金融數(shù)據(jù)的厚尾特征對協(xié)方差陣估計(jì)的影響,明顯提高了高維協(xié)方差陣的估計(jì)效率。通過模擬和實(shí)證研究發(fā)現(xiàn),考慮了數(shù)據(jù)厚尾特征的ΣRA-Lasso方法明顯優(yōu)于其他協(xié)方差陣估計(jì)方法,并將其應(yīng)用于投資組合時(shí),投資者獲得了更高的收益。 [1] 馬學(xué)俊.GSIS超高維變量的選擇[J].統(tǒng)計(jì)與信息論壇,2015(8). [2] 張景肖,李向杰,郭海明.HD-SIS超高維數(shù)據(jù)穩(wěn)健變量篩選[J].統(tǒng)計(jì)與信息論壇,2016(4). [3] Fan J,Liao Y,Mincheva M.High Dimensional Covariance Matrix Estimation in Approximate Factor models[J].The Annals of Statistics,2011(6). [4] Fan J,Liao Y,Mincheva M.Large Covariance Estimation by Thresholding Principal Orthogonal Complements[J].Journal of the Royal Statistical Society,2013(4). [5] Cai T,Zhou H.Optimal Rates of Convergence for Sparse Covariance Matrix Estimation[J].The Annals of Statistics,2012(5). [6] Cai T,Liu W.Adaptive Thresholding for Sparse Covariance Matrix Estimation[J].Journal of the American Statistical Association,2011(106). [7] Wu W B,Pourahmadi M.Nonparametric Estimation of Large Covariance Matrices of Longitudinal Data[J].Journal of Biometrika,2003(4). [8] Li Y,Wang N,Hong M,Nancy D T,Joanne R,et al.Nonparametric Estimation of Correlation Functions Inlongitudinal and Spatial Data,with Application to Colon Carcinogenesis Experiments[J].The Annals of Statistics,2007(4). [9] Xue L,Zou H.Rank-Based Tapering Estimation of Bandable Correlation Matrices[J].Journal of Statistica Sinica,2014(1). [10] Fan J,Li Q,Wang Y.Robust Estimation of High-Dimensional Mean Regression[J].Journal of Statistics,2014(4). [11] Huber P J.Robust Estimation of a Location Parameter[J].The Annals of Mathematical Statistics,1964(35). [12] Wang L.The L1 Penalized LAD Estimator for High Dimensional Linear Regression[J].Journal of Multivariate Analysis,2013(9). [13] Liu Q.On Portfolio Optimization:How and When Do We Benefit from High-Frequency Data?[J].Journal of Applied Econometrics,2009(4). [14] Maillard S,Roncalli T,Teiletche J.On the Properties of Equally Weighted Risk Contributions Portfolios[J].Journal of Portfolio Management,2010(4).(二)調(diào)整參數(shù)α的選擇
(三)ΣRA-Lasso協(xié)方差陣估計(jì)方法與其他方法的比較
四、實(shí)證研究
(一)股票收益率數(shù)據(jù)的正態(tài)性檢驗(yàn)
(二)預(yù)測的動態(tài)條件協(xié)方差陣在投資組合中的應(yīng)用研究
五、結(jié) 論