楊茜麟
摘 要:在本文選取2014.8.25—2014.11.18的60分鐘線ESG40的指數(shù)走勢與其40支成分股的數(shù)據(jù)并以“收盤價(jià)”作為主要關(guān)系指標(biāo)。本文主要考慮兩部分內(nèi)容:第一,使用不同的估計(jì)方法來獲得ESG40股指與其成份股之間的模型關(guān)系。主要考慮了兩類有偏估計(jì)。同時(shí),對(duì)所建立的模型進(jìn)行了顯著性檢驗(yàn),誤差分析及其預(yù)測能力的考察。第二,考慮到各成分股之間可能存在較強(qiáng)的相關(guān)性,我們首先對(duì)數(shù)據(jù)做了聚類分析,又因?yàn)椴煌兞恐g可能存在有依賴關(guān)系,所以利用LASSO估計(jì)和彈性網(wǎng)估計(jì)做了變量選擇,以期望能利用較少的變量,進(jìn)行低復(fù)雜度的運(yùn)算,獲得一個(gè)具有良好預(yù)測能力的模型。
關(guān)鍵詞:主成分估計(jì) 嶺估計(jì) 變量選擇
本文以ESG40股指以及其成分股作為為研究對(duì)象,一方面研究該股指與其成分股之間的關(guān)系,另一方面以較少的成分股的組合,來跟蹤指數(shù),為基金管理者這類投資者提供以風(fēng)險(xiǎn)對(duì)沖為目的的投資選擇。選取2014.8.25—2014.11.18的60分鐘線ESG40的指數(shù)走勢與其40支成分股的數(shù)據(jù),并以“收盤價(jià)”作為主要關(guān)系指標(biāo)。從成份股的變更時(shí)間來看,在我們選取的時(shí)間段內(nèi)并沒有成份股的變更。因此不需要對(duì)選取的數(shù)據(jù)進(jìn)行處理。
一、模型估計(jì)
筆者首先利用正回歸模型來估計(jì)參數(shù),但相關(guān)系數(shù)矩陣的條件數(shù)為16506.84,即存在嚴(yán)重的共線性,且最大以及最小的特征值間差異巨大,這會(huì)使得正回歸得到的模型具有很大的均方誤差,因此考慮有偏估計(jì)進(jìn)行統(tǒng)計(jì)分析。
1.主成分估計(jì)。由于變量間的相關(guān)性較高,主成分法就是通過降為將變量轉(zhuǎn)化為能解釋大多數(shù)變量的不相關(guān)的新變量,該方法由Pearson,K. 以及Hotelling, H. 分別在非隨機(jī)變量以及隨機(jī)向量情況下進(jìn)行的討論。在實(shí)際使用中,注意首先要利用scale函數(shù)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,然后利用R軟件中的pr=princomp()命令即可得到主成分分析結(jié)果。首先選取四個(gè)主成分做最小二乘估計(jì),發(fā)現(xiàn):模型與每一個(gè)主成分的系數(shù)都是顯著的。于是,我們利用坐標(biāo)變換之后,我們得到每個(gè)成分股所對(duì)應(yīng)的參數(shù)。此時(shí)我們得到主成分估計(jì)的殘差為2603.218,在我們選取的4個(gè)主成分時(shí),雖然在指數(shù)的走勢上主成分估計(jì)和真實(shí)值是一樣的,但是預(yù)測值在估計(jì)的精度上還是比較差的。為了減小估計(jì)的殘差,我們采取增加主成分的方法,通過對(duì)協(xié)方差矩陣特征值的計(jì)算,我們設(shè)定閥值為0.1,發(fā)現(xiàn)前14個(gè)主成分滿足要求。重復(fù)上面的步驟,可以得到得到估計(jì)殘差平方和為360.7032,出現(xiàn)了不顯著的主成份的系數(shù),但是模型依舊通過了顯著性檢驗(yàn)。同時(shí)我們還利用R軟件畫出了殘差圖及預(yù)測圖是的我們的結(jié)果更為直觀的展示出來。 下圖為4個(gè)主成分與14個(gè)主成分?jǐn)M合的對(duì)比圖。
2.嶺估計(jì)。另一種有偏估計(jì)就是嶺估計(jì)。因?yàn)檫@里我們要使用嶺估計(jì)(使用MASS程序包)。通過lm.ridge建立嶺估計(jì),涉及到嶺參數(shù)lambda的選擇,首先我們利用R軟件畫出數(shù)據(jù)的嶺跡圖。
嶺跡圖中我們可以發(fā)現(xiàn)雖然調(diào)節(jié)參數(shù)lambda的值在5之后有了趨于穩(wěn)定的趨勢,但是我們看到在10的時(shí)候還是出現(xiàn)了交叉的現(xiàn)象。因此,我們使用R軟件中的select()函數(shù)選取嶺參數(shù)而不是從嶺跡圖中選取,利用select函數(shù)選取嶺參數(shù),選取在命令中自帶的幾個(gè)統(tǒng)計(jì)量(modified HKB estimator, Lawless-Wang, Generalized Cross Validation)中較小的modified HKB estimator 結(jié)果,為:0.1698289,選取該參數(shù),得到的嶺估計(jì)的殘差平方和為88.42984,而對(duì)應(yīng)的擬合圖(圖2)如上。從該擬合圖看來預(yù)測值與實(shí)際值之間差異已經(jīng)很小了。
二、變量選擇
在利用最小二乘估計(jì)對(duì)模型的參數(shù)進(jìn)行估計(jì)時(shí)我們發(fā)現(xiàn),雖然擬合效果很好,模型也通過了顯著性檢驗(yàn),但是,較多的系數(shù)是沒有通過顯著性檢驗(yàn)的。而且,利用主成分估計(jì)來計(jì)算模型參數(shù)的時(shí)候,我們可以發(fā)現(xiàn)當(dāng)我們選取四個(gè)主成分的時(shí)候得到每個(gè)主成分的參數(shù)是顯著的,隨著主成分的增加模型的預(yù)測值與真是值之間的差距越來越小,但是主成分的系數(shù)也就變得不再都是顯著的。另外,從相關(guān)系數(shù)矩陣我們也可以發(fā)現(xiàn)數(shù)據(jù)是存在嚴(yán)重的共線性的,這說明變量之間存在這較為嚴(yán)重的相互性、關(guān)聯(lián)性。因此,這里我們考慮變量選擇問題,利用較少的變量來來做預(yù)測。這樣就在保證模型較好的預(yù)測能力的前提下,大大的降低計(jì)算量。由于變量選擇是為了選取幾個(gè)相關(guān)性較強(qiáng)的變量中的具有代表性的變量,而相關(guān)性強(qiáng)的變量是可以被看作是屬于一類的。于是,在做變量選擇之前,我們先對(duì)數(shù)據(jù)做一個(gè)簡單的聚類分析。通過聚類來觀察各個(gè)變量之間在某個(gè)準(zhǔn)則下的相關(guān)性關(guān)系。我們按照離差平方和的標(biāo)準(zhǔn),分成兩類,這里為了分析表述的方便,我們稱最底層的括號(hào)為一級(jí)分類,第二次的括號(hào)為二級(jí)分類,依次我們可以得到七級(jí)分類。事實(shí)上我們在進(jìn)行變量選擇時(shí)主要觀察哪一些變量被分離出來,而這些變量又是分屬于不同的級(jí)類的。一級(jí)分類如下:
1:廣匯能源。2:北京銀行,長江電力,大慶鐵路。3:招商銀行,興業(yè)銀行。4:馳宏鋅鍺。5:浦發(fā)銀行,特變電工。6:華能國際,民生銀行。7:保利地產(chǎn),中國重工。8:中國交建。9:中國鐵建。10中國北車,中國南車。11:寶鋼股份,交通銀行。12:上港集團(tuán),中信銀行。13:光大銀行,中國銀行。14:中國中鐵。15:中國鋁業(yè)。16:中國建筑,中國聯(lián)通,工商銀行。17:天士力,青島啤酒。18:中國神華。19:青島海爾。20:海正藥業(yè),國電南瑞。21:包鋼稀土。22:上汽集團(tuán),萬花藥業(yè)。23:中國太保。24:宇通客車,復(fù)星醫(yī)藥。
但是按照不同的準(zhǔn)則是有很多的變量選擇標(biāo)準(zhǔn)的,我們這里主要考慮以下兩類基于最小二乘估計(jì)帶有不同懲罰項(xiàng)的變量選擇方法:1. 絕對(duì)約束估計(jì)(LASSO); 2. 彈性網(wǎng)約束估計(jì)。
1.絕對(duì)約束估計(jì)(LASSO)。LASSO(the least absolute shrinkage and selection operator)方法是由Tibshirani在1996年提出來的,近幾年在大批優(yōu)秀統(tǒng)計(jì)學(xué)家的努力下有了長足的發(fā)展。這也使得LASSO方法日益成熟,在R軟件中也逐漸形成了專門的軟件包來做實(shí)現(xiàn)變量選擇,其中比較優(yōu)秀的算法應(yīng)該是有Efron等人提出的最小角回歸方法(LARS), 我們這里也直接采用LARS算法來求解LASSO估計(jì)。在LARS軟件包中可以通過Cp準(zhǔn)則和BIC準(zhǔn)則等來實(shí)現(xiàn)變量選擇,在我們的實(shí)際數(shù)值實(shí)驗(yàn)中,我們發(fā)現(xiàn)如果采用Cp準(zhǔn)側(cè),我們只是從40個(gè)變量中選取39個(gè)變量,并沒有很好的實(shí)現(xiàn)變量選擇。因此,我們這里只列出采用BIC準(zhǔn)則做變量選擇的結(jié)果,并對(duì)結(jié)果進(jìn)行分析。首先,我們使用LARS中的predict函數(shù)給出參數(shù)s與BIC值之間的關(guān)系,并給出合適的s使得BIC達(dá)到最小。直接利用程序我們可以得到s=1.73時(shí),我們得到最小的BIC值為7.518394。當(dāng)BIC的值為7.518394是我們利用LASSO估計(jì)選取了26個(gè)變量,且得到線性模型結(jié)果如下:
Y=6.888*浦發(fā)銀行+7.093*華能國際+0.7099*上港集團(tuán)+7.128*中國聯(lián)通+2.308*宇通客車+5.146*特變電工+1.483*上汽集團(tuán)+2.418*復(fù)新醫(yī)藥+2.252*萬華化學(xué)+0.858*國電南端+0.726*馳宏鋅鍺+0.205*青島海爾+2.192*長江電力+2.714*大秦鐵路+5.384*北京銀行+1.783*中國鐵建+0.559*中國北車+11.787*中國中鐵+12.538*工商銀行+5.78*中國鋁也+3.024*中國太保+10.362*中國建筑+2.659*中國交建+4.79*中國重工+10.152*中信銀行。然后我們得到利用LASSO估計(jì)得到的的殘差為159.4559。我們發(fā)現(xiàn)無論是從殘差或者模型預(yù)測的角度,我們得到的LASSO估計(jì)與真實(shí)值之間具有良好的擬合程度。
2.彈性網(wǎng)估計(jì)。鑒于LASSO估計(jì)的一些缺陷,例如,在一組相關(guān)性較高的數(shù)據(jù)中LASSO估計(jì)只能從其中選取一個(gè)變量,而舍棄了其他相關(guān)性較高的變量。我們這里再使用彈性網(wǎng)估計(jì)來實(shí)現(xiàn)變量選擇。該估計(jì)是合并考慮嶺估計(jì)以及絕對(duì)約束估計(jì)得到的。在R軟件中,使用glmnet程序包,首先我們利用交叉驗(yàn)證實(shí)現(xiàn)(cv.glmnet)參數(shù)的選擇,并得到最小的調(diào)節(jié)參數(shù)為0.1616009。具體的可以直接利用cv.glmnet函數(shù)直接實(shí)現(xiàn)CV交叉驗(yàn)證。我們發(fā)現(xiàn)利用彈性網(wǎng)估計(jì)可以選擇出的26個(gè)變量,得到估計(jì)的殘差:210.2164。建立的線性模型為:
Y=6.887*浦發(fā)銀行+7.095*華能國際+0.710*上港集團(tuán)+7.129*中國聯(lián)通+2.306*宇通客車+5.146*特變電工+1.482*上汽集團(tuán)+2.418*復(fù)新醫(yī)藥+2.253*萬華化學(xué)+0.858*國電南端+0.725*馳宏鋅鍺+0.204*青島海爾+2.195*長江電力+2.717*大秦鐵路+5.384*北京銀行+1.778*中國鐵建+0.557*中國北車+11.793*中國中鐵+12.534*工商銀行+5.779*中國鋁也+3.024*中國太保+10.379*中國建筑+2.656*中國交建+4.786*中國重工+10.155*中信銀行
我們可以發(fā)現(xiàn)彈性網(wǎng)估計(jì)和LASSO估計(jì)選取的變量是相同的,但是被選取的變量的系數(shù)還是不一樣的。LASSO估計(jì)和彈性網(wǎng)估計(jì)擬合圖對(duì)比如下:
最后,與前面的聚類分析對(duì)比我們可以發(fā)現(xiàn):一級(jí)分類里面1中的變量被踢出了;2中的變量都得到了保留;3中的變量都被踢出了; 4中被保留;5中只有浦發(fā)銀行被保留;6中只有華能國際被保留,依次進(jìn)行下去,我們可以發(fā)現(xiàn)在離差平方和的準(zhǔn)則下和BIC的準(zhǔn)則下,變量選擇和聚類分析之間并沒有很大的關(guān)聯(lián)性。 這其中的主要原因就是因?yàn)槲覀冊谧鼍垲惙治鍪沁x取的離差平方和準(zhǔn)則,在做變量選擇是用的BIC準(zhǔn)則,我們猜測根據(jù)合適選擇標(biāo)準(zhǔn),在做變量選擇時(shí)應(yīng)該與聚類分析中的一級(jí)聚類有很高的關(guān)聯(lián)性,但是這需要進(jìn)一步的驗(yàn)證,我們就不再這里贅述了。
三、結(jié)語
在本文中我們首先應(yīng)用最小二乘估計(jì)研究了ESG40股指及其成份股之間的模型建立問題??紤]到實(shí)際問題中成份股與股指之間的對(duì)應(yīng)關(guān)系,我們借助主成分回歸和嶺回歸這種有偏估計(jì)方法建立了有偏估計(jì)的模型,對(duì)相應(yīng)的模型進(jìn)行了檢驗(yàn)分析。另外,在數(shù)值例子中我們發(fā)現(xiàn)相關(guān)系數(shù)矩陣有著很高的共線性,同時(shí),我們在對(duì)最小二乘回歸的模型做顯著性檢驗(yàn)是可以發(fā)現(xiàn),有些變量的系數(shù)是不顯著的。因此,我們首先做了依據(jù)離差平方和準(zhǔn)則做了聚類分析,從40支股票中的到了24個(gè)一級(jí)聚類,這說明在離差平方和的準(zhǔn)則下,40支股票中是存在相關(guān)性很強(qiáng)的股票的。然后,我們利用LASSO估計(jì)和彈性網(wǎng)估計(jì)做了變量選擇。從我們的數(shù)值例子中可以發(fā)現(xiàn),盡管LASSO估計(jì)與彈性網(wǎng)估計(jì)兩種方法選出了相同的26支股票,但是對(duì)應(yīng)變量的系數(shù)還是不同的。而且從殘差的角度來看,LASSO估計(jì)的殘差要跟小一些。另外,當(dāng)我們使用LASSO估計(jì)(彈性網(wǎng)估計(jì))選取的變量跟聚類分析中的一級(jí)分類之間看上去是沒有什么關(guān)系的。我們猜測這里導(dǎo)致這個(gè)結(jié)果的主要原因是我們選取的標(biāo)準(zhǔn)的問題(聚類分析:離差平方和;LASSO: BIC; 彈性網(wǎng):CV),如果選取合適標(biāo)準(zhǔn),我們認(rèn)為變量選擇選取的變量是應(yīng)該在一級(jí)分類里面的,至少應(yīng)該存在某種合適的對(duì)應(yīng)關(guān)系,這方面的探索就不再這里贅述了。
參考文獻(xiàn):
[1]Pearson K. On Lines and Planes of Closest Fit to Systems of Points in SpacePhilosophical Magazine[J],1901,2 (11): 559-572.
[2]Tibshirani R.Regression Shrinkage and Selection via Lasso[J].Journal of the Raoyal Statistical Sosiety.Series B,1996,58(1):267-288.
[3]Zou H,Hastie T.Regularization and variable selection via the elastic net.Journal of the Royal Statistical Society,Series B,2005,67:301-320.
[4]Hotelling H. Analysis of a complex of statistical variables into principal components[J]. Journal of Educational Psychology,1933, 24, 417–441, and 498–520.