魏 巍,王星惠,陳曉星
(安徽大學(xué))
在大數(shù)據(jù)時(shí)代背景下,隨著計(jì)算機(jī)收集、儲存數(shù)據(jù)的技術(shù)不斷發(fā)展,數(shù)據(jù)規(guī)模越來越大,數(shù)據(jù)維度也越來越高.經(jīng)研究發(fā)現(xiàn)這類高維數(shù)據(jù)中只有極少數(shù)被認(rèn)為與預(yù)測真正相關(guān),如何從繁雜的數(shù)據(jù)中尋找出有效的信息也成為國內(nèi)外研究的熱點(diǎn).
針對維數(shù)禍根問題,目前流行的高維變量選擇方法是由Tibsniran提出的Lasso方法,該方法在一般線性最小二乘的前提下通過懲罰將無影響和弱影響的變量的參數(shù)壓縮為零,以實(shí)現(xiàn)降維功能[1].劉睿智和杜溦將基于變量選擇觀點(diǎn)的Lasso選擇方法運(yùn)用到資產(chǎn)選擇和預(yù)測中,取得了很好的效果[3].Wu等在指數(shù)追蹤時(shí)使用Lasso方法,并在實(shí)證分析中取得較好效果[4].在Lasso方法的基礎(chǔ)上,Zou提出的自適應(yīng) Lasso方法,不僅克服了Lasso方法對重要變量的系數(shù)估計(jì)有偏且不具有 Oracle 性質(zhì)的問題,而且還具備良好的實(shí)用性[5].秦曄玲和朱建平利用自適應(yīng)Lasso方法對深滬300指數(shù)的指數(shù)追蹤進(jìn)行分析,研究發(fā)現(xiàn)該方法在股票選擇和有很好的效果[6].但高維數(shù)據(jù)通常存在多重共線性問題,Lasso方法處理這類數(shù)據(jù)效果不佳,為克服這一問題, Zou 和Hastie提出了一種改進(jìn)的Lasso算法——彈性網(wǎng)方法,可以克服原始數(shù)據(jù)中的共線性與群組效應(yīng),能有效地處理高維數(shù)據(jù)[7].Wu和Yang將彈性網(wǎng)方法運(yùn)用到滬深300指數(shù)和上證180指數(shù)跟蹤上,研究表明彈性網(wǎng)方法比Lasso方法具有更好的表現(xiàn)[8].
模型選擇(Model Selection, MS)因其簡單性和可解釋性在統(tǒng)計(jì)建模中一直占據(jù)重要地位[9-14].但模型選擇過程或多或少存在一些缺陷[15-16],會(huì)帶來不確定性,可能使估計(jì)或預(yù)測的誤差偏大,導(dǎo)致模型預(yù)測效果變差.為了彌補(bǔ)這些缺陷,越來越多的學(xué)者開始關(guān)注模型平均方法(Model Averaging, MA).模型平均通過給一組相互競爭的候選模型賦權(quán),獲得一個(gè)加權(quán)平均的預(yù)測值.該預(yù)測值充分利用了各候選模型的信息,因而具有更高的模型預(yù)測精度,模型更加穩(wěn)健.模型平均方法主要有兩個(gè)發(fā)展方向:Bayes模型平均方法(BMA)和頻率模型平均方法(FMA).該文考慮的是頻率模型平均方法[17],它的最優(yōu)權(quán)重選取是至關(guān)重要的,當(dāng)下常見的權(quán)重選擇方法包括Smoothed AIC(S-AIC)、Smoothed BIC(S-BIC)方法[18]、基于Mallows準(zhǔn)則的MMA(Mallows Model Averaging)[19]和基于Jackknife準(zhǔn)則的JMA(Jackknife Model Averaging)[20]等.
Hu等研究發(fā)現(xiàn),在大多數(shù)情況下,模型平均比單個(gè)模型的預(yù)測精度高,但是在單個(gè)模型中存在許多變量時(shí),模型平均與模型選擇相比沒有什么改善[21].針對這種情況,Ando和Li提出了一種應(yīng)用于高維數(shù)據(jù)的兩步交叉驗(yàn)證方法(MCV),先通過預(yù)測變量與響應(yīng)變量間的邊際相關(guān)性構(gòu)建候選模型,再通過Jackknife準(zhǔn)則來估計(jì)模型權(quán)重,這是高維頻率模型平均發(fā)展的重要一步[22].根據(jù)類似的思想,Ando和Li進(jìn)一步將模型平均擴(kuò)展到高維廣義線性模型[23].Pan在Ando和Li研究的基礎(chǔ)上加以思考,提出了一個(gè)改進(jìn)的兩階段模型平均方法(IMA),先通過高維變量選擇方法篩選變量并構(gòu)建候選模型,再運(yùn)用Jackknife準(zhǔn)則來優(yōu)化模型權(quán)重進(jìn)行模型平均,最后將該方法應(yīng)用于葉黃素?cái)?shù)據(jù)中[24].研究發(fā)現(xiàn)與MCV相比,IMA具有更優(yōu)秀的預(yù)測性能,更適合高維數(shù)據(jù).
受上述文獻(xiàn)的啟發(fā),該文試圖將彈性網(wǎng)與Jackknife模型平均方法相結(jié)合,提出了一種基于彈性網(wǎng)的兩階段模型平均方法(彈性網(wǎng)-JMA),以上證180指數(shù)及其所有成分股的30分鐘線收盤價(jià)為研究對象.通過基于彈性網(wǎng)的變量選擇方法對上證180指數(shù)的所有成分股進(jìn)行具體的股票選擇以實(shí)現(xiàn)降維的目標(biāo),并構(gòu)建稀疏的候選模型,再通過Jackknife模型平均方法對上證180指數(shù)的30分鐘線收盤價(jià)進(jìn)行預(yù)測.為了比較彈性網(wǎng)-JMA的預(yù)測效果,該文考慮了多種基準(zhǔn)模型用于對比分析,分別是Lasso回歸、彈性網(wǎng)回歸、基于Lasso的兩階段模型平均方法(Lasso-MMA 和Lasso-JMA)以及基于彈性網(wǎng)的兩階段Mallows模型平均方法(彈性網(wǎng)-MMA).實(shí)驗(yàn)結(jié)果表明:該文提出的彈性網(wǎng)-JMA的預(yù)測性能優(yōu)于其他基準(zhǔn)模型,實(shí)證結(jié)果表明該方法的優(yōu)越性.
(1)
其中,yt是第t次觀測的被解釋變量,xt=(xt1,xt2,…,xtp)T是第t次觀測的全部解釋變量,xtj是第t次觀測的第j個(gè)解釋變量,βj是第j個(gè)解釋變量的回歸系數(shù),獨(dú)立隨機(jī)誤差εt是零均值且有限方差σ2.該文研究過程中,假設(shè)只有一部分解釋變量在預(yù)測被解釋變量是有貢獻(xiàn),表示真實(shí)解釋變量(即具有非零回歸系數(shù)的解釋變量)的數(shù)量為s,s和真實(shí)解釋變量是未知的.
為了后續(xù)書寫方便,將模型(1)表示為矩陣形式:
y=Xβ+ε
(2)
其中,
1.2.1 Lasso方法
Tibshirani提出Lasso方法[1].不失一般性,假定對被解釋變量y進(jìn)行中心化,對解釋變量X進(jìn)行標(biāo)準(zhǔn)化,即
(3)
Lasso估計(jì)定義為:
(4)
Lasso方法是在最小二乘的基礎(chǔ)上加入約束,使得非零回歸系數(shù)βj向0收縮,選擇出更具有價(jià)值的解釋變量.Lasso方法能降低預(yù)測方差,實(shí)現(xiàn)變量選擇,但是也存在一定的局限性.對于n×p的解釋變量,最多只能選出min(n,p)個(gè)變量.當(dāng)p?n時(shí),最多只能選擇n個(gè)解釋變量,會(huì)影響到模型的預(yù)測精度,對建模帶來誤導(dǎo).
1.2.2 彈性網(wǎng)
針對Lasso回歸的局限性,Zou 和Hastie在Lasso回歸方法的基礎(chǔ)上提出了彈性網(wǎng)回歸方法[7].彈性網(wǎng)估計(jì)定義為:
(5)
(6)
1.2.3 模型平均方法
模型平均方法是把候選模型通過一定的權(quán)重進(jìn)行加權(quán)平均形成一個(gè)新的組合預(yù)測模型,各個(gè)候選模型權(quán)重的確定尤為重要,確定模型平均權(quán)重的準(zhǔn)則諸多,該文考慮MMA和JMA方法.
MMA方法是由Hansen提出的一種常數(shù)權(quán)重模型平均方法,他首次將Mallows準(zhǔn)則引入到模型平均方法當(dāng)中,通過極小化Mallows準(zhǔn)則來得到各個(gè)候選模型的權(quán)重[19].
(7)
權(quán)重選擇的Mallows準(zhǔn)則是:
(8)
(9)
綜上所述,可得到MMA方法估計(jì)值為:
(10)
第t*個(gè)被解釋變量yt*的預(yù)測表達(dá)式為:
(11)
Hansen 和 Racine提出了JMA方法,它是常數(shù)權(quán)重模型平均方法中比較有代表性的一個(gè)方法.JMA方法適用于隨機(jī)誤差為同方差和異方差的情形,彌補(bǔ)了MMA方法只能用于同方差的不足,適用性更優(yōu)[20].
(12)
則條件均值u的Jackknife模型平均估計(jì)值為:
(13)
接下來,基于Jackknife準(zhǔn)則來選擇權(quán)重向量.Jackknife準(zhǔn)則為:
(14)
通過極小化Jackknife準(zhǔn)則得到權(quán)重向量:
(15)
綜上所述,可得到Jackknife模型平均估計(jì)值為:
(16)
第t*個(gè)被解釋變量yt*的預(yù)測表達(dá)式為:
(17)
1.2.4 兩階段模型平均方法
該文提出基于彈性網(wǎng)的兩階段模型平均方法,具體步驟如下.
第二步:模型平均.通過極小化Jackknife準(zhǔn)則來估計(jì)各個(gè)候選模型的權(quán)重,再在測試集T2上,對各個(gè)稀疏的候選模型進(jìn)行賦權(quán)獲得被解釋變量yt*的預(yù)測值.具體的過程如1.2.3所述.
考慮數(shù)據(jù)的可得性以及上證180指數(shù)的成分股每半年更新一次的事實(shí),該文選取2021年6月12日至2021年12月10日的上證180指數(shù)及其所有成分股的30分鐘線收盤價(jià)為研究對象,對由于股票停牌無法交易而導(dǎo)致的缺失值,用該股票停牌前一日的收盤價(jià)填充.該文研究的數(shù)據(jù)集共976條觀測值,180個(gè)指標(biāo).按照時(shí)間順序,將數(shù)據(jù)集按7∶3的比例分為訓(xùn)練集和測試集,用訓(xùn)練集來估計(jì)變量篩選后的候選模型的權(quán)重,用測試集來評估各模型的預(yù)測表現(xiàn).
該文考慮一個(gè)多元線性模型,表示如下:
(18)
研究過程中,令yt表示上證180指數(shù)的第t次觀測值,xtj表示第j只上證成分股30分鐘線收盤價(jià)的第t次觀測值.
為了讓股指追蹤的成本更低,期望可以通過成分股中一個(gè)較小的子集就能追蹤指數(shù)的表現(xiàn).為實(shí)現(xiàn)這一目的,考慮對上證180指數(shù)的180個(gè)成分股進(jìn)行變量篩選,在懲罰回歸中,通過程序自動(dòng)選擇使交叉驗(yàn)證預(yù)測誤差最小的調(diào)整參數(shù),由此選出合適的成分股子集,在訓(xùn)練集上構(gòu)建候選模型,再估計(jì)候選模型的權(quán)重,在測試集上運(yùn)用加權(quán)后的模型計(jì)算R2,均方根誤差(RMSE)和平均絕對百分誤差(MAPE),以此作為模型的評價(jià)指標(biāo),R2越大,RMSE和MAPE越小,表示預(yù)測精度越高,三者的定義如下:
(19)
(20)
(21)
在該節(jié)中,為了評估兩階段模型平均方法進(jìn)行上證180指數(shù)30分鐘收盤價(jià)預(yù)測的表現(xiàn),選擇了6個(gè)預(yù)測模型進(jìn)行對比,分別是Lasso回歸、彈性網(wǎng)回歸、Lasso-MMA、Lasso-JMA、彈性網(wǎng)-MMA和彈性網(wǎng)-JMA方法.Lasso回歸和彈性網(wǎng)回歸都是直接用全部成分股的30分鐘線收盤價(jià)來預(yù)測,旨在與兩階段模型平均方法進(jìn)行對比.兩階段模型平均方法使用不同的降維方法,旨在探究用不同的懲罰函數(shù)進(jìn)行變量篩選是否會(huì)顯著影響模型的預(yù)測表現(xiàn);使用不同的權(quán)重選擇方法,旨在探究基于不同的漸近最優(yōu)的模型平均方法是否會(huì)顯著影響模型的預(yù)測表現(xiàn).
圖1展示了各模型預(yù)測上證180指數(shù)30分鐘線收盤價(jià)的情況,可直觀地顯示了各模型在各期地預(yù)測表現(xiàn).
從圖1中可以發(fā)現(xiàn):相比與兩階段模型平均方法,Lasso回歸和彈性網(wǎng)回歸的預(yù)測波動(dòng)較大,預(yù)測模型不穩(wěn)定,尤其是Lasso回歸,而四種兩階段模型平均方法的預(yù)測結(jié)果較為一致,折線圖基本重合,更貼近實(shí)際值.
圖1 各模型的預(yù)測表現(xiàn)
接下來,將從R2、均方根誤差(RMSE)和平均絕對百分誤差(MAPE)三個(gè)方面來定量分析各模型的整體預(yù)測效果,具體數(shù)值見表1.由于各模型在不同的評價(jià)指標(biāo)下有不同的預(yù)測表現(xiàn),該文提供了一個(gè)綜合排名來評價(jià)預(yù)測表現(xiàn).要確定綜合排名,首先要分別在同一指標(biāo)下對各模型進(jìn)行排名,再對同一模型的不同指標(biāo)進(jìn)行簡單平均,綜合排名越靠前則模型預(yù)測性能越好.
表1 各模型的整體預(yù)測表現(xiàn)的對比
(1)從綜合排名來看,兩階段模型平均的預(yù)測效果一致優(yōu)于Lasso回歸和彈性網(wǎng)回歸,兩階段模型平均方法的預(yù)測精度有了明顯的提高.在四種兩階段模型平均中,基于彈性網(wǎng)降維的兩階段模型平均一致優(yōu)于基于Lasso降維的兩階段模型平均,說明使用組合懲罰函數(shù)進(jìn)行變量篩選會(huì)顯著提高模型的預(yù)測精度;使用JMA方法的兩階段方法的預(yù)測表現(xiàn)也優(yōu)于MMA方法,說明基于不同的漸近最優(yōu)的模型平均方法也會(huì)顯著影響模型的預(yù)測精度.
(2)在R2評價(jià)準(zhǔn)則下,Lasso-JMA表現(xiàn)最優(yōu),彈性網(wǎng)-JMA表現(xiàn)次之,但兩者的指標(biāo)差值低于0.05,說明就該指標(biāo)來看,兩者預(yù)測性能相當(dāng).
(3)在RMSE和MAPE兩種評價(jià)準(zhǔn)則下,彈性網(wǎng)-JMA表現(xiàn)最優(yōu),其次是彈性網(wǎng)-MMA,說明彈性網(wǎng)降維在預(yù)測中優(yōu)勢明顯,這一發(fā)現(xiàn)是令人振奮的,因?yàn)閺椥跃W(wǎng)降維會(huì)使更多的非零回歸系數(shù)向0收縮以獲得更低維度的解釋變量,實(shí)現(xiàn)降低股指追蹤的成本的同時(shí)提高了預(yù)測精度.
準(zhǔn)確的上證180指數(shù)的預(yù)測為股指追蹤提供便利.該文運(yùn)用兩階段模型平均方法預(yù)測上證180指數(shù)30分鐘線收盤價(jià),利用部分成分股來估計(jì)目標(biāo)指數(shù),降低股指追蹤的成本.研究結(jié)果顯示,彈性網(wǎng)-JMA方法在預(yù)測上證180指數(shù)30分鐘收盤價(jià)時(shí)表現(xiàn)出了突出、穩(wěn)定的預(yù)測性能.兩階段模型平均方法優(yōu)于Lasso回歸和彈性網(wǎng)回歸,而彈性網(wǎng)-JMA方法又優(yōu)于另外三種兩階段模型平均方法.這說明彈性網(wǎng)-JMA方法可以有效降低預(yù)測誤差,是一種有效的股指預(yù)測模型.
該文在研究兩階段模型平均方法時(shí)發(fā)現(xiàn),不同的降維手段對模型預(yù)測性能有很大的影響,關(guān)于兩階段模型平均方法中降維部分還可繼續(xù)進(jìn)行深入研究.