陳海燕,趙培信,
(1.重慶工商大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 400067;2.經(jīng)濟(jì)社會(huì)應(yīng)用統(tǒng)計(jì)重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400067)
部分線性模型[1]同時(shí)含有參數(shù)分量和非參數(shù)分量,在對(duì)實(shí)際問題建模過程中兼具經(jīng)典參數(shù)模型和非參數(shù)模型的優(yōu)點(diǎn),目前已被廣泛地應(yīng)用于社會(huì)科學(xué)、計(jì)量經(jīng)濟(jì)學(xué)以及生物醫(yī)學(xué)等領(lǐng)域。另外,隨著現(xiàn)代數(shù)據(jù)收集技術(shù)的不斷發(fā)展,研究者們能夠在科學(xué)研究的各個(gè)領(lǐng)域以較低成本收集到大量的高維數(shù)據(jù)。這種大數(shù)據(jù)的統(tǒng)計(jì)推斷過程中,往往會(huì)遇到超高維情況,即數(shù)據(jù)的維數(shù)遠(yuǎn)遠(yuǎn)大于樣本量,從而導(dǎo)致經(jīng)典的統(tǒng)計(jì)推斷理論將無法直接應(yīng)用。
目前關(guān)于超高維數(shù)據(jù)的統(tǒng)計(jì)推斷問題,一般是先利用一些變量篩選方法,從大量的數(shù)據(jù)中篩選出一些重要變量,然后基于所篩選出的重要變量進(jìn)行統(tǒng)計(jì)建模。關(guān)于超高維數(shù)據(jù)下部分線性模型的變量篩選問題,楊宜平等[2]結(jié)合樣條方法和Dantzig 或Lasso 進(jìn)行變量選擇和未知參數(shù)估計(jì)。賴秋楠等[3]將超高維部分線性模型轉(zhuǎn)化為高維線性模型,考慮了協(xié)變量間的相關(guān)性,提出了profile貪婪向前回歸變量篩選方法。楊鑫等[4]基于profile 最小二乘方法和保留正則化方法,提出了新的變量選擇方法。但是這些文獻(xiàn)均是在假定超高維數(shù)據(jù)為外生協(xié)變量的情況下進(jìn)行討論的。Fan J.Q.[5]、Lin W.[6]等指出,在超高維模型中存在許多可能導(dǎo)致違反外生性假定的因素,例如選擇偏差、測(cè)量誤差和遺漏變量等。因此對(duì)超高維數(shù)據(jù)統(tǒng)計(jì)建模過程中假定所有變量均為外生協(xié)變量是具有限制性且往往是不現(xiàn)實(shí)的。在違反外生性假設(shè)時(shí),現(xiàn)有的基于邊際特征篩選方法可能會(huì)篩選出那些隱藏的重要變量,并產(chǎn)生較多的假陽(yáng)性重要變量。
目前,關(guān)于超高維內(nèi)生性協(xié)變量的重要變量選擇問題研究還不多。針對(duì)含內(nèi)生協(xié)變量的超高維線性模型,F(xiàn)an J.Q.等[5]通過構(gòu)建懲罰聚焦廣義矩法準(zhǔn)則函數(shù),有效實(shí)現(xiàn)了降維,并證明了模型存在內(nèi)生性時(shí),該方法也具有Oracle 性質(zhì)。Lin W.等[6]提出了一個(gè)兩階段正則化框架,通過使用稀疏誘導(dǎo)懲罰函數(shù),將經(jīng)典的兩階段最小二乘法(two stage least square,2SLS)擴(kuò)展到高維。Hu Q.Q.等[7]提出了一種新的特征篩選工具來衡量預(yù)測(cè)變量的邊際效用,然后引入兩階段正則化框架來識(shí)別重要的預(yù)測(cè)變量。但是,對(duì)超高維內(nèi)生性數(shù)據(jù)下部分線性模型的重要變量選擇問題目前還沒有相關(guān)研究。為此,本文在假定部分協(xié)變量為內(nèi)生協(xié)變量的情況下,研究超高維部分線性模型的重要變量篩選問題。
具體地,結(jié)合工具變量調(diào)整技術(shù),本文提出了一種新的重要變量篩選方法。理論上證明了所提出的篩選方法具有排序一致性。這意味著依據(jù)效用測(cè)度,總是可以大概率地將重要變量排在不重要變量之前,從而保證可以清晰地區(qū)分重要變量和不重要變量。
本節(jié)中,假定模型中線性部分的維數(shù)p遠(yuǎn)遠(yuǎn)超過樣本量n,且維數(shù)p隨著樣本量n呈指數(shù)型增長(zhǎng)。本文考慮的部分線性模型結(jié)構(gòu)如下:
式中:Xi為p維協(xié)變量,且
β為未知參數(shù)的p維向量,且
g(·)為未知的非參數(shù)函數(shù);
Ui為一維變量;
εi為模型誤差。
式中:Zi為對(duì)應(yīng)的q維的工具變量向量,且
Γ為p×q維的未知參數(shù)矩陣,
e為模型誤差,且e=(e1,e2,…,en),其中ei=(ei1,ei2,…,eip)T,且滿足
綜上所述,考慮模型
滿足如下條件:
假設(shè)真參數(shù)β是稀疏的,即集合A={j:βj≠0,1≤j≤p}很小,則本文的目標(biāo)是估計(jì)集合A。
經(jīng)典的兩階段最小二乘(2SLS)[8]和兩階段正則化(two stage regularization,2SR)[6]將協(xié)變量替換為它們對(duì)工具變量的期望。更具體地說,變量首先在工具變量上回歸,然后響應(yīng)變量在變量第一階段的預(yù)測(cè)結(jié)果上回歸。然而,因?yàn)樽兞亢凸ぞ咦兞康木S度隨著樣本量呈指數(shù)增長(zhǎng),2SLS 方法和2SR 方法的性能分別面臨眾多工具變量的維度災(zāi)難和計(jì)算成本的問題。因此,需要探索新的方法來獲取集合A。
注意:如果響應(yīng)變量在工具變量上進(jìn)行回歸,根據(jù)上述模型(3),可以得到如下模型:
式中:α是q×1 維向量,且α=ΓTβ;
ξi為新誤差,且ξi=+εi。
為了找到一個(gè)特征篩選工具來估計(jì)活躍集A,首先考慮一個(gè)例子。在模型(4)中,很容易得到:
另一方面,
結(jié)合上面的方程,可以得到:
進(jìn)一步展開,得到:
式(5)可表示成
通過這些假設(shè),可以得到如下結(jié)論:
結(jié)合上述分析,可以得到:
根據(jù)部分線性模型的剖面估計(jì)思想,首先假定β已知,則模型(1)可被看作是一個(gè)非參數(shù)回歸模型:
對(duì)于非參數(shù)g(u)可使用局部線性光滑方法構(gòu)造其估計(jì)量,它能減少Nadaraya-Watson 核估計(jì)的偏差和Gasser-Müller 估計(jì)的方差,并能夠避免核估計(jì)的邊界效應(yīng),在邊界點(diǎn)和內(nèi)點(diǎn)有相同的收斂速度。設(shè)回歸函數(shù)g(u)在u的鄰域內(nèi)有連續(xù)的一階導(dǎo)數(shù),如果Ui在u的一個(gè)小鄰域內(nèi),可用一個(gè)線性函數(shù)局部地逼近回歸函數(shù)g(Ui),有:
式中a、b為回歸系數(shù)。
因?yàn)榧俣é乱阎?,可通過極小化下式加權(quán)最小二乘目標(biāo)函數(shù)求a和b,
式中:Kh(·)=K(·/h)/h,其中K(·)為核函數(shù),h為窗寬,且h>0。
接下來設(shè)計(jì)兩階段方法。
式中:pλ(·)為懲罰函數(shù);λ為調(diào)和參數(shù),且λ≥0。
值得注意的是,沒有必要對(duì)解釋非活躍預(yù)測(cè)變量的工具變量做出任何條件假設(shè)。因此,所有非活躍預(yù)測(cè)變量都可以使用一個(gè)工具變量,即使這個(gè)工具變量非常弱,這意味著雖然預(yù)測(cè)變量X是高維的,但工具變量Z并不需要是高維的。通常情況下,要求工具變量的數(shù)量應(yīng)不小于用于識(shí)別的預(yù)測(cè)變量的數(shù)量,但是,系數(shù)的識(shí)別對(duì)篩選目標(biāo)并不重要。即使系數(shù)不確定,仍然可以確定活動(dòng)回歸量。因此,當(dāng)工具變量的維度不太高時(shí),可以忽略第1 階段的特征篩選。從理論上講,當(dāng)工具變量的維數(shù)小于樣本量時(shí),可以使用“普通最小二乘法”代替變量選擇過程。
式中,ψn是給定的閾值參數(shù)。
值得注意的是,無論模型中是否存在內(nèi)生協(xié)變量,本文所提出的篩選程序都是可行的。
本節(jié)將討論所提出的篩選程序的理論性質(zhì)。下列條件是為了方便技術(shù)證明,盡管它們可能不是最弱的條件。
C1)隨機(jī)誤差e的條件。給定為
C2)協(xié)變量X的條件。給定為
C3)工具變量Z的條件。
C3-a)存在正常數(shù)K1、K2和κ,使得
C3-c)線性條件為
C4)活躍集A和B之間的關(guān)系為
接下來,介紹所提出的篩選程序的理論性質(zhì),這些理論性質(zhì)是新篩選方法的主要理論基礎(chǔ)。
定理1在條件C1、C2、C4 下,有如下不等式關(guān)系成立:
定理1的證明 基于模型(3)和模型(4),設(shè)為真系數(shù),可以得到:
式中:βA由所有的βj,j∈A組成;由所有的∈A組成。
另一方面,如果j∈A,可以得到:
定理2 的證明為了提高可讀性,將證明分為如下兩個(gè)主要步驟。
步驟1首先
其中,δt=δ是強(qiáng)調(diào)δ取決于τ,
針對(duì)超高維內(nèi)生協(xié)變量的變量選擇問題,結(jié)合內(nèi)生協(xié)變量和工具變量的相關(guān)結(jié)構(gòu),提出了一種新的用于超高維線部分線性工具變量回歸模型的兩階段特征篩選方法,其中內(nèi)生協(xié)變量和工具變量的維數(shù)可以隨樣本量呈指數(shù)級(jí)增長(zhǎng)。理論結(jié)果表明,該特征篩選方法在排序上具有一致性。
本文只考慮了工具變量的各分量之間相關(guān)性較弱的情況。當(dāng)工具變量的各分量之間存在高度相關(guān)性時(shí),可以使用Hu Q.Q.等[12]給出的條件特征篩選程序來處理。然而,在對(duì)內(nèi)生性協(xié)變量的工具變量調(diào)整過程中,如何事先確定一個(gè)工具變量的備選集合,然后從中篩選重要的工具變量,是當(dāng)前內(nèi)生性數(shù)據(jù)統(tǒng)計(jì)建模中常遇到的難題之一。另外,值得進(jìn)一步研究的問題是如何在不事先假定模型結(jié)構(gòu)的前提下,完全基于內(nèi)生變量與工具變量的相關(guān)結(jié)構(gòu)來構(gòu)造特征篩選方法。這些問題都有待進(jìn)一步深入研究。