徐嘉璐,雷馨鈺
蘭州財經(jīng)大學 統(tǒng)計學院,甘肅 蘭州 730020
在這個大數(shù)據(jù)爆發(fā)的時代,數(shù)據(jù)的收集成本不斷降低,高維數(shù)據(jù)在各個領域隨處可見,這樣的數(shù)據(jù)不僅規(guī)模大,而且關系復雜、相關性強,傳統(tǒng)的統(tǒng)計方法不再適用,從而給統(tǒng)計學帶來巨大的“壓力”。那么怎樣從冗余的數(shù)據(jù)中篩選出對我們有用的信息則變成了重中之重,也是目前研究的熱點方向。
處理高維數(shù)據(jù)的關鍵點在于進行降維。主成分分析是一種能夠處理相關數(shù)據(jù)和進行數(shù)據(jù)降維的統(tǒng)計工具,能夠廣泛應用于社會科學、醫(yī)學、計量學等領域中[1-3]。它將許多原始變量替換為少數(shù)主成分,進而減少變量數(shù)量。但每個主成分都是原始變量的線性組合,那么每一個主成分到底表達的是什么方面的特征就很難看出來,使得分析結果通常難以解釋。在大數(shù)據(jù)環(huán)境下,該問題受到了很多關注,比如針對原始變量的替代方案或修改,以及與有偏回歸進行聯(lián)系。例如,引入PCA[4]的稀疏替代方案,Zou[5]利用Lasso[6]和 elastic net[7]的稀疏特性,使得一些載荷能夠縮小到0從而使變量稀疏化,所得方法稱為稀疏 PCA(SPCA)?;蚴菍⒅鞒煞滞貧w進行有機結合,主成分回歸(PCR)[8-9]是一種非常有吸引力的方法,它能夠解決數(shù)據(jù)共線性的問題,并減少變量數(shù)量。在PCR中每個主成分都是原始變量的線性組合,不再是原來的變量。Kawano等[10]使用 SPCA 替代傳統(tǒng)的主成分回歸方法,這被稱為稀疏主成分回歸(SPCR)。這不僅可以獲得原始變量的稀疏主成分載荷同時還可以得到主成分的數(shù)量;張文明等[11]在主成分分析的基礎上,利用elastic net對主成分的系數(shù)進行稀疏近似,在保留主成分優(yōu)點的基礎上,還能夠提高模型的解釋性;Tay等[12]將主成分與Lasso回歸相結合提出了一種新的監(jiān)督學習方法,即pcLasso。它將L1懲罰與二次懲罰相結合,將系數(shù)向量縮小到特征值的主要主成分上,通過模擬表明能夠提高預測性能。
本文梳理了傳統(tǒng)的PCA、SPCA、PCR的方法,并與一些稀疏回歸方法進行結合,基于模擬來進行變量選擇。利用敏感性與特異性等指標來分析比較不同方法的使用情況,并擴展到高維數(shù)據(jù)情形下,擴寬了模型的應用范圍。
先考慮一個最傳統(tǒng)的線性回歸模型:
y=Xξ+ε,
(1)
其中y=(y1,…,yn)T是具有np個觀測值的解釋變量;x=(x1,…,xp)是n×p數(shù)據(jù)矩陣,包含有n個解釋變量的信息;ε為隨機誤差項,假定相互獨立且服從正態(tài)分布εt~N(0,σ2)式(1)的最小二乘可以表示為:
最小二乘估計是常用的一種系數(shù)估計方法,在假設條件下,具有無偏性。當自變量之間存在多重共線性時,經(jīng)典的OLS方法變得不再適用。為了解決這些問題,主成分回歸是一種常用的方法,通過生成自變量的線性組合來解決多重共線性的問題,X分解為:
X=TPT+E,
(3)
其中E是誤差項,P為載荷矩陣。將其帶入原來的線性回歸模型中,結果如下:
y=(TPT)ξ+εT=Tθ+εT,
(4)
其中θ=PTβ,εT為誤差項,將OLS估計量應用以上的回歸系數(shù)。
盡管,主成分回歸是分析多變量數(shù)據(jù)的有用工具,但如果響應變量取決于具有小特征值的主成分,那么該方法可能沒有足夠的預測精度。稀疏主成分(SPCA)能夠獲得與響應變量相關的稀疏主成分載荷,并同時選擇主成分的數(shù)量。
其中B=(β1,…,βk)是p×k的載荷矩陣,k表示主成分的數(shù)量,A=(α1,…,αk)是一個p×k的矩陣,λi,j(j=1,…,k)是正則化參數(shù),‖·‖1是ξ的L1范數(shù)。
對于回歸模型來說,另外一個具有解決問題的方案是Kawano(2015)提出的稀疏PCR(SPCR),他同樣能夠改善當響應變量對應小特征值而無法預測的情況。它通過下式定義:
其中ξ0是截距,λβ和λξ是非負的正則化參數(shù),w和ξ是介于0和1之間的調(diào)整參數(shù)。公式中的第一項表示相應變量與主成分BTx之間的最小二乘損失,第二項代表數(shù)據(jù)X的主成分丟失,調(diào)整參數(shù)w是用來權衡第一項和第二項的權數(shù),可以根據(jù)目的來選擇w的值,要是想要獲得更高的預測精度時,可以選擇較小的w值,如果想要獲得主成分載荷的精確形式時,可以使用較大的w值。第三項和第五項則是用來表示B和γ的稀疏程度。B上的稀疏性能夠輕松進行主成分載荷的選擇,γ的稀疏使得主成分個數(shù)選擇更加方便。調(diào)整參數(shù)ξ用來權衡B的L1和L2范數(shù)之間權重。
由此來看,可以利用一些稀疏的估計量來代替OLS來改進預測效果,如使用Lasso回歸來構建回歸模型,其中一些大的主成分對應大的特征值,這可以看作是PCA與Lasso的組合,同樣,可以將其推廣到PCA與ALasso,這樣,所得到的的估計量成為pcLasso、pcALasso。同樣的,使用稀疏主成分來來代替?zhèn)鹘y(tǒng)的主成分,再將其推廣至稀疏回歸。所得到的估計稱為spcLasso、spcALasso。
這部分利用模擬研究來展示所用方法的性能,情形1和情形2適用于低維情況,情形3和情形4則用于高維情況。模擬的方法和參數(shù)選擇,參照Kawano所提供的方法。
通過以下幾種按情況響應變量由下式計算:y=χξ+ε,其中誤差項ε來自于均值為0,方差為σ的正態(tài)分布。數(shù)據(jù)矩陣X由多元正態(tài)分布N(0,∑)生成,ξ是真實的系數(shù)參數(shù)。
情形1:(a)令p=10,另外∑=I10,設回歸系數(shù)真實值為β=(2,1,0,…,0);(b)∑=diag{1,32,1,…,1},設回歸系數(shù)的真實值為β=(8,1,0,…,0)取樣本量為50和100。
情形2:在這個例子中,令β=(-1,0,1,1,0,-1,-1,0,1,1),xi和xj之間的相關性ρ=0.5,0.9,分別用來表示信息變量之間的中度相關和高度相關。有∑=ρ|j-k|,1≤j,k≤p,取樣本量為50和100。
為了評估以上不同的估計量,這些評估是通過100次重復試驗所計算出來的,選擇以下幾種方法作為評價的性能指標。
使用敏感性和特異性兩個指標來評價回歸模型中參數(shù)選擇的好壞,敏感性(Sensitivity)和特異性(Specificity)的定義如下:
其中#代表計數(shù),Sensitivity∈[0,1],Specificity∈[0,1],值越接近于1,變量選擇效果越好。
表1展示了在低維情形下的模擬結果,從中可以看出:(1)當樣本量不斷增大時,模型的估計效率就越好;(2)在情形1下,提取的主成分為2時,SPCR的表現(xiàn)最佳,不論是在n=50或是在n=200的情況下都有不錯的估計精度,在提取的主成分越多時,spcLasso則具有更高的精確度。(3)在情形2下,當變量間的共線程度不斷增大時,spcALasso結合了SPCR和自適應Lasso回歸的優(yōu)點,在變量間高度相關下能夠提高模型的精度,且比SPCR方法具有優(yōu)勢。(4)隨著樣本量的增大,pcLasso和pcALasso也表現(xiàn)出了不俗的估計效率。由于低維情形下各模型的敏感性和特異性差異不大,故不作展示。
表1 比較各模型的MSE值
當自變量的個數(shù)大于樣本量的個數(shù)(即p>n)時,即為高維數(shù)據(jù),在上部分討論了低維情形下的幾種模型的變量選擇情況,想要提高預測精度,只需不斷增大樣本量,就可以提高預測的精度。而在實際問題中,經(jīng)常出現(xiàn)p→∞的情況,如醫(yī)學問題,維數(shù)通常會遠大于樣本量,這時消除無關基因,尋找致病因子,確定某種癌變細胞的基因組合,從而尋找并制定合適的醫(yī)療方案就變得尤為重要,這就是接下來將要討論的高維數(shù)據(jù)問題。
假設變量來自傳統(tǒng)的的線性回歸模型y=χξ+ε,其中誤差項ε來自于均值為0,方差為1的正態(tài)分布。用ρ|i-j|表示任意兩個解釋變量之間的相關系數(shù),分別取ρ=0.5和ρ=0.9,樣本量n=30和70,重復進行100次試驗??紤]以下幾種情形:
情形4:樣本n=70,回歸系數(shù)與上情形一樣,此時p=n。
對于每一個p≥n組合,分別計算以上兩種情形下模型的敏感性、特異性以及MSE,結果見表2。
表2 高維數(shù)據(jù)下各類方法的比較
通過模擬,表2列出了在情形3和情形4中所描述的高維數(shù)據(jù)場景的三個指標結果。從結果中看:第一,在樣本量不變時,提取的主成分越少時,SPCR能夠準確提取變量的比例會高于其他幾種模型。另外,增大樣本量,敏感性和特異性也會增大;第二,當維數(shù)和相關系數(shù)ρ不變時,增大樣本量增加,模型的均方誤差也會減?。坏谌?對于模型能夠正確判別數(shù)據(jù)的比率,在不同的情況下會有不同的結果。在樣本量越大,提取的主成分越多時,數(shù)據(jù)間的相關性越高,模型能夠正確選擇變量的比率就越高,可以看到敏感性和特異性的值越接近于1;第四,相關系數(shù)增大時,模型的MSE值有所減少,在這種高度相關的情況下,L2懲罰會變得不穩(wěn)定,共線問題會導致Lasso預測能力的降低,自適應Lasso具有同樣的問題,但由于加入了SPC,這減少了變量間的共線性,明顯提高了預測精度。
通過模擬結果,能夠發(fā)現(xiàn)在低維模型中,當提取的主成分較少時,且變量間的相關程度不高時,SPCR的預測精度會優(yōu)于其他的模型;另外,當提取的主成分較多時,spcLasso則展現(xiàn)出了它的優(yōu)勢。當維數(shù)不斷增大,到達p≥n時,能夠發(fā)現(xiàn):PCR適用于提取主成分較少時,spcALasso適用于主成分較多時;增大相關系數(shù)時,我們所選擇的模型MSE值都有所減少,這說明當變量間相關性很高時,本文所提出的方法能夠很好的提高模型的預測精度。需要強調(diào)的是,本文并未表明某種模型具有絕對優(yōu)勢,是為了說明不同模型適用于不同的數(shù)據(jù)類型。