吳 蕾,甘勝進(jìn)
(福建師范大學(xué)福清分校電子與信息工程學(xué)院,福建 福清 350300)
大數(shù)據(jù)時(shí)代,數(shù)據(jù)的維數(shù)越來(lái)越高.在高維空間中進(jìn)行統(tǒng)計(jì)建模通常會(huì)遭遇“維數(shù)禍根”問(wèn)題,解決的辦法之一是有效地降低變量維數(shù),一旦維數(shù)降下來(lái),便可利用低維上的方法處理數(shù)據(jù).
近年來(lái),“充分降維”因具有無(wú)模型降維的特點(diǎn),引起統(tǒng)計(jì)學(xué)界的重視,先后產(chǎn)生了切片逆回歸[1]、最小二乘估計(jì)[2]、海塞主方向[3]、切片平均方差估計(jì)[4]、方向回歸[5]等一系列經(jīng)典方法.“充分降維”的基本表述為:若存在p×k(k≤p)矩陣η,使得Y‖X|ηTX,則FY|X(y|x)=FY|ηTX(y|ηTx),其中Y為一維響應(yīng)變量,X為p維解釋變量,‖表示統(tǒng)計(jì)獨(dú)立.如此一來(lái),Y對(duì)X條件分布不再依賴于p維的X,而是k維的ηTx,如果k相對(duì)于p充分小,那么降維的目的就達(dá)到了.稱η列向量張成的子空間是一充分降維子空間.由于Y‖X|ηTX?Y‖X|(ηB)TX,其中B為k階可逆方陣,因此為了保證η的可識(shí)別性,采用Y‖X|PηX,其中η列向量構(gòu)成投影陣Pη(Pη=η(ηTη)-1ηT).事實(shí)上,滿足上述條件的η總是存在的,如η=Ip.若所有充分降維子空間的交集仍然是充分降維子空間,則稱之為中心降維子空間,記為SY|X,rank(SY|X)稱為結(jié)構(gòu)維數(shù).顯然,SY|X是結(jié)構(gòu)維數(shù)最小的充分降維子空間.如果感興趣的是E(Y|X),結(jié)合“充分降維”概念,就產(chǎn)生了中心均值降維子空間定義,可參看文獻(xiàn)[2],在此不再贅述.令Z=Σ-1/2(X-E(X)),則SY|X=Σ-1/2SY|Z[6],其中Σ=D(X)>O.下文不妨假設(shè)E(X)=0,D(X)=Ip,估計(jì)降維子空間通常用到的2個(gè)基本條件為:
(1)線性條件均值.E(X|ηTX)為ηTX線性函數(shù),即E(X|ηTX)=PηX,?η∈Rp.
(2)常數(shù)條件方差.Var(X|ηTX)為非隨機(jī)矩陣,即Var(X|ηTX)=I-Pη.
滿足線性條件均值一般是橢圓分布,滿足常數(shù)條件方差是多元正態(tài)分布.如果將響應(yīng)變量Y推廣到多維,那么就是多維響應(yīng)降維子空間.朱利平等[7]基于二切片逆回歸提出了累積切片估計(jì).筆者將累積切片思想應(yīng)用到矩生成函數(shù)(GF)估計(jì)[8-9],提出累積矩生成函數(shù)(CUGF)估計(jì).
記φ(t)=E(etTYX),t∈Rq,φ(t)張成的線性子空間記為M,即M=span{φ(t),t∈Rq},則M=span{E(φ(T)φT(T))},T是一支撐為Rq且與(X,Y)相互獨(dú)立的q維隨機(jī)向量.在線性條件均值下M?span{η},稱M為多元響應(yīng)降維子空間的GF估計(jì).結(jié)合累積切片思想,設(shè)m(y)=E(eI(Y≤y)X),MCUGF=E(m(Y)mT(Y)),其中I為示性函數(shù),y=(y1,y2,…,yq)∈Rq,則稱MCUGF為多元響應(yīng)降維子空間的CUGF估計(jì).
定理1在線性條件均值下,MCUGF=E(m(Y)mT(Y))?span{η}.
證明由于Y|X與Y|ηTX同分布,因此eI(Y≤y)|X與eI(Y≤y)|ηTX同分布.再結(jié)合線性條件均值和條件期望平滑性性質(zhì),可得
m(y)=E(eI(Y≤y)X)=E(E(eI(Y≤y)|X)X)=E(E(eI(Y≤y)|ηTX)X)=
E(E(eI(Y≤y)|ηTX)E(X|ηTX))=PηE(eI(Y≤y)X)?span{η}.
證畢.
表1示出100次重復(fù)下,CUGF估計(jì)與g-CUGF估計(jì)性能比較結(jié)果.
表1 CUGF估計(jì)與g-CUGF估計(jì)在不同樣本容量和維數(shù)時(shí)的模擬性能比較Table 1 Performace of CUGF Estimation Compared with g-CUGF Estimation with Different Sample Sizes and Dimensions
續(xù)表1Continued
圖1,2示出樣本容量n=600,維數(shù)p分別為10和20時(shí),g-CUGF,CUGF和GF估計(jì)在模型1下100次蒙特卡羅模擬的箱線圖.
圖1 當(dāng)n=600,p=10時(shí)3種估計(jì)的效果Fig.1 Boxplot of Three Methods for n=600,p=10
圖2 當(dāng)n=600,p=20時(shí)3種估計(jì)的效果Fig.2 Boxplot of Three Methods for n=600,p=20
從圖1,2可看出,g-CUGF估計(jì)的表現(xiàn)最優(yōu),相比于GF估計(jì),CUGF估計(jì)的表現(xiàn)也不錯(cuò).
Y對(duì)X回歸函數(shù)既有線性關(guān)系,又有非線性關(guān)系.圖3,4示出樣本容量n=600,維數(shù)p分別為10和20時(shí),g-CUGF,CUGF和GF估計(jì)在模型2下100次蒙特卡羅模擬的箱線圖.
圖3 當(dāng)n=600,p=10時(shí)3種估計(jì)的效果Fig.3 Boxplot of Three Methods for n=600,p=10
圖4 當(dāng)n=600,p=20時(shí)3種估計(jì)的效果Fig.4 Boxplot of Three Methods for n=600,p=20
從圖3,4可看出,GF估計(jì)的表現(xiàn)相比其他2種估計(jì)相差甚遠(yuǎn),而g-CUGF估計(jì)的表現(xiàn)明顯優(yōu)于CUGF估計(jì).
參考文獻(xiàn):
[1] LI KER-CHAU.Sliced Inverse Regression for Dimension Reduction[J].Journal of the American Statistical Association,1991,86(414):316-327.
[2] COOK R DENNIS,LI Bing.Dimension Reduction for Conditional Mean in Regression[J].Annals of Statistics,2002,30(2):455-474.
[3] LI KER-CHAU.On Principal Hessian Directions for Data Visualization and Dimension Reduction:Another Application of Stein's Lemma[J].Journal of the American Statistical Association,1992,87(420):1 025-1 039.
[4] BRILLINGER DAVID R.Sliced Inverse Regression for Dimension Reduction:Comment [J].Journal of the American Statistical Association,1991,86(414):328-332.
[5] LI Bing,WANG Shaoli.On Directional Regression for Dimension Reduction[J].Journal of the American Statistical Association,2009,102(479):997-1 008.
[6] COOK R DENNIS.Regression Graphics:Ideas for Studying Regressions Through Graphics[M].New York:Wiley,1998:103-105.
[7] ZHU Liping,ZHU Lixing,FENG Zhenghui.H.Dimension Reduction in Regressions Through Cumulative Slicing Estimation[J].Journal of the American Statistical Association,2010,105(492):1 455-1 466.
[8] 甘勝進(jìn),游文杰.基于矩生成函數(shù)的多元響應(yīng)降維子空間估計(jì)[J].東北師大學(xué)報(bào)(自然科學(xué)版),2017,49(1):43-47.
[9] 甘勝進(jìn),涂開仁,游文杰.一類多元響應(yīng)降維子空間的估計(jì)及其應(yīng)用[J].統(tǒng)計(jì)與信息論壇,2017,32(10):18-23.
[10] FENG Zhenghui,WEN XUERONG MEGGIE,YU Zhou,et al.On Partial Sufficient Dimension Reduction with Applications to Partially Linear Multi-Index Models[J].Journal of the American Statistical Association 2013,108(501):237-246.
[11] LI Bing,ZHA Hongyuan,CHIAROMONTE FRANCESCA.Contour Regression:A General Approach to Dimension Reduction[J].Annals of Statistics,2005,33(4):1 580-1 616.
吉首大學(xué)學(xué)報(bào)(自然科學(xué)版)2018年2期