非參數(shù)回歸的貝葉斯估計(jì)

2019-01-08 02:14:04蘇雅玲何幼樺

上海大學(xué)學(xué)報(bào)(自然科學(xué)版) 2018年6期

蘇雅玲,何幼樺

(上海大學(xué)理學(xué)院,上海200444)

在回歸分析中,相對(duì)于回歸函數(shù)形式已知的參數(shù)回歸,非參數(shù)回歸的函數(shù)形式自由,受約束少,回歸模型完全由數(shù)據(jù)驅(qū)動(dòng).對(duì)于非參數(shù)回歸問題,已經(jīng)有很多學(xué)者進(jìn)行了研究,目前回歸函數(shù)的非參數(shù)估計(jì)主要集中在核估計(jì)、局部多項(xiàng)式估計(jì)、樣條函數(shù)以及小波估計(jì).如Devroye[1]證明了回歸函數(shù)核估計(jì)的強(qiáng)相合性.Greblicki等[2]和Devroye[3]在不同條件下證明了回歸函數(shù)核估計(jì)的逐點(diǎn)相合性.Fan[4]引入局部線性回歸估計(jì)并闡述其優(yōu)越性,給出了估計(jì)量的均方誤差(mean-square error,MSE)和積分均方誤差(mean integrated square error,MISE),并研究了估計(jì)量的最大最小效.Antoniadis等[5]引入回歸函數(shù)的小波估計(jì),并證明了估計(jì)量的相合性和漸進(jìn)正態(tài)性.上述方法單純從數(shù)據(jù)本身出發(fā),沒有充分利用數(shù)據(jù)以外的信息,雖然能夠達(dá)到較好的擬合效果,但是外推效果較差.

在參數(shù)估計(jì)問題中,貝葉斯方法已經(jīng)得到廣泛的應(yīng)用,而在非參數(shù)估計(jì)問題中,貝葉斯方法是從Ferguson[6]在1973年發(fā)表了論文A Bayesian Analysis of Some Nonparametric Problems[6]后才開始受到關(guān)注.Ferguson給出了當(dāng)總體X 的分布函數(shù)F(x)的先驗(yàn)為Dirichlet過程時(shí),F(x)的非參數(shù)貝葉斯估計(jì)為F(x)先驗(yàn)分布與經(jīng)驗(yàn)分布的加權(quán)平均.此外,Jayaram[7]提出了拓展的Dirichlet過程先驗(yàn).在此基礎(chǔ)上姚宗靜[8]給出簡(jiǎn)單Dirichlet過程的構(gòu)造性定義,討論了其性質(zhì)和支撐問題,求出在該先驗(yàn)下后驗(yàn)分布的具體表達(dá)形式.也有學(xué)者將非參數(shù)貝葉斯方法應(yīng)用到回歸函數(shù)的估計(jì)中,如龍杏芬等[9]在局部線性估計(jì)中窗寬h的先驗(yàn)分布為Gamma分布的條件下,基于貝葉斯方法構(gòu)造了回歸函數(shù)的局部線性估計(jì),并給出窗寬和回歸函數(shù)的后驗(yàn)分布和抽樣方法,通過數(shù)值模擬驗(yàn)證了貝葉斯局部線性估計(jì)方法的可行性.盧一強(qiáng)等[10]對(duì)廣義非參數(shù)模型B樣條貝葉斯估計(jì)進(jìn)行了研究,給出了回歸函數(shù)B樣條貝葉斯估計(jì)的馬爾科夫鏈蒙特卡洛(Markov chain Monte Carlo,MCMC)模擬計(jì)算方法.

本工作針對(duì)非參數(shù)回歸模型,在Ferguson給出的總體分布函數(shù)的貝葉斯估計(jì)基礎(chǔ)上,進(jìn)一步得到一個(gè)光滑的條件分布估計(jì).基于該分布最終構(gòu)造出回歸函數(shù)的貝葉斯估計(jì),并研究該估計(jì)的收斂性質(zhì),給出該估計(jì)中超參數(shù)的合理表達(dá)式.最后,通過實(shí)證分析將非參數(shù)貝葉斯方法與局部線性回歸進(jìn)行了比較.

1 非參數(shù)回歸的貝葉斯估計(jì)

文獻(xiàn)[6]給出了總體X的分布函數(shù)F(x)的非參數(shù)貝葉斯估計(jì),在該估計(jì)中取F(x)的先驗(yàn)分布服從Dirichlet過程.Dirichlet過程定義如下.

定義1 設(shè)X為一樣本空間,A是X的子集構(gòu)成的σ代數(shù),α＞0,P0為(X,A)上的有限非零測(cè)度.如果對(duì) X 的任意可測(cè)分割 A1,A2,···,Am,p=(P(A1),P(A2),···,P(Am))服從參數(shù)為α =(αP0(A1),αP0(A2),···,αP0(Am)) 的 Dirichlet分布,則稱p是(X,A)上參數(shù)為 α,基測(cè)度為P0的Dirichlet過程,記為p～DP(α,P0).

文獻(xiàn)[6]中的Dirichlet過程即為DP(α,P0),α為正實(shí)數(shù),記F0(x)=P0{X ≤x}是先驗(yàn)過程的期望(均值函數(shù)).則在樣本為x1,x2,···,xn時(shí),F(x)的貝葉斯估計(jì)為

該估計(jì)是先驗(yàn)過程的期望分布F0(x)和經(jīng)驗(yàn)分布估計(jì)Fn(x|x1,x2,···,xn)的加權(quán)平均.由于經(jīng)驗(yàn)分布函數(shù)是階梯函數(shù),為得到一個(gè)光滑的分布估計(jì),用核估計(jì)代替經(jīng)驗(yàn)分布函數(shù)Fn(x|x1,x2,···,xn),則總體的密度估計(jì)為

現(xiàn)考慮Y∈R1對(duì)X=(X1,X2,···,Xd)∈Rd的多元非參數(shù)回歸模型

其中m(X)是未知回歸函數(shù),ε是均值為0方差為σ2的誤差項(xiàng).設(shè)(x,y)是變量(X,Y)的某個(gè)具體取值,{(Xi,Yi),i=1,2,···,n}為樣本數(shù)據(jù).在多維情況下,式(1)可表示成如下形式:

Y的條件分布的貝葉斯估計(jì)為

在二次損失下,回歸函數(shù)m(x)的貝葉斯估計(jì)為

式中,m0(x)為m(x)基于p0(x,y)的先驗(yàn)回歸函數(shù)Nadaraya-Watson核回歸估計(jì),即零階局部多項(xiàng)式回歸.考慮一階局部多項(xiàng)式回歸(局部線性回歸)將會(huì)減少邊界偏倚,而不增加方差[11],因此在計(jì)算中可以將式(3)中的多元Nadaraya-Watson核回歸估計(jì) ^mH(x)替換成多元局部線性回歸估計(jì)

另一方面,m(x)的貝葉斯估計(jì)式(3)中,α反映 ^mB(x)對(duì)先驗(yàn)m0(x)的依賴程度,如果這種依賴隨x的變化而有所不同,則式(3)可寫成

1.1 估計(jì)的均方收斂性

文獻(xiàn)[12]給出了多元局部線性回歸估計(jì) ^mH(x)的方差和偏差.

引理 1 對(duì)于樣本模型Yi=m(Xi)+εi,i=1,2,···,n.^mH(x)為m(x)具有帶寬矩陣H的局部線性估計(jì),并滿足文獻(xiàn)[13]中的正則條件.設(shè)x為一個(gè)非邊界點(diǎn),則在給定X1,X2,···,Xn下^mH的偏倚為

這里Hm(x)為m(x)的Hessian矩陣,而u2(KH)是核函數(shù)KH的二階矩.^mH的方差為

記Var(^mH(x))=Vn(x),Bias(^mH(x))=E(^mH(x))-m(x)=Bn(x),則m(x)核估計(jì)^mH(x)的均方誤差為

定理1 在^mH(x)滿足引理1的條件下,m(x)的貝葉斯估計(jì)的均方誤差為

注意到,當(dāng)m0(x)=m(x)時(shí),

由此可知,當(dāng)m(x)先驗(yàn)選擇接近m(x)時(shí),m(x)的非參數(shù)貝葉斯估計(jì)的均方誤差將小于其局部線性回歸估計(jì)的均方誤差.

1.2 超參數(shù)α(x)的確定

式(4)中的超參數(shù)α(x)反映了分布估計(jì)對(duì)先驗(yàn)分布的依賴程度,α(x)越大則這種依賴越強(qiáng).在實(shí)際計(jì)算時(shí),需要對(duì)超參數(shù)α(x)進(jìn)行合理地確定.

定理2 以MSE達(dá)到最小的α(x)可以表示為

其中T=tr(HTHm(x)H).

證明

其中

上述約等式中是用p(x)代替了核估計(jì)^pH(x).

MSE(^mB(x))關(guān)于α(x)的一階偏導(dǎo)數(shù)為

得式(7)的結(jié)果.又因α(x)為式(7)時(shí)

所以當(dāng)α(x)取式(7)時(shí),MSE(^mB(x))取得極小值.

在定理2中,當(dāng)m(x)對(duì)每個(gè)分量的二階偏導(dǎo)接近0,即T≈0時(shí),則可取

根據(jù)式(8)可知,當(dāng)先驗(yàn)回歸函數(shù)的選取和真實(shí)的回歸函數(shù)接近時(shí),(m(x)-m0(x))2較小,^α(x)較大,回歸函數(shù)的非參數(shù)貝葉斯估計(jì)結(jié)果對(duì)先驗(yàn)分布依賴度高.反之,當(dāng)先驗(yàn)回歸函數(shù)的選取和真實(shí)的回歸函數(shù)相差較大時(shí),^α(x)較小,則估計(jì)結(jié)果對(duì)先驗(yàn)分布依賴度較低.由于m(x)是未知的,先驗(yàn)m0(x)的選取具有主觀性,因此可以限定(m(x)-m0(x))2≤M,M為正實(shí)數(shù).式(8)中α(x)的確定還依賴方差σ2,其估計(jì)可采用文獻(xiàn)[11]中的方法.

2 實(shí)證分析

為了檢驗(yàn)所提出算法的有效性,本工作以人口預(yù)測(cè)問題作為實(shí)證分析,樣本選取1990—2005年的中國人口數(shù)據(jù),建立人口數(shù)量對(duì)時(shí)間的回歸模型,運(yùn)用非參數(shù)貝葉斯方法對(duì)模型進(jìn)行估計(jì),最后以2006—2010年的數(shù)據(jù)檢驗(yàn)?zāi)Ｐ?并將結(jié)果與局部線性回歸進(jìn)行對(duì)比分析.

2.1 人口模型的估計(jì)

基于1990—2005年的中國人口樣本建立一元非參數(shù)回歸模型:

選取Logistics人口模型[14]作為先驗(yàn):

表1 1990—2005年中國人口數(shù)量估計(jì)結(jié)果Table 1 Estimation of China's population in 1990—2005 萬人

表2 擬合均方誤差MSETable 2 Fitting mean square error MSE萬人

由表2可以看出,非參數(shù)貝葉斯估計(jì)與局部線性回歸方法相比較,均方誤差要小得多,擬合效果較好.

2.2 人口模型的預(yù)測(cè)

由2.1節(jié)得到人口數(shù)量的非參數(shù)貝葉斯估計(jì)結(jié)果,預(yù)測(cè)2006—2010年中國人口數(shù)量如表3所示.表4為預(yù)測(cè)均方誤差.表4表明在對(duì)中國人口數(shù)量進(jìn)行預(yù)測(cè)時(shí),非參數(shù)貝葉斯估計(jì)與局部線性回歸相比較,均方誤差較小,在一定程度上克服了局部線性回歸方法在預(yù)測(cè)外推方面效果較差的問題.

表3 2006—2010年中國人口數(shù)量預(yù)測(cè)結(jié)果Table 3 China's population forcast results from 2006 to 2010 萬人

表4 預(yù)測(cè)均方誤差MSETable 4 Prediction mean square error MSE 萬人

3 結(jié)束語

本工作利用Y對(duì)X的條件分布的非參數(shù)貝葉斯估計(jì)來構(gòu)造回歸函數(shù)的非參數(shù)貝葉斯估計(jì),在此過程中,用分布估計(jì)的核估計(jì)替代Ferguson估計(jì)的經(jīng)驗(yàn)分布函數(shù),用較高階的局部多項(xiàng)式回歸替代原構(gòu)造中的Nadaraya-Watson回歸估計(jì),獲得了較為理想的估計(jì)效果,同時(shí)還給出了估計(jì)的均方誤差及其均方收斂性.實(shí)證結(jié)果表明,對(duì)于非參數(shù)貝葉斯估計(jì),當(dāng)先驗(yàn)分布選擇較合適時(shí),在數(shù)據(jù)擬合和預(yù)測(cè)方面均表現(xiàn)出了較好的效果.