劉惠籃 明浩
摘 要:《應用回歸分析》是統(tǒng)計專業(yè)本科生的必修課程,編程能力也是統(tǒng)計專業(yè)學生所需具備的一項專業(yè)技能。本文,基于統(tǒng)計軟件R,比較LS(最小二乘)與LPRE(最小乘積相對誤差)估計。一方面強調學生R編程能力,另一方面通過隨機模擬分析,讓學生進一步理解高斯馬爾科夫定理。
關鍵詞:LPRE估計 LS估計 R軟件 應用回歸分析
中圖分類號:G642 文獻標識碼:A 文章編號:1672-1578(2019)01-0016-02
1 引言
《應用回歸分析》是一門重要的本科生專業(yè)課,線性模型是一類重要的回歸模型。LS估計是線性模型中最重要的估計之一。同時高斯馬爾科夫定理保證了LS估計在一定的條件下(高斯馬爾科夫條件),是最小方差線性無偏估計。
R軟件是一種統(tǒng)計軟件,由于其完全免費性,及強大作圖能力,受到廣大統(tǒng)計工作者的喜愛。通過學習統(tǒng)計軟件,能讓學生更加靈活的處理實際問題。理論與實際相結合,能夠讓學生更好的理解課程中的知識點。
本文通過編寫函數(shù),隨機模擬,比較LS估計與LPRE估計的表現(xiàn)。可以提高學生對R軟件的使用能力,加強學生對高斯馬爾科夫定理的理解。
2 模型簡介
線性模型是回歸分析中最重要的一類模型,其結構如下:
Y=Xβ+ε (1)
其中,Y是n×1維因變量,X是n×p維自變量樣本矩陣,β是p×1維未知參數(shù),ε是n×1隨機誤差向量。
現(xiàn)實中,有些響應變量的取值范圍是非負的,此時如果仍用線性模型對數(shù)據(jù)進行分析,是不合理的。對模型可考慮使用乘積模型,形式如下:
Y=exp(Xβ)+ε (2)
其中,Y是n×1維非負因變量,X是n×p維自變量樣本矩陣,β是p×1維未知參數(shù),ε是n×1維非負隨機誤差向量。
Chen等(2016)在最小化乘積相對誤差(LPRE)的思想下,考慮了乘積模型的參數(shù)估計問題。具體來說,需要求取,使得
達到最小。通過簡單計算可得:
LPRE(β)
由于最后一項與β無關,因此可以考慮最小化以下的目標函數(shù):
LPRE(β)=Yiexp(-Xiiβ) +Yi-1exp(Xiiβ)-2
以上的LPRE函數(shù)是關于的非線性且無限次可微函數(shù)。R軟件中的nlm函數(shù),可用于求解多元變量非線性函數(shù)的極小值點。編寫LPRE函數(shù):
LPRE=function(X,Y){
n=nrow(X);p=ncol(X)
c=lm(log(Y)~X+0)$coeff
obj=function(t){
sum(Y*exp(-X%*%t)+(1/Y)*exp(X%*%t))
}
beta=nlm(obj,c)$estimate
# Reporting
result = list(betahat=beta)
return(result)
}
觀察模型(2),兩邊同時取對數(shù),可以得到如下線性模型:
logY=Xβ+logε (3)
該模型的響應變量為logY,隨機誤差為logε,其中ε是正的隨機誤差向量。對于線性模型(3),我們可以得到其LS估計:
=(XTX)-1XT(logY)
3 數(shù)值比較
我們考慮如下的乘積模型,設置樣本量為30,自變量的維數(shù)為3,參數(shù)β的真實值為(3,1.5,2),每一個自變量都來源于隨機產生的標準正態(tài)分布隨機數(shù),且隨機誤差是來自于[0.5,1.608]上的均勻分布隨機數(shù)(保證E(ε)=E(ε-1),此條件為LPRE估計滿足漸近正態(tài)性所需條件)。有了以上的數(shù)據(jù),就可以得到乘積模型中Y的值。
為了比較說明LPRE方法和LS方法的效果,我們重復試驗500次,記錄下兩種方法的MSE,相關代碼如下:
n=30;p=3;beta=c(3,1.5,2)
X=matrix(,n,p);Y=rep(0,n);epsion=rep(0,n)
MSE_LPRE=0;MSE_LS=0
BetaLPRE=matrix(,500,p)
BetaLS=matrix(,500,p)
for(a in 1:500){
for(j in 1:p){
X[,j]=rnorm(n)
}
epsion=runif(n,0.5,1.608)
Y=exp(X%*%beta)*epsion
BetaLPRE[a,]=LPRE(X,Y)$betahat
BetaLS[a,]=lm(log(Y)~X+0)$coeff
MSE_LPRE=as.vector(t(as.vector(BetaLPRE[a,])-beta)%*%(as.vector(BetaLPRE[a,])-beta))+MSE_LPRE
MSE_LS=as.vector(t(as.vector(BetaLS[a,])-beta)%*%(as.vector(BetaLS[a,])-beta))+MSE_LS
}
得到LPRE方法和LS方法500次模擬的平均MSE分別為:
> MSE_LPRE/500
[1] 0.01199179
> MSE_LS/500
[1] 0.01226336
通過比較可以發(fā)現(xiàn), LPRE估計的MSE(0.01199)小于LS估計的MSE(0.01226),也就是說,在這種情況下,LPRE估計的效果比LS估計的效果好。
這是由于以上的例子中,隨機誤差是來自于[0.5,1.608]上的均勻分布,logε不滿足高斯馬爾科夫條件,在這種情況下,LPRE估計優(yōu)于了LS估計。
4 結語
通過在《應用回歸分析》課程中,介紹近年來統(tǒng)計學工作者的一些研究工作,通過R軟件實現(xiàn)相應結果,并和最小二乘方法相比較,讓學生提高編程能力,并認識到LS估計并不是在所有情況下都優(yōu)于其他方法。
參考文獻:
[1] 唐年勝,李會瓊.應用回歸分析[M].科學出版社,2014.
[2] 何曉群.多元統(tǒng)計分析(第四版)[M].中國人民大學出版社, 2015.
[3] 薛毅,陳麗萍. 統(tǒng)計建模與R軟件[M].清華大學出版社,2007.
[4] Chen K. Lin Y. Wang Z. Ying Z. Least product relative error estimation[J].Journal of Multivariate Analysis,2016,144:91-98.
[5] 胡大海.基于乘積相對誤差準則的模型研究[D].中國科學技術大學,2017.
作者簡介:劉惠籃(1988-),貴州貴陽人,女,博士,貴州大學數(shù)學與統(tǒng)計學院講師,研究方向:統(tǒng)計建模。
明浩(1997-),河南信陽人,男,貴州大學數(shù)學與統(tǒng)計學院學生,研究方向:統(tǒng)計建模。