韓小慧,葛永慧
(太原理工大學(xué) 礦業(yè)工程學(xué)院,山西 太原030024)
自變量優(yōu)化的一元線性回歸
韓小慧,葛永慧
(太原理工大學(xué) 礦業(yè)工程學(xué)院,山西 太原030024)
一元線性回歸是應(yīng)用最為廣泛的參數(shù)估計(jì)方法之一。文中提出一元線性回歸的自變量在等差級數(shù)的基礎(chǔ)上進(jìn)行雙向黃金分割,提高兩端點(diǎn)觀測值的多余觀測分量,縮小觀測值之間多余觀測分量的差異,在不增加觀測值數(shù)量和不改變觀測值精度的前提下,提高穩(wěn)健估計(jì)方法消除或減弱粗差的能力。
一元線性回歸;穩(wěn)健估計(jì);自變量優(yōu)化;雙向黃金分割
一元線性回歸是測量實(shí)際應(yīng)用中最為廣泛的參數(shù)估計(jì)方法之一。但是傳統(tǒng)的一元線性回歸不具備抵抗粗差的能力,當(dāng)測值中包含粗差時(shí),傳統(tǒng)的一元線性回歸的結(jié)果便會受到歪曲[1]。而生產(chǎn)實(shí)踐和科學(xué)實(shí)驗(yàn)所采集的數(shù)據(jù)中粗差的出現(xiàn)是不可避免的。為了減弱或消除粗差對參數(shù)估計(jì)的影響,G.E.P.BOX于1953年提出了穩(wěn)健估計(jì)的概念。穩(wěn)健估計(jì)是將估計(jì)理論建立在符合于數(shù)據(jù)實(shí)際情況的分布模式而不是建立在某種理想的分布模式[2],許多學(xué)者就此進(jìn)行了卓有成效的研究,構(gòu)造了很多不同的穩(wěn)健估計(jì)方法。常用的穩(wěn)健估計(jì)方法有殘差絕對和最小法、Danish法、Huber法、Tukey法和IGGⅢ方案等。
一元線性回歸的自變量通常為等差級數(shù)。由于回歸方程本身的特點(diǎn)和自變量的設(shè)定方式?jīng)Q定了觀測值之間的多余觀測分量有著較大的差異,兩端點(diǎn)觀測值的多余觀測分量較小而中間點(diǎn)觀測值的多余觀測分量較大。當(dāng)相同的粗差包含在不同的觀測值中時(shí),穩(wěn)健估計(jì)方法減弱或消除粗差的能力是不同的,下面用例子具體說明。
觀測值的真值(xi,yi)分別為(10,6.50),(28,15.50),(46,24.50),(64,33.50),(82,42.50),(100,51.50)。xi和yi的單位均為 m,觀測值個(gè)數(shù)n=6,將5.0 cm粗差分別加到第1和第3個(gè)觀測值,用Danish方法計(jì)算觀測值的改正數(shù),結(jié)果見表1。
表1中,x為自變量,y為因變量。Δ1和Δ3為真誤差。Y1和Y3分別為第1和第3個(gè)包含5.0 cm粗差的觀測值,V1和V3分別為觀測值Y1和Y3的改正數(shù)。
表1 第1和第3個(gè)觀測值包含粗差時(shí)觀測值的改正數(shù)
由表1可知,當(dāng)?shù)?個(gè)觀測值包含5.0 cm的粗差時(shí),觀測值的改正數(shù)V1與真誤差Δ1不相同,Danish方法不能完全消除粗差對參數(shù)估計(jì)的影響。當(dāng)?shù)?個(gè)觀測值包含5.0 cm的粗差時(shí),觀測值的改正數(shù)V3與真誤差Δ3相同,Danish方法完全消除了粗差對參數(shù)估計(jì)的影響[3]。
本文提出了自變量在等差級數(shù)的基礎(chǔ)上進(jìn)行雙向黃金分割(通常自變量是可以人為設(shè)定的),提高了最小多余觀測分量的數(shù)值。在不增加觀測值數(shù)量和不改變觀測精度的前提下,顯著提高了一元線性回歸穩(wěn)健估計(jì)方法減弱或消除粗差的效率。
觀測值包含粗差時(shí)能否被發(fā)現(xiàn)和定位,與觀測值的多余觀測分量有著緊密的聯(lián)系,觀測值的多余觀測分量是觀測值可靠性矩陣的主對角線元素[4]。
設(shè)自變量為等差級數(shù),公差為q,x1為首項(xiàng),
設(shè)自變量x與因變量y間直線相關(guān)。觀測值為(xi,yi),i=1,2,…,n。xi為非隨機(jī)變量,yi為隨機(jī)變量。vi為yi的殘差,^a和^b 為回歸系數(shù)的估值。n為觀測值個(gè)數(shù),t=2為參數(shù)個(gè)數(shù),r=n-2為自由度。
用估值表示的觀測方程為
由式(13)可知,當(dāng)自變量為等差級數(shù)時(shí),可靠性矩陣與自變量的數(shù)值大小和公差的取值無關(guān),只與觀測值的個(gè)數(shù)有關(guān)。
表2 5到9個(gè)點(diǎn)的自變量雙向黃金分割
當(dāng)n=6時(shí),自變量雙向黃金分割為
x1,x1+q-λq,x1+q,x1+4q,
x1+4q+λq,x1+5q.
表3 自變量等差級數(shù)和自變量雙向黃金分割的可靠性矩陣主對角線元素
表3中,AP表示自變量等差級數(shù),GS表示自變量雙向黃金分割,n表示觀測值的個(gè)數(shù),rii表示可靠性矩陣的主對角線元素。
由表3可知,對于一定的觀測值個(gè)數(shù),兩端點(diǎn)的多余觀測值分量小于中間點(diǎn)的多余觀測值分量,即兩端點(diǎn)和中間點(diǎn)發(fā)現(xiàn)和定位粗差的能力是不相同的。對于相同的觀測值個(gè)數(shù),自變量雙向黃金分割兩端點(diǎn)的多余觀測值分量相對于等差級數(shù)的多余觀測值分量增加大約為0.1,減小了各個(gè)觀測值多余觀測分量之間的差異,自變量雙向黃金分割提高了兩端點(diǎn)發(fā)現(xiàn)和定位粗差的能力。
設(shè)直線回歸的理論方程為y=~a+~b~x。
取a=1.5,b=0.5(a和b的取值不影響計(jì)算結(jié)果),觀測值的真值為(xi,yi)(x=1,2,…,n)。自變量xi的取值范圍為10~100。因變量yi根據(jù)自變量xi計(jì)算。xi和yi的單位均為m,自變量不同取值方式的觀測值(xi,yi)的真值如下:
自變量等差級數(shù):(10,6.50),(28,15.50),(46,24.50),(64,33.50),(82,42.50),(100,51.50)。
自變量雙向黃金分割:(10,6.50),(17,10.00),(28,15.50),(82,42.50),(93,48.00),(100,51.50)。
對于第1個(gè)和第3個(gè)觀測值包含粗差的情況,用Danish方法計(jì)算觀測值的改正數(shù),結(jié)果見表1和表4。用IGGⅢ方案計(jì)算觀測值的改正數(shù),結(jié)果見表5和表6。用Tukey方法計(jì)算觀測值的改正數(shù),結(jié)果見表7和表8。
表4 第1和第3個(gè)觀測值包含粗差時(shí)觀測值的改正數(shù)(黃金分割)
由表4可知,自變量雙向黃金分割:當(dāng)?shù)?個(gè)觀測值包含5.0 cm的粗差時(shí),觀測值的改正數(shù)V1與真誤差Δ1相同,Danish方法完全消除了粗差對參數(shù)估計(jì)的影響。當(dāng)?shù)?個(gè)觀測值包含5.0 cm的粗差時(shí),觀測值的改正數(shù)與真誤差相同,Danish方法完全消除了粗差對參數(shù)估計(jì)的影響。
表5 第1和第3個(gè)觀測值包含粗差時(shí)觀測值的改正數(shù)(等差數(shù)列)
由表5可知,自變量等差級數(shù):當(dāng)?shù)?個(gè)觀測值包含5.0 cm的粗差時(shí),觀測值的改正數(shù)V1與真誤差Δ1不相同,IGGⅢ方案不能完全消除粗差對參數(shù)估計(jì)的影響。當(dāng)?shù)?個(gè)觀測值包含5.0 cm的粗差時(shí),觀測值的改正數(shù)與真誤差相同,IGGⅢ方案完全消除了粗差對參數(shù)估計(jì)的影響。
表6 第1和第3個(gè)觀測值包含粗差時(shí)觀測值的改正數(shù)(黃金分割)
由表6可知,自變量雙向黃金分割:當(dāng)?shù)?個(gè)觀測值包含5.0 cm的粗差時(shí),觀測值的改正數(shù)V1與真誤差Δ1相同,IGGⅢ方案完全消除了粗差對參數(shù)估計(jì)的影響。當(dāng)?shù)?個(gè)觀測值包含5.0 cm的粗差時(shí),觀測值的改正數(shù)與真誤差相同,IGGⅢ方案完全消除了粗差對參數(shù)估計(jì)的影響。
表7 第1和第3個(gè)觀測值包含粗差時(shí)觀測值的改正數(shù)(等差數(shù)列)
由表7可知,自變量等差級數(shù):當(dāng)?shù)?個(gè)觀測值包含5.0 cm的粗差時(shí),觀測值的改正數(shù)V1與真誤差Δ1不相同,Tukey方法不能完全消除粗差對參數(shù)估計(jì)的影響。當(dāng)?shù)?個(gè)觀測值包含5.0 cm的粗差時(shí),觀測值的改正數(shù)與真誤差相同,Tukey方法完全消除了粗差對參數(shù)估計(jì)的影響。
表8 第1和第3個(gè)觀測值包含粗差時(shí)觀測值的改正數(shù)(黃金分割)
由表8可知,自變量雙向黃金分割:當(dāng)?shù)?個(gè)觀測值包含5.0 cm的粗差時(shí),觀測值的改正數(shù)V1與真誤差Δ1不相同,Tukey方法不能完全消除粗差對參數(shù)估計(jì)的影響。當(dāng)?shù)?個(gè)觀測值包含5.0 cm的粗差時(shí),觀測值的改正數(shù)與真誤差不相同,Tukey方法同樣不能完全消除粗差對參數(shù)估計(jì)的影響。
對于自變量等差級數(shù),當(dāng)相同的粗差包含在不同的觀測值中時(shí),穩(wěn)健估計(jì)方法減弱或消除粗差的能力是不同的。例如當(dāng)觀測值數(shù)量等于6和兩端點(diǎn)的觀測值包含粗差時(shí),穩(wěn)健估計(jì)方法不能有效地消除粗差對參數(shù)估計(jì)的影響。對于自變量雙向黃金分割,當(dāng)觀測值數(shù)量等于6時(shí),無論哪個(gè)觀測值中包含粗差,Danish方法、IGGⅢ方案和Tukey方法都能有效地消除粗差對參數(shù)估計(jì)的影響。
本文提出了一元線性回歸中自變量雙向黃金分割。在不改變觀測值數(shù)量和觀測值精度的前提下,自變量雙向黃金分割與自變量等差級數(shù)相比縮小了觀測值多余觀測分量之間的差異。相對于自變量等差級數(shù),當(dāng)自變量雙向黃金分割時(shí),穩(wěn)健估計(jì)方法能夠更有效地消除或減弱粗差對參數(shù)估計(jì)的影響。
[1]陳軻,歸清明,柳麗,等.Gauss-Markov模型的t型抗差估計(jì)[J].測繪學(xué)報(bào),2008,37(3):280-284.
[2]王新洲 ,陶本藻,邱衛(wèi)寧,等.高等測量平差[M].北京:測繪出版社,2006:73-89.
[3]黃幼才.?dāng)?shù)據(jù)探測與抗差估計(jì)[M].北京:測繪出版社,1990:287-309.
[4]邱衛(wèi)寧,陶本藻,姚宜斌,等.測量數(shù)據(jù)處理理論與方法[M].武漢:武漢大學(xué)出版社,2008:58-72.
[5]周江文.經(jīng)典誤差理論與抗差估計(jì)[J].測繪學(xué)報(bào),1989,18(2):115-120.
[6]M.I.Griep,I.N.Wakeling,P.Vankeerberghen,et al.Comparison of semirobust and robust partial least squares procedures[J].Chemom.Intell.Lab.Syst.1995,29(1):37-50.
[7]Peter J.Huber.Robust statistics[M].New York:John Wiley and Sons.1981:229-236.
[8]Zioutas,G.,Avramidis,A.Deleting Outliers in Robust Regression with Mixed Integer Programming[J].Acta Math.Appl.Sin.Engl.Ser.2005,21(2):323-334.
[9]Peter J.Huber Robust Estimation of a Location Parameter[J].Ann.Math.Statist..1964,35(1):73-101.
[10]James K.G.Watson,Robust weighting in least-squares fits[J].J.Mol.Spectrosc.2003,219(2):326-328.
[11]Antonia López Villavicencio,Nonlinearities or outliers in real exchange rates[J].Economic Modelling 2008,25(4):714-730.
Simple linear regression with independent variables optimized
HAN Xiao-h(huán)ui,GE Yong-h(huán)ui
(College of Mining Engineering,Taiyuan University of Technology,Taiyuan 030024,China)
Simple linear regression is one of the most widely used methods of parameter estimation.The paper proposes a bidirectional golden section based on independent variables according to arithmetical progression,which increases the redundant observations of the observations at both endpoints and narrows the difference of redundant observations among the observations.Under the premise of not increasing the number of observations and changing observation accuracy,this method improves the capability of robust estimate method eliminating and weakening gross errors.
simple linear regression;robust estimation;independent variables optimization;bidirectional golden section
P228
A
1006-7949(2012)03-0013-05
2011-05-22
國家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)資助項(xiàng)目(2008AA06A415-06A4)
韓小慧(1986-),女,碩士研究生.
[責(zé)任編輯劉文霞]