王奉偉,周世健,周 清,陸培鶴
(1.東華理工大學測繪工程學院,江西南昌330013;2.流域生態(tài)與地理環(huán)境監(jiān)測國家測繪地理信息局重點實驗室,江西南昌330013;3.南昌航空大學,江西南昌330063)
?
具有LMS穩(wěn)健初值的選權(quán)迭代法
王奉偉1,2,周世健3,周清1,陸培鶴1
(1.東華理工大學測繪工程學院,江西南昌330013;2.流域生態(tài)與地理環(huán)境監(jiān)測國家測繪地理信息局重點實驗室,江西南昌330013;3.南昌航空大學,江西南昌330063)
摘要:基于選權(quán)迭代法的基本理論,文中提出先用LMS穩(wěn)健估計來確定殘差的初值,然后再進行選權(quán)迭代方法。其估計結(jié)果既繼承LMS方法的高失效點(BP)穩(wěn)健性,又具有選權(quán)迭代法的高估計效率,其計算結(jié)果與無異常點時最小二乘估計結(jié)果基本一致。
關(guān)鍵詞:抗差估計;LS;異常點;最小中位數(shù)平方LMS;選權(quán)迭代法
在抗差估計中,最常用的為M估計法,其估計計算方法有很多種,其中選權(quán)迭代法應用最廣,計算簡單,較易理解,是目前數(shù)據(jù)處理中剔除異常點的常用穩(wěn)健估計方法[1-5]。殘差初值是影響選權(quán)迭代法的粗差探測能力關(guān)鍵因素之一?,F(xiàn)在一般都采用最小二乘法(Least Squares,LS)來確定殘差初值。異常點的多少與最小二乘估計崩潰直接相關(guān),導致選權(quán)迭代法抵抗異常點的能力不強,當數(shù)據(jù)中存在較多異常點時比較明顯。具有穩(wěn)健初值的選權(quán)迭代法(L1WI)是用最小一乘法確定殘差初值而非采用最小二乘法。最小一乘法可以抵抗部分Y方向異常,但異常點較多時,其穩(wěn)健性較差,對于X方向的異常點其沒有抗差能力[6-7]。最小中位數(shù)平方LMS(Least Median Squares)方法能夠抵抗X,Y方向異常,具有很強的穩(wěn)健性[8-9]??紤]基于LMS的選權(quán)迭代法(LMSWI)可以更有效地提高估計參數(shù)的精度,文中利用LS、最小一乘法和最小中位數(shù)平方LMS三種方法求解殘差初值,并進行選權(quán)迭代,通過比較迭代結(jié)果判斷三種方法的優(yōu)劣性,驗證了殘差初值是選權(quán)迭代法的關(guān)鍵性問題,表明具有LMS初值的選權(quán)迭代法具有很強的抗差能力。
1最小中位數(shù)平方LMS原理
(1)
(2)
式中:min為取最小值算子,選擇殘差vmed對應的那組參數(shù)估值為最小中位數(shù)平方抗差估值。
2具有LMS初值的選權(quán)迭代法
最小中位數(shù)平方LMS方法[8]是一類能夠抵抗X,Y兩個方向異常,具有很強的穩(wěn)健性的方法。所以考慮用LMS方法確定殘差初值,然后進行選權(quán)迭代。這種方法具有較高的估計效率,又保持LMS較高的穩(wěn)健性質(zhì)。
LMS的目標函數(shù)不是使所有各點的殘差平方和最小,而是定義為使升序排列的殘差平方中位數(shù)取最小時的估計值。其解可通過以下無放回的重復抽樣算法來實現(xiàn):
1)求解重復抽樣次數(shù)SN。
2)從n個觀察值中隨機抽取p+1個不同的樣本點(p為X變量個數(shù)),建立參數(shù)估計模型,得到一個回歸參數(shù)向量估計值b。
4)令j=j+1,重復以上步驟至SN=j,在所得到的SN個med中取最小值,將此時對應的b作為β的LMS估計。
5)根據(jù)IGGIII權(quán)因子函數(shù)確定權(quán)矩陣。
6)計算加權(quán)最小二乘估計得到參數(shù)和殘差,確定新的權(quán)陣,進行循環(huán)迭代。
7)若前后兩次迭代得到的參數(shù)估計值βj+1與βj滿足收斂條件|βj+1-βj|≤ε|βj|,ε為事先設(shè)定的精度,就結(jié)束迭代,輸出估計參數(shù)值β,否則繼續(xù)循環(huán)迭代。
3權(quán)函數(shù)的選取
權(quán)函數(shù)的選取也是選權(quán)迭代法的關(guān)鍵問題,考慮到權(quán)函數(shù)本身具有一定缺陷,不含淘汰段的Humber法、丹麥法減弱了其抗差的能力,不具有正常段的Tukey法、Andrews法減弱了其效率。所以從權(quán)函數(shù)本身而言,選權(quán)迭代法的權(quán)函數(shù)采用包含正常段、可疑段和淘汰段的IGGIII方案,其權(quán)函數(shù)[10-11]為
(3)
式中:Pi是等價權(quán)陣的第i個對角元素;ui是第i個標準化殘差;k0,k1是預先確定的參數(shù)。
4實驗與分析
利用MATLAB程序[12]由模型Y=8-2.1X+e模擬觀測數(shù)據(jù),取n=25,隨機誤差e~N(0,0.2)正態(tài)分布。利用LS、LSWI、L1WI和LMSWI 4種方法對模擬數(shù)據(jù)進行參數(shù)估計,具體結(jié)果見表1和表2。
表1 無異常點時的模擬數(shù)據(jù)
表2 X與Y方向異常估計結(jié)果
從表2數(shù)據(jù)處理結(jié)果來看,無異常點時4種方法的求解參數(shù)精度基本相當,LMSWI通過迭代提高LMS參數(shù)估計的精度和效率,達到比較令人滿意的水平。
利用MATLAB由模型Y=8-2.1X+e模擬觀測數(shù)據(jù),取n=25,按異常點比例λ確定異常點個數(shù)nλ。首先根據(jù)模型產(chǎn)生25-nλ個無異常數(shù)據(jù),然后在隨機抽取nλ個X生成異常點。λ=20%,λ=30%,λ=40%,20%比例異常點模擬數(shù)據(jù)如表3和表4所示。
表3 Y方向20%異常點的模擬數(shù)據(jù)
表4 Y方向異常估計結(jié)果
結(jié)果表明,當數(shù)據(jù)在Y方向存在異常點時,即使只有20%比例的異常點,LS方法也會受到很大的影響,但具有三種方法殘差初值的選權(quán)迭代法,異常點比例在30%以內(nèi)時均能夠有效地抵抗異常點的影響,表明選權(quán)迭代法在剔除異常點方面具有很強的穩(wěn)健性。即使異常點比例達到40%,L1WI和LMSWI依然可以準確的估計出模型參數(shù),兩者的性能在僅有Y方向異常點時不相上下,而LSWI的抗差性在大比例異常點存在時較弱。
利用MATLAB程序由模型Y=8-2.1X+e模擬觀測數(shù)據(jù),取n=25,按異常點比例λ確定異常點個數(shù)nλ。首先根據(jù)模型產(chǎn)生25-nλ個無異常數(shù)據(jù),然后在隨機抽取nλ個數(shù)據(jù)根據(jù)模型在X和Y均加入異常值生成異常點。λ=20%,λ=30%,λ=40%,40%比例異常點模擬數(shù)據(jù)如表5和表6所示。
表5 X與Y方向40%異常點的模擬數(shù)據(jù)
表6 X與Y方向異常估計結(jié)果
由表6可知,當數(shù)據(jù)中在X和Y方向上均存在異常點時,LS估計參數(shù)結(jié)果明顯失真。LSWI和L1WI也會受到很大的影響,參數(shù)估計結(jié)果偏離真實值。而LMSWI則繼續(xù)保持其高穩(wěn)健性和高崩潰點而不受其影響,即使異常點比例高達40%,該方法估計參數(shù)結(jié)果依然穩(wěn)定,基本和真值一致。
5結(jié)束語
對于數(shù)據(jù)處理來說,異常點剔除越來越受到關(guān)注,選權(quán)迭代法是目前剔除異常點最常用的方法之一,而選擇穩(wěn)健的殘差初值是選權(quán)迭代法的關(guān)鍵問題?;谧钚∫怀朔ǖ木€性規(guī)劃法和LS方法相比,其殘差初值具有一定的穩(wěn)健性,但是其對于X方向異常點無任何抵抗性。但LMS方法可以同時抵抗X方向和Y方向的多個異常點,利用LMS方法確定殘差初值,提高選權(quán)迭代法抵抗異常點的能力,使選權(quán)迭代法具有更強穩(wěn)健性。本文實例計算結(jié)果很好地驗證了具有LMS穩(wěn)健初值的選權(quán)迭代法具有很好的抗差能力和較高的估計效率。
參考文獻:
[1]周江文.經(jīng)典誤差理論與抗差估計[J].測繪學報,1989,18(2):115-120.
[2]李德仁.利用選權(quán)迭代法進行粗差探測定位[J].武漢測繪科技大學學報,1984,9(1):46-68.
[3]陳西強,黃張裕.抗差估計的選權(quán)迭代法分析與比較[J].測繪工程,2010,19(4):8-11,15.
[4]楊勇喜,賈東振,何秀鳳.基于選權(quán)迭代法的抗差整體最小二乘及其應用[J].測繪工程,2014,23(12):56-59,62.
[5]邱衛(wèi)寧,陶本藻,姚宜斌,等.測量數(shù)據(jù)處理理論與方法[M].武漢:武漢大學出版社,2008.
[6]劉明.最小一乘法與最小二乘法:基于例證的比較[J].統(tǒng)計與決策,2012(20):12-15.
[7]邱衛(wèi)寧.具有穩(wěn)健初值的選權(quán)迭代法[J].武漢大學學報(信息科學版),2003,28(4):452-454.
[8]ROUSSEEUW P J.Least median of squares regression[J].Jourmal of the American Stastical Association,1984,79:871-880.
[9]ROUSSEEUW P J,LEROY A M.Robust regression and outlier detection[M].In Wiley Series in probability and Mathematical Statistics.New York,John Wiley & Sons,1987.
[10]楊玲,沈云中,樓立志.基于中位數(shù)參數(shù)初值的等價抗差估計方法[J].測繪學報,2011,40(1):28-32.
[11]李浩軍,唐詩華,黃杰.經(jīng)典選權(quán)迭代法研究與兩步抗差估計的提出[J].海洋測繪,2007,27(1):17-20.
[12]張智星.MATLAB 程序設(shè)計與應用[M].北京:清華大學出版社,2002.
[責任編輯:李銘娜]
Selecting weight iteration method with initial value by LMS
WANG Feng-wei1,2,ZHOU Shi-jian3,ZHOU Qing1,LU Pei-he1
(1.School of Surveying and Mapping Engineering,East China Institute of Technology,Nan Chang 330013,China;2.Key Laboratory of Watershed Ecology and Geographical Environment Monitoring,NASG,Nanchang 330013,China;3.Nanchang Hangkong University,Nanchang 330063,China)
Abstract:This paper explores the selecting weight iteration method with initial value by LMS,which uses LMS robust estimate to asertain the initial residuals value.The selecting weight iteration(SWI) process goes after that.The estimate result of the method takes on high breakdown point robustness of LMS and high estimate effciency of SWI.The result shows the selecting weight iteration method with LMS estimation can resist outliers like the LS with no outliers.So it is more robust.
Key words:robust estimation;LS;outliers;least median squares;LMS;selecting weight iteration
作者簡介:王奉偉(1988-),男,碩士研究生.
基金項目:國家自然科學基金資助項目(41374007)
收稿日期:2014-12-30
中圖分類號:P221
文獻標識碼:A
文章編號:1006-7949(2015)12-0033-03