孫培強(qiáng)
(西安計(jì)量技術(shù)研究院,西安 710068)
異常值又稱離群值,是指在對一個被測量重復(fù)觀測所獲得的若干觀測結(jié)果中,出現(xiàn)了與其它值偏離較遠(yuǎn)并且不符合統(tǒng)計(jì)規(guī)律的個別值,他們可能來自不同的總體,或?qū)儆谝馔?、偶然的測量錯誤,也稱為存在著“粗大誤差”。造成異常值的原因很多,如:震動、沖擊、電源變化和電磁干擾等意外的環(huán)境條件變化;人為的讀數(shù)或者記錄錯誤;儀器內(nèi)部的偶發(fā)故障等。
如果一系列測量數(shù)據(jù)中存在異常值,必然會歪曲測量的結(jié)果。若能將該值剔除不用,便能使測量結(jié)果更符合客觀情況;有些情況下,一組正確測量值的分散性,本來客觀地反映了實(shí)際測量的隨即波動性,若人為地丟掉一些偏離較遠(yuǎn)但不屬于異常值的數(shù)據(jù),會使得到的所謂分散性很小,實(shí)際上卻是虛假的。因?yàn)?,以后在相同條件下再次測量時原來的正常分散性還會顯現(xiàn)出來,因此必須正確的判別和剔除異常值。
在測量過程中,如果遇到記錯、讀錯、儀器突然跳動和突然震動等異常情況,這些已知原因的異常值,應(yīng)該隨時發(fā)現(xiàn),隨時剔除,這就是物理判別法。如果僅僅是懷疑而不能確定某個值是異常值時,可采用統(tǒng)計(jì)判別法進(jìn)行判別。
設(shè)在一組重復(fù)觀測結(jié)果xi中,其殘差υi最大者為可疑值xd,在給定的置信概率為p=0.99或p=0.95,也就是顯著水平a=l-p=0.01或0.05時,如果滿足下述公式,可以判定xd為異常值。
式中,G(a,n)為與顯著水平a和重復(fù)觀測次數(shù)n有關(guān)的格拉布斯臨界值(見表1)。
表1 格拉布斯準(zhǔn)則的臨界值G(a ,n)表
否則沒有異常值。
表2 狄克遜檢驗(yàn)的臨界值D(a ,n)表
實(shí)例:在測量過程中得到10個值,按從小到大排列為:8.75,8.76,8.78,8.79,8.80,8.82,8.83,8.91,8.92,9.13。
觀測值實(shí)驗(yàn)標(biāo)準(zhǔn)偏差s=0.114
按p=0.95,即a=l-p=0.05,n=10,查表得G(0.05,10)=2.176
按p=0.99,即a=l-p=0.01,n=10,查表得G(0.01,10)=2.410
觀測值個數(shù)n=10用下面公式
拉依達(dá)準(zhǔn)則和格拉布斯準(zhǔn)則得出的結(jié)論截然相反,原因在于觀測值的個數(shù)并不大,用貝塞爾公式求得的僅是理論上的實(shí)驗(yàn)標(biāo)準(zhǔn)偏差的估計(jì)值。當(dāng)n比較小時,求得的實(shí)驗(yàn)標(biāo)準(zhǔn)偏差值比較大。此時,若依照拉依達(dá)準(zhǔn)則的3s做判斷依據(jù),并不可靠,當(dāng)以3s為界限時,即使有粗大誤差也發(fā)現(xiàn)不了;而格拉布斯準(zhǔn)則在理論上給出了嚴(yán)格而具體的判定標(biāo)準(zhǔn),所以兩者之間的得出的結(jié)論截然相反。
格拉布斯準(zhǔn)則和狄克遜準(zhǔn)則在理論上都給出了嚴(yán)格而具體的判定標(biāo)準(zhǔn),但他們對同一組數(shù)據(jù)的判定結(jié)果也有差異。一般情況下,格拉布斯準(zhǔn)則比狄克遜準(zhǔn)則嚴(yán)格。狄克遜準(zhǔn)則不使用實(shí)驗(yàn)標(biāo)準(zhǔn)偏差來判定異常值,而是用極差比來判定異常值,并且要求不同的測量次數(shù)應(yīng)用不同的極差比公式計(jì)算,公式多,不宜記憶。格拉布斯準(zhǔn)則有唯一的公式,方法簡便,易于掌握,而且可靠。格拉布斯準(zhǔn)則適用于單個異常值,而狄克遜準(zhǔn)則可以多次剔除異常值。
格拉布斯準(zhǔn)則和狄克遜準(zhǔn)則對測量次數(shù)有要求,測量次數(shù)大于50次不能使用格拉布斯準(zhǔn)則,測量次數(shù)大于30次不能使用狄克遜準(zhǔn)則,而拉依達(dá)準(zhǔn)則對測量次數(shù)沒有限制。
所以當(dāng)測量次數(shù)n>50的情況下,拉依達(dá)準(zhǔn)則較簡便實(shí)用;在測量次數(shù)3 我們在計(jì)量檢定工作中會有大量數(shù)據(jù)處理工作,其中異常值的剔除是非常重要的一個環(huán)節(jié),希望本文對計(jì)量一線人員如何正確選擇剔除異常值的三個準(zhǔn)則有所幫助。 [1] 沙定國.誤差分析與測量不確定度評定[M] .中國計(jì)量出版社,2003 [2] 沙定國.實(shí)用誤差理論與數(shù)據(jù)處理.北京理工大學(xué)出版社,1993 [3] 劉智敏.殘差的性質(zhì)及其應(yīng)用.計(jì)量學(xué)報,1980(9) [4] 李夢奇.工程技術(shù)領(lǐng)域等精度數(shù)據(jù)異常值判定系統(tǒng).計(jì)量技術(shù),2006(3) [5] 徐樞.粗大誤差統(tǒng)計(jì)判斷方法的比較與評價.計(jì)量技術(shù),1983(3) [6] 肖明耀.實(shí)驗(yàn)誤差估計(jì)與數(shù)據(jù)處理.科學(xué)出版社,1980 [7] 肖明耀.怎樣剔除含有粗差的觀測值.計(jì)量工作,1973(2)4 結(jié)束語