趙成鋼
摘 要:在精密測量中,處理測試數(shù)據(jù)時(shí),需要采用科學(xué)的方法剔除可疑離群數(shù)據(jù),以保證測量結(jié)果的可靠性。簡要論述了常用判斷準(zhǔn)則——萊特(3δ判據(jù))、肖維勒、格拉布斯和t檢驗(yàn)4個(gè)準(zhǔn)則的相關(guān)內(nèi)容,從準(zhǔn)則的定義出發(fā),比較了各準(zhǔn)則之間的區(qū)別和聯(lián)系,并保留了數(shù)據(jù)域的寬窄,提高對其的理論認(rèn)識(shí),以便在日后的數(shù)據(jù)處理工作中更好地使用這些準(zhǔn)則。
關(guān)鍵詞:精密測量;離群數(shù)據(jù);判斷準(zhǔn)則;數(shù)據(jù)域
中圖分類號(hào):TB114 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.15913/j.cnki.kjycx.2015.10.003
1 判斷準(zhǔn)則的數(shù)學(xué)形式
重復(fù)測量某物理量的精度n次,得測得值X1,X2……Xn;某測得值的殘余誤差的絕對值大于標(biāo)準(zhǔn)偏差δs與判別系數(shù)T之積,即:
.
由此可知,該誤差為粗大誤差,測得值Xd為離群數(shù)據(jù),應(yīng)剔除。
式(1)中:
采取t檢驗(yàn)準(zhǔn)則時(shí),剔除可疑離群數(shù)據(jù)Xd后,計(jì)算算術(shù)平均值和標(biāo)準(zhǔn)偏差為:
4個(gè)判斷準(zhǔn)則都有與式(1)相同的判別式,只是其中的判別系數(shù)T不同而已。
2 判別系數(shù)T的確定
2.1 萊特準(zhǔn)則
在萊特準(zhǔn)則下,規(guī)定T=3顯然有其合理性。
對于服從正太分布的隨機(jī)誤差,任意區(qū)間(-Δ,Δ)的差落在該區(qū)間的概率為:
拉普拉斯函數(shù)為:
當(dāng)Δ=3δ時(shí),2φ(3δ/δ)=0.997 3. 這說明,其殘余誤差落在區(qū)間(-3δ,3δ)以外的概率僅為0.27%,即經(jīng)過370次測量才會(huì)出現(xiàn)一次,對于有限次測量來說,可以認(rèn)為這是不可能發(fā)生的。由于3δ判據(jù)實(shí)質(zhì)上是建立在n→∞基礎(chǔ)上的,所以,當(dāng)n有限時(shí),特別是當(dāng)n比較小時(shí),這一判據(jù)并不是十分可靠的。同時(shí),又因?yàn)棣氖铅牡墓烙?jì)值,δ的精密度與測量次數(shù)n有關(guān),所以,在使用過程中,處理n比較大的數(shù)據(jù)群為好。
從另一個(gè)角度也可以說明,n取比較大的值為好。在等精度的n次重復(fù)測量中,如果只有一個(gè)測得值的殘余誤差|Xd-X|
超出某一界限±Tδ,而相應(yīng)的概率Pa=1-2φ(T)=1/n,則按正態(tài)分布規(guī)律可知,此值的殘余誤差為正常超出,因?yàn)閚個(gè)等精度測得值中出現(xiàn)一個(gè)的概率恰好是1/n.這說明,此值中含有隨機(jī)誤差,但是,不含疏忽誤差。如果按以上條件算出的概率Pa值小于1/n很多,則上述正常超出的可能性便會(huì)減小,而含有疏忽誤差的非正常超出的可能性便會(huì)增大。
對于萊特準(zhǔn)則,可估算,取Pa=1-2φ(3)=1/n,則有n=1/(1-0.997 3)=370.
這說明,萊特準(zhǔn)則可用于n比較大的測量數(shù)據(jù)群。經(jīng)驗(yàn)表明,一般n≥50,即可選用萊特準(zhǔn)則判別。
2.2 肖維勒準(zhǔn)則
Pa為殘余誤差落在(-Tδ,Tδ)以外的概率,則:Pa=1-2φ(T).
規(guī)定當(dāng)Pa=1/2n時(shí),則判別該測得值的殘余誤差為含有疏忽誤差的非正常超出,所以,應(yīng)將該值剔除。
由此可得:Pa=1-2φ(T)=1/2n.
其中,φ(T)=(2n-1)/4n.
由n和拉普斯函數(shù)可得肖維勒準(zhǔn)則的T值。
由此可知,肖維勒準(zhǔn)則是萊特準(zhǔn)則的改進(jìn),T判別系數(shù)從定值修正為一個(gè)與n有關(guān)的參數(shù),n增加,T相應(yīng)增大,n越小,保留數(shù)據(jù)域就越小。
對于肖維勒準(zhǔn)則,可估算,取2φ(T)=(2n-1)/2n=0.975,則有n=20;取2φ(T)=(2n-1)/2n=0.997 3,則有n=185.
由此可知,肖維勒準(zhǔn)則可用于測量次數(shù)比較少的數(shù)據(jù)群離群數(shù)據(jù)判別。經(jīng)驗(yàn)表明,一般n=20-100,即可用肖維勒準(zhǔn)則判別。
2.3 格拉布斯準(zhǔn)則
由正太分布原理可知,選定一個(gè)危險(xiǎn)率α.一般選5.0%,2.5%,1.0%,從而建立起T=λ(α,n)的函數(shù)關(guān)系。
在該函數(shù)關(guān)系中,λ(α,n)為測量次數(shù);n為危險(xiǎn)率是α?xí)r的統(tǒng)計(jì)臨界值,可查λ(α,n)表而得。經(jīng)過分析后可知,λ(α,n)值隨α增大而減小,隨n增大而增大。
考慮到危險(xiǎn)率α和測量次數(shù)n雙因子,給出了比較嚴(yán)格的結(jié)果[λ(α,n)來源推導(dǎo)復(fù)雜約],所以,該準(zhǔn)則可用于測量次數(shù)n比較少的數(shù)據(jù)群可疑離群數(shù)據(jù)的判別中。
一般經(jīng)驗(yàn)表明,該準(zhǔn)則用于n≤25的測試數(shù)據(jù)群的可疑數(shù)據(jù)判別中。
2.4 t檢驗(yàn)準(zhǔn)則
t檢驗(yàn)準(zhǔn)則是應(yīng)用分布原理合理檢驗(yàn)測量數(shù)據(jù)的又一種方法。該準(zhǔn)則與格拉布斯準(zhǔn)則一樣,考慮到危險(xiǎn)率α和測量次數(shù)n,建立起T=k(α,n)的函數(shù)關(guān)系。
在該函數(shù)關(guān)系中,k(α,n)為測量次數(shù);n為危險(xiǎn)率是α?xí)r的統(tǒng)計(jì)臨界值,可查k(α,n)表而得。經(jīng)過分析可知,k(α,n)值隨α增大而減小,隨n增大而減小。
考慮到危險(xiǎn)率α和測量次數(shù)n雙因子,給出了比較嚴(yán)格的結(jié)果[k(α,n)來源推導(dǎo)約],所以,該準(zhǔn)則可用于測量次數(shù)比較少的數(shù)據(jù)群可疑離群數(shù)據(jù)的判別。
一般經(jīng)驗(yàn)表明,該準(zhǔn)則可用于n≤20的測試數(shù)據(jù)判別中。
那么,格拉布斯準(zhǔn)則與t檢驗(yàn)準(zhǔn)則有什么關(guān)系呢?可以從計(jì)算標(biāo)準(zhǔn)偏差嚴(yán)格的較差公式出發(fā)進(jìn)行推證:
令:
由λ(α,n)和k(α,n)數(shù)表可知,λ(α,n)隨n的增加單調(diào)增加,k(α,n)隨n的增加單調(diào)減少。當(dāng)n增大到一定數(shù)字時(shí),λ(α,n)>k(α,n).由式(15)可得,B>A,A>λ(α,n),則B>k(α,n).
由式(20)可知,在k(α,n)>λ(α,n)的情況下,計(jì)算并對照λ(α,n)表和k(α,n)表得,當(dāng)A>λ(α,n)時(shí),則B>k(α,n).
由此可知,t檢驗(yàn)準(zhǔn)則的保留數(shù)據(jù)域比格拉布斯準(zhǔn)則窄,即如果可疑數(shù)據(jù)被格拉布斯準(zhǔn)則剔除,那么,它也一定會(huì)被t檢驗(yàn)準(zhǔn)則剔除。
3 體會(huì)
以上各準(zhǔn)則都是人為主觀擬定,但是,又都是以數(shù)據(jù)按正態(tài)分布為前提的。當(dāng)偏離正太分布時(shí),判斷的可行性將會(huì)受到影響,特別是測量次數(shù)減少時(shí)更不可靠。因此,對于可疑離群數(shù)據(jù),除了從測量結(jié)果中及時(shí)發(fā)現(xiàn)和利用剔除準(zhǔn)則鑒別外,更重要的是提高工作人員的技術(shù)水平和工作質(zhì)量,保證不出現(xiàn)有較大誤差的離群數(shù)據(jù)。
另外,可依據(jù)測量準(zhǔn)則度的要求和測量次數(shù)選擇判別準(zhǔn)則。從上述準(zhǔn)則間的聯(lián)系、數(shù)據(jù)域的寬窄和實(shí)踐操作經(jīng)驗(yàn)來看,推薦當(dāng)測量次數(shù)n≤50或n≥10作粗略判別時(shí),可采用萊特(3δ判別)準(zhǔn)則,在其他情況下,采用格拉布斯準(zhǔn)則判別為好。
在有限的測量列中,當(dāng)出現(xiàn)2個(gè)異常數(shù)據(jù)時(shí),通??烧J(rèn)為整個(gè)測量結(jié)果是在不正常條件下得到。鑒于此,應(yīng)不斷改進(jìn)和完善測量方法,重新進(jìn)行有效測量。
〔編輯:白潔〕