林麗芬,肖 化,吳先球
(華南師范大學,廣東 廣州 510006)
實驗測量的數(shù)據(jù)中有時會發(fā)現(xiàn)個別數(shù)據(jù)與其他數(shù)據(jù)差異很大(過大或過?。@是由于實驗過程中出現(xiàn)某種差錯或者環(huán)境條件突變造成的,文中稱為異常數(shù)據(jù)。對于一組實驗中異常數(shù)據(jù)的取舍,如果將混有異常數(shù)據(jù)的實驗數(shù)據(jù)進行實驗結果計算,會加大實驗誤差,甚至是歪曲實驗結果,因此要將這些異常數(shù)據(jù)剔除,以符合客觀事實。但不能為了得到精度更高的結果,而任意地把一些誤差較大、但符合測量值隨機波動性而含有正常偏差的數(shù)據(jù)剔除[1,2]。
本文以《測直流電源的電動勢和內(nèi)阻》為例,利用Origin軟件進行實驗數(shù)據(jù)線性擬合的功能,分別以肖維勒準則[1]和格拉布斯準則[2]實現(xiàn)異常數(shù)據(jù)的判斷和剔除,并比較兩種準則使用范圍的差異。
在n次測量中,取不可能發(fā)生的個數(shù)為0.5,那么對正態(tài)分布而言,誤差不可能出現(xiàn)的概率為
利用標準正態(tài)函數(shù)表,根據(jù)等式右端的已知值n可查表求出肖維勒系數(shù)ωn。對于數(shù)據(jù)點xd,若其殘差Vd滿足Vd>ωnσ則剔除,否則xd應保留。其中σ是樣本標準差。
設n個測量值按大小順序排列x1≤x2≤…≤xn,假設xn是需要檢驗判別的異常數(shù)據(jù)。S和Sn都是測量值的函數(shù),對應的概率密度為
通過查表可得λ(n,α)值,根據(jù)異常數(shù)據(jù)xn與平均值的殘否大于λ(n,α)倍樣本標準差σ來判斷異常數(shù)據(jù)是否應當剔除。
首先將伏安法測得外電路的電流和電壓的實驗數(shù)據(jù)如表1所示[5]。
表1 實驗數(shù)據(jù)
輸入到Origin的工作表Worksheet中,生成二維坐標數(shù)據(jù)點狀分布圖,調(diào)用Origin內(nèi)置的最小二乘法線性擬合工具,如圖1所示。
圖1 原始數(shù)據(jù)線性擬合結果
由圖1可看出,測量數(shù)據(jù)中第5、11點離擬合直線偏差較大,是異常數(shù)據(jù)。通過Column/Add New Column新增一列,命名為Vd,存放殘差。調(diào)出script window 執(zhí)行命令:Data1_Vd=5.51444+Data1_I*(-3.22794)-Data1_U;得到Vd列的值。
當n為11時,ω11為2.00。新增一列,命名為Contrast1,該列執(zhí)行命令:
Data1_Contrast1 = abs(Data1_Vd) -2.00*0.06865;
圖2 肖維勒準則和格拉布斯準則與殘差的比較結果對比
當n為11時,λ(11,0.05)為2.24。新增一列,命名為Contrast2,該列為行命令:
Data1_Contrast2=abs(Data1_Vd)-2.24*0.06865;
如圖2所示,Contrast2所有數(shù)值都為負值,即所有的數(shù)值都是符合統(tǒng)計學概率而出現(xiàn)的。
兩個準則的判別結果如圖2所示,但相互矛盾的結果并不能說明肖維勒準則比格拉布斯準則的保留數(shù)據(jù)較窄,從而認為前者比后者更可靠。雖然兩個準則都與測量次數(shù)掛鉤,但肖維勒準則存在明顯缺點:n不同時,置信水平就不同;而格拉布斯準則可根據(jù)研究對象的特點,選擇合適的置信水平進行討論。肖明耀[1]、吳先球[2]等人都提到格拉布斯準則的剔除原則同時與測量次數(shù)、顯著性水平聯(lián)系起來,并適用于n<100的情況,對樣本中僅混入一個異常數(shù)據(jù)的情況判別效率最高[3]。
首先,在本例中測量樣本比較小,兩種準則的標準差 因偏離正態(tài)分布而不準確,但σ由Origin軟件中的內(nèi)置程序處理所得,數(shù)值相等,可信度高。忽略標準差 存在的誤差。
其次,兩個準則判斷是否為異常數(shù)據(jù)時,都滿足
k是統(tǒng)計臨界系數(shù)。對應于相同的測量次數(shù),兩準則的統(tǒng)計臨界系數(shù)各不相同,而判斷結果對統(tǒng)計臨界系數(shù)相當敏感。在同一k值下(k=3)格布拉斯準則對應的測量次數(shù)n=25(α=0.01)、n=50~60(α=0.05),而肖維勒準則是185。
第三,格拉布斯準則在相同的k值下,置信水平不同(0.01、0.025、0.05三個置信水平),n值有所不同。n相同時,λ(n,0.01)比λ(n,0.05)大,即α=0.01比α=0.05的保留數(shù)據(jù)窄,說明σ在一定時,α值越小,對異常數(shù)據(jù)剔除的要求更嚴格,有效避免錯誤剔除包含正常誤差或保留了含有粗大誤差的數(shù)據(jù)。
最后,針對實際的測量次數(shù)選擇合適準則,確保正確地剔除壞值,保留好值。在統(tǒng)計臨界系數(shù)k=3時,肖維勒準則的系數(shù)ωn隨n(n<185)相對格拉布斯準則的系λ(n,α)數(shù)隨n(n<25)的變化小,即格拉布斯準則的系數(shù)λ(n,α)對測量次數(shù)n(n<25的變化比較敏感[3]。在本例中測量次數(shù)n=11,ω11=2.00比λ(11,0.01)=2.48小,容易剔除含有較大正常誤差的測量值。
因此,文中《測直流電源的電動勢和內(nèi)阻》的11組原始數(shù)據(jù)中,第5個數(shù)據(jù)是否剔除,應當采用格拉布斯準則(置信水平α為0.01)不剔除這個數(shù)據(jù),雖然σ會偏大,但結果相對安全且符合統(tǒng)計學規(guī)律。
利用Origin數(shù)據(jù)線性回歸的功能與異常數(shù)據(jù)剔除原則分析實驗數(shù)據(jù),根據(jù)判斷結果進一步分析與討論,異常數(shù)據(jù)剔除準則應根據(jù)實驗次數(shù)和實驗要求來選擇,可以同時采用多種方法判斷,以確保剔除結果可靠。
[1]肖明耀.誤差理論與應用[M].北京:計量出版社,1985:169-174.
[2]吳先球,熊予瑩.近代物理實驗教程[M].2版.北京:科學出版社,2009:17.
[3]熊艷艷,吳先球.粗大誤差四種判別準則的比較和應用[J].大學物理實驗,2010,23(1):66-68.
[4]王鑫,吳先球.用Origin剔除線性擬合中實驗數(shù)據(jù)的異常數(shù)據(jù)[J].山西師范大學學報:自然科學版,2003,17(1):45-47.
[5]黃潮華.用Origin和肖維勒準則剔除異常數(shù)據(jù)和線性擬合實驗數(shù)據(jù)[J].物理教師,2002,23(12):36-38.