孫向東,劉擁軍,陳雯雯,賈智寧,黃保續(xù)
(中國(guó)動(dòng)物衛(wèi)生與流行病學(xué)中心,山東青島 266032)
異常值對(duì)于數(shù)據(jù)統(tǒng)計(jì)分析結(jié)果的準(zhǔn)確性具有不良影響,重視異常值的檢測(cè),分析其產(chǎn)生的原因,為發(fā)現(xiàn)問(wèn)題、改進(jìn)方法提供了契機(jī)。箱線圖法是檢驗(yàn)數(shù)據(jù)中異常值的最常用方法。與格拉布斯法(Grubbs)、3σ 法、z分?jǐn)?shù)法等不同的是,箱線圖法既可以用作服從正態(tài)分布數(shù)據(jù)異常值的判斷,也可以用作不服從正態(tài)分布數(shù)據(jù)異常值的判斷,從而拓展了這種方法的適用范圍。
箱線圖(Boxplot)也稱(chēng)箱須圖(Box-whisker Plot),是美國(guó)著名統(tǒng)計(jì)學(xué)家John W.Tukey于1977年發(fā)明的[1]。箱線圖法利用數(shù)據(jù)中的五個(gè)統(tǒng)計(jì)量:最小值、下四分位數(shù)(Q1)、中位數(shù)(Q2)、上四分位數(shù)(Q3)與最大值來(lái)描述數(shù)據(jù)[2-4]。箱線圖可用于:(1)鑒別數(shù)據(jù)中的異常值,包括離群值和極端值;(2)判斷數(shù)據(jù)的偏態(tài)和尾重;(3)比較幾組數(shù)據(jù)的形狀。本文僅討論其在異常值鑒別中的應(yīng)用。
箱線圖根據(jù)實(shí)際數(shù)據(jù)繪制,既不需要事先假定數(shù)據(jù)服從特定的概率分布,也沒(méi)有對(duì)數(shù)據(jù)作任何限制性要求,能夠真實(shí)、直觀地表現(xiàn)數(shù)據(jù)形狀的本來(lái)面貌。箱線圖判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ),較多數(shù)據(jù)的變化對(duì)四分位數(shù)影響不大,所以箱線圖判斷異常值的標(biāo)準(zhǔn)具有較強(qiáng)的魯棒性(Robust),檢測(cè)結(jié)果比較客觀。箱線圖法采用中位數(shù)代替平均數(shù)檢測(cè)異常值是統(tǒng)計(jì)檢測(cè)方法上的一大改進(jìn)。箱線圖法能夠有效克服數(shù)據(jù)中存在異常值時(shí),不能測(cè)出異常值的這種掩蓋效應(yīng)(masking effect)[5]。
箱線圖由參照系(坐標(biāo)軸)、標(biāo)志物(箱體、上下四分位線、中位線、異常值截?cái)帱c(diǎn))、檢測(cè)數(shù)據(jù)(箱體兩端的延伸線、異常值)三種成分構(gòu)成,具體見(jiàn)圖1。其中箱體的兩端分別對(duì)應(yīng)下四分位數(shù)Q1和上四分位數(shù)Q3,Q1和Q3之間稱(chēng)作四分位距(Inter Quartile Range,IQR)。上四分位點(diǎn)右邊1.5倍IQR和下四分位點(diǎn)左邊1.5倍IQR位置對(duì)應(yīng)的點(diǎn)是異常值截?cái)帱c(diǎn),異常值截?cái)帱c(diǎn)之間是內(nèi)限。上四分位點(diǎn)右邊3倍IQR和下四分位點(diǎn)左邊3倍IQR位置對(duì)應(yīng)的點(diǎn)是極端值截?cái)帱c(diǎn),極端值截?cái)帱c(diǎn)之間是外限。異常值截?cái)帱c(diǎn)以外的數(shù)據(jù)稱(chēng)作異常值,其中在內(nèi)限與外限之間的異常值為溫和異常值或離群值(Outlier,mild outliers),在外限以外的為極端異常值或極端值(Extreme,extreme outliers)。
箱線圖的結(jié)構(gòu)與標(biāo)準(zhǔn)正態(tài)分布函數(shù) N(0,1)之間的比較見(jiàn)圖 2。其中Q3與Q1之間包含了50%的數(shù)據(jù)點(diǎn),異常值截?cái)帱c(diǎn)之間包含了99.3%的數(shù)據(jù)點(diǎn),非異常值誤判為異常值的概率不大于0.7%。
第一步,計(jì)算相關(guān)值。計(jì)算下四分位數(shù)Q1、中位數(shù)Q2、上四分位數(shù)Q3的值,并計(jì)算四分位距Q3-Q1,以及 Q3+1.5×IQR、Q1-1.5×IQR、Q3+3×IQR、Q1-3×IQR 等值。
第二步,繪制標(biāo)志物。繪制數(shù)軸,度量單位和數(shù)據(jù)的單位一致,起點(diǎn)比最小值稍小,長(zhǎng)度比該數(shù)據(jù)全距稍長(zhǎng);繪制箱體,在Q1和Q3對(duì)應(yīng)的位置繪制箱體左右兩個(gè)邊,Q2對(duì)應(yīng)的位置繪制中位線,詳見(jiàn)圖3(A);繪制截?cái)嗑€,在Q3+1.5×IQR和Q1-1.5×IQR對(duì)應(yīng)的位置繪制異常值截?cái)嗑€,在Q3+3×IQR和 Q1-3×IQR對(duì)應(yīng)的位置繪制極端值截?cái)嗑€,詳見(jiàn)圖 3(B)。
第三步,描線、點(diǎn)。確定數(shù)據(jù)中不是異常值的最小值和最大值點(diǎn),分別用直線連結(jié)這兩個(gè)點(diǎn)與矩形兩端,用“ ?!睒?biāo)出離群值,用“*”標(biāo)出極端值,詳見(jiàn)圖 3(C)。
以仔豬價(jià)格數(shù)據(jù)為例,演示運(yùn)用SPSS繪制箱線圖的方法檢測(cè)來(lái)自148個(gè)調(diào)查點(diǎn)的仔豬市場(chǎng)價(jià)格數(shù)據(jù)中是否有異常數(shù)據(jù)(見(jiàn)表1)。
?
(1)啟動(dòng)SPSS 打開(kāi)SPSS軟件,激活數(shù)據(jù)管理窗口。
(2)數(shù)據(jù)準(zhǔn)備 把數(shù)據(jù)輸入SPSS軟件的數(shù)據(jù)編輯窗口。定義變量名:采樣點(diǎn)的變量名定義為Spot;輸入原始數(shù)據(jù),仔豬價(jià)格變量名定義為Price。
(3)操作步驟 點(diǎn)擊Analyze菜單、Descriptive Statistics...過(guò)程中的Explore,彈出Explore對(duì)話框,如圖4。
點(diǎn)擊“Plots”,打開(kāi)繪圖對(duì)話框,選中“Histogram”選項(xiàng),如圖 5。
點(diǎn)擊“Continue”按鈕。返回“Explore”對(duì)話框,點(diǎn)擊“OK”鍵,完成計(jì)算。圖6是檢驗(yàn)結(jié)果。
結(jié)果顯示第144~147號(hào)地點(diǎn)采樣數(shù)據(jù) 60、70、72 和 80 為離群值,第148號(hào)地點(diǎn)采樣數(shù)據(jù)100為極端值。
SPSS軟件自動(dòng)生成的箱線圖中,沒(méi)有繪制異常值截?cái)嗑€和極端值截?cái)嗑€。
處理異常值的方式包括:(1)保留;(2)剔除;(3)替換,即用非異常值替換異常值;(4)修正,在找到實(shí)際原因時(shí)修正異常值。
對(duì)檢出的異常值,應(yīng)根據(jù)實(shí)際問(wèn)題的性質(zhì)進(jìn)行判斷:(1)若無(wú)充分理由,則不得剔除或修正異常值;(2)如果有充分理由,表現(xiàn)統(tǒng)計(jì)上高度異常的,可以剔除或進(jìn)行修正;(3)被檢出的異常值,被剔除或修正的觀測(cè)值及其理由應(yīng)予記錄以備查詢。
對(duì)于本例各個(gè)檢出的異常值進(jìn)行電話核實(shí),60、70、72 和 80 四個(gè)離群值為當(dāng)?shù)貙?shí)際仔豬價(jià)格,100這個(gè)極端值為錄入員誤報(bào),實(shí)際值為44元/千克。經(jīng)過(guò)修正,這些值全部用于動(dòng)物衛(wèi)生狀況評(píng)估分析中。
[1]Tukey John W.Exploratory Data Analysis[M].Reading,MA:Addison-Wesley,1977:23-24.
[2]Michael Frigge,David C.Hoaglin and Boris Iglewicz.Some Implementationsof the Boxplot[J].The American Statistician,1989,43:50-54.
[3]Yoav B.Opening the Box of a Boxplot[J].The American Statistician,1988,42:257-262.
[4]Rousseeuw PJ,Ida Ruts,Tukey J W.The Bagplot:A Bivariate Boxplot[J].The American Statistician,1999,53:382-387.
[5]Bendre S M,Kale B K.Masking Effect on Tests for Outliers in Exponential Models[J].Journal of the American Statistical Association,1985,80:1020-1025.