李玉梅
(懷化學(xué)院數(shù)學(xué)與計算科學(xué)學(xué)院,湖南懷化418008)
數(shù)據(jù)的正態(tài)性檢驗方法
李玉梅
(懷化學(xué)院數(shù)學(xué)與計算科學(xué)學(xué)院,湖南懷化418008)
在進行數(shù)據(jù)的統(tǒng)計處理和統(tǒng)計檢驗時,往往假定數(shù)據(jù)來自于正態(tài)總體,因此對數(shù)據(jù)進行正態(tài)性檢驗十分必要.本文介紹了描述數(shù)據(jù)分布的QQ圖及適用于小樣本情形下數(shù)據(jù)正態(tài)性檢驗的夏皮羅-威爾克檢驗法和“Mudholkar”檢驗法.
正態(tài)分布;QQ圖;小樣本;假設(shè)檢驗
正態(tài)分布,又名高斯分布,是概率論中最重要的一種概率分布.一些常用的概率分布如對數(shù)正態(tài)分布、χ2分布、t分布等可以由正態(tài)分布直接導(dǎo)出.生產(chǎn)與科學(xué)實驗中很多隨機變量的概率分布可以近似地用正態(tài)分布來描述.例如,在生產(chǎn)條件不變的情況下,產(chǎn)品的強力、抗壓強度、口徑、長度等指標(biāo);同一種生物體的身長、體重等指標(biāo);同一種種子的重量;測量同一物體的誤差;某個地區(qū)的年降水量;以及理想氣體分子的速度分量等等.一般來說,如果一個隨機變量是由許多微小的獨立隨機因素影響的結(jié)果,那么就可以認為這個隨機變量具有正態(tài)分布.通常人們在進行數(shù)據(jù)處理和統(tǒng)計分析時,總是假定數(shù)據(jù)來自于正態(tài)總體,但該假定是否成立,需要對數(shù)據(jù)進行正態(tài)性檢驗.本文將介紹正態(tài)性檢驗的QQ圖及用于小樣本情形下的夏皮羅-威爾克檢驗法和“Mudholkar”檢驗法.
對應(yīng)于正態(tài)分布的QQ圖,是由標(biāo)準(zhǔn)正態(tài)分布的(修正)分位數(shù)為橫坐標(biāo),樣本值為縱坐標(biāo)的散點圖.要利用QQ圖鑒別樣本數(shù)據(jù)是否近正態(tài)分布檢驗,只需看QQ圖上的點是否近似地在一條直線附近,而且該直線的斜率為標(biāo)準(zhǔn)差,截距為均值.
假定有來自總體X的一組數(shù)據(jù)x1,x2,…,xn,x(1)≤x(2)≤…≤x(n)為次序統(tǒng)計量.設(shè)Φ(x)為標(biāo)準(zhǔn)正態(tài)分布N(0,1)的分布函數(shù),Φ-1(x)為其反函數(shù).則散點圖
即為QQ圖.若樣本來自正態(tài)分布N(μ,σ2),則散點在直線y=σx+μ附近.
例1.100個女生的血清蛋白含量(g/L)數(shù)據(jù)如下[1]:
用SAS軟件proc capability過程繪制正態(tài)QQ圖如圖1,說明數(shù)據(jù)來自正態(tài)總體.
圖1 正態(tài)QQ圖
W檢驗法由夏皮羅-威爾克在1965年提出,目前被公認為是檢驗效果比較好的方法,它的突出優(yōu)點是不需要大樣本數(shù)據(jù),只需要小樣本n<50就能推斷是否總體具有正態(tài)性.W檢驗法的具本步驟如下:
假設(shè)檢驗問題為:H0∶F(x)是正態(tài)分布函數(shù)
若原假設(shè)H0為真,則W接近1,否則拒絕.
對例1做正態(tài)性W檢驗,可以由SAS軟件proc univariate過程得W0=0.9904,p=PH0(W≤0.9904)=0.6943>α=0.05,故不能拒絕H0,說明數(shù)據(jù)來自正態(tài)總體.
“Mudholkar”法(簡稱M檢驗法)是Mudllolk于1981年提出,它的特點是簡便、靈敏,而且僅需要10個以上的數(shù)據(jù)便可.M檢驗法的具體步驟如下:
(1)設(shè)有檢測數(shù)據(jù)xi(i=1,2,…,n),計算均值ˉxi,方差,及變量yi
表1 正態(tài)檢驗計算表
(2)計算ˉxi及yi兩變量之間的相關(guān)系數(shù)r0.
(3)查相關(guān)系數(shù)r表(見表2),一般取5%顯著性水平時n所對應(yīng)的r值.若r表≥r0,說明此樣本來自正態(tài)總體[2].
例2:有一批17個檢測數(shù)據(jù)(表1),用M檢驗法對其進行正態(tài)性檢驗.
由表計算得ˉxi及yi兩變量之間的相關(guān)系數(shù)r=0.3475.本例中n=17,r表=0.65>0.3475(a=0.05),說明這批數(shù)據(jù)來自正態(tài)總體.
表2 正態(tài)性檢驗相關(guān)系數(shù)制定值
QQ圖是描述數(shù)據(jù)分布的一種方法.利用QQ圖,我們可以直觀的判斷數(shù)據(jù)分布是否近似于正態(tài)分布.在對數(shù)據(jù)進行正態(tài)性屆驗時,如果是小樣本(樣本大小n<50)的情形,可以采用夏皮羅-威爾克檢驗法和“Mudholkar”檢驗法.
[1]梅長林,范金城.數(shù)據(jù)分析方法[M].高等教育出版社,2003:5-6.
[2]孫玉芝,李春祿.介紹兩種正態(tài)性檢驗方法[J].天津師大學(xué)報,1992(1):3-4.
The M ethods for Testing Normal Distribution of Data
LIYu-mei
(College of Mathematicsand Computational Science,Huaihua University,Huaihua,Hunan 418008)
In statistical analysis and statistical inference of the data,it is often assumed that the data is normal distribution.Thus testing for normal distribution is necessary for data analysis.This paper introduces threemethods on how to testa setof data with normal distribution,including QQ chart,Shapiro-Wilk test and Mudholkar test for small samples.
normal distribution;QQ chart;small sample;hypothesis test
O211
A
1671-9743(2015)11-0081-02
2015-07-27
懷化學(xué)院教改項目.
李玉梅,1974年生,女,湖南洪江人,副教授,博士,研究方向:統(tǒng)計遺傳.