楊吉會
【摘要】非參數(shù)檢驗是數(shù)據(jù)統(tǒng)計分析方法的重要組成部分,它與參數(shù)檢驗方法共同構(gòu)成了統(tǒng)計推斷理論的核心內(nèi)容.游程檢驗是一種常用的非參數(shù)檢驗方法,在眾多數(shù)據(jù)統(tǒng)計問題中都有應(yīng)用,恰當(dāng)?shù)睦斫夂瓦\用該數(shù)據(jù)分析方法,以及掌握其在數(shù)據(jù)統(tǒng)計軟件中的實現(xiàn)過程,對課堂教學(xué)和科研工作都具有現(xiàn)實意義.本文結(jié)合SPSS軟件的使用,闡述游程檢驗在數(shù)據(jù)分析過程中的使用方法,并通過具體實例說明該非參數(shù)檢驗方法的有效性和可行性.
【關(guān)鍵詞】隨機性;非參數(shù)檢驗;游程;SPSS軟件
【基金項目】國家自然科學(xué)基金(41401322).
一、單樣本的游程檢驗
非參數(shù)檢驗是數(shù)理統(tǒng)計學(xué)的一個重要研究內(nèi)容,是相對參數(shù)檢驗提出的概念.參數(shù)檢驗是在已知總體分布的環(huán)境下,對總體分布參數(shù)進行推斷的方法.非參數(shù)檢驗是在對總體分布的具體形式未知或不是充分了解的情況下,從樣本的數(shù)據(jù)獲得需要的信息,對總體分布的類型或總體的其他統(tǒng)計特性進行檢驗的方法.根據(jù)樣本數(shù)據(jù)的來源,主要包括有單樣本的非參數(shù)檢驗,多獨立樣本的非參數(shù)檢驗、多配對樣本的非參數(shù)檢驗等[1].針對不同類型的問題提出了不同的非參數(shù)檢驗方法,其中游程檢驗是一類經(jīng)常使用的非參數(shù)檢驗方法,其理論的出發(fā)點是檢驗樣本的獨立性,即檢驗數(shù)據(jù)的出現(xiàn)順序是否是隨機的[3-5].這一點非常重要,因為,許多遇到的實際問題中并不只是使研究者關(guān)心分布的位置或者形狀,也包括樣本的隨機性,絕大部分經(jīng)典統(tǒng)計方法在理論上都要求樣本具有隨機樣本,即要求重復(fù)觀察到的一組變量值在統(tǒng)計上具有獨立性,如果樣本不是從總體中隨機抽取的,則所做的任何推斷都將沒有價值.游程檢驗是最簡單的判斷樣本取值順序是否具有隨機性的非參數(shù)檢驗方法.本文通過SPSS軟件的使用,通過實例說明這種非參數(shù)檢驗的使用過程.
所謂游程是樣本序列中連續(xù)出現(xiàn)的變量值的次數(shù)r,特別地,在一個0/1序列中,一個由0或1連續(xù)構(gòu)成的串稱為一個游程,一個游程中數(shù)據(jù)的個數(shù)稱為游程的長度.
一個樣本序列的游程個數(shù)用r表示.例如,我們投擲一枚硬幣,獨立重復(fù)的進行25次投擲,得到如下的0/1序列:
0000000111111000011110000
上述序列中有3個0游程,長度分別為7、4、4,2個1游程,長度分別為6和4,序列的游程數(shù)r=5.顯然,該序列0的總個數(shù)為n1=15,1的總個數(shù)為n2=10,總的試驗次數(shù)n=n1+n2=25.
一般的,若一個樣本序列具有隨機性,則這個樣本序列的游程數(shù)不能太多,也不能太少.當(dāng)樣本序列的長度n1和n2已知時,樣本序列的游程數(shù)r近似服從正態(tài)分布,且有
下面通過具體例子說明利用SPSS軟件對單個樣本變量取值的隨機性進行游程檢驗的過程.
例1 為檢驗?zāi)衬蛪涸O(shè)備在某段時間內(nèi)工作是否持續(xù)正常,測試并記錄下該時間段內(nèi)各個時間點上的設(shè)備耐電壓值的數(shù)據(jù)如下表:
現(xiàn)利用游程檢驗法對這批數(shù)據(jù)進行分析,判斷該設(shè)備工作是否正常.
解 如果耐壓數(shù)據(jù)的變動是隨機的,可認(rèn)為該設(shè)備工作一直正常,否則認(rèn)為該設(shè)備有不能正常工作的現(xiàn)象.因此,檢驗的原假設(shè)H0為該設(shè)備的耐壓值是隨機的,即該設(shè)備工作基本是正常的,備擇假設(shè)H1為該設(shè)備的耐壓值不具有隨機性,即該設(shè)備有不能正常工作的現(xiàn)象.不妨取數(shù)據(jù)的中位數(shù)204.55為檢驗值,小于檢驗值的數(shù)據(jù)為第1組,大于等于檢驗值的數(shù)據(jù)為第2組,由此形成由1與2構(gòu)成的數(shù)據(jù)序列為
12122121111212122221
容易計算出該序列的游程數(shù)r=13,且第1組和第2組各有10個數(shù)據(jù),即n1=n2=10,這是一個小樣本問題,則有
應(yīng)用SPSS 23.0軟件求解過程如下:
(1)選擇菜單【分析(A)】→【非參數(shù)檢驗(N)】→【舊對話框(L)】→【游程(R)】.
(2)選擇待檢驗變量到【檢驗變量列表(T)】框中.〖HJ1.14mm〗
(3)【割點】框中選擇中位數(shù)作為分界值.
求解過程如下圖所示:
a.中位數(shù)
由以上結(jié)果可知,中位數(shù)204.55,共有20個觀測樣本.小于檢驗值與大于檢驗值的數(shù)目各為10,游程數(shù)為13,檢驗統(tǒng)計量的值為0.689,對應(yīng)的概率P-值為0.491.若顯著性水平為0.05,由概率P-值大于顯著性水平,故應(yīng)接受原假設(shè),可以認(rèn)為該設(shè)備在這段時間內(nèi)工作是基本正常的.
二、兩獨立樣本的游程檢驗
單樣本的游程檢驗是用來檢驗單個變量的變量取值是否具有隨機性,兩獨立樣本的游程檢驗則是用來檢驗兩獨立樣本來自的兩個總體的分布是否存在顯著差異,這里以瓦爾德-沃爾福威茨游程檢驗為例進行討論,檢驗的原假設(shè)H0為兩獨立樣本來自的兩總體的分布沒有顯著差異,備擇假設(shè)H1為兩獨立樣本來自的兩總體的分布存在顯著差異.檢驗方法如下:
首先將來自兩總體的兩樣本按照變量值的升序排列,從而確定出組標(biāo)記值的一個排列,針對該組標(biāo)記值的這個排列按照單樣本游程檢驗的方法計算其游程數(shù),如果兩總體的分布存在較大差異,則游程數(shù)會相對較小;如果游程數(shù)比較大,則表明兩總體的分布沒有明顯差異,最后利用公式(1)-(4)計算正態(tài)統(tǒng)計量Z獲得檢驗結(jié)論[6-8].
例2 在我國的工業(yè)和商業(yè)企業(yè)中隨機抽取22家企業(yè)進行資產(chǎn)負(fù)債率行業(yè)差異分析,抽樣獲得的兩類企業(yè)某年底資產(chǎn)負(fù)債率(% )數(shù)據(jù)如下表:
試用兩獨立樣本的游程檢驗方法判斷工業(yè)企業(yè)與商業(yè)企業(yè)的資產(chǎn)負(fù)債率是否存在顯著差異.
解 原假設(shè)H0為兩類企業(yè)的資產(chǎn)負(fù)債率沒有顯著差異,備擇假設(shè)H1為兩類企業(yè)的資產(chǎn)負(fù)債率存在顯著差異.將兩類企業(yè)資產(chǎn)負(fù)債率數(shù)據(jù)由SPSS數(shù)據(jù)編輯器窗口錄入,工業(yè)企業(yè)的數(shù)據(jù)標(biāo)記為第1組,商業(yè)企業(yè)的數(shù)據(jù)標(biāo)記為第2組,通過SPSS【數(shù)據(jù)(D)】按鈕的【個案排序(O)】功能將資產(chǎn)負(fù)債率按照升序排列,由此形成由1與2組標(biāo)記構(gòu)成的數(shù)據(jù)序列為
1111121111222111222222
容易計算出該序列的游程數(shù)r=6,且第1組有12個數(shù)據(jù),第2組有10個數(shù)據(jù),即n1=12,n2=10,這是一個小樣本問題,則有
應(yīng)用SPSS軟件求解過程如下:
(1)選擇菜單【分析(A)】→【非參數(shù)檢驗(N)】→【舊對話框(L)】→【兩個獨立樣本(2)】.
(2)選擇待檢驗變量到【檢驗變量列表(T)】框中.
(3)指定存放組標(biāo)記值的變量到【分組變量(G)】框中,并點擊【定義范圍(D)】按鈕給出組標(biāo)記值的取值范圍.
(4)在【檢驗類型】框中選擇【瓦爾德-沃爾福威茨游程(W)】檢驗方法.
求解過程如下圖所示:
SPSS運行結(jié)果如下:
由以上結(jié)果可知,共有22個觀測樣本.工業(yè)企業(yè)的個案數(shù)為12,商業(yè)企業(yè)的個案數(shù)為10,游程數(shù)為6,檢驗統(tǒng)計量的值為-2.384,對應(yīng)的概率P-值為0.008.若顯著性水平為0.05,由概率P-值遠(yuǎn)小于顯著性水平,故應(yīng)拒絕原假設(shè),接受備擇假設(shè),可以認(rèn)為兩類企業(yè)的資產(chǎn)負(fù)債率存在顯著差異.
例3 某工廠用甲、乙兩種不同的工藝生產(chǎn)同一種產(chǎn)品,現(xiàn)從兩種工藝生產(chǎn)出的產(chǎn)品中隨機抽取60個產(chǎn)品,獲得各自的使用壽命數(shù)據(jù)如下表:
試用兩獨立樣本的游程檢驗方法判斷該兩種工藝生產(chǎn)出的產(chǎn)品壽命分布是否存在顯著差異.
解 原假設(shè)H0為兩種工藝生產(chǎn)出的產(chǎn)品壽命分布沒有顯著差異,備擇假設(shè)H1為兩種工藝生產(chǎn)出的產(chǎn)品壽命分布存在顯著差異.將兩種工藝生產(chǎn)出的產(chǎn)品壽命數(shù)據(jù)由SPSS數(shù)據(jù)編輯器窗口錄入,甲種工藝的數(shù)據(jù)標(biāo)記為第1組,乙種工藝的數(shù)據(jù)標(biāo)記為第2組,通過SPSS【數(shù)據(jù)(D)】按鈕的【個案排序(O)】功能將產(chǎn)品壽命數(shù)據(jù)按照升序排列,由此形成由1與2組標(biāo)記構(gòu)成的數(shù)據(jù)序列為
222222222222112212122121112121212221221212
111111111111111111
容易計算出該序列的游程數(shù)r=24,且第1組有32個數(shù)據(jù),第2組有28個數(shù)據(jù),即n1=32,n2=28,這是一個大樣本問題,則有
應(yīng)用SPSS軟件求解過程如下:
(1)選擇菜單【分析(A)】→【非參數(shù)檢驗(N)】→【舊對話框(L)】→【兩個獨立樣本(2)】.
(2)選擇待檢驗變量到【檢驗變量列表(T)】框中.
(3)指定存放組標(biāo)記值的變量到【分組變量(G)】框中,并點擊【定義范圍(D)】按鈕給出組標(biāo)記值的取值范圍.
(4)在【檢驗類型】框中選擇【瓦爾德-沃爾福威茨游程(W)】檢驗方法.
求解過程如下圖所示:
SPSS運行結(jié)果如下:
由以上結(jié)果可知,共有60個觀測樣本.甲種工藝的個案數(shù)為32,乙種工藝的個案數(shù)為28,游程數(shù)為24,檢驗統(tǒng)計量的值為-1.796,對應(yīng)的概率P-值為0.036.若顯著性水平為0.05,由概率P-值小于顯著性水平,故應(yīng)拒絕原假設(shè),接受備擇假設(shè),可以認(rèn)為兩種工藝生產(chǎn)出的產(chǎn)品壽命分布存在顯著差異.
【參考文獻】
[1]王星.非參數(shù)統(tǒng)計[M].北京:清華大學(xué)出版社,2009.
[2]薛薇.基于SPSS的數(shù)據(jù)分析(第四版)[M].北京:中國人民大學(xué)出版社,2017.
[3]孫建偉,許汴利,蘇佳,黃學(xué)勇.游程檢驗及其在流行病學(xué)中的應(yīng)用與探討[J].預(yù)防醫(yī)學(xué)論壇,2017(2):26-29,32.
[4]李學(xué),劉建民,靳云匯.中國證券市場有效性的游程檢驗[J].統(tǒng)計研究,2001(12):43-46.
[5]王靜茹,趙以立.游程檢驗應(yīng)用[J].中國統(tǒng)計,1993(6):44-45.
[6]朱凱李悅.RPT方法在多元游程檢驗中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2016(2):362-363.
[7]蘭嘉慶,余宛泠.異方差的游程檢驗[J].中山大學(xué)學(xué)報(自然科學(xué)版),2004,43(z1):9-11.
[8]Alhakim,A,Hooper,W.A non-parametric test for several independent samples[J].Journal of Nonparametric Statistics,2008(20):253-261.