T檢驗(yàn)失效的原因及處理

2011-07-24 09:35:42穆廣杰

統(tǒng)計(jì)與決策 2011年21期

穆廣杰

(鄭州航空工業(yè)管理學(xué)院,鄭州 450015)

T檢驗(yàn)，亦稱student t檢驗(yàn)（Student's t test），主要用于樣本容量較?。ɡ鏽＜30），總體方差δ2未知的正態(tài)分布數(shù)據(jù)。用來(lái)判斷樣本與樣本，樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。亦稱“顯著性檢驗(yàn)（Test of statistical significance）”，其基本原理是先對(duì)總體的特征做出某種假設(shè)，然后通過(guò)抽樣樣本的統(tǒng)計(jì)推斷，做出對(duì)此假設(shè)應(yīng)該被拒絕還是接受的推斷。其基本思想是小概率反證法。小概率是指小概率事件（P＜0.01或P＜0.05）在一次試驗(yàn)中基本上不會(huì)發(fā)生。反證法是先提出檢驗(yàn)假設(shè)H0，再用適當(dāng)?shù)慕y(tǒng)計(jì)方法確定假設(shè)成立的可能性大小，如可能性小,則認(rèn)為假設(shè)不成立，若可能性大，則還不能認(rèn)為假設(shè)不成立，在實(shí)際工作中T檢驗(yàn)使用范圍較廣。但也存在著局限性，即T檢驗(yàn)的失效。充分研究其產(chǎn)生失效性的理論基礎(chǔ)避免使用時(shí)錯(cuò)誤，并對(duì)T檢驗(yàn)的失效可能造成的后果有所控制，可以使其發(fā)揮更大的作用

1 參數(shù)T檢驗(yàn)的失效

假設(shè)檢驗(yàn)根據(jù)問(wèn)題的要求，設(shè)是A關(guān)于總體分布的一項(xiàng)命題，所有使命題A成立的總體分布構(gòu)成一個(gè)集合HA，稱為原假設(shè)H0，使命題A不成立的所有總體分布構(gòu)成另一個(gè)集合HB，稱為備擇假設(shè)H1。對(duì)一個(gè)假設(shè)H0進(jìn)行檢驗(yàn)，就是制定一個(gè)規(guī)則，使得有了樣本以后，根據(jù)這規(guī)則可以決定是接受（即承認(rèn)命題A正確）,還是拒絕它（即否認(rèn)命題A正確）。這樣，所有可能的樣本所組成的樣本空間被劃分為兩部分HA和HB(HA的補(bǔ)集)，HA?HB=φ，當(dāng)樣本x∈HA時(shí),接受假設(shè)H0，拒絕H1；當(dāng)x∈HB時(shí),拒絕H0，接受H1。用檢驗(yàn)進(jìn)行分析判斷，以接受一個(gè)，拒絕另一個(gè)。命題的對(duì)立性及“僅選其一”的規(guī)定，從邏輯上來(lái)說(shuō)，應(yīng)當(dāng)不會(huì)出現(xiàn)兩者都接受或都拒絕這樣的兩可結(jié)論。但是實(shí)際中存在這樣的情況：兩個(gè)對(duì)立命題HA和HB，以同一樣本數(shù)據(jù)進(jìn)行檢驗(yàn)，當(dāng)以HA為H0時(shí)，接受H0，即接受HA；當(dāng)以HB為H0時(shí)，結(jié)果同樣是接受H0，即接受HB。出現(xiàn)了某樣本既屬于集合HA，同時(shí)屬于HB的悖論。

例1:某種元件的壽命X（以小時(shí)計(jì)）服從正態(tài)分布N（μ，σ2），μ，σ2未知?，F(xiàn)測(cè)得16只元件壽命如下：159，280，101，212，224，379，179，264，222，362，168，250，149，260，485，170，問(wèn)是否有理由認(rèn)為元件的平均壽命大于225（小時(shí)）？

HA：原假設(shè)H0：μ≤225H1：μ＞225，則H0的拒絕域?yàn)?，現(xiàn) 有 n=16,α =0.05,查表得t0.05(15)=1.7531,計(jì) 算得xˉ=241.5 ，s=98.73 ，故有t=0.6685＜1.7531，t值沒(méi)有落在拒絕域中，即認(rèn)為元件平均壽命都不大于225小時(shí)。

HB：建立假設(shè)H0：μ≥225H1：μ＜225，則H0的拒絕域?yàn)?/p>

故有t=0.6685＞-1.7531，t值沒(méi)有落在拒絕域中，即認(rèn)為元件平均壽命都不小于225小時(shí)。綜合HA、HB的結(jié)論,二者唯一的交集是μ=225。但是這是一個(gè)在實(shí)際中幾乎不可能的結(jié)果，可以認(rèn)為兩個(gè)結(jié)論是相反的。對(duì)立命題都能通過(guò)檢驗(yàn)而被接受時(shí)，T檢驗(yàn)似乎失去了判斷真?zhèn)蔚哪芰?，這時(shí)T檢驗(yàn)失效了。

2 T假設(shè)檢驗(yàn)失效的原因分析

假設(shè)檢驗(yàn)的理論基礎(chǔ)，是小概率事件的實(shí)際不可能性原理，即概率很小的隨機(jī)事件在個(gè)別的實(shí)驗(yàn)中是不可能發(fā)生的。在假設(shè)檢驗(yàn)的操作中，我們選取事件“當(dāng)H0為真時(shí)拒絕H0”，并計(jì)算其發(fā)生概率（p值）。這是一個(gè)小概率事件。通過(guò)選擇顯著性水平α，設(shè)定“小概率”的標(biāo)準(zhǔn)。當(dāng)p＜α?xí)r，小概率事件在一次抽樣中發(fā)生，違背了實(shí)際不可能性，認(rèn)為應(yīng)當(dāng)拒絕H0從而接受H1。反之，則不違背小概率事件原理，不能拒絕H0。

不難看出，p值度量的是H0為真時(shí)，某個(gè)極不容易發(fā)生的事件的發(fā)生概率，換言之，p值度量的是不利于原假設(shè)的證據(jù)強(qiáng)度。p值越小，越反對(duì)H0，p值足夠小時(shí)（p＜α），即可推翻原假設(shè)。根據(jù)小概率事件的原理，我們根據(jù)p值拒絕h0是有相當(dāng)大把握的。也就是說(shuō)對(duì)于簡(jiǎn)單原假設(shè)，只要參數(shù)假設(shè)值不完全等于真值，那么通過(guò)增大樣本容量，總是可以拒絕包含“相等”意義的原假設(shè)。

但是如果p值還沒(méi)有小到可以拒絕H0的水平，則沒(méi)有理由反對(duì)H0。但是否就是有充分理由接受H0呢？答案是否定的。H0是我們正在求證的總體效應(yīng)，T檢驗(yàn)則不能提供這個(gè)總體效應(yīng)到底有多大或多重要的信息。因此我們只能說(shuō)，不能拒絕H0。如例1，不拒絕H0：μ≤225和不拒絕H1：μ＞225，是不矛盾的。不拒絕并不意味著接受。實(shí)際上在假設(shè)H0實(shí)際上為真時(shí)，我們可能犯拒絕H0的錯(cuò)誤，這被稱為“棄真”錯(cuò)誤，也叫第一類錯(cuò)誤（α值）。又當(dāng)H0實(shí)際上不真時(shí)，我們也有可能接受H0，這類錯(cuò)誤被稱為第二類錯(cuò)誤（β值），又叫“取偽”錯(cuò)誤。兩類錯(cuò)誤產(chǎn)生的根本原因是抽樣。樣本只是總體的一部分，因此可能的樣本不止一個(gè)，而抽到的樣本具有很大的偶然性。用局部數(shù)據(jù)作為總體數(shù)據(jù)的估計(jì)不可能完全正確，基于此估計(jì)而作的檢驗(yàn)產(chǎn)生錯(cuò)誤的可能也就不可避免。

T檢驗(yàn)的一個(gè)重大不足就是不能度量第二類錯(cuò)誤（β值）的大小，但是希望它越小越好。但是在樣本容量固定的情況下，若減少犯第一類錯(cuò)誤的概率，則犯第二類錯(cuò)誤的概率往往增大。要使兩類錯(cuò)誤的概率都減小，則必須增大樣本容量。那么什么情況下H0能被接受呢？由于接受域的中心是參數(shù)真值，故只有當(dāng)假設(shè)值θ0完全等于真值θ，才能使無(wú)論樣本量多大，H0可以總能被接受。而這是不現(xiàn)實(shí)的。

實(shí)際中使用T檢驗(yàn)去研究一個(gè)總體參數(shù)θ，都存在一個(gè)任意小的正數(shù)ε，使得當(dāng) ||θ-θ0＜ε時(shí)，可視為θ=θ0，(θ-ε,θ+ε)稱為θ的無(wú)差別區(qū)域。不斷增大的樣本會(huì)將θ與θ0之間的微小差別顯現(xiàn)出來(lái)（通過(guò)不斷減小的p值），并以p值為據(jù)，否定θ=θ0的原假設(shè)。檢驗(yàn)本身并沒(méi)有錯(cuò)，因?yàn)棣鹊拇_不是恰好就是θ0,但是如此“敏感”地找出應(yīng)用中可忽略的差別，就沒(méi)有使用上的重要性了。無(wú)差別區(qū)域的存在，要求樣本容量必須具有上限。而控制第二類錯(cuò)誤（β值）則要求樣本容量具有下限。二者對(duì)樣本容量的反向要求可能導(dǎo)致檢驗(yàn)故障，因此必須在二者之間找到平衡，以達(dá)到檢驗(yàn)的目標(biāo)。

3 T檢驗(yàn)失效的處理

3.1 原假設(shè)的選擇原則

假設(shè)檢驗(yàn)的兩個(gè)結(jié)論在邏輯上可以共存，但是在實(shí)際中，得到一個(gè)如此模糊的判斷是沒(méi)有意義的。我們需要的是“接受H0”或“接受H1”這樣明確的論斷，來(lái)指導(dǎo)行動(dòng)。也就是說(shuō)，只能在HA或HB中選擇其一執(zhí)行假設(shè)檢驗(yàn)。這表明，兩個(gè)相反的假設(shè)檢驗(yàn)中，應(yīng)當(dāng)有一種形式更符合現(xiàn)實(shí)的狀況，而能被直接采用。這就涉及到原假設(shè)的選擇原則。

仍以例1分析，如果做檢驗(yàn)的是該電子元件的買(mǎi)方，根據(jù)自己的使用經(jīng)驗(yàn)或廠家信譽(yù)，認(rèn)為元件的平均壽命不超過(guò)225小時(shí)，只有非常有利于生產(chǎn)方的觀察結(jié)果，才能改變對(duì)元件壽命的消極看法，于是就會(huì)提出H0：μ≤225作為原假設(shè)。同樣，如果買(mǎi)方相信元件平均壽命不小于225小時(shí)，沒(méi)有非常充分的理由，不應(yīng)改變對(duì)廠方的信任，就會(huì)以H0：μ≥225為原假設(shè)?？瓷先ピ僭O(shè)的選擇完全取決于檢驗(yàn)者的個(gè)人意志，不夠嚴(yán)謹(jǐn)，但是，這種意志包含符合檢驗(yàn)者地位的背景信息，根據(jù)這種個(gè)人意志選擇原假設(shè)而得出的結(jié)論，確定是有實(shí)用價(jià)值的。

據(jù)此探討原假設(shè)的選擇原則。假設(shè)檢驗(yàn)的原理決定了H0一旦確定，接下來(lái)就是通過(guò)抽樣顯示的信息，來(lái)計(jì)算其作為原假設(shè)的反證據(jù)的強(qiáng)度。因此，原假設(shè)無(wú)疑處于被懷疑的地位。同時(shí)，由于小概率事件的實(shí)際不可能性，一次抽樣拒絕H0的可能性（α）大大小于接受的可能性（1-α），因此，原假設(shè)又是處于被保護(hù)地位的。通常我們采用的假設(shè)檢驗(yàn)是顯著性檢驗(yàn)，它是通過(guò)對(duì)α的設(shè)定控制第一類錯(cuò)誤（棄真錯(cuò)誤），而不考慮第二類錯(cuò)誤的概率，但我們希望“取偽”的概率越低越好，這一點(diǎn)也要加以考慮。因此，根據(jù)原假設(shè)上述三個(gè)性質(zhì)，可以得出建立原假設(shè)的三個(gè)基本原則：

①將研究者想收集證據(jù)予以反對(duì)的命題作為原假設(shè)。

②對(duì)于某些存在有改進(jìn)、更新的問(wèn)題的檢驗(yàn)內(nèi)容，出于謹(jǐn)慎考慮，應(yīng)將已存在的狀態(tài)作為原假設(shè)H0，而將新改進(jìn)反映在備選假設(shè)H1中。

③所有假設(shè)檢驗(yàn)都可能犯兩類錯(cuò)誤，但有些假設(shè)檢驗(yàn)犯兩類錯(cuò)誤所導(dǎo)致的后果的嚴(yán)重程度差別很大，則根據(jù)原假設(shè)的保護(hù)原則，將可能造成嚴(yán)重后果的錯(cuò)誤設(shè)置為第一類錯(cuò)誤，使之處于檢驗(yàn)者控制下，而將其對(duì)應(yīng)命題作為原假設(shè)H0。如：新藥的毒副作用檢驗(yàn)中有兩種可能錯(cuò)誤：a新藥有毒，而誤認(rèn)為無(wú)毒；b新藥無(wú)毒，而誤認(rèn)為有毒。顯然錯(cuò)誤a比b后果嚴(yán)重，因其可能危害用藥者生命健康。因此將a設(shè)為第一類錯(cuò)誤。則建立假設(shè)：H0：新藥有毒，H1：新藥無(wú)毒，則H0為真時(shí)拒絕H0的“棄真”錯(cuò)誤，此處為“新藥有毒而認(rèn)為其無(wú)毒”錯(cuò)誤，通過(guò)顯著性水平α的選擇，使其發(fā)生概率小到可接受的范圍內(nèi)。

3.2 樣本容量的控制

大樣本有可能帶來(lái)檢驗(yàn)的失真（實(shí)際意義而非理論意義上的），那么恰當(dāng)確定樣本容量就可以成為避免失效的手段。

（1）抽樣過(guò)程中樣本容量的控制

假設(shè)檢驗(yàn)的操作過(guò)程大致可分為兩階段：第一階段是分析研究，建立原假設(shè)和備擇假設(shè)。這個(gè)階段可能要使抽樣調(diào)查，即通過(guò)抽取樣本處理之后，獲取對(duì)總體參數(shù)的估計(jì)等資料。理論上這不屬于假設(shè)檢驗(yàn)，但是假設(shè)檢驗(yàn)的前提。因?yàn)橐袛唷唉?θ0”的命題，確定θ0不能是無(wú)根無(wú)據(jù)的。如果沒(méi)有可資利用的材料（例如經(jīng)驗(yàn)值和對(duì)參數(shù)的說(shuō)明），就需要先抽樣估計(jì)進(jìn)行確定。為保證估計(jì)的精度，抽樣估計(jì)中樣本量的確定有一整套技術(shù)手段。雖然仍不免誤差，但是可信度較高，可以視為真值。假設(shè)檢驗(yàn)通常是在調(diào)查之后再抽取其他部分，就是驗(yàn)證其是否與調(diào)查結(jié)論一致。調(diào)查是前探型的，檢驗(yàn)是回溯型的。一般地，檢驗(yàn)的樣本量小于調(diào)查的樣本量，此時(shí)不會(huì)出現(xiàn)檢驗(yàn)失效。故得出T檢驗(yàn)樣本容量上限確定的一個(gè)方法：在抽樣調(diào)查確定的n1和功效干預(yù)確定的n2中，若n1≤n2，則取n1為樣本容量，即樣本上限不超過(guò)抽樣調(diào)查的樣本量。

（2）功效干預(yù)

對(duì)于不需通過(guò)抽樣調(diào)查的T檢驗(yàn)，如果所得的樣本容量不超過(guò)30，可以直接采用。其微小的干擾效應(yīng)也不容易表現(xiàn)出來(lái)。

如果樣本容量超過(guò)30，可以采用功效控制法來(lái)確定樣本量。n＞30，T分布趨近于標(biāo)準(zhǔn)正態(tài)分布，故可記Ft≈Φ(x)。

對(duì)于均值的檢驗(yàn)，可建立H0:μ=μ0，H1:μ≠μ0，顯著性水平為α，為避免T檢驗(yàn)的失效，希望對(duì)于μ∈(μ0-ε,μ0+ε)，拒絕H0的概率(α′)也較小，顯然α′＞α，令α′=kα(k≥1)，而接受H0的概率為β(μ)≥1-α′。

已知

因Ft≈Φ(x)，而相應(yīng)分位點(diǎn)亦逼近，故記t′≈μ′

故β(μ)=1-α+Φ(-μ′)-Φ(-μ′-Ω)-Φ(μ′)+Φ(μ′-Ω)=1-α+1- Φ(μ′)-1+ Φ(μ′+ Ω)-[Φ(μ′)- Φ(μ′- Ω)]利用拉格郎日中值定理，得β(μ)=1-α+Ω[Φ′(ζ2)-Φ′(ζ1)]=1-α+ Ω(ζ2-ζ1)Φ″(ζ3)]

其中，ζ1∈(μ′,μ′+Ω),ζ2∈(μ′- Ω,μ′),ζ3∈(ζ1,ζ2)

Φ″(x)=，當(dāng)x=1時(shí)，有最大值，又ζ2-ζ1＜ 2Ω ，

所以：β(μ)≥1-α-又μ∈(μ0-ε,μ0+ε),因此：，對(duì)于α′=Kα(k≥1)，使β(μ)≥1-α′=1-α-(k-1)α成立則要求1)α，即此時(shí)，檢驗(yàn)失效的情況應(yīng)當(dāng)不會(huì)出現(xiàn)。

（3）樣本容量的最終確定

①μ=μ0時(shí)：1-β（μ）≤α；②μ∈（μ0-ε，μ0+ε）時(shí)：1-β（μ）≤α′；③ ||μ-μ0≥δ時(shí)β（μ）≤β?？梢院玫貙?shí)現(xiàn)控制兩類錯(cuò)誤及避免檢驗(yàn)失效的目標(biāo)。

4 結(jié)論

通過(guò)以上分析，可以發(fā)現(xiàn)利用控制樣本容量可以控制t檢驗(yàn)的失效。在進(jìn)行T檢驗(yàn)時(shí)：首先，利用公式-1)α確定樣本容量的上限，使β（μ）降低；其次，根據(jù)研究對(duì)象的特點(diǎn)確定正確的樣本容量，原則是盡可能的接近其上限值；第三：若要提高H0接受概率，即降低其被拒絕的概率，可以降低K值。第四，在T檢驗(yàn)的實(shí)驗(yàn)中，結(jié)合方差分析、相關(guān)分析等方法，作為T(mén)檢驗(yàn)結(jié)論的監(jiān)控和修正,通過(guò)參照對(duì)比，發(fā)現(xiàn)不同種方法結(jié)論的差異，避免由于單獨(dú)使用T檢驗(yàn)而有可能產(chǎn)生的失誤。

[1] 盛驟，謝式千，潘承毅.概率論與數(shù)理統(tǒng)計(jì)[M].北京：高等教育出版社，2001,(3).

[2] 戴維·S·穆?tīng)?，統(tǒng)計(jì)學(xué)的世界[M].北京：中信出版社，2003,(1).

[3] 張時(shí)民，配對(duì)t檢驗(yàn)和相關(guān)分析中的誤區(qū)[J].江西醫(yī)學(xué)檢驗(yàn),2001,19(5).

[4] 韓志霞,張玲，P值檢驗(yàn)和假設(shè)檢驗(yàn)[J].邊疆經(jīng)濟(jì)與文化,2006,(4).

[5] 馮士雍,倪加勛,鄒國(guó)華，抽樣調(diào)查理論與方法[M].北京：中國(guó)統(tǒng)計(jì)出版社,1998,(1).

[6] 沈恒范，概率論與數(shù)理統(tǒng)計(jì)教程（第四版），北京：高等教育出版社，2003,(4).