王迎賓,孫 潔
(浙江海洋大學(xué)水產(chǎn)學(xué)院,浙江舟山 316022)
統(tǒng)計(jì)學(xué)中的I型錯(cuò)誤和II型錯(cuò)誤(即棄真和納偽),是顯著性檢驗(yàn)內(nèi)容中的兩個(gè)基本概念。在假設(shè)檢驗(yàn)中,這兩類(lèi)錯(cuò)誤難免會(huì)出現(xiàn),主要是由假設(shè)檢驗(yàn)所使用的理論基礎(chǔ)—“小概率事件不可能性原理”導(dǎo)致的。這一問(wèn)題在很多的統(tǒng)計(jì)學(xué)或生物統(tǒng)計(jì)學(xué)教材中均有詳細(xì)的闡述[1-2]。兩類(lèi)錯(cuò)誤中,II型錯(cuò)誤受到的重視程度不及I型錯(cuò)誤,其直到上世紀(jì)30年代才逐漸得到學(xué)者們的關(guān)注[3]。較早是在醫(yī)藥學(xué)研究中被提及[4-5],主要應(yīng)用在藥效分析當(dāng)中。在水產(chǎn)學(xué)研究中,國(guó)外最早是在上世紀(jì)80年代才對(duì)II型錯(cuò)誤給予關(guān)注,而我國(guó)在這方面的研究幾乎是空白,僅王迎賓等[6]在2016年發(fā)表文章,對(duì)此問(wèn)題進(jìn)行了專門(mén)討論。在這篇文章中,作者舉例闡述了II型錯(cuò)誤產(chǎn)生的原因、影響因素和檢驗(yàn)效能(1-β)的計(jì)算方法。該方法是教科書(shū)中提供的經(jīng)典方法[1,2,7],使用該方法計(jì)算出來(lái)的檢驗(yàn)效能被稱為觀測(cè)效能(observed power)[8]。
在王迎賓等[6]的文章中指出,不管是顯著性水平α、樣本容量、標(biāo)準(zhǔn)差σ等因子,都是與顯著性檢驗(yàn)的P值相關(guān)的,即P值的大小會(huì)影響到檢驗(yàn)效能的大小。這一點(diǎn)在BROSI,et al[7]以及HOENIG,et al[8]的研究中均有提及。經(jīng)典方法計(jì)算得到的檢驗(yàn)效能與P值大小的關(guān)系,主要表現(xiàn)為隨著P值的增大檢驗(yàn)效能逐漸降低。當(dāng)P值大于顯著性水平α?xí)r,表明接受檢驗(yàn)的兩者差異不顯著,此時(shí)拒絕原假設(shè),接受備擇假設(shè),從而有犯II型錯(cuò)誤的可能。但與此同時(shí),使用經(jīng)典方法計(jì)算得到的觀測(cè)效能也通常小于50%[7-8]。也就是說(shuō),當(dāng)檢驗(yàn)得到的P>α?xí)r,可能犯II型錯(cuò)誤,但此時(shí)如果使用經(jīng)典方法計(jì)算β的話,其結(jié)果會(huì)一直大于50%,即檢驗(yàn)效能不會(huì)超過(guò)50%。相反,當(dāng)P<α?xí)r,接受檢驗(yàn)的兩者差異顯著,此時(shí)可能犯I型錯(cuò)誤,而非II型錯(cuò)誤。雖然此情況下能夠計(jì)算得到較高的觀測(cè)效能值,但意義已經(jīng)不明顯了。而當(dāng)P=α?xí)r,β=50%。因此,有學(xué)者提出,在計(jì)算檢驗(yàn)效能時(shí),應(yīng)盡量避免使用經(jīng)典方法[7-8]。
在α值較大或者樣本容量較大時(shí),經(jīng)典方法尚能夠發(fā)揮其作用[6]。但當(dāng)檢驗(yàn)水平較高,即α值較小,或者為小樣本時(shí),經(jīng)典方法所能提供的信息就十分有限了。水產(chǎn)科學(xué)研究充滿了不確定性,對(duì)檢驗(yàn)結(jié)果的要求與某些學(xué)科相比要低(如醫(yī)學(xué)等)。但α值一般也要設(shè)定在5%左右,最多放寬到10%。此外,水產(chǎn)科學(xué)所用的科研樣本相對(duì)其資源總體而言,只能視為小樣本。這樣,在水產(chǎn)科學(xué)研究中,使用經(jīng)典方法計(jì)算檢驗(yàn)效能時(shí),通常不會(huì)得到較大的值[6]。因此,若有更為完善的計(jì)算方法,將能夠提高檢驗(yàn)效能計(jì)算的可靠性。
傳統(tǒng)的差異性檢驗(yàn)方法往往無(wú)法對(duì)實(shí)際差異的大小進(jìn)行評(píng)價(jià),也不能說(shuō)明差異是否具有實(shí)際意義。因?yàn)?很多檢驗(yàn)假設(shè)并不是一個(gè)點(diǎn),而是一個(gè)區(qū)間,這一點(diǎn)在醫(yī)療、醫(yī)藥行業(yè)尤其明顯。此時(shí)需要使用等效性檢驗(yàn)(equivalence testing)來(lái)判斷兩者的等效性。此外,等效性檢驗(yàn)在計(jì)算檢驗(yàn)效能方面也比經(jīng)典方法具有優(yōu)勢(shì)。
安勝利[9]在討論傳統(tǒng)的差異性檢驗(yàn)與等效性檢驗(yàn)的關(guān)系時(shí),曾提出等效性檢驗(yàn)的檢驗(yàn)效能計(jì)算公式。BROSI,et al[7]以及HOENIG,et al[8]也提出使用等效性檢驗(yàn)的方法,即通過(guò)顛倒傳統(tǒng)差異性檢驗(yàn)中的無(wú)效假設(shè)和備擇假設(shè)的方式,來(lái)計(jì)算檢驗(yàn)效能的大小。
在等效性檢驗(yàn)中,同樣有I型和II型兩類(lèi)錯(cuò)誤,這與傳統(tǒng)差異性檢驗(yàn)相同。但原假設(shè)H0與備擇假設(shè)H1的定義與傳統(tǒng)檢驗(yàn)有所不同。在等效性檢驗(yàn)中,I型錯(cuò)誤也用α表示,指當(dāng)事實(shí)上兩者為不等效時(shí),卻誤認(rèn)為等效(拒絕H0,接受H1);II型錯(cuò)誤同樣用β表示,指當(dāng)事實(shí)上兩者為等效時(shí),卻沒(méi)能下等效性結(jié)論(接受H0)。使用等效性檢驗(yàn)就將傳統(tǒng)差異性檢驗(yàn)中的納偽錯(cuò)誤控制在了α水平內(nèi),而此時(shí)傳統(tǒng)上的棄真錯(cuò)誤則為β,檢驗(yàn)效能計(jì)算的是當(dāng)事實(shí)上兩者等效時(shí)判斷正確的概率。
等效性檢驗(yàn)首先需要設(shè)定1個(gè)無(wú)效假設(shè),即假定兩者不等效,然后檢驗(yàn)無(wú)效假設(shè)是否成立[8,10-11]。該方法的主要難點(diǎn)之一是研究者必須事先針對(duì)要檢驗(yàn)的兩者設(shè)定一個(gè)最小差異,稱為等效界值(effect size,△),依據(jù)該值對(duì)兩者之間是否存在顯著差異進(jìn)行判斷。研究者事先設(shè)定的△要求十分明確,不能含糊。
下面以兩獨(dú)立樣本平均數(shù)差異性檢驗(yàn)為例,來(lái)展示等效性檢驗(yàn)計(jì)算檢驗(yàn)效能的方法。根據(jù)JONES,et al[12]的描述,開(kāi)展等效性檢驗(yàn)需要以下幾個(gè)步驟:
(1)基于對(duì)研究對(duì)象特征的了解,設(shè)定等效區(qū)間[-△,+△],(區(qū)間并不一定對(duì)稱)[10]。
(2)計(jì)算置信區(qū)間:置信限=估計(jì)值±關(guān)鍵值×標(biāo)準(zhǔn)誤,即
(3)繪出置信區(qū)間和等效區(qū)間(具體可參考JONES,et al[12]文章中的圖5),通過(guò)判斷兩者之間的包含關(guān)系,來(lái)評(píng)估差異的顯著性情況。
安勝利[9]提出了基于等效性檢驗(yàn)的檢驗(yàn)效能計(jì)算公式。以兩樣本均數(shù)等效性檢驗(yàn)為例,其檢驗(yàn)效能計(jì)算公式為:
式中n為每組的樣本量(假定兩組樣本量相等),Φ(x)表示標(biāo)準(zhǔn)正態(tài)分布下x左側(cè)的面積。
下面采用王迎賓等[6]文章中的例子,使用等效性檢驗(yàn)方法對(duì)兩樣本等效性進(jìn)行判斷,計(jì)算檢驗(yàn)效能大小。假設(shè)幾年前某資源群體漁獲物平均體長(zhǎng)為220 mm,如今想要檢驗(yàn)經(jīng)過(guò)幾年捕撈后,該資源群體是否處于過(guò)度捕撈狀態(tài)?使用t檢驗(yàn),在α=0.05水平下,檢驗(yàn)該資源群體漁獲物平均體長(zhǎng)是否顯著小于220 mm?采集該資源群體漁獲樣本50尾,測(cè)量得到樣本平均體長(zhǎng)為218 mm(標(biāo)準(zhǔn)差σ=20)。
根據(jù)差異性檢驗(yàn)方法,顯著性檢驗(yàn)結(jié)果表明捕撈前后兩者平均體長(zhǎng)差異不顯著,即沒(méi)有發(fā)生過(guò)度捕撈。此時(shí),經(jīng)典方法計(jì)算得到犯II型錯(cuò)誤的概率為82.36%,檢驗(yàn)效能等于17.64%[6]。
使用等效性檢驗(yàn)判斷顯著性水平情況,首先根據(jù)該種類(lèi)的捕撈情況和生物學(xué)特征,等效界值△設(shè)定為5 mm,這樣等效區(qū)間就等于[-5,+5]。置信區(qū)間根據(jù)公式(1)求算,得到置信下限CL-=-3.684,置信上限CL+=7.684??梢钥闯?置信區(qū)間左側(cè)部分包含在等效區(qū)間之內(nèi)。據(jù)JONES,et al[12]提供的判斷標(biāo)準(zhǔn),此時(shí)兩樣本平均數(shù)既差異不顯著,也不等效,這與t檢驗(yàn)結(jié)果一致。使用公式(2)計(jì)算檢驗(yàn)效能,結(jié)果為
圖1 不同等效界值條件下等效性檢驗(yàn)的檢驗(yàn)效能值(顯著性水平α=0.05,樣本數(shù)量n=50,標(biāo)準(zhǔn)差 σ=20)Fig.1 Statistical power calculated using equivalence testing under different effect sizes(significant level α=0.05,sample size n=50,standard deviation σ=20)
根據(jù)公式(2)可知,檢驗(yàn)效能值會(huì)受到等效界值△、樣本數(shù)量n、標(biāo)準(zhǔn)差σ和顯著性水平α大小的影響。
研究者事先所設(shè)定的等效界值(區(qū)間)的大小,對(duì)檢驗(yàn)效能的影響十分明顯(圖1)。從圖1可見(jiàn),當(dāng)△在8 mm以內(nèi)時(shí),檢驗(yàn)效能隨著△增加而迅速增大;當(dāng)△大于8 mm以后,檢驗(yàn)效能增加幅度就非常小了。當(dāng)△較小時(shí),表明研究者所能允許的捕撈前后魚(yú)類(lèi)體長(zhǎng)的變化較小,即在捕撈影響下,即使魚(yú)類(lèi)體長(zhǎng)稍有減小,也將認(rèn)為體長(zhǎng)變化顯著。此時(shí),原假設(shè)更容易被接受,從而II型錯(cuò)誤概率較大。相反,當(dāng)△設(shè)定的較大時(shí),表明研究者能夠接受較大的體長(zhǎng)變化,即使捕撈前后體長(zhǎng)減小較多,也認(rèn)為體長(zhǎng)沒(méi)有顯著變化。此時(shí),原假設(shè)不易被接受,兩者更容易被認(rèn)為等效,從而I型錯(cuò)誤概率較大。
圖2 不同樣本數(shù)量條件下等效性檢驗(yàn)的檢驗(yàn)效能值(顯著性水平α=0.05,等效界值△=5,標(biāo)準(zhǔn)差σ=20)Fig.2 Statistical power calculated using equivalence testing under different sample size(significant level α=0.05,effect size △=5,standard deviation σ=20)
圖3 不同標(biāo)準(zhǔn)差條件下等效性檢驗(yàn)的檢驗(yàn)效能值(顯著性水平α=0.05,等效界值△=5,樣本數(shù)量n=50)Fig.3 Statistical power calculated using equivalence testing under different standard deviation(significant level α=0.05,effect size △=5,sample size n=50)
圖4 不同顯著性水平條件下等效性檢驗(yàn)的檢驗(yàn)效能值(等效界值△=5,樣本數(shù)量n=50,標(biāo)準(zhǔn)差σ=20)Fig.4 Statistical power calculated using equivalence testing under different significant level(effect size△=5,sample size n=50,standard deviation σ=20)
圖2 顯示,隨著樣本數(shù)量增加,檢驗(yàn)效能增大,特別是在樣本數(shù)量小于50時(shí),檢驗(yàn)效能增加十分明顯,樣本數(shù)量大于50以后增長(zhǎng)速度就放緩了。根據(jù)求算置信區(qū)間的公式(1)可以看出,樣本數(shù)量增加會(huì)使置信區(qū)間變小。根據(jù)BROSI,et al[7]的理論,在△不變情況下,置信區(qū)間減小,相對(duì)而言可視為等效區(qū)間變大。根據(jù)3.1節(jié)的分析,△增加會(huì)使檢驗(yàn)效能隨之增大。
標(biāo)準(zhǔn)差σ對(duì)檢驗(yàn)效能的影響同樣明顯(圖3),隨著σ的增大,檢驗(yàn)效能顯著下降,并且下降速度逐漸變緩。標(biāo)準(zhǔn)差大,意味著數(shù)據(jù)更加分散,從而置信區(qū)間也就更大。這樣就和3.2節(jié)所討論的情況相反,置信區(qū)間大,等效區(qū)間2△就相對(duì)變小,因此,檢驗(yàn)效能便出現(xiàn)隨著σ的增大而降低的趨勢(shì)。
顯著性水平α與犯II型錯(cuò)誤的概率β兩者是呈負(fù)相關(guān)關(guān)系的,即在其他條件不變情況下,α增大同時(shí)β就會(huì)減小,因此1-β就會(huì)增加(圖4)。這也與王迎賓等[6]的研究結(jié)果一致。從圖4可以看出,與其他影響因素相比,顯著性水平對(duì)檢驗(yàn)效能的影響并不顯著。當(dāng)?shù)刃Ы缰?、?biāo)準(zhǔn)差、樣本數(shù)量等確定以后,隨著顯著性水平變化,檢驗(yàn)效能增加十分平緩。由此可見(jiàn),要增加檢驗(yàn)效能,合理的等效界值以及樣本的性質(zhì)是更為重要的因子。
檢驗(yàn)效能用來(lái)表示避免II型錯(cuò)誤的大小,II型錯(cuò)誤往往不如I型錯(cuò)誤受重視,因此其危害也可能會(huì)被低估。這一點(diǎn)在水產(chǎn)科學(xué)研究中十分明顯,除了上文介紹的例子以外,還有很多。例如,捕撈學(xué)選擇性研究中,為了達(dá)到保護(hù)漁業(yè)資源,釋放小個(gè)體魚(yú)類(lèi)的目的,需要放大漁具的網(wǎng)目尺寸。為了檢驗(yàn)放大網(wǎng)目尺寸后,所捕獲魚(yú)類(lèi)個(gè)體尺寸是否有顯著增加,需對(duì)放大網(wǎng)目尺寸前后漁獲樣本的平均體長(zhǎng)進(jìn)行顯著性檢驗(yàn)。(2捕撈前后漁獲樣本平均體長(zhǎng)差異不明顯),HA:μ1≠μ2。如果檢驗(yàn)結(jié)果導(dǎo)致II型錯(cuò)誤,則會(huì)錯(cuò)誤地接受原假設(shè),即事實(shí)上放大網(wǎng)目尺寸后,捕獲個(gè)體顯著增大,但卻未能接受該結(jié)論,而是認(rèn)為前后尺寸差異不顯著。此時(shí),漁業(yè)管理者可能會(huì)采取兩種措施:一是管理人員覺(jué)得放大網(wǎng)目尺寸意義不大,從而保持網(wǎng)目尺寸不變,這樣資源遭受的捕撈強(qiáng)度沒(méi)有降低,資源將進(jìn)一步衰退;另一種是繼續(xù)放大網(wǎng)目尺寸,直到檢驗(yàn)結(jié)果差異顯著為止,此時(shí)漁獲物尺寸雖然顯著增大,但是產(chǎn)量勢(shì)必會(huì)大幅降低,導(dǎo)致漁民不必要的減產(chǎn)減收。水產(chǎn)養(yǎng)殖工作中也有同樣問(wèn)題,例如為了降低養(yǎng)殖種類(lèi)患病比例,需要使用新的藥物,新藥物使用后檢驗(yàn)患病率是否比以前有顯著下降。同樣,H0:p1=p2(使用新藥后患病比率沒(méi)有顯著下降),HA:p1≠p2。此時(shí),若犯II型錯(cuò)誤,表明事實(shí)上使用新藥后患病個(gè)體明顯減少,但卻認(rèn)為新藥效不明顯。此時(shí),管理者或養(yǎng)殖者同樣有兩種選擇:一是不使用新藥,結(jié)果是患病率無(wú)法得到有效降低;二是選用藥效更好的新藥,直到檢驗(yàn)結(jié)果藥效顯著,但此時(shí)新藥的成本也必然會(huì)大幅提高,造成不必要的收益降低,甚至虧損。在水產(chǎn)科學(xué)研究中,類(lèi)似的例子還有很多,這些例子的特征之一就是II型錯(cuò)誤導(dǎo)致了嚴(yán)重的后果,甚至比I型錯(cuò)誤更加嚴(yán)重。因此,在水產(chǎn)學(xué)研究中,II型錯(cuò)誤必須得到重視,同時(shí)還要進(jìn)一步探索更多計(jì)算檢驗(yàn)效能的方法,來(lái)提高檢驗(yàn)結(jié)果的準(zhǔn)確性。
本研究結(jié)果顯示,檢驗(yàn)效能的變化受到α、樣本數(shù)量等因素的影響特征與王迎賓等[6]的研究結(jié)果基本一致,即隨著α和樣本容量的增加,檢驗(yàn)效能均呈現(xiàn)出增大趨勢(shì)。但是,差異檢驗(yàn)的結(jié)果受到α的影響更加顯著,當(dāng)α從0.01增加到0.05時(shí),差異檢驗(yàn)得到的檢驗(yàn)效能變化幅度達(dá)到12.06%[6],而等效性檢驗(yàn)的變化卻只有1%左右。此外,當(dāng)樣本較小時(shí),隨著樣本數(shù)量增加,等效性檢驗(yàn)的結(jié)果影響更加明顯,當(dāng)樣本數(shù)量繼續(xù)增加,其影響對(duì)差異性檢驗(yàn)的結(jié)果則更為明顯[6]。已經(jīng)有學(xué)者指出,基于差異性檢驗(yàn)的經(jīng)典方法計(jì)算檢驗(yàn)效能存在局限性,即檢驗(yàn)效能與P值呈負(fù)相關(guān)[7-8]。當(dāng)P值大于顯著性水平α?xí)r,檢驗(yàn)效能不會(huì)超過(guò)50%,這樣經(jīng)典方法能提供的有效信息就十分有限,特別是在α值較小,或者為小樣本的時(shí)候尤其明顯。王迎賓等[6]的文章重點(diǎn)討論了不同因素對(duì)差異性檢驗(yàn)的經(jīng)典方法計(jì)算檢驗(yàn)效能的影響情況,對(duì)上述檢驗(yàn)效能與P值存在相關(guān)性的問(wèn)題并未做深入探討。本文則重點(diǎn)討論了該問(wèn)題,并建議使用等效性檢驗(yàn)方法來(lái)計(jì)算檢驗(yàn)效能,以得到更為科學(xué)的結(jié)果[7-8]。
等效性檢驗(yàn)與差異性檢驗(yàn)是兩類(lèi)不同的檢驗(yàn)方法。人們對(duì)差異性檢驗(yàn)中的原假設(shè)和備擇假設(shè)是很熟悉的,通常原假設(shè)為“兩者差異不顯著”,備擇假設(shè)與其相反,“兩者差異顯著”。但是,有人不禁要問(wèn):為何原假設(shè)不能是“兩者差異顯著”呢?此時(shí),得到的回答往往是諸如“簡(jiǎn)單原則”或者“對(duì)于科研工作而言,犯棄真錯(cuò)誤更加嚴(yán)重”等等,這樣的回答是不充分的[8]。正如上文所列舉的例子一樣,在水產(chǎn)學(xué)研究中,納偽錯(cuò)誤可能導(dǎo)致更為嚴(yán)重的后果[6]。在實(shí)際應(yīng)用當(dāng)中,原假設(shè)和備擇假設(shè)顛倒選擇并非不可以。等效性檢驗(yàn)關(guān)于原假設(shè)和備擇假設(shè)的描述,與其在差異性檢驗(yàn)中就有所不同,原假設(shè)為兩者不等效,而備擇假設(shè)則為兩者等效。此外,差異性檢驗(yàn)的目的是推斷兩個(gè)總體是否達(dá)到了統(tǒng)計(jì)學(xué)上的顯著水平,其檢驗(yàn)假設(shè)是針對(duì)一個(gè)點(diǎn);而等效性檢驗(yàn)的目的是推斷兩個(gè)總體的差異是否在某個(gè)范圍之內(nèi),其檢驗(yàn)假設(shè)是針對(duì)一個(gè)區(qū)間[13]。因此,等效性檢驗(yàn)通常結(jié)合置信區(qū)間和研究者設(shè)定的最小差異,即等效界值,對(duì)檢驗(yàn)結(jié)果進(jìn)行判斷[10,14-15],并且檢驗(yàn)效能的計(jì)算同樣依賴于界值的大小。
差異性檢驗(yàn)和等效性檢驗(yàn)兩種方法計(jì)算的檢驗(yàn)效能所表達(dá)的含義是不同的,這主要是由兩種檢驗(yàn)方法的假設(shè)條件不同造成的。差異性檢驗(yàn)中,II型錯(cuò)誤指當(dāng)事實(shí)上兩者差異顯著,卻不能下兩者差異顯著結(jié)論的概率,這樣檢驗(yàn)效能即為事實(shí)上兩者差異顯著,并能下兩者差異顯著結(jié)論的概率。而在等效性檢驗(yàn)中,II型錯(cuò)誤指當(dāng)事實(shí)上為兩者等效時(shí),卻不能下等效性結(jié)論的概率,此時(shí)檢驗(yàn)效能指當(dāng)事實(shí)上為等效時(shí),能夠獲得該結(jié)論的概率[9]。在等效性檢驗(yàn)中的I型錯(cuò)誤,即事實(shí)上為兩者不等效時(shí),卻未能下不等效性結(jié)論的概率不會(huì)超過(guò)α。由于α值是由研究者事先設(shè)定好的,因此,等效性檢驗(yàn)中的I型錯(cuò)誤(類(lèi)似差異性檢驗(yàn)中的II型錯(cuò)誤)的概率就是直觀受控的了。同時(shí),等效性檢驗(yàn)中的II型錯(cuò)誤(類(lèi)似差異性檢驗(yàn)中的I型錯(cuò)誤)的概率可以使用公式(2)直接計(jì)算。差異性檢驗(yàn)和等效性檢驗(yàn)的假設(shè)、計(jì)算和兩類(lèi)錯(cuò)誤的表述均有差異,使用時(shí)需要格外注意。
等效界值的確定,并非隨意和盲目的,必須有一定的意義。對(duì)于水產(chǎn)科學(xué)而言,界值的確定就須有實(shí)際的生物學(xué)意義。比如,要判斷捕撈作用下,某種魚(yú)類(lèi)平均體長(zhǎng)是否減小了,此時(shí)等效性檢驗(yàn)就需要設(shè)定一個(gè)能夠反應(yīng)平均體長(zhǎng)發(fā)生變化的最小界值,而這個(gè)界值的確定須是通過(guò)實(shí)驗(yàn)研究,或者由專家基于經(jīng)驗(yàn)提出,以保證其生物學(xué)意義。盡管有以上要求,但是在界值確定過(guò)程中也難免會(huì)有主觀成分[16],這也就提醒研究者應(yīng)盡可能多渠道地搜集相關(guān)信息,來(lái)提高界值的準(zhǔn)確性和科學(xué)性。同時(shí),我們也應(yīng)意識(shí)到,等效界值與檢驗(yàn)效能是有相關(guān)性的(圖1),并不是等效界值越小就越好,其值越小檢驗(yàn)效能就越小,這樣反而增加了II型錯(cuò)誤的可能性。等效界值的確定應(yīng)本著客觀、科學(xué)的原則,既不能追求越小越好,也不能隨意放大。
除了等效界值以外,還有其他因子同樣會(huì)影響檢驗(yàn)效能,比如樣本數(shù)量、標(biāo)準(zhǔn)差、顯著性水平等等(圖2-圖4)。樣本數(shù)量越大越有利于降低II型錯(cuò)誤,但與此同時(shí)成本也會(huì)增加。標(biāo)準(zhǔn)差反映著樣本的性質(zhì),也與樣本大小有關(guān)。而顯著性水平是研究者根據(jù)研究需求而事先定好的。這些因子都將對(duì)檢驗(yàn)效能產(chǎn)生影響,因此,對(duì)其選擇也應(yīng)視具體情況而定,基于現(xiàn)有條件和研究要求,選擇合適的因子水平,得到理想的計(jì)算結(jié)果。
雖然在一些統(tǒng)計(jì)學(xué)教材中介紹了檢驗(yàn)效能的計(jì)算方法,但計(jì)算過(guò)程并不簡(jiǎn)單,特別是對(duì)于統(tǒng)計(jì)學(xué)基礎(chǔ)薄弱者而言,很難將這些方法直接應(yīng)用到實(shí)際的研究和工作中。因此,在今后在的研究中,我們將開(kāi)展檢驗(yàn)效能計(jì)算程序(VBA和R語(yǔ)言)的開(kāi)發(fā)的工作,使檢驗(yàn)效能計(jì)算模塊化,方便科研工作者和管理者使用。
[1]杜榮騫.生物統(tǒng)計(jì)學(xué)[M].第3版.北京:高等教育出版社,2009:80-85.
[2]GLOVER T,MITCHELL K.生物統(tǒng)計(jì)學(xué)導(dǎo)論[M].北京:清華大學(xué)出版社,2001:120-125.
[3]TANG P C.The power function of the analysis of variance tests with tables and illustrations of their use[J].Statistical Research Memoirs,1938,2:126-149.
[4]ANDRSON S,HANCK W W.A new procedure for testing equivalence in comparative bioavailability and other clinical trials[J].Communication in Statistics-Theory and Methods,1983,12(23):2 663-2 692.
[5]SCHUIRMANN D J.A Scomparison of the two one-sided tests procedure and the power approach for assessing the equivalence of average bioavailability[J].Journal of Pharmacokinetics and Biopharmaceutics,1987,15(6):657-680.
[6]王迎賓,俞存根,陳 勇.水產(chǎn)科學(xué)研究中被忽視的II型錯(cuò)誤[J].水產(chǎn)學(xué)報(bào),2016,40(1):135-143.
[7]BROSI B J,BIBER E G.Statistical inference,Type II error,and decision making under the US Endangered Species Act[J].Frontiers in Ecology and the Environment,2009,7(9):487-494.
[8]HOENIG J M,HEISEY D M.The abuse of power:The pervasive fallacy of power calculations for data analysis[J].The American Statistician,2001,55(1):19-24.
[9]安勝利.傳統(tǒng)假設(shè)檢驗(yàn)與等效性檢驗(yàn)關(guān)系的模擬研究[D].廣州:第一軍醫(yī)大學(xué),2007:3-9.
[10]WELLEK S.Testing statistical hypotheses of equivalence[M].Boca Raton,FL:CRC Press,2002:1-431.
[11]MCGARVEY D J.Merging precaution with sound science under the Endangered Species Act[J].BioScience,2007,57(1):65-70.
[12]JONES B,JARVIS P,LEWIS J A,et al.Trials to assess equivalence:the importance of rigorous methods[J].British Medical Journal,1996,313:36-45.
[13]安勝利,陳平雁.等效性檢驗(yàn)與差異性檢驗(yàn)的區(qū)別及其模擬驗(yàn)證[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2007,24(3):226-228.
[14]SOKAL R R,ROHLF F J.Biometry:the principles and practice of statistics in biological research[M].3rd edn.New York,WH Freeman and Company,1995.
[15]ADELMAN D E.Scientific activism and restraint:the interplay of statistics,judgment,and procedure in environmental law[J].Notre Dame Law Review,2004,79:497-583.
[16]WAPLES R S,GAGGIOTTI O.What is a population An empirical evaluation of some genetic methods for identifying the number of gene pools and their degree of connectivity[J].Molecular Ecology,2006,15(6):1 419-1 439.