于米錸,石曉彤,鄒碧清,安勝利
南方醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計學(xué)系,廣東 廣州510515
樣本量估計在醫(yī)學(xué)研究中至關(guān)重要。其通常有兩種估計方法,假設(shè)檢驗法基于顯著性檢驗和檢驗效能[1,2]計算出所需的樣本量。置信區(qū)間法關(guān)注精確度[3-11],通過指定置信區(qū)間的寬度,計算樣本量。在流行病學(xué)調(diào)查中,研究目的常常是估計某一人群中某特定疾病的患病率[12,13],流行病學(xué)家為了以合理的準(zhǔn)確度評估患病率,計算所需的樣本量需要用置信區(qū)間法。單組率基于置信區(qū)間法的樣本量估計,在1991年,Lwanga 和Lemeshow給出了基于正態(tài)近似的Wald 法樣本量計算公式[4]。2008年Machin給出了大樣本率下、極端樣本率下、有限總體下[14],基于Wald 法,單組率置信區(qū)間法的公式。2013年Vallejo等人給出了基于Wilson Score法置信區(qū)間法計算樣本量的公式[15]。雖然有眾多單組率置信區(qū)間的估計方法[16],現(xiàn)在還沒有除了Wald 法和Wilson Score法以外基于置信區(qū)間的樣本量計算方法。因此,本文擬基于Wald 法、ADD4 法、ADDZ2 法、Wilson Score法、Clopper-Pearson法、Mid-p法和Jeffreys法這7種常見的單組率置信區(qū)間估計方法,估算所需樣本量并模擬比較,并給出不同情況下的推薦方法,為相關(guān)研究提供參考。
1.1.1 Wald法(Wald CI)基于正態(tài)近似、點估計中心對稱理論[17]。如式(1)所示,p表示事件發(fā)生率,n表示樣本量。
1.1.2 ADDZ2 法(Agresti-Coull add z2CI)Agresti 和Coull提出的ADDZ2法[18,19],實際是從Wald法入手,將樣本成功例數(shù)和失敗例數(shù)都增加。如式(2)所示,其中
1.1.3 ADD4 法(Agresti-Coull add 4 CI)Agresti 和Coull 提出的ADD4 法[18],在ADDZ2 法中,當(dāng)α=0.05時,≈4,即將樣本成功例數(shù)和失敗例數(shù)都增加2,如式(2)所示,其中x*=x+2,n*=n+4,p*=x*/n*。
1.1.4 Wilson Score法(WS CI)假設(shè)事件發(fā)生率為π,總體X~B(n,π),n表示樣本量,x表示事件發(fā)生數(shù),p=x/n表示事件發(fā)生率,如式(3)所示[17]。
可解得π 為
1.1.5 Clopper-Pearson 法(Clopper-Pearson confidence interval)該法可保證置信區(qū)間覆蓋率在指定概率[20]。區(qū)間上限pU和下限pL分別為式(5)的解。
1.1.6 Mid-p 法(Mid-p confidence interval)該 法 是Clopper-Pearson法的矯正,在保證覆蓋率的同時可以比Clopper-Pearson法保守性少一點。區(qū)間上限pU和下限pL分別為式(6)的解[19,21]。
1.1.7 Jefferys 法(Jefferys confidence interval)假 設(shè)X~B(n,p),p的先驗分布為Beta(α1,α2),那么p的后驗分布為Beta(X+α1,n-X+α2),因此100(1-α)%Bayes 區(qū)間為式(7)所示[17]。
本文將采用搜索算法[22,28]對7種置信區(qū)間法所需樣本量進(jìn)行估計。
步驟一:給定參數(shù)p(預(yù)計總體率),ω(置信區(qū)間寬度的一半),給n(樣本量)一個初始值,假設(shè)總體X~B(n,p),根據(jù)7種置信區(qū)間估計法,每種方法產(chǎn)生Κ個置信區(qū)間。
步驟二:計算出Κ個置信區(qū)間寬度平均值2ω*。
步驟三:若2ω*大于(或小于)2ω,則增加(或減少)n的值,重復(fù)步驟一和步驟二。
步驟四:重復(fù)步驟三直到半?yún)^(qū)間寬度ω*非常接近給定的ω,即樣本量滿足n=min{n:|ω*-ω|≤0.001},得到近似樣本量。
步驟五:若達(dá)到指定迭代次數(shù),依舊無法達(dá)到收斂,則判定樣本量估計失敗。
本研究用R 語言模擬了Wald 法、ADD4 法、ADDZ2法、Wilson Score法、Clopper-Pearson法、Mid-p法和Jeffreys法這7種單組率樣本量估計法。模擬步驟如下:(1)固定半置信區(qū)間寬度ω,在不同事件發(fā)生率p下估計樣本量。具體方法見1.2;(2)基于步驟(1)估計的樣本量,重復(fù)10000次,計算比較各方法的區(qū)間覆蓋率、置信區(qū)間寬度和尾側(cè)不覆蓋率比值??紤]事件發(fā)生率p在[0,1]范圍內(nèi)基于0.5對稱,因此進(jìn)行參數(shù)選擇時只考慮[0,0.5]范圍內(nèi)的p。參數(shù)設(shè)置:ω=0.05、0.1,p=0.01-0.5(間隔0.01),置信水平1-α=0.95。
本研究通過計算在所估計出的樣本量下置信區(qū)間的區(qū)間覆蓋率、寬度和尾側(cè)不覆蓋率來評估比較各方法。
2.2.1 區(qū)間覆蓋率(CP)統(tǒng)計上,一個置信區(qū)間的覆蓋率是它包含感興趣真值的次數(shù)占總次數(shù)的比例。區(qū)間覆蓋率越靠近置信水平越好。I[p∈CI(x;n,α)]為給定X=x,樣本量n,檢驗水準(zhǔn)α的條件下,一次模擬研究覆蓋情況的示性函數(shù),置信區(qū)間包含事件發(fā)生率時,即p∈CI(x;n,α),I[p∈CI(x;n,α)]取值為1,否則為0,如式(9)所示。
若給定的置信水平為95%,則覆蓋率越接近95%,置信區(qū)間估計越好。當(dāng)覆蓋率小于94%時,認(rèn)為覆蓋率較差。當(dāng)覆蓋率大于96%時,認(rèn)為區(qū)間估計較保守。本研究中,以覆蓋率在[0.94,0.96]定義為較好。
2.2.2 置信區(qū)間寬度(CW)如式(10)所示,其中U(x)和L(x)分別表示置信區(qū)間的上限和下限。
本研究中,在保證區(qū)間覆蓋率的前提下,由于事先指定了半置信區(qū)間寬度(ω=0.05,0.1),模擬過程中若半?yún)^(qū)間寬度估計誤差值在0.001 之內(nèi),則所估計的樣本量將被接受。因此主要考察估計出的樣本量計算的置信區(qū)間寬度是否在指定范圍[0.098,0.102],[0.198,0.202]之內(nèi),若在指定寬度范圍之內(nèi),則認(rèn)為樣本量估計精確。
2.2.3 左右尾側(cè)不覆蓋率(MNCP,DNCP)置信區(qū)間下限大于真值的概率稱為MNCP,置信區(qū)間上限小于真值的概率稱為DNCP,見式(11)。左右尾側(cè)不覆蓋率應(yīng)盡可能接近,越接近說明置信區(qū)間對稱性越好。
2.2.4 尾側(cè)不覆蓋率比值:MNCP/(MNCP+DNCP)越接近0.5說明置信區(qū)間的對稱性越好。在本研究中,當(dāng)尾側(cè)不覆蓋率比值在0.4~0.6間,認(rèn)為該方法的對稱性較好。
2.3.1 樣本量估計失敗情況 如表1 所示的半置信區(qū)間寬度和事件發(fā)生率的情況下,估計樣本量失敗,因而均不計算置信區(qū)間寬度,覆蓋率,尾側(cè)不覆蓋率比值。
表1 樣本量估計失敗情況匯總Tab.1 Summary of failure of sample size estimation
2.3.2 樣本量比較 隨著事件發(fā)生率的增加,樣本量逐漸增加(圖1)。Clopper-Pearson法所估的樣本量明顯大于其他方法,其他方法計算結(jié)果相近。
圖1 樣本量隨事件發(fā)生率p的變化情況Fig.1 Influence of p on sample size estimation(ω=0.05,0.1).
2.3.3 區(qū)間覆蓋率(CP)比較 在ω=0.05時,在低事件發(fā)生率p=(0.01-0.1)時,建議選擇覆蓋率較保守的ADD4法、ADDZ2法和Clopper-Pearson法。而Mid-p法偶爾發(fā)生覆蓋率低于0.94,也可參考選擇。在其余情況下,除了Clopper-Pearson法較保守,其他方法的覆蓋率都相對穩(wěn)定,Mid-p法和Jefferys法偶爾發(fā)生覆蓋率低于0.94的情況(圖2)。
圖2 區(qū)間覆蓋率(CP)隨事件發(fā)生率p的變化情況Fig.2 Influence of event probability(p)on coverage probability(ω=0.05).
在ω=0.1時,在事件發(fā)生率極低p=(0.01-0.05)時,除Clopper-Pearson法外,其余方法都存在無法迭代的情況,建議選擇Clopper-Pearson 法。其他情況與ω=0.05的情況類似,不多贅述。
2.3.4 尾側(cè)不覆蓋率比值(MNCP/(MNCP+DNCP))的比較 在ω=0.05時,當(dāng)事件發(fā)生率極低時p=(0.01-0.05),所有方法的對稱性表現(xiàn)都不好。在p=(0.05-0.15)時,Mid-p 法和Clopper-Pearson 法的對稱性較好。在p=(0.15-0.3)時,除了Wald 法,其余方法都可以選擇。Wilson Score法、Jefferys法偶爾存在尾側(cè)不覆蓋率比值不在指定范圍的情況。在p=(0.3-0.5)時,所有方法對稱性都在指定范圍,都可選擇(圖3)。
圖3 尾側(cè)不覆蓋率比值(NCP)隨事件發(fā)生率p的變化情況Fig.3 Influence of p on noncoverage probability (ω=0.05;NCP=MNCP/(MNCP+DNCP)).
2.3.5 置信區(qū)間寬度(CW)的比較 隨著事件發(fā)生率的增加,各方法的置信區(qū)間寬度逐漸趨于指定寬度,有些方法會在事件發(fā)生率p較低時,寬度大于指定范圍,但誤差尚在0.001內(nèi),故基本認(rèn)為各方法無明顯差異(圖4)。
圖4 置信區(qū)間寬度(CW)隨事件發(fā)生率p的變化情況Fig.4 Influence of p on confidence interval width(ω=0.05).
本文采用Lwanga在樣本量計算指南中的例子[4]。
衛(wèi)生部門希望估計當(dāng)?shù)匚鍤q以下兒童的結(jié)核病患病率。如果已知真實率不太可能超過20%,那么應(yīng)調(diào)查多少兒童,以便在95%的置信度下,將患病率估計誤差控制在真實值的5%以內(nèi)。即事件發(fā)生率p=0.2,ω=0.05(表2)。
表2 不同方法所估計出的樣本量及有關(guān)指標(biāo)Tab.2 Sample size and relative indexes estimated by different methods
可見,Clopper-Pearson法計算的樣本量明顯大于其他方法。所有方法的置信區(qū)間寬度都在指定范圍內(nèi)。綜合考慮區(qū)間覆蓋率和尾側(cè)不覆蓋率比值,建議選擇ADDZ2法,它的區(qū)間覆蓋率接近0.95,尾側(cè)不覆蓋率比值最接近0.5。ADD4 法和Mid-p法表現(xiàn)也相對較好。與模擬結(jié)論一致。
本文從常用的7種單組率置信區(qū)間估計法入手,通過迭代計算,得到了基于置信區(qū)間估計的樣本量計算方法,并模擬比較了在不同精度(ω=0.05,0.1)、不同事件發(fā)生率下各種方法計算得出的樣本量。
在推薦方法的選擇時,由于各方法區(qū)間寬度無明顯差別,因此建議先考慮區(qū)間覆蓋率,再考慮對稱性,最后考慮置信區(qū)間寬度。若有多個方法入選,用戶可以自行選擇。
當(dāng)精度要求較高時(ω=0.05),若事件發(fā)生率在p=(0.01-0.05)時,所有方法對稱性都較差,Mid-p法、Clopper-Pearson法、ADD4法、ADDZ2雖然覆蓋率較高(保守),但是綜合表現(xiàn)最優(yōu),建議選擇。在p=(0.05-0.15)時,Mid-p法表現(xiàn)最優(yōu)。在p=(0.15-0.3)時,除了Wald 法,其余方法表現(xiàn)差異不大,Wilson Score 法和Jefferys法偶爾存在尾側(cè)不覆蓋率不在指定范圍情況,也可以參考選擇。在p=(0.3-0.5)時,所有方法表現(xiàn)差異不大,都可以選擇。
當(dāng)精度要求適中時(ω=0.1),在事件發(fā)生率極低p=(0.01-0.05)時,除Clopper-Pearson法,其余方法都存在無法迭代的情況,建議選擇Clopper-Pearson法。其余情況與ω=0.05類似。
由于Clopper-Pearson法覆蓋率有時過高,導(dǎo)致估計結(jié)果過于保守,使計算出的樣本量大于其他方法,考慮其成本效益,在有別的方法選擇時,建議選擇其他方法。Mid-p法的計算方法運算比較緩慢,在實際應(yīng)用中也應(yīng)考慮這一點。
當(dāng)ω=0.1且事件發(fā)生率較低(小于0.1)時,有較多方法估計樣本量失敗,可能的原因是置信區(qū)間法首選需固定置信區(qū)間寬度,而方法本身可能無法產(chǎn)生滿足該區(qū)間寬度的樣本量估計結(jié)果。同時,為了滿足指定的區(qū)間寬度,可能會導(dǎo)致區(qū)間對稱性較差。因此在此條件下,不推薦本研究中涉及的置信區(qū)間法進(jìn)行樣本量估計。
本文仍有值得繼續(xù)探索的地方。
(1)單組率的置信區(qū)間估計方法眾多[16],本文只是挑選了其中代表性的方法,仍有其他方法估計樣本量值得探尋;(2)本文樣本量估計是基于搜索迭代法,部分方法在運算時存在運算緩慢的情況,有的置信區(qū)間估計法甚至?xí)o法得出結(jié)果。有的學(xué)者是從置信區(qū)間估計公式本身出發(fā)[3,4,13,29],通過列等式換算,給出樣本量的計算公式,在此基礎(chǔ)上做出矯正,但該方法不適用于置信區(qū)間估計方法較復(fù)雜、無法直接樣本量計算公式的情況,需要進(jìn)一步探索如何基于置信區(qū)間估計計算樣本量的其他方法[30],如鞍點逼近法等等;(3)基于置信區(qū)間寬度(精度)的設(shè)置,本文只設(shè)置了2 種情況,即ω=0.05 或0.1。還可設(shè)置更多情況,以探索不同精度下的各方法的優(yōu)劣。