7種單組率的置信區(qū)間所需樣本量的估計方法比較

2023-02-27 09:28:14于米錸石曉彤鄒碧清安勝利

南方醫(yī)科大學(xué)學(xué)報 2023年1期

于米錸，石曉彤，鄒碧清，安勝利

南方醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計學(xué)系，廣東廣州510515

樣本量估計在醫(yī)學(xué)研究中至關(guān)重要。其通常有兩種估計方法，假設(shè)檢驗法基于顯著性檢驗和檢驗效能［1,2］計算出所需的樣本量。置信區(qū)間法關(guān)注精確度［3-11］，通過指定置信區(qū)間的寬度，計算樣本量。在流行病學(xué)調(diào)查中，研究目的常常是估計某一人群中某特定疾病的患病率［12,13］，流行病學(xué)家為了以合理的準(zhǔn)確度評估患病率，計算所需的樣本量需要用置信區(qū)間法。單組率基于置信區(qū)間法的樣本量估計，在1991年，Lwanga 和Lemeshow給出了基于正態(tài)近似的Wald 法樣本量計算公式［4］。2008年Machin給出了大樣本率下、極端樣本率下、有限總體下［14］，基于Wald 法，單組率置信區(qū)間法的公式。2013年Vallejo等人給出了基于Wilson Score法置信區(qū)間法計算樣本量的公式［15］。雖然有眾多單組率置信區(qū)間的估計方法［16］，現(xiàn)在還沒有除了Wald 法和Wilson Score法以外基于置信區(qū)間的樣本量計算方法。因此，本文擬基于Wald 法、ADD4 法、ADDZ2 法、Wilson Score法、Clopper-Pearson法、Mid-p法和Jeffreys法這7種常見的單組率置信區(qū)間估計方法，估算所需樣本量并模擬比較，并給出不同情況下的推薦方法，為相關(guān)研究提供參考。

1 方法

1.1 單組率的置信區(qū)間估計

1.1.1 Wald法（Wald CI）基于正態(tài)近似、點估計中心對稱理論［17］。如式（1）所示，p表示事件發(fā)生率，n表示樣本量。

1.1.2 ADDZ2 法（Agresti-Coull add z2CI）Agresti 和Coull提出的ADDZ2法［18,19］，實際是從Wald法入手，將樣本成功例數(shù)和失敗例數(shù)都增加。如式（2）所示，其中

1.1.3 ADD4 法（Agresti-Coull add 4 CI）Agresti 和Coull 提出的ADD4 法［18］，在ADDZ2 法中，當(dāng)α=0.05時，≈4，即將樣本成功例數(shù)和失敗例數(shù)都增加2，如式（2）所示，其中x*=x+2，n*=n+4，p*=x*/n*。

1.1.4 Wilson Score法（WS CI）假設(shè)事件發(fā)生率為π，總體X～B(n,π)，n表示樣本量，x表示事件發(fā)生數(shù)，p=x/n表示事件發(fā)生率，如式（3）所示［17］。

可解得π 為

1.1.5 Clopper-Pearson 法（Clopper-Pearson confidence interval）該法可保證置信區(qū)間覆蓋率在指定概率［20］。區(qū)間上限pU和下限pL分別為式（5）的解。

1.1.6 Mid-p 法（Mid-p confidence interval）該法是Clopper-Pearson法的矯正，在保證覆蓋率的同時可以比Clopper-Pearson法保守性少一點。區(qū)間上限pU和下限pL分別為式（6）的解［19,21］。

1.1.7 Jefferys 法（Jefferys confidence interval）假設(shè)X～B(n,p)，p的先驗分布為Beta(α1,α2)，那么p的后驗分布為Beta(X+α1,n-X+α2)，因此100(1-α)%Bayes 區(qū)間為式（7）所示［17］。

1.2 基于置信區(qū)間估計的樣本量計算方法

本文將采用搜索算法［22,28］對7種置信區(qū)間法所需樣本量進(jìn)行估計。

步驟一：給定參數(shù)p（預(yù)計總體率），ω（置信區(qū)間寬度的一半），給n（樣本量）一個初始值，假設(shè)總體X～B(n,p)，根據(jù)7種置信區(qū)間估計法，每種方法產(chǎn)生Κ個置信區(qū)間。

步驟二：計算出Κ個置信區(qū)間寬度平均值2ω*。

步驟三：若2ω*大于（或小于）2ω，則增加（或減少）n的值，重復(fù)步驟一和步驟二。

步驟四：重復(fù)步驟三直到半?yún)^(qū)間寬度ω*非常接近給定的ω，即樣本量滿足n=min{n:|ω*-ω|≤0.001}，得到近似樣本量。

步驟五：若達(dá)到指定迭代次數(shù)，依舊無法達(dá)到收斂，則判定樣本量估計失敗。

2 模擬與實例

2.1 模擬步驟

本研究用R 語言模擬了Wald 法、ADD4 法、ADDZ2法、Wilson Score法、Clopper-Pearson法、Mid-p法和Jeffreys法這7種單組率樣本量估計法。模擬步驟如下：（1）固定半置信區(qū)間寬度ω，在不同事件發(fā)生率p下估計樣本量。具體方法見1.2；（2）基于步驟（1）估計的樣本量，重復(fù)10000次，計算比較各方法的區(qū)間覆蓋率、置信區(qū)間寬度和尾側(cè)不覆蓋率比值?？紤]事件發(fā)生率p在[0,1]范圍內(nèi)基于0.5對稱，因此進(jìn)行參數(shù)選擇時只考慮[0,0.5]范圍內(nèi)的p。參數(shù)設(shè)置：ω=0.05、0.1，p=0.01-0.5（間隔0.01），置信水平1-α=0.95。

2.2 評價指標(biāo)

本研究通過計算在所估計出的樣本量下置信區(qū)間的區(qū)間覆蓋率、寬度和尾側(cè)不覆蓋率來評估比較各方法。

2.2.1 區(qū)間覆蓋率（CP）統(tǒng)計上，一個置信區(qū)間的覆蓋率是它包含感興趣真值的次數(shù)占總次數(shù)的比例。區(qū)間覆蓋率越靠近置信水平越好。I[p∈CI(x;n,α)]為給定X=x，樣本量n，檢驗水準(zhǔn)α的條件下，一次模擬研究覆蓋情況的示性函數(shù)，置信區(qū)間包含事件發(fā)生率時，即p∈CI(x;n,α)，I[p∈CI(x;n,α)]取值為1，否則為0，如式（9）所示。

若給定的置信水平為95%，則覆蓋率越接近95%，置信區(qū)間估計越好。當(dāng)覆蓋率小于94%時，認(rèn)為覆蓋率較差。當(dāng)覆蓋率大于96%時，認(rèn)為區(qū)間估計較保守。本研究中，以覆蓋率在[0.94,0.96]定義為較好。

2.2.2 置信區(qū)間寬度（CW）如式（10）所示，其中U(x)和L(x)分別表示置信區(qū)間的上限和下限。

本研究中，在保證區(qū)間覆蓋率的前提下，由于事先指定了半置信區(qū)間寬度（ω=0.05,0.1），模擬過程中若半?yún)^(qū)間寬度估計誤差值在0.001 之內(nèi)，則所估計的樣本量將被接受。因此主要考察估計出的樣本量計算的置信區(qū)間寬度是否在指定范圍[0.098,0.102]，[0.198,0.202]之內(nèi)，若在指定寬度范圍之內(nèi)，則認(rèn)為樣本量估計精確。

2.2.3 左右尾側(cè)不覆蓋率（MNCP，DNCP）置信區(qū)間下限大于真值的概率稱為MNCP，置信區(qū)間上限小于真值的概率稱為DNCP，見式（11）。左右尾側(cè)不覆蓋率應(yīng)盡可能接近，越接近說明置信區(qū)間對稱性越好。

2.2.4 尾側(cè)不覆蓋率比值：MNCP/（MNCP+DNCP）越接近0.5說明置信區(qū)間的對稱性越好。在本研究中，當(dāng)尾側(cè)不覆蓋率比值在0.4～0.6間，認(rèn)為該方法的對稱性較好。

2.3 模擬結(jié)果

2.3.1 樣本量估計失敗情況如表1 所示的半置信區(qū)間寬度和事件發(fā)生率的情況下，估計樣本量失敗，因而均不計算置信區(qū)間寬度，覆蓋率，尾側(cè)不覆蓋率比值。

表1 樣本量估計失敗情況匯總Tab.1 Summary of failure of sample size estimation

2.3.2 樣本量比較隨著事件發(fā)生率的增加，樣本量逐漸增加（圖1）。Clopper-Pearson法所估的樣本量明顯大于其他方法，其他方法計算結(jié)果相近。

圖1 樣本量隨事件發(fā)生率p的變化情況Fig.1 Influence of p on sample size estimation(ω=0.05,0.1).

2.3.3 區(qū)間覆蓋率（CP）比較在ω=0.05時，在低事件發(fā)生率p=（0.01-0.1）時，建議選擇覆蓋率較保守的ADD4法、ADDZ2法和Clopper-Pearson法。而Mid-p法偶爾發(fā)生覆蓋率低于0.94，也可參考選擇。在其余情況下，除了Clopper-Pearson法較保守，其他方法的覆蓋率都相對穩(wěn)定，Mid-p法和Jefferys法偶爾發(fā)生覆蓋率低于0.94的情況（圖2）。

圖2 區(qū)間覆蓋率(CP)隨事件發(fā)生率p的變化情況Fig.2 Influence of event probability(p)on coverage probability(ω=0.05).

在ω=0.1時，在事件發(fā)生率極低p=（0.01-0.05）時，除Clopper-Pearson法外，其余方法都存在無法迭代的情況，建議選擇Clopper-Pearson 法。其他情況與ω=0.05的情況類似，不多贅述。

2.3.4 尾側(cè)不覆蓋率比值(MNCP/(MNCP+DNCP))的比較在ω=0.05時，當(dāng)事件發(fā)生率極低時p=（0.01-0.05），所有方法的對稱性表現(xiàn)都不好。在p=（0.05-0.15）時，Mid-p 法和Clopper-Pearson 法的對稱性較好。在p=（0.15-0.3）時，除了Wald 法，其余方法都可以選擇。Wilson Score法、Jefferys法偶爾存在尾側(cè)不覆蓋率比值不在指定范圍的情況。在p=（0.3-0.5）時，所有方法對稱性都在指定范圍，都可選擇（圖3）。

圖3 尾側(cè)不覆蓋率比值(NCP)隨事件發(fā)生率p的變化情況Fig.3 Influence of p on noncoverage probability (ω=0.05;NCP=MNCP/(MNCP+DNCP)).

2.3.5 置信區(qū)間寬度（CW）的比較隨著事件發(fā)生率的增加，各方法的置信區(qū)間寬度逐漸趨于指定寬度，有些方法會在事件發(fā)生率p較低時，寬度大于指定范圍，但誤差尚在0.001內(nèi)，故基本認(rèn)為各方法無明顯差異（圖4）。

圖4 置信區(qū)間寬度(CW)隨事件發(fā)生率p的變化情況Fig.4 Influence of p on confidence interval width(ω=0.05).

2.4 實例分析

本文采用Lwanga在樣本量計算指南中的例子［4］。

衛(wèi)生部門希望估計當(dāng)?shù)匚鍤q以下兒童的結(jié)核病患病率。如果已知真實率不太可能超過20%，那么應(yīng)調(diào)查多少兒童，以便在95%的置信度下，將患病率估計誤差控制在真實值的5%以內(nèi)。即事件發(fā)生率p=0.2，ω=0.05（表2）。

表2 不同方法所估計出的樣本量及有關(guān)指標(biāo)Tab.2 Sample size and relative indexes estimated by different methods

可見，Clopper-Pearson法計算的樣本量明顯大于其他方法。所有方法的置信區(qū)間寬度都在指定范圍內(nèi)。綜合考慮區(qū)間覆蓋率和尾側(cè)不覆蓋率比值，建議選擇ADDZ2法，它的區(qū)間覆蓋率接近0.95，尾側(cè)不覆蓋率比值最接近0.5。ADD4 法和Mid-p法表現(xiàn)也相對較好。與模擬結(jié)論一致。

3 討論

本文從常用的7種單組率置信區(qū)間估計法入手，通過迭代計算，得到了基于置信區(qū)間估計的樣本量計算方法，并模擬比較了在不同精度（ω=0.05，0.1）、不同事件發(fā)生率下各種方法計算得出的樣本量。

在推薦方法的選擇時，由于各方法區(qū)間寬度無明顯差別，因此建議先考慮區(qū)間覆蓋率，再考慮對稱性，最后考慮置信區(qū)間寬度。若有多個方法入選，用戶可以自行選擇。

當(dāng)精度要求較高時（ω=0.05），若事件發(fā)生率在p=（0.01-0.05）時，所有方法對稱性都較差，Mid-p法、Clopper-Pearson法、ADD4法、ADDZ2雖然覆蓋率較高（保守），但是綜合表現(xiàn)最優(yōu)，建議選擇。在p=（0.05-0.15）時，Mid-p法表現(xiàn)最優(yōu)。在p=（0.15-0.3）時，除了Wald 法，其余方法表現(xiàn)差異不大，Wilson Score 法和Jefferys法偶爾存在尾側(cè)不覆蓋率不在指定范圍情況，也可以參考選擇。在p=（0.3-0.5）時，所有方法表現(xiàn)差異不大，都可以選擇。

當(dāng)精度要求適中時（ω=0.1），在事件發(fā)生率極低p=（0.01-0.05）時，除Clopper-Pearson法，其余方法都存在無法迭代的情況，建議選擇Clopper-Pearson法。其余情況與ω=0.05類似。

由于Clopper-Pearson法覆蓋率有時過高，導(dǎo)致估計結(jié)果過于保守，使計算出的樣本量大于其他方法，考慮其成本效益，在有別的方法選擇時，建議選擇其他方法。Mid-p法的計算方法運算比較緩慢，在實際應(yīng)用中也應(yīng)考慮這一點。

當(dāng)ω=0.1且事件發(fā)生率較低（小于0.1）時，有較多方法估計樣本量失敗，可能的原因是置信區(qū)間法首選需固定置信區(qū)間寬度，而方法本身可能無法產(chǎn)生滿足該區(qū)間寬度的樣本量估計結(jié)果。同時，為了滿足指定的區(qū)間寬度，可能會導(dǎo)致區(qū)間對稱性較差。因此在此條件下，不推薦本研究中涉及的置信區(qū)間法進(jìn)行樣本量估計。

本文仍有值得繼續(xù)探索的地方。

（1）單組率的置信區(qū)間估計方法眾多［16］，本文只是挑選了其中代表性的方法，仍有其他方法估計樣本量值得探尋；（2）本文樣本量估計是基于搜索迭代法，部分方法在運算時存在運算緩慢的情況，有的置信區(qū)間估計法甚至?xí)o法得出結(jié)果。有的學(xué)者是從置信區(qū)間估計公式本身出發(fā)［3,4,13,29］，通過列等式換算，給出樣本量的計算公式，在此基礎(chǔ)上做出矯正，但該方法不適用于置信區(qū)間估計方法較復(fù)雜、無法直接樣本量計算公式的情況，需要進(jìn)一步探索如何基于置信區(qū)間估計計算樣本量的其他方法［30］，如鞍點逼近法等等；（3）基于置信區(qū)間寬度（精度）的設(shè)置，本文只設(shè)置了2 種情況，即ω=0.05 或0.1。還可設(shè)置更多情況，以探索不同精度下的各方法的優(yōu)劣。