參考值范圍樣本量估計(jì)中參數(shù)的適度性研究

2019-11-12 12:24:10重慶醫(yī)科大學(xué)公共衛(wèi)生與管理學(xué)院醫(yī)學(xué)與社會(huì)發(fā)展研究中心健康領(lǐng)域社會(huì)風(fēng)險(xiǎn)預(yù)測(cè)治理協(xié)同創(chuàng)新中心400016

中國(guó)衛(wèi)生統(tǒng)計(jì) 2019年5期

關(guān)鍵詞：樣本量參考值正態(tài)分布

重慶醫(yī)科大學(xué)公共衛(wèi)生與管理學(xué)院/醫(yī)學(xué)與社會(huì)發(fā)展研究中心/健康領(lǐng)域社會(huì)風(fēng)險(xiǎn)預(yù)測(cè)治理協(xié)同創(chuàng)新中心(400016)

夏萬元鐘曉妮陶浩陳茜賴敏清田考聰△

【提要】目的探討Troendle和Jennen-Steinmetz提出的參考值范圍樣本量計(jì)算方法的適用條件及參數(shù)合適取值范圍。方法通過計(jì)算機(jī)模擬，研究樣本量計(jì)算方法的可用性和相關(guān)參數(shù)變化時(shí)樣本量的變化情況。結(jié)果 Jennen-Steinmetz提出的樣本量計(jì)算方法中模擬計(jì)算的統(tǒng)計(jì)量η能較好滿足研究設(shè)計(jì)的精度要求，容許誤差δ小于0.003時(shí)，估計(jì)樣本量出現(xiàn)迅速上升。Troendle的標(biāo)準(zhǔn)中新構(gòu)建統(tǒng)計(jì)量r小于0.02時(shí)，樣本量需求出現(xiàn)迅速上升。根據(jù)模擬樣本量估計(jì)結(jié)果，我們認(rèn)為參數(shù)δ和r的適宜取值范圍分別為0.002～0.015和0.01～0.12。結(jié)論當(dāng)前樣本量計(jì)算方法能一定程度上解決參考值范圍計(jì)算時(shí)樣本量估計(jì)問題。但是該方法還需要進(jìn)一步完善改進(jìn)。

國(guó)內(nèi)外的統(tǒng)計(jì)學(xué)家及醫(yī)學(xué)專家都提出了一系列的參考值范圍估計(jì)方法以及校正方法[1-3]。但是對(duì)于制定參考值范圍需要的樣本量卻鮮有提及。在國(guó)內(nèi)，有研究者在研究多元參考值范圍的估計(jì)時(shí)提出了樣本量不應(yīng)小于100的標(biāo)準(zhǔn)[4]。1987年Linnet等[5]針對(duì)正態(tài)分布和對(duì)數(shù)正態(tài)分布提出了相應(yīng)的樣本量標(biāo)準(zhǔn)，但是并未給出具體的樣本量估計(jì)公式。另外，在2003年Troendle等[6]的研究中針對(duì)正態(tài)分布資料的雙側(cè)參考值范圍提出了一種可調(diào)標(biāo)準(zhǔn)。2005年Jennen-Steinmetz[7]在Linnet的基礎(chǔ)上對(duì)一種新的樣本量估計(jì)方法進(jìn)行探索，該方法對(duì)于單側(cè)和雙側(cè)的參考值范圍樣本量估計(jì)均適用。

本文主要對(duì)Troendle和Jennen-Steinmetz提出的參考值樣本量估計(jì)方法的適用條件以及參數(shù)取值范圍進(jìn)行探索和討論。并在此基礎(chǔ)上對(duì)參考值范圍樣本量計(jì)算方法的研究提出一些思考。

樣本量計(jì)算公式

Jennen-Steinmetz在2005年提出了一種參考值范圍樣本量估計(jì)方法，根據(jù)樣本量估計(jì)方法中參考值范圍界值之外的人群比例(ψs)滿足指定的容許誤差δ的要求進(jìn)而推導(dǎo)出相應(yīng)的樣本量估計(jì)公式。

基于參數(shù)方法的樣本量估計(jì)公式

(1)

(2)

基于非參數(shù)方法的樣本量估計(jì)公式

n=((1+q)(1-q)/4)(z(1+η)/2/δ)2

(3)

n=q(1-q)(z(1+η)/2/δ)2

(4)

Troendle在2003年的研究中根據(jù)分位數(shù)的90%置信區(qū)間寬度和參考值范圍之間的比例，確定了一個(gè)針對(duì)于正態(tài)分布雙側(cè)參考值范圍的一般標(biāo)準(zhǔn)。

Troendle的研究中對(duì)于正態(tài)分布雙側(cè)參考值范圍的一般標(biāo)準(zhǔn)公式為

(5)

公式中各個(gè)參數(shù)的解釋：

n指所需樣本量；zg、z(1+η)/2、z(1+q)/2和z(1-q)/2為正態(tài)分布下，其對(duì)應(yīng)的臨界值；q指參考值范圍的百分?jǐn)?shù)；φ(z(1+q)/2)和φ(zq)為標(biāo)準(zhǔn)正態(tài)分布下對(duì)應(yīng)的密度函數(shù)值；η為ΨΩ與ψs差值小于等于容許誤差δ的概率(即P{|ΨΩ-ψs|≤δ}=η，ΨΩ：指總體中參考值范圍理論上界或下界之外的人群所占的比例(單側(cè)時(shí)為1-q，雙側(cè)時(shí)為(1-q)/2)，ψs：指總體中在實(shí)際樣本參考值范圍的上界或下界之外的人群所占的比例)；δ為ΨΩ與ψs之差的最大可接受值；r指端點(diǎn)分位數(shù)的90%置信區(qū)間寬度和參考值范圍寬度之間的比例。

研究方法

在Jennen-Steinmet的估計(jì)方法中η是一個(gè)核心參數(shù)，它在實(shí)際抽樣中的大小可以幫助我們判斷該樣本是否符合研究設(shè)計(jì)的精度要求。故本文中的計(jì)算機(jī)模擬是對(duì)Jennen-Steinmetz的估計(jì)方法中η在真實(shí)研究時(shí)能達(dá)到的估計(jì)值進(jìn)行計(jì)算機(jī)模擬估計(jì)。

計(jì)算參考值范圍所需樣本量大小取決于參考值范圍的寬度q、η和容許誤差δ。這三個(gè)值均可在研究設(shè)計(jì)之初，根據(jù)醫(yī)學(xué)指標(biāo)的專業(yè)特性和統(tǒng)計(jì)學(xué)原則指定，進(jìn)而估計(jì)研究所需的理論最小樣本量。本文在模擬過程中按照該理論樣本量抽出的樣本情況與總體間的差異能否滿足設(shè)定誤差δ的概率為η。計(jì)算機(jī)試驗(yàn)通過多次模擬抽樣從而估計(jì)出實(shí)際抽樣能達(dá)到的η值。

根據(jù)參數(shù)η和δ在其理論取值范圍內(nèi)，進(jìn)行等距取值，計(jì)算相應(yīng)情況下樣本量。根據(jù)樣本量的變化情況來探索兩個(gè)新參數(shù)在不同情況下的合適取值范圍。此外，本文還采用SAS宏和R函數(shù)形式對(duì)相應(yīng)的公式進(jìn)行編譯，便于研究者計(jì)算使用。

計(jì)算機(jī)模擬思路

1.正態(tài)分布的模擬：

由于一般正態(tài)分布均可轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布，故參數(shù)分布采用標(biāo)準(zhǔn)正態(tài)分布作為抽樣總體進(jìn)行模擬。

以下為計(jì)算機(jī)模擬步驟：

(1)根據(jù)各個(gè)參數(shù)的設(shè)定值，按照參數(shù)方法的樣本量估計(jì)公式，估計(jì)需要的最小樣本量

(2)按照估計(jì)的最小樣本量，在標(biāo)準(zhǔn)正態(tài)分布下隨機(jī)抽樣

(3)根據(jù)抽樣結(jié)果算出相應(yīng)的參考值范圍界值

(4)估計(jì)界值之外的人群所占的比例(ψs)

(5)差值|ΨΩ-ψs|為該樣本的抽樣誤差

(6)若差值的絕對(duì)值小于δ，則記為1

(7)統(tǒng)計(jì)1000次試驗(yàn)結(jié)果為1的次數(shù)，這個(gè)次數(shù)除以1000即為η

(8)重復(fù)3～7個(gè)步驟100次，計(jì)算η的平均值，即為最終的η

2.非正態(tài)分布的模擬：

非參數(shù)采用樣本量公式推導(dǎo)時(shí)使用的是次序統(tǒng)計(jì)量的分位數(shù)估計(jì)。由于次序統(tǒng)計(jì)量的分位數(shù)分布服從參數(shù)為(n+1)(1-q)和n+1-(n+1)(1-q)的Beta分布[8]，所以模擬時(shí)直接按樣本量和分位數(shù)在對(duì)應(yīng)的Beta分布下抽樣，抽出的數(shù)值即為真實(shí)世界中一次抽樣中樣本參考值范圍界值之外的人群所占總體人群的比例(ψs)。

以下為計(jì)算機(jī)模擬步驟：

(1)根據(jù)各個(gè)參數(shù)的設(shè)定值，按照非參數(shù)方法的樣本量估計(jì)公式，估計(jì)需要的最小樣本量

(2)按照取定的q和最小樣本量n的值用對(duì)應(yīng)的Beta分布B((n+1)(1-q)/2,n+1-(n+1)(1-q))進(jìn)行模擬(區(qū)間對(duì)稱時(shí)，在分布B((n+1)(1-q)/2,n+1-(n+1)(1-q)/2中抽取一個(gè)隨機(jī)值(即為：ψs))

(3)差值|ΨΩ-ψs|為該樣本的抽樣誤差

(4)若差值的絕對(duì)值小于δ，則記為1

(5)統(tǒng)計(jì)1000次試驗(yàn)結(jié)果為1的次數(shù)，這個(gè)次數(shù)除以1000即為η

(6)重復(fù)2～5個(gè)步驟100次，計(jì)算η的平均值，即為最終的η

結(jié) 果

表1是根據(jù)Jennen-Steinmetz在2005年提出的樣本量估計(jì)方法(公式：(1)、(2)、(3)、(4))，根據(jù)不同的參數(shù)q、η和δ在不同假設(shè)值情況下所需的樣本量并通過模擬試驗(yàn)估計(jì)出的實(shí)際η。結(jié)果顯示，在各個(gè)參數(shù)的不同水平取值下，模擬抽樣中的η與估計(jì)公式中的預(yù)設(shè)值都比較接近甚至能超過預(yù)設(shè)值的要求。最小樣本量除了受到容許誤差δ的影響外，還受到q、參考值范圍的單雙側(cè)和估計(jì)方法的影響。當(dāng)q的取值從0.90變化到0.95，其他參數(shù)和情況相同時(shí)樣本量的增加量基本在一倍左右。在其他參數(shù)相同時(shí)，參數(shù)方法與非參數(shù)方法相比或單側(cè)參考值范圍與雙側(cè)參考值范圍相比，其樣本量的變化情況也類似。

圖1為根據(jù)Jennen-Steinmetz在2005年提出樣本量估計(jì)方法(公式：(1)、(2)、(3)、(4))，在預(yù)設(shè)η為0.9，q為0.95時(shí)。不同的容許誤差要求(即：δ的不同取值情況)下樣本量需求的變化情況。針對(duì)相同的容許誤差非參數(shù)方法相對(duì)于參數(shù)方法而言會(huì)較大地增加樣本量的需求。參數(shù)單側(cè)和非參數(shù)雙側(cè)的樣本量變化趨勢(shì)基本一致。在δ小于0.003時(shí)，最小樣本量隨δ的變小迅速增大。

表2是根據(jù)Troendle(公式(5))在2003年提出的標(biāo)準(zhǔn)中r在不同取值情況下估計(jì)目的指標(biāo)0.90，0.95和0.99參考值范圍所需要的最小樣本量。本文估計(jì)了r取值從0.01到0.5的理論樣本量估計(jì)情況，考慮到實(shí)際工作中可能涉及的樣本量范圍的合理性，羅列了其中的一部分。從結(jié)果中可以看出，r>0.16時(shí)樣本量均小于一般推薦值(一般推薦樣本量不應(yīng)小于100[4])。r<0.03時(shí)，隨著r的進(jìn)步縮小，樣本需求迅速增大。

表1 參數(shù)q、β和δ在不同取值情況下的樣本量需求及其模擬η

圖1 不同的容許誤差(δ)要求下樣本量需求的變化情況(固定η=0.9，q=0.95)

表2 r不同取值情況下所需要的最小樣本量

圖2為參考值范圍樣本量估計(jì)時(shí)需要考慮的一般流程，主要分為兩個(gè)方面，一方面是需要指定的參考值范圍是單側(cè)還是雙側(cè)。另一方面是研究的指標(biāo)分布類型是否為參數(shù)分布。確定這兩方面的情況后，即可確定相應(yīng)的樣本量估計(jì)公式。再根據(jù)公式確定相應(yīng)的參數(shù)取值(r或q、δ和η)進(jìn)行估計(jì)。我們?cè)诟郊绦蛑刑峁┝斯?1)～公式(5)估計(jì)的SAS和R程序，供讀者參考。

圖2 參考值范圍樣本量一般估計(jì)流程

討論

模擬驗(yàn)證結(jié)果顯示通過重復(fù)抽樣計(jì)算的η基本能達(dá)到所計(jì)劃的預(yù)設(shè)值。在變換參數(shù)δ和r的計(jì)算中，我們計(jì)算了δ在0.001～0.03取值時(shí)其相應(yīng)的樣本量在8～32000變化，r在0.01～0.30取值時(shí)其相應(yīng)的樣本量在20～23523變化。結(jié)合實(shí)際科研工作中合理的樣本量范圍，建議δ的適宜取值范圍約在0.002～0.015。r的適宜取值范圍約在0.01～0.12。

根據(jù)圖1結(jié)果，我們對(duì)不同情況下Jennen-Steinmetz的公式中參數(shù)的取值范圍進(jìn)一步討論，參數(shù)單側(cè)和非參數(shù)雙側(cè)的樣本量變化在容許誤差大于0.001時(shí)樣本量迅速下降，而小于0.003時(shí)需要的樣本量迅速增大。建議一般情況下容許誤差的選取可在0.3%～1%。參數(shù)雙側(cè)的樣本量在容許誤差大于0.75%時(shí)樣本量迅速下降，在小于0.2%時(shí)需要的樣本量迅速增大。建議一般情況下容許誤差的選取可在0.2%～0.75%考慮。非參數(shù)單側(cè)的樣本量在容許誤差大于0.75%時(shí)樣本量迅速下降，在小于0.2%時(shí)需要的樣本量迅速增大。建議一般情況下容許誤差的選取可在0.2%～0.75%。建議研究者可根據(jù)研究的實(shí)際要求，在此區(qū)間選擇合適的誤差容許范圍。η是估計(jì)樣本量時(shí)構(gòu)建的一個(gè)新統(tǒng)計(jì)量，暫時(shí)沒有標(biāo)準(zhǔn)的取值范圍，一般情況η取0.9，但在實(shí)際研究過程中如果研究需要或者條件有限，可適當(dāng)調(diào)整η的取值，但不應(yīng)該低于0.8。另外，參考相關(guān)統(tǒng)計(jì)學(xué)教材[9-10]，q的取值一般為0.9或0.95。陳彬[4]等在相關(guān)研究中指出q的取值應(yīng)不低于0.8。

對(duì)Jennen-Steinmetz方法的模擬結(jié)果中可知。在參考值范圍的研究過程中，應(yīng)結(jié)合實(shí)際情況選取合適的參數(shù)，對(duì)于能轉(zhuǎn)換為正態(tài)分布的指標(biāo)，應(yīng)轉(zhuǎn)換后再進(jìn)行樣本量估計(jì)和參考值范圍估計(jì)。此外應(yīng)結(jié)合研究的實(shí)際可行性確定合適q和δ值以及其他影響因素，以期望指標(biāo)能盡可能真實(shí)地反應(yīng)“正常”人群當(dāng)前的情況。

Jennen-Steinmetz法也有一些不足的地方，醫(yī)學(xué)研究的樣本量估計(jì)思想一般是在統(tǒng)計(jì)假設(shè)的基礎(chǔ)上為滿足統(tǒng)計(jì)的準(zhǔn)確性和可靠性來進(jìn)行估計(jì)，但Jennen-Steinmetz研究并未考慮相關(guān)的統(tǒng)計(jì)假設(shè)，而是通過參考值范圍界值之外人群比例(ψs)的計(jì)算來估計(jì)樣本量。導(dǎo)致公式中的相關(guān)指標(biāo)η難以用經(jīng)典的統(tǒng)計(jì)標(biāo)準(zhǔn)解釋。增加了公式的理解難度。此外，在雙側(cè)參考值范圍計(jì)算時(shí)根據(jù)參考值范圍的對(duì)稱性，文中的公式僅考慮了一側(cè)的參考值范圍界值之外的人群比例。但由于抽樣誤差的存在這個(gè)范圍寬度是不對(duì)稱的。所以該公式可能低估雙側(cè)參考值范圍的樣本需求量。

Troendle提供的參考值范圍樣本量需求的一般標(biāo)準(zhǔn)(即公式5)是使用參考值范圍端點(diǎn)值的90%置信區(qū)間長(zhǎng)度與參考值范圍的長(zhǎng)度的比值構(gòu)建了一個(gè)新的統(tǒng)計(jì)量r。然后根據(jù)研究的精度要求對(duì)r的取值規(guī)定估計(jì)出所需的樣本量n，需要注意的是r并非一個(gè)隨機(jī)變量，不會(huì)因?yàn)槌闃硬煌淖?。該方法要求參考值范圍要為雙側(cè)對(duì)稱。此方法并不適用于單側(cè)參考值范圍樣本量需求的估計(jì)。此公式在構(gòu)建統(tǒng)計(jì)量r時(shí)，只考慮到了樣本本身的情況，并沒有很好的度量樣本數(shù)據(jù)與總體之間的抽樣誤差。此外，該方法估計(jì)的樣本量是能使樣本參考值范圍端點(diǎn)值的90%置信區(qū)間長(zhǎng)度與參考值范圍的長(zhǎng)度的比值小于預(yù)設(shè)的r值的確定樣本量，但并非最小樣本量。即按照該樣本量進(jìn)行隨機(jī)抽樣的樣本，所估計(jì)的比值必然小于r。另外，端點(diǎn)值90%置信區(qū)間長(zhǎng)度，只是取了常用的90%置信區(qū)間，如果取其他置信區(qū)間長(zhǎng)度時(shí)計(jì)算公式將會(huì)隨之變化。因此，本文并未對(duì)Troendle的公式進(jìn)行計(jì)算機(jī)模擬。

與Troendle的估計(jì)方法相比，Jennen-Steinmetz的估計(jì)方法引入了抽樣誤差的概念。并且更好地解釋了樣本和總體之間的關(guān)系，但其參數(shù)多，估計(jì)相對(duì)繁瑣，而Troendle的估計(jì)方法相對(duì)來說更加簡(jiǎn)單。如果研究者已知指標(biāo)的總體分布，不需要細(xì)致地衡量抽樣誤差或研究結(jié)果只需要在小范圍內(nèi)使用，則可以采用Troendle的樣本量估計(jì)方法。如果所研究的指標(biāo)分布未知、需要制定單側(cè)參考值范圍、容易產(chǎn)生抽樣誤差或研究結(jié)果需要在較大范圍內(nèi)使用，則應(yīng)該采用Jennen-Steinmetz的估計(jì)方法。

值得注意的是文中介紹的公式均只考慮了單一因素的參考值范圍的樣本量估計(jì)，對(duì)于采用回歸進(jìn)行的參考值范圍估計(jì)或需要調(diào)整其他協(xié)變量的影響時(shí)，以上方法并不適用。此外，文中的方法均未使用任何樣本信息，這可能會(huì)低估變異很大的指標(biāo)在計(jì)算參考值范圍時(shí)實(shí)際所需要的樣本量。綜上，當(dāng)前的參考值范圍樣本量計(jì)算方法能為科學(xué)研究提供一定的參考，但還需要進(jìn)一步的研究進(jìn)行改進(jìn)優(yōu)化，制定更完善的樣本量估計(jì)方法。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

參考值范圍樣本量估計(jì)中參數(shù)的適度性研究

樣本量計(jì)算公式

研究方法

計(jì)算機(jī)模擬思路

結(jié) 果

討 論

討論