林 潔 孫志明
1.國家人口計生委計劃生育藥具不良反應監(jiān)測中心,江蘇南京210036;2.江蘇省計劃生育科學技術研究所,江蘇南京210036
SAS、PASS、Stata三種常用軟件樣本量計算方法及結果差異的比較
林 潔1,2孫志明1,2
1.國家人口計生委計劃生育藥具不良反應監(jiān)測中心,江蘇南京210036;2.江蘇省計劃生育科學技術研究所,江蘇南京210036
目的分析和探討運用SAS、PASS、Stata 3種軟件在兩均數(率)比較中進行樣本量估計的結果差異,推薦合適的樣本量估計軟件。方法通過設定不同的參數情況,分別運用3種軟件計算各自樣本量,并且與公式計算結果進行比較。結果在兩均數比較時,Stata和PASS的樣本量估計結果最準確,不同的參數會影響SAS的結果;在兩個率比較時,SAS最準確,PASS的準確性與樣本量大小有關系,Stata結果偏大且受不同參數的影響。結論不同軟件計算結果并不一致,綜合考慮推薦用SAS軟件進行兩樣本均數(率)比較的樣本量估計。
樣本量估計;SAS;PASS;Stata
樣本量(sample size)是指承受研究實施的樣本所包含之觀察單位數,或樣本例數。除個別設計方法外,在研究設計中必須確定需要多少實驗對象或觀察對象。樣本量對研究效果有重要影響,在小樣本研究中尤其如此[1]。一系列規(guī)范的的醫(yī)學研究報告,如加強觀察性流行病學研究報告質量的聲明和臨床試驗報告統(tǒng)一標準等均要求在研究報告中描述“如何計算樣本含量”[2-6]。開展一項研究,往往因為各種因素(人力、物力、經費等)限制,只能對總體中的一部分進行研究,即研究樣本,然后由樣本統(tǒng)計量推斷總體參數。樣本過小,結果不穩(wěn)定,不能真實地反映總體規(guī)律;而樣本量過大,會增大研究的難度,并造成人力、物力的浪費[7]。所以合理的樣本量,一方面,可以在既定的經費下保證精確度和可靠性;另一方面,可以在既定的精確度和可靠性合理利用資源,保證抽樣推斷的最大效果。
目前可以用于估計樣本含量的軟件很多,其中較常用的有SAS、Stata、PASS等。SAS是由美國北卡羅來納州立大學1966年開發(fā)的統(tǒng)計分析軟件,在國際上被譽為統(tǒng)計分析的標準軟件,在各個領域得到了廣泛應用[8];Stata是Statacorp于1985年開發(fā)的統(tǒng)計程序,在全球范圍內被廣泛應用于經濟學、社會學及流行病學等領域;PASS是由Hintze等人研發(fā),專門用于計算樣本量的統(tǒng)計軟件,操作簡便快捷。然而各軟件計算結果是否一致,研究者該選擇何種類型的樣本量計算軟件是研究中亟待解決的實際問題。本次研究的主要目的是以計算兩均數(率)之差的樣本量為例來比較SAS、Stata、PASS 3種軟件的結果差異,探討各軟件計算樣本量的優(yōu)缺點。
1.1 兩均數比較
1.1.1 樣本量計算公式
兩均數比較時,樣本量取決于以下4個條件:①假設檢驗的第Ⅰ類錯誤α;②假設檢驗的第Ⅱ類錯誤β,或檢驗效能1-β;③兩總體均數之差δ;④σ總體標準差[9-11]。假設兩組樣本量相等,所需樣本量可由下式估計:
1.1.2 參數設置
根據公式(1)假設第Ⅰ類錯誤琢=0.10,0.05,0.01;檢驗效能1-茁=0.80,0.90,0.95;組1總體均數滋1=1,兩總體均數之差啄=0.10,0.20,0.30…,2.0;總體標準差σ=1;雙側檢驗。
1.1.2.1 SAS 9.3程序:
1.1.2.2 Stata10命令:
sampsi 1.1 1,a(0.1)power(0.8)sd1(1)
不同參數下,Stata命令語句類似,只需替換sampsi命令后面的兩組均數值,以及第Ⅰ類錯誤α、檢驗效能power和組1標準差sd1括號里的值。
1.1.2.3 PASS 11主菜單選擇PASS 11關于兩均數比較樣本量估計的參數設置主菜單選擇見圖1。
圖1 PASS 11關于兩均數比較樣本量估計的參數設置
1.2 兩個率比較
比較兩樣本率的目的是推斷它們各自所代表的總體率是否相等。
1.2.1 樣本量計算公式兩個率比較
樣本量取決于以下3個條件:①假設檢驗的第Ⅰ類錯誤琢;②假設檢驗的第Ⅱ類錯誤茁,或檢驗效能1-茁;③兩總體率p1,p2[9-11]。假設兩組樣本量相等,所需樣本量可由下式估計:
圖2 PASS 11關于兩個率比較樣本量估計的參數設置
2.1 兩均數比較的樣本量估計結果
通過給參數琢、茁和啄/滓賦予不同的取值,分別運用3種軟件和公式計算得出的兩均數比較樣本量估計結果,見表1。
從表1中可以看出,無論第Ⅰ類錯誤(琢)、檢驗效能(1-茁)以及總體均數之差與總體標準差的比值(啄/滓)如何變化,Stata估計的樣本量與公式計算結果完全一致。PASS的結果與公式計算也基本結果一致,但發(fā)現(xiàn)琢=0.05或0.1,1-茁=0.80,啄/滓=4.0時,公式計算的樣本量為1,而PASS為2,可能是因為通過PASS軟件估計的樣本量最小值為2,為了驗證這一假設,于是增大啄/滓至1000,發(fā)現(xiàn)PASS的結果仍為2,于是可得結論PASS估計的樣本量下限為2。SAS的結果略大于其他3種方法,發(fā)現(xiàn)當琢和1-茁一定時,隨著啄/滓的增大,樣本量增加的幅度有增大趨勢;當琢和啄/滓一定時,隨著1-茁的增大,樣本量增加的幅度有減小趨勢;當1-茁和啄/滓一定時,增幅隨琢變化的趨勢不明顯。通過模擬發(fā)現(xiàn),SAS僅比公式多出1、2例,所以可以忽略。
2.2 兩個率比較的樣本量估計結果
通過給參數琢、茁和Δp賦予不同的取值,分別運用3種軟件和公式計算得出的兩個率比較的樣本量估計結果,見表2。
從表2中可以看出,無論第Ⅰ類錯誤(琢)、檢驗效能(1-茁)以及率差(Δp)如何變化,SAS估計的樣本量與公式計算結果完全一致。當所得樣本量≥117時,發(fā)現(xiàn)PASS與公式計算結果一致;當樣本量臆101時,PASS
1.2.2 參數設置
根據公式(2)假設第Ⅰ類錯誤琢=0.10,0.05,0.01;檢驗效能1-茁=0.80,0.90,0.95;兩總體率p2=0.10,Δp=0.025,0.05,0.10,…,0.80;雙側檢驗。
1.2.2.1 SAS 9.3程序[12]:
procpower;
twosamplefreq
groupweights=(11)
pdiff=0.025 0.05 0.10.20.30.40.50.60.70.8
refproportion=0.1
power=0.80.90.95
alpha=0.100.050.01
ntotal=.;
run;
1.2.2.2 Stata 10命令:
sampsi0.1250.1,a(0.1)power(0.8)
不同參數下,Stata命令語句類似,只需替換sampsi命令后面的兩個率的值,以及第Ⅰ類錯誤α、檢驗效能power括號里的值。
1.2.2.3 PASS 11主菜單選擇PASS 11關于兩個率比較樣本量估計的參數設置見圖2。
結果比公式略小。而Stata計算出的樣本量則較大,發(fā)現(xiàn)當琢和1-茁一定時,隨著Δp的增大,樣本量增加的幅度有增大趨勢;當琢和Δp一定時,隨著1-茁的增大,樣本量增加的幅度有減小趨勢;當1-茁和Δp一定時,隨著琢的增大,樣本量增加的幅度有增大的趨勢。
表1 不同參數下4種方法的兩均數比較樣本量估計結果
表2 不同參數下4種方法的兩個率比較樣本量估計結果
綜上所述,在兩均數比較時,Stata和PASS樣本量估計結果最準確,不同的參數設置會影響SAS的計算結果;在兩個率比較時,SAS最準確,PASS的準確性與樣本量大小有關系,Stata結果偏大且受不同參數的影響。
本文對兩種常見研究類型的樣本量估計進行了比較,發(fā)現(xiàn)3種軟件計算結果并不完全一致。SAS在兩個率比較時得出的樣本量準確性最高,而在兩均數比較時得出的樣本量略大,但經模擬實驗發(fā)現(xiàn),無論將參數進行何種組合設置,結果發(fā)現(xiàn)每組結果僅比公式多出1、2例,這對實際的樣本收集影響不大;PASS和Stata在估計兩均數比較樣本量時準確性最高,但PASS在估計兩個率比較的樣本量時,當樣本量低于100左右時,會低估樣本量,無形的降低了檢驗效能;相反Stata則高估樣本量,可能會增加實際樣本收集的難度,同樣也會增加研究成本,尤其是當每例樣本的成本較大時更為明顯。因此,在實際運用中,推薦運用SAS進行這兩種類型的樣本量估計,而對于其他研究類型,將在后續(xù)研究中進行探討。
以上樣本含量的研究是基于理論之上,而實際研究中,樣本量的估計還要考慮研究中面臨的一些實際問題,如研究對象的選擇、完成研究所需的經費等成本問題。除此之外,還需要考慮研究對象的依從性和失訪等因素,通常會將樣本量增大20%左右。倫理也是在確定樣本量時必須考慮的因素,如果確定了較大的樣本量,但實際效果不明顯,或為達到所需的研究結果,在較長期限內讓研究對象承受生理上的不適。這些都是需要研究者權衡的因素[13-15]。
[1]陸守曾,陳峰.醫(yī)學統(tǒng)計學[M].北京:中國統(tǒng)計出版社,2009:166-170.
[2]Begg C,Cho M,Eastwood S,et al.Improving the quality of reporting of randomized controlled trials.The CONSORT statement[J].JAMA,1996,276:637-639.
[3]王波,詹思延.觀察性流行病學研究報告規(guī)范——STROBE介紹[J].中華流行病學雜志,2006,27(6):547-549.
[4]陳茹,段芳芳,詹思延.如何撰寫高質量的流行病學研究論文第二講分子流行病學研究報告規(guī)范—STROBE—ME介紹[J].中華流行病學雜志,2013,34(7):740-744.
[5]林小燕,蘇文亮,方曉義.CONSORT標準評價心理學隨機對照研究報告的質量——以國內網絡成癮干預研究為例[J].中國心里衛(wèi)生雜志,2013,27(12):883-889.
[6]盛曉陽.參照CONSORT2010聲明撰寫平行對照隨機臨床研究論文[J].臨床兒科雜志,2013,31(2):198-200.
[7]董芬,李超,彭曉霞,等.臨床研究中樣本含量計算的意義、計算方法及注意事項[J].中國卒中雜志,2009,4(10):854-859.
[8]朱世武.SAS編程技術教程[M].北京:清華大學出版社,2007:1.
[9]金丕煥,鄧偉.優(yōu)效性、等效性和非劣效性試驗的統(tǒng)計檢驗和樣本大小的估計[M].上海:復旦大學出版社,2004:86-92.
[10]吳興,李嬋娟,丁伯福,等.兩均數比較的有效性臨床試驗樣本量估計[J].數理醫(yī)學雜志,2013,26(5):517-519.
[11]李嬋娟,蔣志偉,王銳,等.隨機對照藥物臨床試驗樣本量估計[J].中國臨床藥理學與治療學,2011,16(10):1132-1136.
[12]朱玲湘,唐欣然,段重陽.樣本量估計及其在nQuery和SAS軟件上的實現(xiàn)——率的比較(五)[J].中國衛(wèi)生統(tǒng)計,2013,(1):146-149.
[13]Sakpal T.Sample size estimation in clinical trail[J].PerspectClin Res,2010,1(2):67-69.
[14]李雪迎.臨床研究樣本量的統(tǒng)計學估算[J].中國介入心臟病學雜志,2014,(7):430-430.
[15]Billoir E,Navratil V,Blaise BJ.Sample size calculation in metabolic phenotyping studies[J].Bridf Bioinform,2015,19:1-8.
Com paring the differences between SAS,PASS and Stata for sam p le size calculation
LIN Jie1,2SUN Zhiming1,2
1.NPFPC Contraceptives Adverse Reaction Monitoring Center,National Population and Family Planning Commission, Jiangsu Province,Nanjing 210036,China;2.Jiangsu Institute of Planned Parenthood Research,Jiangsu Province, Nanjing 210036,China
Objective To analyze the differences between SAS,PASSand Stata for sample size calculation in a test of twomeans(rates)and recommend the appropriate software for sample size calculation.M ethods By setting different parameters,sample sizeswere calculated using three kinds of software respectively and compared with the formula results. Results In two sample means test,Stata and PASS had themost accurate results,the results in SASwere affected by different parameters.In two sample rates test,the SAS resultswere the best of three,the accuracy of PASSwas related with the sample size,the results in Stata were larger than others and affected by different parameters.Conclusion The results are not consistent using different software,SAS is recommended for two samplemean(rate)of sample size calculation.
Sample size calculation;SAS;PASS;Stata
R181
A[文獻標識碼]1673-7210(2015)06(c)-0133-05
2015-03-15本文編輯:程銘)
江蘇省衛(wèi)計委指導性科技項目(JSFPC2014012)。
林潔(1987-),女,漢族,碩士;研究方向:衛(wèi)生統(tǒng)計與藥物警戒流行病學。
孫志明(1973-),男,漢族,碩士,副研究員;研究方向:藥物警戒流行病學。