郭軼斌,李佳迅,吳 騁,郭 威,何 倩
1.海軍軍醫(yī)大學(xué)衛(wèi)生勤務(wù)學(xué)系軍隊衛(wèi)生統(tǒng)計學(xué)教研室(上海 200433)
2.海軍軍醫(yī)大學(xué)基礎(chǔ)醫(yī)學(xué)院(上海 200433)
在基礎(chǔ)醫(yī)學(xué)實驗研究中,研究對象以細胞、動物為主,一些實驗細胞或動物模型不僅構(gòu)造困難,而且花費較大,如巴馬小型豬或恒河猴等,不僅動物本身費用較高,同時因倫理限制無法納入太多。因此,部分動物實驗的樣本量極小,如每組小于10 例[1-3]。統(tǒng)計學(xué)上為了保證一定的統(tǒng)計檢驗效率,常要求樣本例數(shù)不能過小。此外,在使用如獨立樣本t檢驗等參數(shù)檢驗方法時,還要求樣本服從正態(tài)分布和方差齊性的假設(shè)[4]。但在極小樣本的情況下,即使是不服從正態(tài)分布的樣本,在統(tǒng)計檢驗效率很低的情況下也無法拒絕H0假設(shè)(樣本服從正態(tài)分布或滿足方差齊性)。當獨立定量資料樣本不滿足正態(tài)分布或方差齊性假設(shè)時,可以使用對數(shù)據(jù)分布不敏感的非參數(shù)檢驗,對于兩組獨立定量資料,可以使用Wilcoxon秩和檢驗或Mann-WhitneyU檢驗來比較兩個樣本所代表的總體分布位置是否相同[5-6]。但這兩種方法是將樣本的原始數(shù)據(jù)編秩后再進行后續(xù)的假設(shè)檢驗,當資料服從參數(shù)檢驗的條件時,會導(dǎo)致樣本大量變異的信息損失,進而影響統(tǒng)計檢驗效率,增加犯Ⅱ類錯誤的概率[7]。當樣本量小于4 時,使用Wilcoxon 秩和檢驗的P值均大于0.05。Siegel 認為樣本量小于6 時,不能使用t檢驗[8]。祝國強等認為在對非正態(tài)極小樣本的定量資料進行統(tǒng)計推斷時,不適合使用t檢驗,推薦使用Wilcoxon 秩和檢驗[9]。林正大等認為在大樣本或偏離對稱性較遠的情況下,Wilcoxon 秩和檢驗更優(yōu)[10]。對于統(tǒng)計學(xué)的頻率學(xué)派來說,假設(shè)檢驗和置信區(qū)間(Confidence Interval,CI)是一對相伴相隨的概念,在同一置信度/檢驗水準下,參數(shù)的置信區(qū)間未跨過拒絕域,假設(shè)檢驗則不能拒絕H0。Bootstrap 法是一種可以用來穩(wěn)健地估計置信區(qū)間的非參數(shù)方法,其通過對原始樣本數(shù)據(jù)進行有放回抽樣得到統(tǒng)計量的經(jīng)驗分布,從而估計統(tǒng)計量對應(yīng)總體參數(shù)的置信區(qū)間[11]。在極小樣本時,Bootstrap 法能否達到其在大樣本中的穩(wěn)健性,以及該方法估計的置信區(qū)間的精度也值得進一步探索。
本研究采用蒙特卡洛數(shù)據(jù)模擬方法,比較兩獨立樣本t檢驗、Wilcoxon 秩和檢驗和Bootstrap 置信區(qū)間法在解決極小樣本兩獨立定量資料比較中的表現(xiàn),以期為相關(guān)實驗性研究提供方法學(xué)參考。
通過蒙特卡洛數(shù)據(jù)模擬方法生成模擬數(shù)據(jù),主要有以下幾個模擬情景。樣本含量:本研究主要模擬極小樣本量下的統(tǒng)計方法表現(xiàn)性能,共模擬5 種樣本量——每組各2、3、5、10 和20。均數(shù)差:共設(shè)置5 種均數(shù)差——0、0.5、1、2 和3。從均數(shù)相同的兩總體中抽樣,兩總體均數(shù)差為0,H0成立,且均數(shù)差的置信區(qū)間包含0,認為兩樣本來自同一總體,兩組樣本均數(shù)的不同由抽樣誤差造成,當統(tǒng)計檢驗方法拒絕H0時則認為發(fā)生I類錯誤。當兩樣本均數(shù)差不為0 時,兩樣本不是來自同一樣本,若統(tǒng)計檢驗方法未能拒絕H0,則認為發(fā)生Ⅱ類錯誤。樣本分布:共設(shè)置3 種總體分布,第1 種為兩樣本均服從總體方差為12 的正態(tài)分布,總體均數(shù)根據(jù)均數(shù)差確定(其中一組為0,即第一組的總體為標準正態(tài)分布);第2種(偏態(tài)分布一)為兩樣本服從偏度系數(shù)為1.5,峰度系數(shù)為3.0 的偏態(tài)分布;第3 種(偏態(tài)分布二)為兩樣本服從偏度系數(shù)為1.0,峰度系數(shù)為2.0 的偏態(tài)分布[12]。
對以上三個因素的不同水平進行全排列構(gòu)建75 種(5 種樣本量×5 種均數(shù)差×3 種總體分布)情景,每種生成10 000 個模擬數(shù)據(jù)集。
基于Bootstrap 法估計均數(shù)差的置信區(qū)間。采用Bootstrap 重抽樣技術(shù)對模擬數(shù)據(jù)集進行1 000次重抽樣構(gòu)建兩樣本均數(shù)差的經(jīng)驗分布。通過估計經(jīng)驗分布的第2.5%和第97.5%分位數(shù)確定均數(shù)差的95%CI。當95%CI 下限大于0 或上限小于0 時,認為兩組均數(shù)差異有統(tǒng)計學(xué)意義,兩樣本對應(yīng)的總體均數(shù)不同。
參數(shù)和非參數(shù)假設(shè)檢驗法。采用兩獨立樣本t檢驗和Wilcoxon 秩和檢驗對兩總體均數(shù)是否相同進行假設(shè)檢驗。與Bootstrap 法估計的95%CI相對應(yīng),假設(shè)檢驗的檢驗水準α=0.05,均為雙側(cè)檢驗。
在均數(shù)差為0 時,若t檢驗和Wilcoxon 秩和檢驗的P值小于α,或Bootstrap 法估計的均數(shù)差95%CI 未跨過0,認為發(fā)生I 類錯誤。在均數(shù)差不為0 時,以上情形認為成功檢驗出統(tǒng)計學(xué)差異,即未發(fā)生Ⅱ類錯誤。
分別使用t檢驗、Wilcoxon秩和檢驗和Bootstrap 置信區(qū)間法對75 種情景下,每種情景的10 000 個模擬數(shù)據(jù)集進行分析。計算并比較3 種方法在不同數(shù)據(jù)情景下的I 類錯誤發(fā)生率和100%-Ⅱ類錯誤發(fā)生率(統(tǒng)計效率)。
本研究使用的統(tǒng)計軟件為R 4.1.3,數(shù)據(jù)模擬的平臺為塔式服務(wù)器,處理器型號為Intel Xeon Gold 6230,內(nèi)存為384GB。
大樣本時I 類錯誤的發(fā)生與樣本量無關(guān),其僅與檢驗水準α 有關(guān),但根據(jù)本研究的模擬結(jié)果,t檢驗和Wilcoxon 秩和檢驗的I 類錯誤發(fā)生率均小于檢驗水準(圖1a 和圖1b)。當樣本量n=2、n=3 時,Wilcoxon 秩和檢驗的I 類錯誤發(fā)生率為0。這是由Wilcoxon 秩和檢驗方法特性造成的[8]。對于t檢驗來說,極小樣本時的I 類錯誤發(fā)生率小于檢驗水準α,尤其是當數(shù)據(jù)分布為本研究設(shè)定的兩種偏態(tài)分布時更為明顯,這可能與此種情形下不適用t檢驗有關(guān)。但Bootstrap 置信區(qū)間法的I 類錯誤發(fā)生率較高,當數(shù)據(jù)服從正態(tài)分布時,I類錯誤發(fā)生率隨著樣本量的增加而下降,當數(shù)據(jù)為偏態(tài)分布時,I 類錯誤發(fā)生率隨著樣本量的增加而上升(圖1c)。
圖1 三種方法的I類錯誤發(fā)生率(%)Figure 1.Type I error rate of three methods (%)
三種總體分布下(正態(tài)分布、偏態(tài)分布一和偏態(tài)分布二)分別使用三種方法(t檢驗、Wilcoxon 秩和檢驗和Bootstrap 置信區(qū)間法)的統(tǒng)計效率分別如圖2a、圖2b 和圖2c 所示。當均數(shù)差較小時,無論使用哪種方法,統(tǒng)計效率都很低,Bootstrap 置信區(qū)間法表現(xiàn)略優(yōu)于另外兩種假設(shè)檢驗的方法;當均數(shù)差較大時,即使樣本量很小,Bootstrap 置信區(qū)間法仍有較高的統(tǒng)計效率,說明此時犯Ⅱ類錯誤的概率較低(圖2c)。
圖2 不同情形下三種方法的統(tǒng)計效率(%)Figure 2.Power of three methods in different scenarios (%)
無論數(shù)據(jù)是否服從正態(tài)分布,當樣本量極小時(n=2、n=3),t檢驗的表現(xiàn)優(yōu)于Wilcoxon 秩和檢驗。但當樣本量較大且均數(shù)差也較大時,t檢驗與Wilcoxon 秩和檢驗統(tǒng)計效率差異不大(圖2a、圖2b)。
本研究通過數(shù)據(jù)模擬的方法,探索了采用兩獨立樣本t檢驗、Wilcoxon 秩和檢驗和Bootstrap置信區(qū)間法對極小樣本兩獨立定量資料進行統(tǒng)計推斷時統(tǒng)計效率的差異。由模擬結(jié)果可見,相較于Wilcoxon 秩和檢驗,t檢驗在樣本量極小時(n=2、n=3)仍有一定的統(tǒng)計效率,且對總體數(shù)據(jù)分布不是很敏感。當數(shù)據(jù)服從本研究設(shè)定的兩種偏態(tài)分布時,t檢驗的表現(xiàn)不差于Wilcoxon 秩和檢驗。在樣本量極小時,Bootstrap 置信區(qū)間法可以增加統(tǒng)計效率,但在兩組樣本均數(shù)差為0(即兩組樣本來自同一總體),且數(shù)據(jù)服從正態(tài)分布時,犯I 類錯誤的概率較高。
綜上,根據(jù)本模擬研究結(jié)果,當數(shù)據(jù)服從正態(tài)分布時,建議使用t檢驗對極小樣本進行統(tǒng)計推斷;當數(shù)據(jù)不服從正態(tài)分布時,建議使用Bootstrap 置信區(qū)間法對極小樣本進行統(tǒng)計推斷。由于對于極小樣本統(tǒng)計效率太低,當樣本量極小時,無論數(shù)據(jù)服從何種分布,均不建議使用Wilcoxon 秩和檢驗進行統(tǒng)計推斷。