孫付勝任春征皇甫蓓蓓陳秀英
(1 菏澤市疾病預(yù)防控制中心,山東 菏澤 274000;2 青島市中心(腫瘤)醫(yī)院,山東 青島 266042)
配對(duì)計(jì)數(shù)資料的統(tǒng)計(jì)檢驗(yàn)方法
孫付勝1任春征2皇甫蓓蓓1陳秀英1
(1 菏澤市疾病預(yù)防控制中心,山東 菏澤 274000;2 青島市中心(腫瘤)醫(yī)院,山東 青島 266042)
配對(duì)計(jì)數(shù)資料;統(tǒng)計(jì);檢驗(yàn)
在臨床試驗(yàn)以及醫(yī)學(xué)科研中經(jīng)常會(huì)用到2×2配對(duì)設(shè)計(jì),比如用兩種方法治療同一批患者,以觀察兩種療法療效的差別;用兩種培養(yǎng)基培養(yǎng)同一批標(biāo)本,看其陽性結(jié)果情況等。針對(duì)這種設(shè)計(jì)人們普遍用到的檢驗(yàn)方法是χ2檢驗(yàn)中的Mcnemar檢驗(yàn),其公式為χ2=(b-c)2/(b+c)(b+c≥40),校正公式為(|b-c|-1)2/(b+c)(b+c<40),這個(gè)公式因其簡單易用而受到人們的青睞,但它有一個(gè)明顯的缺陷,即只是利用了檢驗(yàn)結(jié)果不一致的對(duì)子數(shù)b和c,總的樣本對(duì)子數(shù)N卻不受任何約束,也就是說沒有充分利用樣本所提供的全部信息,因此有時(shí)就不能如實(shí)反映客觀實(shí)際[1],以一個(gè)簡單的例子來說明這個(gè)問題。
分別有50份、500份和5000份咽拭子樣本,每份標(biāo)本接種于甲乙兩種流腦培養(yǎng)基上,觀察流腦菌生長情況,結(jié)果見表1~表3,問兩種培養(yǎng)基的效果何者為優(yōu)?
表1 兩種流腦培養(yǎng)基的效果
表2 兩種流腦培養(yǎng)基的效果
表3 兩種流腦培養(yǎng)基的效果
若對(duì)以上3個(gè)表格用Mcnemar公式進(jìn)行檢驗(yàn),會(huì)得到同樣的結(jié)果:χ2=4.90,但仔細(xì)觀察表中的數(shù)據(jù),我們會(huì)發(fā)現(xiàn)對(duì)3個(gè)表的結(jié)果是不能等量齊觀的,而Mcnemar檢驗(yàn)恰恰將它們同等對(duì)待,這就是其缺陷所在:只考慮b和c,而忽視了a和d所能提供的信息,對(duì)樣本量的變化視若無睹。
這個(gè)問題已引起國內(nèi)外諸多學(xué)者的注意,正是基于以上考慮,他們對(duì)這一問題進(jìn)行了深入探討并提出了相應(yīng)的解決辦法?,F(xiàn)將這方面的研究狀況綜述如下。
對(duì)于2×2配對(duì)試驗(yàn)設(shè)計(jì),涉及到對(duì)多余參量(nuisance parameter)的分析[2],而這個(gè)參數(shù)的取值在無效假設(shè)中是沒有被指定的,同時(shí)這個(gè)參數(shù)決定著任何一個(gè)檢驗(yàn)變量的分布形式[3],消除參數(shù)的方法不外乎以下幾種:
1.1條件推斷:這種方法是對(duì)統(tǒng)計(jì)量進(jìn)行有條件地討論,是由多種方法發(fā)展演化而來,可分為“確切條件推斷”和“漸近條件推斷(asymptotic conditional test)”,前者是使用確切無效分布,后者是使用漸近無效分布。Mcnemar檢驗(yàn)即屬于條件推斷的范疇[4]。2×2配對(duì)設(shè)計(jì)的漸近條件推斷首先是由Cochran(1950)依據(jù)符號(hào)檢驗(yàn)提出來的[5]。
1.2非條件推斷:這種方法在非條件無效分布中對(duì)多余參量進(jìn)行了估計(jì),這是與條件推斷不同的地方,因?yàn)樗皇侵苯酉嘤鄥⒘?,這種方法又可分為“確切非條件推斷(approximate unconditional)”和“漸近非條件推斷(asymptotic unconditional)”,分別對(duì)應(yīng)確切無效分布和漸近無效分布。漸近非條件推斷首先是由McNemar在1947年給出的[6],它與漸近條件推斷有相同的漸近分布,并且無論采用哪一種方法,最終都會(huì)得到相同的檢驗(yàn)統(tǒng)計(jì)量,即“McNemar檢驗(yàn)”。正是由于人們對(duì)McNemar檢驗(yàn)的諸多懷疑,Liang和Zeger在1988年提出了一種漸近法來利用結(jié)果一致的對(duì)子數(shù)[7]。
但是國外更傾向于使用“確切非條件推斷”來利用多余參量的所有信息[8],F(xiàn)risen在1980年提出即使計(jì)算比較復(fù)雜也應(yīng)該使用“非條件推斷”[9]。Suissa和Shuster在1991年提出一種針對(duì)配對(duì)四格表資料的確切非條件推斷方法,這種非條件推斷以簡單的z統(tǒng)計(jì)量為基礎(chǔ),所獲得的樣本含量一般來說要小于確切條件推斷,而且檢驗(yàn)效能更高。Miettinen在1968年用不同的方法獲得了確切非條件檢驗(yàn)方法的漸近非條件功效函數(shù)[10],后續(xù)的研究都與Miettinen的結(jié)果保持了一致,包括Bennett和Underwood在1970年對(duì)這種檢驗(yàn)的確切分布和漸近分布進(jìn)行的篩選比較[11],Schork和Williams在1980年運(yùn)用確切非條件功效函數(shù)計(jì)算了這種檢驗(yàn)方法在確切條件形式下的樣本含量[12],以及Duffy在1984年獲得的基于漸近無效分布的確切非條件功效函數(shù)[13]。由于此種方法在全面利用樣本信息這方面的優(yōu)勢(shì),在計(jì)算機(jī)已相當(dāng)普及的今天,即使遇到運(yùn)算上的困難,也應(yīng)該在實(shí)踐中推廣應(yīng)用這種方法。
1.3確切概率法:Wacholder和Weinberg曾建議將2×2配對(duì)設(shè)計(jì)轉(zhuǎn)變成兩樣本設(shè)計(jì)[14],使原來的樣本含量由n變?yōu)?n,用Fisher確切概率法進(jìn)行檢驗(yàn),繪制了兩種設(shè)計(jì)條件下的效能曲線并作了比較,但是這種轉(zhuǎn)換是建立在隨機(jī)匹配的基礎(chǔ)上并且要求配對(duì)變量間沒有相關(guān)關(guān)系,Wacholder和Weinberg通過對(duì)效能曲線的比較發(fā)現(xiàn),如果配對(duì)變量間具有相關(guān)關(guān)系并且匹配合理,配對(duì)設(shè)計(jì)下的McNemar檢驗(yàn)的效能還是要高于未配對(duì)條件下的Fisher確切概率法,所以這種方法具有一定的不足。
1.4各種方法的比較:無論是哪一種方法,都不可能十全十美,Miettinen在1968年獲得了確切非條件檢驗(yàn)方法的漸近非條件功效函數(shù),后來Duffy對(duì)此功效函數(shù)的精確性進(jìn)行了大樣本模擬,小樣本時(shí)進(jìn)行了精確計(jì)算,發(fā)現(xiàn)在總體上這種函數(shù)還是不錯(cuò)的,但是如果樣本量很小,這種功效函數(shù)的結(jié)果就會(huì)偏離真實(shí)值[13],同時(shí)這種方法還有高估檢驗(yàn)效能或低估樣本含量的嫌疑[15]。確切非條件檢驗(yàn)與確切條件檢驗(yàn)和漸近條件檢驗(yàn)以及漸近非條件檢驗(yàn)相比,確切非條件檢驗(yàn)法利用z檢驗(yàn)來獲得顯著水平,并且考慮了配對(duì)樣本的總例數(shù),其顯著水平要低于條件推斷;另外,如果在配對(duì)設(shè)計(jì)中使用確切條件法,與確切非條件法相比,要增加大約14%的樣本含量[3],在檢驗(yàn)效能上,確切非條件法也要優(yōu)于確切條件法。
國內(nèi)也有人較早注意這一問題,新疆醫(yī)學(xué)院的施濟(jì)民在與薛仲三的私人通信中曾探討過這個(gè)問題,并于20世紀(jì)80年代初期在《新疆醫(yī)學(xué)院學(xué)報(bào)》上發(fā)表過兩篇文章,對(duì)McNemar檢驗(yàn)公式提出了疑問并提出了由自己推導(dǎo)出的公式:t=或 =(公式1)[16];第三軍醫(yī)大學(xué)的羅明奎在1999年發(fā)表文章注意到了McNemar檢驗(yàn)的不足,運(yùn)用極大似然估計(jì)和協(xié)方差陣的相容估計(jì)提出了自己的檢驗(yàn)公式: =(公式2)[17];上海應(yīng)用技術(shù)學(xué)院的殷小雯從邊際分布的角度提出邊際分布齊性檢驗(yàn)公式: =(公式3)[18],對(duì)配對(duì)四格表資料進(jìn)行檢驗(yàn)。這三個(gè)公式大同小異,公式2和公式3其實(shí)完全一樣,僅僅是作者將a、d和b、c對(duì)換了一下。也有人運(yùn)用二項(xiàng)分布原理提出配對(duì)四格表資料檢驗(yàn)的精確概率方法,并得出結(jié)論McNemar檢驗(yàn)僅適于b+c>20的情形,當(dāng)b+c≤20時(shí)宜用精確概率方法[19];對(duì)配對(duì)四格表差別檢驗(yàn),還有學(xué)者基于二項(xiàng)分布的原理提出了顯著性界值法[20],可在0.05和0.01的概率水平下進(jìn)行統(tǒng)計(jì)推斷,但不如精確概率法方便、直觀。另外,考慮到與χ2檢驗(yàn)都是檢驗(yàn)兩個(gè)處理是否一致的統(tǒng)計(jì)方法,有人建議用Kappa統(tǒng)計(jì)量,因?yàn)槠溆玫搅怂膫€(gè)格子的頻數(shù),因此獲取的信息量要大于χ2檢驗(yàn)[21-22]。此外,也有人在相關(guān)文章中偶爾提及這個(gè)問題,但僅僅是點(diǎn)到為止,沒有進(jìn)一步的研究。
相比較而言,國外的研究比國內(nèi)要早一些,國內(nèi)直到20世紀(jì)70年代末80年代初才有人涉足這一領(lǐng)域并有正式的文章發(fā)表,因此國外的研究方法顯得更成熟,更有體系,他們多從數(shù)學(xué)原理上對(duì)每一個(gè)公式進(jìn)行了嚴(yán)密的推導(dǎo)和論證,而國內(nèi)的學(xué)者多是根據(jù)經(jīng)驗(yàn)而來,在嚴(yán)謹(jǐn)性上相對(duì)欠缺,正是這一點(diǎn),國外學(xué)者提出的公式比較繁瑣、復(fù)雜,而國內(nèi)的公式相對(duì)簡單、直觀,在應(yīng)用上,國內(nèi)的公式更方便。對(duì)于公式的驗(yàn)證,國外多從數(shù)學(xué)分布、樣本含量和兩類錯(cuò)誤等方面入手,特別是樣本含量和檢驗(yàn)效能,他們會(huì)在不同情況下反復(fù)進(jìn)行橫向和縱向比較,以突出新方法的優(yōu)越性;國內(nèi)則是通過實(shí)例比較,看兩種方法的結(jié)果與實(shí)際資料的趨同程度來判斷孰優(yōu)孰劣,還是經(jīng)驗(yàn)性的東西比較多,在方法的靈敏度和特異度上沒有作深入的探討。
綜上所述,國內(nèi)外學(xué)者對(duì)配對(duì)四格表資料檢驗(yàn)方法的研究已取得一定成果。我國的研究相對(duì)較少,在許多方面還落后于國外,因此,積極進(jìn)行這方面的研究,提出一種嚴(yán)謹(jǐn)、合理、方便的檢驗(yàn)方法,對(duì)于促進(jìn)配對(duì)四格表檢驗(yàn)方法的正確運(yùn)用,促進(jìn)臨床科研的科學(xué)性和合理性具有重要的意義。
[1]施濟(jì)民.一個(gè)值得商榷的公式:χ2= [J].新疆醫(yī)學(xué)院學(xué)報(bào),1981,4(2):67-68.
[2]Basu D.On the elimination of nuisance parameters[J].J Am Statistical Association,72(11):355-366.
[3]Samy S,Jonathan JS.The 2×2 matched-pairs trials:exact unconditional design and analysis[J].Biometrics,1991,47(2):361-372.
[4]Selicato G,Muller R,Keith E.Approximating power of the unconditional test for correlated binary pairs[J].Communications in Statistics,1998,27(2):553-564.
[5]Cochran WG.The comparisons of percentages in matched samples[J].Biometrika,1939,37(2):256-266.
[6]McNemar Q.Note on the sampling error of the differences between correlated proportions or percentages[J].Psychometrika,1947,12(2):153-157.
[7]Liang KY,Zeger SL.On the use of concordant pairs in matched case-control studies[J].Biometrics,1988,44(6):1145-1156.
[8]Suissa S,Shuster JJ.Exact unconditional sample sizes for the 2×2 binomial trial[J].J Roy Stat Soc,Series A,1985,148(2):317-327.
[9]Frisen M.Consequences of the use of conditional inference in the analysis of a correlated contingency table[J].Biometrika,1969,67(1): 23-30.
[10]Miettinen OS.The matched-pairs design in the case of all-ornone response[J].Biometrics,1968,24(2):339-352.
[11]Bennett BM,Underwood RE.On McNeamr’s test for the 2×2 table and its power function[J].Biometrics,1970,26(2):339-343.
[12]Schork MA,Williams GW.Number of observations required for the comparison of two correlated proportions[J]. Communications in Statistics,Series B,1996(9):349-357.
[13]Duffy SW.Asymptotic and exact power for the McNemar test and its analogue with R controls per case[J].Biometrics,1984,40(5):1005-1015.
[14]Wacholder S,Weinberg CR.Paired versus two-sample design for a clinical trial of treatments with dichotomous outcome:power considerations[J].Biometrics,1982,38(4):801-812.
[15]Connor RJ.Sample size for testing differences in proportions for the paired-sample design[J].Biometrics,1987,43(1):207-211.
[16]施濟(jì)民.推薦一個(gè)公式:t= [J].新疆醫(yī)學(xué)院學(xué)報(bào),1981,4(4):252-257.
[17]羅明奎.介紹配對(duì)資料的一種統(tǒng)計(jì)處理方法[J].數(shù)理醫(yī)藥學(xué)雜志,1999,12(3):213-214.
[18]殷小雯.2×2表配對(duì)資料的邊際分布齊性檢驗(yàn)方法[J].上海應(yīng)用技術(shù)學(xué)院學(xué)報(bào),2001,1(2):144-148.
[19]劉玉秀,劉鈞.配對(duì)四格表資料差別檢驗(yàn)的精確概率方法[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)),1998,34(5):627-630.
[20]張志軍,王廣義.配對(duì)離散變量的統(tǒng)計(jì)分析方法[J].中華預(yù)防醫(yī)學(xué)雜志,1983,17(2):65.
[21]熊宗番,王紀(jì)亮,蘇炳華.配對(duì)計(jì)數(shù)資料的統(tǒng)計(jì)分析方法[J].上海預(yù)防醫(yī)學(xué)雜志,1993,5(4):46-49.
[22]熊宗番.配對(duì)計(jì)數(shù)資料的Kappa統(tǒng)計(jì)量[J].臨床檢驗(yàn)雜志,1992,10(2):101-102.
R195.1
A
1671-8194(2015)26-0046-02