胡純嚴 ,胡良平 ,2*
(1.軍事科學院研究生院,北京 100850;2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
在診斷醫(yī)學研究中,研究者常需要使用兩種方法(或兩位評價者)測定同一批樣品并按配對的方式把“二值”結(jié)果呈現(xiàn)出來,表達此種資料的表格叫做“配對設(shè)計四格表資料或配對設(shè)計2×2表資料”[1]。所謂“二值”結(jié)果,即檢測結(jié)果只有兩種,通常分為陽性(用“+”表示)與陰性(用“-”表示)。本文介紹對配對設(shè)計四格表資料進行差異性分析的基本原理和基于SAS與R軟件實現(xiàn)統(tǒng)計計算的方法。
【例1】設(shè)有一種能準確診斷血友病的方法(稱為金標準),用它對34名血友病隱性攜帶的女性患者和34名健康婦女檢測的結(jié)果作為標準對照,對每位受試者再用欲比較優(yōu)劣的試驗方法檢測。兩種方法對每位受試者的樣品檢測的結(jié)果按配對的形式整理成表1的形式[2]。問:表1資料是否值得分析?
表1 兩種檢測方法對同一組受試者檢測的結(jié)果
【解答】對于表1資料而言,有“金標準”檢測方法作為標準對照,可以明確地判定試驗檢測方法的優(yōu)劣。這種四格表資料稱為特設(shè)“金標準”的配對設(shè)計四格表資料,可以對其進行統(tǒng)計分析。
【統(tǒng)計分析方法的選擇】對于特設(shè)金標準的配對設(shè)計四格表資料,有兩種統(tǒng)計分析方法:其一,檢驗兩種檢測方法檢測結(jié)果不一致部分的差別是否具有統(tǒng)計學意義(簡稱“差異性檢驗”),可用McNemar'sχ2檢驗來實現(xiàn);其二,檢驗兩種檢測方法檢測結(jié)果一致部分的數(shù)量是否具有統(tǒng)計學意義(簡稱“一致性檢驗”),可用Kappa檢驗(或稱一致性檢驗)法,具體實現(xiàn)見文獻[3]。
【例2】設(shè)有兩種探針,分別叫做“生物探針”和“P探針”。用它們同時檢測每份樣品中是否具有某種物質(zhì),某研究者將86份樣品的檢測結(jié)果以表2的形式呈現(xiàn)出來。事實表明,任何一種探針的檢測結(jié)果正確與否,是未知的。問:表2資料是否值得分析?
表2 兩種探針同時檢測的結(jié)果
【解答】在表2資料中,兩種檢測方法不知何者為優(yōu),用任何一種方法檢測都可能出現(xiàn)假陽性或假陰性結(jié)果,比較它們檢測結(jié)果不一致的兩個頻數(shù)(或率)之間的差別是否具有統(tǒng)計學意義,無論統(tǒng)計分析結(jié)果是什么,都不能說明任何問題。也就是說,對于缺乏“金標準”的配對設(shè)計四格表資料,不值得做統(tǒng)計分析。
【例3】假定有甲、乙兩種培養(yǎng)基,同時用這兩種培養(yǎng)基對同一批痰液標本進行培養(yǎng),培養(yǎng)的結(jié)果以表3的形式呈現(xiàn)出來。問:表3資料是否值得分析?
表3 兩種培養(yǎng)基對同一批痰液標本同時培養(yǎng)的結(jié)果
【解答】相同的痰液標本中,若甲培養(yǎng)基能培養(yǎng)出陽性結(jié)果,而乙培養(yǎng)基卻培養(yǎng)出陰性結(jié)果,則表明甲培養(yǎng)基優(yōu)于乙培養(yǎng)基,這種陽性結(jié)果就是“真陽性”,而不會出現(xiàn)假陽性。此時,比較兩種培養(yǎng)基培養(yǎng)的結(jié)果不一致的樣品數(shù)之間的差別是否具有統(tǒng)計學意義,是有價值的。這種四格表資料稱為隱含“金標準”的配對設(shè)計四格表資料,值得做統(tǒng)計分析。
【統(tǒng)計分析方法的選擇】有兩種可供選用的統(tǒng)計分析方法,即“差異性檢驗”和“一致性檢驗”,詳見前面“例1”的“統(tǒng)計分析方法的選擇”部分,此處不再贅述。
2.1.1 配對設(shè)計四格表資料的一般表達形式
配對設(shè)計四格表資料的一般表達形式見表4。
表4 配對設(shè)計四格表資料的表達形式
2.1.2 配對設(shè)計四格表資料差異性檢驗
2.1.2.1 建立檢驗假設(shè)
【說明】Tb、Tc分別代表“b”與“c”的理論頻數(shù)。
2.1.2.2 構(gòu)建差異性檢驗的檢驗統(tǒng)計量
配對設(shè)計四格表資料差異性檢驗的檢驗統(tǒng)計量為McNemar'sχ2檢驗統(tǒng)計量[4],公式如下:
若b+c≥40時可應用未校正的公式:
若b+c<40時應用連續(xù)性校正公式:
以上兩式定義的χ2檢驗統(tǒng)計量均服從自由度為1的χ2分布χ21。
【說明】McNemar'sχ2精確檢驗方法見文獻[5-6];McNemar'sχ2非參數(shù)檢驗方法見文獻[7],因篇幅所限,此處從略。
2.2.1 基于SAS實現(xiàn)差異性檢驗
【例4】沿用例1中的“問題與數(shù)據(jù)”,試基于SAS進行差異性檢驗。設(shè)所需要的SAS程序如下[6,9]:
【程序說明】McNemar'sχ2檢驗需要通過“tables語句”中的選項“agree”來指定;“exact語句”中的選項“mcnem”是為了求McNemar'sχ2檢驗的精確概率。
【SAS主要輸出結(jié)果及解釋】
McNemar'sχ2=0.1429,近似的概率值P=0.7055;精確的概率值P=1.00>0.05,應接受H0:Tb=Tc,即兩種檢測方法檢測結(jié)果不一致的頻數(shù)之間的差別無統(tǒng)計學意義。
【結(jié)論】就本例而言,試驗法的假陽性例數(shù)(或率)與假陰性例數(shù)(或率)接近相等。
2.2.2 基于R實現(xiàn)差異性檢驗
設(shè)所需要的R程序如下[8-9]:
【程序說明】“>”代表R軟件運行環(huán)境中的“提示符”,上面的R程序中共有3個提示符,說明共有3個R語句;第一句的目的是創(chuàng)建一個名為Performance的矩陣,通過“<-”實現(xiàn)賦值(說明:“<-”的作用類似于“=”);第二句要求系統(tǒng)給出所創(chuàng)建的矩陣;第三句調(diào)用實現(xiàn)McNemar'sχ2檢驗的函數(shù)mcnemar.test()。圓括號內(nèi)的參數(shù)Performance就是以矩陣形式呈現(xiàn)的配對設(shè)計四格表資料(包括橫標目與縱標目以及表內(nèi)部的4個頻數(shù))。
第一部分結(jié)果顯示出已經(jīng)成功創(chuàng)建的矩陣,實際上就是本例中的配對設(shè)計四格表資料。
第二部分結(jié)果:χ2=0,df=1,P=1。
【注意】用R計算所得的結(jié)果“χ2=0”與用SAS計算所得的結(jié)果“χ2=0.1429”不同,因為R軟件中是采用校正公式(2)計算的;而SAS軟件中是采用未校正公式(1)計算的。
【結(jié)論】就本例而言,試驗法的假陽性例數(shù)(或率)與假陰性例數(shù)(或率)接近相等。
配對設(shè)計四格表資料差異性檢驗也被稱為“對稱性檢驗”,當檢驗結(jié)果為P>0.05時,表明表中的“b(嚴格地說,應是Tb)(假陽性頻數(shù))”與“c(嚴格地說,應是Tc)(假陰性頻數(shù))”之間的差別無統(tǒng)計學意義,也可理解成這兩個位置上的頻數(shù)關(guān)于“主對角線(從左上角到右下角的連線)”對稱。此時,很容易誤解成“試驗法與金標準法檢測結(jié)果之間無差別,可用試驗法取代金標準法”。也就是說,對配對設(shè)計四格表資料進行McNemar'sχ2檢驗,只能回答試驗法自身的“假陽性頻數(shù)(或率)”與“假陰性頻數(shù)(或率)”之間的差別是否具有統(tǒng)計學意義,若“P>0.05”,表明試驗法檢測出現(xiàn)“假陽性結(jié)果”與出現(xiàn)“假陰性結(jié)果”機會均等;若“P<0.05”,表明試驗法檢測出現(xiàn)“假陽性結(jié)果”與出現(xiàn)“假陰性結(jié)果”機會不均等。此時,若“b>c”,則表明試驗法出現(xiàn)“假陽性結(jié)果”的概率明顯大于其出現(xiàn)“假陰性結(jié)果”的概率,反之亦然。
若問“試驗法可否取代金標準法”,則需要采用“kappa檢驗或稱一致性檢驗”,當檢驗結(jié)果為“P<0.05”,并且,“樣本一致率”大于“專業(yè)上要求的一致率”時,才可以認為:“試驗法可以取代金標準法”[3]。
本文展示了配對設(shè)計四格表資料的3種情形,其中,特設(shè)“金標準”的配對設(shè)計四格表資料不僅是值得進行統(tǒng)計分析的,也是最有實用價值的;基于SAS與R軟件實現(xiàn)了配對設(shè)計四格表資料McNemar'sχ2檢驗;針對此種“差異性檢驗”的結(jié)果,如何進行正確地解讀,如何陳述專業(yè)結(jié)論,都做了深入地闡釋。