楊智榮,武珊珊,董圣杰,張?zhí)灬?,田金徽,孫鳳
與其他類型的臨床研究一樣,Meta分析也存在樣本量和檢驗效能的問題[1]。當納入的樣本量不足時,Meta分析的檢驗效能較低,所估計的效應(yīng)值可能會出現(xiàn)假陰性或假陽性的情況,結(jié)果的精確性較低(體現(xiàn)在置信區(qū)間的跨度較大)[2]。
近年來,Meta分析的樣本量和檢驗效能的問題逐漸得到關(guān)注。在傳統(tǒng)Meta分析中,通常采用試驗序貫分析來估算樣本量[3]。它按照納入研究的發(fā)表時間順序進行累計,通過調(diào)整隨機誤差和研究間異質(zhì)性,最終估算得出確切結(jié)論時所需要的最小信息量(即納入研究對象的總數(shù)量或結(jié)局事件發(fā)生數(shù))。在網(wǎng)絡(luò)Meta分析(network meta-analysis,NMA)中,也同樣存在樣本量與統(tǒng)計效能計算的問題[4]。通過模擬研究發(fā)現(xiàn),NMA合并結(jié)果往往因統(tǒng)計效能不足而缺乏可信性,研究者及證據(jù)使用者應(yīng)謹慎地評價NMA合并結(jié)果的統(tǒng)計效能,這對判斷證據(jù)的真實性和臨床價值尤為重要。
目前,NMA的樣本量及統(tǒng)計效能的計算方法主要有三種:有效合并研究數(shù)量法、有效樣本量法和等效樣本量法[4,5]。在此基礎(chǔ)上,研究者可進一步評價證據(jù)的精確性[5]。下面以我們課題組發(fā)表的一篇NMA為例[6],介紹上述各種樣本量計算方法的使用(證據(jù)網(wǎng)絡(luò)結(jié)構(gòu)如圖1)。該例子是以二分類指標作為結(jié)局,下述所有方法也適用于連續(xù)性結(jié)局指標。
圖1 證據(jù)網(wǎng)絡(luò)結(jié)構(gòu)圖
為了評估GLP-1RA和DPP-4I兩類新型降糖藥在2型糖尿病患者中的心血管事件,該NMA納入了281項治療時間≥12周的隨機對照試驗(約180 000例患者),以心血管死亡、心肌梗塞、中風(fēng)和心力衰竭等事件作為心血管復(fù)合結(jié)局(簡稱MACE)[6]。研究發(fā)現(xiàn),GLP-1RA與安慰劑和SU相比,結(jié)局風(fēng)險降低,比值比(OR)分別是0.89(95%CI:0.80~0.99)和0.76(95%CI:0.59~0.99),而 DPP-4I與安慰劑相比未顯示出統(tǒng)計學(xué)差異(OR=0.92,95%CI:0.83~1.01)。研究的結(jié)論是,與SU或安慰劑相比,GLP-1RA可降低MACE發(fā)生風(fēng)險,而DPP-4I則對MACE發(fā)生風(fēng)險沒有影響。但該NMA的結(jié)論是否有足夠的樣本量和檢驗效能來支撐?這就需要通過以下方法進行回答。
應(yīng)用有效合并研究數(shù)量法進行計算時,前提假設(shè)是納入合并的各個研究方差相等且具有同質(zhì)性,即認為納入研究的對象均來自同一個總體。其計算主要包括以下步驟[4]:
1.1 根據(jù)間接比較的研究數(shù)目來確定精確度比率先假設(shè)干預(yù)措施A和B比較的效應(yīng)值均來自間接比較A和C的nAC個研究與B和C的nBC個研究,且每個研究的效應(yīng)值方差均為v,那么根據(jù)間接比較的方差計算公式,A和B比較的效應(yīng)值方差為
又假設(shè)有k個(k=nAC+nBC)A和B直接比較的研究,每個研究的效應(yīng)值的方差均為v,在不存在異質(zhì)性的情況下,那么由固定效應(yīng)模型估算的A和B合并值的方差就為
而所謂的精確度比率R,就是公式1和2之比,即
該比值表示在間接比較中需要多少個AC和BC比較的研究才能達到一個AB直接比較的效應(yīng)值的精確度。根據(jù)公式3,當nAC和nBC的比值為1:1時,可算得R為4;當比值為1:2時,R為4.5;當比值為1:3時,R為5.33。如此類推,可計算任意比值下的R(表1)。
上述實例當中(圖1),DPP-4I和安慰劑分別與GLP-1RA比較的研究分別有12和56個,按照上述公式3,可知R為6.88。即在滿足納入的各個研究的效應(yīng)值方差相等且具有同質(zhì)性的前提下,對于DPP-4I與安慰劑的比較來說,需約7個間接比較的研究才能達到1個直接比較的效應(yīng)值的精確度。
1.2 計算由間接比較所貢獻的有效合并研究數(shù)量該指標是指在已有間接比較的研究數(shù)目下,可等同于多少個類似的直接比較研究??筛鶕?jù)間接比較的實際納入研究和精確度比率計算,即
例如上述實例當中(圖1),對于DPP-4I與安慰劑的比較來說,由以GLP-1RA作為共同比較組的間接比較所貢獻的有效合并研究數(shù)約為10個(按公式4計算,結(jié)果為9.88)。
為快捷地進行近似計算,Thorlund等制定了有效合并研究數(shù)量的表格(表1)[4]。研究者通過查表,可迅速知道NMA中的間接比較貢獻了多少有效合并研究數(shù)量。例如上述實例當中(圖1),以GLP-1RA作為共同比較組的間接比較的研究數(shù)約為1:5(12和56的比值),合計68個研究,與表中的72(12:60)的數(shù)值最為接近,所對應(yīng)的有效合并研究數(shù)為10個。與上述公式4的計算結(jié)果類似。大部分的間接比較都能在表1中找到近似的有效研究合并數(shù),如果出現(xiàn)極端的間接比較研究數(shù)比值(如1:20),超出了表1的范圍,此時需根據(jù)公式3和公式4來確定有效合并研究數(shù)。
表1 有效合并研究數(shù)與所需的間接比較研究數(shù)
有效合并研究數(shù)量法只適用于粗略估計間接比較中的有效研究數(shù)。如果需要更精確的估算,則應(yīng)進一步計算有效樣本量或等效樣本量(即研究對象數(shù)目),具體見下述。
該方法將NMA證據(jù)網(wǎng)絡(luò)中的每一個比較對視為一個臨床研究,通過估算每一個比較對的有效樣本量來計算間接比較的統(tǒng)計效能和精確性[4]。該法包括非校正和異質(zhì)性校正兩種方式,其計算主要包括:①根據(jù)樣本量比值計算精確度比率;②分析各比較組是否存在異質(zhì)性;③對具有同質(zhì)性的比較組,用總體間接樣本量乘以精確度比率即可獲得有效間接樣本量,對于存在異質(zhì)性的比較組,則通過異質(zhì)性校正因子對實際樣本進行處理后,再計算有效間接樣本量。以下介紹常用的通過有效樣本量法來計算檢驗效能的步驟。
在圖1的由DPP-4I、GLP-1RA和安慰劑三種干預(yù)構(gòu)成的閉合環(huán),DPP-4I與安慰劑、DPP-4I與GLP-1RA、GLP-1RA與安慰劑直接比較的樣本量分別為84284、5304和36604,I2分別為0、10%和0?,F(xiàn)在需要計算DPP-4I與安慰劑在此閉合環(huán)的NMA中的檢驗效能。
第一步:計算直接比較所需的樣本量。在不考慮異質(zhì)性的情況下,計算方法等同于一項RCT的樣本量計算
d為預(yù)期效應(yīng)值(如兩組結(jié)局發(fā)生率的差值),V是預(yù)期效應(yīng)值的方差(若結(jié)局為二分類時,為兩組結(jié)局發(fā)生率的平均值),和Z1-β分別是正態(tài)分布在和1-β百分位上的Z值。一般假設(shè)兩組樣本量相等,此時C=4。若存在異質(zhì)性,此時需要在n的基礎(chǔ)上乘以異質(zhì)性校正系數(shù),H=I2。
根據(jù)上述公式,若預(yù)計安慰劑組的MACE事件發(fā)生率為2%,DPP-4I組的發(fā)生率能降低20%(即發(fā)生率為1.6%)時認為有實際意義,α=0.05,1-β=90%,根據(jù)公式5,在不存在異質(zhì)性的情況下,圖1中DPP-4I與安慰劑直接比較的所需樣本量為
n=4×(1.96+1.28)2×[(0.02+0.016)/2]×[(1-(0.0 2+0.016)/2)]/(0.02-0.016)2=46389。
第二步:計算間接比較的有效樣本量nind,也分為存在和不存在異質(zhì)性兩種情況。若不存在異質(zhì)性時,可基于AC和BC的間接比較(如圖1中的DPP-4I與GLP-1RA、安慰劑與GLP-1RA)計算AB(如圖1中的DPP-4I與安慰劑)間接比較的有效樣本量:
若有異質(zhì)性存在,則需要先對nAC和nBC進行調(diào)整,即分別乘以相應(yīng)的1-I2。然后把調(diào)整后的nAB和nAC代入上述公式6。
例如,圖1中nAC=5304×(1-0.10)=4774(I2=10%), nBC=36604(I2=0),代入公式6,即得:
nind=(4774×36604)/(4774+36604)=4223。
同理,我們可以基于其他閉合環(huán)計算nind。根據(jù)圖1中的數(shù)據(jù)和公式6,可得出DPP-4I-TZD-安慰劑、DPP-4I-SU-安慰劑、DPP-4I-SGLT-2I-安慰劑、DPP-4I-Insulin-安慰劑這四個閉合環(huán)為DPP-4I與安慰劑比較所貢獻的nind分別為1263、1182、1208和419。
第三步:計算合計的有效樣本量N。此時只需把DPP-4I與安慰劑直接比較的樣本量(84284例,圖1)和間接比較的有效樣本量相加,即N=84284+4223+1263+1182+1208+419=92579,多于經(jīng)公式5計算得到的所需樣本量46 389,說明NMA實際納入的樣本量已滿足DPP-4I與安慰劑比較的統(tǒng)計學(xué)要求。
第四步:計算檢驗效能1-β。
把上述所有參數(shù)代入公式7,得到1-β=98%。這說明基于當前樣本量的NMA,有足夠的檢驗效能發(fā)現(xiàn)DPP-4I與安慰劑比較的MACE事件發(fā)生率的差異。
近年來,隨著GRADE證據(jù)評級系統(tǒng)的發(fā)展,GRADE工作組對NMA結(jié)果的精確度評價作了相應(yīng)的規(guī)定,提出等效樣本量的計算方法[5]。
該方法首先忽略整個證據(jù)網(wǎng)絡(luò)中的直接證據(jù)和間接證據(jù),將NMA的效應(yīng)估計值和CI當作單個研究的結(jié)果,重點關(guān)注要達到該CI的精確度所需要的樣本量,然后在特定基本假設(shè)下,反推計算產(chǎn)生該NMA效應(yīng)估計值的等效樣本量,跟所需樣本量(通過公式5計算)作對比,從而確定等效樣本量是否滿足需求。以下分別介紹以RR、OR和均數(shù)差作為效應(yīng)量時的等效樣本量計算。
(1)假設(shè)納入NMA的均為兩組樣本量相等的試驗,log(RR)的標準誤可計算為:
其中,n是每組樣本量,Pc是對照組中觀察到的結(jié)局發(fā)生比例,RR是相對風(fēng)險。NMA估計值log(RR)的標準誤可以根據(jù)CI上、下界來計算:
假設(shè)兩個標準誤相等,即可算出樣本量n:
Pc可通過網(wǎng)狀結(jié)構(gòu)中的相關(guān)比較組的比例(經(jīng)Meta分析合并)來估計,也可通過簡單計算結(jié)局發(fā)生數(shù)和患者數(shù)來近似估計Pc。
(2)假設(shè)納入NMA的均為兩組樣本量相等的試驗,log(OR)的標準誤可以估計為:
其中n為每組樣本量,Pc為對照組發(fā)生結(jié)局的比例,Pt為觀察組發(fā)生結(jié)局的比例。Pt也可以由Pt=Pc*OR/(1-Pc+Pc*OR)來計算,NMA估計值log(OR)的標準誤可以根據(jù)CI上、下界來計算:
假設(shè)兩個標準誤相等,可以求解n:
(3)假設(shè)納入NMA的均為兩組樣本量相等的試驗,兩均數(shù)差的標準誤可以估計為:
其中n為每組的樣本量,SD為組內(nèi)合并標準差(可采用所有k個比較臂的SD的合并值),NMA均數(shù)估計值的標準誤可以根據(jù)CI上、下界來計算:
假設(shè)兩個標準誤相等, 可以求解n:
例如,圖1的實例當中, DPP-4I與安慰劑相比MACE事件發(fā)生率的差異沒有統(tǒng)計學(xué)差異(OR=0.92,95%CI:0.83~1.01)。安慰劑組MACE事件的發(fā)生風(fēng)險(各研究安慰劑組的中位數(shù))為1.2%。根據(jù)公式11至13,可計算出滿足OR、基線風(fēng)險和CI的單個研究樣本為每組70 506例,因此該NMA案例其估計值對應(yīng)的等效樣本量為141 012例,多于經(jīng)公式5計算得到的所需樣本量46 389,說明當前等效樣本量滿足統(tǒng)計要求。
樣本量的大小與效應(yīng)估計值的精確性緊密相連,樣本量越大,精確性越高。在GRADE證據(jù)分級中,效應(yīng)估計值的精確性是其中重要的考慮因素之一[7]。
按照NMA的GRADE分級規(guī)定,證據(jù)精確性的降級有三種情況[5]。①當效應(yīng)估計值的95%CI的上限和下限之比小于3(如實例中的效應(yīng)估計值的95%CI為0.83~1.01,上下限比值為1.22),此時需要計算等效樣本量和所需樣本量(通過公式5計算),若等效樣本量大于所需樣本量,則證據(jù)的精確性不降級(例如圖1實例中的DPP-4I與安慰劑MACE發(fā)生風(fēng)險的比較),否則應(yīng)降一級。②當效應(yīng)估計值的95%CI的上限和下限之比大于3時,不需要計算等效樣本量,因為這種情況下過大(遠大于公式5中的V),使得由公式10、13、16計算得到的等效樣本量過小,一般難以滿足由公式5計算的所需樣本量,因此證據(jù)的精確性應(yīng)降兩級。③當效應(yīng)估計值的95%CI極其寬,不需要計算等效樣本量,直接把證據(jù)的精確性降三級[8]。
需要注意的是,GRADE證據(jù)分級對精確性的評價不一定要依賴等效樣本量,也可以設(shè)定跟臨床決策相關(guān)的效應(yīng)閾值,然后根據(jù)95%CI是否包含該閾值來進行分級(具體請查看GRADE相應(yīng)的文獻[5])。
本文綜述了NMA樣本量計算的常用方法。目前這些方法都是采取簡便的近似計算,幫助研究者評估NMA所估計的效應(yīng)值是否滿足檢驗效能的要求[4,5]。
除了只是簡便的近似計算以外,上述各種計算方法都有各自的前提假設(shè)和優(yōu)缺點[4,5]。有效合并研究數(shù)量法假設(shè)每個研究的樣本量相等,效應(yīng)值的方差相等,且不存在異質(zhì)性。該方法只能非常粗略地估計在間接比較中需要納入多少個研究才能達到一個直接比較研究的效應(yīng)估計值的精確度。在實際操作中,更多使用有效樣本量法和等效樣本量法。這兩種方法均考慮以研究個體作為單位計算樣本量,而且均把NMA看作是單個研究,然后基于特定的假設(shè)來計算有效樣本量或等效樣本量;主要區(qū)別在于,前者是基于間接比較的樣本量換算成與直接比較相當?shù)臉颖玖?,后者則是基于NMA效應(yīng)估計值的置信區(qū)間反推直接比較的樣本量。此外,前者方法還可進一步對可能存在的異質(zhì)性進行調(diào)整,而后者已把異質(zhì)性的大小蘊含在隨機效應(yīng)模型所估算的置信區(qū)間之中。由于計算原理不同,這兩種方法的結(jié)果可能會存在一定差異。研究者可根據(jù)實際情況選取一種或同時使用兩種方法進行樣本量計算。若這兩種方法所得到的樣本量均大于所需樣本量,更有理由說明當前NMA中某兩種特定干預(yù)的比較具有足夠的檢驗效能。如本文的實例,對于DPP-4I和安慰劑的比較,不管是有效樣本量法還是等效樣本量法,計算結(jié)果均大于所需樣本量,因此在對證據(jù)的精確性進行評價時可不降級。
目前已經(jīng)發(fā)表的NMA,包含樣本量計算的研究并不多。但如果要回答NMA是否有足夠的檢驗效能,則應(yīng)對樣本量進行計算,包括所需樣本量和NMA的有效或等效樣本量。在使用GRADE分級系統(tǒng)對證據(jù)的精確性進行分級時,效應(yīng)估計值的精確性跟樣本量密切相關(guān),分級時可能也會涉及樣本量的計算。建議研究者在進行NMA后應(yīng)評估當前樣本量是否滿足檢驗效能的要求,并對效應(yīng)估計值的精確度性進行評價。