周憧憧 陸夢潔 劉玉秀,△ 陳 羽 劉甜甜 劉雅琦1, 占文強 趙施施
在許多臨床試驗中,由于病人對治療的反應(yīng)可能是多方面的,因此其療效常常不能由單一的指標完全反映,而需要由一系列可能相關(guān)的指標才能綜合反映出來,這就是所謂的共同終點(co-primary endpoints)。從統(tǒng)計推斷意義上看,共同終點是指多個終點同時具有統(tǒng)計學(xué)意義,方可聲稱藥物或者器械的有效性,此時采用的是聯(lián)合檢驗,不需調(diào)整I類錯誤,但II類錯誤會隨著終點個數(shù)的增加而膨脹[1-2]。近年來,隨著多終點臨床試驗的開展日益增多,有關(guān)多個共同終點臨床試驗的樣本量估計問題引起人們關(guān)注[3-6]。既往常按單個終點分別估計并選擇最大值的方法,但該方法既沒有考慮多終點間的相關(guān)性,也很難通過控制II類錯誤率發(fā)生達到預(yù)定的全局把握度[7]。2011年Suzu[8]等闡明了優(yōu)效性臨床試驗多個相關(guān)終點作為共同終點的樣本量估計方法,解決了多終點間非獨立以及保護全局把握度的問題。本文將在優(yōu)效性臨床試驗樣本量估計方法的基礎(chǔ)上,擴展提出非劣效臨床試驗多個連續(xù)性共同終點的樣本量估計方法,并結(jié)合臨床麻醉學(xué)中一個重復(fù)測量終點非劣效臨床試驗的實際案例,在不同的參數(shù)設(shè)置下,進行樣本量估計和Monte-Carlo模擬驗證。
在隨機對照臨床試驗中,假定試驗組有n1例,對照組有n2例。假定有K個共同終點且服從K元正態(tài)分布(K≥2)。試驗組n1例受試者的響應(yīng)值記為Y1jk,j=1,…,n1,對照組n2例受試者的響應(yīng)值記為Y2jk,j=1,…,n2,k=1,…,K。將其寫成向量形式即為:
Y1j=(Y1j1,…,Y1jK)T,Y2j=(Y2j1,…,Y2jK)T
兩者均服從K元正態(tài)分布,其均向量分別為:
E[Y1j]=μ1=(μ11,…,μ1K)T,E[Y2j]=μ2=(μ21,…,μ2K)T,
協(xié)方差陣為∑:
在優(yōu)效性臨床試驗中,關(guān)注的是兩組均數(shù)的差值,假設(shè)各終點指標均為高優(yōu)指標。
δk=μ1k-μ2k,δk>0 代表診療有益
進行優(yōu)效性假設(shè):
H0:δk≤0 ,只要有一個k滿足
H1:δk>0 ,所有k均需要滿足
基于上述的假設(shè),當(dāng)且僅當(dāng)所有單個終點均在檢驗水準α下被拒絕時其原假設(shè)H0才能被拒絕,其拒絕域是K個終點拒絕域的交集,故多個共同終點的檢驗屬于交并檢驗(intersection-union test, IUT)。
zα為標準正態(tài)分布下上100α%分位數(shù),該式可以進一步轉(zhuǎn)換為:
tα,n(r+1)-2為自由度為n(r+1)-2的t分布上100α%分位數(shù),如果K=1,那么全局把握度1-β的計算將基于非中心t分布。當(dāng)K≥2時,Tk并不是一個多元非中心t分布,因為wkk′是Wishart分布,而Wishart分布不屬于多元gamma分布。因此重新定義的全局把握度1-β如下:
1-β=
ΦK是多元正態(tài)分布的累積函數(shù),它的均向量為零向量,協(xié)方差陣為ρ。上式需要通過Monte-Carlo模擬計算,按照給定的自由度和協(xié)方差矩陣,隨機產(chǎn)生Wishart分布,進而獲得ΦK的期望作為全局把握度[3]。
μ1k表示試驗組第k個終點的總體均數(shù),μ2k表示對照組第k個終點的總體均數(shù)。Δk(Δk>0)表示第k個終點的非劣效界值,σk表示第k個終點試驗組或者對照組的標準差(這里設(shè)定試驗組和對照組標準差相同,如果不同則為兩組的合并標準差)。
根據(jù)非劣效試驗樣本量估計的公式對單個終點分別計算樣本量,其中試驗組樣本量計算公式為:
則對照組的樣本量為rn1,總樣本量為(1+r)n1[9-10]。選取K個樣本量中的最大值作為初值,套用優(yōu)效性試驗樣本量估計的迭代算法,即可獲得非劣效試驗的樣本量估計結(jié)果。
兒童腹股溝斜疝高位結(jié)扎術(shù)時間短,臨床上通常采用插喉罩(laryngeal mask airway,LMA)靜吸復(fù)合全麻,但是喉罩操作對新手存在難度,拔管時可能出現(xiàn)咬管、喉痙攣等不良事件,易發(fā)生插管部位疼痛、出血等并發(fā)癥。某醫(yī)院自主設(shè)計了新型通氣設(shè)備(new mask airway,NMA),希望該設(shè)備應(yīng)用于此類兒童手術(shù)在效果上非劣于LMA麻醉方法。該非劣效臨床試驗主要考察的是通氣數(shù)據(jù)潮氣量(tidal volume,VT),需要在多個時間點上均呈現(xiàn)出非劣效才可認定新型設(shè)備的非劣效性。根據(jù)預(yù)實驗結(jié)果,假定在3個時間點上兩組的VT相同,其均數(shù)±標準差分別為11.0±3.2,9.5±2.4,8.6±2.1,非劣效界值取對照組均數(shù)的15%,分別為1.65、1.425和1.29,若按照各時間點VT之間相關(guān)系數(shù)均為0.6(可允許不同),則根據(jù)前面介紹的方法,在I類錯誤水平取0.025的條件下,每組用136例可達到80%的全局把握度。本文樣本量計算基于R軟件編程實現(xiàn),部分程序代碼見附錄。
為了驗證方法的正確性,我們基于本例非劣效臨床試驗基本框架進行了Monte-Carlo模擬驗證。假定兩組的總體均數(shù)相同,按照不同的非劣效界值(分別取對照組均數(shù)的10%、15%和20%,見表1)、終點間不同的相關(guān)系數(shù)(0、0.2、0.4、0.6、0.8、1.0)、不同的I類錯誤水平(0.025、0.05)下的不同參數(shù)設(shè)定,按照本文介紹的方法進行了全局把握度為80%的樣本量估計,并在相應(yīng)樣本量之下,按照不同的參數(shù)設(shè)定隨機產(chǎn)生多元正態(tài)分布,模擬10000次,進行交并檢驗,進而求算出全局把握度(結(jié)果見表2),通過該模擬把握度與預(yù)設(shè)把握度的比較驗證方法的正確性。
表1 某新型通氣設(shè)備非劣效界值Δ設(shè)置情況
由表2可見,多個共同終點考慮下的樣本量估計結(jié)果,在不同的參數(shù)設(shè)定下所模擬獲得的全局把握度與預(yù)設(shè)把握度極為接近,在80%的預(yù)設(shè)把握度下最多不超過1.5%,較好地驗證了本文方法的正確性。從具體的樣本量行為還可看到,多個共同終點的樣本量與相關(guān)系數(shù)、I錯誤水平和非劣效界值均直接有關(guān),隨著終點間相關(guān)系數(shù)的增大而減小,隨著非劣效界值減小而增大,I類錯誤水平越小,樣本量越大。此外,在各終點完全相關(guān)(相關(guān)系數(shù)為1)時,多個共同終點考慮下的樣本量與按單個終點計算的最大樣本量相當(dāng),其他情況下均為前者大于后者。這意味著,在各個終點完全相關(guān)時,取單個終點的最大樣本量可以達到預(yù)設(shè)的全局把握度,而在其他情況下,即使取最大樣本量也不能達到預(yù)設(shè)的全局把握度。
本文利用Suzu等提出的多個連續(xù)性共同終點優(yōu)效性臨床試驗樣本量估計的方法,在闡明其樣本量估計的理論基礎(chǔ)上,擴展提出關(guān)于多個連續(xù)分布共同終點非劣效臨床試驗的樣本量估計方法。結(jié)合臨床麻醉學(xué)中一個重復(fù)測量終點非劣效臨床試驗的實際案例,基于其預(yù)試驗的相關(guān)結(jié)果,在不同的Ⅰ類錯誤率水平、各重復(fù)測量間不同的相關(guān)系數(shù)、不同的非劣效界值設(shè)定下,估計了滿足一定的全局把握度(例如80%)的樣本量,并借助Monte-Carlo模擬方法驗證了方法的正確性。此外,我們還對試驗組與對照組均數(shù)差值不全為0的情況(均大于0、均小于0、不全為0)估計的樣本量進行了不同參數(shù)設(shè)定下的模擬驗證,其全局把握度均能與預(yù)設(shè)把握度高度吻合,驗證了本文方法的普適性。實例及模擬驗證中采用的樣本量估計方法為按照方差已知的情形而進行的,我們同時也按照方差未知的情行進行了計算和模擬,其結(jié)果與方差已知情形相差甚微,在本實例的參數(shù)設(shè)定框架下僅相差1例。相關(guān)的驗證結(jié)果因篇幅所限未列出。本文介紹的樣本量估計方法具有嚴密的統(tǒng)計理論基礎(chǔ),能較好地保護全局把握度,具有較強的實用價值,可望為多個連續(xù)分布共同終點非劣效臨床試驗的樣本量估計提供有力的方法學(xué)支持。
表2 全局把握度為80%不同參數(shù)設(shè)定下的樣本量估計及Monte-Carlo模擬結(jié)果及
對于臨床試驗中存在多個共同終點的情形,傳統(tǒng)的確定樣本量的方法是對II類錯誤水平進行校正[11],然后按各單個主要終點分別計算所需的樣本量,并從中選取最大值作為最終樣本量,以保護全局把握度。該方法沒有考慮各終點間的相關(guān)性,所給出的最終樣本量為單個終點樣本量中的最大值,必然造成其他終點把握度的膨脹,從而導(dǎo)致全局把握度的浪費。而如果不校正II類錯誤水平,選取單個終點樣本量中的最大值作為最終樣本量,則全局把握度明顯不足。本文提出的方法很好地解決了此問題。
本文實例的終點為重復(fù)測量數(shù)據(jù),似乎并不是典型的共同終點情形,但從研究目的和臨床實際的角度上考慮,由于3個重復(fù)測量點均需要達到非劣效方可最終推斷新型通氣設(shè)備的非劣效性,恰巧符合共同終點的定義,因此完全可視為3個共同終點而采用本文介紹的樣本量估計方法。無疑,該應(yīng)用為重復(fù)測量臨床試驗樣本量估計提供了一種新的思路。
值得注意的是,由于實際中相關(guān)系數(shù)一般是未知的,盡管可以從以往的文獻中尋找或者通過預(yù)實驗獲得,但不能過于激進,宜采用相關(guān)系數(shù)的保守結(jié)果,以免全局把握度不足。鑒于多終點臨床試驗樣本量估計的復(fù)雜性,有學(xué)者曾提出將多個終點合成為一個復(fù)合終點[12],可一定程度上解決樣本量估計和統(tǒng)計推斷的問題,但在許多情況下該做法并不被接受。