原 皓 楊紫荊 巫宏基 黃寶儀 張成鳳 侯雅文 陳 征△
【提 要】 目的 探究Royston-KM、Royston-FP、Luo三種基于RMST方法及l(fā)og-rank在樣本量估計方面的異同。方法 通過模擬符合比例風(fēng)險假設(shè)、前期開口、后期開口及交叉4類8種生存曲線情形,比較樣本量估計及對應(yīng)檢驗效能的差異,并通過實例說明RMST在樣本量計算時的應(yīng)用。結(jié)果 比例風(fēng)險假設(shè)成立時log-rank最優(yōu);存在前期差異時,Royston-KM與Luo效果較好;后期開口時,Royston-FP效果最佳;如果出現(xiàn)交叉,則應(yīng)根據(jù)交叉點前后生存曲線間面積差異分類討論。結(jié)論 估計樣本量時,如果比例風(fēng)險假設(shè)成立應(yīng)選擇log-rank,反之應(yīng)根據(jù)不同生存曲線類型選擇最優(yōu)方案。
樣本量計算是隨機臨床試驗(randomized clinical trial,RCT)中的一個重要環(huán)節(jié),特別是對于生存數(shù)據(jù),由于其資料的特殊性,如數(shù)據(jù)參數(shù)分布不明、存在刪失數(shù)據(jù)等,該類試驗的樣本量計算一直為臨床試驗中樣本量計算的難點。生存數(shù)據(jù)樣本量計算最常用方法之一為log-rank法[1]。但該方法在比例風(fēng)險(proportional hazard,PH)假設(shè)不成立時檢驗效能較低[2-4],樣本量估計值不穩(wěn)定。此時可基于限制平均生存時間(restricted mean survival time,RMST)估計樣本量[5-7],該方法無需滿足PH假設(shè),在非PH下的樣本量估計較為穩(wěn)健。本文介紹基于風(fēng)險率的log-rank法、基于RMST的Kaplan-Meier法(Royston-KM)、靈活參數(shù)(Flexible parameter)法(Royston-FP)及Luo法等四種樣本量估計方法,并對其進行模擬比較,最后通過一個治療胃部或胃與食管處惡性腺瘤三期臨床試驗的實例比較其在實際應(yīng)用中的差異。
1.基于風(fēng)險率的log-rank樣本量估計
比較兩組生存數(shù)據(jù)是否存在差異時常用log-rank檢驗,Rubinstein等提出對應(yīng)的兩組總樣本量估計公式[1]。
(1)
2.基于RMST的Royston-KM、Royston-FP樣本量估計
假設(shè)生存時間T為右刪失數(shù)據(jù),選擇限制時間點τ,限制平均生存時間RMST[8]為t=0到τ的生存曲線下的積分
假設(shè)基于KM估計的試驗組和對照組的生存函數(shù)分別為SKM1(t)和SKM0(t),那么兩組RMST的差值為
假設(shè)t(1)j (2) 該方法記為Royston-KM。此外,Royston等[8-9]提出基于靈活參數(shù)的方法,Royston-FP。在對生存函數(shù)SFP(t)及時間進行對數(shù)轉(zhuǎn)換后,二者呈現(xiàn)較為平滑的線性關(guān)系,此時生存函數(shù)可表示為 其中l(wèi)nζ與ψ分別為lnt的位置參數(shù)與尺度參數(shù)。Royston-FP使用三次樣條函數(shù)來平滑對數(shù)累計風(fēng)險,由極大似然法估計RMST,通過bootstrap模擬其方差,其樣本量計算公式與(2)相似。 3.基于RMST的Luo樣本量估計 Luo等根據(jù)研究總時長與τ計算RMST與方差[10]。假定事件時間、刪失時間均服從分段指數(shù)分布,選取時間t′(如總研究時間)與τ并且t′不小于τ,此時第j組RMST估計為 其中,I(·)成立時為1,反之為0;SLj為第j組的生存函數(shù),0=y0,j 其中,rj(u,t′)=SLj(u)CLj(u)GLj(t′-u),SLj、CLj、GLj、λLj分別為第j組的事件函數(shù)、刪失函數(shù)、入組函數(shù)、風(fēng)險率。那么兩組所需總樣本量為 (3) 為比較不同生存曲線情況下上述四種方法的異同,設(shè)定4類8種生存曲線情形(圖1):比例風(fēng)險假設(shè)成立、生存曲線前期開口、生存曲線后期開口及生存曲線交叉,每類下分別取兩種參數(shù)設(shè)定情況,具體參數(shù)設(shè)定如表1所示。 圖1 18種生存曲線圖像 表1 生存曲線參數(shù)設(shè)定 設(shè)定對照組生存時間服從中位生存時間為10個月的指數(shù)分布,試驗組生存時間服從分段指數(shù)分布。兩組人群的刪失時間均服從相同的指數(shù)分布。模擬設(shè)定入組時間為24個月,試驗共進行50個月,τ取40個月。選取α為5%,檢驗效能為80%,兩組樣本量相等。采用Monte Carlo模擬計算每種情形下4種方法所需樣本量及其對應(yīng)的檢驗效能,模擬次數(shù)設(shè)定為5000次。 模擬結(jié)果如表2所示。在PH假設(shè)成立時,log-rank所需樣本量最少,且可達到80%檢驗效能;基于RMST的三種方法所需樣本量基本相當(dāng),但Royston-KM檢驗效能略微低于80%。如果PH假設(shè)不成立,基于log-rank估計所得樣本量反推的檢驗效能均未達80%,基于RMST的三種方法反推的檢驗效能均在80%附近,此時基于RMST估計樣本量較為穩(wěn)健。當(dāng)前期差異存在時,Royston-KM與Luo所需樣本量小于Royston-FP,但Royston-KM反推所得檢驗效能略低于80%。如果存在后期差異,Royston-FP所需樣本量小于Royston-KM與Luo。當(dāng)生存曲線出現(xiàn)交叉時,不同交叉情形需具體討論。第7種情形中,交叉點后面積大于交叉點之前,Royston-FP效果較好;第8種情形中恰好相反,此時Royston-KM與Luo效果較好。在所有以上所模擬的情形中,Royston-KM與Luo所需樣本量基本相等。 表2 四種方法所需樣本量(事件數(shù))及對應(yīng)檢驗效能 我們選取一項治療胃部或胃與食管處的惡性腺瘤三期臨床試驗[11],試驗組使用雷莫蘆單抗與紫杉醇、對照組使用安慰劑與紫杉醇。該試驗中試驗組330人,對照組335人,共516人死亡(77.6%)。生存曲線圖像如圖2(A)所示。 圖2 不同顯像結(jié)果患者生存曲線、所需樣本量及兩組HR(τ) 估計生存分析的樣本量時,如果兩組風(fēng)險率符合PH假設(shè),可選擇經(jīng)典的log-rank法,其檢驗效能最高且所需樣本量最少;基于RMST的三種方法所需樣本量基本一致。如果生存曲線存在前期差異,可選擇Royston-KM或Luo,兩種方法效果相近且效果較好。存在后期差異時可選擇Royston-FP,其效果優(yōu)于Royston-KM與Luo。當(dāng)生存曲線出現(xiàn)交叉時,如果交叉點前兩條生存曲線面積差值較大,此時可看作“前期差異”,可使用Royston-KM或Luo;若交叉點后兩條生存曲線面積差值較大,此時可看作“后期差異”,可使用Royston-FP。 在實例分析中,根據(jù)不同τ時間點截斷的數(shù)據(jù)計算的HR(τ)變化較大,此時基于風(fēng)險率的log-rank估計所得樣本量不穩(wěn)定。基于RMST的Royston-KM與Luo所需樣本量呈現(xiàn)明顯的先減小后增大的趨勢:兩條生存曲線屬于前期差異,后期兩條生存曲線差異逐漸減小,在τ=11月之前,隨著τ增加,Royston-KM與Luo所需樣本量逐漸減小,但后期由于兩條生存曲線逐漸靠近,隨著τ的增加,所需樣本量逐漸增加。由于Royston-FP首先根據(jù)所有生存患者的生存曲線擬合樣條函數(shù),而后根據(jù)不同τ計算RMST及其對應(yīng)的方差,因此其所需樣本量隨著τ的增加而逐漸減小。在實際應(yīng)用中,τ可選擇兩組最大隨訪時間的最小值或根據(jù)臨床意義來選擇[8,12-14]。 在計算樣本量時同樣可根據(jù)event-driven analysis或time-driven analysis[15]進行分類。以上所討論的方法中,Log-rank及Royston的兩種方法均為event-driven analysis,該方法首先設(shè)定一定的研究時間,根據(jù)所設(shè)參數(shù)計算所需樣本量,當(dāng)試驗納入計算所得樣本量時即可達到預(yù)設(shè)檢驗效能;Luo的樣本量估計方法為time-driven analysis,即首先納入一定數(shù)量的患者,計算所需研究總時長,隨著時間的增加,檢驗效能提高。當(dāng)試驗進行至計算所得研究時間時即可達到預(yù)設(shè)檢驗效能,因此模擬研究中未給出Luo所需事件數(shù)。但是,event-driven analysis與time-driven analysis并不是完全獨立的,兩方法可相互轉(zhuǎn)化。例如,以上log-rank及兩種Royston的方法均通過固定研究時間,之后計算所需樣本量。為了方便比較,在模擬及實例中Luo法我們同樣也固定研究時間,計算所需樣本量。此時Luo一定程度上也可看作“event-driven analysis”。 雖然以上每種情形下均可選擇最優(yōu)方法計算樣本量,但每種方法仍存在一定不足。Log-rank在PH假設(shè)不成立時估計所需樣本量偏低,無法達到預(yù)設(shè)檢驗效能。Royston的兩種方法無法直接獲得所需事件數(shù),需通過計算所得樣本量與刪失率間接獲得。如果刪失率改變,則所需事件數(shù)可能產(chǎn)生波動。Royston-FP首先使用全部生存信息擬合生存曲線的樣條函數(shù),而后根據(jù)不同計算對應(yīng)的RMST與方差,此時基于不同τ計算的樣本量隨著τ的增加而逐漸減小,變化趨勢與Royston-KM、Luo不同。由于Luo在計算樣本量時未給出所需事件數(shù)作為參照,如果隨訪中刪失較多,所獲得事件數(shù)較少,Luo同樣無法達到預(yù)設(shè)檢效能,需延長隨訪時間以達到預(yù)設(shè)檢驗效能。模擬研究
實例分析
討 論