貝葉斯響應(yīng)變量適應(yīng)性隨機化模擬預(yù)測評價方法初探*

2020-06-28 10:31:38東南大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系210009李太順楊嘉瑩王詩遠

中國衛(wèi)生統(tǒng)計 2020年3期

東南大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(210009) 范揚李太順楊嘉瑩王詩遠劉沛

【提要】目的探索貝葉斯響應(yīng)變量適應(yīng)性隨機化的模擬預(yù)測評價方法，為研究者在臨床試驗中合理設(shè)計隨機化方案提供借鑒。方法通過不同參數(shù)組合成不同場景，使用R語言編程實現(xiàn)試驗?zāi)M過程，構(gòu)造評價指標，結(jié)合模擬試驗結(jié)果對不同場景作出評價。結(jié)果在結(jié)局指標為二分類高優(yōu)變量的兩臂臨床試驗中，可以通過調(diào)整分配概率更新頻率、固定隨機化階段長度、分配概率算法調(diào)節(jié)參數(shù)及各處理組的先驗概率分布，獲得理想的檢驗功效及倫理性。在試驗前可以通過提高試驗成功界值、降低分配概率更新頻率、增加均衡分配期長度三種方法降低試驗整體一類錯誤率，以滿足監(jiān)管部門的要求。結(jié)論本研究提出的貝葉斯響應(yīng)變量適應(yīng)性隨機化模擬預(yù)測評價方法可通過設(shè)定場景參數(shù)模擬試驗，從控制一類錯誤、保證檢驗效能、提升倫理性等方面較全面評價隨機化方案的合理性。

適應(yīng)性隨機分組方法一直是臨床試驗領(lǐng)域近二十年來研究的熱點問題之一[1-3]。相較于傳統(tǒng)分組概率固定不變的隨機化設(shè)計，適應(yīng)性隨機更加靈活。通過不斷調(diào)整后續(xù)分配概率，使更多受試者被分入當前療效更好的組中。目前關(guān)于適應(yīng)性隨機化的研究成果較為豐富：Wei等[4]提出了隨機化的勝者優(yōu)先原則(randomized play-the-winner rule,RPW)；Ivanova[5]介紹了劣者淘汰原則；Thall等[6]介紹了基于貝葉斯思想的隨機分配概率調(diào)整方法。國內(nèi)于莉莉等[7]對甕模型及RPW原則進行了研究；劉曉燕等[8]對響應(yīng)變量適應(yīng)性隨機化進行了研究；陳冬等[9]對貝葉斯適應(yīng)性隨機化進行了介紹。其中，貝葉斯響應(yīng)變量適應(yīng)性隨機化(Bayesian response-adaptive randomization,BRAR)，因能利用先驗信息的點估計值及方差，相比使用頻率學(xué)方法的適應(yīng)性隨機化僅利用點估計值[10]，對隨機分配概率的調(diào)整更加合理而受到青睞。然而我們接受任何一種新的統(tǒng)計方法時，必須了解其可能存在的兩面性：響應(yīng)變量適應(yīng)性隨機化方法所具有的倫理優(yōu)勢，往往通過犧牲其隨機性與檢驗效能得到；在試驗入組時不斷調(diào)整分配概率，會明顯增加操作上的難度；在引入貝葉斯有信息先驗時，常常會引起一類錯誤的膨脹等。因此對BRAR方法進行正確評價具有實際意義，而目前國內(nèi)尚未見到相關(guān)報道。本文旨在探索BRAR評價方法的基礎(chǔ)上，研究其模擬預(yù)測評價模式和統(tǒng)計特征，以期為正確理解BRAR方法及制定BRAR方案提供參考。

原理與方法

1.BRAR原理及操作流程

本研究以結(jié)局指標為二分類高優(yōu)變量的兩臂臨床試驗為例闡述BRAR原理及操作流程。設(shè)各處理組x反應(yīng)率θx的先驗為Beta分布，即θx～Beta(ax,bx);x={1,2}。將整個BRAR過程分為開始階段的固定隨機化和后續(xù)的動態(tài)隨機化兩階段：在固定隨機化階段采用等概率隨機化方法，即每例受試者固定有50%的概率被分配至試驗組或?qū)φ战M，而在動態(tài)隨機化階段該入組概率隨數(shù)據(jù)積累被不斷調(diào)整。固定隨機化階段受試者入組完畢后采集數(shù)據(jù)，記nx個受試者中出現(xiàn)陽性結(jié)果的個數(shù)為sx，似然函數(shù)為二項分布，即sx～Binomial(nx,θx);x={1,2}。由貝葉斯定理更新各組反應(yīng)率θx，可得后驗分布θx|Sample Data～Beta(ax+sx,bx+nx-sx);x={1,2}。之后進入動態(tài)隨機化階段：

(1)求解不等式按Cook[11]提出的方法求解隨機變量概率不等式Pr(θ1>θ2)、Pr(θ2>θ1)：

(1)

上式中fθ1(x)為服從Beta分布的隨機變量θ1的概率密度函數(shù)，F(xiàn)θ2(x)為服從Beta分布的隨機變量θ2的累積分布函數(shù)；

(2)判斷是否停止試驗根據(jù)如下規(guī)則：尚未達到最大樣本量時，若Pr(θ1>θ2)大于早期成功界值，因早期成功而停止試驗；尚未達到最大樣本量時，若Pr(θ1>θ2)小于早期失敗界值，因早期失敗而停止試驗；達到最大樣本量時停止試驗，若Pr(θ1>θ2)大于最終成功界值，記為試驗成功；在任何時候，若Pr(θx>θmin)小于無效界值，其中θmin為無效閾值，因判定該組處理無效而停止試驗；

(3)更新分配概率計算受試者被分配至組1、組2的概率Prto1、Prto2：

(2)

上式中TP為調(diào)節(jié)參數(shù)(tuning parameter)，有TP∈[0,1]以修飾分配概率變化的程度；

(4)產(chǎn)生分配結(jié)果使用非等概率分配方法，結(jié)合(3)中Prto1和Prto2，產(chǎn)生下一例受試者SUBi的分配結(jié)果；

(5)更新未知參數(shù)分布采集SUBi數(shù)據(jù)，使用貝葉斯定理更新反應(yīng)率θx的概率分布，返回步驟(1)并遞增i，直到在步驟(2)中停止試驗。

2.模擬預(yù)測評價

適應(yīng)性設(shè)計的模擬預(yù)測評價指在試驗開始前，將適應(yīng)性設(shè)計中各參數(shù)的取值組合視為一個場景(scenario)，使用計算機載入該場景然后產(chǎn)生模擬數(shù)據(jù)，通過比較各評價指標在不同場景下的模擬結(jié)果進行預(yù)測評價。適應(yīng)性設(shè)計的模擬預(yù)測評價能夠指導(dǎo)研究者改進試驗方案，將這種技術(shù)運用于BRAR方案設(shè)計，即可達到在提高試驗倫理性的同時控制一類錯誤及檢驗功效的目的。BRAR模擬預(yù)測評價的要素包括場景參數(shù)、評價指標及模擬方法實現(xiàn)，本研究使用R語言依據(jù)上文所述原理及操作流程編寫模擬試驗程序。

(1)場景參數(shù)

場景參數(shù)可分為試驗相關(guān)參數(shù)和模擬循環(huán)相關(guān)參數(shù)兩類。試驗相關(guān)參數(shù)包括最大樣本量、分配概率更新頻率、固定隨機化階段長度、試驗停止界值、各處理組反應(yīng)率、處理組數(shù)量、分配概率算法調(diào)節(jié)參數(shù)TP、各處理組先驗概率分布；其中試驗停止界值再細分為早期成功界值、早期失敗界值、最終成功界值、無效界值四種。若根據(jù)式(1)計算出的組1反應(yīng)率分布大于組2反應(yīng)率分布的概率值Pr(θ1>θ2)超過一定閾值(一般取0.975)，則可認為此時組1療效相比組2足夠優(yōu)秀而提前停止試驗，定義該閾值為早期成功界值；同理，若Pr(θ1>θ2)<0.025，則稱閾值0.025為早期失敗界值，在兩臂試驗中早期成功界值與早期失敗界值和為1。當試驗因達到最大樣本量停止時，若此時Pr(θ1>θ2)>0.900，則稱試驗停止時有足夠理由證明組1療效更好，定義閾值0.900為最終成功界值。模擬循環(huán)相關(guān)參數(shù)一般有循環(huán)次數(shù)及一些試驗結(jié)果記錄變量。上述任一場景參數(shù)的取值變化都會導(dǎo)致隨機化效果的相應(yīng)變化。

(2)評價指標

BRAR的評價指標可根據(jù)試驗終止原因、終止試驗時各組受試者人數(shù)、成功數(shù)、失敗數(shù)等模擬試驗的結(jié)果來構(gòu)造。包括：

①一類錯誤率α′：此處的α′為通過模擬獲得的一類錯誤率。其含義與頻率統(tǒng)計事先定義的一類錯誤率α相同：即當場景參數(shù)中各處理組的反應(yīng)率被設(shè)為相同值θ1=θ2時，進行N次模擬，其中有n1次模擬得出組1和組2反應(yīng)率不同的概率，即α′=n1/N。

②檢驗效能1-β′：此處的1-β′為通過模擬獲得的檢驗效能。其含義與頻率統(tǒng)計事先定義的檢驗效能1-β相同：即當場景參數(shù)中各處理組的反應(yīng)率被設(shè)為不同值θ1≠θ2時，進行N次模擬，其中有n2次模擬正確得出組1和組2反應(yīng)率不同關(guān)系的概率，即1-β′=n2/N。

③平均樣本量：因試驗具有早期停止規(guī)則，所以每次模擬試驗并不會都達到最大樣本量。在確定了場景參數(shù)和兩組的反應(yīng)率后，進行N次模擬試驗可得N個試驗終止時的總受試者人數(shù)：其均數(shù)μSS可評價該場景對樣本量的需求；標準差σSS可評價穩(wěn)定程度。

④優(yōu)劣分配比R：當場景參數(shù)中各處理組反應(yīng)率被設(shè)為不同值θ1≠θ2時，記試驗終止時真實較優(yōu)組中受試者數(shù)量為nS、較劣組為nI，則優(yōu)劣分配比r=nS/nI。進行N次模擬試驗可得N個R值：其均數(shù)μR可評價該場景的倫理性；標準差σR可評價穩(wěn)定程度。

⑤總失敗數(shù)TF：記試驗終止時試驗組、對照組的失敗數(shù)分別為m1、m2，則總失敗數(shù)TF=m1+m2。進行N次模擬試驗可得N個TF值：其均數(shù)μTF可評價該場景的倫理性；標準差σTF可評價穩(wěn)定程度。

實例與結(jié)果

因目前國內(nèi)未見貝葉斯響應(yīng)變量適應(yīng)性隨機化的應(yīng)用實例，我們借鑒Tamura等[12]報告的使用鹽酸氟西汀治療抑郁癥門診病人的臨床試驗，運用本研究提出的模擬試驗技術(shù)評價BRAR表現(xiàn)。

鹽酸氟西汀試驗采用雙盲、安慰劑對照的RPW(1,1)適應(yīng)性設(shè)計，將89例門診病人按快速眼動期(rapid eye movement latency,REML)長短分為短REML層共45例、正常REML層共44例；以“經(jīng)3周治療后，相鄰兩次HAMD17評分下降50%認為成功”作為無延遲替代指標；先將每層前6例受試者按隨機區(qū)組分配，再按RPW原則入組后續(xù)受試者；試驗結(jié)束時，短REML層脫落4例、試驗組共21例、對照組共20例，正常REML層脫落2例、試驗組共21例、對照組共21例。

1.場景參數(shù)設(shè)定與模擬結(jié)果

本研究在原方案短REML層基礎(chǔ)上結(jié)合BRAR要求，設(shè)置相關(guān)參數(shù)。因鹽酸氟西汀試驗方案中預(yù)計短REML層招納50例受試者，設(shè)置場景參數(shù)中最大樣本量為50；取固定循環(huán)次數(shù)為10000、隨機種子數(shù)為20190622、早期成功界值為0.975、早期失敗界值為0.025、最終成功界值為0.900。不同場景及參數(shù)設(shè)置如表1所示。每個場景中分別為組2設(shè)置兩個反應(yīng)率θx：滿足θ1=θ2時可計算一類錯誤率α′；滿足θ1≠θ2時可計算檢驗效能1-β′。場景1參照鹽酸氟西汀試驗，設(shè)分配概率更新頻率為1、固定隨機化階段長度為6、算法調(diào)節(jié)參數(shù)為1、兩組均取無信息先驗Beta(1,1)，并以此作為標準參照BRAR方案，與鹽酸氟西汀試驗的RPW(1,1)設(shè)計及其他場景進行比較。場景2～6在場景1的基礎(chǔ)上，依次改變分配概率更新頻率、固定隨機化階段長度、分配概率算法調(diào)節(jié)參數(shù)及各處理組先驗概率分布。根據(jù)鹽酸氟西汀試驗“對短REML層，預(yù)計安慰劑組反應(yīng)率為0.2，試驗組反應(yīng)率為0.5”，即“組1均數(shù)0.2，標準差0.15；組2均數(shù)0.5，標準差0.19”，可構(gòu)造有信息先驗Beta(1.22,4.89)和Beta(3.37,1.45)。

模擬試驗結(jié)果如表2。可見不同場景下各評價指標均有變化，故各場景模擬結(jié)果可為BRAR方案設(shè)計提供參考。當組2反應(yīng)率θ2=0.2時，兩組反應(yīng)率相同，關(guān)注一類錯誤率，并可取不同場景的值進行縱向比較；同理，當組2反應(yīng)率θ2=0.5時，兩組反應(yīng)率不同，關(guān)注檢驗效能，并可取不同場景的值進行縱向比較?？v向比較分析詳見文章討論部分。

表1 鹽酸氟西汀試驗BRAR模擬場景及參數(shù)設(shè)置

表2 不同場景的模擬試驗結(jié)果

*：組1反應(yīng)率均設(shè)為0.2。

2.一類錯誤率控制

通過提高試驗成功界值、降低分配概率更新頻率、增加固定隨機化階段長度三種途徑，可以降低整體一類錯誤率。表2結(jié)果提示，在鹽酸氟西汀試驗背景下，降低分配概率更新頻率、增加固定隨機化階段長度對控制整體一類錯誤率效果并不明顯，因此本研究嘗試通過提升試驗成功界值，使得整體一類錯誤率小于0.10或0.05。探索過程如下：從常用的早期成功界值取0.975、早期失敗界值取0.025、最終成功界值取0.900開始，首先固定最終成功界值，提高早期成功界值，計算整體一類錯誤率；如果不能滿足要求，此時開始提高最終成功界值，直到整體一類錯誤率降低至合適水平。表3所示為在場景1的基礎(chǔ)上，依據(jù)上述探索過程控制整體一類錯誤率的模擬試驗結(jié)果。

表3 在場景1條件下提升試驗終止界值控制一類錯誤率

針對表1六種不同場景，采取上述方法控制整體一類錯誤率小于0.10，計算結(jié)果如表4所示。當BRAR方案參照場景1設(shè)計時，如果取早期成功界值為0.975、早期失敗界值為0.025、最終成功界值為0.930，則最終能將整體一類錯誤率控制在0.097。

表4 提升試驗終止界值控制六種場景一類錯誤率

討論

BRAR相比固定隨機化是一種新穎且更注重倫理性的分配方法，只要在實際試驗前借助計算機技術(shù)通過細致的模擬試驗探討評價多種可能性，制定合理的隨機化方案，就能最大程度發(fā)揮其優(yōu)勢。對本次研究，比較場景1和場景2，提高分配概率更新頻率能夠稍微提高檢驗效能，也能稍微提高優(yōu)劣分配比，使稍多的受試者被分配至療效較好的組中。對比場景1和場景3，增加固定隨機化階段長度能夠提升檢驗效能，但是會降低優(yōu)劣分配比、升高一類錯誤率，原因是其相當于縮短BRAR過程，導(dǎo)致整個隨機化更偏向固定隨機化。對于式(2)中調(diào)節(jié)參數(shù)TP取值，有多個研究給出了不同嘗試：Rosenberger等[13]、Connor等[14]在其研究中取TP=0.5。本研究場景1中令TP=1，由式(2)可知此時受試者被分配至每組的概率分別為Pr(θ1>θ2)、Pr(θ2>θ1)，相比TP取其他值的場景4和場景5，優(yōu)劣分配比的標準差明顯較大。觀察場景4，若令調(diào)節(jié)參數(shù)TP=0，根據(jù)式(2)可得Prto1=Prto2=0.5，且分配概率始終保持不變，則整個隨機化流程相當于具有提前終止規(guī)則的、使用貝葉斯方法的固定隨機化，因此會平均兩組受試者數(shù)量、使優(yōu)劣分配比接近1，導(dǎo)致檢驗效能顯著提升，同時一類錯誤率升高。Thall等[6]提出可取TP=n/(2N)，其中n為當前樣本量、N為試驗最大樣本量，則試驗開始時有TP=0、最后一例受試者入組時有TP=0.5，過程中TP∈(0,0.5)；Bello等[15]將其推廣至三臂試驗；觀察場景5，確實TP=n/2N可以縮小優(yōu)劣分配比及其標準差，表示該方法對分配概率的調(diào)整更加保守。對比場景1和場景6，當使用的先驗信息能夠正確表達兩組的實際反應(yīng)率θx的差別時，BRAR能夠大大降低樣本量及總失敗數(shù)，善用歷史信息是使用貝葉斯響應(yīng)變量適應(yīng)性隨機化相比頻率方法所具備的巨大優(yōu)勢；至于本試驗觀察到的“使用有信息先驗時得到的優(yōu)劣分配比反而較低”，一個可能原因在于此時樣本量相比使用無信息先驗較小(僅14.493例)，故優(yōu)劣分配比有所降低；需要注意的是，引入有信息先驗雖然會明顯提升檢驗效能，但是需要付出一類錯誤膨脹的代價。鹽酸氟西汀試驗短REML層實際招募了45例受試者，使用RPW(1,1)原則將24例分入試驗組、21例分入對照組，優(yōu)劣分配比為1.143、總失敗數(shù)為23；使用BRAR，在場景1中平均需要招募36例受試者，優(yōu)劣分配比為3.5、總失敗數(shù)為21。不難看出，BRAR相比RPW(1,1)，將受試者向療效更佳的處理組中分配的能力更強，因此對倫理性提升更加明顯，同時可減少總失敗數(shù)及樣本量。

綜合分析本試驗結(jié)果，BRAR確實能夠提升試驗倫理性，將更多受試者分配至療效更好的處理組中，但其代價是降低了檢驗功效。不可否認，功效的下降確實是所有適應(yīng)性隨機化方法相比傳統(tǒng)固定概率隨機化方法的短板：從宏觀上看，固定隨機化能夠高效迅速地區(qū)分不同處理組的療效，使該試驗外的廣大群眾能夠快速地從結(jié)果中獲益。然而站在另一個角度思考，不僅參加該試驗的受試者其本身希望得到更加妥善的治療，將他們分配到當前更優(yōu)的處理組也是倫理上必須考慮的。尤其是研究罕見病或者需要納入很多受試者的臨床試驗，我們更愿意且需要將目光聚焦于當下，將精力集中于提升個體倫理而非群體倫理，因此檢驗功效的降低變得可以被接受，對BRAR的使用也達到了“投其所長，避其所短”。使用本研究提出的模擬預(yù)測評價方法合理設(shè)計BRAR方案，也可以提高檢驗功效：如提高分配概率更新頻率、增加固定隨機化階段長度、增大分配概率算法調(diào)節(jié)參數(shù)可稍許提高檢驗功效；而結(jié)合有信息先驗可顯著提高BRAR的檢驗功效，但需注意控制一類錯誤的膨脹。

BRAR既然使用了貝葉斯方法，那么先驗分布的選擇必然是無法逃避的話題。使用多個不同先驗是貝葉斯分析中常采取的方法，本研究在模擬評價中嘗試使用了有信息樂觀先驗和無信息先驗，后續(xù)研究可以進一步增加先驗數(shù)量。本研究建議在設(shè)計BRAR方案時盡量選擇多個先驗以獲得更加全面認識，而在實際試驗使用BRAR分配受試者時使用無信息先驗，防止由于選擇了不恰當先驗導(dǎo)致試驗效果不盡人意。有研究[16-17]指出“相比于兩臂臨床試驗，BRAR更適合在兩臂以上的臨床試驗中應(yīng)用”，本研究僅關(guān)注了結(jié)局指標為二分類變量的兩臂臨床試驗，也確實發(fā)現(xiàn)在這種情景下BRAR對固定隨機化并無壓倒性優(yōu)勢，而且其對檢驗效能的降低也不能忽視。因此本研究建議后續(xù)在三臂至多臂試驗的情景下，嘗試論證BRAR相比固定隨機化是否對各評價指標有明顯提升，以提升其實際應(yīng)用價值。

BRAR作為響應(yīng)變量適應(yīng)性隨機化的一種具體實現(xiàn)，也需要考慮受試者特征的漂移(drift)，Karrison等[18]指出“任何響應(yīng)變量適應(yīng)性隨機化的效果都會因受試者某些特征隨時間產(chǎn)生系統(tǒng)性的變化而大打折扣”。針對受試者結(jié)局指標響應(yīng)時間過長帶來的漂移問題，協(xié)變量調(diào)整的響應(yīng)變量適應(yīng)性隨機化(covariate adjusted response adaptive randomization,CARAR)能夠進行較好處理，但是對于那些潛在的、不被知曉的或是不能被觀測的混雜因素，CARAR仍有些無力。夏結(jié)來等[19]提出“響應(yīng)變量適應(yīng)性隨機化對預(yù)后因素的均衡性、試驗的檢驗效能、總一類錯誤、試驗樣本量等帶來的影響不能忽略”，而本研究因不涉及具體每個受試者的數(shù)據(jù)而未評價其對組間預(yù)后因素均衡性的作用，需要在后續(xù)研究中進一步討論。

鑒于BRAR在方案設(shè)計及具體實施時的復(fù)雜性，開發(fā)具備BRAR模擬預(yù)測評價功能、BRAR受試者入組分配功能的中央隨機化系統(tǒng)十分必要，具體技術(shù)細節(jié)我們將在后續(xù)文章中予以報道。

貝葉斯響應(yīng)變量適應(yīng)性隨機化模擬預(yù)測評價方法初探*

原理與方法

實例與結(jié)果

討 論

討論