南京醫(yī)科大學公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學系(210029) 劉 晉 于 浩 劉麗亞 陳 峰
醫(yī)療器械臨床試驗貝葉斯統(tǒng)計應(yīng)用指導原則簡介*
南京醫(yī)科大學公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學系(210029) 劉 晉 于 浩 劉麗亞 陳 峰△
美國FDA器械與輻射防護中心(center for devices and radiological health,CDRH)于2010年2月5日發(fā)布了《醫(yī)療器械臨床試驗貝葉斯統(tǒng)計應(yīng)用指導原則》[1]。這是繼2006年5月23日FDA發(fā)布該《指導原則》草案后[2],經(jīng)過近3年的征求意見和深入研討后所形成的官方指導性文件。《指導原則》不僅對貝葉斯臨床試驗設(shè)計、數(shù)據(jù)分析、上市后監(jiān)測等統(tǒng)計學問題進行了全面論述,而且對貝葉斯統(tǒng)計的應(yīng)用條件和技術(shù)細節(jié)進行了詳盡描述,其觀點和方法值得引起我國衛(wèi)生統(tǒng)計界的重視。
美國FDA發(fā)起貝葉斯統(tǒng)計在醫(yī)療器械臨床試驗中的應(yīng)用始于20世紀90年代末[3]。其動因是,在醫(yī)療器械臨床試驗中有大量可供利用的先驗信息,而貝葉斯統(tǒng)計在利用先驗信息上比經(jīng)典統(tǒng)計有明顯優(yōu)勢[4]。另外,醫(yī)學技術(shù)的進步使得醫(yī)療器械的發(fā)明過程和更新?lián)Q代明顯加快,這對醫(yī)療器械的評價提出了新的和更高的要求,因此尋求高效的臨床評價方法成為必然。起初申辦方(醫(yī)療器械生產(chǎn)廠家)意識到貝葉斯方法通過利用良好的先驗信息可以導致更小和/或更短的試驗;而管理者(FDA)則認為貝葉斯方法可幫助FDA利用更短的時間和更少的病人達到同等的決策能力[5]。這樣在10余年前的起始階段,應(yīng)用者(申辦方)和監(jiān)管者(FDA)從各自肩負責任的不同角度就貝葉斯統(tǒng)計的應(yīng)用達成了共識,正是這種早期就存在的共識為后來貝葉斯統(tǒng)計在醫(yī)療器械臨床試驗中的成功應(yīng)用乃至《指導原則》的形成鋪平了道路。
在《指導原則》的方向醞釀、框架擬定、草案形成和最終發(fā)布過程中有些重要事件值得回顧。一是在1998年受美國衛(wèi)生工業(yè)制造協(xié)會(health industry manufacturers association,HIMA)贊助,F(xiàn)DA舉辦了一次貝葉斯統(tǒng)計研討會。這次研討會的成果體現(xiàn)在兩個方面:一是解釋了這一新方法可能帶來的益處和應(yīng)用這一方法的要求;二是向申辦方發(fā)出了明確信號:CDRH愿意接受基于貝葉斯方法的申請項目[3]。到2004年已有許多基于貝葉斯方法的成功案例和獲批產(chǎn)品,在此背景下,由約翰霍普金斯大學生物統(tǒng)計學系(department of biostatistics at johns hopkins university)和美國FDA三個人類產(chǎn)品中心(CDRH,CDER(Center for Drug Evaluation and Research),CBER(Center for Biologic Evaluation and Research))聯(lián)合贊助在美國國立衛(wèi)生研究院(national institutes of health,NIH)舉辦了一次專題研討會,這次研討會的主題是:應(yīng)用貝葉斯方法評價新療法能改進管理決策嗎?這次會議的主要論文發(fā)表在臨床試驗雜志(Clinic Trials)2005年8月期。在這次高級別研討會上,有關(guān)各方所達成的共識直接導致FDA于2006年5月發(fā)布了《醫(yī)療器械臨床試驗貝葉斯統(tǒng)計應(yīng)用指導原則,(草案)》。因此這次會議被認為是推進貝葉斯統(tǒng)計在醫(yī)療器械臨床試驗應(yīng)用的最為關(guān)鍵的事件之一[3]。
在《指導原則,(草案)》公布后的官方評議期,F(xiàn)DA接到了大量深刻而有見地的反饋意見,這些意見經(jīng)專家討論后于2010年2月形成了最終的指導文件[1]。與2006年的“草案”相比,2010年的“最終文件”有兩個顯著的擴展。一是對可交換研究定義的進一步明確以及如何通過貝葉斯層次模型將可交換研究整合到先驗分布;二是強調(diào)了統(tǒng)計模擬在貝葉斯設(shè)計中的重要性以及給出了開展此類模擬研究的技術(shù)細節(jié)。
由上述分析不難看出,《指導原則》的出臺是基于醫(yī)療器械臨床試驗信息特點及貝葉斯統(tǒng)計優(yōu)勢,在管理者、大學生物統(tǒng)計研究者以及醫(yī)療器械申辦者共同努力下,歷經(jīng)十余年而形成,故其實用性、科學性和權(quán)威性不言而喻。
《指導原則》全文共分為8章38節(jié),內(nèi)容可歸納為以下5個方面。
1.貝葉斯臨床試驗基本概念
在《指導原則》前三章,F(xiàn)DA主要以問答形式表述了與醫(yī)療器械臨床試驗有關(guān)的貝葉斯統(tǒng)計基本概念。如為什么要在醫(yī)療器械臨床試驗中使用貝葉斯統(tǒng)計?為什么貝葉斯統(tǒng)計在當前使用的更普遍?使用貝葉斯方法的潛在效益和挑戰(zhàn)有哪些?另外對先驗分布、似然函數(shù)、后驗分布、預測概率、可交換性等重要統(tǒng)計學概念也作了簡要介紹。
在回答為什么要在醫(yī)療器械臨床試驗中使用貝葉斯統(tǒng)計時,F(xiàn)DA針對有先驗信息、無先驗信息以及能否減輕FDA審批負擔三種情況進行了解答。①有信息先驗:醫(yī)療器械臨床試驗往往具有良好的先驗信息,貝葉斯方法能夠?qū)⑦@些信息整合到統(tǒng)計分析中從而提高其統(tǒng)計效能,在這種情況下,貝葉斯方法可利用一個更小和/或更短期的臨床試驗即可使FDA作出決定[1]。②無信息先驗:在缺乏先驗信息時,貝葉斯方法也常常是有用的[1]。首先,貝葉斯方法非常適合適應(yīng)性設(shè)計(例如,期中分析、樣本量調(diào)整、隨機化方案變更),甚至也可用于一些事先未計劃但必須要修改的試驗。第二,貝葉斯方法可用于復雜條件下的建模,而經(jīng)典方法卻很難完成或根本不能完成。第三,其它的應(yīng)用包括缺失數(shù)據(jù)填補、試驗靈敏度分析、多重比較和最優(yōu)化決策。③審批負擔:當貝葉斯方法被正確使用時,F(xiàn)DA的審批工作負擔較頻率方法輕,這符合聯(lián)邦食品、藥品和化妝品法規(guī)(FFDCA)第513節(jié)a款第3條對FDA的要求[1]。
2.貝葉斯臨床試驗設(shè)計
貝葉斯臨床試驗設(shè)計的基本原則和內(nèi)容與經(jīng)典統(tǒng)計相同。但在樣本含量的確定和試驗設(shè)計的具體操作上兩者卻有明顯差別。經(jīng)典統(tǒng)計通常需要事先確定樣本含量,但貝葉斯方法(和一些現(xiàn)代的頻率學派方法)不是事先制定一個固定的樣本量,而是指定一個停止試驗的標準。需要注意的是,為了防止樣本含量確定時的隨意性,F(xiàn)DA要求,必須在事先根據(jù)安全性和有效性等參數(shù)確定最小樣本含量,同時從經(jīng)濟、倫理和規(guī)范要求等方面確定一個最大樣本量[1]。在先驗信息選取上,F(xiàn)DA建議采用量化的客觀性先驗,如一種新器械的先驗信息可來自新器械自身的信息,對照組的信息或兩者兼之。不建議采用專家意見產(chǎn)生的主觀先驗,這與貝葉斯統(tǒng)計在其它領(lǐng)域中的應(yīng)用有著明顯不同。在試驗設(shè)計的操作上,貝葉斯設(shè)計往往涉及大量的統(tǒng)計模擬。雖然這種在不同臨床環(huán)境下、不同先驗分布下對統(tǒng)計效能和Ⅰ型誤差的模擬對設(shè)計合理的貝葉斯試驗方案具有重要價值,但工作量是巨大的。事實上,在貝葉斯試驗中,試驗設(shè)計的計算工作量比后期的數(shù)據(jù)分析要大得多,這在經(jīng)典統(tǒng)計中是難以想象的。FDA要求提供有關(guān)試驗設(shè)計詳盡的模擬實驗結(jié)果[1]。
3.貝葉斯臨床試驗分析
同經(jīng)典統(tǒng)計一樣,貝葉斯統(tǒng)計推斷包括假設(shè)檢驗和區(qū)間估計。不同的是,貝葉斯分析的結(jié)果全部依賴于后驗分布。貝葉斯假設(shè)檢驗是以后驗分布計算出某個特定假設(shè)(如原假設(shè))是真的概率。若原假設(shè)為真的概率大于備擇假設(shè),則接受原假設(shè),反之亦然;若原假設(shè)和備擇假設(shè)為真的概率相接近時,則不宜作結(jié)論,建議進一步收集先驗信息和/或樣本信息[6]。貝葉斯區(qū)間估計僅以后驗分布為基礎(chǔ),因此貝葉斯可信區(qū)間(bayes credible interval,BCI)僅基于先驗信息和當前數(shù)據(jù),并不涉及重復抽樣,因此在結(jié)果解釋上和經(jīng)典統(tǒng)計的置信區(qū)間(confidence interval,CI)意義不同[7]。
在貝葉斯統(tǒng)計分析中,F(xiàn)DA建議采用期望值概率分析。所謂期望值概率,是指給定結(jié)局在未來是否發(fā)生的概率,是一種特殊類型的后驗概率,可用于決定何時停止試驗、預測當前病人的臨床結(jié)局、調(diào)整有缺失數(shù)據(jù)的試驗結(jié)果和模型檢驗等。在制定臨床試驗方案時,可將期望值概率作為停止試驗的標準。若以迄今結(jié)果為基礎(chǔ),試驗成功的期望值概率足夠高,則可以停止試驗并宣布成功。反之概率足夠低時,也可以因器械不滿足要求而停止試驗并減少損失。這一特點顯示了貝葉斯臨床試驗的靈活性,具有重要的實際意義。
4.貝葉斯上市后監(jiān)測
FDA認為貝葉斯方法非常適合醫(yī)療器械的上市后監(jiān)測?!敖裉斓暮篁炇敲魈斓南闰灐边@一重要概念使得研究者能夠?qū)⑸鲜星把芯繑?shù)據(jù)的后驗分布作為上市后監(jiān)測的先驗分布[1]。隨著更多上市后監(jiān)測數(shù)據(jù)的收集,不斷更新先驗以提高貝葉斯統(tǒng)計推斷的質(zhì)量,從而可有效利用上市后監(jiān)測數(shù)據(jù)所蘊含的寶貴信息。
5.技術(shù)細節(jié)
《指導原則》以一章篇幅描述了貝葉斯方法的技術(shù)細節(jié)。包括研究方案應(yīng)包含的信息,模擬實驗方法,模型選擇方法,可交換性檢查以及計算方法等。了解這些方法,對在醫(yī)療器械臨床試驗中正確應(yīng)用貝葉斯統(tǒng)計方法以及向FDA上報規(guī)范的臨床試驗技術(shù)資料都具有重要的參考價值。
經(jīng)過十余年的發(fā)展,貝葉斯統(tǒng)計在醫(yī)療器械臨床試驗上的成功已被美國FDA、國際生物統(tǒng)計界和國外醫(yī)療器械工業(yè)界廣泛認可[3]。總體說來,我國醫(yī)療器械臨床試驗現(xiàn)狀表現(xiàn)為起點低,臨床試驗質(zhì)量不高[8]。加之我國新型醫(yī)療器械有相當一部分為國外進口,這些器械在安全性和有效性上往往已經(jīng)具備良好的先驗信息。這啟示我們,及時引進國外先進的貝葉斯方法不僅具有現(xiàn)實性,而且具有可行性。
另外一個值得注意的動向是,貝葉斯統(tǒng)計除了在國外醫(yī)療器械臨床試驗上已站穩(wěn)腳跟外,目前正在向臨床試驗的其它方向(如藥物臨床試驗、疫苗臨床試驗等)迅速拓展[9]。具體表現(xiàn)為:在主要發(fā)表臨床試驗統(tǒng)計方法論文的Statistics in Medicine,Clinic Trials,Journal of Biopharmaceutical Statistics等雜志上,近年來出現(xiàn)了許多貝葉斯臨床試驗研究論文,特別是在國際頂尖雜志Lancet和JAMA(Journal of the American Medical Association)上也發(fā)表了貝葉斯臨床試驗的研究論文[10-11]。這與十年前在生物醫(yī)學文獻中幾乎沒有貝葉斯臨床試驗論文的情況形成了鮮明對比[9]。另外在國際權(quán)威癌癥研究機構(gòu),美國德州大學安德森癌癥研究中心(University of Texas M.D.Anderson Cancer Center),貝葉斯方法在癌癥臨床試驗中的研究發(fā)展迅速,并已形成了該中心標準的臨床試驗設(shè)計方法之一。據(jù)統(tǒng)計,在該中心近年開展的954項臨床試驗中有195項(20%)為貝葉斯設(shè)計和分析,其中I期臨床試驗為貝葉斯方法的占其總數(shù)的13%,I/II期臨床試驗占47%,II期臨床試驗占38%,II/III期臨床試驗占17%,III期臨床試驗占1%,IV期臨床試驗占14%[9]。目前已有一項在該中心進行的基于完整貝葉斯方法(指采用貝葉斯試驗設(shè)計和貝葉斯數(shù)據(jù)分析)的藥物臨床試驗獲得了美國FDA批準[9]。
在藥物臨床試驗方向,貝葉斯方法的研究熱點目前主要集中在適應(yīng)性設(shè)計、中期分析、樣本量調(diào)整、多重比較等方面,而這也正是目前頻率統(tǒng)計臨床試驗統(tǒng)計方法的研究熱點[9]。一個令人欣慰的現(xiàn)象是,在目前國外的貝葉斯臨床試驗研究論文中,很少見到早期兩派激烈爭辯的言辭,更多見的是相互接納和客觀比較。甚至有人建議,在頻率統(tǒng)計的臨床試驗設(shè)計中可借鑒貝葉斯統(tǒng)計的思想和方法[12]。正如著名生物統(tǒng)計學家Efron教授(美國斯坦福大學生物統(tǒng)計學系的頻率學派)指出的那樣“我強烈地感到統(tǒng)計學正處于新一輪理論和方法爆發(fā)的時代,而這個爆發(fā)將以貝葉斯學派與頻率學派合并為特色”[13]。相比于頻率統(tǒng)計,貝葉斯統(tǒng)計在我國臨床試驗中的研究較弱,相信加強貝葉斯統(tǒng)計研究必將促進我國臨床試驗統(tǒng)計方法的發(fā)展。
1.US.Food and Drug Administration,Center for Devices and Radiological Health.Guidance for the Use of Bayesian Statistics in Medical Device Clinical Trials.2010,http://www.fda.gov/Medical Devices/Device-RegulationandGuidance/GuidanceDocuments/ucm071072.htm.
2.US.Food and Drug Administration,Center for Devices and Radiological Health.Guidance for the use of Bayesian statistics in medical device clinical trials-draft guidance for industry and FDA staff.2006,http://www.fda.gov/cdrh/osb/guidance/1601.htm.
3.Campbell G.Bayesian statistics in medical devices:innovation sparked by the FDA.J Biopharm Stat,2011,21(5):871-887.
4.Youn JH,Lord J,Hemming K,et al.Bayesian meta-analysis on medical devices:application to implantable cardioverter defibrillators.Int J Technol Assess Health Care,2012,28(2):115-124.
5.Berry DA.Bayesian clinical trials.Nat Rev Drug Discov,2006,5(1):27-36.
6.Ashby D.Bayesian statistics in medicine:A 25 year review.Statistics in Medicine,2006:25.
7.Ntzoufras I.Bayesain modeling using WinBUGS.New Jersey,USA:John Wiley&Sons,Inc,2009.
8.肖忠革,周禮明,田卓平,等.我國醫(yī)療器械臨床試驗現(xiàn)狀與思考.中國醫(yī)療器械雜志,2009(5):369-371.
9.Biswas S,Liu D,Lee J,et al.Bayesian clinical trials at the University of Texas M.D.Anderson Cancer Center.Clin Trials,2009,6(3):205-216.
10.Holmes D,Reddy V,Turi ZG,et al.Percutaneous closure of the left atrial appendage versus warfarin therapy for prevention of stroke in patients with atrial firillation:A randomised non-inferiority trial.Lancet,2009,374:534-542.
11.Wilber D,Pappone C,Daoud E,et al.Comparison of antiarrhythmic drug therapy and radiofrequency catheter ablation in patients with paroxysmal atrial firillation:A randomized controlled trial.Journal of the A-merican Medical Association,2010,303:333-340.
12.Berry DA.Adaptive clinical trials in oncology.Nat Rev Clin Oncol,2012,9(4):199-207.
13.Efron B.Bayesians,frequentists,and scientists.J.Am.Stat.Assoc,2005,100:1-5.
(責任編輯:劉壯)
參 考 文 獻
1.Robins JM,Herna′n MA,Brumback B.Marginal structural models and causal inference in epidemiology.Epidemiology,2000,11(5):550-560.
2.Arah OA,Sudan M,Olsen J,et al.Marginal structural models,doubly robust estimation,and bias analysis in perinatal and paediatric epidemiology.Paediatr Perinat Epidemiol,2013,27(3):263-265.
3.Robins JM.Marginal structural models.In:1997 Proceedings of the Section on Bayesian Statistical Science,Alexandria,VA:American Statistical Association,1998:1-10.
4.朱敏.逆概率加權(quán)方法在醫(yī)學研究中的應(yīng)用.復旦大學,2012.
5.Cupples LA,D′Agostino RB,Anderson K,et al.Comparison of baseline and repeated measure covariate techniques in the Framingham Heart Study.Stat Med,1988,7(1-2):205-222.
6.Hernan MA,Brumback B,Robins JM.Marginal stractural models to estimate the cansal effect of zidovudine on the survival of HIV-positive men.Epidemiology,2000,11(5):561-570.
7.Suarez D,Borràs R,Basagan~a X.Differences between marginal structural models and conventional models in their exposure effect estimates:a systematic review.Epidemiology,2011,22(4):586-588.
8.Ali RA,Ali MA,Wei Z.On computing standard errors for marginal structural Cox models.Lifetime Data Anal,2013:1-26.
(責任編輯:丁海龍)
*:國家自然科學基金資助(81273184)
△通信作者:陳峰,E-mail:Fengchen@njmu.edu.cn