武珊珊,孔媛媛
首都醫(yī)科大學附屬北京友誼醫(yī)院,國家消化系統(tǒng)疾病臨床醫(yī)學研究中心,臨床流行病學與循證醫(yī)學中心,北京 100050
我國慢性乙型肝炎患病率高,并發(fā)癥重。在我國肝硬化和肝癌患者中,由乙型肝炎引起的比例分別為60%和80%[1]。最新全國體檢數(shù)據(jù)顯示我國農(nóng)村21~49歲男性人群HBsAg陽性率為6%[2]。據(jù)此推算,全國約有2500萬人為慢性乙型肝炎患者;按照每年1.6%~4%的發(fā)病率計算,每年約有40萬~100萬患者可發(fā)展為代償性肝硬化??共《局委熆梢越档鸵倚透窝紫嚓P并發(fā)癥的發(fā)生率和病死率,但即使經(jīng)過有效的抗病毒治療仍有部分患者會出現(xiàn)疾病進展,包括門靜脈高壓相關并發(fā)癥和肝癌,并導致死亡[3-5]。因此,實現(xiàn)臨床終點事件的精準預測并加強干預是降低病死率的關鍵措施。
目前國內(nèi)外已有較多預測慢性乙型肝炎患者臨床終點事件的風險預測模型,但被臨床廣泛應用的模型較為少見。很多預測模型在開發(fā)過程中存在一定的方法學缺陷,導致模型的精確性和外推性不高,多數(shù)預測模型長期處于“多數(shù)被建立,少數(shù)被驗證,極少被應用”的情況[6-7]。為此,本文基于對目前已發(fā)表的慢乙型肝炎臨床終點事件預測模型的總結(jié),從方法學角度闡述預測模型構建的要點,以期為精準預測慢性乙型肝炎患者臨床終點事件的模型研究提供參考。
臨床預測模型又稱臨床預測規(guī)則,是指利用醫(yī)學征兆、癥狀或其他臨床發(fā)現(xiàn)預測特定疾病或結(jié)局發(fā)生的概率,包括診斷模型和預后模型。預測模型類研究一般可以分為兩類:診斷類預測模型和預后類預測模型[8-9]。診斷類預測模型是估計現(xiàn)在時間點某一個體發(fā)生特定疾病的風險或者概率,通常建立在橫斷面研究的基礎上;預后類預測模型則是利用個體現(xiàn)在時刻的特征指標(如實驗室檢查指標、癥狀或體征等)去預測未來發(fā)生特定事件的風險或概率,通常建立在隊列研究的基礎上,尤其是前瞻性隊列提供的結(jié)論更為可靠。兩類預測模型的研究框架詳見圖1。
按照研究目的預測模型類研究又可分為模型開發(fā)研究、模型驗證研究和開發(fā)驗證同時進行的研究[8],其中模型驗證又可分為內(nèi)部驗證和外部驗證,取決于與模型開發(fā)使用的數(shù)據(jù)集是否相同。若使用相同的數(shù)據(jù)集去驗證模型,則為內(nèi)部驗證;若使用與模型開發(fā)不同的數(shù)據(jù)集去驗證模型,則稱為外部驗證。外部驗證一般優(yōu)于內(nèi)部驗證。
慢性乙型肝炎臨床終點事件預測模型屬于預后類預測模型。目前國內(nèi)外關于慢性乙型肝炎患者的預后模型主要以肝細胞癌(HCC)為結(jié)局,少數(shù)以復合終點即肝臟相關事件(liver related events, LRE)及肝纖維化逆轉(zhuǎn)為結(jié)局[10-23]。本文共納入了14個慢性乙型肝炎患者臨床終點事件預測模型的文獻,各預測模型構建的基本特征詳見表1。所有預測模型的建立均采用隊列研究,其中13個(92%)模型基于亞洲人群構建,只有PAGE-B[16]模型是基于多個歐洲國家的高加索人種所構建。各模型的構建人群樣本量范圍為212~23 851,中位數(shù)為1035,結(jié)局事件發(fā)生中位數(shù)為56,其中CAMD模型構建人群樣本量超過2萬,結(jié)局事件發(fā)生數(shù)目最多(596例HCC)。
各模型構建人群的關鍵特征,如是否接受抗病毒治療與肝硬化狀態(tài)差異性較大。在研究對象是否接受抗病毒治療方面:GAG-HCC[10]、NGM-HCC[11]及REACH-B[13]模型是基于未進行抗病毒治療的慢性乙型肝炎患者,mREACH-B[15]、PAGE-B[16]、mPAGE-B[18]、CAMD[19]、AASL-HCC[20]、REAL-B[21]等模型是基于抗病毒治療的慢性乙型肝炎患者,CU-HCC[12]、LSM-HCC[14]及RWS-HCC[17]模型則同時包含了接受抗病毒治療和未抗病毒治療的慢性乙型肝炎患者,抗病毒治療患者的比例為15%~36%。在研究對象肝硬化比例方面:REACH-B[13]模型是唯一針對非肝硬化患者構建的預測模型,Wu等[22]基于代償期肝硬化的慢性乙型肝炎患者構建了LRE的2年風險預測模型,其余模型的構建人群則同時包含了肝硬化和非肝硬化的慢性乙型肝炎患者,肝硬化患者的比例為15%~47%。因而在模型應用時需要充分考慮到目標人群的基本關鍵特征,選擇外推性較好、預測結(jié)果較準的模型進行臨床應用。
關于各模型中慢性乙型肝炎患者臨床終點事件的風險預測因素,大致可以分為3類。(1)傳統(tǒng)流行病學危險因素:包括年齡、性別、HCC家族史、飲酒、糖尿病合并癥、肝硬化;(2)臨床檢測指標:包括ALT、Alb、PLT、TBil、AFP、LSM、HBeAg、HBV DNA等指標;(3)遺傳易感性檢測指標:包括核心啟動子突變等指標。本研究納入模型所采用預測因素的類別情況,1個(7%)模型僅納入傳統(tǒng)流行病學危險因素,2個(14%)模型僅納入臨床檢測指標,10個(71%)模型在傳統(tǒng)流行病學危險因素基礎上增加了PLT、HBV DNA或Alb等臨床檢測指標,1個(7%)模型綜合了傳統(tǒng)流行病學危險因素、臨床檢測指標及遺傳易感性指標。在預測因素測量時間點的選擇上,大部分(86%)模型均選擇了納入基線或抗病毒治療開始時的各臨床檢測指標,僅有2個(14%)模型考慮了某些臨床檢測的動態(tài)變化。
在模型構建的方法學層面,大部分(12/14,86%)模型采用了Cox比例風險回歸來構建預測模型,少數(shù)(2/14, 14%)采用了logistic 回歸的方法,未見其他統(tǒng)計學方法的使用。所有模型都采用AUC或C-index指標進行了模型區(qū)分度的評價,但近半數(shù)(6/14,43%)模型未進行校準度的評價和報告。14個模型中,5個模型只在內(nèi)部樣本中進行了交叉驗證,模型預測效果的外推性尚未進行評價,從而限制了模型在臨床的應用和推廣。此外,12個基于Cox比例風險回歸構建的預測模型中,50%的模型(如CU-HCC[12]、GAG-HCC[10]、LSM-HCC[14]等)未報道各預測因素的系數(shù)及基礎無病生存率,2個基于logistic回歸構建的預測模型也未報告截距項和/或各預測因素的系數(shù),從而使這些模型的臨床應用受到了一定的限制,也無法基于其他外部隊列對這些模型的校準度進行外部驗證。由此可見規(guī)范預測模型的產(chǎn)生過程及報告方法,不僅有助于提升預測模型本身的質(zhì)量,也能為后續(xù)預測模型的臨床應用及廣泛驗證提供可能。
預測模型構建基本可以分為5個步驟,依次是確定研究問題、選擇研究設計、模型開發(fā)和評估、模型內(nèi)部驗證和外部驗證以及模型結(jié)果的展示和報告。
3.1 確定研究問題 確定預測模型的研究問題要從臨床實踐出發(fā),從而確保構建出的模型能夠真正為臨床科學決策提供幫助。
3.2 選擇研究設計 需要明確預測因素與結(jié)局事件的采集時間點是否相同,即需明確是診斷類預測模型還是預后類預測模型,這關系到采用的研究設計類型即橫斷面研究還是隊列研究。
3.3 模型開發(fā)和評估 該部分是構建預測模型的關鍵,所涉及內(nèi)容主要為統(tǒng)計分析,包括統(tǒng)計模型的選擇、預測變量的轉(zhuǎn)換和篩選、模型區(qū)分度與校準度的評估三部分內(nèi)容。目前構建預測模型所采用的統(tǒng)計方法以logistic回歸和Cox比例風險回歸為主,前者未考慮到結(jié)局事件發(fā)生的時間,無法利用失訪研究對象的數(shù)據(jù)進行分析,統(tǒng)計效能較Cox比例風險回歸低;但當研究對象的隨訪時間較為統(tǒng)一,隊列中失訪率較低時二者的結(jié)果很接近。因此目前l(fā)ogistic回歸多用在診斷類預測模型,Cox比例風險回歸多用在預后類預測模型研究中。當然考慮到縱向資料的多次隨訪、各預測指標的動態(tài)變化、競爭風險的發(fā)生等方面,其他更為復雜的統(tǒng)計模型的應用也越來越廣泛,如聯(lián)合模型、時依協(xié)變量Cox比例風險模型、競爭風險模型等。
表1 慢性乙型肝炎/肝硬化患者臨床終點事件預測模型構建及驗證情況
預測變量的篩選是預測模型準確性的關鍵,貫穿于整個預測模型的建立過程。理論上來講預測變量越多模型的準確性往往越高,但通常也意味著模型更為復雜,應用性更差,且容易導致模型過度擬合。因此考慮到臨床應用的便捷性,通常會選擇盡量少的且具備科學性、可操作性、實用性和成本效果比的預測指標。變量篩選的統(tǒng)計方法有很多種,如基于P值的方法、基于信息準則的方法、最優(yōu)子集法、機器學習、LASSO等懲罰類變量篩選方法等,具體可根據(jù)相應研究問題來選擇合適的變量篩選方法,但一定要注意不能只依賴于統(tǒng)計層面的篩選,基于既往研究、臨床經(jīng)驗、生物學合理性等認為可能有影響的變量也應考慮納入。
模型的評估包括診斷/預測效能評價,如區(qū)分度、校準度以及靈敏度和特異度、陽性/陰性預測值、陽性/陰性似然比等;模型統(tǒng)計學評價,如模型的決定系數(shù)R2、反映模型的擬合優(yōu)度指標AIC/BIC等[24];衛(wèi)生經(jīng)濟學評價,如分類改善指標(NRI)、綜合判別改善指數(shù)(IDI)、成本-效果分析等[25]。有學者提出模型性能評價的“ABCD原則”[8],即模型截距(Alpha Calibration-in-the-large);校準曲線斜率(Beta Calibration slope); C統(tǒng)計量(C-statistics);決策曲線分析(Decision-curve analysis)。
3.4 模型內(nèi)部驗證和外部驗證 模型驗證是預測模型構建不可或缺的步驟,即對模型的區(qū)分度和校準度等進行考察的過程。一個良好的預測模型必定經(jīng)過了嚴格的內(nèi)部驗證及外部驗證。內(nèi)部驗證是基于模型開發(fā)數(shù)據(jù)集進行的驗證,通常作為模型開發(fā)的一部分,其目的是檢驗模型開發(fā)過程的可重復性。需要注意的是,內(nèi)部驗證是針對整個建模過程中的所有步驟,包括模型選擇、變量轉(zhuǎn)換和篩選等,而不是僅針對最終模型進行驗證。內(nèi)部驗證的常見方法包括隨機拆分驗證、交叉驗證、重抽樣驗證及“內(nèi)部-外部”交叉驗證等。外部驗證則是基于與模型開發(fā)不同的數(shù)據(jù)集進行的驗證,更關注模型的外推性。根據(jù)外部驗證數(shù)據(jù)來源的不同,外部驗證可以分為時段驗證、空間驗證、時空驗證和領域驗證等幾類。
3.5 模型結(jié)果的展示和報告 預測模型本質(zhì)上是預測變量的各種數(shù)學公式的組合,為方便臨床應用,通常會將不同的預測變量賦予不同的分值,采用評分表或打分卡的形式對應相應的風險。類似的,諸如列線圖或EXCEL工具、網(wǎng)頁工具或者手機App等電子方式也可進行展示和應用。在預測模型的報告方面,《個體預后與診斷的多因素預測模型報告規(guī)范》(transparent reporting of a multivariable prediction model for individual prognosis or diagnosis, TRIPOD清單)從標題和摘要、介紹、方法、結(jié)果、討論以及其他七個方面,提出了22個條目,并一一進行了充分的說明和舉例,以規(guī)范報告內(nèi)容,提高研究質(zhì)量[26]。研究者在開展相關研究及撰寫研究報告時應注意參考。
當今醫(yī)學從經(jīng)驗醫(yī)學發(fā)展到循證醫(yī)學,數(shù)據(jù)和證據(jù)的價值得到前所未有的重視。隨著精準醫(yī)學和大數(shù)據(jù)時代的到來,如何實現(xiàn)對乙型肝炎臨床終點事件,尤其是抗病毒治療后終點事件的精準預測成為亟待解決的科學問題。后續(xù)臨床終點事件預測模型的構建應充分考慮到抗病毒治療后各種臨床生化指標的變化,諸如ALT、Alb、PLT、TBil、AFP、LSM、HBeAg、HBV DNA等指標在抗病毒治療后的變化情況,從而可對抗病毒治療后人群肝癌或失代償?shù)冉K點事件的發(fā)生進行精準預測。
近年來,隨著肝穿病理量化評價技術如qFibrosis、機器學習等人工智能技術在臨床研究中的應用以及新的病理評價標準如“北京標準”[27]的提出,對肝纖維化逆轉(zhuǎn)的預測也將逐漸受到重視。同時,D’Amico等[28]學者提出的針對代償期肝硬化患者臨床終點事件細分為有序的1~6級分類標準也為實現(xiàn)肝硬化患者臨床終點事件的精準預測提供了依據(jù)。
此外,應該規(guī)范預測模型構建的方法學過程,包括統(tǒng)計分析模型的選擇、預測變量的篩選及模型區(qū)分度與校準度的評估,盡量減少模型構建過程中的偏倚風險,并規(guī)范預測模型類研究的報告,這對于提高模型的預測性能和臨床應用也至關重要。目前已有學者制定了預測模型的偏倚風險評價工具PROBAST (Prediction model Risk Of Bias ASsessment Tool)[29]和報告規(guī)范清單TRIPOD[26]。隨著預測模型構建的方法學規(guī)范化,臨床終點評價標準的精細化,以及人工智能技術在臨床研究的深入應用,相信一定會有助于加速實現(xiàn)慢性乙型肝炎臨床終點事件精準預測的目標。