張?zhí)灬?,董圣杰,楊智榮,武珊珊,田金徽,孫鳳
缺失數(shù)據(jù)(missing data)在科學(xué)研究中非常普遍,是指因各種原因應(yīng)該得到而未得到的數(shù)據(jù)[1],單個(gè)研究中如果出現(xiàn)缺失數(shù)據(jù)結(jié)果,可能導(dǎo)致研究精度降低和效應(yīng)量估計(jì)偏倚[2]。缺失數(shù)據(jù)在系統(tǒng)評價(jià)和Meta分析中也很常見,它有多種含義,一般是指缺失結(jié)局?jǐn)?shù)據(jù)(missing outcome data,MOD)、缺失感興趣的干預(yù)組、缺失研究(missing studies)、缺失統(tǒng)計(jì)量(missing statistics)、缺失整個(gè)研究結(jié)果、缺失研究水平的基本特征等[2,3]。MOD在實(shí)施網(wǎng)絡(luò)Meta分析(Network meta-analysis,NMA)普遍存在,研究者們嘗試數(shù)據(jù)處理(data-manipulation)和建模(modelling)等策略對MOD進(jìn)行處理[4],本文梳理和介紹幾種主要的分析方法和策略,以期為研究人員了解相關(guān)知識(shí)和進(jìn)行NMA提供參考。
MOD這一名詞廣泛應(yīng)用臨床研究文獻(xiàn)中,是指某些研究對象的結(jié)局?jǐn)?shù)據(jù)不存在的情境[5]。不管研究者采用何種嚴(yán)格的方法學(xué),納入Meta分析的隨機(jī)對照試驗(yàn)在收集每個(gè)研究對象相關(guān)結(jié)局?jǐn)?shù)據(jù)時(shí),幾乎不可避免地會(huì)出現(xiàn)失敗的情況[6]而造成數(shù)據(jù)缺失,但系統(tǒng)評價(jià)員有時(shí)候很難判斷MOD的原因是原始研究對結(jié)局未進(jìn)行測量還是未進(jìn)行報(bào)告[3]。
近年來,研究者開始關(guān)注系統(tǒng)評價(jià)中的數(shù)據(jù)缺失問題,按照主要結(jié)局?jǐn)?shù)據(jù)類型,既往文獻(xiàn)關(guān)注MOD較多的是二分類結(jié)局?jǐn)?shù)據(jù)缺失和連續(xù)型結(jié)局?jǐn)?shù)據(jù)缺失(missing continuous outcome data,MCOD)。如一項(xiàng)針對387個(gè)NMA的調(diào)查研究表明[7],共273個(gè)NMA或明確或含蓄地指明納入分析的研究存在數(shù)據(jù)缺失,僅141(41%)個(gè)NMA明確指出擬采用的分析計(jì)劃,但實(shí)際上只有95個(gè)(35%)NMA真正實(shí)施;以二分類數(shù)據(jù)為主要結(jié)局的NMA共127個(gè),在以連續(xù)型數(shù)據(jù)為主要結(jié)局的92個(gè)NMA中有5個(gè)NMA針對納入的每個(gè)研究的每個(gè)臂MOD情況進(jìn)行報(bào)告。
數(shù)據(jù)缺失導(dǎo)致的偏倚風(fēng)險(xiǎn)依賴于數(shù)據(jù)缺失機(jī)制,思考為什么數(shù)據(jù)會(huì)出現(xiàn)缺失非常重要[3]。數(shù)據(jù)缺失機(jī)制一般是用來描述數(shù)據(jù)缺失依賴于研究對象的特征及結(jié)局的傾向如何,一般可分為[5]:
2.1 完全隨機(jī)缺失完全隨機(jī)缺失(missing completely at random,MCAR)是指對于所有研究對象而言缺失結(jié)局的概率是相同的,不依賴于研究對象的特征,如因時(shí)間安排困難造成的研究對象失去預(yù)約機(jī)會(huì)。MCAR假設(shè)的意思是指提供數(shù)據(jù)的某組研究對象是研究總體的隨機(jī)抽樣,但在實(shí)際中常常難以成立。
2.2 隨機(jī)缺失隨機(jī)缺失(missing at random,MAR)是指數(shù)據(jù)缺失的傾向性與研究對象有關(guān),但缺失結(jié)局的概率與結(jié)局本身無關(guān)。如,假定初級中學(xué)生隨機(jī)分配接受不同的干預(yù)措施,以癥狀嚴(yán)重程度量表來評價(jià)能否降低學(xué)校相關(guān)性焦慮,越是年齡小的學(xué)生有可能提供的信息越少,因?yàn)樗麄兛赡軐α勘項(xiàng)l目理解困難。在Meta分析中,因獲得的是聚合數(shù)據(jù)、且沒有足夠的脫落人群信息,MAR假設(shè)常難以驗(yàn)證。
2.3 非隨機(jī)缺失非隨機(jī)缺失(not missing at random,NMAR)是指缺失與缺失的數(shù)據(jù)相關(guān),即是數(shù)據(jù)缺失的概率與未觀察到的結(jié)果數(shù)據(jù)有關(guān),如因干預(yù)措施真正的療效較差而導(dǎo)致患者出現(xiàn)脫落。
在Meta分析中常應(yīng)用數(shù)據(jù)處理和建模策略來處理缺失數(shù)據(jù)[4,8]。
3.1 數(shù)據(jù)處理策略主要包括排除MOD或基于退化概率分布的填補(bǔ)等兩種方法,因其簡單、直觀且不需要復(fù)雜的統(tǒng)計(jì)軟件而在經(jīng)典的Meta分析和NMA中廣泛使用[4,7,9]。另一方面,在應(yīng)用時(shí)要注意其因簡單易行而帶來的挑戰(zhàn):①若MOD數(shù)量比較多、缺失機(jī)制不可忽略,則排除MOD有可能會(huì)產(chǎn)生偏倚的結(jié)果[6,10];②數(shù)據(jù)填補(bǔ)因采用退化概率分布常缺乏合理性。
3.1.1 排除策略排除(exclusion)策略是指忽略缺失數(shù)據(jù),僅分析可以利用、結(jié)局?jǐn)?shù)據(jù)完整的研究數(shù)據(jù),稱為完整病例Meta分析(Complete cases meta-analysis),是許多Meta分析采用的最普通參考策略[5]。在應(yīng)用時(shí)要注意滿足該策略的MCAR假設(shè),如果數(shù)據(jù)是NMAR,則數(shù)據(jù)缺失率越高則分析結(jié)果越不可靠[11]。
3.1.2 填補(bǔ)策略數(shù)據(jù)填補(bǔ)(data imputation)策略是指采用適當(dāng)?shù)墓烙?jì)方法,以適合的數(shù)據(jù)填補(bǔ)代替缺失數(shù)據(jù)。適用于數(shù)據(jù)填補(bǔ)策略的情況[1]:如果數(shù)據(jù)缺失屬于非MCAR;缺失率較?。?5%以下);含有缺失值的變量對于研究問題有非常重要的意義;注意事項(xiàng):一般要遵循保守原則;要根據(jù)缺失數(shù)據(jù)的類型、機(jī)制,選擇不同的方法必要時(shí)采用多種方法進(jìn)行填補(bǔ),并對不同的數(shù)據(jù)填補(bǔ)方法產(chǎn)生的結(jié)論進(jìn)行敏感性分析。
試驗(yàn)中針對缺失數(shù)據(jù)常用填補(bǔ)數(shù)據(jù)的方法來處理,最常用兩種策略[5]:一是以提供數(shù)據(jù)的研究對象測量結(jié)局的平均值來替代缺失值,是簡單填補(bǔ)法;二是把最后一次觀測值作替代缺失值,稱為末次訪視結(jié)轉(zhuǎn)(last observation carried forward,LOCF)。還可采用多重?zé)釋犹钛a(bǔ)法、趨勢得分法、多重回歸填補(bǔ)法、數(shù)據(jù)擴(kuò)增法等多重填補(bǔ)法,通過隨機(jī)生成值來替代缺失值得到多個(gè)原始數(shù)據(jù)集的衍生數(shù)據(jù)集進(jìn)行分析,需要涉及貝葉斯理論、MCMC方法等理論和算法[1]。
3.2 建模策略建模策略是以觀察到的結(jié)局、缺失結(jié)局和結(jié)局調(diào)節(jié)因素等聯(lián)合似然為中心進(jìn)行處理數(shù)據(jù)。與數(shù)據(jù)處理策略相比,建模策略具有概念和統(tǒng)計(jì)上的優(yōu)勢,它可以定量化處理缺失結(jié)局和觀察到的結(jié)局之間關(guān)聯(lián),而不是在分析前對數(shù)據(jù)進(jìn)行調(diào)整;且可合并關(guān)聯(lián)的不確定性[6,10,12]。因此,每個(gè)研究可以對MOD進(jìn)行效應(yīng)量及其標(biāo)準(zhǔn)誤的校正,并將這些校正傳遞到Meta分析對效應(yīng)量的合并估計(jì)中。常用建模策略有模式混合模型(pattern-mixture model)和選擇模型(selection model)。
4.1 模型簡介[13,14]在系統(tǒng)評價(jià)中,模式混合模型是處理MOD最常用的方法[13]。以二分類數(shù)據(jù)為例,簡單介紹一步法模式混合模型:假定納入NMA中有N個(gè)研究含有T個(gè)干預(yù)措施(也稱為臂),在第i個(gè)研究中第k(k=1,2,K,ai)個(gè)臂中,事件發(fā)生人數(shù)為rik,缺失人數(shù)mik,總?cè)藬?shù)為nik,令觀察到的事件發(fā)生人數(shù)與缺失人數(shù)是來自相關(guān)二項(xiàng)式分布的隨機(jī)抽樣[12],則有:rik~Bin(p°ik,nik-mik)和mik~Bin(qik,nik),式中,p°ik為完成觀察者事件發(fā)生的條件概率,qik為MOD的概率。
模型混合模型可以用描述研究中研究觀察完成者和缺失個(gè)體的分布[10,12]:在第i個(gè)研究中第k個(gè)臂事件發(fā)生概率pik可基于事件是否觀察到或缺失來進(jìn)行條件建模,則有:pik=p°ik·(1-qik)+pmik·qik,式中,pmik第i個(gè)研究中第k個(gè)臂事件缺失個(gè)體事件發(fā)生的條件概率。則在模型中一個(gè)非常重要的參數(shù)——缺失信息OR(informative missingness odds ratio,IMOR)參數(shù)可定義為:,式中l(wèi)n(δik)=?ik~N(ωik,σ2ik),因數(shù)據(jù)缺失機(jī)制不明,假定為MAR是合理的[14],則令?ik~N(0,1)。
通過logit函數(shù)連接可得隨機(jī)效應(yīng)NMA模型:log it(pik)=μi+θik,θik~N(μtikti1,τ2)。式中,μi=log it(pi1)表示第i個(gè)研究基線臂的事件發(fā)生比數(shù)的對數(shù)(ln(odds)),θik是指第i個(gè)研究干預(yù)臂k(k≠1)相對于基線臂1事件發(fā)生的比值比的對數(shù)ln(OR);tik表示第i個(gè)研究中第k個(gè)臂中干預(yù)措施,因此有tik∈{A,B,K};如果在多臂研究中(研究中ai≥3)則因與同一個(gè)參照干預(yù)措施相比的其他干預(yù)措施的ln(OR)間存在相關(guān)性,需要指定服從多元正態(tài)分布;τ2在實(shí)踐中,常假設(shè)為一個(gè)常數(shù),相當(dāng)于在多臂研究中兩個(gè)θik(k≠1)之間的相關(guān)系數(shù)為0.5。
假定在納入NMA中的干預(yù)措施T={A,B,C,K}中,令A(yù)為參照干預(yù)措施,有第j和l個(gè)干預(yù)措施,且j≠k∈T/{A},它們之間的相對效應(yīng)可根據(jù)一致性原理[15],通過基本參數(shù)計(jì)算所得:μjl=μjA-μlA。
4.2 適用數(shù)據(jù)類型該模型可用于MOD為二分類數(shù)據(jù)[14]和連續(xù)型數(shù)據(jù)的NMA[16]。針對MOD為二分類數(shù)據(jù)模型(一步策略)如上文所述。Spineli[16]等認(rèn)為,相比于填補(bǔ)策略,從概念和統(tǒng)計(jì)學(xué)上而言復(fù)雜的策略處理MCOD更為合理,分析和比較Mavridis等[17]提出的模式混合模型兩步策略,指出了不足之處, 一是,把研究內(nèi)干預(yù)效應(yīng)及相應(yīng)標(biāo)準(zhǔn)誤固定到缺失信息參數(shù)的均數(shù)和方差的分布中;二是沒有允許觀察到的數(shù)據(jù)貢獻(xiàn)到缺失信息參數(shù)估計(jì)中。在其二分類MOD模式混合模型基礎(chǔ)上,建立了MCOD的分析模型,可獲得均數(shù)差、標(biāo)化均數(shù)差、均數(shù)比等效應(yīng)量,其建模思路與二分類MOD相同,本文不再贅述,感興趣的讀者可以閱讀相關(guān)文獻(xiàn)[16]。
4.3 模型擬合策略該模型可通過一步(onestage)或兩步(two-stage)策略來實(shí)現(xiàn)。一步策略如上所述,兩步法思路是:以二分類數(shù)據(jù)為例,第一步采用模式混合模型校正研究內(nèi)ln(OR);第二步采用Dias[18]等提出基于對比策略建模。簡而言之,一步策略就是從每個(gè)研究每個(gè)臂中提取的信息作為輸入數(shù)據(jù),并把模式混合模型融入到NMA的層次模型中;二步策略是把通過模式混合模型獲得的研究內(nèi)的效應(yīng)估計(jì)值作為輸入數(shù)據(jù)來實(shí)施NMA[14]。
一步策略和兩步策略均可在貝葉斯框架下實(shí)現(xiàn),WinBUGS、R等軟件包可以選用。文獻(xiàn)[14,16]中提供了分析數(shù)據(jù)示例及R軟件實(shí)現(xiàn)代碼,可以下載學(xué)習(xí)。
4.4 選擇模型針對二分類MOD,也可采用通過對觀察到的數(shù)據(jù)建模的選擇模型來處理[10,13,19]。假定納入NMA中有N個(gè)研究含有T個(gè)干預(yù)措施(臂),在第i個(gè)研究中第k(k=1,2,K,ai)個(gè)臂中,事件發(fā)生人數(shù)為rik,缺失人數(shù)mik,總?cè)藬?shù)為nik,令其服從正項(xiàng)式分布:(rik,nik-rik-mik,mik)T~M(p1,ik,p2,ik,p3,ik,nik),式中,p1,ik=(1-c1,ik)gpik,p2,ik=(1-c0,ik)g(1-pik),p3,ik=c1,ikgpik+c0,ikg(1-pik)。p1,ik表示觀察到的潛在事件的邊緣概率,p2,ik表示未觀察到的潛在事件的邊緣概率,表示MOD的實(shí)際概率(如p3,ik=qik)。該模型對缺失數(shù)據(jù)是否經(jīng)歷事件進(jìn)行條件建模,c1,ik和c0,ik分別表示第i個(gè)研究第個(gè)k臂中MOD基于有無潛在事件研究對象的條件概率,該模型貝葉斯框架下實(shí)現(xiàn)[19],因在模型中只有參數(shù)qik是從數(shù)據(jù)估計(jì)所得,其他參數(shù)需要指定先驗(yàn)分布。
系統(tǒng)評價(jià)員應(yīng)當(dāng)重視NMA時(shí)數(shù)據(jù)缺失情況,但目前尚無處理MOD的“最佳”策略[13]。如果在對MOD進(jìn)行NMA時(shí),應(yīng)注意的事項(xiàng): ①應(yīng)盡可能和原始研究者聯(lián)系,索要所缺失的數(shù)據(jù);②雖然排除和填補(bǔ)策略簡單易行,但注意其明確的假設(shè);③建議模式混合模型一步策略處理MOD;④建議采用基于不同假設(shè)、不同方法分析數(shù)據(jù),進(jìn)行敏感性分析。