第二軍醫(yī)大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室 張?zhí)煲?葉小飛 張新佶 郭曉晶 張 筱 李 慧 于菲菲 賀 佳
邊緣結(jié)構(gòu)模型*
——一種控制時(shí)依性混雜的方法
第二軍醫(yī)大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室 張?zhí)煲?葉小飛 張新佶 郭曉晶 張 筱 李 慧 于菲菲 賀 佳Δ
在觀察性研究中,暴露或處理因素常常會(huì)隨時(shí)間的變化而變化,在分析其對(duì)結(jié)局的效應(yīng)時(shí),常會(huì)受到時(shí)依性混雜因素的影響。時(shí)依性混雜因素是指同時(shí)滿足以下三個(gè)條件的因素:(1)隨時(shí)間變化;(2)是結(jié)局的影響因素;(3)會(huì)影響到隨后的暴露/處理,同時(shí)又會(huì)受到前次暴露/處理的影響[1-2]??梢?,時(shí)依性混雜因素既可以看作暴露/處理與結(jié)局的混雜因素,也可以當(dāng)成暴露/處理與結(jié)局之間的一個(gè)中間變量。在估計(jì)暴露/處理的效應(yīng)時(shí),采用傳統(tǒng)的多因素回歸模型可以校正混雜因素的影響。然而,當(dāng)把中間變量納入模型時(shí),則會(huì)產(chǎn)生有偏的估計(jì)。由于時(shí)依性混雜因素同時(shí)具有混雜因素和中間變量的性質(zhì),因此傳統(tǒng)的回歸模型不能很好地解決縱向數(shù)據(jù)中時(shí)依性混雜的問題。針對(duì)傳統(tǒng)方法在處理時(shí)依性混雜時(shí)面臨的困境,Robins在1997年提出了邊緣結(jié)構(gòu)模型(marginal structural model,MSM)[3]這一新的方法。
邊緣結(jié)構(gòu)模型的基本思想是:如果每個(gè)個(gè)體(i)都接受了暴露/處理的所有水平,則在不同水平上發(fā)生某一結(jié)局事件的概率分布差異就是暴露/處理的真實(shí)效應(yīng)(不受混雜因素的影響)。而在現(xiàn)實(shí)中,這種假設(shè)是不存在的,因此需要通過逆概率加權(quán)的方法(inverse probability weighting,IPW)將每個(gè)觀察個(gè)體都賦予相應(yīng)的權(quán)重ωi(即將每個(gè)個(gè)體i都復(fù)制ωi個(gè)),從而構(gòu)建出一個(gè)虛擬人群。在這個(gè)人群中,各暴露水平在不同協(xié)變量特征的亞組人群中具有相同的分布,從而消除了混雜因素的影響,同時(shí),暴露/處理與結(jié)局之間的關(guān)系與原人群是一致的。因此,對(duì)這個(gè)虛擬人群進(jìn)行回歸模型的擬合,就可以無偏的估計(jì)暴露/處理的效應(yīng)。
我們以一個(gè)前瞻性的觀察性研究來解釋MSM模型及其參數(shù)的IPW估計(jì)方法。如圖1所示:為探索暴露因素對(duì)觀察結(jié)局的效應(yīng),該研究對(duì)觀察對(duì)象進(jìn)行了基線和2次隨訪調(diào)查[4]。其中,A表示暴露因素(A=1,表示接受暴露;A=0,表示未接受暴露);Y代表結(jié)局(Y=1,表示陽性結(jié)局;Y=0,表示陰性結(jié)局);L表示一組向量,它隨時(shí)間變化,受到之前暴露水平的影響,并且影響下一階段的暴露水平,同時(shí),L也是結(jié)局的影響因素,因此,L是一個(gè)時(shí)依性變量;此外,除圖中顯示的時(shí)依性混雜因素外,還存在一些不隨時(shí)間變化的混雜因素(X),所有的混雜因素用Z表示(X,Z分別表示一組向量)。以此為例,對(duì)MSM模型的應(yīng)用步驟進(jìn)行介紹。
圖1 存在時(shí)依性混雜因素的病因關(guān)系圖
1.構(gòu)建邊緣結(jié)構(gòu)(MSM)模型,估計(jì)暴露/處理效應(yīng)
設(shè)定暴露因素A與結(jié)局Y的關(guān)系符合如下線性logistic MSM模型:
vi代表一組向量,表示基線混雜因素的實(shí)際觀測值;
β0的意義是所有觀察對(duì)象從基線到第一次隨訪都沒有接受暴露的情況下,出現(xiàn)陽性結(jié)局的概率;
β1可解讀為每增加一次暴露,logit pr的改變值。因此,eβ1就表示相應(yīng)的OR值。
2.逆概率加權(quán)(IPW)
構(gòu)建出邊緣結(jié)構(gòu)模型后,可利用逆概率加權(quán)的方法實(shí)現(xiàn)參數(shù)的無偏估計(jì)。在進(jìn)行模型擬合及參數(shù)估計(jì)之前,需要采用逆概率加權(quán)的方法對(duì)每個(gè)觀察對(duì)象進(jìn)行加權(quán)處理,通過加權(quán),構(gòu)建一個(gè)虛擬人群,使得在不同協(xié)變量特征的亞組人群中,各個(gè)暴露水平的分布相同,從而消除了混雜因素的影響。再通過模型(1)對(duì)參數(shù)進(jìn)行估計(jì),從而無偏地估計(jì)暴露對(duì)于結(jié)局的效應(yīng)。
該方法可以通過SAS軟件實(shí)現(xiàn),即利用Proc Genmod程序的SCWGT選項(xiàng)(見附錄),對(duì)每個(gè)觀察對(duì)象(i)賦予一個(gè)權(quán)重ωi,其表達(dá)式如下:
其中,
j表示隨訪次數(shù),j=0,1;
Aj表示第j次隨訪時(shí)的暴露,aij為實(shí)際觀測值;
式中分母表示在給定觀察對(duì)象從基線到第j-1次隨訪暴露歷史以及從基線到第j次隨訪的混雜因素的條件下,該對(duì)象在第j次隨訪時(shí)接受暴露水平是實(shí)際觀測值的條件概率。
盡管由公式(2)算出的權(quán)重可以去除混雜因素和暴露之間的關(guān)聯(lián),解決了混雜偏倚的問題。但是,由此估計(jì)出的權(quán)重可能存在極端異常值,進(jìn)而導(dǎo)致參數(shù)的估計(jì)值變異較大。因此,Hernan等提出了穩(wěn)定化權(quán)重(stabilized weight)的方法,一定程度上緩解了參數(shù)估計(jì)的變異程度。具體表達(dá)式如下:
式中,
Vj表示基線混雜,vji為其實(shí)際觀測值;
該方法又稱為IPTW(inverse probability of treatment weighting);
該方法與公式(2)的區(qū)別在于分子部分,其分子表示:在給定觀察對(duì)象基線混雜及從基線到第j-1次隨訪暴露歷史的條件下,該對(duì)象在第j次隨訪時(shí)接收暴露水平是實(shí)際觀測值的條件概率。
顯然,與未穩(wěn)定化權(quán)重相比,穩(wěn)定化權(quán)重的取值更接近1,分布更加集中,變異程度更小。因此,穩(wěn)定化權(quán)重可以減少極端權(quán)重對(duì)參數(shù)估計(jì)的影響。
但是,由于穩(wěn)定化權(quán)重將給定基線混雜條件概率作為分子,所以并沒有去除基線混雜的影響,也就是說基線協(xié)變量與暴露方式之間仍存在關(guān)聯(lián)性。因此,還應(yīng)采用模型(1)對(duì)效應(yīng)進(jìn)行估計(jì),即將基線混雜因素作為自變量納入模型中,用以校正基線混雜的影響。
3.權(quán)重的計(jì)算
公式(3)的分子和分母都可以采用合并logistic回歸(pooled logistic regression,PLR)模型[5]進(jìn)行計(jì)算。
與傳統(tǒng)logistic回歸不同的是,PLR模型將人時(shí)作為觀測,即考慮到了每個(gè)對(duì)象每一次隨訪的結(jié)局,而不是僅僅分析隨訪終點(diǎn)時(shí)的結(jié)局,具體如下:
分母的計(jì)算:
式(4)(5)中,tj表示第j次隨訪的時(shí)間。
利用MSM模型可以解決由于失訪而導(dǎo)致的數(shù)據(jù)缺失問題。其基本思想是假設(shè)觀察對(duì)象中沒有發(fā)生失訪事件,則該人群中某一結(jié)局事件的頻率分布就可真實(shí)代表該人群中這一事件的發(fā)生率。具體處理的思路與第二部分介紹的方法基本一致,不同之處在于應(yīng)用IPW計(jì)算權(quán)重時(shí),除需考慮接受實(shí)際暴露水平的條件概率,還要估計(jì)失訪事件的條件概率。具體如下:
其中,C表示失訪情況(C=0,表示未失訪;C=1,表示失訪)表示從基線到第j次隨訪的失訪情況表示從未失訪);該公式第二個(gè)分式又稱為IPCW(inverse probability of censoring weighting)。
通過對(duì)人群進(jìn)行加權(quán)處理,使得暴露水平與隨訪事件在具有不同協(xié)變量特征的亞組人群中,分布相同。再通過模型(1)進(jìn)行擬合,即可無偏的估計(jì)出暴露因素對(duì)結(jié)局的效應(yīng)。
此外,MSM模型還可用來解決隨機(jī)對(duì)照實(shí)驗(yàn)中的非隨機(jī)轉(zhuǎn)組問題。
Robin等人通過采用MSM模型來估計(jì)齊多夫定對(duì)于HIV陽性人群生存率的影響,首次實(shí)現(xiàn)了MSM模型的實(shí)際應(yīng)用[6]。齊多夫定對(duì)于HIV陽性患者生存率的效應(yīng)受到多個(gè)時(shí)依性混雜因素的影響,如CD4淋巴細(xì)胞水平,它是:(1)一個(gè)隨時(shí)間變化的指標(biāo);(2)上一階段齊多夫定的治療會(huì)直接影響當(dāng)前CD4細(xì)胞水平,而當(dāng)前的CD4水平又關(guān)系到下一階段是否使用齊多夫定治療;(3)CD4淋巴細(xì)胞水平是HIV患者生存或死亡的影響因素之一。由于時(shí)依性混雜因素的特殊性質(zhì),采用傳統(tǒng)的模型不能很好地校正該類混雜因素的影響,因此該研究應(yīng)用采用MSM模型對(duì)齊多夫定的效應(yīng)進(jìn)行估計(jì)。該研究表明齊多夫定可以增加HIV陽性患者的死亡風(fēng)險(xiǎn),RR值為3.6,而應(yīng)用傳統(tǒng)模型進(jìn)行估計(jì)時(shí),其RR值僅為2.3。
MSM模型可以解決縱向數(shù)據(jù)中時(shí)依性混雜的問題,與同能處理時(shí)依性混雜問題的SNM(structural nested model)模型相比(表1),MSM模型與傳統(tǒng)模型十分相像(如本文中的介紹logistic MSM模型和實(shí)例中的COX—MSM模型),因此,不管是操作,還是對(duì)于結(jié)果的解釋都較為簡單和直觀。與此同時(shí),當(dāng)結(jié)局變量為二分類時(shí),MSM模型仍能夠解決SNM模型通常不能處理的時(shí)依性混雜問題。
表1 MSM模型、SNM模型、傳統(tǒng)PS模型之間的比較
此外,MSM模型也可以用來解決非時(shí)依性混雜問題,與傳統(tǒng)傾向性評(píng)分(propensity score,PS)模型相比(表1),MSM模型可以克服常規(guī)傾向性評(píng)分中存在的殘余混雜問題,并可解決當(dāng)存在缺失數(shù)據(jù)和暴露因素不是二分類變量時(shí)傾向性評(píng)分不易實(shí)現(xiàn)的問題[1]。
然而,MSM模型也存在一定的局限性:
1.當(dāng)在某一混雜因素的水平上,所有的觀察對(duì)象都接受了相同的暴露水平,即在給定某一混雜因素的條件下,接受當(dāng)前暴露水平的條件概率為1時(shí),MSM模型就不再適用了[1]。
2.采用MSM模型進(jìn)行效應(yīng)估計(jì)時(shí),只有正確的設(shè)定混雜因素與暴露/處理水平間的模型,才能計(jì)算出準(zhǔn)確的權(quán)重,進(jìn)而得到暴露/處理效應(yīng)的無偏估計(jì)。因此,MSM模型對(duì)于模型的設(shè)定較為敏感[7]。
3.當(dāng)協(xié)變量與暴露/處理因素之間存在很強(qiáng)的關(guān)聯(lián)時(shí),穩(wěn)定化的權(quán)重也會(huì)存在較大的變異,這將導(dǎo)致95%可信區(qū)間較寬,95%可信區(qū)間的覆蓋率較低。
4.當(dāng)協(xié)變量與暴露/處理因素間存在交互作用時(shí),95%可信區(qū)間的覆蓋率較低。
MSM模型通過采用IPW的參數(shù)估計(jì)方法構(gòu)建出一個(gè)虛擬人群,均衡了各組間混雜因素的分布,排除了混雜因素的影響,進(jìn)而實(shí)現(xiàn)了效應(yīng)的無偏估計(jì),為流行病學(xué)研究中廣泛存在的時(shí)依性混雜問題提供了一個(gè)切實(shí)有效的解決方法。自2000年以來,采用MSM模型對(duì)效應(yīng)進(jìn)行估計(jì)的文章呈現(xiàn)逐年增加的趨勢(shì)[7-8],但是MSM模型的應(yīng)用范圍的還不夠廣泛,報(bào)道的規(guī)范性仍有待提高。例如在使用MSM模型進(jìn)行效應(yīng)估計(jì)的文章中,有關(guān)HIV的療法研究占據(jù)了近50%的比例,并且只有60%的研究采用了穩(wěn)定化的權(quán)重方法[8]。因此,今后還需對(duì)MSM模型加以重視,擴(kuò)大MSM模型的應(yīng)用范圍,加強(qiáng)MSM模型報(bào)道的規(guī)范性。
附錄:SAS實(shí)現(xiàn)
在應(yīng)用SAS軟件進(jìn)行分析前,需要將數(shù)據(jù)集進(jìn)行整理,即將數(shù)據(jù)集整理成每行觀測為一個(gè)人時(shí)的形式,以便使用PLR方法進(jìn)行分析,設(shè)定該數(shù)據(jù)集為data。
此外,在使用PLR模型計(jì)算每一隨訪節(jié)點(diǎn)的權(quán)重時(shí),需保證各個(gè)時(shí)間點(diǎn)間的截距相等,即公式(4)、(5)中的α0j、α′0j在各個(gè)隨訪期間應(yīng)保持不變。這需要應(yīng)用限制性立方樣條的方法進(jìn)行計(jì)算,可參見http://jse.stat.ncsu.edu:70/1s/software/sas
SAS程序的具體代碼如下:
國家自然科學(xué)基金(No.81072388,No.81202285,No.81373105);上海市循證公共衛(wèi)生重點(diǎn)學(xué)科(12GWZX0602)
△通信作者:賀佳,E-mail:hejia63@yeah.net