肖 翔,吳懿祺,古 晞
(1.上海工程技術大學 數(shù)理與統(tǒng)計學院,上海 201620;2.上海對外經貿大學 統(tǒng)計與信息學院,上海 201620;3.同濟大學 數(shù)學科學學院,上海 200092)
混合分布模型常用于對混合計數(shù)數(shù)據(jù)的研究[1?4].其中混合治愈模型在醫(yī)學上有著廣泛的應用,它最早是在癌癥臨床研究中提出的,用于解決治愈率估計問題.目前,國內外學者在對混合治愈模型的研究中取得豐富的成果.Boag[5]基于對數(shù)正態(tài)分布構建易感群體的生存函數(shù)和混合治愈模型,對癌癥復發(fā)的可能性進行預測.Farewell[6]利用威布爾分布建立關于治愈率的Logistic 回歸模型,用極大似然法估計參數(shù).Ghitany 等[7]引入?yún)f(xié)變量建立基于指數(shù)分布混合治愈模型,采用極大似然法估計參數(shù)的相合性和漸進正態(tài)性.Taylor[8]使用Kaplan-Meier 估計量對易感群體的失效時間建模,引入?yún)f(xié)變量對治愈率建立回歸模型,并利用EM 算法得到參數(shù)的估計值.Peng 等[9]采用非參數(shù)估計方法建立基于比例風險的混合治愈模型,并對乳腺癌數(shù)據(jù)進行實證分析.Zhou 等[10]使用多重插值補獲得治愈概率和未治愈的患者生存函數(shù)的參數(shù)和方差估計.Diao 等[11]針對具有存活率的當前狀態(tài)數(shù)據(jù),提出一類半?yún)?shù)變化治愈模型,并證明模型回歸系數(shù)的極大似然估計具有一致性、漸進正態(tài)性和漸進有效性.Lam 等[12]提出聚類加權廣義估計方程方法,使用基于Bernstein 多項式的偽似然法估計模型的參數(shù)和非參數(shù)分量.
上述文獻一般采用傳統(tǒng)的或者基于EM 算法的極大似然估計法、多重插值補和偽似然法對治愈模型或者混合治愈模型中的參數(shù)進行估計,很少采用Jeffreys 先驗和reference 先驗等客觀先驗,這一領域研究幾乎空白.因此,本研究使用客觀先驗對基于指數(shù)分布且含有刪失數(shù)據(jù)的混合治愈模型進行客觀貝葉斯分析.
假設被研究總體分成兩個群體:一類是治愈人群,其治愈率為p(0
t),T為研究對象的生存時間.一般意義下的混合治愈模型為
假設易感人群的生存時間服從指數(shù)分布,其概率密度為
式中:λ>0.對應易感人群的生存函數(shù)為S0(t)=exp(?λt),代入式(1)得到基于指數(shù)分布混合治愈模型為
假設{(ti,di)}(i=1,2,···,n)是樣本容量為n的觀測值,參數(shù)(p,λ)的似然函數(shù)為
式中:f(ti;p,λ)為生存時間的概率密度函數(shù);S(ti;p,λ)為生存函數(shù).
若生存時間為服從指數(shù)分布的混合治愈模型式(2),則 (p,λ)的似然函數(shù)可以進一步寫成
其對數(shù)似然函數(shù)為
由于式(3)、式(4)比較復雜,不利于客觀先驗的計算,因此引入隱變量Z=(z1,z2,···,zn). 當zi=0時,個體i來源于易感群體;當zi=1時,個體i來源于治愈群體,該群體占總體的比例為p.zi是服從治愈率為p的伯努利分布,即zi~Bernoulli(p),且E(zi)=p,i=1,2,···,n.因此,基于擴充數(shù)據(jù){(ti,di,zi)}得到參數(shù)(p,λ)的完全似然函數(shù)為
其對數(shù)完全似然函數(shù)為
由于原始的對數(shù)似然函數(shù)式(4)非常復雜,本節(jié)采用對數(shù)完全似然函數(shù)式(6)進行推導,得到Fisher 信息矩陣是對角矩陣,極大地簡化了客觀先驗的計算.
定理1假設對研究對象的觀測時間足夠長,則基于指數(shù)分布混合治愈模型式(2),參數(shù) (p,λ)的Fisher 信息矩陣為
證明:對數(shù)完全似然函數(shù)式(6)的一階和二階偏導數(shù)為
記 為失效人數(shù),假設對研究對象的觀測時間足夠長,這樣就可以識別出治愈者,通過樣本數(shù)據(jù)觀測到的未治愈率無限趨向于總體未治愈率 1?p,為后續(xù)計算方便,本研究取r≈n(1?p),得到Fisher 信息陣的組成元素為
則在數(shù)據(jù)擴充策略下,參數(shù) (p,λ)的Fisher 信息矩陣為
相比于Laplace 先驗,Jeffreys 先驗能夠在參數(shù)變換下保持不變性,比Laplace 先驗具有更廣泛的應用場合[13].
定理2參數(shù) (p,λ)的Jeffreys 先驗為
證明:參數(shù)(p,λ)的Jeffreys先驗與Fisher信息矩陣行列式的平方根成正比,且有
reference 先驗是基于信息量準則推導出的先驗分布,能夠使參數(shù)的先驗分布和后驗分布之間的Kullback-Liebler 距離最大.reference 先驗是Jeffreys 先驗的推廣,當參數(shù)是一維時,reference先驗就變成了Jeffreys 先驗.
reference 先驗根據(jù)參數(shù)的重要性,可得到不同重要次序下的參數(shù)組合.例如,記號{p,λ}表示p為感興趣參數(shù),λ為討厭參數(shù),p比λ更重要.反之,記號{λ,p}表示λ為感興趣參數(shù),p為討厭參數(shù),λ比p更重要.
定理3對于參數(shù)組合{p,λ},(p,λ) reference 先驗為
證 明:對于參數(shù)組合 {p,λ},p為感興趣參數(shù),F(xiàn)isher 信息矩陣I可寫為
式中:p?和 λ?為參數(shù)空間中事先給定的值.
定理4對于參數(shù)組合{λ,p},(p,λ)的reference先驗為
式中:p?和 λ?為參數(shù)空間中事先給定的值.
從定理3 和4 的結論可以看出,無論p為感興趣參數(shù),還是 λ為感興趣參數(shù),它們的reference 先驗相同,為后續(xù)討論方便,記 πR=πR1= πR2.
定理5基于先驗分布 πJ和 πR,數(shù)據(jù)擴充策略下(p,λ)的后驗分布都是恰當?shù)?
結合式(8)和(9),可得
因此,基于先驗分布πR,(p,λ)的后驗分布πR(p,λ|ti,di,zi)是恰當?shù)?,同理,基于先驗分布πJ,(p,λ)的后驗分布πJ(p,λ|ti,di,zi)也是恰當?shù)?從而,保證了后驗樣本抽樣的可行性,如果后驗分布不是恰當?shù)模瑒t無法抽樣得到后驗樣本.
基于完全似然函數(shù)式(5),本節(jié)設計后驗樣本的Gibbs 抽樣機制.
首先,設計條件分布,對隱變量Z=(z1,z2,···,zn)進行抽樣,公式為
在給定Z=(z1,z2,···,zn)的條件下,從后驗分布πR(p,λ|ti,di,zi)中分別抽取參數(shù)p和λ的后驗樣本.從式(7)可以得到p的滿條件后驗分布為
對logπR(p|λ,ti,di,zi)求關于p的二階導數(shù)
式(13)說明p的滿條件后驗分布式(12)是對數(shù)上凸的,滿足自適應拒絕抽樣法(ARS)的使用條件.
另外,從式(7)可以得到 λ的滿條件后驗分布為
可見,λ的滿條件后驗分布(14)服從形狀參數(shù)
最后,實施Gibbs 抽樣,具體步驟如下.
1) 設定參數(shù)初始值p(0),λ(0).
2) 對t=1,2,···,實施迭代更新:
(i)利用上一步的參數(shù)估計p(t?1),λ(t?1)及式(10)和式(11),得到隱變量Z=(z1,z2,···,zn)的 樣本,i=1,2,···,n;
(ii) 對式(12)采用自適應拒絕抽樣法(ARS),抽樣得到樣本p(t);
本節(jié)分別基于先驗分布πJ和πR,對p和λ進行貝葉斯估計.設置3組不同的參數(shù)真值:1)p=0.3,λ=3;2)p=0.3,λ=4;3)p=0.4,λ=4,樣本容量分別設置為n=20和n=50.每次模擬均重復1000次,并從估計偏差(Bias)、均方誤差(RMSE)和95%覆蓋率(CP)3 個方面對估計效果進行評價,見表1 至表3.
表1 客觀貝葉斯估計下的估計偏差Table 1 Bias under objective Bayesian estimation
表2 客觀貝葉斯估計下均方誤差Table 2 RMSE under objective Bayesian estimation
表3 客觀貝葉斯估計的95%覆蓋率Table 3 95% coverage probabilities under objective Bayesian estimation
從表中可以看出,隨著樣本容量的增加,客觀貝葉斯估計下的估計偏差與均方誤差都在降低,說明參數(shù)的點估計效果在逐步提高.同時,隨著樣本容量的增加,估計效果的差異在降低,說明客觀先驗在樣本量小時優(yōu)勢比較明顯.從參數(shù)估計95%覆蓋率來看,兩種客觀貝葉斯先驗下的估計結果都相對比較穩(wěn)定,基于reference 先驗的估計效果比基于Jeffreys 先驗的效果更穩(wěn)定,這是因為reference 先驗比Jeffreys 先驗更擅長處理多維參數(shù)的估計.
本研究討論了基于指數(shù)分布的混合治愈模型及其客觀貝葉斯分析方法,基于完全似然函數(shù),寫出了參數(shù)的Fisher 信息矩陣,較為簡潔地計算出參數(shù)Jeffreys 先驗和reference 先驗,并驗證了后驗分布的恰當性,這種方法可以推廣到更復雜的混合治愈模型.今后將引入?yún)f(xié)變量信息,建立關于治愈率的回歸模型,制定個性化診療策略.