作者簡介:周杏杏(1989-),女,漢族, 山東濟南人,在讀研究生,浙江財經(jīng)大學,研究方向: 變點問題、生存分析。摘要:變點問題在醫(yī)學研究、保險精算以及可靠性控制中有著及其重要的應(yīng)用,而這類數(shù)據(jù)的研究問題都屬于生存數(shù)據(jù)的研究范疇。本文根據(jù)變點模型的研究現(xiàn)狀,分別討論了單發(fā)事件和復發(fā)事件的變點問題,并對復發(fā)事件分別關(guān)于實際事件數(shù)據(jù)和面板數(shù)據(jù)這兩類數(shù)據(jù)進行綜述。由于復發(fā)事件數(shù)據(jù)的存在更具廣泛性,且對復發(fā)事件變點問題的建模和參數(shù)估計研究涉及到的文獻非常少,本文對兩類復發(fā)事件數(shù)據(jù)的綜述又分為有變點和無變點的情形。最后得出結(jié)論,給出可做的后續(xù)工作。
關(guān)鍵詞:變點;復發(fā)事件;協(xié)變量;刪失;最大似然估計
引言
變點問題(change point problem)一直是統(tǒng)計學中非常熱門的研究方向,變點反映事物的某種質(zhì)的變化,在各種領(lǐng)域常見且具有重要性。變點問題的研究是分析突發(fā)事件對模型影響的關(guān)鍵之一,可作為研究氣候突變、災異事件、股市波動預測、改革之成效以及新型藥物、治療方案的療效等的重要工具。進一步,變點問題在醫(yī)學研究、保險精算以及可靠性控制中有著及其重要的應(yīng)用,而這類數(shù)據(jù)的研究問題都屬于生存數(shù)據(jù)的研究范疇。
生存分析(survival analysis)是研究既有事件的發(fā)生時間又有事件結(jié)局資料的統(tǒng)計學方法,與一般統(tǒng)計數(shù)據(jù)不同的是,它強調(diào)所研究問題的結(jié)果變量是某一事件發(fā)生的時間,通常用來分析生存時間和事件與眾多影響因素之間的關(guān)系及其程度大小。
隨著生存分析的方法被廣泛應(yīng)用到醫(yī)學研究領(lǐng)域,如現(xiàn)場追蹤研究、臨床療效試驗、疾病預后分析等,生存時間(survival time)的涵義也隨之擴展到更廣義的范圍。由最初事件的失效時間(failure time)(屬單發(fā)事件數(shù)據(jù))推廣到事件發(fā)生多次的時間(屬復發(fā)事件數(shù)據(jù))。而復發(fā)事件數(shù)據(jù)廣泛地出現(xiàn)在諸如生物、醫(yī)學試驗和公共健康的數(shù)據(jù)分析,工業(yè)和商業(yè)經(jīng)濟數(shù)據(jù)分析,可靠性、社會科學和保險精算等的研究中,最近二十年,對復發(fā)事件數(shù)據(jù)的研究受到了廣泛的重視,也得到了很快的發(fā)展。所謂復發(fā)事件數(shù)據(jù)(recurrent event data)是指對一些個體進行觀察,某些我們感興趣的事件重復發(fā)生的時間點、時間間隔、累積次數(shù)等所組成的數(shù)據(jù),如觀測一些人群在某一段時間內(nèi)住院的次數(shù)以及相應(yīng)的醫(yī)療費用,艾滋病毒感染者的疾病復發(fā)次數(shù),在保險精算中的個體事故理賠次數(shù)以及相應(yīng)的理賠額度等。這類數(shù)據(jù)不同于單發(fā)時間數(shù)據(jù),因為事件重復發(fā)生的時間是有順序的,并且具有相依性,同時由于刪失時間的存在,以及刪失時間可能與事件發(fā)生的累積次數(shù)具有相依性,使得對復發(fā)事件數(shù)據(jù)的分析、建模及統(tǒng)計推斷具有更大的挑戰(zhàn)性。
本文結(jié)構(gòu)如下:第二部分對單發(fā)事件的變點估計問題進行綜述;第三部分對復發(fā)事件的相關(guān)研究進行綜述;第四部分得出結(jié)論,分析后續(xù)工作。
1. 單發(fā)事件的變點估計
關(guān)于生存數(shù)據(jù)的變點問題建模國內(nèi)外的研究起步較晚,文獻也不多。Matthews和Farewell[1]建立了最基礎(chǔ)的生存數(shù)據(jù)風險函數(shù)分段常數(shù)單變點模型:,檢驗了內(nèi)科醫(yī)生為緩解白血病人的癥狀而使用一種新的治療方案之后,能否改變白血病的復發(fā)時間這一問題。這一假設(shè)檢驗問題實際上就轉(zhuǎn)變?yōu)闄z驗風險函數(shù)是否存在變化的問題。這篇關(guān)于生存數(shù)據(jù)變點的文章,引發(fā)了人們對這類問題的研究興趣,發(fā)現(xiàn)了研究變點問題對于生存分析的重大意義。它與傳統(tǒng)的變點問題有相似之處,但又有很大的區(qū)別,有其特殊的理論和實際意義。
Chang,Chen和 Hsiung[2]提出了首先采用Nelson-Aalen非參數(shù)估計來估計變點,然后再使用極大似然函數(shù)來估計參數(shù),并考慮了生存數(shù)據(jù)的刪失性,結(jié)合非參數(shù)和參數(shù)方法來提高變點和參數(shù)估計的精度。
Dupuy[3,4]將常數(shù)單變點模型進行了推廣,加入了協(xié)變量對生存數(shù)據(jù)的影響,同時考慮了數(shù)據(jù)的刪失,提出了變點和參數(shù)的極大似然估計,并進行了假設(shè)檢驗。
Zhao,Wu和Zhou[5]首先考慮了含有持久生存數(shù)據(jù)的單變點風險函數(shù)模型,采用Kaplan-Meier估計,結(jié)合Chang,Chen和 Hsiung[2]的Nelson-Aalen非參數(shù)估計和極大似然參數(shù)估計來給出變點和參數(shù)估計,并證明了估計的相合性。以上這些研究都只是圍繞風險函數(shù)的單變點模型進行討論,對多變點模型的分析非常少。
2. 復發(fā)事件的變點問題
以上研究主要集中于生存分析中單發(fā)事件數(shù)據(jù)的變點問題建模及分析,由于復發(fā)事件數(shù)據(jù)的存在更具廣泛性,最近二十年,對復發(fā)事件數(shù)據(jù)的研究受到了廣泛的重視,也得到了很快的發(fā)展。復發(fā)事件數(shù)據(jù)可以分為兩類,一類是實際事件數(shù)據(jù),需要已知每次事件的具體時間;第二類是面板計數(shù)數(shù)據(jù),只需已知事件時間所在區(qū)間即可。下面將針對這兩類數(shù)據(jù)分別進行相關(guān)文獻綜述。
2.1 實際事件數(shù)據(jù)
2.1.1 無變點的實際事件數(shù)據(jù)
Prentice,Williams 和 Peterson[6]提出了兩類關(guān)于復發(fā)事件強度率函數(shù)的模型。第一類是的分層模型,第二類是來對事件之間的時間建模。他們用部分似然方法來估計參數(shù),用統(tǒng)計量來檢驗回歸系數(shù)是否為零。
2.1.2有變點的實際時間數(shù)據(jù)
以上文獻都是關(guān)于復發(fā)事件數(shù)據(jù)的建模方法和統(tǒng)計推斷,對復發(fā)事件變點問題的建模和參數(shù)估計研究涉及到的文獻非常少,目前有Akman 和 Raftery[7]考慮了強度函數(shù)的分段常數(shù)單變點模型中變點與其上界的比值為常數(shù)的一般情況及極限形式的情況,得到了變點估計值及漸進正態(tài)分布,并且對變點的存在性進行了檢驗。
Scariano和Watkins[8]針對強度函數(shù)的分段常數(shù)單變點模型的變點估計問題,提出了三種非參數(shù)估計方法,通過模擬對這三種方法進行比較,得到變點估計的一致性,但是沒有給出漸進分布。
Loader[9]考慮了強度函數(shù)的對數(shù)線性模型,用最大似然估計來估計參數(shù),用剖面似然函數(shù)來估計變點,并且得到了參數(shù)的置信域。
Frobish和 Ebrahimi[10]考慮了含有兩個變點的分段常數(shù)強度率模型,分別采用最大似然法和非參數(shù)的Nelson-Aalen方法來估計變點及參數(shù),并分別得到了變點估計值的一致性。
Oueslati 和 Lopez[11]考慮了計數(shù)過程在比例危險結(jié)構(gòu)的假設(shè)下一種新的回歸模型。計數(shù)過程的危險率模型為,其中表示處于危險的過程,是基礎(chǔ)危險函數(shù),是時間相依協(xié)變量。同時他們假設(shè)基礎(chǔ)危險函數(shù)是分段常數(shù)形式,有未知的時間跳躍點,即變點。由于未知參數(shù)眾多,對數(shù)似然計算起來比較復雜,因此他們提出了用迭代算法來對待估參數(shù)進行最大似然估計。對于變點的存在性問題,通過似然比法進行檢驗,并且用自助法計算臨界值通過模擬和實際數(shù)據(jù)的分析,證明了他們所提的模型可以看做Cox回歸模型的一個有效的替代,特別是在事件發(fā)生時間出現(xiàn)打結(jié)的情況下。
2.2 面板計數(shù)數(shù)據(jù)
在實際的生存分析中,病人只會對調(diào)查者報告到上一次就醫(yī)為止疾病復發(fā)的次數(shù),這些數(shù)據(jù)即為面板計數(shù)數(shù)據(jù)。由于缺少信息量,面板計數(shù)數(shù)據(jù)的估計值有效性要比實際事件數(shù)據(jù)差。
Thall[12]利用混合Poisson回歸模型來對事件發(fā)生次數(shù)的期望建模,用似然法來對混合模型進行估計,通過求區(qū)間中點處強度率的值與區(qū)間長度的乘積來近似事件發(fā)生次數(shù)的期望。
Thall 和 Lachin[13]為了檢驗兩個治療組的強度率是否相等提出了非參數(shù)的方法,通過對每個區(qū)間的事件發(fā)生的次數(shù)與區(qū)間長度的比值求和來對估計每個個體的強度率,他們假設(shè)兩個組的隨機觀測時間是同分布的,檢驗統(tǒng)計量是近似正態(tài)的,協(xié)方差陣的一致估計。
Staniswalis,Thall和 Salch[14]對Thall[12]的參數(shù)模型進行了改進,利用非參數(shù)的基準強度函數(shù)構(gòu)造半?yún)?shù)模型,用廣義剖面似然法來估計協(xié)變量系數(shù),用核光滑估計來估計基準強度函數(shù),得到估計值的一致性和漸進正態(tài)分布。
Lawless 和 Zhan[15]假設(shè)基準函數(shù)是分段常數(shù)形式且變點已知,用似然法進行估計,基于似然比或Wald統(tǒng)計量的漸進分布進行統(tǒng)計推斷,并且討論了用估計方程的方法來避免Poisson假設(shè),得到了估計值的一致性和漸進正態(tài)分布。
Sun 和 Fang[16]在不考慮任何協(xié)變量的條件下,通過保序回歸估計檢驗了k個治療組的累積強度函數(shù)是否相等,檢驗統(tǒng)計量可以寫成各組均值與整體均值差的加權(quán)和,檢驗統(tǒng)計量漸進正態(tài)分布,并且得到了方差估計量的一致性。
3. 結(jié)論
通過上述綜述可以發(fā)現(xiàn),關(guān)于復發(fā)事件的變點模型研究較少,而且在這些研究中的數(shù)據(jù)主要是實際事件數(shù)據(jù),對于在實際情況中更常見的面板計數(shù)數(shù)據(jù)基本沒有相關(guān)文獻。復發(fā)事件的變點模型主要集中于分段常數(shù)的強度率函數(shù)模型,對于連續(xù)變點的復發(fā)事件模型基本沒有相關(guān)研究。并且在生存分析中,由于醫(yī)療技術(shù)的發(fā)展,現(xiàn)在治愈病人越來越多,因此只是單純的考慮刪失,對于研究藥物療效是不完善的,需要引入長期生存者,考慮含有治愈部分的復發(fā)事件變點模型。因此,關(guān)于復發(fā)事件的變點模型可做的后續(xù)工作有:
⑴將復發(fā)事件變點模型應(yīng)用于面板計數(shù)數(shù)據(jù),進行相應(yīng)的變點估計和統(tǒng)計推斷。
⑵研究連續(xù)變點的復發(fā)事件模型,進行相應(yīng)的變點估計和統(tǒng)計推斷。
⑶對復發(fā)事件建立既含有協(xié)變量又含有長期生存者的突變點模型,并進行相關(guān)統(tǒng)計推斷。
參考文獻:
[1]Matthews, D.E. and Farewell, V.T. On testing for constant hazard against a change-point alternative [J]. Biometrics: 1982, 38: 463-468.
[2]Chang, I.S., Chen, C.H. and Hsiung, C.A. Change-point Problems: Estimation in change-point hazard rate models with random censorship [J]. Inst. Math. Statist., Hayward, CA: 1994, IMS Lecture Notes Monograph Ser. 23: 78-92.
[3]Dupuy, J.F. Estimation in a change-point hazard regression model [J]. Statistics and Probability Letters:2006, 76: 182-190.
[4]Dupuy, J.F.Detecting change in a hazard regression model with right-censoring [J]. Journal of Statistical Planning and Inference: 2009, 139: 1578-1586.
[5]Zhao, X.B., Wu, X.Y., Zhou, X. A change-point model for survival data with long-term survivors [J]. Statist. Sinica: 2009, 19: 377-390.
[6]Prentice, R., Williams, B. and Peterson, A. On the regression analysis of multivariate failure time data [J]. Biometrika: 1981, 68: 373-379.
[7]Akman, V. and Raftery, A. (1986) Asymptotic Inference for a Change-Point Poisson Process[J]. Annals of Statistics: 1986, 14: 1583-1590.
[8]Scariano, S. and Watkins, T. (1988) Nonparametric Point Estimators for the Change-Point Problem[J]. Comm. Stat. Theory Meth. 1988, 17(11): 3645-3675.
[9]Loader, C. A log-linear Model for a Poisson Process Change Point[J].Annals of Statistics: 1992, 20 :1391-1411.
[10]Frobish D.and Ebrahimi N. Parametric estimation of change-points for actual event data in recurrent events models[J]. Computational Statistics and Data Analysis: 2009, 53: 671-682.
[10]Oueslati A.and Lopez O. A proportional hazards regression modelwith change-points in the baseline function [J]. Lifetime Data Anal: 2013, 19-59
[11]Oueslati A.and Lopez O. A proportional hazards regression modelwith change-points in the baseline function [J]. Lifetime Data Anal: 2013, 19-59
[12]Thall, P. Mixed Poisson likelihood regression models for longitudinal interval count data [J]. Biometrics: 1988, 44:197-209
[13]Thall, P. and Lachin, J. Analysis of recurrent events: nonparametric methods for random-interval count data [J]. Journal of the American Statistical Association: 1988, 83:339-347.
[14]Staniswalis, J., Thall, P. and Salch, J. Semiparametric regression analysis for recurrent event interval counts [J]. Biometrics: 1997, 53: 1334-1353.
[15]Lawless, J. and Zhan, M. Analysis of interval-grouped recurrent-event data using piecewise constant rate functions [J]. Canadian Journal of Statistics: 1998, 26: 549-565.
[16]Sun, J. and Fang, H. A nonparametric test for panel count data [J]. Biometrika: 2003, 90: 199-208.