宮小雯 劉鍇
摘? 要:交通大數(shù)據(jù)經(jīng)常面對數(shù)據(jù)刪失、截尾、缺失等問題。生存分析模型可以很好地處理該問題,在交通領(lǐng)域逐步推廣。它將事件結(jié)果與出現(xiàn)這一結(jié)果所經(jīng)歷的時間結(jié)合,可以判斷事件發(fā)生或者結(jié)束時間的分布或探究解釋變量對生存時間的影響。國內(nèi)外許多研究通過生存分析的靈活應(yīng)用及拓展,為很多實際交通問題提供了解決方法和指導(dǎo)意見。文章首先介紹了主要生存分析的適用性及擬合優(yōu)度比較方法,并介紹若干交通領(lǐng)域生存模型應(yīng)用案例。
關(guān)鍵詞:生存分析;適用性;擬合優(yōu)度;交通工程
中圖分類號:U491.2? ? 文獻標(biāo)志碼:A? ? ? ? ?文章編號:2095-2945(2020)14-0022-03
Abstract: The application of big data in transportation has to face various problems such as censor, truncation, and missing data. Survival analysis is a good choice to deal with this phenomenon. It combines the event result with the time elapsed after the occurrence of the result, and can estimate the distribution of survival time or explore the effect of explanatory variables on survival time. Many studies have provided solutions and guidance for practical traffic problems through the flexible application and expansion of survival analysis. This article first introduces the applicability of major survival analysis and comparison methods of goodness of fit, as well as several case studies in transportation field.
Keywords: survival analysis; applicability; goodness of fit; transport engineering
引言
生存分析模型也稱為持續(xù)時間模型,作為基于實驗或調(diào)查數(shù)據(jù)分析生存時間的一種統(tǒng)計方法,近年來已逐步應(yīng)用于交通領(lǐng)域的擁堵[1],高峰[2]及等待時間[3]等實際問題的研究。研究對象的狀態(tài)可能為兩種以上,抽樣方式和分布往往具有多樣性且一般存在刪失數(shù)據(jù)。本文介紹生存分析的基本概念,主要模型的適用性及擬合優(yōu)度的評判標(biāo)準(zhǔn),結(jié)合現(xiàn)有交通研究進行案例分析。
1 生存分析
1.1 生存時間
交通預(yù)測面臨很多動態(tài)預(yù)測需求。例如高峰期擁堵開始至結(jié)束的持續(xù)時間,行人到達(dá)交叉口至開始闖紅燈所經(jīng)歷的等待時間等。這些例子都包括起始事件和結(jié)束事件,事件經(jīng)歷的時間即生存時間。
1.2 生存函數(shù)
生存函數(shù)又稱累計生存率,表示單個事件的生存時間T大于時間t的概率,即單個事件在時間t之后仍然存活的概率。如果隨訪數(shù)據(jù)中不存在截尾數(shù)據(jù),生存函數(shù)可以表示為:
1.3 概率密度函數(shù)和風(fēng)險函數(shù)
生存分析概率密度函數(shù)定義為事件在t時刻結(jié)束的概率,概率密度函數(shù)為非負(fù)函數(shù),各時刻結(jié)束概率繪制成的曲線與時間軸之間的面積為1。公式表示為
2 主要生存分析模型及其適用性
生存分析模型有三種形式:非參、參數(shù)及半?yún)⒛P?。選擇時主要取決于想要預(yù)設(shè)的生存函數(shù)類型以及協(xié)變量如何對生存時間產(chǎn)生影響。非參生存方法主要用于對隨訪數(shù)據(jù)進行統(tǒng)計性描述,本文主要介紹半?yún)?shù)和參數(shù)生存模型的適用性及其案例。
2.1 半?yún)?shù)生存模型
2.1.1 模型介紹
半?yún)?shù)生存模型首次提出于1972年[4],它不需要預(yù)先設(shè)定生存時間的分布,但卻可以最終通過模型反映生存時間的變化以及協(xié)變量對生存時間的影響,近年來已成為最受歡迎的生存模型。
其中,Cox比例風(fēng)險模型(Cox proportional hazards model)最受歡迎,是“穩(wěn)健”模型,調(diào)整后的生存曲線可以良好的估計各種數(shù)據(jù)并獲得風(fēng)險比,給出了可靠的擬合結(jié)果。在應(yīng)用于實際問題之前需確保數(shù)據(jù)滿足風(fēng)險概率假定,即加入模型的協(xié)變量對生存率的影響不隨著時間而改變。其風(fēng)險函數(shù)表達(dá)式為
式中,h0(t)為基礎(chǔ)風(fēng)險函數(shù),未指定任何分布。不包含時間的X的指數(shù)分布確保了模型始終給出非負(fù)的風(fēng)險估計。PH假定即基準(zhǔn)風(fēng)險h0(t)是t的函數(shù)而與X無關(guān),指數(shù)部分是X的函數(shù),與t無關(guān)。半?yún)?shù)模型在滿足PH假定的前提下具有普適性和較高的靈活性,Cox比例風(fēng)險模型沒有限定生存時間的分布,也就無法得到任意時刻的概率密度值。因此估計協(xié)變量的參數(shù)時,使用偏似然函數(shù)代替極大似然法。
2.1.2 案例分析
半?yún)?shù)生存分析由于其獨特優(yōu)勢而被廣泛應(yīng)用跟馳時間、救援時間、等待時間研究。趙海月(2018)[5]應(yīng)用Cox比例風(fēng)險模型研究特殊天氣下信號交叉口的行人穿越行為,將生存時間定義為行人在紅燈期間到達(dá)道路交叉口等待區(qū)至離開等待區(qū)的時間跨度,將行人選擇遵守法規(guī)等待至綠燈時離開的數(shù)據(jù)定義為“刪失”。該研究探討了出行時段、個人特征、行為變量三類因素對行人忍耐時間的影響,分析結(jié)果對提升行人過街安全具有一定現(xiàn)實意義。
楊茜(2018)[6]使用Cox比例風(fēng)險模型對相同問題展開研究,呈現(xiàn)了較好地模型擬合效果且結(jié)構(gòu)完整。在進行PH假定檢驗的過程中,該論文指出若某些協(xié)變量不滿足要求,可以考慮將其從比例風(fēng)險中剔除。但事實上在許多實際問題研究中,可以通過對Cox比例風(fēng)險模型地適當(dāng)變形來解決。張彥寧(2020)[7]等人在對駕駛員跟馳反應(yīng)延遲時間的研究中就使用了分層Cox模型進行分析。近年來,為應(yīng)對隨訪數(shù)據(jù)中協(xié)變量的多種問題,研究中經(jīng)常被使用的半?yún)?shù)生存模型還包括分層Cox模型,Cox共享脆弱模型,帶有時間相關(guān)變量的Cox風(fēng)險模型等。
2.2 參數(shù)生存模型
2.2.1 模型介紹
當(dāng)生存時間的分布明確,參數(shù)模型是最佳選擇。參數(shù)生存模型需要給出生存時間服從特定的參數(shù)分布。若某生存分析中僅有協(xié)變量性別(女性=0,男性=1),而在任何特定時間內(nèi)受訪者均處于“存活”,半?yún)?shù)模型無法像參數(shù)模型一樣完成Kaplan-Meier估計。
非參數(shù)和參數(shù)方法比較了在“死亡”發(fā)生節(jié)點的受訪者,參數(shù)方法不基于結(jié)果進行此類比較,而是使用概率描述了在給定的時間范圍內(nèi),受訪者在整個時間間隔中發(fā)生的情況。參數(shù)生存分析同樣具有分層、脆弱等多種變化以適應(yīng)數(shù)據(jù)和變量的復(fù)雜性,主要的參數(shù)分布有指數(shù)分布、Weibull分布、對數(shù)Logistic分布、伽馬分布等,風(fēng)險函數(shù)和生存函數(shù)的表達(dá)形式如表1所示。
其中λ為尺度參數(shù),決定分布的離散程度;ρ為形狀參數(shù),決定分布的整體形態(tài)。
2.2.2 案例分析
參數(shù)生存模型相對于半?yún)?shù)生存模型來說可以獲得更好的數(shù)學(xué)形式。李明(2015)[8]定義生存時間為從零點開始至居民出發(fā)去購物為止所經(jīng)歷的時間段,引入了個人特征、家庭結(jié)構(gòu)和出行方式三類變量研究購物出發(fā)時間的影響因素。在利用赤池信息準(zhǔn)則、Cox-snell殘差法比較擬合優(yōu)度后,最終選擇log-logistic模型進行預(yù)測并制定了相應(yīng)的交通管理措施。
生存分析中的脆弱因子為不同個體或群體間的異質(zhì)性提供了很好的解決方案。該概念由Vaupel等人在1979年提出,將隨機效應(yīng)引入模型可以解決未觀測到的因素對模型結(jié)果產(chǎn)生的影響。生存分析中的脆弱因子一般服從伽馬或逆高斯分布。何清廉(2018)[9]在對信號交叉口黃燈期間停車行為的研究中將脆弱因子引入對數(shù)正態(tài)模型中,打破了駕駛員均質(zhì)性的假設(shè),使模型結(jié)果更加可靠。
3 擬合優(yōu)度評估
3.1 赤池信息準(zhǔn)則和貝葉斯信息準(zhǔn)則
赤池信息準(zhǔn)則(AIC;1973)和貝葉斯準(zhǔn)則(BIC;1978)是現(xiàn)階段應(yīng)用最廣泛的模型選擇標(biāo)準(zhǔn),利用似然估計值比較不同分布模型的擬合程度,都兼顧了模型簡單性和擬合優(yōu)度之間的平衡,并帶有懲罰項以防止過度擬合。從Raftery(1995)[10]對AIC和BIC的比較中認(rèn)為當(dāng)樣本量足夠大時,BIC選擇正確的模型而AIC選擇了比真實模型更復(fù)雜的模型。參數(shù)和半?yún)?shù)生存分析之間無法使用AIC、BIC進行橫向比較。
3.3 Harrell's C指標(biāo)
Harrell's C指標(biāo)(Harrell,1982)[12]針對右刪失的比例風(fēng)險模型開發(fā),后逐步擴展至Cox比例風(fēng)險模型等。基于生存模型預(yù)測的較早“死亡”受試者生存時間較短,反之亦然這一特性,該統(tǒng)計量通過所預(yù)測的受訪者死亡順序與實際一致的概率C來比較半?yún)?shù)生存分析的擬合效果。對任意t>0,一致性的表達(dá)形式為
其中i,j表示樣本中的任意一對觀測者;Ti,Tj表示真實的“死亡”時間;? ? ?表示預(yù)測的死亡時間。當(dāng)C=0.5時,模型不足以基于隨訪數(shù)據(jù)進行預(yù)測;當(dāng)C=1時,模型具有完全預(yù)測能力,可以很好的擬合生存數(shù)據(jù)。
4 結(jié)束語
生存分析利用統(tǒng)計學(xué)相關(guān)理論,在探究生存時間影響因素的過程中將事件結(jié)果與所經(jīng)歷時間相結(jié)合,這種獨特性使其成為了現(xiàn)代統(tǒng)計學(xué)的一個重要分支而被廣泛研究。本文首先介紹了生存分析的基本概念,回顧了生存模型的主要類型和適用性,最后總結(jié)了不同類型生存分析所適用的擬合效果評估準(zhǔn)則和指標(biāo)。在探究生存模型在交通領(lǐng)域具體應(yīng)用的過程中,本文發(fā)現(xiàn)了現(xiàn)有研究的不足并結(jié)合實例進行案例分析,希望能為后續(xù)研究提供理論基礎(chǔ)。
參考文獻:
[1]熊勵,陸悅,楊淑芬.城市道路交通擁堵預(yù)測及持續(xù)時間研究[J].公路,2017,62(11):125-134.
[2]石莊彬.基于生存分析的軌道交通客流高峰持續(xù)時間區(qū)間預(yù)測[A].中國智能交通協(xié)會.第十二屆中國智能交通年會大會論文集[C].中國智能交通協(xié)會:中國智能交通協(xié)會,2017:251-260.
[3]李志銀.信號交叉口行人穿越行為建模與分析[D].北京交通大學(xué),2017.
[4]Cox DR. Regression models and life-tables. Journal of the Royal Sta- tistical Society. Series B,1972,34(2):187-220.
[5]趙海月.下雨天氣對信號交叉口行人穿越安全行為的影響分析[D].北京交通大學(xué),2018.
[6]楊茜.信號交叉口行人過街忍耐時間建模及應(yīng)用[D].重慶交通大學(xué),2018.
[7]張彥寧,郭忠印,高坤,等.基于分層COX模型的跟馳反應(yīng)延遲時間生存分析[J].交通運輸系統(tǒng)工程與信息,2020,20(01):54-60.
[8]李明.基于風(fēng)險模型的城市居民購物出發(fā)時間分布規(guī)律分析[D].北京交通大學(xué),2015.
[9]何清廉.考慮駕駛員異質(zhì)性的信號交叉口黃燈期間停車行為研究[D].北京交通大學(xué),2018.
[10]Raftery A E. Bayesian Model Selection in Social Research[J]. Sociological Methodology, 1995,25:111-163.
[11]Cox D R, Snell E J. A General Definition of Residuals[J]. Journal of the Royal Statistical Society. Series B: Methodological, 1968,30(2):248-275.
[12]Harrell F E J, Califf R M, Pryor D B, et al. Evaluating the Yield of Medical Tests[J]. JAMA The Journal of the American Medical Association, 1982,247(18):2543-2546.