靳文舟,裴曉航,湯左淦,2,姚尹杰
1)華南理工大學(xué)土木與交通學(xué)院,廣東廣州 510640;2)深圳市城市交通規(guī)劃設(shè)計(jì)研究中心,廣東深圳 518057
交通事故會(huì)造成巨大的人員傷亡和財(cái)產(chǎn)損失,因此,交通傷害程度的影響因素分析非常重要[1].已有研究主要從人、車、路和環(huán)境要素出發(fā),探討各因素對(duì)交通事故傷害程度的影響.如馬柱等[2]分析了天氣、能見度等環(huán)境因素和道路條件、道路橫斷面等道路特征與城市事故傷害程度的關(guān)系.馮忠祥等[3]分析了環(huán)境因素對(duì)繞城高速公路事故傷害程度的影響.溫惠英等[4]以翻車事故為研究對(duì)象,分析人、車、路、環(huán)境及事故特征對(duì)事故傷害程度的影響.HOSSEINPOUR等[5]建立對(duì)象碰撞事故傷害程度模型,發(fā)現(xiàn)道路特征及事故周邊環(huán)境與事故傷害程度顯著相關(guān).以上研究?jī)H分析單一因素對(duì)事故傷害程度的影響,較少考慮因素間的交互作用.
目前,交通事故傷害程度的建模方法主要為logit/probit模型及其拓展形式,包括二元logit模型[3]、巢式logit模型[6]、有序logit模型[7-9]、隨機(jī)參數(shù)logit模型[10]及潛類別logit模型.也有研究采用機(jī)器學(xué)習(xí)方法對(duì)交通傷害程度進(jìn)行分類預(yù)測(cè),如SVM[12]與決策樹模型[13]等.鮮有機(jī)器學(xué)習(xí)方法和logit模型相結(jié)合分析交通事故傷害程度的研究.
在雙車事故中,駕駛員的傷害程度不僅取決于駕駛員自身特征與所駕駛車輛的特征,還取決于對(duì)方駕駛員與對(duì)方車輛的特征,因此,分析碰撞角色對(duì)厘清雙車事故中駕駛員傷害程度的影響因素具有重要意義.一般將事故形態(tài)劃分為正面碰撞、直角碰撞、側(cè)面碰撞及追尾碰撞,不同事故形態(tài)對(duì)駕駛員事故傷害程度具有不同影響.然而,由于碰撞角色不同,即使同一種事故形態(tài)下,不同車輛中的駕駛員受損傷的特征也不盡相同,如發(fā)生追尾碰撞時(shí),后車(主動(dòng)撞擊)駕駛員很有可能因?yàn)樽矒魶_力被向后推至座椅上,易導(dǎo)致頸部受傷.由于此類事故的生物力學(xué)特性,后車駕駛員容易遭受更嚴(yán)重的事故傷害[14].涉事車型與碰撞角色的關(guān)系也非常密切,如當(dāng)普通小汽車追尾大貨車時(shí),由于車輛高度差異,普通小汽車極有可能碰撞至貨車尾部,使小車被削頂從而導(dǎo)致駕駛員受傷或死亡,而由于離碰撞點(diǎn)位較遠(yuǎn),大貨車駕駛員較不容易受傷[15].
本研究基于中國(guó)深圳市的交通事故數(shù)據(jù),結(jié)合隨機(jī)森林(random forest,RF)算法和logit模型的優(yōu)勢(shì),建立考慮碰撞角色交互項(xiàng)效應(yīng)的雙車事故駕駛員傷害程度模型,著重考慮碰撞角色與事故形態(tài)、車型的交互效應(yīng),分析其對(duì)駕駛員傷害程度的影響.
隨機(jī)森林法也稱為隨機(jī)決策森林法,是一種可以同時(shí)研究分類和回歸問題的集成學(xué)習(xí)方法,常被應(yīng)用于交通事故傷害研究中,用于篩選重要因素[16-17].為避免logit模型出現(xiàn)過擬合情況,本研究采用隨機(jī)森林模型,根據(jù)因素的重要度選取候選自變量.
隨機(jī)森林法通過自助重采樣技術(shù),從原有樣本集N中,有放回地重復(fù)隨機(jī)抽取T個(gè)樣本,以生成新的訓(xùn)練集(Nt).隨后由T個(gè)新的訓(xùn)練集,生成T個(gè)對(duì)應(yīng)的決策樹,最終組成隨機(jī)森林模型.算法流程可掃描論文末頁(yè)右下角二維碼查看圖S1,具體步驟如下.
步驟1對(duì)于一個(gè)由X1,X2,…,Xk組成給定樣本集N,通過T次隨機(jī)可重復(fù)釆樣,構(gòu)建隨機(jī)向量集N1,N2,…,NT.
步驟2基于每一個(gè)隨機(jī)向量Nt,構(gòu)建一棵決策樹.
步驟3重復(fù)步驟1和步驟2,最終可以得到T棵決策樹.
步驟4運(yùn)用得到的T棵決策樹分別對(duì)輸入變量Xk進(jìn)行投票.
步驟5通過計(jì)算所有投票數(shù),找出所有預(yù)測(cè)結(jié)果中票數(shù)最高的值作為輸入變量Xk的分類標(biāo)簽.
在生成每一顆決策樹時(shí),計(jì)算袋外錯(cuò)誤率,記為EOOB1,同時(shí)在為特征Xk加入隨機(jī)噪聲后,再次計(jì)算該值,記為EOOB2,則特征Xk的重要度為
重復(fù)式(1),則可計(jì)算出所有特征的重要度,并進(jìn)行排序.
采用logit模型對(duì)駕駛員傷害程度進(jìn)行建模.首先定義線性潛變量s*為
其中,X為自變量,如事故形態(tài)、使用安全帶及駕駛員年齡等;β為自變量的估計(jì)參數(shù)集合矩陣;ε是誤差項(xiàng)并服從logistic分布.通過搭建分段函數(shù),建立s*與第i個(gè)駕駛員的傷害程度yi的關(guān)系為
根據(jù)式(2)和式(3)可以推導(dǎo)出yi=1的概率為
其中,?(·)為logistic分布的累積概率分布函數(shù).進(jìn)一步將式(4)代入logistic分布的概率密度函數(shù),則可得logit模型的一般形式為通過構(gòu)建式(5)的最大似然函數(shù),并求其極大值即可估計(jì)出logit模型的模型參數(shù).
在構(gòu)建好logit模型后,需要對(duì)其擬合優(yōu)度進(jìn)行檢驗(yàn),第1種檢驗(yàn)方法為計(jì)算模型的R2指標(biāo),即其中,l為模型的對(duì)數(shù)似然收斂值;l0為對(duì)數(shù)似然初值;R2∈[0,1],一般認(rèn)為當(dāng)R2≥0.2時(shí),所建立模型的擬合優(yōu)度較高.
第2種檢驗(yàn)法為似然比檢驗(yàn),常用于比較不同模型間的優(yōu)劣,其檢驗(yàn)公式為
其中,χ2為似然比檢驗(yàn)統(tǒng)計(jì)量.
選取深圳市2018—2020年的一般程序事故為研究樣本.由于研究對(duì)象為雙車事故中的駕駛員傷害程度,故需對(duì)事故數(shù)據(jù)進(jìn)行預(yù)處理,步驟如下.
首先,考慮到本研究的雙車事故僅為涉及2輛4輪及以上機(jī)動(dòng)車的一般程序事故,因此,將交通方式涉及摩托車、電動(dòng)車、行人、三輪電動(dòng)車、三輪汽車及拖拉機(jī)的事故樣本全部刪除,同時(shí)刪除單個(gè)車輛和涉及多個(gè)車輛的事故.
其次,交通事故系統(tǒng)中包含的字段數(shù)超過200個(gè),故在正式分析前需要?jiǎng)h除無(wú)關(guān)字段.同時(shí),剔除相關(guān)字段存在缺失數(shù)據(jù)的樣本,最終剩下2 642個(gè)樣本.本研究的因變量為駕駛員傷害程度,分為未受傷、輕傷、重傷和死亡,各類別占比分別為97.74%、3.10%、0.38%和1.78%.輕傷及以上的樣本僅占5.26%,為提高參數(shù)估計(jì)的準(zhǔn)確性,將輕傷、重傷和死亡類別合并為“受傷害”類別,故最終因變量包含兩類,分別為未受傷和受傷害.
本研究選取中央隔離設(shè)施、主要違法行為、次要違法行為、事故形態(tài)、事故責(zé)任、交通控制方式、交通方式、人員類型、號(hào)牌種類、在碰撞中角色、天氣、安全保護(hù)裝置使用情況、性別、年齡、文化程度、是否超載、橫斷面位置、照明條件、能見度、血液酒精含量、行政區(qū)劃分、路側(cè)防護(hù)設(shè)施類型、路表情況、路面狀況、車輛使用性質(zhì)、車輛間事故碰撞形態(tài)、道路類型、道路線形及駕齡共29個(gè)因素作為隨機(jī)森林模型的特征輸入.
進(jìn)行隨機(jī)森林模型訓(xùn)練前,將所有自變量轉(zhuǎn)化為離散變量.對(duì)于二分類自變量,如是否超載,在模型擬合時(shí)可直接納入模型;而對(duì)于m類自變量,則需進(jìn)行啞元轉(zhuǎn)換,只能納入m-1個(gè)虛擬變量,見表1.考慮到本研究中大部分自變量包含多個(gè)類別,若直接將全部虛擬變量納入模型,會(huì)使模型過于龐大,導(dǎo)致模型過擬合.因此,建模前先利用隨機(jī)森林模型計(jì)算每個(gè)虛擬變量的重要度,根據(jù)排序確定最終納入模型擬合的自變量.
表1 啞元變量事故責(zé)任轉(zhuǎn)換賦值Table1 Assignment transform of dummy variable crash duty
利用Python中的sklearn包構(gòu)建隨機(jī)森林模型,由于模型主要目的是通過計(jì)算特征變量的重要度來(lái)篩選候選自變量,故不報(bào)告隨機(jī)森林模型結(jié)果.選取重要度閾值為0.02,最終選取前24個(gè)重要度較高的虛擬變量作為候選自變量,結(jié)果可掃描論文末頁(yè)右下角二維碼查表S1.
首先,將候選自變量全部納入logit模型中擬合,分別選取90%、95%和99%為置信水平,并利用最大似然法進(jìn)行模型參數(shù)估計(jì),結(jié)果見表2中的模型1.結(jié)果顯示,部分責(zé)任、全部責(zé)任、被撞、貨車、追尾碰撞、3~10 a駕齡、能見度≤100 m、碰撞運(yùn)動(dòng)車輛、高中及以上學(xué)歷、高快速路、使用安全帶、側(cè)面碰撞、路側(cè)無(wú)防護(hù)、無(wú)路燈照明與駕駛員傷害程度顯著相關(guān).
表2 模型參數(shù)估計(jì)結(jié)果1)Table2 Model estimation results
為研究碰撞角色與車型和事故形態(tài)對(duì)雙車事故駕駛員傷害程度的交互影響,分別建立僅包含碰撞角色與車型交互項(xiàng)的模型2、僅包含碰撞角色與事故形態(tài)的模型3和包含兩個(gè)交互項(xiàng)的模型4.結(jié)果顯示,碰撞角色與車型的交互項(xiàng)和碰撞角色與事故形態(tài)的交互項(xiàng)均在99%的置信水平上顯著.
模型1是基礎(chǔ)模型,目的在于估計(jì)各解釋變量對(duì)因變量的凈效應(yīng);模型2和模型3均為交互效應(yīng)模型,分別估計(jì)碰撞角色與其他主要解釋變量(車型和事故形態(tài))的交互效應(yīng),從而檢驗(yàn)碰撞角色對(duì)駕駛員傷害程度的影響是否在不同車型與事故形態(tài)下存在顯著的差異性.模型4是包含所有解釋變量和交互項(xiàng)的最終模型.根據(jù)模型1至模型4的相關(guān)統(tǒng)計(jì)量結(jié)果(見表3),隨著交互項(xiàng)的增加,擬合優(yōu)度增加較明顯,從模型1的0.292增至模型4的0.322.為驗(yàn)證模型4優(yōu)于模型1,本研究還進(jìn)行了似然比檢驗(yàn),結(jié)果見表4.可見,加入交互項(xiàng)的模型4在100%的置信水平上優(yōu)于模型1,且赤池信息量(Akaike information criterion,AIC)和貝葉斯信息量(Bayesian information criterion,BIC)低于模型1,表明考慮交互項(xiàng)模型的擬合優(yōu)度更高.似然比檢驗(yàn)結(jié)果:χ(2)=65.6(P=0.000 0)
表3 相關(guān)模型統(tǒng)計(jì)量Table3 Summary of model statistics
表4 似然比檢驗(yàn)結(jié)果Table 4 LR test results
1)碰撞角色.當(dāng)不包含交互項(xiàng)時(shí),“被撞”的參數(shù)估計(jì)為-0.984,符號(hào)為負(fù),表明相比于主動(dòng)碰撞的駕駛員,被撞車輛中的駕駛員受傷害的概率將降低62.6%,這主要是因?yàn)楸蛔曹囕v的后備箱和后排座位具有緩沖作用,而碰撞車輛中駕駛員離碰撞點(diǎn)位更近,故被撞車輛的駕駛員更不易受傷.
當(dāng)加入交互項(xiàng)后,該效應(yīng)同樣存在.“被撞與貨車交互項(xiàng)”的系數(shù)為-0.758,且在99%的置信水平上顯著,表明當(dāng)被撞車輛為貨車時(shí),貨車中的駕駛員遭受傷害的概率更低,這主要是因?yàn)樨涇嚨馁|(zhì)量大且更穩(wěn)定,撞擊發(fā)生時(shí)貨車駕駛員受到的沖擊力更小.當(dāng)發(fā)生追尾碰撞時(shí),該效應(yīng)更明顯.前車駕駛員遭受傷害的概率將降低89.3%.
2)事故責(zé)任.部分責(zé)任和全部責(zé)任均顯著影響駕駛員傷害程度,但兩者的符號(hào)相反.負(fù)全部責(zé)任的駕駛員遭受傷害的概率更低,更容易導(dǎo)致另一方受傷害,這與前人研究結(jié)果一致[18].當(dāng)駕駛員負(fù)部分責(zé)任時(shí),駕駛員遭受傷害的概率更高.
3)車型.在僅考慮車型條件下,貨車駕駛員更容易遭受傷害,這主要是由于貨車自身的質(zhì)量大和幾何結(jié)構(gòu)復(fù)雜而具備更高的攻擊性所導(dǎo)致.
4)事故形態(tài).相比側(cè)面碰撞和直角碰撞,涉及追尾碰撞的駕駛員更容易遭受傷害,這是由于追尾碰撞的原因大多為速度較快,未控制好車距所致[7].
5)駕齡.“3~10 a駕齡”的系數(shù)為正,且在90%的置信水平上顯著,表明相比于10 a以上駕齡,3~10 a駕齡的駕駛員更容易發(fā)生嚴(yán)重事故.
6)能見度.“能見度<100 m”的系數(shù)為-0.718,表明低能見度下駕駛員遭受傷害的概率更低,這是因?yàn)榈湍芤姸葪l件下,駕駛員出于謹(jǐn)慎會(huì)降低車速行駛,故發(fā)生碰撞時(shí)的后果不嚴(yán)重.
7)車輛間碰撞形態(tài).相比于運(yùn)動(dòng)車輛碰撞靜止車輛,運(yùn)動(dòng)車輛間碰撞會(huì)導(dǎo)致駕駛員遭受傷害的可能性提高71.6%.
8)學(xué)歷.高中及以上學(xué)歷的參數(shù)估計(jì)為0.474,且在90%的置信水平上顯著,表明高中學(xué)歷人群遭受傷害的概率更高.
9)道路等級(jí).當(dāng)雙車事故發(fā)生在高快速路時(shí),駕駛員遭受傷害的概率將是其他道路等級(jí)的2.49倍.這是因?yàn)楦呖焖俾窞榉忾]型道路,車輛行駛速度較高,高速運(yùn)動(dòng)車輛間的碰撞后果往往更嚴(yán)重.
10)安全保護(hù)裝置使用.使用安全帶會(huì)顯著降低駕駛員的受傷害程度.事故樣本中有81.42%的駕駛員使用了安全帶,這主要得益于深圳市的嚴(yán)格道路執(zhí)法.
11)路側(cè)防護(hù)設(shè)施類型.當(dāng)事故發(fā)生在無(wú)防護(hù)的道路上時(shí),駕駛員遭受傷害的概率更低.這主要由于無(wú)防護(hù)道路多為低等級(jí)道路,如支路或內(nèi)部道路,低等級(jí)道路的機(jī)動(dòng)車間碰撞事故嚴(yán)重性較低.
12)照明條件.相比于良好的光線條件(白天和夜間有路燈照明)下,夜間無(wú)路燈照明條件下駕駛員遭受傷害的概率將會(huì)增加153.2%.
本研究基于深圳市2018—2020的雙車事故碰撞數(shù)據(jù),利用隨機(jī)森林模型計(jì)算特征變量的重要度并進(jìn)行排序,據(jù)此初步篩選24個(gè)特征變量作為候選自變量.考慮碰撞角色的交互效應(yīng),建立駕駛員傷害程度的logit模型,結(jié)果表明,建立的logit模型具有較好的擬合優(yōu)度,且優(yōu)于不含交互項(xiàng)的模型.模型估計(jì)結(jié)果顯示碰撞角色、事故責(zé)任、車型、事故形態(tài)、駕齡、能見度、車輛間碰撞形態(tài)、學(xué)歷、道路等級(jí)、安全保護(hù)裝置使用情況、路側(cè)防護(hù)設(shè)施類型及照明條件與雙車事故駕駛員傷害程度顯著相關(guān).碰撞角色與車型和事故形態(tài)的交互項(xiàng)均顯著,且均與駕駛員傷害程度呈負(fù)相關(guān).
本研究?jī)H考慮“碰撞角色”與事故形態(tài)、車型的交互作用對(duì)駕駛員傷害程度的影響,接下來(lái)可通過引入其他交互項(xiàng)進(jìn)行分析,以便更深入分析其他交互項(xiàng)對(duì)雙車駕駛員傷害程度的影響機(jī)理.