韓天園,呂凱光,許江超,李 旋,喬 潔
(長安大學 汽車學院,陜西 西安 710064)
近年來,隨著我國道路交通基礎設施和安全法規(guī)的不斷完善,交通安全形勢整體有所改善,但事故平均傷害程度卻保持了平緩的增長[1],與發(fā)達國家相比,我國交通事故死亡率相對較高[2]。大量傷亡事故不僅直接危害交通參與者的生命財產(chǎn)安全,還影響正常的社會生產(chǎn)和生活[3]。此外,我國人口、道路里程、機動車保有量等方面尚有較大的增長空間,交通事故傷亡人數(shù)存在上升的潛在威脅[4]。探究事故規(guī)律有利于排查安全隱患和保障交通安全。
目前,計算機仿真、駕駛評價和事故大數(shù)據(jù)挖掘是交通事故預防和預測的3種理論依據(jù)。趙樹恩等[5]提出基于人車路協(xié)同的車輛彎道安全車速模型,并基于Trucksim驗證模型的可行性;Battiato等[6]通過車載監(jiān)控錄像評價行駛安全,計算車輛道路運行的交通事故風險;Kaur等[7]通過分析事故數(shù)據(jù)的時空分布,進而預測和預防事故發(fā)生。仿真和主客觀評價雖然能夠先于事故發(fā)現(xiàn)部分隱患,但過于簡化的模型并不能解釋某些事故特征間的相關性。事故數(shù)據(jù)是道路交通安全的直接反映,挖掘事故數(shù)據(jù)有利于揭示事故特征的實際關系與潛在聯(lián)系[8]。
針對事故因素的相關關系與因果關系的挖掘被廣泛應用于事故描述、解釋、預測和預防[9]。如基于聚類算法、關聯(lián)規(guī)則、自然語言處理等算法的事故生成規(guī)則探究[10],基于樸素貝葉斯、隨機森林、神經(jīng)網(wǎng)絡等算法的事故幾率和嚴重程度預測[11]。多種機器學習方法的組合能有效克服單一算法的缺陷,增強算法的適用性,進而提高事故分析和預測的可靠性[12]。Rusli等[13]基于邏輯回歸與決策樹探究發(fā)現(xiàn)長大下坡及彎坡路段的坡長與事故傷害呈正比,且正面碰撞傷害高于追尾碰撞;Xu等[14]運用卡方檢驗、聚類和關聯(lián)規(guī)則分析事故駕駛員、車輛、道路等數(shù)據(jù)關系,從人、車、路3方面提出事故預防的具體措施;AlKheder等[15]基于決策樹發(fā)現(xiàn)行人、老年司機和前排乘客更容易受到嚴重或致命的傷害,貝葉斯網(wǎng)絡比支持向量機預測事故傷害更準確。
本文以2 467條涉及人員傷亡的道路交通事故數(shù)據(jù)為數(shù)據(jù)集,運用Apriori關聯(lián)規(guī)則分析和社會網(wǎng)絡分析探究受傷事故和死亡事故的生成規(guī)則及其網(wǎng)絡關系,并基于樹型貝葉斯網(wǎng)絡預測事故傷害程度,為事故預防和預測提供理論依據(jù)。
從長安大學機動車事故鑒定中心收集2 654條涉及人員傷亡的道路交通事故數(shù)據(jù),通過數(shù)據(jù)清洗剔除無效和冗余數(shù)據(jù),共篩選出包含17個特征維度的2 467起事故數(shù)據(jù)。
為探究事故傷害程度與道路條件、交通環(huán)境、時間規(guī)律等因素的相關性,選擇16個特征因素(A~P)為自變量,見表1。以交通事故傷害嚴重程度為因變量,《道路交通事故信息調(diào)查》(GA/T 1082—2021)將事故分為財產(chǎn)損失事故、受傷事故和死亡事故3個等級,由于缺少財產(chǎn)損失事故數(shù)據(jù),因此因變量分為受傷事故Y1和死亡事故Y2。
表1 事故因素的數(shù)據(jù)詳情
從時間分布分析,5月交通事故發(fā)生最多,1月的死亡事故率最高,7月的死亡事故率最低,月份-事故分布如圖1所示;在工作日的事故頻數(shù)明顯高于非工作日,星期-事故分布如圖2所示;11時與17時左右是事故發(fā)生的2個高峰期,凌晨死亡事故率更高,2時的死亡事故率高達56%,時間-事故分布如圖3所示。
圖1 月份-事故分布
圖2 星期-事故分布
圖3 時間-事故分布
從空間分布分析,城市公路事故量占比最大,高速公路死亡事故率明顯更高,道路分類-事故分布如圖4所示;道路最高限速越大,死亡事故率越高,最高限速等級-事故分布如圖5所示;交叉路段和丁字路口是事故發(fā)生的主要場景,坡道路段死亡事故率顯著,且上坡路段死亡事故率高于下坡路段,道路特征-事故分布如圖6所示;水泥路面死亡事故率最低,未鋪砌路面死亡事故率最高,道路兩側路面情況-事故分布如圖7所示。
圖4 道路分類-事故分布
圖5 最高限速等級-事故分布
圖6 道路特征-事故分布
圖7 兩側路面情況-事故分布
從交通環(huán)境分布分析,干路面死亡事故率只有結冰(霜)路面的1/3,路面情況-事故分布如圖8所示;車流量小(個別車輛)時事故占比最大,而交通堵塞時死亡事故率最高,達到44%,車流量-事故分布如圖9所示;雪天的死亡事故率明顯高于其他天氣,天氣-事故分布如圖10所示。
圖8 路面情況-事故分布
圖9 車流量-事故分布
圖10 天氣-事故分布
此外,人行橫道事故的死亡事故率明顯更高,事故類型-事故分布如圖11所示;同向刮擦事故數(shù)量最多,而碰撞固定物的死亡事故率最高,事故形態(tài)-事故分布如圖12所示;違規(guī)停車、其他司機錯誤、違反道路優(yōu)先權和安全距離不足是事故主要原因,但超速和酒駕的死亡事故率遠高于其他原因,事故原因-事故分布如圖13所示。
圖11 事故類型-事故分布
圖12 事故形態(tài)-事故分布
圖13 事故原因-事故分布
Apriori算法用以掃描數(shù)據(jù)集中滿足最小支持度minSup的頻繁項集和提取頻繁項集中滿足最小置信度minCon的關聯(lián)規(guī)則。相較于P-Growth,Eclat算法,Apriori可獨立挖掘數(shù)據(jù)集中的關聯(lián)規(guī)則,適用于小數(shù)據(jù)集的關聯(lián)規(guī)則分析。
關聯(lián)規(guī)則的支持度Support為項集中所有項同時發(fā)生的概率,如式(1)所示:
Support(A→B)=Support(AB)=P(A∪B)
(1)
式中:A為前項;B為后項。
置信度Confidence是A項發(fā)生后B項發(fā)生的條件概率,如式(2)所示:
(2)
提升度Lift用以分析存在前項A時是否更傾向發(fā)生后項B,如式(3)所示:
(3)
若Lift>1,表明A和B正相關,AB關聯(lián)規(guī)則有效。
設置minCon=0.9,以保證挖掘的關聯(lián)規(guī)則的可靠性。鑒于數(shù)據(jù)死亡事故Y2占比較小,為提高數(shù)據(jù)的利用率和保證關聯(lián)規(guī)則挖掘的全面性,需要設置較低的支持度閾值以平衡死亡事故Y2的頻繁項集支持度。
當minSup=0.01時,共篩選出26條死亡事故Y2的強關聯(lián)規(guī)則,其中包括3個3-項集、9個4-項集和10個5-項集和4個6項集,見表2。關聯(lián)規(guī)則提升度全部大于5,表明前后項的高相關性。
表2 死亡事故的關聯(lián)規(guī)則
當最小支持度minSup=0.01時,共挖掘到3 213條受傷事故Y1的關聯(lián)規(guī)則,因此將Y1的最小支持度提高至0.1,最終提取出33條滿足提升度的強關聯(lián)規(guī)則,其中包括2個2-項集、14個3-項集、13個4-項集和4個5-項集,見表3。
表3 受傷事故的關聯(lián)規(guī)則
社會網(wǎng)絡分析及其可視化能夠?qū)δ骋簧鐣F(xiàn)象的結構與關系進行準確地量化表征與分析,基于UCINET軟件完成事故傷害關聯(lián)規(guī)則網(wǎng)絡的核心-邊緣分析和可視化。通過計算網(wǎng)絡密度分布以區(qū)分網(wǎng)絡核心和網(wǎng)絡邊緣,顯示關聯(lián)規(guī)則中各項的分布與聯(lián)系。社會網(wǎng)絡節(jié)點越大,表明關聯(lián)規(guī)則網(wǎng)絡中該項的網(wǎng)絡中心性越高,即在關聯(lián)規(guī)則的出現(xiàn)頻率越高;節(jié)點連線越粗,表明對應節(jié)點在關聯(lián)規(guī)則的共現(xiàn)頻率越高。
受傷事故Y1有同向刮擦M5、市區(qū)L1、工作日K1、城市道路B5、匯入/換道事故H3等14個強關聯(lián)規(guī)則項,共有42條節(jié)點連線,其中M5-L1,M5-K1和M5-B5的共現(xiàn)頻數(shù)大于10,受傷事故的關聯(lián)規(guī)則網(wǎng)絡如圖14所示。核心-邊緣分析結果顯示,Y1,M5和L1是網(wǎng)絡核心區(qū)域,區(qū)域密度為7.5。
圖14 受傷事故的關聯(lián)規(guī)則網(wǎng)絡
死亡事故Y2有碰撞固定物M6、人行橫道事故H4、高速公路B1、高速道路P4、非市區(qū)L2等10個強關聯(lián)規(guī)則項,29條節(jié)點連線,其中H4-B1,M6-B1,M6-P4,H4-L2和B1-L2共現(xiàn)頻數(shù)大于10,死亡事故的關聯(lián)規(guī)則網(wǎng)絡如圖15所示。酒駕N1和超速N12為單獨的1組關聯(lián)規(guī)則。核心-邊緣分析結果顯示,Y2,M6,H4和B1是網(wǎng)絡核心區(qū)域,區(qū)域密度為7.0。
圖15 死亡事故的關聯(lián)規(guī)則網(wǎng)絡
對比可知,市區(qū)和城市道路易發(fā)生受傷事故,非市區(qū)和高速公路易發(fā)生死亡事故。碰撞固定物和碰撞行人(人行橫道)的傷害程度高于車輛同向刮擦。超速駕駛提高了事故傷害,而酒駕強關聯(lián)于超速。由核心-分析可知,相較于受傷事故,死亡事故的網(wǎng)絡更加簡單,且網(wǎng)絡特征更加突出。事故傷害關聯(lián)規(guī)則分析結果與事故數(shù)據(jù)預分析結果相吻合,表明了APRIORI算法的有效性。
樹型貝葉斯網(wǎng)絡(Tree Augmented Naive Bays,TAN)是1種適用于離散數(shù)據(jù)的預測模型。TAN中各個屬性變量既依賴于類屬性,還至多依賴于1個非類屬性節(jié)點,降低了樸素貝葉斯非類屬性間的強條件獨立性假設要求,如式(4)所示:
(4)
式中:Y為類屬性;y為類變量值;Ai為非類屬性某一類別;Bj為Ai依賴的非類屬性的某一類別。
樹型貝葉斯網(wǎng)絡構建主要分為以下4個步驟:
步驟1:計算每1組非類屬性在給定類屬性的條件互信息I(A;B|Y),如式(5)所示:
(5)
步驟2:根據(jù)非類屬性間條件互信息值降序排列,依次取出其中的節(jié)點對,基于不產(chǎn)生環(huán)路的原則,構建最大權重生成樹。
步驟3:選擇任一非類屬性作為根節(jié)點,將無向樹轉換為有向樹。
步驟4:增加類屬性節(jié)點和每個非類屬性節(jié)點的有向連接弧,構造TAN的網(wǎng)絡結構。
在樹型貝葉斯網(wǎng)絡結構中,如果節(jié)點A依賴于節(jié)點B,則連接弧由B指向A。
采用SPSS Modeler軟件構建事故傷害預測的樹型貝葉斯網(wǎng)絡模型,如圖16所示。由樹結構分析可知,事故區(qū)域L與車流量A,道路分類B與事故形態(tài)M、事故季節(jié)J與路面情況G等相連節(jié)點之間存在較強的相關性。
圖16 事故傷害預測的樹型貝葉斯網(wǎng)絡模型
由構建的樹型貝葉斯網(wǎng)路預測事故的傷害嚴重程度,是根據(jù)樹節(jié)點的條件概率逆向計算傷害程度的分類概率。
最終分類器的預測正確率達87.56%,表明樹型貝葉斯網(wǎng)絡對事故傷害程度的預測效果良好。各事故因素的預測重要性如圖17所示。由于道路分類B與其他因素的條件互信息值較大,導致信息冗余度較高,因此預測重要性降低。
圖17 各事故因素的預測重要性
1)對事故數(shù)據(jù)的可視化分析表明,在時間分布上,1月份和凌晨0~5時的事故傷害程度最嚴重,7月事故傷害程度最低;在道路環(huán)境分布上,道路最高限速與事故傷害程度呈正比,結冰(霜)路面和坡道路段事故傷害更嚴重,雪天事故傷害顯著。此外,違規(guī)停車、其他司機錯誤、違反道路優(yōu)先權和安全距離不足是事故主要原因,但超速和酒駕的事故傷害明顯更高。
2)對事故傷害的關聯(lián)規(guī)則分析表明,受傷事故共有同向刮擦、市區(qū)等14個強關聯(lián)規(guī)則項,死亡事故共有碰撞固定物、人行橫道事故、高速公路等10個強關聯(lián)規(guī)則項,但死亡事故的關聯(lián)規(guī)則的相關性更高。
3)社會網(wǎng)絡分析不僅能夠反映關聯(lián)規(guī)則的各類數(shù)量信息,還能形象表達規(guī)則項之間的作用關系。樹型貝葉斯網(wǎng)絡考慮了事故因素間相關性,模型不僅有較高的預測準確性,同時能夠反映各事故因素的預測重要性。