張麗麗,呂靖
(1.山東交通學院國際商學院,山東 威海 264200;2.大連海事大學交通運輸管理學院,遼寧 大連 116026)
水上交通安全作為航運業(yè)健康發(fā)展的前提和基礎,一直受到眾多學者的關注。近年來,在海事主管機關和專家學者的努力下,水上交通事故總數在逐年下降,但重特大事故卻時有發(fā)生,給個人和社會造成極大危害。參照交通運輸部第15號令《水上交通事故統(tǒng)計辦法》中事故嚴重程度劃分標準,重特大水上交通事故包括重大和特別重大水上交通事故。根據著名的“海因里希事故法則”[1],一起重大事故的發(fā)生是幾種因素累積作用的結果,且不安全因素在重大事故發(fā)生前就暴露過多次。重特大水上交通事故也有類似的規(guī)律。研究重特大水上交通事故影響因素耦合模式和因素誘發(fā)事故的機制,對減少事故危害、提高水上交通安全具有重要意義。
目前關于水上交通事故影響因素的研究成果很多,國外學者除關注事故直接影響因素外,還注重探究海運運費率[2]、經濟活動[3]、油價[4]等航運市場條件對事故的影響。CHANG等[5]將集裝箱船風險因素分為與信息流、物流和現金流相關的因素,利用問卷調查和隨機占優(yōu)等方法分析因素與事故間的關系,結果表明與物流相關的因素對船舶事故影響最嚴重。李文華等[6]在構建砂石船水上交通事故影響因素魚骨圖的基礎上,利用相關度分析了事故發(fā)生月份、船舶單位性質、船舶噸位、船齡等因素對事故的影響,指出在船舶單位性質為個體委托、船舶總噸為400~1 000、船齡為0~4 a、配員3~5人和風力超過7級等因素共同影響下,更容易發(fā)生事故。張笛等[7]以長江海事局轄區(qū)內船舶事故為研究對象,利用貝葉斯網絡分析了船舶類型、船舶噸位、船舶所有人性質、風力等因素與礙航事故間的關系,結果表明,在船舶總噸為5 000以上、季節(jié)為枯水期、事故類型為擱淺事故、船舶所有人性質為個體船舶等各單因素影響下易發(fā)生礙航事故。胡甚平等[8]引入云理論,對人、船、環(huán)境3種因素引發(fā)的水上交通事故的耦合機理進行了仿真,結果指出,在單因素作用下環(huán)境因素對海上交通系統(tǒng)的風險影響最大,多因素耦合作用下系統(tǒng)風險程度明顯上升。賈立校等[9]利用貝葉斯網絡分析了人、船、環(huán)境3種因素間的耦合作用對事故的影響,結果表明,多因素耦合作用比單因素作用對事故的影響大,包含環(huán)境因素的耦合模式對事故的影響較突出,且船舶因素對事故后果的影響較大。劉紅等[10]運用粗糙集理論從人、船、環(huán)境角度研究了事故類型、事故時間分布、船舶噸位、船舶類型等因素與事故嚴重程度之間的重要性隸屬度關系,結果發(fā)現,時段為0:00—4:00、船齡為30 a以上、船舶總噸為0~500 等因素易引發(fā)大事故及以上等級事故。此外,還有學者針對事故中人的因素的形成原因[11]和人的因素可靠性[12]進行了研究。可以看出,現有文獻研究對象存在差異,如部分學者只針對某一種船型、某一類事故或某一個地區(qū)的事故進行研究,且對事故影響因素的總結不夠全面,未涵蓋人、船、環(huán)境、管理及事故自身屬性等多個方面,導致研究結果差異性較大、普適性較低。此外,大多數文獻將不同嚴重程度的水上交通事故一概而論,鮮有對重特大事故影響因素的針對性研究,在制定不同嚴重程度的事故防范措施時缺乏參考依據。
本文的水上交通事故影響因素數據是從歷史事故調查報告中獲取的,屬于高維度、非數值型數據且具有一定的模糊性、缺失性。從數據挖掘的角度,可將重特大事故影響因素耦合模式的提取視為一個分類問題。在眾多分類模型中,C5.0決策樹算法擅長處理非數值型數據,無需進行數據處理就可直接使用,在面對輸入變量很多和數據缺失時表現非常穩(wěn)健,且模型結果直觀、易于理解。此外,C5.0決策樹作為分類方法已經得到廣泛應用:孫軼軒等[13]以交通事故數據為基礎,利用C5.0決策樹進行了事故嚴重程度分析和預測;張宗藝等[14]利用粗糙集與C5.0決策樹相結合的方法,對林地質量進行了綜合評價;李夢瑩等[15]利用C5.0決策樹對森林植被進行了分類研究。
鑒于此,本文利用C5.0決策樹算法對重特大水上交通事故影響因素的耦合模式進行提取和分析,以期為制定有針對性的事故防范措施提供參考。
通過查找各海事局官方網站上公布的水上交通事故典型案例和查閱出版的水上交通事故案例書籍和部分海事局提供的事故案例資料獲取相關數據。從中國海事局等國家直屬海事局、下屬省級海事局和市縣級海事局官方網站和部分海事局提供的資料中搜集到869份水上交通事故調查報告,從《水上交通事故典型案例集》《海事案例選編》《海上交通事故案例》《長江水上交通事故典型案例(2001—2005)》《長江水上交通事故典型案例(2006—2010)》等多本專業(yè)書籍中搜集到342份水上交通事故調查報告,共計1 211份事故調查報告。
因為各海事局和相關海事機構調查報告標準不統(tǒng)一,調查人員本身背景、興趣、調查目的不一致,還有部分事故因未能及時調查導致事故數據和信息記錄不全,所以搜集到的調查報告內容、格式并不一致。為獲取完整、可靠的事故數據信息,事故調查報告的選取遵循完整性、權威性、隨機性和時效性原則。完整性指調查報告必須符合一定的格式,內容包括事故船舶和船員概況、事故發(fā)生時的天氣和海況、事故經過、事故原因分析和責任認定、安全管理建議等;權威性指調查報告必須經過國家授權的海事調查機構或者海事管理機構按照國際和國內發(fā)布的事故調查標準調查分析后發(fā)布,以保證報告內容真實可靠;隨機性指在選取事故調查報告時,不有意考慮事故發(fā)生的時間、地點、船舶類型和船籍等因素,以保證所提取的事故影響因素間的關聯關系不受報告選擇的影響;時效性指為避免事故年代跨度較大導致的分析結果的不準確,選取1995—2016年間發(fā)生的事故。按照上述原則進行篩選,最終得到939份可用的水上交通事故調查報告。
通過訪問具有多年航海實踐經驗的船長、大副、輪機長、大管輪和具有豐富理論知識的海事類院校教師等,結合搜集到的事故調查報告中信息的完整程度,構建包括人的因素、船舶因素、環(huán)境因素、管理因素和事故自身屬性5個方面共計25個變量的水上交通事故影響因素集,并根據報告內容進行量化處理,見表1。
表1 水上交通事故影響因素集構建及量化
從939份水上交通事故調查報告中隨機抽取80%的樣本作為決策樹模型的訓練樣本,其余20%的樣本作為測試樣本對模型結果進行檢驗。將表1所列的事故影響因素集作為輸入變量,將一般事故(用1表示)、重特大事故(用2表示)作為輸出變量,構建水上交通事故嚴重程度影響因素決策樹。利用基于錯誤的剪枝(error-based pruning,EBP)法對初步生成的事故影響因素決策樹進行剪枝,以簡化決策樹、降低過度擬合現象。此外,考慮到輸入變量多為分類且非二值變量,選擇多叉樹決策樹形態(tài)進行決策樹構建,以避免二叉樹結構造成的信息流失。為保證決策樹模型的穩(wěn)健性,建模中進行訓練樣本和測試樣本的分組和交叉抽樣,同時為避免過擬合問題,使用ChiMerge分箱法減少變量的過度分枝。由此建立水上交通事故嚴重程度影響因素初步決策樹模型,利用該模型對訓練樣本、測試樣本進行分類,結果見表2。
表2 初步決策樹模型對訓練樣本、測試樣本的分類結果
由表2可以看出,在現有參數條件下利用初步決策樹模型所得的結果是可以接受的,但仍有進一步優(yōu)化的空間。由于C5.0決策樹算法的剪枝技術、誤判成本值、Boosting(推進)技術對決策樹模型的構建和預測準確率的影響較大,所以本文通過多次試驗對其進行優(yōu)化設置,以期獲得準確率更高的決策樹模型。
1.3.1 誤判成本值的選取
誤判成本值是對某種誤判導致的分類錯誤所產生后果嚴重性的反映,值越高表明誤判后果越嚴重。假設模型把重特大事故誤判成一般事故的錯誤為G類錯誤,把一般事故誤判成重特大事故的錯誤為E類錯誤,則誤判成本值分別用CG、CE表示。本文認為把一件“重特大事故”誤判成“一般事故”的后果要嚴重得多,因此誤判成本值的選擇標準是在保證總體分類準確率的前提下,盡量減少G類錯誤。即將模型其他參數設為默認值,將CE固定為1,把CG設定為大于等于1的值并不斷提高,根據多次試驗得到決策樹模型對樣本的分類準確率,挑選最佳的CG值。
如表3所示:隨著CG值的增加,訓練樣本總錯誤率先降后升,在CG=2時取得最小值,同時G類錯誤率保持穩(wěn)定下降的趨勢;測試樣本總錯誤率和訓練樣本總錯誤率趨勢基本一致;測試樣本G類錯誤率的升降具有一定隨機性。根據上述分析,將CG設定為2,CE設定為1。
1.3.2 修剪嚴重性的設定
用P表示修剪嚴重性,即決策樹的剪枝程度,P默認值為75。通過對比不同的P值對應的模型結果來選取最佳值,選取標準是在保證模型整體精度的前提下,選擇最小的分類錯誤率對應的P值。此外,為避免過擬合現象應盡量降低決策樹復雜程度,即選擇節(jié)點數較少的決策樹。
表3 CG取不同值時C5.0決策樹模型的分類錯誤率 %
如表4所示:隨著P值的增加,生成的決策樹節(jié)點數逐漸減少,決策樹復雜程度越來越低,與此同時,訓練樣本的總錯誤率和G類錯誤率均呈上升趨勢;在測試樣本中,當P=80時,總錯誤率和G類錯誤率最低,且決策樹節(jié)點數大幅減少?;谏鲜龇治?,將P設定為80。
表4 不同的P值對應的決策樹模型的分類錯誤率
1.3.3 Boosting技術的運用
Boosting技術是用來為每個樣本賦予權重的,樣本的權重越高對生成的決策樹影響就越大。初始時,所有樣本具有相同的權重。隨后每經過一次樣本訓練,樣本權重就進行一次調整,其中被前一次生成的決策樹模型錯誤分類的樣本將獲得更高的權重。經計算,使用Boosting技術后,訓練樣本總錯誤率和G類錯誤率都大幅下降,分別由18.04%、15.98%下降到9.29%、7.09%,但測試樣本總錯誤率和G類錯誤率卻分別有2.22%、6.27%的小幅上升,說明Boosting技術可以較好地提升模型對訓練樣本的擬合程度,但對測試樣本精度沒有明顯改善。
根據上述分析,將決策樹模型CG設為2、CE設為1,將修剪嚴重性P設為80,并選擇使用Boosting技術,最終得到參數調整前后的決策樹模型分類錯誤率對比,見表5。
表5 參數調整前后的決策樹模型分類錯誤率對比 %
由表5可以看出,通過參數調整:訓練樣本的G類錯誤率、總錯誤率均大幅降低,下降幅度分別為4.65%、4.87%;測試樣本的G類錯誤率、總錯誤率分別下降8.15%、3.70%。這說明參數調整后,決策樹模型分類精度得到明顯改善。參數調整后得到的水上交通事故嚴重程度影響因素決策樹見圖1。
圖1 參數調整后的水上交通事故嚴重程度影響因素決策樹
由圖1可知,參數調整后的事故嚴重程度影響因素決策樹為深度為10的多叉樹型結構,在25個輸入因素中,人的因素中的操作違規(guī),船舶因素中的船舶類型、船齡,環(huán)境因素中的風、浪,管理因素中的政府部門監(jiān)督管理充分性、航運企業(yè)安全管理充分性,事故自身屬性中的時段、船損程度等9個因素集中在決策樹的前4層,說明這些因素對事故嚴重程度的分類影響最大。
為進一步評價決策樹模型提煉因素和歸納規(guī)律的整體性能和綜合優(yōu)度,計算模型的提升度指標
PL=Pi/j/Pi
(1)
式中:Pi/j為在節(jié)點j所屬樣本空間內輸出變量值為事故嚴重程度分類i的概率;Pi為整個樣本空間內輸出變量值為事故嚴重程度分類i的概率。
事故嚴重程度影響因素決策樹模型中重特大事故類別的提升度收益曲線見圖2。圖2中,橫軸表示決策樹中節(jié)點百分位點,即把決策樹中的70個節(jié)點從1到70進行排序,并分成100等份,橫軸數字0~10表示前7個節(jié)點,0~20表示前14個節(jié)點,其他的依此類推。由圖2可以看出,訓練樣本和測試樣本的提升度收益曲線與最佳提升度曲線的整體趨勢基本一致,說明所得決策樹對水上交通事故嚴重程度分類具有較好的提升性能,其中訓練樣本的提升效果更為明顯。由提升度累積曲線和推理規(guī)則集可知:決策樹淺層節(jié)點提升度較高,且對應規(guī)則集邏輯條理清晰。規(guī)則集顯示,船損程度、風、浪、時段、航運企業(yè)安全管理充分性、船舶類型、政府部門監(jiān)督管理充分性、操作違規(guī)、船齡是影響事故嚴重程度分類的最主要因素。
a)訓練樣本
b)測試樣本
在構建事故嚴重程度影響因素決策樹的同時,生成推理規(guī)則集,每條規(guī)則對應著決策樹中自上而下的一條非閉合有向路徑,分別對應一般事故、重特大事故兩種輸出變量。部分規(guī)則摘錄如下:
規(guī)則1:如果船損程度為1,浪為4,時段為1、4,監(jiān)督管理充分性為1,安全管理充分性為1、3,操作違規(guī)為1、3,那么事故嚴重程度類別為2。
規(guī)則2:如果船損程度為1,浪為4,時段為1、4,監(jiān)督管理充分性為1,安全管理充分性為2,那么事故嚴重程度類別為1。
由于事故發(fā)生具有一定的偶然性,為防止提取到偶然性的事故影響因素耦合模式,從全部推理規(guī)則集中篩選出觀測樣本數大于5、置信度水平在70%以上,且輸出類別為2的規(guī)則進行解讀,結果見表6。
在表6的9個模式中,模式1包含的事故樣本數最多,共92起,置信水平為95.3%,應作為重點事故防范情境。根據博德事故因果連鎖論和軌跡交叉論[16],管理因素通常是事故的深層次原因,船舶、環(huán)境、人的因素的不安全狀態(tài)在一定時間、空間發(fā)生的接觸,則是事故發(fā)生的直接原因。相應地,模式1中的政府部門監(jiān)督管理嚴重不足加劇了航運企業(yè)安全管理的嚴重不足,而政府部門監(jiān)督管理嚴重不足和航運企業(yè)安全管理嚴重不足在一定程度上增加了船員操作違規(guī)的概率,當船舶在0:00—3:59或20:00—23:59時段處于8級及以上浪的惡劣氣象環(huán)境中時,如果船員操作故意違規(guī)引發(fā)事故且造成船舶全損,則事故極有可能為重特大水上交通事故,見圖3。
表6 重特大水上交通事故影響因素耦合模式
圖3 重特大水上交通事故影響因素耦合模式示意圖
本文從水上交通事故調查報告中提取事故影響因素集,利用C5.0決策樹算法構建事故嚴重程度影響因素決策樹,根據參數優(yōu)化后得到的最優(yōu)決策樹及相應的推理規(guī)則集,提取出9種易引發(fā)重特大事故的多因素耦合模式。結果顯示,在“船員操作故意違規(guī)、浪為8級及以上、政府部門監(jiān)督管理嚴重不足、航運企業(yè)安全管理嚴重不足、時段為0:00—3:59或20:00—23:59、事故后果為船舶全損”模式下的重特大事故樣本數最多,為92起,置信水平為95.3%,應作為重點事故防范情境。與以往研究相比,本文將重特大水上交通事故作為研究對象,且考慮了人、船、環(huán)境、管理及事故自身屬性5個方面共計25個事故影響因素,可以較好地識別出易引發(fā)重特大事故的因素。引入的決策樹模型使得到的結論更直觀、具體,為海事主管機關和部門防范重特大事故提供科學、合理的參考。此外,本文在事故數據量化處理時,采用客觀整理與主觀賦值相結合的方法,在一定程度上造成原始數據信息流失,并使結果受到人為經驗的干預。在今后研究中,將嘗試尋找一種更為客觀、合理的數據量化方法,以獲取更精確的研究結果。