李典 張慶年 何鑫宇
【摘 要】 為降低水上交通事故發(fā)生概率,從人、船、環(huán)境及事故屬性的角度分析不同因素對(duì)事故嚴(yán)重程度的影響,提出基于支持向量機(jī)的水上事故嚴(yán)重程度分類模型,利用粗糙集理論對(duì)水上事故數(shù)據(jù)進(jìn)行約簡(jiǎn)預(yù)處理,最后利用樣本數(shù)據(jù)對(duì)基于支持向量機(jī)的分類模型進(jìn)行訓(xùn)練和測(cè)試。結(jié)果表明,該模型的測(cè)試精度達(dá)到85%,能較好地識(shí)別海事事故嚴(yán)重程度。
【關(guān)鍵詞】 水上交通安全;事故嚴(yán)重程度;遺傳算法;支持向量機(jī);判別模型
0 引 言
水上交通安全一直是國(guó)內(nèi)外學(xué)者研究的重點(diǎn)和熱點(diǎn)問題,分析水上交通事故致因可在一定程度上減少水上事故的發(fā)生,提高水上安全狀態(tài)。為保障水上交通安全,國(guó)際海事組織(IMO)制定并發(fā)布了大量保障船舶安全航行的規(guī)章制度及船舶安全操作指導(dǎo)方法。目前,我國(guó)對(duì)水上交通事故等級(jí)的分類主要是由人員傷亡和直接經(jīng)濟(jì)損失決定的,大多數(shù)研究[1]在分析水上交通事故時(shí)將不同等級(jí)的事故一概而論,沒有考慮水上交通事故間的差異性。因此,研究不同事故等級(jí)之間影響因素的差異性對(duì)降低事故等級(jí)有重要的現(xiàn)實(shí)意義。
由于在水上交通實(shí)際運(yùn)行中發(fā)生較大事故次數(shù)不多,能獲取的調(diào)查數(shù)據(jù)較少,為較好地驗(yàn)證水上交通事故等級(jí)判別模型的有效性,本文主要研究小事故和一般事故。在現(xiàn)有統(tǒng)計(jì)數(shù)據(jù)基礎(chǔ)上,分析水上交通事故的特點(diǎn),多角度研究事故發(fā)生時(shí)間、船舶類型及人為因素等,利用粗糙集(RS)理論提取影響水上事故等級(jí)的重要特征因素,通過(guò)遺傳算法(GA)優(yōu)化支持向量機(jī)(SVM)模型中參數(shù)c和g,建立GA-SVM基于徑向基為核函數(shù)的水上交通事故等級(jí)分類模型。分析一般事故與小事故發(fā)生的差異性,對(duì)于規(guī)避和減少水上交通事故的發(fā)生具有重要意義,可以更好地預(yù)防更嚴(yán)重的事故。
1 特征因素的選擇和量化
1.1 事故等級(jí)判別特征因素的選擇
《水上交通事故統(tǒng)計(jì)辦法》將水上事故劃分為特別重大事故、重大事故、較大事故、一般事故、小事故等5個(gè)等級(jí),屬于事后劃分方式。
在分析水上交通事故等級(jí)的影響因素時(shí),鑒于水上交通安全范圍廣泛、水況復(fù)雜,關(guān)鍵性特征因素選取的合理性直接影響到分類模型的準(zhǔn)確性?;谒辖煌v史事故調(diào)查報(bào)告和實(shí)地調(diào)研,結(jié)合專家學(xué)者先前的研究,船舶發(fā)生交通事故的主要原因如下:
(1)船舶值班人員疏于瞭望,操縱人員避讓行為不協(xié)調(diào)、操縱不當(dāng)?shù)取?/p>
(2)船舶積載不當(dāng)致船舶穩(wěn)性不足,電器電線老化造成短路,航行過(guò)程中船舶出現(xiàn)主機(jī)故障、舵機(jī)失靈等現(xiàn)象。
(3)通航條件不佳,如惡劣的天氣狀況、航線經(jīng)過(guò)水上水下施工區(qū)等。
(4)航運(yùn)企業(yè)管理不當(dāng)、船舶違規(guī)使用明火、垃圾未及時(shí)處理等。
由于不同的航運(yùn)企業(yè)管理涉岸人員情況和規(guī)章制度各不相同,因此,本文從人、船、環(huán)境和事故屬性等4個(gè)方面分析影響水上交通事故水平的特征因素。結(jié)合以上分析,按照科學(xué)、系統(tǒng)和易于量化的原則,選取人的身心狀態(tài)、實(shí)踐操作能力、是否操作違規(guī)、是否操作錯(cuò)誤,以及船型、船舶總噸、天氣狀況、能見度、風(fēng)級(jí)、事故類型、事故發(fā)生時(shí)間段、事故發(fā)生所屬季節(jié)、人員傷亡及直接經(jīng)濟(jì)損失等14個(gè)特征因素作為事故等級(jí)分類的條件屬性。
1.2 特征因素的量化約簡(jiǎn)
為避免因特征因素的可替代性造成結(jié)論的不準(zhǔn)確,采用RS理論對(duì)各特征因素進(jìn)行約簡(jiǎn)處理,使各個(gè)特征因素彼此獨(dú)立,以確保結(jié)論的客觀性和準(zhǔn)確性。
在使用RS理論對(duì)水上交通事故等級(jí)特征因素進(jìn)行篩選前,首先需要確定信息系統(tǒng)和決策表,兩者之間存在映射關(guān)系。決策表在RS中起著重要作用,表達(dá)式為
S=(U, A,V, f)
式中:U為對(duì)象的非空有限集合,即論域;A為屬性的非空有限集合,通常分為條件屬性集C(即影響水上事故水平的所有特征因素)、決策屬性集D(即兩種不同類型的事故);V為屬性值的集合; f 為一個(gè)信息函數(shù)。
在實(shí)際中,同屬一個(gè)信息系統(tǒng)中的特征因素對(duì)決策集的影響是不同的,RS理論的約簡(jiǎn)是剔除條件屬性集對(duì)決策屬性集的影響為零的特征因素,即權(quán)重為零,從而達(dá)到約簡(jiǎn)的目的。
2 SVM判別模型的構(gòu)建
為得到較為理想的事故等級(jí)判別模型,本文選取徑向基(RBF)核函數(shù),利用GA算法對(duì)SVM模型中的懲罰參數(shù)c和核函數(shù)參數(shù)g進(jìn)行優(yōu)化處理。基于GA-SVM的水上交通事故等級(jí)判別模型的構(gòu)建步驟如下:
(1)選取利用RS理論約簡(jiǎn)后的指標(biāo)數(shù)據(jù),將數(shù)據(jù)集分為80%的訓(xùn)練樣本、20%的測(cè)試樣本,標(biāo)簽小事故為“ 1”、一般事故為“1”。
(2)利用GA算法優(yōu)化參數(shù)c和g。
(3)確定參數(shù)c和g最佳值,并在SVM中訓(xùn)練樣本。
(4)預(yù)測(cè)SVM模型中的測(cè)試集并評(píng)估SVM模型的分類性能。
傳統(tǒng)的SVM模型雖然能較好地解決高維及非線性問題,但模型的準(zhǔn)確性還依賴于參數(shù)c和g。因此,為了得到更高的模型準(zhǔn)確度,本文選用GA算法對(duì)SVM模型中的參數(shù)進(jìn)行尋優(yōu)處理。
3 模型驗(yàn)證
3.1 數(shù)據(jù)的獲取
本文通過(guò)查詢和下載長(zhǎng)江水域范圍內(nèi)各海事局官方網(wǎng)站上公布的統(tǒng)計(jì)數(shù)據(jù),查閱各類水上交通事故分析報(bào)告,其中收集到2014―2018年發(fā)生在長(zhǎng)江區(qū)域水上交通事故352起。由于本文主要關(guān)注小事故、一般事故,剔除了較大、重大及特別重大事故數(shù)據(jù),基于數(shù)據(jù)的完整性和有效性篩選出200組長(zhǎng)江水上交通事故數(shù)據(jù)進(jìn)行量化約簡(jiǎn)處理。
3.2 影響水上事故指標(biāo)的量化約簡(jiǎn)
Rosetta軟件是一款基于RS理論對(duì)數(shù)據(jù)表格進(jìn)行分析的軟件,其具備常見的數(shù)據(jù)離散化處理、數(shù)據(jù)補(bǔ)全及屬性約簡(jiǎn)等功能。影響水上交通事故嚴(yán)重程度的各特征因素之間存在關(guān)聯(lián)性,因此,本文應(yīng)用Rosetta軟件對(duì)各特征因素之間進(jìn)行數(shù)據(jù)挖掘及分析研究。
本文結(jié)合專家意見和問卷調(diào)查來(lái)量化所使用的特征因素。以環(huán)境因素中能見度為例:當(dāng)能見度在7級(jí)及以上時(shí),這一特征因素并不影響船舶安全航行;當(dāng)能見度低于3級(jí)時(shí),船舶的安全航行將受到嚴(yán)重影響。因此,本文將能見度分為4個(gè)量級(jí)進(jìn)行量化,即:能見度大于等于7級(jí),賦值1;能見度為5~6級(jí),賦值2;能見度為3~4級(jí),賦值3;能見度為0~2級(jí),賦值4。
以上量化處理后得到的200組事故數(shù)據(jù)作為Rosetta軟件處理的基本數(shù)據(jù),其中將影響水上交通事故等級(jí)的16個(gè)指標(biāo)作為條件屬性,決策屬性為事故等級(jí),利用頻率劃分算法對(duì)數(shù)據(jù)進(jìn)行離散化以生成決策表。最后利用貪婪算法(Johnson's algorithm)得到指標(biāo)約簡(jiǎn)結(jié)果。結(jié)果表明,人的身心狀態(tài)、實(shí)踐操作能力、船型、能見度、事故發(fā)生時(shí)間段和季節(jié)可作為影響水上交通事故水平的6個(gè)重要指標(biāo)。具體見表1。
3.3 水上事故等級(jí)識(shí)別模型的建立
本文選取采用RS約簡(jiǎn)后的6個(gè)指標(biāo),構(gòu)成新的包含200組樣本的數(shù)據(jù)集,將數(shù)據(jù)分為160組的訓(xùn)練集和40組的測(cè)試集。事故等級(jí)作為標(biāo)簽,小事故和一般事故分別用“ 1”、“1”表示。使用Libsvm工具在MATLAB環(huán)境下實(shí)現(xiàn)SVM訓(xùn)練模型,并選擇RBF作為SVM模型中的核函數(shù),即參數(shù)選擇“ t=2”。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,并將訓(xùn)練集和測(cè)試集標(biāo)準(zhǔn)化到[0,1]范圍,運(yùn)用Mapminmax函數(shù)來(lái)標(biāo)準(zhǔn)化訓(xùn)練集和測(cè)試集數(shù)據(jù),選取參數(shù)c、g的值。本文將gaSVMcgForClass.m用于優(yōu)化參數(shù)c、g,GA算法中各參數(shù)設(shè)置如下:最大的遺傳代數(shù)為50,種群數(shù)量為20,參數(shù)c、g的值在[0,100]之間,代溝取值0.9。由GA-SVM適應(yīng)度曲線(見圖1)可以看出,隨著迭代次數(shù)的增加,平均適應(yīng)度仍在不斷變化,處于跌宕起伏的狀態(tài),在第31~41次迭代過(guò)程中,其平均適應(yīng)度曲線處于較為平緩的狀態(tài)。優(yōu)化結(jié)果為最佳懲罰參數(shù)c=2.280 9,最佳核函數(shù)參數(shù)g=56.955。
根據(jù)尋優(yōu)后的參數(shù)結(jié)果,利用Svmtrain建立SVM網(wǎng)絡(luò)訓(xùn)練模型,代入通過(guò)GA算法尋優(yōu)后的參數(shù)值,得出模型準(zhǔn)確率為85%。引入Sigmoid函數(shù)對(duì)分類結(jié)果進(jìn)行概率運(yùn)算,測(cè)試集中部分概率輸出值(見表2)如下:在包含40組數(shù)據(jù)的測(cè)試集中,有6組被誤判,其中,有4組一般事故被誤判為小事故,2組小事故被誤判為一般事故。這表明通過(guò)GA算法參數(shù)尋優(yōu)后得到的SVM分類模型可以有效地判別事故等級(jí)為一般事故還是小事故。
為了更好地證明GA-SVM模型分類性能,本文選取交叉驗(yàn)證理論中K-fold Cross Validation(K-CV)方法與遺傳算法作對(duì)比,K-CV可以有效地避免過(guò)學(xué)習(xí)以及欠學(xué)習(xí)狀態(tài)的發(fā)生?;诒疚臉颖緮?shù)較少,選擇K=3,將原始數(shù)據(jù)均分成3組,每個(gè)子集數(shù)據(jù)分別作為一次驗(yàn)證集,其余的2組子集數(shù)據(jù)作為訓(xùn)練集,依次訓(xùn)練,最終驗(yàn)證集的分類準(zhǔn)確率的平均數(shù)作為此3-CV下分類器的性能指標(biāo)。
在MATLAB環(huán)境下,利用3-CV-SVM對(duì)參數(shù)進(jìn)行優(yōu)化,定義參數(shù)c、g取值范圍在[2 5,25],最優(yōu)懲罰參數(shù)c=2,最優(yōu)核函數(shù)參數(shù)g=32,CVaccuracy=90.625%,代入SVM網(wǎng)絡(luò)訓(xùn)練模型,預(yù)測(cè)精度為80%。通過(guò)對(duì)比兩種優(yōu)化方法(見表3)可知,GA-SVM模型分類精度更高,準(zhǔn)確率更高。
4 結(jié)果討論
(1)通過(guò)RS理論篩選出的6個(gè)特征指標(biāo),即身心狀態(tài)、實(shí)際操作能力、船舶類型、能見度、事故發(fā)生時(shí)間段及季節(jié),可以更好地反映水上交通事故水平。
(2)引入Sigmoid函數(shù)進(jìn)行概率計(jì)算,通過(guò)調(diào)整6個(gè)特征指標(biāo)的不同狀態(tài)可輸出不同的事故水平,由此為降低事故嚴(yán)重程度提供了參考方向。
(3)基于GA-SVM的水上交通事故嚴(yán)重程度判別模型,準(zhǔn)確度達(dá)到85%,能較好地判別水上交通事故水平。
(4)通過(guò)與CV-SVM模型的對(duì)比,GA算法尋優(yōu)后得到的模型準(zhǔn)確度高于CV方法尋優(yōu)后的模型準(zhǔn)確度。
(5)根據(jù)海事局對(duì)事故等級(jí)的定義,小事故和一般事故的最大區(qū)別在于有無(wú)人員傷亡,屬于事故發(fā)生后的定義。通過(guò)本文建立的水上交通事故嚴(yán)重程度判別模型,能根據(jù)易引發(fā)事故的特征因素狀態(tài)有效判別出事故嚴(yán)重程度,從而更好地形成預(yù)警方案,盡可能地降低事故危害性。
參考文獻(xiàn):
[1] 雷海.“東方之星”輪沉沒事故對(duì)水上客運(yùn)安全的警示[J].水運(yùn)管理,2015(10):1-3.