惠寶鋒 馮桂蓮 王詠寧
摘 要:本文通過(guò)數(shù)據(jù)挖掘相關(guān)基礎(chǔ)進(jìn)行數(shù)據(jù)庫(kù)搭建,選取2002—2016年數(shù)據(jù)進(jìn)行OLAP分析,通過(guò)數(shù)據(jù)切片及數(shù)據(jù)向下鉆取,將二維數(shù)據(jù)轉(zhuǎn)換成三維數(shù)據(jù)進(jìn)行深度剖析,結(jié)果顯示全國(guó)道路交通事故影響因素主要集中在機(jī)動(dòng)車(chē)超速行駛及逆向行駛中,其中駕駛?cè)诵袨橛葹橥怀?。在Eviews軟件中對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)分析發(fā)現(xiàn)道路交通事故存在非線性關(guān)系,并且預(yù)測(cè)了未來(lái)三年的道路交通事故數(shù)量及傷亡數(shù)量,數(shù)據(jù)顯示出道路交通事故呈逐年下降趨勢(shì)。
關(guān)鍵詞:數(shù)據(jù)挖掘;聯(lián)機(jī)分析處理;交通事故;預(yù)測(cè)分析
中圖分類(lèi)號(hào):TP319 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2096-1472(2018)-07-21-03
1 引言(Introduction)
隨著社會(huì)的發(fā)展與進(jìn)步,汽車(chē)已經(jīng)成為人們生活中必不可少的交通工具,目前汽車(chē)總量已經(jīng)達(dá)到2017年中國(guó)大概有2.45億輛,隨著汽車(chē)與交通運(yùn)輸給我?guī)Я吮憬莸耐瑫r(shí),也帶來(lái)了事故頻發(fā)的交通事故。早在1994年瑞典推出了交通“零傷亡愿景”計(jì)劃,力爭(zhēng)在2020年前實(shí)現(xiàn)道路交通事故零死亡和零重傷率[1]。國(guó)外的許多學(xué)者運(yùn)用線性回歸、Logistic回歸、神經(jīng)網(wǎng)絡(luò)等手段分析交通事故嚴(yán)重程度與人的特性、車(chē)輛速度、道路條件和交通環(huán)境之間的關(guān)聯(lián)性[2]。
本文通過(guò)數(shù)據(jù)挖掘基本理論[3],建立道路交通事故數(shù)據(jù)庫(kù)[4,5],通過(guò)OLAP(OnLine Analytical Processing,聯(lián)機(jī)分析處理)及經(jīng)濟(jì)計(jì)量視圖軟件Eviews,對(duì)2002—2016年交通事故數(shù)據(jù)進(jìn)行抽取分析,切塊與切片等數(shù)據(jù)處理,試圖通過(guò)交通事故數(shù)量及類(lèi)型分析[6],來(lái)揭示對(duì)道路交通事故影響的主要因素,通過(guò)制定相關(guān)法律、法規(guī)等政策,最終進(jìn)行道路交通事故預(yù)測(cè)及分析[7,8],試圖從數(shù)據(jù)挖掘的角度來(lái)預(yù)測(cè)交通事故未來(lái)的走向。
2 道路交通事故分析系統(tǒng)構(gòu)建(System construction)
通過(guò)《中國(guó)統(tǒng)計(jì)年鑒》中的“交通事故”相關(guān)內(nèi)容分別對(duì)全國(guó)各要省及直轄市從2002—2016年道路交通事故數(shù)據(jù)進(jìn)行收集與整理,并建立了交通事故基本數(shù)據(jù)庫(kù)(Traffic Accident),其內(nèi)容主要涉及內(nèi)容包含地區(qū)表及交通事故分類(lèi)表,地區(qū)表包含32個(gè)省及直轄市的交通事故總發(fā)生數(shù)、總死亡人數(shù)、總直接財(cái)產(chǎn)損失,如圖1所示。類(lèi)表是全國(guó)數(shù)據(jù)匯總數(shù)據(jù)包括事故總數(shù)、特大事故、重大事故、機(jī)動(dòng)車(chē)、非機(jī)動(dòng)車(chē),以及行人等導(dǎo)致的交通事故總和,如圖2所示。
本文根據(jù)Traffic Accident數(shù)據(jù)庫(kù)所建立的基本數(shù)據(jù)模型,分別建立表之間的關(guān)系試圖,將全國(guó)各地區(qū)所發(fā)生的道路交通事故數(shù)據(jù)進(jìn)行對(duì)比和分析,將其中交通事故較高的地區(qū)的具體數(shù)據(jù)引入SPSS統(tǒng)計(jì)軟件進(jìn)行線性分析,如圖3所示。
從圖3結(jié)果中可以看出大部分地區(qū)的道路交通事故發(fā)生頻率在逐漸減少,只有個(gè)別地區(qū)故數(shù)量在上下波動(dòng),但大致呈現(xiàn)出遞減趨勢(shì),且經(jīng)濟(jì)發(fā)達(dá)地區(qū)高于不發(fā)達(dá)地區(qū),死亡人數(shù)也更多,北京地區(qū)受到嚴(yán)格的交通法規(guī)及政策的影響,交通事故發(fā)生率相對(duì)較低。
3 道路交通事故數(shù)據(jù)分析(Analysis of road traffic accident data)
我們通過(guò)OLAP對(duì)所獲得、加工后的數(shù)據(jù)進(jìn)行切片和鉆取,對(duì)交通事故的各個(gè)影響因素進(jìn)行分析和構(gòu)建,從中得到影響交通且造成交通事故的影響因素主要包括:行人和乘客的因素、環(huán)境因素、駕駛?cè)思败?chē)輛因素等。其中主要是駕駛?cè)说囊蛩刈顬橹苯?。通過(guò)對(duì)駕駛?cè)艘蛩剡M(jìn)行切塊與切片分析,影響原因包含了超速、酒后駕駛、違法變道、不安規(guī)定路線行駛、違反交通信號(hào)燈、違法占道、占用公交專用道、無(wú)證駕駛、毒駕等多種因素,我們將選取一些典型的因素進(jìn)行三維數(shù)組分析。如圖4所示。
在進(jìn)行分析處理上我們首先對(duì)駕駛?cè)藬?shù)據(jù)進(jìn)行了二位數(shù)組的采集,在建立的二位表的基礎(chǔ)上向下進(jìn)行鉆取數(shù)據(jù),通過(guò)在多層數(shù)據(jù)中來(lái)進(jìn)行更詳細(xì)的數(shù)據(jù)分析,最終得到以車(chē)類(lèi)型(機(jī)動(dòng)車(chē)與非機(jī)動(dòng)車(chē))、時(shí)間(2014—2016)、事故具體因素為三維數(shù)組圖。如圖5所示,從圖中可以看出超速行駛與違法逆行造成的交通事故較多,監(jiān)管部門(mén)應(yīng)當(dāng)加強(qiáng)監(jiān)管。
在行人及乘客因素中通過(guò)切片可以看出行人主要是由于違反交通信號(hào)和其他影響安全的行為所導(dǎo)致的交通事故,環(huán)境因素中導(dǎo)致交通事故的主要因素是道路總體路況,氣候環(huán)境及行人為按信號(hào)燈過(guò)馬路和道路信號(hào)燈故障等。
4 道路交通事故預(yù)測(cè)分析(Prediction analysis)
由于道路交通事故數(shù)量隨時(shí)間變化是非線性相關(guān)的,我們將數(shù)據(jù)引入Eviews中,對(duì)給定區(qū)間的交通事故數(shù)據(jù)進(jìn)行非線性測(cè)量,預(yù)測(cè)2018—2020年道路交通事故結(jié)果如表1和表2所示。
根據(jù)表1和表2預(yù)測(cè)數(shù)據(jù)在Eviews進(jìn)行校驗(yàn),在具體應(yīng)用中我們利用所獲得的數(shù)據(jù)對(duì)數(shù)據(jù)進(jìn)行分析,再此基礎(chǔ)上利用間接代換方法對(duì)對(duì)數(shù)函數(shù)進(jìn)行非線性模型預(yù)測(cè),分別得出預(yù)測(cè)期內(nèi)的道路交通事故數(shù)量分布圖、全國(guó)道路交通事故受傷人數(shù)數(shù)量分布圖、全國(guó)道路交通事故死亡人數(shù)數(shù)量分布圖及預(yù)測(cè)數(shù)據(jù)圖。如圖6—圖9所示。
從以往數(shù)據(jù)及進(jìn)行OLAP分析圖中我們明顯看出,隨著社會(huì)發(fā)展與道路交通規(guī)則及相應(yīng)的法律約束,及其宣傳等工作,交通道路事故的總體事故發(fā)生率、交通事故死亡認(rèn)識(shí)、其受傷人數(shù)及財(cái)產(chǎn)損失都有明顯下降趨勢(shì),在進(jìn)行預(yù)測(cè)的基礎(chǔ)上對(duì)分析結(jié)果進(jìn)行了間接替換法進(jìn)行模型校驗(yàn),表明符合非線性相關(guān)關(guān)系,證明所用分析方法可以進(jìn)行道路交通事故數(shù)據(jù)的預(yù)測(cè)分析。
5 結(jié)論(Conclusion)
本文利用數(shù)據(jù)挖掘基礎(chǔ)進(jìn)行聯(lián)機(jī)數(shù)據(jù)處理,建立相關(guān)數(shù)據(jù)庫(kù),并全國(guó)各個(gè)主要省份交通事故進(jìn)行統(tǒng)計(jì),在此基礎(chǔ)上通過(guò)OLAP進(jìn)行系統(tǒng)分析,取得影響交通安全的主要影響因素,通過(guò)對(duì)數(shù)據(jù)的切塊及切片處理,向下鉆取了三維數(shù)據(jù)表,顯示出影響交通安全的因素主要來(lái)自機(jī)動(dòng)車(chē),在機(jī)動(dòng)車(chē)分類(lèi)中駕駛?cè)顺蔀橹饕蛩?,而且形成交通事故因素為超速駕駛和逆向行駛,在最后我們利用經(jīng)濟(jì)計(jì)量視圖軟件Eviews對(duì)全國(guó)交通事故進(jìn)行了三年的預(yù)測(cè)分析,通過(guò)間接代換方法進(jìn)行預(yù)測(cè),結(jié)論符合非線性對(duì)數(shù)函數(shù)模型,符合預(yù)測(cè)分析要求。預(yù)測(cè)發(fā)現(xiàn)在未來(lái)三年隨著時(shí)間的推移,交通事故發(fā)生數(shù)量在逐漸縮短,同時(shí)傷亡和死亡數(shù)量也呈下降趨勢(shì)。
參考文獻(xiàn)(References)
[1] GUO Hongling,QIAO Ting,SONG Xiaojiao,et al.The Application of Inductively Coupled Plasma Mass Spectrometry in Trace Evidence Examination[J/OL].刑事技術(shù),2016(06):470-475.
[2] 《中國(guó)公路學(xué)報(bào)》編輯部.中國(guó)交通工程學(xué)術(shù)研究綜述2016[J].中國(guó)公路學(xué)報(bào),2016,29(06):159-161.
[3] PEI Yu-long,MA Ji.Countermeasures for traffic accidents due to road conditions in China[J].Journal of Harbin Institute of Technology,2005,12(4):358-364.
[4] 惠寶鋒,管慶春.物聯(lián)網(wǎng)分布式數(shù)據(jù)庫(kù)系統(tǒng)優(yōu)化研究[J].無(wú)線互聯(lián)科技,2016(06):14-15.
[5] 許劭慶,馬彪,安海英.基于數(shù)據(jù)挖掘的網(wǎng)管告警處理方法研究[J].軟件工程,2016,19(12):17-19;9.
[6] 章胤,趙文慧,包恒玥,等.基于k-means和關(guān)聯(lián)度分析的網(wǎng)絡(luò)招聘信息數(shù)據(jù)挖掘[J].軟件工程,2017,20(05):10-14.
[7] 王元卓,賈巖濤,劉大偉,等.基于開(kāi)放網(wǎng)絡(luò)知識(shí)的信息檢索與數(shù)據(jù)挖掘[J].計(jì)算機(jī)研究與發(fā)展,2015,52(02):456-474.
[8] 張亞軍,劉宗田,周文.基于深度信念網(wǎng)絡(luò)的事件識(shí)別[J].電子學(xué)報(bào),2017,45(06):1415-1423.
作者簡(jiǎn)介:
惠寶鋒(1977-),男,碩士,講師.研究領(lǐng)域:信息管理與信息系統(tǒng),大數(shù)據(jù)基礎(chǔ)應(yīng)用.
馮桂蓮(1979-),女,碩士,副教授.研究領(lǐng)域:軟件工程,圖像處理.
王詠寧(1971-),男,碩士,副教授.研究領(lǐng)域:虛擬儀器技術(shù)及應(yīng)用.