• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于聚類分析的水上交通事故影響因素研究

      2022-06-24 13:07:30張慶年葉夢雯
      關(guān)鍵詞:類別交通事故聚類

      張慶年,張 瑨,楊 杰,楊 嬌,葉夢雯

      (1. 武漢理工大學(xué) 交通學(xué)院,湖北 武漢 430063; 2. 武漢理工大學(xué) 信息工程學(xué)院,湖北 武漢 430070)

      0 引 言

      由于水路運輸具有低成本、運能大、節(jié)能環(huán)保、通用性強等優(yōu)點,水路運輸所需船舶總量日益增大,水上交通安全事故頻發(fā)。水上交通事故受自然環(huán)境、通航環(huán)境、船員、管理等諸多因素的影響,盡管海事部門通過實施一系列的公約和規(guī)則來降低和防范水上交通事故的發(fā)生,但事故仍時有發(fā)生[1]。由于水上交通遠離陸地,一旦發(fā)生事故往往會造成很嚴重的后果。因此探究水上交通事故嚴重程度的主要影響因素,有利于減少重大事故的發(fā)生。

      目前,國內(nèi)外學(xué)者運用不同的方法從不同的角度對交通事故進行了一系列廣泛而深入的研究。WENG Jinxian等[1-2]利用零膨脹負二項回歸模型,在全球水域和中國南海水域事故數(shù)據(jù)的基礎(chǔ)上,探究了事故嚴重度與天氣、事故位置、船型等因素之間的關(guān)系;W.K.TALLEY等[3]利用Tobit模型,識別了船舶漏油事故的主要影響因素;JIN Di等[4]利用Probit模型,探究了漁船事故嚴重度與天氣、風(fēng)速、船齡等因素之間的關(guān)系;陳興偉等[5]利用結(jié)構(gòu)方程模型探究了水上交通事故與事故等級之間的路徑關(guān)系;吳琴等[6]利用有序概率模型,識別了對海事事故嚴重性有影響的因素及其影響程度;汪飛翔等[7]利用基于支持向量分類模型,對水上交通事故的嚴重程度進行了預(yù)測;馮忠祥等[8]利用Logistic模型研究公路交通事故嚴重程度影響因素。

      研究發(fā)現(xiàn),以上所有對于交通事故影響因素分析的方法,無法反映事故數(shù)據(jù)的異質(zhì)性,可能導(dǎo)致模型參數(shù)估計產(chǎn)生錯誤。對此,XIE Yuanchang等[9]利用過程簡單且無需假設(shè)參數(shù)分布的潛在類別模型,研究了公路單車事故的影響因素,并通過不同類別事故影響因素的差別反映了數(shù)據(jù)的異質(zhì)性。而潛在類別模型假定了自變量之間沒有相關(guān)性,與事故影響因素分析不相符,從而導(dǎo)致假設(shè)無法被滿足,可能造成分類時誤差增大,數(shù)目增加,且部分缺乏實際意義。同時,當(dāng)前對于水上交通事故影響因素識別的研究已經(jīng)有很多,然而,目前國內(nèi)缺少針對水上交通事故嚴重程度影響因素的深入分析。

      鑒于此,筆者同時考慮事故數(shù)據(jù)的異質(zhì)性及嚴重程度影響因素的相關(guān)性,采用因子分析與K均值聚類相結(jié)合的聚類方法對水上交通事故嚴重程度影響因素進行分析。首先,利用因子分析法將多個自變量轉(zhuǎn)化為少數(shù)幾個相互獨立的因子,即將相互關(guān)聯(lián)的自變量消除相關(guān)性[10]。然后,依據(jù)因子得分,采用K均值聚類算法聚類事故數(shù)據(jù)[11],將事故數(shù)據(jù)分類。最后,采用Logistic模型對分類后的數(shù)據(jù)建立嚴重程度模型,識別影響水上交通事故嚴重程度的主要因素,并對不同類別下識別出的因素進行對比。

      1 研究方法

      1.1 因子分析

      因子分析是一種減少分析變量從而形成清晰的分析維度的統(tǒng)計方法。簡單的削減變量一定會導(dǎo)致信息的丟失,而因子分析不是簡單的削減,它是一種能有效降低變量維數(shù)的方法[12]。

      假設(shè)存在n起水上交通事故,每起事故由p個自變量表示。首先,由于初始事故數(shù)據(jù)具有量綱差異,采用z-score法對事故數(shù)據(jù)進行歸一化[13],該方法是利用均值和標準差進行歸一化:

      (1)

      為了驗證數(shù)據(jù)是否適宜進行因子分析,通常采用KMO(kaiser meyer olkin)檢驗和Bartlett球形檢驗兩種方法[14]。KMO值較小,在0~1之間,一般大于0.5適宜進行因子分析。Bartlett檢驗是檢驗各個變量是否具有相關(guān)性,當(dāng)統(tǒng)計量卡方值顯著性水平小于0.01時,可認為各變量之間相關(guān)性顯著,可以使用因子分析[14]。

      然后,根據(jù)標準化后的事故數(shù)據(jù),將原有的變量用m個公共因子的線性組合來表示[10],其模型為:

      (2)

      式(2)也可用矩陣的形式表示為X=AF+ε,其中:F為公共因子矩陣;fl彼此不相關(guān);A為因子荷載矩陣;ajl為因子荷載,是第j個原有變量在第l個因子上的荷載;ε為特殊因子矩陣。

      采用主成分法求解因子荷載矩陣A,求解其特征值λj和其特征向量uj,提取特征值大于1且個數(shù)為m的公共因子,得到矩陣A為:

      (3)

      然后,對荷載矩陣作方差最大化正交旋轉(zhuǎn),采用最小二乘意義上的回歸法估計因子值系數(shù)wjl[10,15]。第l個因子得分函數(shù)為:

      Fl=w1lx1+w2lx2+…+w3lxj+…+wplxp

      (4)

      因此,第i起事故的得分向量可記為Fi=(Fi1,Fi2,…,Fil,…,Fim)。

      1.2 K均值聚類

      K均值聚類[16](K-means)算法是一種非監(jiān)督分類方法,相對于分層聚類,其計算量少、占用內(nèi)存少且處理速度快。K均值聚類又稱逐步聚類法或快速聚類法,其先把聚類對象進行粗糙的初始分類,然后再按最近距離原則修改初始分類中不合理的部分,直到合理為止。

      依據(jù)1.1節(jié)所得到的n起事故的因子得分向量組成的數(shù)據(jù)集,繼續(xù)采用K均值聚類算法聚類水上交通事故數(shù)據(jù),具體流程如下[13,17]:

      1)從n起事故中隨機選取k個樣本作為初始聚心(z1,z2,…,zk),根據(jù)實際情況選擇分類數(shù)和迭代次數(shù)。

      2)利用式(5)計算任意Fi到第v(1≤v≤k)個聚心zv的歐式距離d(i,v),然后根據(jù)距離最近原則進行分類。

      (5)

      3)利用平均數(shù)法,基于式(6)計算各類別新的聚心z′v:

      (6)

      式中:Cv為第v個聚心對應(yīng)的類別;Nv為類別Cv對應(yīng)的樣本量。

      4)當(dāng)模型的迭代量等于指定次數(shù)或聚心的改變很小,則迭代結(jié)束。

      對于聚類數(shù)目,采用聚類有效性評價指標θ和二項Logistic回歸模型的最小樣本量來確定最佳的聚類數(shù)目,在滿足回歸模型最小樣本量的前提下,θ值越小,則聚類的效果越好[13,18]。

      (7)

      (8)

      式中:s1為樣本與聚心的距離之和;s2(zi,zo)為聚心zi與聚心zo之間的距離;zo為類別o的聚心;hoi為樣本Fi屬于類別Co的隸屬度。

      1.3 Logistic回歸

      二項Logistic回歸是指因變量是二級評分或二級評定的回歸分析。該模型的相應(yīng)變量Y為二分類變量,通常取值為1或0,其中,1表示事件發(fā)生,0表示事件未發(fā)生[19]。

      根據(jù)得到的各類別水上交通事故數(shù)據(jù),對事故數(shù)據(jù)建立二項Logistic分類模型[13,20]。當(dāng)事故為嚴重事故時,因變量為1,則嚴重事故的發(fā)生概率為:

      (9)

      式中:xq(q=1,2,…,Q)為第q個自變量;βq為回歸系數(shù);β0為常數(shù)項。

      2 數(shù) 據(jù)

      2.1 數(shù)據(jù)來源

      文中水上交通事故數(shù)據(jù)的原始資料分別來自中國海事局和江蘇、上海、浙江海事局官網(wǎng),研究區(qū)域為江浙滬近海水域。由于2014年頒布了新的水上交通事故統(tǒng)計辦法,筆者使用2015年及以后的數(shù)據(jù),共搜集到2015—2019年公開發(fā)布的事故調(diào)查報告339份。

      2.2 數(shù)據(jù)處理

      由于搜集到的事故調(diào)查報告內(nèi)容和格式不一致,為了得到完整一致的事故數(shù)據(jù),必須對事故調(diào)查報告進行整理,并通過查詢相關(guān)的天氣、船舶、潮汐等,盡量補充缺失信息。

      根據(jù)上訴數(shù)據(jù)處理,得到滿足研究要求的完備事故樣本403個,其中完整事故為299起。由于碰撞會涉及兩艘船舶,將每艘船舶都作為一個事故樣本[21],則屬于小事故,一般事故、較大事故,重大事故,特別重大事故的樣本量分別為37、251、81、28、6個。

      2.3 事故變量集構(gòu)建及賦值

      2015年頒布的《水上交通事故統(tǒng)計辦法》將水上交通事故劃分為5個等級。依據(jù)筆者搜集到的事故級別的數(shù)量及模型要求,將嚴重程度量化為兩個等級:{小事故,一般事故}=“0”,{較大事故,重大事故,特別重大事故}=“1”。

      同時由于搜集到的事故數(shù)據(jù)較少,且模型在樣本量一定的情況下對自變量有限制,筆者以先前關(guān)于水上交通事故影響因素的研究為基礎(chǔ),參照文獻[2,6,7],同時結(jié)合事故統(tǒng)計數(shù)據(jù)特征,剔除對事故影響相對較小的因素,最后從人、船舶、環(huán)境、事故自身等方面選取了對江浙滬近海水域事故有著顯著影響的10個自變量,各個變量的具體賦值及其含義如表1。

      表1 各變量賦值及其含義Table 1 Assignment of each variable and its meaning

      3 水上交通事故數(shù)據(jù)聚類結(jié)果

      3.1 基于因子分析的自變量相關(guān)分析結(jié)果

      對標準化后的水上交通事故數(shù)據(jù)進行KMO和Bartlett檢驗。結(jié)果表明,KMO的值為0.534,Bartlett統(tǒng)計量的顯著值為0.000,說明自變量之間無較強獨立性,適宜進行因子分析。運用方差貢獻法提取主因子,其中前5個因子特征值大于1,且累計貢獻率為66.874%,即用這5個公共因子代表10個自變量。主因子名稱為荷載大于0.5的重要自變量,如表2。表3為旋轉(zhuǎn)后的因子荷載矩陣,自變量中荷載值較大的主成分與變量的關(guān)系更為緊密[22]。

      表2 主因子及其自變量Table 2 Main factors and their independent variables

      表3 因子得分系數(shù)矩陣Table 3 Factor score coefficient matrix

      3.2 事故數(shù)據(jù)聚類分析

      根據(jù)因子分析得到的主因子得分,使用K均值聚類對事故數(shù)據(jù)進行聚類。采用1.2節(jié)所提到的聚類有效性指標θ值來確定聚類數(shù)目,如表4。由表4可知,k值越大,對應(yīng)的θ值越小。但由于k=4、5時,樣本量不足100,不滿足二項Logistic回歸最小樣本量為自變量個數(shù)5~10倍以上的要求[13]。當(dāng)k=3時,所有的類別樣本量均滿足最小要求。因此,事故數(shù)據(jù)最多可劃分為3個類別。

      表4 聚類數(shù)目及其θ值Table 4 Number of clusters and their θ values

      提取各類別中數(shù)量較高的自變量作為事故特征,如表5。

      表5 事故類別特征及事故數(shù)Table 5 Characteristics of accident types and the number of accidents

      4 事故嚴重程度模型分析結(jié)果

      4.1 Logistic回歸模型檢驗

      對事故數(shù)據(jù)進行二項Logistic回歸分析,將事故的嚴重程度作為因變量,其他因素作為自變量,設(shè)置剔除變量的顯著性水平α=0.05,則高于0.05顯著性水平的自變量會被剔除,最終分別鑒別出各類事故中對嚴重程度有顯著影響的因素。

      同時,為了比較筆者提出的聚類分析優(yōu)化二項Logistic模型和潛在類別下的二項Logistic模型的優(yōu)

      劣,利用受試者工作特性曲線ROC(receiver operating characteristic)下的面積AUC(area under curve)來比較模型的準確識別率。AUC越大,則模型的識別準確性越高[23]。然后采用模型的預(yù)測正確率比較模型的預(yù)測精度[13],如表6。

      表6 模型驗證結(jié)果Table 6 Model verification results

      由表6可知,聚類分析模型的AUC值大于潛在類別的AUC值,且前者的預(yù)測正確率也比后者要高。

      4.2 事故嚴重程度模型結(jié)果分析

      筆者采用聚類分析模型對事故數(shù)據(jù)進行分析(表7),進而探究不同類別下影響水上交通事故嚴重程度的主要因素。

      表7 聚類優(yōu)化回歸分析結(jié)果Table 7 Cluster optimization regression analysis results

      由分析結(jié)果可知:

      1)季節(jié)、事故致因、船舶歸屬、能見度、風(fēng)僅在某一類別中顯著。

      季節(jié)僅在類別3中顯著,其中夏天發(fā)生嚴重事故的概率是冬天的425.947倍,且大于秋天的倍數(shù),表明夏天對事故嚴重程度的影響最為明顯,秋天次之。其主要原因是夏季和秋季容易遭遇大風(fēng)和濃霧,惡劣的天氣會影響搜救。

      船舶歸屬僅在類別2中顯著,其中私營企業(yè)發(fā)生嚴重事故的概率為個人的3.064倍,而中央企業(yè)發(fā)生嚴重事故的系數(shù)為負值,則個人和私營企業(yè)均較容易發(fā)生嚴重事故,這是由于個人、私營企業(yè)與國營單位相比,其安全管理意識不足、管理措施較少。

      事故致因僅在類別3中顯著。人為致因發(fā)生嚴重事故的概率為貨物致因的0.000倍,人為因素對嚴重事故的影響比非人為的貨物致因要小。

      能見度僅在類別3中顯著。4~6級能見度發(fā)生嚴重事故的概率是能見度大于等于7級的58.342倍,能見度不良的情況下比能見度良好的情況更容易發(fā)生嚴重事故。

      風(fēng)僅在類別1中顯著。風(fēng)力等級為6~7級發(fā)生嚴重事故的概率為大于等于10級的21.374倍,則風(fēng)力中等時發(fā)生嚴重事故的概率比風(fēng)力極大時發(fā)生嚴重事故的概率要大,可能原因是風(fēng)力極大時,在航行狀態(tài)的船舶較少。

      2)時間段、船舶類型、總噸、天氣在兩個及以上類別中顯著。

      時間段0:00—4:00發(fā)生嚴重事故的概率是時間段20:00—24:00的2.032倍,而其他時間段的系數(shù)均為負值,表明夜間比白天更容易發(fā)生嚴重事故[24]。

      船舶類型中,與其他船舶相比,漁船發(fā)生嚴重事故概率的倍數(shù)最大,散貨船、集裝船、油船、客渡船的系數(shù)也均為正值,表明漁船對嚴重事故的影響最為明顯,其原因可能是漁船安全技能不過關(guān)、安全意識淡薄、安全相關(guān)設(shè)施設(shè)備較差等。

      總噸在類別1中和類別3中系數(shù)的正負值不一樣,在類別1中,500~2 000 t的系數(shù)為負值,表明在類別1中,不小于6 000 t的船舶更容易發(fā)生嚴重事故。相反,在類別3中噸數(shù)較小的船舶更容易發(fā)生嚴重事故。這是由于碰撞事故中,兩條船舶為兩個樣本,而船舶噸數(shù)大和小均容易發(fā)生嚴重事故。

      天氣在3個類別中均為負值,則表明,與晴天相比,在非晴天更容易發(fā)生嚴重事故,原因是非晴天氣象條件較差,惡劣天氣更會顯著增加嚴重事故發(fā)生的概率。

      4.3 水上交通安全改善對策

      根據(jù)模型分析結(jié)果,就江浙滬近海水域而言,環(huán)境因素對水上交通事故的影響顯著,夏季和秋季、能見度不良、大風(fēng)、非晴天等會增加嚴重事故的發(fā)生概率。建議建立惡劣氣候下的事故預(yù)防及響應(yīng)機制,通過實施極端天氣及時預(yù)報、安全監(jiān)管、迅速救援等措施來降低事故嚴重程度。

      對于事故致因分析,人為致因是水上交通事故發(fā)生的主要原因,但貨物致因更容易導(dǎo)致嚴重事故的發(fā)生。建議加強船員綜合素質(zhì),全面提高其應(yīng)對突發(fā)事件的處理能力,包括其業(yè)務(wù)能力及心理能力,同時強化船舶裝載貨物監(jiān)管力度,重點監(jiān)控載運重大件及卷鋼船舶。

      船舶歸屬中,與國營企業(yè)相比,個人船舶、私營企業(yè)船舶更容易發(fā)生嚴重事故。船舶類型中,漁船比其他類型的船舶更容易發(fā)生嚴重事故。建議督促私營企業(yè)健全安全配置與人員配置,加大海事執(zhí)法力度,同時加強漁業(yè)從業(yè)人員的技能培訓(xùn)及安全意識,建立漁船與商船航行信息共享機制。

      5 結(jié) 論

      1)基于聚類分析的Logistic回歸模型與潛在類別的Logistic回歸模型相比,回歸結(jié)果更優(yōu),此模型可用于各種類型交通事故嚴重程度的分析。

      2)水上交通事故數(shù)據(jù)分為3個類別。季節(jié)、事故致因、船舶歸屬、能見度、風(fēng)僅在某一類別中顯著;時間段、船舶類型、總噸、天氣在多個類別中顯著,其中總噸在多個類別中顯著但影響方向不同。結(jié)果表明,上述變量對水上交通事故嚴重程度的影響具有差異性。

      3)文中數(shù)據(jù)樣本量較小,所以考慮的影響因素較少,同時有些因素在既有研究中顯著,但是在文中未通過顯著性檢驗。下一步可擴大數(shù)據(jù)量和影響因素,進一步探究水上交通事故嚴重程度的影響因素。

      猜你喜歡
      類別交通事故聚類
      不同尋常的交通事故
      預(yù)防交通事故
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      一起高速交通事故院前急救工作實踐與探討
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      基于改進的遺傳算法的模糊聚類算法
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      鄄城县| 应城市| 女性| 临猗县| 满城县| 五原县| 尤溪县| 叙永县| 湘西| 浏阳市| 巫山县| 湖南省| 马鞍山市| 田林县| 咸丰县| 黎川县| 颍上县| 托克逊县| 阳城县| 射洪县| 新巴尔虎左旗| 孝感市| 红安县| 钦州市| 手游| 朝阳区| 观塘区| 二手房| 合作市| 武威市| 剑川县| 乐昌市| 天门市| 贵溪市| 应用必备| 桓台县| 蛟河市| 临泉县| 洪泽县| 中宁县| 逊克县|