李英杰,李晉宏
(北方工業(yè)大學(xué) 計算機學(xué)院,北京 100144)
路口交通數(shù)據(jù)的分析與挖掘研究
李英杰,李晉宏
(北方工業(yè)大學(xué) 計算機學(xué)院,北京 100144)
交叉路口是道路的樞紐, 影響道路暢通的瓶頸。本文以相鄰的兩個交叉路口作為研究對象, 分析挖掘相鄰路口之間的歷史交通數(shù)據(jù),同時構(gòu)建多元線性回歸的模型對兩路口之間的車流量進行預(yù)測。研究結(jié)果表明,相比只考慮車流量的單因素預(yù)測基礎(chǔ)上加入限號、天氣因素能更加準確地預(yù)測未來5到15分鐘的車流量。
數(shù)據(jù)挖掘,數(shù)據(jù)分析,多元線性回歸,交通流預(yù)測
隨著大中型城市人口和私家車的數(shù)量不斷增加,交通擁擠現(xiàn)象越來越嚴重。在有限的城市道路基礎(chǔ)上,方便快捷的出行日益成為人們關(guān)心的問題。很多城市都在大力發(fā)展智能交通系統(tǒng)(Intelligent Transportation System,ITS),將其作為解決城市車路矛盾的重要途徑之一,也因此提出了很多智能預(yù)測模型如:ARIMA[1]、神經(jīng)網(wǎng)絡(luò)[2]、非參數(shù)回歸模型[3]等。其中對交通影響較大的莫過于交通路口,它是城市道路的主要交通節(jié)點,也是城市道路交通流匯集、交匯、混雜的瓶頸之處,日常交通堵塞和事故大部分與其有關(guān)[4]。一個交通路口出現(xiàn)擁堵情況,與其相連的交通干線以及交叉口都會受到相應(yīng)的影響,所以交通路口在整個交通體系中扮演“牽一發(fā)而動全身”的角色。而影響交通路口的主要因素是兩路口之間的車流量,所以能準確的預(yù)測出兩路口之間的車流量對于解決擁擠現(xiàn)象具有很大的現(xiàn)
實意義。
一般描述交通流特征的三個參數(shù)是:交通量、速度和密度[5]。
三者的關(guān)系為:F =V*D。其中F為平均流量(輛/ h),V為空間平均車速(km/h),D為平均車流密度(輛/km)。速度和密度反映交通流從道路獲得的服務(wù)質(zhì)量,而交通量可度量車流的數(shù)量和交通設(shè)施的需求狀況。三個參數(shù)是交通流最基本的度量指標,其變化規(guī)律反映交通流的基本性質(zhì)。
交通流預(yù)測一般分為:長期交通流預(yù)測、中期交通流預(yù)測、短期交通流預(yù)測。
本文主要采用短期交通流預(yù)測,其中短期交通預(yù)測一般以分鐘(5到15分)作為時間單位,大部分用于道路交通的實時控制和誘導(dǎo),如交通信號燈的控制策略、主干道的綠波控制以及輔助發(fā)布交通誘導(dǎo)信息。
表1 數(shù)據(jù)樣例1
表2 數(shù)據(jù)樣例2
本文的數(shù)據(jù)來源于北京市2015年1月到2月河陰西路口、湖光北街西口和望京西路南湖中園路口(整體三路口為南北方向一條線連通,首先是河蔭西路口為十字路口,中間是湖光北街西口為丁字路口,最后是望京西路南湖中園路口為十字路口)的交通歷史數(shù)據(jù),包括兩類車輛數(shù)據(jù),第一類數(shù)據(jù)是由監(jiān)控設(shè)備間隔一分鐘拍攝的車輛信息,其中有效字段包括:車牌號、通行時間(年月日時分秒)等。第二類數(shù)據(jù)是經(jīng)過設(shè)備初步處理過的車輛信息,其中有效字段包括:日期時間(年月日時)、占有率、流量、速度等,兩類數(shù)據(jù)都記錄了東、西、南、北四個方向的車輛記錄。數(shù)據(jù)樣例如下表所示:
2.1 數(shù)據(jù)處理
針對原始數(shù)據(jù)存在的噪聲數(shù)據(jù)例如重復(fù)數(shù)據(jù):同一車輛記錄好幾條,無效數(shù)據(jù):與實際情況存在很大偏差的,由于機器本身原因造成的錯誤數(shù)據(jù)等[6]。本文采用基于Hadoop平臺之上的Hive進行篩選有效數(shù)據(jù),對第一類數(shù)據(jù)主要是獲取在同一個方向上出現(xiàn)在相鄰路口的車輛數(shù)據(jù),就本文的數(shù)據(jù)以及相對應(yīng)的路口實際位置而言,主要獲取南北方向上的車輛信息,因第一類數(shù)據(jù)中有效字段包括車牌號、車輛出現(xiàn)在該路口的時間,無法確定其中的拐彎車,所以需要把在同一時間段內(nèi)一個路口四個方向的所有車輛進行綜合,通過設(shè)定時間段范圍篩選出同時出現(xiàn)在相鄰路口的車輛記錄。對第二類數(shù)據(jù)處理工作是去掉重復(fù)記錄以及不符合實際情況數(shù)據(jù)記錄。
2.2 數(shù)據(jù)分析
對第一類數(shù)據(jù)的處理分析得到結(jié)果與第二類經(jīng)過初步處理的數(shù)據(jù)進行對比,對篩選數(shù)據(jù)的合理性進行再驗證,找出差異性較大的問題再進行相應(yīng)處理。第一類數(shù)據(jù),就同一日東、南、西、北四個路口(間隔1 min,記錄時間為00:00—23:59)的交通流量進行統(tǒng)計分析,根據(jù)路口每日(本文采用2015年2月共28天的數(shù)據(jù))的交通流求和取平均值,統(tǒng)計各路口每個方向上每小時車流量,分析結(jié)果如表3所示:
表3 樣例一數(shù)據(jù)分析表
通過以上數(shù)據(jù)看出三個路口東西方向車流量相對較少在這里不作為主要的研究對象,南北方向總體車流量大,可以推測南北方向是主干道,對于交通的誘導(dǎo)控制要多加研究來盡量避免擁堵情況、意外情況的發(fā)生。望京西路南湖中園的總車流量要大于其它兩路口的,說明此路口發(fā)生擁堵的可能性更大一些。由于湖光北街是丁字路口朝東方向的車輛大多來自河蔭西路口和望京西路南湖中園路口兩個路口的拐彎車,所以此方向上的車流量的增加或減少與相鄰路口的同時增加或減少有很大關(guān)系。整體三個路口的車流量結(jié)合路口的實際地理位置來看南北方向相鄰路口之間的車流量存在一定的關(guān)聯(lián)。第二類數(shù)據(jù)分析發(fā)現(xiàn),針對有效字段車流量(flow)來看三個路口從1月到2月份的每一天的歷史數(shù)據(jù)有一個共同的特性(如圖1所示):車流量每天從7:00左右到9:00左右達到第一個峰值,到13:00左右有一定的回落,之后從17:00左右車流量開始增多到18:00左右達到第二個峰值。每天的兩個峰值區(qū)幾乎都在8:00-11:00和17:00-20:00時間段內(nèi),因此要保證峰值段道路暢通,避免擁擠、交通事故的發(fā)生就需要做出相應(yīng)的交通誘導(dǎo)控制。同時在三個路口車流量增加的同時車速都在相應(yīng)減少,占有率在相應(yīng)增加,也反映出車流量在一定條件下與速度呈現(xiàn)反比關(guān)系與占有率成正比關(guān)系。
圖1 流量時間圖
3.1 多元線性回歸基本概念
基本原理和計算過程與一元線性回歸相同,如果有兩個或兩個以上的自變量,就稱為多元線性回歸(Multivariate linear regression)[10]。一個問題是與多個因素條件相聯(lián)系的,由多個自變量的最優(yōu)組合共同來預(yù)測或估計因變量,比只用一個自變量進行預(yù)測或估計更有效,更符合實際。因此多元線性回歸比一元線性回歸的實用意義更大。
3.2 多元回歸模型車流量預(yù)測
通過對數(shù)據(jù)的分析兩個相鄰路口中間路段的車流量直接影響路口交通情況,同時也是誘導(dǎo)控制依據(jù)的關(guān)鍵[9]。本文采用多元線性回歸模型對湖光北街西口和望京西路南湖中園口中間路段的車流量進行預(yù)測,一個方向的車流量顯然受其它三個或兩個方向(丁字路口)方向的車流量的影響。上文以對數(shù)據(jù)進行單方向車流量處理,所以在這里可以排除其它三個方向的影響,直接考慮預(yù)測方向上的單方向車流量。
F(t+1)=G(f(t),f(t-1),L,W)其中F(t+1)表示下一個5分鐘的車流量,f(t),f(t-1)分別為前兩個五分鐘內(nèi)的車流量,L表示限號,W表示天氣情況,G(x)為預(yù)測函數(shù)。
實驗選取出現(xiàn)峰值左右的8:00-11:00和17:00-20:00兩個時段,實驗選擇2月3目至2月25日為訓(xùn)練樣本,2月26日至2月28日為評估樣本。如下表4所示:
表4 實驗數(shù)據(jù)
通過以上數(shù)據(jù)訓(xùn)練出來的預(yù)測模型:偏相關(guān)系數(shù)達到0.65左右說明對預(yù)測結(jié)果作用明顯,復(fù)相關(guān)系數(shù)達到0.45左右,說明線性回歸效果良好。總結(jié)來看交通數(shù)據(jù)采用多元線性回歸模型來預(yù)測交通流量效果良好,在加入限號和天氣的因素下正確率提高4%左右。所以在輔助交通的誘導(dǎo)控制和優(yōu)化信號配時方案的作用方面有很大幫助。
本文在充分分析交通流和多元回歸模型特點的基礎(chǔ)上,提出了基于多元線性回歸模型預(yù)測交通流量的方法,在傳統(tǒng)的多元回歸模型基礎(chǔ)上加入限號與天氣因素,提高了預(yù)測的準確率。同時考慮到相鄰路口之間車流量對實際交通所帶來的影響不單純就本文提出的因素,所以對于本文提出的算法還有很多可以修改的地方,在今后的工作學(xué)習(xí)中進一步完善提高。對于今后我們還需要深入研究交叉口交通以及交叉口與相鄰交叉口之間的影響同時在建模方面也需要深入研究與實驗,以此來達到更加令人滿意的結(jié)果。
參考文獻
[1] 宋子房. 公路短時車流量預(yù)測模型研究[J]. 科學(xué)決策. 2014(04). SONG Z W. Research on short term traffic forecasting model of highway[J]. scientific decision making, 2014(4). (in Chinese).
[2] 郇洪江, 宮寧生, 胡斌. 改進的BP神經(jīng)網(wǎng)絡(luò)在交通流量預(yù)測中應(yīng)用[J]. 微電子學(xué)與計算機. 2010(01). HUAN H J, GONG N S, HU B. Application of improved BP neural network in prediction of traffic volume[J]. Microelectronics and computer. 2010(01). (in Chinese).
[3] 周桐, 楊智勇, 孫棣華, 魏方強. 分車型的高速公路短時交通流量預(yù)測方法研究[J]. 計算機應(yīng)用研究, 2015, 07: 1996-1999. ZHOU T, YANG Z Y, SUN L H. Research on short term traffic flow forecasting method of sub models[J]. computer application research, 2015, 07: 1996-1999. (in Chinese).
[4] 廖曉強. 城市道路平面交叉口交通組織與渠化設(shè)計研究[D]. 南京林業(yè)大學(xué), 2013. LIAO X Q. Study on traffic organization and design of urban road intersections[D]. Nanjing Forestry University, 2013. (in Chinese).
[5] 傅貴. 城市智能交通動態(tài)預(yù)測模型的研究及應(yīng)用[D]. 華南理工大學(xué), 2014. FU G. The research and application of the dynamic prediction model of urban intelligent traffic[D]. South China University of Technology, 2014. (in Chinese).
[6] 許子鑫. 基于支持向量機回歸的短時交通流預(yù)測研究與實現(xiàn)[D]. 華南理工大學(xué), 2012. XU Z X. Research and implementation of short term traffic flow forecasting based on support vector machine regression[D]. South China University of Technology, 2012. (in Chinese)
[7] 張景陽, 潘光友. 多元線性回歸與BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型對比與運用研究[J]. 昆明理工大學(xué)學(xué)報自然科學(xué)版, 2013(6): 61-67. ZHANG J Y, PAN G Y. Comparison and application of multiple linear regression and BP neural network prediction model[J]. Journal of Kunming University of Science and Technology, Natural Science Edition, 2013(6): 61-67. (in Chinese).
[8] 徐偉, 劉廣應(yīng). 多元線性回歸分析中慎用偏最小二乘法[J].統(tǒng)計與決策, 2014(24): 90-92. XU W, LIU G Y. Multiple linear regression using partial least squares[J]. statistics and decision analysis, 2014(24): 90-92. (in Chinese).
[9] 曹潔, 李振宸. 相鄰交叉路口神經(jīng)網(wǎng)絡(luò)模糊協(xié)調(diào)控制的研究[J]. 工業(yè)儀表與自動化裝置, 2011(2): 101-103. CAO J, LI Z C. Study on Fuzzy coordinated control of adjacent intersection neural network[J]. industrial instrumentation and automation device, 2011(2): 101-103. (in Chinese).
Analysis and Data Mining of Intersection Traffic Data
LI Ying-jie, LI Jin-hong
(College of Computer ,North China University of Technology, Beijing 100144, China)
Intersection is the key of the road, and the bottleneck of the road is affected. In this paper, we take two adjacent intersections as the research objects, and analyze the historical traffic data between adjacent intersections, while building a multiple linear regression model to predict the traffic flow between the two intersection. Research results show that compared to only consider the single factor based on the traffic flow to add a limited number, weather factors can more accurately predict the traffic flow of next 5 to 15 minutes.
Data Mining; Data Analysis; Multivariate Linear Regression; Traffic Flow Forecasting
TP399
A
10.3969/j.issn.1003-6970.2017.01.028
李英杰(1986-),男,北方工業(yè)大學(xué),研究生,研究方向:數(shù)據(jù)挖掘;李晉宏(1965),男,北方工業(yè)大學(xué),教授,研究方向:數(shù)據(jù)挖掘。
本文著錄格式:李英杰,李晉宏. 路口交通數(shù)據(jù)的分析與挖掘研究[J]. 軟件,2017,38(1):131-134