張可,朱遠(yuǎn)祺,沈潔,楊子帆,錢慧敏,王貝貝
(1.北京市運(yùn)輸管理技術(shù)支持中心,北京 100073;2. 北京交通大學(xué) 軌道交通控制與安全國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100044;3. 北京市交通運(yùn)行監(jiān)測(cè)調(diào)度中心,北京 100073)
近年來(lái),隨著我國(guó)經(jīng)濟(jì)的飛速發(fā)展,城市化進(jìn)程加快,機(jī)動(dòng)車出行比例提高,為了緩解制約城市擴(kuò)張和經(jīng)濟(jì)發(fā)展的交通擁堵問(wèn)題,政府大力發(fā)展公共交通[1-4]。為全面貫徹城市公交優(yōu)先的政策,交通管理者需要掌握動(dòng)態(tài)公交數(shù)據(jù),深入了解公交運(yùn)行特征,才能把握居民的公交出行行為規(guī)律,評(píng)估公交運(yùn)行狀態(tài),制定科學(xué)的管理規(guī)劃政策。目前的公共交通大數(shù)據(jù)主要包括交通基礎(chǔ)路網(wǎng)數(shù)據(jù)、公交線網(wǎng)數(shù)據(jù)、車輛動(dòng)態(tài)運(yùn)行數(shù)據(jù)、用戶刷卡數(shù)據(jù)、公交運(yùn)營(yíng)調(diào)度數(shù)據(jù)等幾大類,這些數(shù)據(jù)是分析公交客流行為的基礎(chǔ),尤其是通過(guò)公交實(shí)時(shí)到站數(shù)據(jù),可以實(shí)現(xiàn)對(duì)乘客的刷卡行為分析[5-9],從而有效地鑒別和處理客流數(shù)據(jù)。
由于每天產(chǎn)生的公交數(shù)據(jù)眾多,數(shù)據(jù)缺失的現(xiàn)象并不少見(jiàn)。公交數(shù)據(jù)缺失直接影響對(duì)車輛的有效控制和對(duì)客流的細(xì)化分析,對(duì)規(guī)劃管理和科學(xué)決策造成極大的影響,但是目前對(duì)于公交缺失數(shù)據(jù)的填充和處理方法研究仍處于較不成熟階段,因此對(duì)公交缺失數(shù)據(jù)填充方法的進(jìn)一步探究是有必要的。公交數(shù)據(jù)的缺失主要由GPS數(shù)據(jù)的不穩(wěn)定性、GPS設(shè)備損壞、車輛狀態(tài)和信號(hào)的不穩(wěn)定性導(dǎo)致鑒于此,本文提出通過(guò)分析交通狀態(tài)的類型以及駕駛員和車輛的特點(diǎn),以車輛擁堵具有傳播效應(yīng)為前提假設(shè)[10-11],用其他路段、其他車輛的信息來(lái)模擬當(dāng)前車輛的方法來(lái)填充缺失的公交數(shù)據(jù)。該方法充分考慮缺失站點(diǎn)數(shù)據(jù)的影響因素,使填充數(shù)據(jù)可靠性提高。
公交到站數(shù)據(jù)是客流分析的底層數(shù)據(jù),主要包括基礎(chǔ)信息(數(shù)據(jù)記錄日期、到站時(shí)間、線路總車站數(shù))、站點(diǎn)信息(線路號(hào)、線路方向、站名、站序號(hào))、車輛信息(車輛編號(hào)、車輛狀態(tài)),詳見(jiàn)表1。
表1 公交到站數(shù)據(jù)說(shuō)明Table 1 Bus arrival data description
公交車輛在道路網(wǎng)絡(luò)的運(yùn)行狀態(tài)會(huì)受到車輛、道路、駕駛員、乘客、實(shí)時(shí)路況等各類因素的影響[5],具體可分為:(1)車輛因素。車輛的大小、能源動(dòng)力類型、車輛自身特性、GPS設(shè)備狀態(tài)等會(huì)對(duì)車輛的行駛產(chǎn)生影響。(2)道路因素。路面狀況、車道數(shù)、道路的等級(jí)和通行能力等都會(huì)對(duì)公交車運(yùn)行情況產(chǎn)生影響。(3)駕駛員因素。公交司機(jī)的駕駛習(xí)慣、駕駛熟練程度、加減速特性等原因可能對(duì)車輛的駕駛時(shí)間產(chǎn)生影響。(4)乘客因素。上下車乘客的數(shù)量及類型比例會(huì)影響公交的運(yùn)行。乘客數(shù)量較多時(shí),公交停站時(shí)間會(huì)大大增加;乘客數(shù)量較少時(shí),公交停站時(shí)間則會(huì)略少。當(dāng)上下車乘客中老年人居多時(shí),公交停站時(shí)間也會(huì)有所上升。(5)實(shí)時(shí)路況因素。在同一天的不同時(shí)段,公交的運(yùn)行情況會(huì)產(chǎn)生較明顯的規(guī)律性差異。例如在一天的早高峰和晚高峰時(shí)段,道路交通的擁堵將會(huì)導(dǎo)致運(yùn)行時(shí)間增加;工作日與非工作日,道路狀況也會(huì)發(fā)生動(dòng)態(tài)的變化,從而影響車輛運(yùn)行時(shí)間。
每日產(chǎn)生的公交數(shù)據(jù)數(shù)量大,且未經(jīng)處理的原始數(shù)據(jù)中存在一定的數(shù)據(jù)質(zhì)量問(wèn)題,公交 IC 卡刷卡和公交 GPS 數(shù)據(jù)在傳回的過(guò)程中,由于設(shè)備故障、信號(hào)中斷等問(wèn)題,傳回的數(shù)據(jù)存在一定的質(zhì)量缺陷。另外,原始數(shù)據(jù)中的噪聲數(shù)據(jù)、離群數(shù)據(jù)、重復(fù)數(shù)據(jù)等問(wèn)題會(huì)對(duì)數(shù)據(jù)分析的結(jié)果造成影響。公交數(shù)據(jù)存在的主要問(wèn)題有數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)等。
1.3.1 數(shù)據(jù)部分缺失
由于GPS 信號(hào)的接收容易受到高大建筑物、山體的影響,在隧道時(shí)還會(huì)出現(xiàn)信號(hào)中斷的情況,加之車輛狀態(tài)的不穩(wěn)定,易導(dǎo)致部分站點(diǎn)或乘客刷卡數(shù)據(jù)的缺失。部分?jǐn)?shù)據(jù)的缺失可以依靠缺失部分前后的交通狀態(tài)、前后車輛及路段和歷史運(yùn)行時(shí)刻表等進(jìn)行填充。
1.3.2 數(shù)據(jù)大量缺失
部分車輛的GPS設(shè)備故障或數(shù)據(jù)導(dǎo)入過(guò)程中的數(shù)據(jù)丟失會(huì)導(dǎo)致該車數(shù)據(jù)的大量缺失。與數(shù)據(jù)部分缺失不同,數(shù)據(jù)大量缺失難以依靠后期填充,所以需要重新根據(jù)GPS或者AFC(automatic fare collection system)補(bǔ)全。
1.3.3 數(shù)據(jù)重復(fù)
數(shù)據(jù)重復(fù)問(wèn)題主要由機(jī)械原因和人為原因?qū)е?。機(jī)械原因是由于機(jī)械因素導(dǎo)致的數(shù)據(jù)收集或保存的失敗造成的數(shù)據(jù)缺失,比如數(shù)據(jù)存儲(chǔ)的失敗、存儲(chǔ)器損壞、GPS設(shè)備故障導(dǎo)致某段時(shí)間數(shù)據(jù)未能收集(對(duì)于定時(shí)數(shù)據(jù)采集而言)。人為原因是由于人的主觀失誤、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失。
由于公交實(shí)時(shí)到站數(shù)據(jù)由每輛車的按時(shí)間排序的到站數(shù)據(jù)組成,其中不包含班次信息以及車輛運(yùn)營(yíng)信息。此外,數(shù)據(jù)中可能還存在不完整、噪聲、不一致等問(wèn)題。為了獲取車輛的班次,以及各個(gè)站點(diǎn)的到發(fā)時(shí)間,需要對(duì)原始的到站數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理、數(shù)據(jù)清理、數(shù)據(jù)篩選、數(shù)據(jù)生成等步驟。
(1)數(shù)據(jù)清理。刪除明顯不合理的運(yùn)營(yíng)數(shù)據(jù)。研究發(fā)現(xiàn),本研究所刪除的不合理的公交實(shí)時(shí)到站數(shù)據(jù)中,冗余的數(shù)據(jù)量約占1.2%;公交運(yùn)行數(shù)據(jù)中總運(yùn)營(yíng)時(shí)間小于平均時(shí)間的1/10,或者大于平均時(shí)間的10倍的數(shù)據(jù),約占0.4%。刪除的數(shù)據(jù)量較小,不影響后續(xù)的數(shù)據(jù)分析。
(2) 數(shù)據(jù)篩選。去除車輛長(zhǎng)時(shí)間停站,以及重復(fù)的到站數(shù)據(jù),保證處理后的數(shù)據(jù)具有唯一性,用于后續(xù)的公交實(shí)時(shí)到站數(shù)據(jù)處理。
(3) 數(shù)據(jù)生成。將不同類型的文件集成到統(tǒng)一的數(shù)據(jù)庫(kù),并按照到站時(shí)間和方向的時(shí)間和空間邏輯關(guān)系,設(shè)定合理規(guī)則生成車輛運(yùn)營(yíng)的班次,以及初始化的車輛運(yùn)行時(shí)刻表。對(duì)于到站時(shí)間不滿足前后時(shí)間邏輯的數(shù)據(jù)進(jìn)行剔除。這里,前后時(shí)間邏輯是指對(duì)于某輛公交車,第i個(gè)站的到達(dá)時(shí)間必須大于第i-1個(gè)站的到達(dá)時(shí)間,小于第i+1個(gè)站的到達(dá)時(shí)間。
針對(duì)公交實(shí)時(shí)到站缺失數(shù)據(jù)的補(bǔ)充方法,主要以近鄰填充法、線性插值法和均值常量填充法為主。近鄰填充法主要是通過(guò)選定缺失點(diǎn)相鄰的3個(gè)或多個(gè)站點(diǎn),根據(jù)這些相鄰站點(diǎn)所提供的相關(guān)信息,對(duì)缺失點(diǎn)進(jìn)行估算。該方法簡(jiǎn)單易操作,但當(dāng)數(shù)據(jù)量較大時(shí),所得的填充結(jié)果準(zhǔn)確度會(huì)大幅下降。均值常量填充法是采用均值或眾數(shù)對(duì)缺失點(diǎn)進(jìn)行填充,所得結(jié)果粗糙,且有時(shí)甚至?xí)?duì)最終結(jié)果產(chǎn)生負(fù)面影響。
線性插值是指采用一次多項(xiàng)式(線性函數(shù))的插值方法,如式(1)所示,通過(guò)連接兩個(gè)已知量來(lái)確定未知量的方法。與其他非線性插值方法相比,線性插值具有簡(jiǎn)單、易實(shí)現(xiàn)的特點(diǎn)。但是,線性插值后的公交實(shí)時(shí)到站數(shù)據(jù)可能存在一定的邏輯問(wèn)題,如車輛運(yùn)行速度、區(qū)間運(yùn)行時(shí)間相互關(guān)聯(lián)關(guān)系等。
(1)
為了解決傳統(tǒng)方法出現(xiàn)的問(wèn)題,本文提出的公交實(shí)時(shí)到站數(shù)據(jù)填充方法考慮了與公交數(shù)據(jù)聯(lián)系密切的三項(xiàng)因素:前后車的影響、前后路段的影響、多天的車輛運(yùn)行時(shí)刻表,使填充的數(shù)據(jù)更具可靠性與真實(shí)性。該方法的主要步驟如下:
(1)查找當(dāng)日所有運(yùn)營(yíng)車輛,循環(huán)查找每一輛車的到站數(shù)據(jù),并按照時(shí)間排序。
(2)對(duì)于每輛車,按照運(yùn)行方向的發(fā)生變化的情況,生成不同的車次。車次從0開(kāi)始累計(jì)編號(hào)。
(3)對(duì)于每個(gè)車次,記錄第一個(gè)和最后一個(gè)有到站數(shù)據(jù)的站序號(hào)start_station_index和end_station_index。確定車輛運(yùn)行站間數(shù)量N=(end_station_index - start_station_index + 1),如果20%L≤N≤50%L(L為線路車站總數(shù)量),則確定為區(qū)間車;如果N< 20%L,則定義為無(wú)效車(需要根據(jù)實(shí)際進(jìn)行調(diào)整)。
(4)對(duì)于首尾數(shù)據(jù)缺失的區(qū)間,對(duì)于前后車數(shù)據(jù)不足的區(qū)間,按照自由流速度v=25 km/h和站間距計(jì)算時(shí)間進(jìn)行補(bǔ)全;對(duì)于前后車數(shù)據(jù)充足的區(qū)間,按照前車和后車的運(yùn)行時(shí)間進(jìn)行統(tǒng)計(jì)分析,采取多項(xiàng)式插值擬合的方法對(duì)缺失區(qū)間的數(shù)據(jù)進(jìn)行補(bǔ)全。
(2)
以北京市連接城區(qū)與北部郊區(qū)某大型居住區(qū)的公交骨干線路(線路A)為例研究,2019年1月1日—31日運(yùn)營(yíng)時(shí)段內(nèi),線路A的上行和下行的實(shí)時(shí)到站數(shù)據(jù),該線路總長(zhǎng)度約21 km。2019年1月工作日最高運(yùn)營(yíng)車輛數(shù)40輛,工作日平均實(shí)際運(yùn)營(yíng)車輛數(shù)為36輛,日均運(yùn)行220車次,其中出城方向109車次,進(jìn)城方向111車次,工作日日均運(yùn)行237車次,非工作日均運(yùn)行179車次。實(shí)時(shí)到站數(shù)據(jù)日均4412條,存在一定的缺失問(wèn)題。
根據(jù)本文提出的方法對(duì)公交實(shí)時(shí)到站數(shù)據(jù)進(jìn)行填補(bǔ),得到了線路A上行、下行方向的實(shí)時(shí)公交到站信息以及時(shí)刻表,其中上下行未進(jìn)行修正補(bǔ)全的時(shí)刻表如圖1(a)和圖1(c)所示,修正補(bǔ)全后的時(shí)刻表如圖1(b)和圖1(d)所示。圖1中各圖的橫坐標(biāo)為時(shí)間,縱坐標(biāo)為車輛位置到上行始發(fā)站的距離。從運(yùn)行圖可以看出,線路A的車輛運(yùn)行時(shí)間基本穩(wěn)定,單程運(yùn)行時(shí)間約為70 min。在14:00—17:00,12 km附近出現(xiàn)了局部的擁堵。在圖1(a)和圖1(c)中未補(bǔ)全的時(shí)刻表存在時(shí)刻表車輛軌跡交叉、數(shù)據(jù)缺失等問(wèn)題,尤其是在首末站處問(wèn)題較為嚴(yán)重。通過(guò)本文提出的方法進(jìn)行數(shù)據(jù)處理與補(bǔ)全后,如圖1(b)和圖1(d)中以上問(wèn)題得到處理。
圖1 線路A修正前后時(shí)刻表Fig.1 Modifed bus timetable of Line A
根據(jù)修正補(bǔ)全的實(shí)時(shí)到站數(shù)據(jù),可以對(duì)公交車輛的大間隔區(qū)間進(jìn)行有效分析。圖2為車站B填充前后的車輛到站數(shù)據(jù),橙色線為原始數(shù)據(jù),藍(lán)色線為補(bǔ)全數(shù)據(jù)。由圖可知,原始數(shù)據(jù)只記錄了34條,表明某些車輛到站時(shí)間數(shù)據(jù)缺失,導(dǎo)致計(jì)算到站時(shí)間間隔變大。將每輛車到站時(shí)間補(bǔ)全后(藍(lán)色線),數(shù)據(jù)計(jì)算到站時(shí)間間隔明顯減小,表明補(bǔ)全結(jié)果可信度較高。由于近鄰填充法僅考慮該輛車周圍相鄰站點(diǎn)的運(yùn)行時(shí)間,計(jì)算得到運(yùn)行圖僅考慮了當(dāng)前車的運(yùn)行情況,很容易產(chǎn)生車輛密集或者大間隔的情況。由本文提出的方法得到的運(yùn)行圖考慮了車輛之間的相互影響,因此能夠得到較為穩(wěn)定的運(yùn)行間隔。
圖2 車站B發(fā)車時(shí)間間隔Fig.2 Bus departure time interval at Station B
圖3為線路A下行(進(jìn)城方向)的跟蹤間隔大于15 min到站時(shí)間時(shí)空分布圖(站名已省略)。由圖可知,城區(qū)路段易出現(xiàn)大間隔,且大間隔時(shí)間較長(zhǎng),公交運(yùn)行可靠性較低;大間隔多發(fā)生在平峰時(shí)段;平峰時(shí)段中12:00—15:00之間發(fā)生大間隔變大,導(dǎo)致大間隔次數(shù)增多。
圖3 線路A下行運(yùn)行間隔分析Fig.3 Analysis of the bus running time interval of Line A in the downward direction
圖4為線路A上行(出城方向)的跟蹤間隔大于15 min到站時(shí)間時(shí)空分布圖。由圖可知,相較進(jìn)城方向出現(xiàn)大間隔現(xiàn)象的高頻率,出城方向出現(xiàn)大間隔現(xiàn)象明顯較少。其中,大羊坊公交站以北路段發(fā)生大間隔的頻率較高,公交運(yùn)行可靠性較低。
圖4 線路A上行運(yùn)行間隔分析Fig.4 Analysis of the bus running time interval of Line A in upward direction
圖5分別為線路A下行(進(jìn)城方向)與上行(出城方向)跟蹤間隔小于1 min的到站時(shí)間時(shí)空分布圖。
圖5 到站時(shí)間間隔分布Fig.5 Distribution of the arrival time interval
總體而言,進(jìn)城方向的串車情況易發(fā)生在早晚高峰及后半段路段。14:00—18:00時(shí)間段內(nèi)和22:00之后,公交串車現(xiàn)象減少。早晚高峰的串車現(xiàn)象均是從和平西橋北站開(kāi)始加劇,說(shuō)明該路段在高峰時(shí)段較為擁堵,站點(diǎn)延誤較大。自地鐵立水橋之后,道路擁堵緩解,串車現(xiàn)象開(kāi)始減少。
表2分別為線路A上行、下行各運(yùn)行區(qū)間的車輛平均行駛速度。進(jìn)城方向的低效運(yùn)行區(qū)間明顯多于出城方向,進(jìn)城方向的區(qū)間4、11、24及出城方向的區(qū)間3和8為運(yùn)行效率較低的站點(diǎn)區(qū)間。
表2 區(qū)間平均運(yùn)行時(shí)間分析Table 2 Intersection average travel time analysis
針對(duì)國(guó)內(nèi)對(duì)公交缺失數(shù)據(jù)的填充方法研究較少,且現(xiàn)存填充方法精準(zhǔn)度與可靠性低的問(wèn)題,本文提出一種在車輛擁堵具有傳播效應(yīng)的前提下,綜合考慮前后車輛、路段狀態(tài)模擬當(dāng)前車輛的方法來(lái)填充缺失的公交數(shù)據(jù)。該方法充分考慮缺失段周圍的影響因素,對(duì)缺失數(shù)據(jù)進(jìn)行有效填充,數(shù)據(jù)計(jì)算到站時(shí)間間隔明顯減小,使補(bǔ)全數(shù)據(jù)的可靠性更高。最后,以北京某條公交線路的實(shí)時(shí)到站數(shù)據(jù)進(jìn)行算例計(jì)算和分析,結(jié)果表明,填充后的數(shù)據(jù)質(zhì)量較原始數(shù)據(jù)大幅提升,各到站時(shí)間間隔均處于一個(gè)較為合理的范圍內(nèi),數(shù)據(jù)分布更為密集,且可靠性更高,有效證明了該填充方法對(duì)公交數(shù)據(jù)分析的實(shí)用性。