游 婷,范桂蓮,馬興慧
(1.武漢市交通科學研究所, 武漢 430014; 2.北京通途永久科技有限責任公司, 北京 100080)
公交客流OD信息是進行公交線網(wǎng)規(guī)劃、公交運行調度管理和公交系統(tǒng)輔助的基礎信息. 公交OD信息包含公交乘客的上、下車,換乘,出行距離和出行時間等信息[1].
目前武漢市常規(guī)公交高峰期滿載率過高、部分線路區(qū)間方向不均衡系數(shù)大,公交客流水平呈逐年下降趨勢,2015年客運量約為14.31億人次,較2014年減少0.52億人次,2016年由于換乘優(yōu)惠政策實施,換乘系數(shù)有了一定程度的提升,由1.07提升至1.30,客流量較之前有所回升,客流量增加為404萬人次,但仍比2014年少0.09億人次[2-3].
通過獲取公交客流OD信息,全面、準確把握公交的運行現(xiàn)狀和客流的變化趨勢,對公交線網(wǎng)和公交調度方案進行優(yōu)化,可以使上述問題得到緩解. 目前武漢市公交IC卡采用單一票制收費模式,刷卡字段中缺少下車的相關信息,無法直接得到公交乘客的下車站點、時間等信息,繼而無法直接得到出行路徑. 通過對公交乘客的刷卡數(shù)據(jù)和公交GPS數(shù)據(jù)的挖掘利用,可以得到公交客流OD信息.
目前國內外關于公交刷卡乘客上車站點識別的研究中較為常用,相對較準確的方法是將公交IC卡刷卡數(shù)據(jù)和GPS數(shù)據(jù)相結合進行判斷[4-6];下車站點識別方法主要是在公交IC卡刷卡數(shù)據(jù)和GPS數(shù)據(jù)相融合的基礎上,基于出行連續(xù)性、乘客出行鏈或站點吸引權等方法進行識別[7-8].
本文重點基于公交GPS數(shù)據(jù)和IC卡刷卡數(shù)據(jù),建立公交刷卡乘客上、下車站點識別模型. 上車站點識別包含2個模型分別是基于GPS時間推算和基于IC卡刷卡時間推算,首先對比分析其優(yōu)缺點,并根據(jù)實際數(shù)據(jù)試算得到的識別率最終確定上車站點識別模型. 下車站點識別模型包含基于出行連續(xù)性和出行鏈識別2個模型,對比分析其優(yōu)劣并以識別率為判別基準,選取較高者為下車站點識別模型. 最終根據(jù)武漢市的的進行實例驗證研究.
識別模型需要的數(shù)據(jù)有公交IC卡數(shù)據(jù)、GPS數(shù)據(jù)和公交站點位置數(shù)據(jù). 武漢市目前共有7 000余輛公交車,每隔15 s會上傳一次點位信息;每日的刷卡數(shù)據(jù)成千上萬次(2016年刷卡率達到84.2%);還具有5 000多個公交汽車站和370條公交線路的基礎信息.
表1 武漢公交IC卡數(shù)據(jù)
表2 武漢公交GPS卡數(shù)據(jù)
表3 武漢公交線路站點基礎信息數(shù)據(jù)
1.2.1 基于GPS時間識別上車站點
城市公交車輛GPS設備能夠實時采集車輛號、時間、速度、位置(經(jīng)緯度)等信息. 基于GPS時間識別上車站點,首先根據(jù)公交站點信息及公交GPS數(shù)據(jù)推算出公交車輛的??空军c及站點??繒r段,然后基于??繒r段對大量乘客IC卡刷卡數(shù)據(jù)進行分類分組,得到乘客的相關到站信息.
圖1 上車站點識別
具體判斷條件:
1) 計算GPS點與站點距離,保留GPS點位與站點距離小于100 m的點位;
2) 在保留點中按照時間進行排序,選擇站前距離最近數(shù)據(jù)點的時間作為到站時間,且該時間應早于第一位上車乘客的刷卡時間;
3) 在保留點位中如果GPS連續(xù)多點集中于一點,則認為該點為停站點;
4) 每輛車每天始發(fā)時,可能會存在車輛未啟動就有乘客刷卡上車現(xiàn)象,因沒有GPS點位信息,建議根據(jù)當天車輛第1位乘客刷卡時間向前推5~10 min作為到站時間. 若始發(fā)站沒有乘客刷卡上車,則結合車輛GPS數(shù)據(jù)分析.
1.2.2 基于IC卡時間識別上車站點
公交乘客乘坐相同車次,在相同站點上、下車,其時間相近,因此可以對刷卡記錄進行聚類處理.
采用該模型推算乘客上車信息,因為乘客同車次同站點的性質,其刷卡時間相近,因此可以對數(shù)據(jù)進行聚類,得到公交站點停靠時間段,然后與公交GPS數(shù)據(jù)的時間字段進行對比分析,配對后得到公交上車站點.
圖2 基于IC卡刷卡時間推算上車站點
具體判斷條件:
1)根據(jù)公交IC卡刷卡時間作為判定公交車到站的時間依據(jù);
2)考慮到GPS數(shù)據(jù)系統(tǒng)和IC卡數(shù)據(jù)系統(tǒng)存在一定的時刻偏差,在此假設時間偏差為4 min,以同一天的公交IC卡刷卡數(shù)據(jù)為基礎,匹配線路號、車輛號字段后進行刷卡時間聚類分組,篩選保留刷卡集中段時間前后4 min內的GPS點位信息,其他數(shù)據(jù)剔除;
3)保留的GPS點與站點經(jīng)緯度進行匹配,確定公交??空军c.
1.2.3 模型比較分析
基于GPS時間識別刷卡乘客上車站點(模型1)存在的問題是:武漢市GPS點位信息是每隔15 s上傳1次,部分站點車輛到站時不是上傳數(shù)據(jù)的時間,則沒有GPS點位信息. 解決該問題的方法是尋找與該點位時間最接近的點位信息進行推算得到.
基于IC卡刷卡時間識別公交刷卡乘客上車站點(模型2)存在以下問題:部分站點沒有乘客刷卡上車;乘客早晚高峰時段出行,車廂內人數(shù)較多,部分乘客為尋求方便會選擇從后門上車,這種情況的刷卡數(shù)據(jù)一般是距離站點一段距離. 此類問題會導致站點無法識別或識別錯誤. 模型2相較于模型1存在明顯的缺陷.
1.3.1 基于出行連續(xù)性識別
基于出行連續(xù)性識別公交刷卡乘客下車站點模型是建立在日刷卡次數(shù)在2次及以上的基礎上,根據(jù)公交乘客出行具有連續(xù)性規(guī)律,即公交乘客往往會在上次出行的目的地乘車返回上次出行的出發(fā)地. 采用該模型對IC卡乘客的出行OD進行識別,僅有一次IC卡刷卡記錄和所有IC卡1 d內的最后1次刷卡記錄不在本算法考慮范圍內. 具體步驟為:
1)以日期和卡號為篩選字段,提取相同日期相同卡號的刷卡數(shù)據(jù),根據(jù)時間先后排序.
2)基于上車站點的識別,關聯(lián)獲取所有IC卡刷卡數(shù)據(jù)的上車站點及位置信息.
3)依次識別每一次刷卡記錄的下車站點. 如果乘客相近兩次出行乘坐同一線路,則第2次出行的起始地站點為第1次出行刷卡對應的目的地站點;如果乘客相鄰2次出行乘坐線路不一致時,則計算第1次出行刷卡上車站點的后續(xù)站點與第2次出行刷卡上車站點之間的距離,距離最短時對應的站點為第1次次刷卡對應的下車站點位置.
1.3.2 基于出行鏈識別
所謂出行鏈,即以居住地作為1 d公交出行的起終點,將公交乘客1 d內出行的起終點連接,形成一個環(huán). 出行鏈閉合即1 d內相鄰2次出行的起始地和目的地重合,形成一個閉合的環(huán),例如本次出行從A站點出發(fā)到達B站點下車,下次出行從B站點或者B鄰近站點出發(fā)到達A站點或者A鄰近站點下車.
該模型的推算需要一個月的公交乘客刷卡數(shù)據(jù). 根據(jù)刷卡數(shù)據(jù),將所需識別的刷卡乘客類型分為A、B、C 3種類型. 其中,A類型乘客特點是出行是連續(xù)的,即第1次出行的目的地是第2次出行的起始地,即出行鏈閉合;B類型乘客特點是當天公交出行是不連續(xù)的,即出行鏈斷裂,但歷史出行記錄中存在多日相似的起始地目的地重合的出行記錄;C類型乘客特點是當次公交出行不連續(xù),且沒有相似的可供參考的出行記錄.
圖3 乘客類別判斷流程
對于A類型乘客,可直接用出行連續(xù)分析法進行識別:提取同一卡號的刷卡數(shù)據(jù),判斷前后2次刷卡是否為同一線路,如果乘客相近2次出行乘坐同一線路,則第2次出行的起始地站點為第1次出行刷卡對應的目的地站點;如果乘客相近兩次出行乘坐線路不一致時,則計算第1次出行刷卡上車站點的后續(xù)站點與第2次出行刷卡上車站點之間的距離,距離最短時對應的站點為第1次次刷卡對應的下車站點位置.
圖4 A類乘客下車站點識別方法流程
1.3.3 模型比較分析
根據(jù)上文模型的推算得到公交刷卡乘客的上、下車信息,在此基礎上統(tǒng)計得到任意2站點之間的客流量,繼而得到公交線路OD、公交線網(wǎng)OD和交通小區(qū)OD. 需要注意的是,一方面在公交乘客上、下車站點識別過程中所采用的的刷卡數(shù)據(jù)存在部分無效數(shù)據(jù),推算的結果需要根據(jù)數(shù)據(jù)率(有效刷卡記錄/所有刷卡記錄)進行初步擴樣;另一方面,公交刷卡乘客上、下車站點識別只包含刷卡乘客不包含投幣乘客,所以采用數(shù)據(jù)率進行初步擴樣后還需要采用刷卡率進一步擴樣得到最終結果.
公交線路OD指一條公交線路上從i站點上車而在j站點下車的乘客OD量為Tα(i,j),即由站點i上車至站點j下車的客流量.
公交線網(wǎng)OD是城市所有公交線路在任意兩站點之間的OD量匯總. 用T為公交線網(wǎng)OD矩陣,i為上車站點,j為下車站點,α為公交線路,則公交線網(wǎng)OD為T(i,j)=∑Tα(i,j).
交通小區(qū)的公交出行OD是指隸屬于任意2交通小區(qū)間的站點對間的OD量匯總. G為交通小區(qū)OD矩陣,Zi為小區(qū)i內的公交站點集合. 因此交通小區(qū)OD為式(1).
G(i,j)=∑T(Zi,Zj)
(1)
3類公交OD之間存在遞進的關系,首先由公交IC卡數(shù)據(jù)統(tǒng)計得到公交線路OD,由線路OD統(tǒng)計得到公交線網(wǎng)OD,最后得到交通小區(qū)OD.
根據(jù)武漢市2016-12-29早高峰時段的公交乘客IC卡刷卡數(shù)據(jù)和GPS數(shù)據(jù),對模型進行試算. 其中上車站點識別模型試算發(fā)現(xiàn)采用模型2(基于IC卡刷卡時間識別)識別,站點序號基本對應不上,識別失敗. 而模型1(基于GPS時間識別)識別情況是:總的有效刷卡記錄為23 206條,占所有刷卡記錄85.67%(27 088條),識別成功的記錄數(shù)為22 814條,識別率為98.31%. 所以最終選取模型1為識別模型.
利用公交刷卡乘客下車站點識別模型(模型1:基于出行連續(xù)性識別;模型2:基于出行鏈識別)對543路公交車上、下行公交乘客刷卡記錄進行識別,具體識別結果為表4.
表4 543路公交刷卡乘客下車站點識別結果
由表4可得模型2比模型1的識別率更高,模型2的識別率為70%左右,模型1為50%左右,所以選取模型2為最終的公交刷卡乘客下車站點識別模型. 出行鏈識別模型可以識別的刷卡類型相對更全面,對于模型1不能識別的單一刷卡記錄和不連續(xù)刷卡記錄均能夠識別,因此其識別率相對較高. 該模型主要針對單個刷卡乘客記錄,可以得到單個乘客的公交出行起終點、出行時間、頻率等信息,有助于分析得到城市公交出行者特征,輔助政府、管理部門決策. 但是利用模型2推算下車站點需要多天數(shù)據(jù),并且需要對每張公交IC卡數(shù)據(jù)逐一分析,工作量繁重,速度慢,效率低下.
根據(jù)公交刷卡乘客上、下車站點識別結果,統(tǒng)計得到543路公交車在12月29日早高峰時段上行方向在各站點的上、下車人數(shù),如圖5所示.
圖5 543路公交各站點上、下車人數(shù)
1)公交刷卡乘客上車站點識別包含2個模型,基于IC卡刷卡時間識別(模型2)相較于基于GPS時間識別(模型1)存在明顯缺陷,部分站點缺乏刷卡數(shù)據(jù)或部分乘客刷卡時公交車輛已經(jīng)駛離站點,這些缺陷會導致下車站點無法識別或識別錯誤. 并且利用實際數(shù)據(jù)試算時發(fā)現(xiàn)采用模型2識別,站點序號基本對應不上,而模型1站點識別率高達98.31%,所以最終選取模型1為識別模型.
2)利用武漢市543路公交車GPS數(shù)據(jù)、IC卡數(shù)據(jù)以及543線路的各站點信息試算得到2個公交乘客下車站點識別模型的識別率分別是:基于出行鏈識別為70%左右,基于乘客出行連續(xù)性識別為50%左右,所以選取前者為下車站點識別模型. 該模型不僅可以識別出行連續(xù)的刷卡記錄還可以識別出行不連續(xù)(出行鏈斷裂)的刷卡記錄. 針對出行鏈斷裂的刷卡記錄,通過將這類乘客細分為2類,采用不同的概率計算方法得到下車站點概率繼而確定下車站點.