楊 昊,霍曉艷,趙林濤,冷軍強,白昊鵬
(1.哈爾濱工業(yè)大學 交通科學與工程學院, 哈爾濱 150090; 2.哈爾濱工業(yè)大學(威海) 汽車工程學院, 山東 威海 264209; 3.帝國理工學院, 倫敦 SW7 2AZ)
城市公交作為城市公共交通的重要組成部分,對解決城市交通問題,促進城市進一步發(fā)展有重要意義[1]。公交運營管理部門需快速準確把握居民出行需求,及時對公交線網(wǎng)進行優(yōu)化、調(diào)整政策發(fā)布與運營管理方式,能夠有效提高城市公交的服務水平。因此,充分挖掘分析乘客的公交出行特征、深入了解乘客出行的規(guī)律十分重要。
在出行鏈方面,Scheiner等[2]從性別角度研究了復雜出行活動的出行鏈,利用德國的調(diào)查統(tǒng)計數(shù)據(jù),通過社會經(jīng)濟屬性與出行鏈的軌跡進行關(guān)聯(lián)分析。Kitamura[3]在研究人們出行規(guī)律時發(fā)現(xiàn),人們更傾向于將行為活動以“鏈”的形式首尾連接起來,這樣可以提高出行效率。Yang等[4]基于居民出行活動,建立了可對出行鏈的出行模式進行識別的模型,利用敏感性分析法解譯了因素對模型性能及出行鏈選擇影響的程度。褚浩然等[5]基于交通現(xiàn)象的本質(zhì),總結(jié)出了出行鏈的定義和結(jié)構(gòu)。蔣家高[6]在國內(nèi)外出行鏈定義的基礎(chǔ)上,建立了最大出行鏈數(shù)量的計算方法。李軍等[7]基于出行鏈推導出了公交乘客下車站點,并建立了描述單個乘客在多天出行的完整數(shù)據(jù)分析框架。
在公交數(shù)據(jù)挖掘方面,J.Barry等[8]利用紐約市的公交IC卡刷卡信息,推導出出行者上下車站點并得到出行OD矩陣,獲取該OD矩陣的前提是出行者的公交出行鏈是閉合的。Chapleau[9]研究AFC、GPS和GIS等多種數(shù)據(jù)的融合處理方法,用以分析公交運行狀態(tài)和居民公交出行需求的變化規(guī)律。Munizaga等[10]基于多源數(shù)據(jù),結(jié)合乘客出行鏈及換乘規(guī)律計算乘客下車站點。史路[11]通過對車輛配置數(shù)量、乘客人數(shù)等數(shù)據(jù)進行分析并建立仿真模型,優(yōu)化車輛配置和發(fā)車時間。尹安藤等[12]首先對居民公交出行特征進行分析,再對居民公交出行OD推算方法進行研究,并推算出居民出行OD矩陣。
現(xiàn)有對出行鏈的研究主要集中在出行模式的選擇及影響因素的分析上,較少利用出行鏈對公交乘客出行特征進行分析。在公交數(shù)據(jù)挖掘方面,少有將支付寶掃碼數(shù)據(jù)與傳統(tǒng)的IC卡刷卡數(shù)據(jù)進行融合分析,這必然會影響數(shù)據(jù)的準確性;另外,針對公交靜態(tài)數(shù)據(jù)的修復與整合處理,缺乏完整的理論方法。本文采用威海市公交IC卡刷卡數(shù)據(jù)、支付寶賬單數(shù)據(jù)及公交車智能調(diào)度信息數(shù)據(jù),建立多源數(shù)據(jù)關(guān)聯(lián)匹配算法,提取乘客出行鏈并判斷乘客上下車站點,計算出各站點的上下車人數(shù),以此為基礎(chǔ)對公交乘客的出行特征進行分析總結(jié)。
以威海市公交消費數(shù)據(jù)(IC卡及支付寶)與車輛GPS數(shù)據(jù)為研究對象,選取部分線路對基礎(chǔ)數(shù)據(jù)進行處理分析。本文數(shù)據(jù)來源為2019年2月威海市公交IC卡刷卡數(shù)據(jù)、支付寶掃碼數(shù)據(jù)及公交智能調(diào)度數(shù)據(jù)。數(shù)據(jù)包含約864輛公交車、143條公交線路信息(不含重復線路,包括快線、線路支線等),涉及常規(guī)公交站點1 230個。以上3種數(shù)據(jù)來自相互獨立的系統(tǒng),但均需利用Pandas庫對其進行轉(zhuǎn)換為可由SQL Server進行關(guān)聯(lián)操作的格式。
公交消費數(shù)據(jù)的預處理包括數(shù)據(jù)清理、時段分析、字段選擇等,支付寶賬單數(shù)據(jù)與IC卡數(shù)據(jù)預處理方法基本相同。分析時段以日為基本單位,以一周5個工作日作為整體分析對象,選取關(guān)鍵字段包括:消費時間(CONSUMEDATE)、線路編號(LINEID)、卡號(L_CARDNO)、公交編號(BUSID)等。智能調(diào)度數(shù)據(jù)記錄了公交車輛全天行車記錄的所有GPS數(shù)據(jù),預處理步驟包括特征數(shù)據(jù)選取、字段選取及補增丟失數(shù)據(jù)。預處理后部分公交消費數(shù)據(jù)見表1。
表1 預處理后部分消費數(shù)據(jù)
以威海市公交7路、3路、K2路的消費數(shù)據(jù)為例,對2019年2月27日(星期三)消費數(shù)據(jù)進行統(tǒng)計分析,取7:00—8:00為早高峰時段,17:00—18:00 為晚高峰時段,其中各線路刷卡客流基本特征見表2,客流時段特征見圖1。
表2 各線路刷卡客流基本特征
圖1 分時段乘客量統(tǒng)計
公交消費數(shù)據(jù)中記錄了乘客的乘車線路、乘車車輛等基本信息,通過分析表2數(shù)據(jù)及圖1中不同時段客流量可以看出:1) 公交站點個數(shù)一般隨線路長度增加而增加,且平均站間距也會增加;2) 乘客量與線路長度無必然聯(lián)系,在評價該指標時需要結(jié)合線路實際情況來判斷;3) 乘客量在早晚高峰時段占比最高,均在10%左右。
正常情況下,公交乘客在上車過程中完成刷卡或掃碼動作,但由于公交車實際到站時間與GPS記錄時間存在系統(tǒng)時差,需要通過不斷假設(shè)和判斷進行修正。以IC卡系統(tǒng)為例,無論IC卡系統(tǒng)時間是早于或遲于GPS系統(tǒng)時間,都會使統(tǒng)計結(jié)果出現(xiàn)誤差,具體影響見圖2。
因此,應以智能調(diào)度系統(tǒng)的時間為基準,通過不斷假設(shè)計算確定刷卡(掃碼)系統(tǒng)時間差,當車站識別率最高時,認為該時差即為系統(tǒng)實際時差;再通過消費記錄時間以車輛時間進行匹配從而判斷出站點,進而統(tǒng)計出站點識別率。假設(shè)系統(tǒng)時差為:
圖2 系統(tǒng)時差對站點識別率的影響
Δt=Tpos-Tgps
(1)
式中:Δt為系統(tǒng)時間差,s;Tpos為POS機的記錄時間,s;Tgps為智能調(diào)度系統(tǒng)的記錄時間,s。
由式(1)可得修正后的系統(tǒng)記錄時間,其公式為:
ΔTpos=Δt+Tpos
(2)
式中:ΔTpos為修正后的POS機記錄時間,s。
上車站點判斷可利用時間匹配原理[13],本文將SQL數(shù)據(jù)庫將線路編號、車輛編號、消費時間及公交到站時間等字段建立關(guān)聯(lián)視圖,關(guān)聯(lián)查詢的主要內(nèi)容為視圖中的站點名稱。以2019年2月27號(星期三)數(shù)據(jù)為例進行數(shù)據(jù)關(guān)聯(lián),直接匹配率僅26.7%。通過對系統(tǒng)時差進行不斷假設(shè)修正,當系統(tǒng)時差取30 s時識別率達最高,75 235條數(shù)據(jù)中有59 429條數(shù)據(jù)成功匹配,識別率達到78.9%。部分上車站點匹配結(jié)果見表3。表3中,X、Y分別表示進站、出站時間。
表3 部分上車站點匹配結(jié)果
公共交通出行鏈是以公共交通方式為主要出行方式完成2次或多個連續(xù)的出行過程,強調(diào)出行的連接性。因此,本文采用公交出行鏈的定義為:按一定時間序列,居民乘車在時間和空間上前后銜接的公共交通線路出行過程。其特點為:居民在1 d的出行過程中,至少乘坐了2次及以上的公共交通,乘客前1次乘車的下車時間一定早于后1次乘車的上車時間。當乘客在1 d的出行過程中有多個目的地,若按原路返回路線不再是抵達最終目的地后的最短路線,乘客將選擇其他距離短、行程簡單路線回家,即環(huán)形閉合式出行鏈,見圖3。
圖3 環(huán)形閉合式出行鏈
對大部分公交出行者而言,其上車站點和下車站點總能相互轉(zhuǎn)換。若同一乘客連續(xù)2次乘坐方向相反的同一線路,則可認為2次出行站點互為起始點。由已經(jīng)得到乘客上車站點為基礎(chǔ),根據(jù)出行鏈理論對于乘客下車站點進行判斷以得到完整的乘客公交出行鏈。2次及以下刷卡乘客占乘客總數(shù)的84.1%,基本能夠代表公交乘客的出行需求,在Pandas庫中進行下車站點匹配,47 821條數(shù)據(jù)中有35 196條數(shù)據(jù)成功匹配,識別率達73.6%。而對于1次刷卡的乘客,分析其最近一段時間內(nèi)的乘車記錄可發(fā)現(xiàn):乘客在本次乘車線路下游方向的某一站點下車概率與乘客近期在該站點乘車次數(shù)成正比。42 326條1次刷卡數(shù)據(jù)中有5 738條數(shù)據(jù)得到匹配,部分乘客公交出行鏈見表4,計算可得當前數(shù)據(jù)對下車站點識別成功的貢獻率為85.98%。
表4 部分乘客公交出行鏈
威海市常規(guī)公交線路143條,常規(guī)公交站點 1 230個,基本上覆蓋全市主要區(qū)域、重要主次干道以及社區(qū)街道。選取2019年2月24日(周日)及2月25日(周一)威海市公交刷卡及掃碼記錄,按1 h為1個時段進行全體消費次數(shù)統(tǒng)計分析。工作日消費次數(shù)共計約206 761次,其中7:00—8:00、17:00—18:00消費次數(shù)均超過25 000次,約占全天公交出行次數(shù)的23%,且出行目的較為單一,多為居民區(qū)到商業(yè)辦公區(qū);日間平峰時段消費次數(shù)均在12 000次/h左右,總體較為平穩(wěn)。非工作日消費次數(shù)共計約183 045次,客流總量明顯低于工作日,彈性出行較多且總體幅度平穩(wěn),日間消費次數(shù)均在 14 000次/h 左右,具體分布見圖4。
統(tǒng)計數(shù)據(jù)顯示,25日共有46 719張公交IC卡和64 833名手機支付寶賬戶被使用,刷卡和掃碼總次數(shù)分別為86 351次與120 410次,平均消費次數(shù)為1.85次/人和1.86次/人。說明2種公交支付方式的公交乘客出行需求近似相等,且偏向于使用手機支付寶掃碼的乘客數(shù)居多,該日刷卡次數(shù)分布見表5。
圖4 威海市公交乘客時間客流分布
從表5可以看出,出行次數(shù)2次及其以下乘客占比約84%,出行次數(shù)4次及以上乘客總數(shù)量較低,不到10%,出行次數(shù)6次及以上的乘客比例極低,合計不到1%,說明威海市乘客出行過程中換乘需求較少,大部分乘客1次公交出行即可到達目的地。
表5 25日公交刷卡(掃碼)次數(shù)統(tǒng)計
公交線路OD能夠反映該條線路各站點間的乘客出行需求,能夠作為單條公交線路運營優(yōu)化調(diào)整的重要依據(jù)。公交線路OD是由消費數(shù)據(jù)和GPS數(shù)據(jù)等信息相互匹配推導得出,但由于少量數(shù)據(jù)的不完整以及部分乘客使用現(xiàn)金,導致一些乘客的消費記錄無法匹配。因此公交站點OD矩陣需進行公交原始消費數(shù)據(jù)和現(xiàn)金乘客2個方面的擴樣,2類擴樣系數(shù)推導見式(3)、式(4):
(3)
(4)
以1路公交車2月27日數(shù)據(jù)為例,通過實際調(diào)查,隨車記錄并統(tǒng)計各種支付方式所占比例,得到3次發(fā)車各站點上車總?cè)藬?shù)共287人,其中支付寶掃碼人數(shù)為166人,約占58%;刷卡人數(shù)為104人,約占36%;使用現(xiàn)金人數(shù)為17人,約占6%。在假設(shè)投幣乘客出行與刷卡及掃碼乘客出行完全一致的狀況下可計算得第1類擴樣系數(shù)為1.367、第2類擴樣系數(shù)為1.064。對數(shù)據(jù)進行提取、轉(zhuǎn)換和擴樣可獲取各公交站點的發(fā)生量和吸引量,線路見圖5,部分站點客流量見表6,站點上下車人數(shù)相關(guān)性見圖6。
圖5 1路公交車線路
表6 1路公交部分站點客流量
圖6 站點全日上下車人數(shù)相關(guān)性
由圖6可知,站點全日上車人數(shù)與下車人數(shù)的相關(guān)系數(shù)為0.810 1,擬合效果良好,各公交站點的發(fā)生量和吸引量呈正相關(guān)。證明本文所采用的方法推導出公交站間OD在各個站點的上下車人數(shù)基本達到平衡,與乘客出行特征相符。
乘客出行的起訖點用發(fā)生點與吸引點表示,在發(fā)生點和吸引點產(chǎn)生的客流量為該站點的發(fā)生量和吸引量,即構(gòu)成站間OD矩陣。它既能在時間范圍內(nèi)反映乘客分散與聚集的分布特征,也能在空間范圍內(nèi)反映客流的流向,1路公交部分站間OD見表7。
將高峰時段及全日的公交矩陣分別做出三維圖,從宏觀角度對不同出行模式和出行時間下的居民出行鏈進行分析,還原公交乘客的出行行為,分析公交乘客的出行選擇,各時段的公交OD矩陣三維圖見圖7、圖8。
表7 1路公交站間OD矩陣(部分)
圖7 1路公交高峰OD三維圖
圖8 1路公交全日OD三維圖
對應站間OD矩陣和三維圖分析可以得出,1路公交高峰期間區(qū)政府—北竹島、骨科醫(yī)院—實驗中學、威高廣場—北竹島、威高廣場—藍灣怡庭、區(qū)政府—藍灣怡庭站間客流量較大,分別達29、25、32、25、29人次,符合高峰期車乘客出行特征,起訖點基本集中在居民區(qū)與商業(yè)辦公區(qū)之間;全日OD陣三維圖則表現(xiàn)為柱狀體高度分布較為平均,各個站點的客流量較為相似,符合全日內(nèi)公交出行目的較為多樣、起訖點相對分散的情況。
本文將時下熱門的支付寶掃碼支付賬單納入數(shù)據(jù)樣本范圍進行多源數(shù)據(jù)融合分析,以威海市1路車公交為例,分析其部分消費數(shù)據(jù),得出如下結(jié)論:
1) 在2種公交支付方式中,偏向于使用支付寶掃碼的乘客數(shù)量較多,但2種支付方式的公交乘客出行需求近似相等,且乘客出行過程中換乘需求較少,大部分乘客1次公交出行即可到達目的地。
2) 分析公交站間OD矩陣,早晚高峰期間乘客大部分以通勤為目的,消費次數(shù)均超過25 000 次/h,約占全天公交出行總次數(shù)的23%,且乘客出行目的較為單一,多為居民區(qū)與商業(yè)辦公區(qū)之間,其他時段出行目的多樣而終點相對分散,與實際情況相符。
3) 為接入支付寶或其他手機掃碼方式乘車的城市提供一種準確且有效的公交出行特征分析方法,同時為下一步解決公交站址優(yōu)化提供數(shù)據(jù)支撐。