朱士光,四兵鋒,崔鴻蒙,薛景文
(北京交通大學 交通運輸學院,北京 100044)
城市軌道交通站間起訖點(origin destination,OD)客流及其時空分布是制定路網(wǎng)規(guī)劃、運營組織的重要依據(jù),把握客流OD時空特征并對其進行精準預測對于城市軌道交通運營管理具有重要意義。根據(jù)客流預測的時間粒度和周期,城市軌道交通OD客流預測可分為長期的靜態(tài)OD預測和短期的動態(tài)OD預測[1]。前者主要是基于社會經濟因素,對未來路網(wǎng)中的均衡OD客流進行預測,主要用于路網(wǎng)規(guī)劃或宏觀政策的制定;而后者則關注短時或短期的分時段OD客流的變化規(guī)律,常采用基于數(shù)據(jù)統(tǒng)計的時間序列方法,可得到未來特定時間段的OD客流,主要用于城市軌道交通的客流組織、管控以及行車調度等。
目前,交通OD客流預測的數(shù)據(jù)基礎主要有手機信令數(shù)據(jù)[1-2]、GPS數(shù)據(jù)[3]以及智能交通卡數(shù)據(jù)[4-5]3種類型。由于城市軌道交通系統(tǒng)相對封閉,受外界干擾程度較低,且通過自動售檢票系統(tǒng)(AFC)就可以實時獲取乘客的進站、出站等時空信息。因此,一些學者基于AFC數(shù)據(jù),對城市軌道交通OD客流預測進行了研究。早期的預測方法主要是基于歷史數(shù)據(jù)統(tǒng)計分析的集計模型,包括時間序列分析模型[6-7]、卡爾曼濾波模型[8-9]、k近鄰算法模型[10]等。這類方法的優(yōu)點是計算簡單、容易實現(xiàn),但對于復雜條件下的OD預測穩(wěn)定性較差。近年來,基于數(shù)據(jù)學習的預測方法由于具有良好的自適應性和較強的數(shù)據(jù)擬合能力,被廣泛地應用于復雜條件下的交通預測,包括支持向量機模型、神經網(wǎng)絡模型、深度學習模型等[11-13]。這類方法雖然預測效果較為理想,但由于模型本身存在較高的計算復雜度,很難應用于對計算效率要求更高的實時在線OD預測。
隨著城市軌道交通網(wǎng)絡規(guī)模的持續(xù)擴大,客流時空分布特征變化愈加復雜,強調實時性的在線OD預測已經逐漸成為城市軌道交通領域的研究熱點。對城市軌道交通客流進行在線OD預測有助于地鐵運營組織快速作出反應,從而提高運營效率,尤其是對于早晚高峰時期的階段性客流進行在線OD預測,對地鐵運營組織進行有效的客流管控和及時的行車調度具有重要意義。目前在線OD預測方法主要有兩種[14-16]:一種是基于歷史同期數(shù)據(jù)的集計分析預測方法,這類方法計算簡單,但預測精度較差,很難擬合短時OD客流的隨機波動特征;另外一種是基于乘客個體的預測方法,這類方法通過對乘客單一個體的OD規(guī)律進行分析,有效解決了集計分析方法存在的難以擬合隨機波動的弊端。但目前的研究大多是針對路網(wǎng)變化、突發(fā)事件等特殊情況下的OD流量預測,不具備普適性。
當乘客刷卡進站時,AFC系統(tǒng)可以實時采集該乘客的進站信息,因此在線OD預測可以轉化為已知乘客進站時間和地點的出行目的地預測問題。蔣熙等[17]基于對實時AFC數(shù)據(jù)的分析,提出了將機器學習與遞歸貝葉斯相結合的客流OD動態(tài)估計方法;許勝博[18]通過提取乘客的出行特征,提出了一種基于乘客出行習慣的出行目的地預測方法。這兩種方法由于未對乘客出行習慣做更深層次的分析和提取,導致對平峰時段的乘客出行目的地預測效果較差,且對乘客的隨機出行敏感度較低。
目前已有的城市軌道交通在線OD預測方法,在及時性和準確性兼顧方面仍有待提高。本文通過對大量AFC歷史數(shù)據(jù)的挖掘與分析,從乘客個體OD時空特征角度出發(fā),綜合其歷史刷卡數(shù)據(jù)和實時進站信息,研究與之適用的出行目的地在線預測方法,為地鐵運營組織進行在線決策提供參考。
通常,如果某位乘客頻繁在同一時間段乘坐地鐵出行,可認為該乘客的出行在該時間段是具有規(guī)律的;如果某位乘客頻繁在同一站間OD出行,可認為該乘客的出行在空間上是具有規(guī)律的?;诔丝统鲂械臅r間段以及OD站點等信息,本文提出了乘客OD時空特征的概念,即乘客在同一時間段內、在同一OD間的出行呈現(xiàn)出具有統(tǒng)計特征的規(guī)律性。例如,某乘客從車站X到車站Y的歷史出行記錄總共有4條,其進站時間分別是09:08、08:54、08:49、09:11,則該乘客的OD時空特征可表示為:在08:49—09:11從車站X出發(fā)前往車站Y。乘客的某種OD時空特征可表示如下:
(1)
對于某位具體的乘客來說,乘坐地鐵出行的目的并非是固定的,因此,在該乘客已經完成的歷史出行記錄中,可能會存在多種類型的OD時空特征,并構成該乘客的OD時空特征矩陣。乘客n的OD時空特征矩陣可表示如下:
(2)
根據(jù)乘客的歷史刷卡記錄,就可挖掘出乘客單一個體的OD出行時空特征。目前,基于智能交通卡數(shù)據(jù)的乘客OD時空特征挖掘方法主要是乘客行程聚類[4],聚類方法主要有層次聚類和非層次聚類兩種類型。由于聚類前乘客的OD時空特征數(shù)量未知,因此需要提前設定集群數(shù)量和聚類終止條件的層次聚類方法并不適用。在非層次聚類方法中,密度聚類(density-based spatial clustering of application with noise,DBSCAN)算法由于不需要提前設定集群數(shù)量,也不需要設定聚類終止條件,而且對于象征乘客無規(guī)律出行的噪聲不敏感,高密度的出行記錄更容易劃分到同一個集群中,因此本文提出了一種基于改進DBSCAN算法的乘客OD時空特征提取方法。
DBSCAN算法設有兩個全局參數(shù):鄰域半徑參數(shù)EPS和鄰域密度閾值MinPts。為了聚類的方便性,需要對原始AFC數(shù)據(jù)進行預處理。首先需要將乘客進站時間轉換為分鐘格式,并將日期信息去除,從而便于對兩次出行時間的差值進行判斷。例如某次出行進站時間為2019-11-03的8:30,將其轉換為分鐘格式,即8×60+30=510。此外還需要對OD進行編碼,為了保證密度聚類過程中不同的OD之間不會互相干擾,每個OD編碼賦值后的間隔應大于鄰域半徑參數(shù)EPS。設乘客n的歷史刷卡記錄集用Vn表示,則有:
(3)
圖1 某乘客OD時空特征Fig.1 OD spatiotemporal characteristics of a passenger
步驟4 轉入步驟2,直至所有對象標記為visited,轉入步驟5;
。
(4)
步驟2 計算累計概率分布函數(shù)Fi
。
(5)
步驟3 生成(0,1)內的隨機數(shù)μ;
(6)
(7)
(8)
圖2 樸素貝葉斯算法流程圖Fig.2 Flow chart of the naive Bayesian algorithm
由于乘客選擇地鐵方式出行受到季節(jié)、氣候等多種因素的影響,因此乘客在不同月份的地鐵出行OD時空特征可能會出現(xiàn)較大差異。根據(jù)對大量AFC歷史數(shù)據(jù)的統(tǒng)計分析發(fā)現(xiàn),乘客個體在一個自然月內的OD時空特征是相對穩(wěn)定的。因此,本文選取了南京市軌道交通AFC系統(tǒng)2018-03-01至2018-03-31持一卡通乘客的1685萬條出行記錄作為數(shù)據(jù)學習訓練樣本集。
在對乘客OD時空特征進行提取時,首先需要對DBSCAN算法的兩個全局參數(shù)賦值。一般認為,在時間間隔為15 min時,當前客流與歷史先驗客流之間會存在較強的相關性。因此本文將DBSCAN算法的鄰域半徑參數(shù)EPS設為15,并將OD對編碼設為20的倍數(shù)。即認為當某乘客的兩次出行記錄的時間間隔為15 min以內時,兩次出行在時間上較為集中。由于本文選取的AFC歷史數(shù)據(jù)為4周,故將DBSCAN算法的鄰域密度閾值MinPts的取值設為4,即認為若某乘客在某OD對間平均每周同一時間段出行至少一次,則認為該乘客在此時間段為固定規(guī)律出行。表1為提取的部分乘客ID的OD時空特征。
表1 乘客OD時空特征表
本文隨機選取了南京市軌道交通兩個站點——新街口站和油坊橋站作為樣本數(shù)據(jù)采集點,以早高峰9:00—9:15進站乘客刷卡記錄作為待預測樣本集,對其OD進行實時預測。根據(jù)乘客ID完成待預測刷卡信息與其OD時空特征矩陣的匹配,匹配結果顯示待預測出行乘客的構成如下:新街口站在該時間段內總共有356位進站乘客,其中對應唯一OD時空特征的乘客共有67 人,占總體客流的18.8%,另外有7人對應2 個OD時空特征,其余282名乘客則無對應OD時空特征;油坊橋站在該時間段內總共有1075位乘客,其中對應唯一OD時空特征的乘客共有420 人,占總體客流的39%,另外有9 人對應2個OD時空特征,其余646名乘客無對應OD時空特征。
基于上述準備工作,本文對新街口站和油坊橋站兩個站點在早高峰9:00—9:15時間段內的所有持一卡通進站乘客進行了出行目的地預測,表2為新街口站的部分進站乘客預測結果。
表2 新街口站預測結果
續(xù)表2
圖3~5為根據(jù)不同OD時空特征的乘客分別采用直接匹配法、蒙特卡羅模擬方法、樸素貝葉斯法(機器學習法)進行的預測分析。如圖3所示,乘客A在9:00左右于新街口站(站點編號為5)或在19:30左右于九龍湖站(站點編號為113)出行時只能匹配到唯一OD時空特征。對于這種情況,本文采用直接匹配法將該OD時空特征的目的地站點直接作為該乘客的出行預測目的地。對新街口站對應唯一OD時空特征的67位進站乘客目的地預測結果進行統(tǒng)計,發(fā)現(xiàn)有64位乘客的目的地預測都是正確的,準確率達到了96%。油坊橋站對應的420 位乘客中,有405位乘客的目的地預測正確,預測準確率達到了97%。
圖3 乘客A的OD時空特征Fig.3 OD spatiotemporal characteristics of passenger A
如圖4所示,乘客B在上午7:00左右于油坊橋站(站點編號為46)出行時可以匹配到2個OD時空特征,其中竹山路站編號為7。對于這種情況,本文采用蒙特卡羅模擬的方法對其進行實驗,考慮到仿真的隨機性,本文進行了多次重復實驗。4次仿真預測乘客目的地的個數(shù)分別為3、2、4、3,預測的準確率大概在50%左右。雖然該方法的準確率較低,但是考慮到這部分乘客占總體客流的比例較低,因此對總體預測結果的影響可以忽略不計。
圖4 乘客B的OD時空特征Fig.4 OD spatiotemporal characteristics of passenger B
如圖5示,乘客C在絕大多數(shù)時間段內于任何站點出行時,都無法匹配到OD時空特征,圖5中柳州東路站編號為93,南京南站編號為114。對于這種情況,本文采用基于樸素貝葉斯的方法對其進行數(shù)據(jù)學習,對新街口站無對應OD規(guī)律的282位進站乘客目的地預測結果進行統(tǒng)計,結果顯示有221位乘客的目的地預測都是正確的,準確率達到了79%。油坊橋站對應的646位乘客中,有541位乘客的目的地預測正確,預測準確率同樣達到了84%。
圖5 乘客C的OD時空特征Fig.5 OD spatiotemporal characteristics of passenger C
3種方法的詳細預測結果和預測準確率如表3所示。根據(jù)統(tǒng)計結果,新街口站在9:00—9:15所有進站乘客的目的地預測準確率在81%左右,油坊橋站在該時段所有進站乘客的預測準確率可以達到88%??梢钥闯?,使用基于OD時空特征直接匹配的預測方法準確度最高,可以達到96%以上?;跈C器學習的樸素貝葉斯方法次之,可以達到80%左右。而基于蒙特卡羅模擬的預測方法準確度最低,但考慮到該部分乘客所占比例較小,因此對總體預測結果并無太大影響。
表3 3種預測方法準確率統(tǒng)計對比
圖6分別是新街口站和油坊橋站全天各時段的預測準確率變化趨勢圖,可以看出,這兩個站點的預測準確度在客流早高峰和晚高峰時段要相對高一些。而在平峰運營時段(包括周末和節(jié)假日),由于隨機乘客占總進站客流的比例相較早晚高峰時段要更高,因此預測準確率也會有所下降,但下降幅度在可接受范圍之內。針對平峰運營時段以及周末和節(jié)假日預測準確率有所下降的現(xiàn)象,本文通過增加樣本數(shù)量集進行了重復實驗,結果顯示通過增加特定時間段的歷史刷卡數(shù)據(jù)樣本數(shù)量,可有效提高預測準確度,但同時也會降低計算效率。
圖6 新街口站和油坊橋站全天預測準確率趨勢圖Fig.6 The trend chart of all-day prediction accuracy of Xinjiekou and Youfangqiao station
本文通過對大量AFC歷史數(shù)據(jù)的挖掘與分析,從乘客個體角度,提出了一種基于OD時空特征提取的城市軌道交通乘客目的地預測方法,并以南京市軌道交通AFC刷卡數(shù)據(jù)進行了實例分析,結果顯示早高峰時段的乘客OD實時預測準確率可以達到80%以上,且全天預測精度較為穩(wěn)定,可為地鐵運營組織進行有效的客流管控和及時的行車調度提供參考。由于采用的歷史AFC數(shù)據(jù)時間跨度僅為一個月,且未考慮法定節(jié)假日、大型聚會等特殊情況,所提出的方法有待更豐富的數(shù)據(jù)去驗證,針對特殊情況下的乘客出行目的地預測方法還需進一步深入研究。