王 璞,肖健和,李明倫,郭 寶
(1. 中南大學(xué)交通運(yùn)輸工程學(xué)院 長沙 410075;2. 軌道交通大數(shù)據(jù)湖南省重點(diǎn)實(shí)驗(yàn)室 長沙 410075)
地鐵是城市公共交通的骨干,具有速度快、運(yùn)力大等優(yōu)點(diǎn)[1]。發(fā)展地鐵被廣泛認(rèn)為是緩解大城市交通擁堵的有效方法[2]。但新建或擴(kuò)建現(xiàn)有地鐵線路需要高額投資,因此在規(guī)劃階段需要詳細(xì)評估所規(guī)劃的線路能否滿足居民的實(shí)際出行需求。研究地鐵網(wǎng)絡(luò)擴(kuò)建中乘客的站點(diǎn)選擇行為,對于地鐵新線路的規(guī)劃和選址,以及提高地鐵新線路的運(yùn)營管理水平具有十分重要的理論和實(shí)際意義。
步行是乘客到達(dá)地鐵站點(diǎn)的主要方式[3],乘客從出行起點(diǎn)到地鐵站點(diǎn)間的步行距離是影響乘客出行選擇的重要因素。但在過去的研究中,由于難以獲取高空間分辨率的乘客出行起點(diǎn)信息,研究人員通常利用集計(jì)模型研究步行距離與站點(diǎn)選擇之間的關(guān)系。文獻(xiàn)[4]基于乘客購買火車票的郵政編碼數(shù)據(jù),以郵政編碼區(qū)中心點(diǎn)為乘客出行起點(diǎn),分析了荷蘭鐵路出行用戶對火車站點(diǎn)的出行選擇。文獻(xiàn)[5]基于日本東京交通小區(qū)至地鐵站點(diǎn)的客流數(shù)據(jù),提取交通小區(qū)到地鐵站點(diǎn)的道路網(wǎng)絡(luò)距離,構(gòu)建乘客出行站點(diǎn)選擇模型。文獻(xiàn)[6]采用將個(gè)人層面數(shù)據(jù)匯總的方法,利用上海市人口柵格數(shù)據(jù),以柵格中心點(diǎn)和地鐵站點(diǎn)之間的距離作為乘客步行距離進(jìn)行乘客出行站點(diǎn)的選擇分析。集計(jì)模型以交通小區(qū)為研究對象,缺乏乘客個(gè)體特征,對模型預(yù)測準(zhǔn)確性會造成一定的影響。
非集計(jì)模型以實(shí)際交通出行的個(gè)人為單位,研究結(jié)果可以更好地反映個(gè)體選擇行為,因而在新地鐵線路的出行需求評估中得到廣泛應(yīng)用。在地鐵網(wǎng)絡(luò)擴(kuò)建情景相關(guān)研究中,國內(nèi)外研究人員通?;谡{(diào)查數(shù)據(jù)獲取乘客出行特征和個(gè)體特征,使用非集計(jì)模型進(jìn)行乘客個(gè)體選擇地鐵新線路的行為分析。文獻(xiàn)[7]對希臘雅典的居民進(jìn)行意向(stated preference,SP)調(diào)查,包括乘客的出行時(shí)間、出行成本、出行目的等出行特征,構(gòu)建層次極值Logit 模型探究新地鐵線路開通后乘客選擇不同交通方式的驅(qū)動(dòng)因素。文獻(xiàn)[8]利用SP 調(diào)查方法,調(diào)查了不同性別、職業(yè)、收入、出行目的的乘客在西安新地鐵線路開通前后出行方式的選擇情況,通過邏輯回歸模型分析了更傾向于使用新地鐵線路的乘客的個(gè)體特征。文獻(xiàn)[9]借助烏魯木齊市居民的出行方式選擇行為SP 調(diào)查數(shù)據(jù),不僅調(diào)查了出行者的出行特征和個(gè)體特征,還調(diào)查了居民對交通信息的獲取和采納情況以及乘客的出行方式選擇習(xí)慣,構(gòu)建巢式 Logit模型,預(yù)測了新地鐵線路開通后各出行方式的出行分擔(dān)比例。利用調(diào)查數(shù)據(jù)研究乘客個(gè)體選擇使用新地鐵線路的驅(qū)動(dòng)因素,方法簡單易行。但這通常需要耗費(fèi)巨大的人力和物力資源,并且受樣本代表性的影響較大。
近年來,數(shù)據(jù)驅(qū)動(dòng)的方法被廣泛用于研究各類交通問題,如交通流量的估計(jì)[10]、交通速度分布估計(jì)[11]、出行需求預(yù)測[12]等。公交數(shù)據(jù)的空間分辨率較高,被廣泛用于研究公交網(wǎng)絡(luò)瓶頸路段甄別[13]、公交乘客的移動(dòng)模式[14]、通勤模式[15]以及來源信息[16]。大數(shù)據(jù)技術(shù)和雙層交通網(wǎng)絡(luò)融合方法[17-18]的不斷成熟,使得大范圍研究地鐵乘客的站點(diǎn)選擇行為成為可能。因此本文通過融合公交、地鐵智能卡數(shù)據(jù)及公交車GPS 軌跡數(shù)據(jù),采用大數(shù)據(jù)驅(qū)動(dòng)的方法在更精細(xì)的空間尺度上分析了乘客公交出行質(zhì)心與地鐵站點(diǎn)之間的距離對乘客選擇新地鐵站點(diǎn)的影響,并進(jìn)一步建立Logit 模型預(yù)測乘客是否選擇使用新地鐵站點(diǎn)。
深圳市地鐵地理信息系統(tǒng)(geographic information system, GIS)數(shù)據(jù)由深圳市交通運(yùn)輸委員會提供。2016 年10 月28 日前,深圳地鐵共有6 條線路(1~5 號線、11 號線),132 個(gè)站點(diǎn)。2016 年10 月28 日,深圳地鐵7 號線、9 號線開通運(yùn)營,站點(diǎn)數(shù)量增加到166 個(gè)。7 號線和9 號線與16 個(gè)換乘站相連。
深圳市公交站點(diǎn)GIS 數(shù)據(jù)也由深圳市交通運(yùn)輸委員會提供,深圳市共有公交站點(diǎn)9114 個(gè)。公交站點(diǎn)密度遠(yuǎn)高于地鐵站點(diǎn)密度,這意味著利用公交站點(diǎn)能夠以更高的空間分辨率記錄乘客的出行起點(diǎn)位置信息。而且,在地鐵新線路投入運(yùn)營之前,公交站點(diǎn)就已經(jīng)存在。因此在新地鐵站點(diǎn)投入運(yùn)營之前,其周邊的公交乘客出行信息可以用于預(yù)測乘客在新地鐵站點(diǎn)開通后的出行行為。
本文所使用的地鐵智能卡數(shù)據(jù)和公交智能卡數(shù)據(jù)均由深圳市交通運(yùn)輸委員會提供。在兩組智能卡數(shù)據(jù)中,乘客擁有唯一的匿名ID。因此,可以同時(shí)研究一個(gè)乘客的公交出行和地鐵出行。這為從乘客歷史公交出行中推斷出該乘客未來的地鐵出行起點(diǎn)創(chuàng)造了條件。
地鐵智能卡數(shù)據(jù)的收集時(shí)間為2016 年8 月?2016年12 月,共有10775905 名乘客產(chǎn)生了599786003條地鐵智能卡記錄。其中有12 天數(shù)據(jù)缺失,本研究僅使用剩余的141 天地鐵智能卡數(shù)據(jù)。每條地鐵智能卡記錄包含乘客ID、記錄時(shí)間、交易狀態(tài)和設(shè)備編號。根據(jù)設(shè)備編號可以得到乘客進(jìn)站或出站的站點(diǎn)ID。
公交智能卡數(shù)據(jù)的收集時(shí)間為2016 年8 月?2016年12 月,共有10112676 名乘客產(chǎn)生了451814608條公交智能卡記錄。每條公交智能卡記錄包含乘客ID、公交車牌號和記錄時(shí)間。
為了推斷地鐵新線路開通前乘客的公交上車站點(diǎn),本研究使用了2016 年8 月?2016 年10 月的公交車GPS 軌跡數(shù)據(jù)。每條數(shù)據(jù)記錄包含公交車牌號、記錄時(shí)間、公交車經(jīng)緯度,在數(shù)據(jù)記錄期內(nèi)共有16192 輛公交車產(chǎn)生了3632007303 條公交車GPS軌跡記錄。具體信息如表1 所示。
表1 深圳市公共交通數(shù)據(jù)信息表
為了利用乘客公交出行數(shù)據(jù)充分探究乘客出行起點(diǎn)與地鐵站點(diǎn)間的步行距離對乘客使用新地鐵站點(diǎn)的影響,本文首先分析了地鐵站點(diǎn)吸引區(qū)域及競爭地鐵站點(diǎn),并提出了識別被新地鐵站點(diǎn)吸引的乘客及未被新地鐵站點(diǎn)吸引的乘客的方法。在此基礎(chǔ)上,利用居民空間行為指標(biāo)——出行質(zhì)心,計(jì)算乘客的公交出行質(zhì)心,并將乘客的公交出行質(zhì)心估計(jì)為乘客的出行起點(diǎn),計(jì)算乘客出行起點(diǎn)與地鐵站點(diǎn)間的步行距離。
為了確定可能使用新地鐵站點(diǎn)的乘客,首先分析了地鐵站點(diǎn)的吸引區(qū)域。如圖1 所示,以地鐵站點(diǎn)為圓心,半徑800 m 內(nèi)的區(qū)域被估計(jì)為地鐵站點(diǎn)的吸引區(qū)域[19-20]。地鐵站點(diǎn)吸引區(qū)域內(nèi)的乘客更偏向乘坐地鐵出行。當(dāng)新地鐵站點(diǎn)的吸引區(qū)域與既有地鐵站點(diǎn)的吸引區(qū)域重疊時(shí),部分乘客可能會由在既有地鐵站點(diǎn)乘車轉(zhuǎn)變?yōu)樵谛碌罔F站點(diǎn)乘車。其中,將吸引區(qū)域與新地鐵站點(diǎn)有重疊區(qū)域的既有地鐵站點(diǎn)定義為競爭地鐵站點(diǎn)。
圖1 新地鐵站點(diǎn)的競爭地鐵站點(diǎn)與非競爭地鐵站點(diǎn)示意圖
研究乘客的站點(diǎn)選擇行為需要獲取該乘客的歷史出行數(shù)據(jù)。在新地鐵站點(diǎn)及其競爭地鐵站點(diǎn)的吸引區(qū)域內(nèi)至少有3 次公交出行且在新線路開通前平均每周使用地鐵大于等于1 次的乘客被定義為潛在受影響的乘客。新線路開通后,平均每周使用新地鐵站點(diǎn)大于等于1 次,且使用新地鐵站點(diǎn)次數(shù)大于使用競爭地鐵站點(diǎn)次數(shù)的潛在受影響乘客定義為被吸引乘客pa;新線路開通后,平均每周使用競爭地鐵站點(diǎn)大于等于1 次,且使用競爭地鐵站點(diǎn)次數(shù)大于使用新地鐵站點(diǎn)次數(shù)的潛在受影響乘客定義為未被吸引乘客pna。
乘客歷史公交出行的上車站點(diǎn)數(shù)據(jù)是計(jì)算乘客公交出行質(zhì)心的基礎(chǔ)。采用以下方法獲取乘客的公交上車站點(diǎn)。首先將公交車的GPS 記錄點(diǎn)按時(shí)間排序,將公交軌跡根據(jù)公交線路的起終點(diǎn)分為多段公交行程。然后,計(jì)算每個(gè)公交車的GPS 記錄點(diǎn)與該線路中每個(gè)公交站點(diǎn)k之間的距離,將每段行程中距離k站點(diǎn)最近的GPS 點(diǎn)的記錄時(shí)刻視為公交車b在k站 點(diǎn)的停靠時(shí)刻,依此可以得到所有公交車b在各個(gè)公交站點(diǎn)的停靠時(shí)刻。最后,對于每個(gè)乘客乘車記錄p,以車輛到達(dá)各站點(diǎn)的時(shí)刻作為聚類中心,以最小時(shí)間差為標(biāo)準(zhǔn),將乘客的乘車記錄時(shí)刻聚類到各個(gè)類別中,各聚類中心的站點(diǎn)k為該類別中乘客的上車站點(diǎn)k[16,21-22]。
如圖2 所示,新地鐵站點(diǎn)與競爭地鐵站點(diǎn)吸引范圍的并集構(gòu)成了研究乘客地鐵站點(diǎn)選擇行為的區(qū)域。經(jīng)統(tǒng)計(jì),深圳地鐵站點(diǎn)800 m 吸引范圍內(nèi)平均有26 個(gè)公交站點(diǎn),公交站點(diǎn)的分布密度遠(yuǎn)高于地鐵站點(diǎn)的分布密度。文獻(xiàn)[23]研究發(fā)現(xiàn),公共交通密度更高的區(qū)域,乘客的平均步行距離更短。乘客乘坐公交的平均步行距離要遠(yuǎn)低于乘坐地鐵的平均步行距離,這意味著公交站點(diǎn)能夠以更高的空間分辨率記錄乘客的出行起點(diǎn)位置信息。綜合考慮每個(gè)公交站點(diǎn)的位置和乘客在公交站點(diǎn)的上車次數(shù)對乘客的出行起點(diǎn)進(jìn)行估計(jì)。
圖2 乘客公交出行質(zhì)心計(jì)算示意圖
近年來,居民空間行為分析與建模領(lǐng)域發(fā)展迅速[24-28],本文利用居民空間行為指標(biāo)——出行質(zhì)心[29]以及乘客的公交上車站點(diǎn)來計(jì)算乘客的公交出行質(zhì)心,并將該位置估算為乘客的出行起點(diǎn)。其中,對于乘客的公交上車站點(diǎn),不考慮乘客從地鐵換乘公交時(shí)的公交上車記錄,即乘客從地鐵出站后30 分鐘內(nèi)的公交上車記錄[17]。
乘客公交出行質(zhì)心的計(jì)算方法如圖2 所示,對于每個(gè)潛在受影響乘客,將研究區(qū)域內(nèi)的公交站點(diǎn)(如r4,r5,r6,r7,r8,r9,r10,r11)視為質(zhì)點(diǎn),不考慮研究區(qū)域外的公交站點(diǎn)(如r1,r2,r3)。然后將乘客在每個(gè)公交站點(diǎn)的上車次數(shù)作為每個(gè)質(zhì)點(diǎn)的權(quán)重,反映在圖2 中為圓圈的大小。最后,加權(quán)平均各個(gè)質(zhì)點(diǎn)的位置得到乘客公交出行質(zhì)心:
式中,i為公交站點(diǎn)序號;ni為 乘客在公交站點(diǎn)i的上車次數(shù);ri為 公交站點(diǎn)i的位置坐標(biāo);N為乘客的公交出行總次數(shù)。
在計(jì)算了每個(gè)乘客的公交出行質(zhì)心rcm后,分別計(jì)算乘客公交出行質(zhì)心rcm與 新地鐵站點(diǎn)rn和競爭地鐵站點(diǎn)rc之 間的距離,分別用dn和dc表示,用于評估乘客從出行起點(diǎn)前往新地鐵站點(diǎn)和相應(yīng)競爭地鐵站點(diǎn)的便利程度。
分別對被吸引乘客pa和 未被吸引乘客pna的公交出行質(zhì)心rcm與 新地鐵站點(diǎn)rn、 競爭地鐵站點(diǎn)rc間的距離dn和dc進(jìn)行分析,如圖3 所示。結(jié)果表明,有79.94%的被吸引乘客的公交出行質(zhì)心更靠近新地鐵站點(diǎn)(dc?dn>0),而86.37%的未被吸引乘客的公交出行質(zhì)心更靠近競爭地鐵站點(diǎn)(dc?dn<0)。結(jié)果表明,大多數(shù)乘客(86.15%)使用地鐵出行時(shí)會選擇距離他們公交出行質(zhì)心更近的地鐵站點(diǎn)。
圖3 不同d c ?dn 下的乘客地鐵出行站點(diǎn)選擇概率
少數(shù)乘客在使用地鐵出行時(shí)會選擇距離其公交出行質(zhì)心較遠(yuǎn)的地鐵站點(diǎn),這可能是因?yàn)槌丝偷墓怀鲂匈|(zhì)心在兩個(gè)站點(diǎn)吸引區(qū)域的重疊區(qū)域內(nèi),距離因素的影響有所降低。如圖 3 所示,對于被新地鐵站點(diǎn)吸引但質(zhì)心離競爭地鐵站點(diǎn)更近的乘客,有68.53%的乘客質(zhì)心在新地鐵站點(diǎn)800 m 的吸引范圍內(nèi);而未被新地鐵站點(diǎn)吸引但質(zhì)心離新地鐵站點(diǎn)站更近的乘客,有57.76%的乘客質(zhì)心在競爭地鐵站點(diǎn)800 m 的吸引范圍內(nèi)。
Logit 模型是研究出行選擇行為時(shí)常用的離散選擇模型。Logit 模型假設(shè)出行者會選擇隨機(jī)效用最高的交通方式,被廣泛應(yīng)用于交通方式劃分問題。本文使用Logit 模型預(yù)測乘客是否會選擇乘坐新地鐵站點(diǎn)。
本文利用乘客公交出行質(zhì)心與地鐵站點(diǎn)間的距離(dn和dc)建立Logit 模型,選擇使用新地鐵站點(diǎn)與其相應(yīng)競爭地鐵站點(diǎn)的概率關(guān)系為:
其中,
因此,
本研究隨機(jī)抽取50%的乘客數(shù)據(jù)集作為模型的訓(xùn)練集,剩余50%的數(shù)據(jù)集作為模型的測試集。由于數(shù)據(jù)集中被吸引乘客pa和未被吸引乘客pna樣本數(shù)之比約為1:30,屬于典型的類別不平衡問題。本文通過欠采樣[30]來調(diào)整數(shù)據(jù)的不平衡,即隨機(jī)抽取數(shù)據(jù)集中未被吸引乘客pna,使得模型的訓(xùn)練集和測試集中的被吸引乘客pa和未被吸引乘客pna的樣本數(shù)保持相同。然后借助極大似然估計(jì)方法(式(6)),求得 α=1.003, β =1.297 2。Logit 模型預(yù)測結(jié)果的混淆矩陣如圖4 所示。
圖4 Logit 模型預(yù)測結(jié)果的混淆矩陣
其中,
式中,xi為 樣本Xi的觀測值,Xi∈X;P(Xi=xi;θ)為總體X的分布律; θ是未知參數(shù), θ ∈Θ , Θ是參數(shù)空間。
準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)、特異性(specificity)是確定分類模型性能的常用度量指標(biāo)[31],分別為:
式中,TP 表示實(shí)際是pa且預(yù)測為pa的數(shù)量;FN 表示實(shí)際是pa但預(yù)測為pna的數(shù)量;FP 表示實(shí)際是pna但 預(yù)測為pa的 數(shù)量;TN 表示實(shí)際是pna且預(yù)測為pna的數(shù)量。
Logit 模型的準(zhǔn)確率為83.87%,精確率為84.23%,召回率為83.66%,特異性為84.09%。結(jié)果表明,通過引入出行質(zhì)心度量,Logit 模型能夠有效預(yù)測潛在受影響乘客出行時(shí)是否會使用其公交出行質(zhì)心附近的新地鐵站點(diǎn)或繼續(xù)使用競爭地鐵站點(diǎn)。
Logit 模型是乘客出行選擇研究的傳統(tǒng)模型。地鐵乘客的站點(diǎn)選擇問題屬于二分類問題,BP(back propagation)神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(support vector machine, SVM)是機(jī)器學(xué)習(xí)中解決二分類問題的常用方法,部分研究人員也通過機(jī)器學(xué)習(xí)中BP 神經(jīng)網(wǎng)絡(luò)[32]和支持向量機(jī)[33]對乘客的出行選擇進(jìn)行預(yù)測。
BP 神經(jīng)網(wǎng)絡(luò)是一種誤差逆向傳播的多層前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)包含了輸入層、隱藏層和輸出層, 本文以乘客公交出行質(zhì)心與地鐵站點(diǎn)間的距離(dn和dc)作為輸入,乘客是否選擇新地鐵站點(diǎn)作為輸出。本研究隱藏層取7 個(gè)節(jié)點(diǎn)數(shù),隨機(jī)數(shù)生成器選取種子數(shù)為1,懲罰參數(shù)為0.00001、采用默認(rèn)的激活函數(shù)(relu 函數(shù))、最大迭代次數(shù)200、優(yōu)化容忍度0.0001。本文首先通過式(9)對輸入特征進(jìn)行歸一化,并根據(jù)式(10)得到隱藏層節(jié)點(diǎn)個(gè)數(shù)K。最后以最小化誤差為目標(biāo),通過擬牛頓法優(yōu)化器進(jìn)行優(yōu)化求解,取誤差最小的隱藏層節(jié)點(diǎn)數(shù)的結(jié)果作為預(yù)測結(jié)果:
式中,xij為樣本i的 第j個(gè)特征;為歸一化后的特征;為第j個(gè)特征的均值;fstd(·)為標(biāo)準(zhǔn)差函數(shù)。
式中,K是隱藏層的節(jié)點(diǎn)數(shù);m是輸入層的節(jié)點(diǎn)數(shù);n是 輸出層的節(jié)點(diǎn)數(shù);a是0~10 之間的整數(shù)。
SVM 是一種監(jiān)督學(xué)習(xí)的分類器,它通過輸入特征構(gòu)建的特征空間中的超平面,將待學(xué)習(xí)樣本進(jìn)行分類。本文基于乘客公交出行質(zhì)心與地鐵站點(diǎn)間的距離(dn和dc)作為輸入特征,通過式(9)進(jìn)行歸一化,利用多項(xiàng)式核函數(shù),對乘客的出行站點(diǎn)選擇進(jìn)行分類學(xué)習(xí)和預(yù)測。本研究使用的錯(cuò)誤項(xiàng)懲罰系數(shù)為1,核函數(shù)階數(shù)為3,核函數(shù)系數(shù)為樣本特征數(shù)的倒數(shù),核函數(shù)獨(dú)立項(xiàng)為0,采用啟發(fā)式收縮方式,取0.001 為停止訓(xùn)練的誤差精度。
3 類模型的乘客站點(diǎn)選擇分類預(yù)測結(jié)果如表2所示。
表2 3 類模型的乘客站點(diǎn)選擇預(yù)測結(jié)果
3 類模型的預(yù)測結(jié)果差異不大且都表現(xiàn)良好,這表明基于乘客出行質(zhì)心的方法能夠有效地對乘客出行站點(diǎn)選擇進(jìn)行預(yù)測。Logit 模型在3 類模型中不僅有更高的精確率(84.23%)和特異性(84.09%),而且Logit 模型基于隨機(jī)效用理論進(jìn)行選擇預(yù)測,相較于機(jī)器學(xué)習(xí)模型有更好的可解釋性。
1) 通過利用數(shù)據(jù)互補(bǔ)、跨交通方式數(shù)據(jù)融合技術(shù),在更精細(xì)的空間尺度上分析了地鐵乘客出行站點(diǎn)的選擇行為,彌補(bǔ)了先前研究通過調(diào)查獲取數(shù)據(jù)的不足,提出了研究地鐵乘客站點(diǎn)選擇行為的新方法。
2) 引入居民空間行為指標(biāo)——出行質(zhì)心,發(fā)現(xiàn)乘客公交出行質(zhì)心與地鐵站點(diǎn)間的距離是影響乘客使用新地鐵站點(diǎn)的重要因素,并建立了相應(yīng)的站點(diǎn)選擇Logit 預(yù)測模型,為探索影響乘客使用新地鐵站點(diǎn)的因素提供了新思路。
3) 研究發(fā)現(xiàn)乘客通常會選擇距離自身公交出行質(zhì)心更近的地鐵站點(diǎn),研究有助于在地鐵新線路開通前識別被新地鐵站點(diǎn)吸引的乘客,為地鐵新線路的選址規(guī)劃及運(yùn)營管理提供關(guān)鍵信息。
4) 由于缺乏步行數(shù)據(jù),本文估算的乘客出行起點(diǎn)與實(shí)際出行起點(diǎn)存在一定的誤差。未來在獲取步行數(shù)據(jù)的情況下,可在現(xiàn)有研究基礎(chǔ)上研究地鐵站點(diǎn)的實(shí)際吸引區(qū)域,預(yù)測新地鐵站點(diǎn)開通后從競爭地鐵站點(diǎn)到新地鐵站點(diǎn)的客流轉(zhuǎn)移。