翁劍成涂 強(qiáng)袁榮亮王月玥
(1.北京工業(yè)大學(xué)交通工程北京市重點(diǎn)實(shí)驗(yàn)室,100124,北京;2.北京市城市規(guī)劃設(shè)計(jì)研究院,100044,北京;3.北京市軌道交通指揮中心,100101,北京∥第一作者,副教授)
隨著智能公共交通系統(tǒng)的不斷發(fā)展及其技術(shù)突破,城市公共交通運(yùn)行、服務(wù)等方面的動(dòng)態(tài)數(shù)據(jù)持續(xù)積累,智能卡刷卡交易及車輛GPS(全球定位系統(tǒng))位置等數(shù)據(jù)已形成了海量的規(guī)模。
基于良好的數(shù)據(jù)基礎(chǔ),很多學(xué)者利用智能卡數(shù)據(jù)在公共交通用戶出行行為分析方面做了大量研究,主要包括出行者的出行起點(diǎn)/終點(diǎn)(OD)、出發(fā)時(shí)間、行程時(shí)間和換乘特征等方面。文獻(xiàn)[1]利用倫敦市的公交智能卡數(shù)據(jù),研究了地鐵與其他公交系統(tǒng)換乘之間出行階段的連接時(shí)間閾值。文獻(xiàn)[2]基于韓國(guó)智能卡數(shù)據(jù)記錄信息,對(duì)乘客公共交通出行時(shí)間及換乘特征進(jìn)行了分析。文獻(xiàn)[3]基于智能卡數(shù)據(jù),提出了用于預(yù)測(cè)公共交通出行者的活動(dòng)目的、出行地點(diǎn)、出行時(shí)間、持續(xù)時(shí)間的方法。文獻(xiàn)[4]利用刷卡數(shù)據(jù)揭示了深圳市通勤人群在出發(fā)時(shí)間、出行耗時(shí)、換乘特征等方面的規(guī)律。文獻(xiàn)[5]提出了基于智能卡信息采集技術(shù)的公交客流及出行信息的分析方法。文獻(xiàn)[6]提出基于多源數(shù)據(jù)的公共交通通勤出行特征提取方法,但通勤人群識(shí)別僅依據(jù)一周的出行頻次,可靠度較低。文獻(xiàn)[7]利用智能卡和問卷調(diào)查數(shù)據(jù),建立了基于決策樹模型的通勤人群分類器,精度較高。
這些研究都是基于智能卡數(shù)據(jù),以單次刷卡記錄為研究對(duì)象對(duì)公共交通出行者出行行為進(jìn)行詳細(xì)分析。然而,在城市公共交通系統(tǒng)網(wǎng)絡(luò)化、出行模式多樣化的背景下,應(yīng)重點(diǎn)解決換乘行為的判別問題,注重從“完整出行”的角度研究乘客的出行行為,以期更客觀、準(zhǔn)確地描述出行者的出行特征與需求時(shí)空分布。此外,與非通勤人群相比,通勤人群在換乘特征、出行頻率等方面有明顯的差異性。現(xiàn)有研究在出行行為分析時(shí)缺乏對(duì)不同出行者的科學(xué)分類,無法確切表達(dá)通勤人群的出行特點(diǎn)與資源時(shí)空需求。
本文擬利用海量的智能卡交易數(shù)據(jù),研究城市公共交通系統(tǒng)出行鏈的連接方法,并引入機(jī)器學(xué)習(xí)方法進(jìn)行通勤人群判別,為實(shí)現(xiàn)公共交通出行行為的精細(xì)化分析提供技術(shù)支持,為城市公共交通規(guī)劃與管理提供更為準(zhǔn)確的指導(dǎo)。
公共交通刷卡數(shù)據(jù)是進(jìn)行出行鏈提取、出行者類型識(shí)別及出行行為特征分析的基礎(chǔ),包含道路公交智能卡數(shù)據(jù)和城市軌道交通自動(dòng)售檢票(AFC)系統(tǒng)刷卡數(shù)據(jù)兩種來源。
目前,城市軌道交通AFC系統(tǒng)主要用以記錄用戶卡號(hào)、進(jìn)出站點(diǎn)編號(hào)及時(shí)間等信息。由于乘客在軌道交通網(wǎng)絡(luò)內(nèi)部換乘時(shí)不需要再次刷卡,因此AFC數(shù)據(jù)無法直接記錄乘客在軌道交通系統(tǒng)內(nèi)部的換乘行為,但根據(jù)其出行軌跡可獲取不同出行OD所對(duì)應(yīng)的換乘次數(shù)。
本文以北京市2014年9月的公共交通刷卡數(shù)據(jù)作為研究基礎(chǔ)。2014年北京市道路公共交通系統(tǒng)的計(jì)費(fèi)方式同時(shí)包括一票制和分段計(jì)價(jià)制兩種,可覆蓋大多數(shù)城市的情況,具有普適性。其中:一票制只能準(zhǔn)確記錄乘客的上車站點(diǎn)信息,下車時(shí)間和站點(diǎn)位置缺失;分段計(jì)價(jià)制雖然上下車均需刷卡,但上車站點(diǎn)信息缺失的現(xiàn)象明顯,且準(zhǔn)確度較低,往往只有下車站點(diǎn)信息相對(duì)準(zhǔn)確。以往基于智能卡數(shù)據(jù)推算道路公交上下車站點(diǎn)信息的研究較多,在此不作為重點(diǎn)研究對(duì)象。
為了完整分析公共交通出行者的出行過程,按照以下步驟剔除與出行特征分析無關(guān)的數(shù)據(jù)字段,并對(duì)軌道交通和道路公交的異源數(shù)據(jù)進(jìn)行整合。
(1)關(guān)鍵字段提?。簭牡缆饭缓蛙壍澜煌ㄋ⒖〝?shù)據(jù)庫(kù)中提取與出行特征相關(guān)的字段,包括用戶卡號(hào)、進(jìn)出線路號(hào)、進(jìn)出站車站編號(hào)、進(jìn)出站時(shí)間等7個(gè)有效字段;
(2)數(shù)據(jù)整合:以卡號(hào)為關(guān)聯(lián)條件,將同一用戶的刷卡記錄按照刷卡時(shí)間排序,為一票制、分段計(jì)價(jià)制道路公交和軌道交通線路等3類數(shù)據(jù)增加出行階段類型的數(shù)據(jù)標(biāo)記,分別記為B1、B2和R。公共交通刷卡數(shù)據(jù)整合表如表1所示。
表1 公共交通刷卡數(shù)據(jù)整合表
將城市公共交通出行鏈定義為從出行的起始站點(diǎn)到目的站點(diǎn),由一個(gè)或多個(gè)地鐵及道路公交的出行階段按照時(shí)間順序組成的一次完整的出行過程。其中,一個(gè)出行階段指從道路公交出發(fā)站點(diǎn)刷卡上車或軌道交通進(jìn)站起,經(jīng)過在途出行(可包含軌道交通內(nèi)部換乘)后刷卡下車或出站的過程。因此每一條刷卡數(shù)據(jù)記錄都可表示一個(gè)出行階段。出行階段與出行鏈?zhǔn)疽鈭D如圖1所示。
圖1 城市公共交通出行鏈二維結(jié)構(gòu)圖
基于經(jīng)過整合的公共交通刷卡數(shù)據(jù),將所有刷卡記錄按照時(shí)間順序進(jìn)行排序,利用一卡通卡號(hào)字段鎖定同一用戶,根據(jù)相鄰出行記錄時(shí)間差進(jìn)行換乘關(guān)系識(shí)別,劃分或者連接該用戶的所有出行階段。由此方法確定的公共交通出行鏈可由一個(gè)或多個(gè)出行階段組成,設(shè)第i個(gè)出行階段的上、下車(或進(jìn)、出站)刷卡時(shí)間分別為Ti-ON和Ti_OFF,則相鄰出行階段之間的換乘時(shí)間可由Ti+1_ON-Ti_OFF表示(見圖2)。
圖2 前后兩個(gè)出行階段時(shí)間分布示意圖
2.1.1 換乘關(guān)系判別閾值
在刷卡數(shù)據(jù)中,單次(一票制)刷卡道路公交只記錄上車時(shí)間TB1-ON、雙次(分段計(jì)價(jià)制)刷卡道路公交只記錄下車時(shí)間TB2-OFF,軌道交通同時(shí)記錄進(jìn)站時(shí)間TR-ON和出站時(shí)間TR-OFF。因此,三種出行模式間的換乘交易時(shí)間差閾值包含了不同的時(shí)間組成,部分換乘結(jié)構(gòu)的交易時(shí)間差閾值中包含公交在途時(shí)間(見表 2)。
根據(jù)道路公交站點(diǎn)服務(wù)水平及軌道交通站點(diǎn)吸引范圍的相關(guān)研究[8-9],確定道路公交與道路公交、道路公交與軌道交通間在理論上可接受的最大換乘時(shí)間(不含在途時(shí)間)。根據(jù)所有道路公交線路的運(yùn)營(yíng)里程和高峰時(shí)段的運(yùn)行速度,確定B1或B2理論上的最大可接受在途時(shí)間。根據(jù)不同的公共交通換乘模式,共劃分出8種換乘類型。選取一個(gè)月的多模式刷卡數(shù)據(jù)(約1 500萬條/日),連接同一卡號(hào)用戶的相鄰出行階段,分別計(jì)算這8種換乘類型的交易時(shí)間差?;诶塾?jì)頻率在95%位的刷卡實(shí)際交易時(shí)間差,確定各換乘類型的交易時(shí)間差閾值(部分包含在途時(shí)間),如表2所示。
表2 8種出行階段連接類型換乘關(guān)系判別實(shí)際交易時(shí)間差閾值
2.1.2 出行鏈結(jié)構(gòu)提取
基于城市公共交通系統(tǒng)內(nèi)各換乘關(guān)系的時(shí)間判別閾值,可實(shí)現(xiàn)出行鏈結(jié)構(gòu)的提取。在表1的基礎(chǔ)上增加以下標(biāo)記字段:“CHAIN”代表該刷卡記錄處于該公共交通卡用戶的第i條出行鏈;“JS”代表該刷卡記錄處于所屬出行鏈的第k個(gè)階段。基于公共交通卡卡號(hào)及上車時(shí)間字段,對(duì)表1中的刷卡記錄進(jìn)行排序,采用圖3所示流程即可實(shí)現(xiàn)出行鏈結(jié)構(gòu)的提取與標(biāo)記。
圖3 公共交通出行鏈結(jié)構(gòu)信息標(biāo)記流程
選取396名志愿者,記錄他們連續(xù)10個(gè)工作日的公共交通出行過程,包括通勤出行和非通勤出行。志愿者按照出行次序,完整記錄每一次出行過程包含的所有乘車信息,包括乘坐的交通方式、線路號(hào)、上車和下車站點(diǎn)及刷卡時(shí)間等。
根據(jù)志愿者卡號(hào),匹配刷卡交易記錄中的數(shù)據(jù),進(jìn)行出行鏈提取,對(duì)比模型提取結(jié)果與實(shí)際出行過程的吻合程度。共記錄了284條包含換乘的出行鏈,包含577個(gè)出行階段,共有15種出行鏈結(jié)構(gòu)。驗(yàn)證結(jié)果顯示,模型的出行鏈結(jié)構(gòu)提取成功率為96.1%(見表3)。道路公交出行記錄信息的不完備造成部分換乘交易時(shí)間差閾值中包含了道路公交在途時(shí)間,對(duì)出行鏈提取的準(zhǔn)確度影響較大。但目前的提取成功率可以基本滿足換乘特征分析的精度要求。
表3 公共交通出行鏈結(jié)構(gòu)提取成功率
在數(shù)據(jù)挖掘技術(shù)中,“分類識(shí)別”十分重要且具有廣泛的應(yīng)用價(jià)值。目前,機(jī)器學(xué)習(xí)分類器的核心算法種類多樣[10],各類算法的分類原理、適用范圍和精度特點(diǎn)各有差異。
機(jī)器學(xué)習(xí)分類器的建立過程可分訓(xùn)練和測(cè)試兩部分,構(gòu)建過程與步驟如圖4所示。
采用網(wǎng)絡(luò)問卷、現(xiàn)場(chǎng)調(diào)查等方式,并通過對(duì)調(diào)查樣本一周刷卡數(shù)據(jù)特征進(jìn)行校驗(yàn),最終確定了978位公共交通出行者為樣本人群,其中包括490位通勤出行者和488位非通勤出行者。
為了使分類器能夠了解各類出行人群的出行特征,從而增強(qiáng)分類器的泛化性和推廣性,在基礎(chǔ)數(shù)據(jù)選擇時(shí)需要注重樣本的多樣性。因此,在選擇樣本數(shù)據(jù)時(shí),考慮了出行人群在性別比例、年齡結(jié)構(gòu)和出行結(jié)構(gòu)等方面的均衡性。此外,在樣本數(shù)據(jù)選擇時(shí)還考慮了樣本數(shù)據(jù)的出發(fā)時(shí)間、出行距離和出行時(shí)間等要素。
通勤出行具有以下特點(diǎn):出行的往返性、出發(fā)時(shí)間的規(guī)律性、出行方式選擇的固定性、線路選擇的多樣性。而非通勤出行的上述特征并不明顯。因此,可選取上車和下車刷卡時(shí)間、上車和下車線路編號(hào)、上車和下車站點(diǎn)編號(hào)作為特征值描述每個(gè)公共交通出行者的出行特征。
圖4 機(jī)器學(xué)習(xí)分類模型的建立過程
(1)訓(xùn)練與測(cè)試集準(zhǔn)備:將全部樣本數(shù)據(jù)按照7∶3的比例隨機(jī)劃分為訓(xùn)練集與測(cè)試集。
(3)模型訓(xùn)練:選取多種機(jī)器學(xué)習(xí)算法進(jìn)行模型訓(xùn)練,包括決策樹(Decision Tree)、逐步增強(qiáng)法(AdaBoost)、感應(yīng)器 (Perception)、支持向量機(jī)(SVM)、隨機(jī)森林(Random Forest)、梯度提升樹(Gradient Boosting Tree)等,基本涵蓋了常用的機(jī)器學(xué)習(xí)算法。
(4)模型評(píng)價(jià):采用分類準(zhǔn)確度A、召回率R和精準(zhǔn)度P來評(píng)估模型的分類效果。三個(gè)參數(shù)的計(jì)算公式如下:
式中:
PS——通勤人群的樣本數(shù)量;
NS——非通勤人群的樣本數(shù)量;
TP——可正確識(shí)別的通勤人群的數(shù)量;
TN——可正確識(shí)別的非通勤人群的數(shù)量;
施工人員在基坑開挖期間首先要開挖兩邊,主要采取機(jī)械和人工兩者結(jié)合的方式行。在實(shí)際開挖時(shí)要對(duì)土質(zhì)在基坑底部的變化情況尤其注重,一旦發(fā)現(xiàn)土質(zhì)在基坑底部的狀況不符合工程設(shè)計(jì),則要將開挖工作立刻停止,并進(jìn)行實(shí)際情況的反饋。通過和監(jiān)理與相關(guān)設(shè)計(jì)單位的溝通出現(xiàn)的狀況進(jìn)行綜合分析,從而將有效的解決措施制定出來,再繼續(xù)實(shí)施開挖工作,這樣可以使開挖工作的進(jìn)行順利開展;其次設(shè)計(jì)標(biāo)準(zhǔn)高度在一定程度上達(dá)到時(shí)為了將基坑底部受到的干擾影響減少,使開發(fā)工作的質(zhì)量得以確保,應(yīng)當(dāng)將正在進(jìn)行的機(jī)械開挖工作暫停并轉(zhuǎn)為人工開挖。
FP——把非通勤人群識(shí)別為通勤人群的數(shù)量。
基于測(cè)試集的293個(gè)樣本采用不同的算法進(jìn)行模型評(píng)價(jià),計(jì)算結(jié)果如圖5所示。結(jié)果顯示,隨機(jī)森林算法的分類準(zhǔn)確度最高,達(dá)99.96%,且召回率和精準(zhǔn)度也明顯高于其他算法。與已有的基于決策樹的通勤人群鑒別方法[7](準(zhǔn)確度98.1%,召回率81.0%)相比,模型精度有明顯提升。因此,隨機(jī)森林算法在出行人群分類中具有最好的適用性,可實(shí)現(xiàn)高精度的通勤人群鑒別。
圖5 機(jī)器學(xué)習(xí)分類效果評(píng)價(jià)截圖
利用提出的出行鏈提取方法和基于機(jī)器學(xué)習(xí)的出行人群分類模型,選取了北京市2014年9月一周的公共交通刷卡數(shù)據(jù)(當(dāng)時(shí)尚未實(shí)施公交票改,數(shù)據(jù)普適性較好),對(duì)公共交通的出行人群結(jié)構(gòu)、出行鏈與換乘特征進(jìn)行了初步分析。
通過分析可知,北京市每天采用公共交通通勤出行的人數(shù)在270萬左右,出行量較為穩(wěn)定,占公共交通日均出行總?cè)藬?shù)的52.5%。
在公共交通出行資源使用方面,通勤出行的公共交通使用頻次明顯高于非通勤出行。通勤出行日均刷卡次數(shù)為750萬次,占刷卡總量的58.6%。同時(shí),一周的不同工作日,通勤人群的出行特征和構(gòu)成比例也相對(duì)穩(wěn)定。
通勤人群出行鏈結(jié)構(gòu)特征如表4所示。由表4可知:無換乘出行鏈(不包含軌道交通線網(wǎng)內(nèi)的換乘)的通勤人群占比約為66.4%。此外,在含有軌道交通模式的通勤出行鏈中,約有28%的通勤者乘坐軌道交通前后需要采用道路公交接駁的方式完成出行,這反映北京市軌道交通線網(wǎng)在可達(dá)性方面有待提高。變異系數(shù)表示各結(jié)構(gòu)類型出行鏈數(shù)量在統(tǒng)計(jì)期內(nèi)的穩(wěn)定程度。結(jié)果表明,不同結(jié)構(gòu)類型的出行鏈在每天的數(shù)據(jù)量和占比中均較穩(wěn)定,變異系數(shù)均在3%以內(nèi)。
表4 通勤人群出行鏈結(jié)構(gòu)特征分析表
出行者平均換乘系數(shù)是衡量出行直達(dá)程度、反映乘車方便程度的指標(biāo)。換乘系數(shù)越低,表明乘客出行直達(dá)程度越高,計(jì)算方法如下:
本案例的乘客平均換乘系數(shù)計(jì)算結(jié)果如表5所示。
表5 乘客平均換乘系數(shù)
表5的計(jì)算結(jié)果表明,通勤出行者的平均換乘系數(shù)明顯高于非通勤出行者。這說明受到出行時(shí)耗和工作地點(diǎn)的限制,通勤人群出行過程中存在更多換乘。
研究利用公共交通刷卡數(shù)據(jù),建立了城市公共交通系統(tǒng)出行鏈連接方法和基于機(jī)器學(xué)習(xí)的出行人群分類模型,通過實(shí)際出行調(diào)查和測(cè)試樣本集驗(yàn)證了出行鏈連接方法和出行人群分類模型的精度,并初步分析了北京市居民出行特征。結(jié)果表明,該特征提取分析方法可以有效識(shí)別通勤人群的城市公共交通系統(tǒng)出行鏈結(jié)構(gòu)及換乘特性。
在今后的研究中,可通過增加分類訓(xùn)練集的樣本量,以提高分類器的準(zhǔn)確性與泛化性;從出行鏈的出行時(shí)間、上下車位置和換乘過程等維度進(jìn)一步進(jìn)行分析與信息挖掘,為城市軌道交通及道路公交線路規(guī)劃與站點(diǎn)布局優(yōu)化等提供更準(zhǔn)確的數(shù)據(jù)支撐。