冷夢(mèng)甜,徐鋒,曾燁,王振,耿薇
(廣東嶺南通股份有限公司,廣東 廣州 510000)*
現(xiàn)代城市公共交通包括常規(guī)公交、有軌電車和BRT、地鐵和輕軌三大體系.其中地鐵和輕軌在解決大城市的出行難問(wèn)題中有顯著的效果,并且由于其在地下運(yùn)行或郊區(qū)地面運(yùn)行的特點(diǎn),使其成為城市發(fā)展的主要方向之一.根據(jù)行業(yè)專家分析預(yù)測(cè)全國(guó)地鐵通車?yán)锍痰?020年將達(dá)到9226.7km[1].因此為了研究城市公共交通的狀況,分析乘客上下車站點(diǎn)的軌跡是研究的熱點(diǎn)方向[2-4].李思杰、武明超等[5-9]根據(jù)手機(jī)移動(dòng)信號(hào)及定位系統(tǒng)研究了乘客的動(dòng)態(tài)OD,該方法依賴乘客使用手機(jī)定位系統(tǒng)的使用率.其中為了獲得終端與站點(diǎn)之間的關(guān)系需通過(guò)人工采集的方式[10-11].
人工采集耗時(shí)耗財(cái),并難以常規(guī)化,因此本文研究一種可基于極低的采集成本和公開(kāi)的信息,高效、準(zhǔn)確地找出終端與站點(diǎn)的對(duì)應(yīng)關(guān)系的方法.
此次用于研究的IC卡數(shù)據(jù)主要是通過(guò)如圖1所示的流程進(jìn)行采集,具體流程如下:①數(shù)據(jù)產(chǎn)生:乘客將IC卡放置于車載終端上,卡號(hào)和交易時(shí)間等信息被記錄;②數(shù)據(jù)傳遞:第一步,數(shù)據(jù)通過(guò)導(dǎo)入或者無(wú)線傳輸?shù)确绞剿椭练止芮逅阒行?;第二步,?shù)據(jù)從分管清算中心傳輸?shù)絀C卡管理中心;第三步,IC卡管理中心將數(shù)據(jù)以通訊方式傳送到數(shù)據(jù)庫(kù)[12].
圖1 公交IC卡數(shù)據(jù)采集流程
此次采用的IC卡刷卡數(shù)據(jù)為廣州市地鐵刷卡一年的數(shù)據(jù)(2017年9月1日~2018年8月31日),總共收集了約14億條刷卡數(shù)據(jù),所得的IC卡交易數(shù)據(jù)結(jié)構(gòu)包括邏輯卡號(hào)、進(jìn)站時(shí)間、進(jìn)站終端編號(hào)、交易票價(jià)、出站時(shí)間、出站終端編號(hào)等信息,其中此次所用的信息如表1所示.
表1 地鐵IC卡刷卡數(shù)據(jù)(部分字段)
為了更好地提高數(shù)據(jù)分析結(jié)果的準(zhǔn)確度,本研究方法對(duì)采集數(shù)據(jù)進(jìn)行清洗、融合、變換、歸約等預(yù)處理操作[13].首先,IC卡刷卡數(shù)據(jù)可能因?yàn)樗⒖▌?dòng)作、終端環(huán)境等造成一定的影響而產(chǎn)生異常數(shù)據(jù),這些數(shù)據(jù)如果不清洗加以排除,可能對(duì)分析結(jié)果的準(zhǔn)確性造成不可預(yù)知的影響,需對(duì)數(shù)據(jù)進(jìn)行如下的清理[14]:①刪除非CPU卡交易數(shù)據(jù),因?yàn)椴糠址荂PU卡交易的入閘終端編號(hào)不完整;②刪除進(jìn)站終端編號(hào)與出站終端編號(hào)相等,或者進(jìn)站終端編號(hào)為空或非法格式,或者進(jìn)站終端編號(hào)為空或非法字符的交易記錄;③刪除交易金額為0的記錄;④刪除進(jìn)站終端編號(hào)與上次出站終端編號(hào)不一致的記錄;⑤刪除無(wú)用字段,對(duì)交易記錄按進(jìn)站終端編號(hào)、出站終端編號(hào)、票價(jià)3個(gè)字段分組;⑥進(jìn)站終端與出站終端一般不會(huì)是同一編號(hào),為清除臨時(shí)調(diào)整少量終端的影響,如果出現(xiàn)既是進(jìn)站終端又是出站終端,記錄終端編號(hào),比較該終端編號(hào)作為進(jìn)站終端和出站終端的交易記錄數(shù)量,如作為進(jìn)站終端的交易記錄數(shù)大于作為出站終端的交易記錄數(shù),則刪除所有出站終端編號(hào)為該終端編號(hào)的交易記錄;⑦理論上交易記錄中只要進(jìn)站終端編號(hào)、出站終端編號(hào)一致,票價(jià)也就應(yīng)一致.但實(shí)際上有時(shí)也因數(shù)據(jù)錯(cuò)誤,也存在進(jìn)站終端編號(hào)、出站終端編號(hào)一致但交易票價(jià)不同的情況.這種情況下,應(yīng)取信息數(shù)量最大的分組,刪除其他記錄,整理交易記錄后形成終端票價(jià)表(TP表),如表2所示.
表2 終端票價(jià)表
通過(guò)IC卡刷卡數(shù)據(jù)整理出所有產(chǎn)生過(guò)交易的終端編號(hào),將其中日均使用頻率較高的1000個(gè)終端繪制成表,如表3(TL表)所示.
表3 終端編號(hào)表
在地鐵運(yùn)營(yíng)商網(wǎng)站可以很容易獲取當(dāng)前地鐵線路和站點(diǎn)信息,再通過(guò)線路和站點(diǎn)信息很容易查詢到任兩個(gè)站點(diǎn)之間的票價(jià)信息,將票價(jià)信息整理成站點(diǎn)票價(jià)表.站點(diǎn)編號(hào)規(guī)則為“前兩位數(shù)表示廣州地鐵線路號(hào)碼,后兩位表示該線路站點(diǎn)序號(hào)”,如站點(diǎn)編號(hào)為0116表示“1號(hào)線廣州東站”,站點(diǎn)編號(hào)為“0613”表示“6號(hào)線東湖站”.另外廣佛線編號(hào)為“GF”,APM編號(hào)為“APM”,具體可參見(jiàn)廣州地鐵官網(wǎng)對(duì)各個(gè)站點(diǎn)的編號(hào).最后各線路換乘站以前者為準(zhǔn),例如1號(hào)線和6號(hào)線的換乘站東山口站,按照站點(diǎn)編號(hào)規(guī)則其可以為“0112”或者“0614”,這里為了方便分析,采用前者“0112”來(lái)表示東山口站,部分結(jié)果如表4(SP表)所示.
表4 站點(diǎn)票價(jià)表
其中站點(diǎn)編號(hào)和站點(diǎn)名稱一一對(duì)應(yīng).如果站點(diǎn)數(shù)量為n,則共有n2條站點(diǎn)票價(jià)表記錄,因?yàn)榛槠鹬拐军c(diǎn)的票價(jià)是一樣的,故進(jìn)一步整理,可刪除一半的記錄.
所謂關(guān)鍵站點(diǎn)組是指存在一組站點(diǎn),任何站點(diǎn)(或絕大多數(shù)站點(diǎn))到這組站點(diǎn)的票價(jià)組合都不完全相同,關(guān)鍵站點(diǎn)可表示為KSi(i=1,2,…,n).
關(guān)鍵站點(diǎn)組內(nèi)站點(diǎn)的選擇有幾個(gè)要求,一是按地鐵線網(wǎng)情況分出子組,部分城市的地鐵線網(wǎng)可能分割成多于一個(gè)的互不相通的網(wǎng)絡(luò),因此站點(diǎn)組也需分出子組;二是組內(nèi)站點(diǎn)要足夠多,使得任何站點(diǎn)到組內(nèi)站點(diǎn)的票價(jià)都不完全相同;三是組內(nèi)站點(diǎn)是有效的,如果刪除組內(nèi)某個(gè)站點(diǎn)不影響票價(jià)組則刪除該站點(diǎn),使得站點(diǎn)足夠少以提高后續(xù)的處理效率;四是標(biāo)記特殊站點(diǎn),如存在一對(duì)或多對(duì)站點(diǎn)到任何其他站點(diǎn)的票價(jià)都一樣,這種情況下需將這類站點(diǎn)標(biāo)記好,一對(duì)站點(diǎn)作為一個(gè)站點(diǎn)處理.
然后依據(jù)票價(jià)表列出所有站點(diǎn)到關(guān)鍵站點(diǎn)的票價(jià),形成表5關(guān)鍵票價(jià)表,按上述確定的關(guān)鍵站點(diǎn)的方法可知,不存在兩行的值會(huì)完全相同.
站點(diǎn)Si(i從1到n,n為所有站點(diǎn)數(shù)量)到m個(gè)關(guān)鍵站點(diǎn)[KS1,KS2,…,KSm]的票價(jià)形成Si到關(guān)鍵站點(diǎn)組的票價(jià)組如表5(KSP表).按上述確定的關(guān)鍵站點(diǎn)的方法可知, 不 存 在 兩行的值會(huì)完全相同的紀(jì)錄, 所有Si到確定的關(guān)鍵站點(diǎn)組的票價(jià)組都不完全相同,這個(gè)票價(jià)組可以認(rèn)為是Si的指紋信息,也就是說(shuō),如果知道某個(gè)站點(diǎn)到關(guān)鍵站點(diǎn)的票價(jià)信息,也就確定了這個(gè)站點(diǎn)的位置.
表5 關(guān)鍵站點(diǎn)票價(jià)表
確定關(guān)鍵站點(diǎn)內(nèi)的終端編號(hào),可以有多種方法,包括數(shù)據(jù)分析的方法和人工采集的方法.因關(guān)鍵站點(diǎn)數(shù)量占站點(diǎn)總數(shù)的比率很小,一般不到5%,進(jìn)行人工采集工作量不大,這里就采用人工采集的方式,采集到關(guān)鍵站點(diǎn)內(nèi)各終端的編號(hào),形成初始終端站點(diǎn)對(duì)應(yīng)表6(TS表)的示例.其中站點(diǎn)類型就兩個(gè)類型,K表示初始采集到的關(guān)鍵站點(diǎn),N表示后續(xù)計(jì)算添加的非關(guān)鍵站點(diǎn).
表6 終端站點(diǎn)對(duì)應(yīng)表
終端編號(hào)與站點(diǎn)編號(hào)的關(guān)系是多對(duì)一,一個(gè)終端一定屬于也只能屬于一個(gè)站點(diǎn),一個(gè)站點(diǎn)可以包含多個(gè)終端.
以廣州地鐵為例,關(guān)鍵站點(diǎn)組中包括了東山口站點(diǎn)(1號(hào)線與6號(hào)線的交點(diǎn)),人工采集終端編號(hào)的過(guò)程如圖2所示,具體采集過(guò)程為:持卡工作人員持卡通過(guò)不同的刷卡終端進(jìn)站和出站,并記下終端位置編號(hào);例如持卡工作人員刷卡通過(guò)C-1-1進(jìn)站,并記下終端位置,再刷卡通過(guò)D-6-1出站,并記下終端位置.
圖2 東山口站點(diǎn)終端人工采集方案圖
根據(jù)上圖所示的方法,可以得到終端編號(hào)與東山口站點(diǎn)的關(guān)系,如表7所示.
表7 東山口站終端對(duì)應(yīng)表
終端與站點(diǎn)匹配過(guò)程是遍歷交易記錄中出現(xiàn)過(guò)的終端編號(hào),依據(jù)終端編號(hào)與終端編號(hào)間的票價(jià)關(guān)系,站點(diǎn)與站點(diǎn)間的票價(jià)關(guān)系,確定終端與站點(diǎn)的關(guān)系.
具體流程如圖3所示:①?gòu)腡L表順序讀取一條終端記錄記為aPID;②判斷該終端是否已經(jīng)處理;③查找該終端與已知的關(guān)鍵站點(diǎn)內(nèi)終端的票價(jià)情況;④形成該終端與關(guān)鍵站點(diǎn)的票價(jià)關(guān)系組;⑤將票價(jià)關(guān)系組與KSP表進(jìn)行匹配,匹配上的站點(diǎn)即為終端所在站點(diǎn);⑥將終端站點(diǎn)對(duì)應(yīng)關(guān)系插入TS表;⑦TL表所有記錄處理完成后,TS表記錄的數(shù)據(jù),即為通過(guò)該方法獲取的終端站點(diǎn)對(duì)應(yīng)關(guān)系信息.圖中M為關(guān)鍵站點(diǎn)數(shù)量.
圖3 終端與站點(diǎn)匹配過(guò)程
隨機(jī)抽取1000個(gè)IC卡地鐵數(shù)據(jù),根據(jù)上一節(jié)確定的方法,推導(dǎo)出其進(jìn)出站點(diǎn),與實(shí)際站點(diǎn)進(jìn)行比較,結(jié)果如表8所示,從表中可以發(fā)現(xiàn)該方法所得到終端編號(hào)與站點(diǎn)的對(duì)應(yīng)關(guān)系與實(shí)際情況完全相符.
表8 對(duì)比結(jié)果表(部分結(jié)果)
根據(jù)圖3所述的方法可以得到IC卡數(shù)據(jù)中終端編號(hào)與各地鐵站點(diǎn)的對(duì)應(yīng)關(guān)系,基于此可以得到乘客乘坐軌道交通的上下車站點(diǎn),同時(shí)根據(jù)謝振東等[15]研究公交車站點(diǎn)識(shí)別方法能夠得到乘客乘坐公交車的上下車站點(diǎn).
通過(guò)乘客的上下車站點(diǎn)可以進(jìn)一步完善乘客的出行鏈,基于此能夠?qū)Τ丝偷膿Q乘行為和職住識(shí)別等方面進(jìn)行分析研究:
(1)換乘行為分析,首先分析公交換乘行為的時(shí)間和空間影響因素,然后設(shè)計(jì)以公交出行記錄為基礎(chǔ)的公交換乘行為識(shí)別流程,通過(guò)實(shí)例推斷出研究時(shí)間段內(nèi)所有對(duì)象的公交換乘行為,最后以公交換乘系數(shù)為依據(jù)判斷城市公交直達(dá)性的優(yōu)劣;
(2)職住失衡問(wèn)題是城市化發(fā)展必然遇到的一種空間資源配置不當(dāng)問(wèn)題,是新時(shí)代城市規(guī)劃建設(shè)和發(fā)展所面臨的重要課題.在大數(shù)據(jù)等新興互聯(lián)網(wǎng)技術(shù)逐步成熟和廣泛應(yīng)用、服務(wù)于行業(yè)發(fā)展的背景下,根據(jù)乘客的出行鏈設(shè)計(jì)一種通勤人群的居住地與就業(yè)地識(shí)別模型,識(shí)別通勤人群的通勤軌跡,探討職住平衡評(píng)價(jià)指標(biāo)和測(cè)度方法.
由于人工采集地鐵刷卡終端與站點(diǎn)的對(duì)應(yīng)關(guān)系需消耗較高的人力成本,而且人工采集不可能日?;?,導(dǎo)致搜集的數(shù)據(jù)無(wú)法實(shí)時(shí)更新,不能保證數(shù)據(jù)的準(zhǔn)確性.因此本文首先通過(guò)分析IC卡刷卡數(shù)據(jù)以及地鐵票價(jià)等信息,同時(shí)采集極少量的關(guān)鍵站點(diǎn)與終端編號(hào)的關(guān)系,制作了終端票價(jià)表、終端票價(jià)表、關(guān)鍵站點(diǎn)票價(jià)表等,最后利用聚類分析法設(shè)計(jì)了一種基于IC卡數(shù)據(jù)的地鐵站點(diǎn)識(shí)別方法,能夠準(zhǔn)確識(shí)別乘客刷卡的進(jìn)出站點(diǎn).
基于IC卡數(shù)據(jù)的地鐵站點(diǎn)識(shí)別方法能夠?yàn)楹笃诘难芯刻峁?zhǔn)確的數(shù)據(jù)支持,比如乘客動(dòng)態(tài)OD分析、城市公共交通換乘分析等,并且有利于通過(guò)數(shù)據(jù)分析提高用戶的使用體驗(yàn)和城市交通管理的效率.