趙海賓,郭 忠,吳洪洋,劉海旭,王子甲
(1.交通運(yùn)輸部科學(xué)研究院城市交通與軌道交通研究中心,北京 100029;2.北京城建設(shè)計(jì)發(fā)展集團(tuán)股份有限公司交通研究中心,北京 100032;3.北京交通大學(xué)土木建筑工程學(xué)院道路與鐵道工程系,北京 100044)
公交乘客出行特征分析不僅是評(píng)價(jià)公交運(yùn)行現(xiàn)狀的內(nèi)容之一,也是公交線網(wǎng)優(yōu)化的前提和基礎(chǔ)。通過傳統(tǒng)的公交調(diào)查方式獲取公交乘客出行特征需要耗費(fèi)大量人力物力。隨著公交智能化系統(tǒng)的不斷完善,公交大數(shù)據(jù)的應(yīng)用為分析乘客出行特征提供了新的思路。
相比于傳統(tǒng)的公交調(diào)查方式,公交大數(shù)據(jù)獲取成本更低,包含的信息也更為豐富[1-2]。近年來,基于公交大數(shù)據(jù)分析乘客出行特征的研究越來越多,如陳紹輝等[3]利用禁忌搜索算法及數(shù)據(jù)匹配模型將公交IC 卡數(shù)據(jù)與GPS 數(shù)據(jù)等相匹配,發(fā)現(xiàn)該方法可以較高的準(zhǔn)確率得到交易記錄和上車站點(diǎn)ID 之間的關(guān)系;陳君等[4]利用公交數(shù)據(jù)和數(shù)據(jù)倉庫技術(shù)建立了智能公交數(shù)據(jù)分析平臺(tái),將智能調(diào)度與公交IC卡系統(tǒng)進(jìn)行關(guān)聯(lián),結(jié)果表明該方法在判斷公交乘客上車站點(diǎn)的準(zhǔn)確率方面表現(xiàn)突出。
上述研究主要針對(duì)乘客上車站點(diǎn)的推斷。由于常規(guī)公交一般采用一票制,從而缺乏可用的下車位置信息,所以相比于乘客上車站點(diǎn)推斷,識(shí)別乘客下車站點(diǎn)更具挑戰(zhàn)性[5]。目前主要存在兩種估算乘客下車站點(diǎn)的方法:集計(jì)法和非集計(jì)法。集計(jì)法一般假設(shè)乘客根據(jù)出行距離和車站吸引力的特定概率分布下車[6],如徐文遠(yuǎn)等[7]利用公交IC 卡數(shù)據(jù)和GPS 信息,結(jié)合站點(diǎn)吸引權(quán)概念進(jìn)行了居民出行上下車站點(diǎn)推斷,但是在推斷下車站點(diǎn)時(shí)精度較差。為了獲得更可靠的推斷結(jié)果,大量研究采用基于乘客出行鏈的估算方法[8-10],如Wang 等[9]基于出行鏈,從倫敦的智能卡交易數(shù)據(jù)中獲取了OD 信息,并用實(shí)際出行調(diào)查數(shù)據(jù)驗(yàn)證了方法的有效性,但缺陷在于部分公交線路的調(diào)研率較低;Barry[10]根據(jù)紐約自動(dòng)售檢票系統(tǒng)采集的數(shù)據(jù)推斷下車站點(diǎn),且基于以下假設(shè)來定義個(gè)人出行鏈:(1)很大一部分乘客從前一次出行的下車站開始下一次出行;(2)乘客將在其結(jié)束前一天出行的車站開始其當(dāng)天第一次出行。
以上研究都為基于一票制公交大數(shù)據(jù)分析公交乘客出行特征奠定了基礎(chǔ),但少有研究提出從公交數(shù)據(jù)采集與處理到站點(diǎn)推斷算法構(gòu)建、再到最終數(shù)據(jù)分析全流程的系統(tǒng)方法。本文則在總結(jié)前人工作的基礎(chǔ)上,提出適用于一票制公交大數(shù)據(jù)的系統(tǒng)化處理方法,以期為基于公交大數(shù)據(jù)的公交乘客出行特征分析提供新的思路。
本文所用大數(shù)據(jù)包括公交IC 卡數(shù)據(jù)、公交GPS 數(shù)據(jù)、車載機(jī)數(shù)據(jù)及單程站點(diǎn)信息表4 類。不同類型數(shù)據(jù)的采集與處理方法不同。
公交刷卡收費(fèi)系統(tǒng)主要包括車載收費(fèi)終端和后臺(tái)管理系統(tǒng)兩部分,當(dāng)乘客在車載收費(fèi)終端刷卡上車時(shí),數(shù)據(jù)會(huì)傳回后臺(tái)管理系統(tǒng),完成對(duì)公交IC卡數(shù)據(jù)的記錄。
公交IC 卡數(shù)據(jù)處理主要是刪除邏輯上明顯不合理的記錄,處理過程如下:
(1)由于刷卡記錄中包含眾多字段信息,其中大量字段信息對(duì)本研究而言為無效字段。本研究主要提取與乘客出行時(shí)空信息相關(guān)的字段,包括交易卡編號(hào)、交易時(shí)間、線路編號(hào)和車牌號(hào)等4種,因此刪除其他多余字段。
(2)由于公交刷卡收費(fèi)系統(tǒng)故障等原因,通過步驟(1)提取的字段尚有一定數(shù)量的錯(cuò)誤數(shù)據(jù)或某些字段內(nèi)容為空,這些數(shù)據(jù)在后續(xù)研究中屬無效數(shù)據(jù),予以刪除。
經(jīng)過上述處理,公交IC 卡數(shù)據(jù)的有效字段及其說明如表1所示。
表1 公交IC卡數(shù)據(jù)有效字段及其說明
公交GPS 數(shù)據(jù)主要包括兩種類型的位置數(shù)據(jù)。第一種是公交車進(jìn)出公交站點(diǎn)時(shí),GPS 系統(tǒng)記錄的公交車進(jìn)出站狀態(tài)及相應(yīng)坐標(biāo),一般會(huì)在站點(diǎn)前后5m 內(nèi)分別產(chǎn)生到站和離站數(shù)據(jù)。另一種是固定時(shí)間間隔(通常為1min左右)的車輛位置上傳,這一類數(shù)據(jù)用以計(jì)算公交車的行駛速度等。
以銀川市為例,公交GPS 數(shù)據(jù)處理過程如下:
(1)銀川公交GPS數(shù)據(jù)共有59個(gè)字段,但部分字段目前尚未啟用。提取對(duì)本研究有效的字段,包括車載機(jī)編號(hào)、到離站信息、定位時(shí)間、定位經(jīng)度、定位緯度、線路編號(hào)、子線編號(hào)、站點(diǎn)順序號(hào)等,刪除無效字段。
(2)由于公交GPS 系統(tǒng)故障等原因,GPS 數(shù)據(jù)存在部分定位在銀川市范圍外的錯(cuò)誤數(shù)據(jù),本文基于ArcGIS將其刪除。
(3)通過步驟(1)和(2)提取到的數(shù)據(jù)尚存在一定數(shù)量其他類型的錯(cuò)誤數(shù)據(jù),主要表現(xiàn)為字段信息不全,即只有到站或離站數(shù)據(jù),對(duì)這一類數(shù)據(jù)也予以刪除。
經(jīng)過上述處理,銀川公交GPS 數(shù)據(jù)的有效字段及其說明如表2所示。
表2 公交GPS數(shù)據(jù)有效字段及其說明
車載機(jī)數(shù)據(jù)信息可從公交企業(yè)的車輛數(shù)據(jù)庫中獲取,為車載機(jī)編號(hào)與公交車車牌號(hào)及線路編號(hào)之間的對(duì)應(yīng)關(guān)系,用于匹配GPS 數(shù)據(jù)對(duì)應(yīng)的車牌號(hào)以及GPS 數(shù)據(jù)和IC 卡數(shù)據(jù)的關(guān)聯(lián)融合,其數(shù)據(jù)樣本如表3所示。
表3 車載機(jī)數(shù)據(jù)信息表
單程站點(diǎn)關(guān)系表可從公交企業(yè)的線路數(shù)據(jù)庫中獲取,為線路編號(hào)和子線編號(hào)對(duì)應(yīng)的站點(diǎn)順序號(hào)、站點(diǎn)名稱及站點(diǎn)類型編號(hào)。鑒于GPS 數(shù)據(jù)只有站點(diǎn)順序號(hào),并沒有定位站點(diǎn)名稱,所以使用單程站點(diǎn)關(guān)系表將站點(diǎn)名稱匹配到GPS 數(shù)據(jù)中,其數(shù)據(jù)樣本如表4 所示。通過篩選線路編號(hào)和子線編號(hào),站點(diǎn)順序號(hào)和站點(diǎn)名稱為一一對(duì)應(yīng)關(guān)系。
表4 單程站點(diǎn)關(guān)系表
單程站點(diǎn)關(guān)系表中,許多站點(diǎn)分東西南北4個(gè)方向,同一個(gè)站點(diǎn)在GIS 地圖中往往存在多個(gè)相鄰的經(jīng)緯度。為方便后續(xù)研究,結(jié)合GIS 數(shù)據(jù)中的站點(diǎn)信息,將同一個(gè)站點(diǎn)、不同方向、不同線路的經(jīng)緯度取平均值進(jìn)行融合,獲得站點(diǎn)的唯一經(jīng)緯度,如圖1所示。
圖1 公交站點(diǎn)經(jīng)緯度融合前后示意圖
將公交GPS 數(shù)據(jù)、車載機(jī)數(shù)據(jù)信息、融合后的單程站點(diǎn)關(guān)系表進(jìn)行關(guān)聯(lián)融合,獲取包含站點(diǎn)名稱、站點(diǎn)經(jīng)緯度等的到離站GPS 數(shù)據(jù),其數(shù)據(jù)樣本如表5所示。
表5 匹配經(jīng)緯度后的單程站點(diǎn)關(guān)系表
一票制公交刷卡數(shù)據(jù)中缺少乘客的上下車站點(diǎn)及換乘站點(diǎn)信息,為了將這些信息補(bǔ)全,本文基于既有文獻(xiàn),分別構(gòu)建乘客上車站點(diǎn)推斷算法、乘客下車站點(diǎn)推斷算法、乘客換乘站點(diǎn)識(shí)別算法,共同組成系統(tǒng)化處理方法的關(guān)鍵環(huán)節(jié)。
將公交GPS 數(shù)據(jù)與公交IC 卡數(shù)據(jù)進(jìn)行關(guān)聯(lián)融合,通過比對(duì)站點(diǎn)GPS 數(shù)據(jù)更新時(shí)間和乘客刷卡時(shí)間,以確定乘客的上車站點(diǎn)[11-12],其推斷算法偽代碼如下。
其中,Selectdata(data,condition)函數(shù)表示從data中提取滿足condition條件的數(shù)據(jù);ComputeIn?terval(A,B)函數(shù)表示計(jì)算時(shí)間點(diǎn)A和時(shí)間點(diǎn)B之間的時(shí)間間隔。
由于GPS 定位時(shí)間和刷卡時(shí)間的誤差,算法中將GPS 定位時(shí)間和刷卡時(shí)間差大于180s 的數(shù)據(jù)剔除,以保證匹配結(jié)果的準(zhǔn)確性。
不同乘客1d內(nèi)乘坐公交出行的次數(shù)不同,部分乘客會(huì)在1d 內(nèi)公交出行多次,而大量乘客1d只進(jìn)行1 次公交出行。針對(duì)這兩種不同的情況,本文結(jié)合既有文獻(xiàn),利用下述兩種方法完成乘客下車站點(diǎn)的推斷。
2.2.1 基于出行鏈的乘客下車站點(diǎn)推斷算法
針對(duì)1d內(nèi)公交出行多次的乘客,其全天數(shù)據(jù)中包括多條刷卡記錄,能形成閉合公交出行鏈或非閉合公交出行鏈。本文利用乘客出行鏈推斷乘客下車站點(diǎn)[13-14],過程如下:
(1)提取乘客刷卡記錄中卡號(hào)相同的1d內(nèi)的全部刷卡記錄,并按刷卡時(shí)間排序;
(2)針對(duì)1 名乘客1d 內(nèi)的全部刷卡記錄,首先根據(jù)其第1 條刷卡記錄的上車站點(diǎn),獲取該名乘客本次上車線路的所有站點(diǎn);
(3)根據(jù)該名乘客下1 條刷卡記錄的上車站點(diǎn),搜索計(jì)算與上1 次乘坐線路所有站點(diǎn)空間距離最近的站點(diǎn),則該站點(diǎn)為乘客上1 次乘車時(shí)的下車站點(diǎn);
(4)當(dāng)刷卡信息為該名乘客的最后1 條刷卡記錄時(shí),則利用該名乘客第1 條刷卡記錄作為推斷計(jì)算時(shí)的下1 條刷卡記錄,從而推斷其最后1次乘車時(shí)的下車站點(diǎn),至此該乘客的下車站點(diǎn)推斷結(jié)束;
(5)針對(duì)所有乘客的刷卡記錄,重復(fù)運(yùn)行步驟(1)~步驟(4),直到完成所有乘客下車站點(diǎn)推斷。
2.2.2 基于概率的乘客下車站點(diǎn)推斷算法
針對(duì)1d中無連續(xù)公交出行的乘客,本文利用基于站點(diǎn)下車概率的乘客下車站點(diǎn)估計(jì)模型來推斷乘客下車站點(diǎn)。既有研究表明,公交站點(diǎn)吸引強(qiáng)度與發(fā)生強(qiáng)度基本平衡,因此可用公交站點(diǎn)的發(fā)生強(qiáng)度等價(jià)替換其吸引強(qiáng)度[15]。根據(jù)乘客上車站點(diǎn)推斷結(jié)果,可統(tǒng)計(jì)得到任一條線路各個(gè)站點(diǎn)的上車人數(shù),并由此計(jì)算公交站點(diǎn)的吸引強(qiáng)度為:
式(1)中:pi為第i站的吸引強(qiáng)度;s i為第i站的上車人數(shù);為一條線路所有站點(diǎn)的上車人數(shù)之和,其中sk為第k站的上車人數(shù);n為單線公交站點(diǎn)總數(shù)。
乘客在第i站上車第j站下車的概率pij與公交出行的平均乘站數(shù)λ、站點(diǎn)i的吸引強(qiáng)度pi有關(guān)。而居民公交出行的乘站數(shù)主要集中在一定的范圍內(nèi),在固定的行駛方向上,居民公交出行的乘站數(shù)近似符合泊松分布:
式(2)中:Zij為乘客第i站上車第j站下車的概率;λ為公交出行的平均乘站數(shù)。當(dāng)i站以后的站點(diǎn)數(shù)目小于λ時(shí),λ=n-λ。
由此可以構(gòu)造出乘客從站點(diǎn)i上車到站點(diǎn)j下車的概率為:
式(3)中:pij為乘客第i站上車第j站下車的概率;Zik為乘客第i站上車第k站下車的概率;pk為第k站的吸引強(qiáng)度。
至此,可得任意i站上車j站下車的乘客總數(shù)為:
式(4)中:Mij為第i站上車第j站下車的乘客總數(shù);pij為乘客第i站上車第j站下車的概率。
乘客換乘站點(diǎn)識(shí)別可從時(shí)間與空間角度進(jìn)行考慮[16]。如圖2 所示,公交乘客在P1站點(diǎn)t1時(shí)刻刷卡上車,公交車經(jīng)過T1時(shí)間至t2時(shí)刻到達(dá)P2站點(diǎn),步行距離L,耗時(shí)T2到達(dá)換乘站點(diǎn)P3,等待T3時(shí)間至t3時(shí)刻刷卡上車,乘坐換乘的線路,運(yùn)行時(shí)間T4至t4時(shí)刻到達(dá)終點(diǎn)站P4,完成本次出行,則換乘過程時(shí)耗可用Ts表示為:
式(5)中:Ts為乘客換乘過程的時(shí)耗(min);Twalk為乘客從前一次下車站點(diǎn)至換乘站點(diǎn)的步行時(shí)間(min);Twait為乘客在換乘站點(diǎn)的等待時(shí)間(min);Tv為乘客前一次的在車時(shí)間。
圖2 乘客異站換乘過程示意圖
分析換乘步行時(shí)間Twalk、換乘站點(diǎn)等待時(shí)間Twait、前一次在車時(shí)間Tv的最大值,便可得到換乘最大時(shí)間間隔。本文結(jié)合既有文獻(xiàn)和交通調(diào)查,取最大可能換乘時(shí)間的閾值Tmax為60min。
于是,換乘識(shí)別過程如下:
(1)提取一條公交IC 卡刷卡記錄,記錄刷卡時(shí)刻為t1,獲取其相鄰的后一次刷卡記錄,記錄刷卡時(shí)刻為t2;
(2)計(jì)算刷卡時(shí)間間隔Ti=t2-t1,若Ti≤Tmax且換乘站點(diǎn)之間距離L<500m,則認(rèn)為乘客后一次出行是換乘行為,否則認(rèn)為是一次出行;
(3)對(duì)同一卡號(hào)的所有刷卡記錄進(jìn)行判斷,并記錄識(shí)別的結(jié)果;
(4)重復(fù)步驟(1)~步驟(3),直到完成所有乘客的換乘行為識(shí)別。
根據(jù)上述系統(tǒng)化處理方法,本文利用銀川市工作日1d 公交IC 卡數(shù)據(jù)和GPS 數(shù)據(jù)等分析了銀川公交的運(yùn)行狀況,主要分為3 部分:(1)基于乘客上車站點(diǎn)推斷算法和乘客下車站點(diǎn)推斷算法,分析所有乘客上車站點(diǎn)和下車站點(diǎn),得到公交站點(diǎn)上下客流量分布情況;(2)將所有乘客出行起訖點(diǎn)依次“疊加”在公交線路上,得到公交線路客流量分布情況;(3)基于乘客換乘站點(diǎn)識(shí)別算法分析所有乘客換乘行為,得到公交站點(diǎn)的換乘客流量分布情況。
圖3為公交站點(diǎn)的全天上下客流量分布情況,圖例中括號(hào)內(nèi)給出了相應(yīng)全天上下客流量級(jí)別的站點(diǎn)數(shù)量。從空間分布來看,全天上下客流量較大的站點(diǎn)均集中于城市東部,而分別有超過1/3的站點(diǎn)上客量或下客量不足300 人次。這反映出站點(diǎn)客流量分布并不均衡,公交引導(dǎo)城市發(fā)展的能力還需進(jìn)一步提高。圖4 給出了全天上下客流量排名前15位的公交站點(diǎn),這些站點(diǎn)是重要的客流集散地,在制定公交線網(wǎng)布設(shè)方案時(shí)應(yīng)重點(diǎn)考慮。
圖3 公交站點(diǎn)全天客流量分布圖
圖4 全天上下客流量排名前15位的公交站點(diǎn)
圖5所示為公交線路的全天客流量分布情況。從空間分布來看,客流量較集中的公交線路主要用于整個(gè)城市的橫向聯(lián)系和東部地區(qū)的豎向聯(lián)系,并且集中在某幾條公交線路的某些路段上。圖6 給出了全天客流量超過1 萬人次的公交線路,共有15條。在公交規(guī)劃中,需考慮在這些路段設(shè)置公交專用車道來提升服務(wù)能力,并適當(dāng)優(yōu)化其他線路來緩解客流量較集中線路的壓力。
圖5 公交線路全天客流量分布圖
圖7為公交站點(diǎn)的全天換乘客流量分布情況,圖例中括號(hào)內(nèi)給出了相應(yīng)全天換乘客流量級(jí)別的站點(diǎn)數(shù)量。從空間分布來看,全天換乘客流量較大的站點(diǎn)集中分布于城市的東部核心區(qū)。圖8 給出了全天換乘客流量排名前15位的公交站點(diǎn)。在公交規(guī)劃中,一方面需重點(diǎn)考慮這些站點(diǎn)的換乘設(shè)施布置,另一方面需進(jìn)一步優(yōu)化途經(jīng)線路走向,以減少換乘、提升直達(dá)性。
圖6 全天客流量超過1萬人次的公交線路
圖7 公交站點(diǎn)全天換乘客流量分布圖
圖8 全天換乘客流量排名前15位的公交站點(diǎn)
隨著交通大數(shù)據(jù)技術(shù)的不斷發(fā)展,利用交通大數(shù)據(jù)挖掘結(jié)果指導(dǎo)運(yùn)營及規(guī)劃是未來交通管理的重要方向之一。本文在參考既有文獻(xiàn)的基礎(chǔ)上,提出了適用于一票制公交大數(shù)據(jù)的從處理到挖掘的全流程算法,并將其應(yīng)用到銀川市公交大數(shù)據(jù)分析中,探析了工作日1d 的公交運(yùn)行狀況,包括站點(diǎn)客流量分布情況、線路客流量分布情況和站點(diǎn)換乘客流量分布情況等,可為后續(xù)線網(wǎng)和站點(diǎn)優(yōu)化提供理論支撐。
該方法尚存如下改進(jìn)空間:(1)公交IC 卡數(shù)據(jù)和公交GPS 數(shù)據(jù)在實(shí)際運(yùn)營中存在明顯誤差,導(dǎo)致數(shù)據(jù)處理過程中損失了大量數(shù)據(jù);要解決這一問題,一方面需提升相關(guān)設(shè)備的精度及可靠性,另一方面可集中對(duì)錯(cuò)誤數(shù)據(jù)進(jìn)行分析,以探尋原始數(shù)據(jù)校正算法;(2)針對(duì)單次出行乘客,僅利用站點(diǎn)上客量計(jì)算站點(diǎn)下客概率的依據(jù)略顯不足,今后可考慮結(jié)合站點(diǎn)周邊建成環(huán)境信息,如土地使用情況、周邊職住分布情況等,優(yōu)化站點(diǎn)吸引度算法,提升下車站點(diǎn)的推算精度。