王子甲,劉海旭,TAKU Fujiyama
(1.北京交通大學(xué)土木建筑與工程學(xué)院道路與鐵道工程系,北京100044;2.倫敦大學(xué)學(xué)院土木、環(huán)境與測(cè)繪學(xué)院交通研究中心,倫敦WC1E6BT,英國(guó))
隨著我國(guó)城市軌道交通建設(shè)的快速推進(jìn),多個(gè)城市逐步形成了較為完善的軌道交通線網(wǎng),然而當(dāng)前缺乏從較長(zhǎng)時(shí)間跨度內(nèi)量化分析城市軌道交通與城市結(jié)構(gòu)之間的互動(dòng)關(guān)系.而自動(dòng)售檢票系統(tǒng)(AFC)的廣泛使用,使得運(yùn)營(yíng)單位采集到了海量的城市出行時(shí)空信息.這為車(chē)站服務(wù)的乘客類(lèi)型及其時(shí)空演變挖掘與分析提供了豐富的數(shù)據(jù)資源,使得量化分析軌道交通線網(wǎng)與城市結(jié)構(gòu)互動(dòng)關(guān)系成為可能.
利用AFC刷卡數(shù)據(jù)進(jìn)行交通系統(tǒng)的分析與研究是近年來(lái)的熱點(diǎn)主題[1],既有研究的一個(gè)方向是以乘客為研究對(duì)象,基于刷卡數(shù)據(jù)識(shí)別乘客的出行模式,這些研究為理解乘客出行行為提供了新視角[2-3];而以車(chē)站為研究對(duì)象,利用刷卡數(shù)據(jù)對(duì)車(chē)站進(jìn)行分類(lèi),從而針對(duì)不同種類(lèi)的車(chē)站制定不同的運(yùn)營(yíng)政策,用以提高軌道交通的效率是當(dāng)前AFC數(shù)據(jù)挖掘的另一個(gè)方向[4-5],但不同于乘客出行模式的識(shí)別,現(xiàn)有的車(chē)站分類(lèi)算法較為簡(jiǎn)單,可靠性較差,制約了車(chē)站分類(lèi)結(jié)果的應(yīng)用范圍和成效.
隨機(jī)森林算法(RF)[6]經(jīng)過(guò)多年的發(fā)展,現(xiàn)已成為機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用最為廣泛的算法之一.國(guó)內(nèi)外的大量研究均顯示了RF應(yīng)用靈活,準(zhǔn)確高效的特點(diǎn)[7-9],然而目前在軌道交通數(shù)據(jù)挖掘領(lǐng)域,利用該算法的研究仍較少.為了從車(chē)站服務(wù)乘客類(lèi)型的角度揭示軌道交通線網(wǎng)視角下的城市結(jié)構(gòu)特征,本文利用RF模型進(jìn)行車(chē)站服務(wù)功能分類(lèi).
RF是集成學(xué)習(xí)的一種.在訓(xùn)練過(guò)程開(kāi)始時(shí),每一顆決策樹(shù)均利用bootstrap重抽樣方法從原始樣本抽樣,隨機(jī)選取原始訓(xùn)練集中的部分指標(biāo),分別獨(dú)立進(jìn)行建模.訓(xùn)練過(guò)程中,RF利用bootstrap重抽樣方法剩余的袋外(Out-Of-Bag,OOB)數(shù)據(jù)計(jì)算模型準(zhǔn)確率,從而評(píng)估模型的準(zhǔn)確程度.模型構(gòu)建完成后,對(duì)于新的記錄,RF組合所有決策樹(shù)的預(yù)測(cè)結(jié)果,通過(guò)投票得到最終的預(yù)測(cè)結(jié)果.
本節(jié)采用了北京地鐵2017年3月13~17日連續(xù)5個(gè)工作日刷卡數(shù)據(jù),選取了8個(gè)指標(biāo)來(lái)表征每個(gè)地鐵車(chē)站服務(wù)客流的屬性,其標(biāo)記及定義如下:
(1)早高峰進(jìn)站客流量/全天進(jìn)站客流量(F1),晚高峰進(jìn)站客流量/全天進(jìn)站客流量(F2),早高峰出站客流量/全天出站客流量(F3),晚高峰出站客流量/全天出站客流量(F4).早高峰取6:30-9:30,晚高峰取17:00-20:00.
(2)ABBA_A客流量/全天刷卡客流量(F5),ABBA_B客流量/全天刷卡客流量(F6).ABBA_A客流量表示滿足1天中從A站進(jìn)B站出再?gòu)腂站進(jìn)A站出的乘客在A站的進(jìn)站量,ABBA_B則為此類(lèi)客流的B站出站量.
(3)一票通比例(F7),表示使用臨時(shí)卡進(jìn)出站客流量占全天客流量的比例.
(4)單次進(jìn)站與單次出站客流量之和/全天刷卡客流量(F8),表示1天內(nèi)在某車(chē)站內(nèi)僅進(jìn)站1次或出站1次的客流量與全天客流量的關(guān)系.
其中F1~F4表征了車(chē)站早晚高峰特征,F(xiàn)5和F6刻畫(huà)了具有嚴(yán)格通勤特性的客流比重,F(xiàn)7和F8用以衡量乘客的無(wú)規(guī)律出行.
截止2017年3月,北京市共有288個(gè)城軌車(chē)站(換乘站不重復(fù)統(tǒng)計(jì)),綜合已有的研究及北京市第5次交通大調(diào)查[10-11],選取28個(gè)典型車(chē)站組成訓(xùn)練集,占車(chē)站總數(shù)的9.7%.利用車(chē)站主要服務(wù)的客流類(lèi)型來(lái)確定車(chē)站的分類(lèi),將這28個(gè)車(chē)站分為4類(lèi),包括:以北京西站、天安門(mén)東站為代表的服務(wù)交通樞紐及旅游商業(yè)類(lèi)客流的車(chē)站;以天通苑站、沙河站為代表的服務(wù)居住類(lèi)客流的車(chē)站;以中關(guān)村站、國(guó)家圖書(shū)館站為代表的服務(wù)工作類(lèi)客流的車(chē)站;以及以望京站、太陽(yáng)宮站為代表的服務(wù)居住及工作混合類(lèi)客流的車(chē)站,其各指標(biāo)如表1所示.
對(duì)訓(xùn)練集進(jìn)行RF建模,OOB錯(cuò)誤率為3.57%達(dá)到最小,利用此模型進(jìn)行車(chē)站分類(lèi),結(jié)果如圖1所示.
如圖1所示,RF識(shí)別出了T2、T3航站樓、北京南站等典型的交通樞紐類(lèi)車(chē)站,以及南鑼鼓巷、什剎海、王府井等典型的旅游商業(yè)類(lèi)車(chē)站;對(duì)于工作類(lèi)的車(chē)站,其主要為以中關(guān)村為核心的車(chē)站群及以國(guó)貿(mào)為核心的車(chē)站群;位于工作類(lèi)車(chē)站周邊的大多為居住與工作混合類(lèi)車(chē)站,這些車(chē)站處于工作區(qū)與居住區(qū)的交界位置,具有工作類(lèi)車(chē)站及居住類(lèi)車(chē)站的雙重特征;而位于城市外圍的車(chē)站大部分均為居住類(lèi)的車(chē)站,其附近及接駁服務(wù)范圍內(nèi)大多為居民區(qū).上述結(jié)果與北京交通調(diào)查數(shù)據(jù)吻合較好[11].
表1 訓(xùn)練集部分車(chē)站指標(biāo)Table 1 The index of training dataset
圖1 有監(jiān)督RF法的2017年車(chē)站分類(lèi)結(jié)果Fig.1 2017 station classification based on supervised RF method
RF利用少量的樣本相對(duì)準(zhǔn)確地識(shí)別出了北京市現(xiàn)有車(chē)站客流屬性.然而由于RF屬于典型的監(jiān)督學(xué)習(xí)算法,即需要指定訓(xùn)練集.訓(xùn)練集的選擇在較大程度上依賴于研究人員的主觀經(jīng)驗(yàn),可能會(huì)導(dǎo)致訓(xùn)練集缺少典型車(chē)站或者對(duì)車(chē)站的分類(lèi)存在錯(cuò)誤等問(wèn)題.
在RF訓(xùn)練過(guò)程中,當(dāng)2個(gè)樣本出現(xiàn)在同一節(jié)點(diǎn)時(shí),即表明這2個(gè)樣本被分到了同一類(lèi).在模型訓(xùn)練結(jié)束后,可以得到任意2個(gè)樣本出現(xiàn)在同一節(jié)點(diǎn)的次數(shù)與總結(jié)點(diǎn)數(shù)的商,其大小可以用來(lái)表征2個(gè)樣本之間的相似程度,即模型訓(xùn)練結(jié)束后可以返回表征任意2個(gè)樣本之間相似性的矩陣.周綺鳳對(duì)相似性矩陣研究后證明,RF的這種相似性度量方式能夠有效地使樣本在相似度空間的差異變大,可以更有效地區(qū)分樣本[12].
由于RF建模過(guò)程中訓(xùn)練集數(shù)據(jù)必須有相應(yīng)的分類(lèi),為了完成RF建模過(guò)程,將真實(shí)的數(shù)據(jù)標(biāo)記為一類(lèi),之后基于真實(shí)數(shù)據(jù),利用不同的抽樣方式生成和真實(shí)數(shù)據(jù)相同數(shù)據(jù)量的偽造數(shù)據(jù),將其標(biāo)記為相應(yīng)的類(lèi)別,然后將得到的所有不同類(lèi)數(shù)錯(cuò)誤率最低時(shí),完成模型的構(gòu)建,返回上述相似性矩陣,刪除矩陣中偽造數(shù)據(jù)對(duì)應(yīng)的項(xiàng)目,得到真實(shí)數(shù)據(jù)中任意2個(gè)樣本之間的相似程度[13].基于這個(gè)相似性矩陣,采用PAM方法進(jìn)行聚類(lèi),利用每一類(lèi)中的典型車(chē)站識(shí)別車(chē)站分類(lèi)類(lèi)別,得到最終的車(chē)站分類(lèi)結(jié)果.
Shi對(duì)于不同分布的偽造數(shù)據(jù)對(duì)于分類(lèi)結(jié)果的影響進(jìn)行了研究[14],本文在此基礎(chǔ)上,采用了兩種方法來(lái)制造偽造數(shù)據(jù).對(duì)于真實(shí)數(shù)據(jù),將其標(biāo)定為“class1”,作為第1類(lèi)數(shù)據(jù);第2類(lèi)數(shù)據(jù)標(biāo)定為“class2”,為偽造數(shù)據(jù),生成方法是對(duì)真實(shí)數(shù)據(jù)集中相應(yīng)指標(biāo)所有可能的取值進(jìn)行隨機(jī)有放回抽樣,因此此類(lèi)數(shù)據(jù)的值均來(lái)自于真實(shí)數(shù)據(jù)集.給出生成過(guò)程的偽代碼如下.
其中,UniformRandom函數(shù)表示在index[j]的數(shù)據(jù)中進(jìn)行有放回隨機(jī)抽樣.
為了使偽造數(shù)據(jù)與真實(shí)數(shù)據(jù)集的差別更大,假設(shè)真實(shí)數(shù)據(jù)集中的每個(gè)指標(biāo)服從正態(tài)分布,采用極大似然估計(jì)方法求得相應(yīng)分布,以此為基礎(chǔ)進(jìn)行新數(shù)據(jù)的抽樣,制造第2類(lèi)偽造數(shù)據(jù),將其標(biāo)定為“class3”,此類(lèi)數(shù)據(jù)中含有大量真實(shí)數(shù)據(jù)集中不存在的值.給出生成過(guò)程的偽代碼如下.
其中,NormalRandom函數(shù)表示在index[j]的最大值及最小值區(qū)間內(nèi)抽樣,且其分布服從于以index[j]的均值和方差為參數(shù)的正態(tài)分布.
以2017年的數(shù)據(jù)為例,圖2顯示了3類(lèi)數(shù)據(jù)的各指標(biāo)分布箱型圖.由圖2可知,在這8個(gè)指標(biāo)當(dāng)中,真實(shí)數(shù)據(jù)(class1)與第1類(lèi)偽造數(shù)據(jù)(class2)總有類(lèi)似的分布,而第3類(lèi)數(shù)據(jù)(class3)的部分指標(biāo)分布則與前2類(lèi)數(shù)據(jù)有顯著不同.
圖2 3類(lèi)數(shù)據(jù)不同指標(biāo)的分布圖Fig.2 Distribution of different indicators of three types of data
利用上述3類(lèi)數(shù)據(jù)進(jìn)行建模,OOB錯(cuò)誤率最小值為15.00%時(shí)完成模型訓(xùn)練,返回相似性矩陣.圖3展示了日客流量排名前15的車(chē)站之間的相似度.
此相似性矩陣為實(shí)對(duì)稱矩陣,其對(duì)角線處的值均為1.矩陣為稀疏矩陣,這表明客流量大的車(chē)站均位于不同的分類(lèi)之中,其屬性較為分散.
采用PAM算法,利用2個(gè)數(shù)據(jù)之間的相似性進(jìn)行聚類(lèi),得到圖4的結(jié)果.
與傳統(tǒng)RF結(jié)果比對(duì),2種方法中92%的車(chē)站具有相同的分類(lèi),這表明無(wú)監(jiān)督RF在很大程度上與經(jīng)驗(yàn)吻合,但避免了主觀判斷.分別采用相似性矩陣度量及傳統(tǒng)聚類(lèi)評(píng)價(jià)指標(biāo)DB指數(shù)[15]兩種方式評(píng)估兩種聚類(lèi)方法.通過(guò)將一類(lèi)中的每一個(gè)車(chē)站與其他車(chē)站的相似性求和,再將每一類(lèi)總的相似性相加,從而得到分類(lèi)結(jié)果的總相似性,其值越大,則表明總的劃分結(jié)果越準(zhǔn)確.通過(guò)計(jì)算,有監(jiān)督RF總相似性為6 009.76,無(wú)監(jiān)督RF的總相似性為6 024.76;DB指數(shù)在聚類(lèi)結(jié)果評(píng)價(jià)領(lǐng)域運(yùn)用廣泛,其值越小表示聚類(lèi)結(jié)果越好,經(jīng)計(jì)算有監(jiān)督RF為1.00,無(wú)監(jiān)督RF為0.94.兩種方式均表明無(wú)監(jiān)督RF的分類(lèi)結(jié)果更好.
圖3 日客流量前15的車(chē)站之間的相似度Fig.3 Similarity between stations in the top 15 passenger traffic
圖4 無(wú)監(jiān)督RF法的2017年車(chē)站分類(lèi)Fig.4 2017 station classification based on unsupervised RF method
基于北京軌道交通2014年以來(lái)的刷卡數(shù)據(jù)積累,在每一年中均選取數(shù)據(jù)進(jìn)行分類(lèi),首先通過(guò)GIS展示多年來(lái)不同種類(lèi)車(chē)站的空間分布,即車(chē)站服務(wù)功能的空間演變,其結(jié)果如圖5所示.
由圖5可知2014—2016年,北京市軌道交通的線網(wǎng)規(guī)模不斷擴(kuò)大,線路不斷向外部延伸,但各類(lèi)車(chē)站的空間分布格局基本保持不變.
利用桑基圖表示4年來(lái)不同車(chē)站類(lèi)別之間的轉(zhuǎn)換關(guān)系,展示車(chē)站服務(wù)類(lèi)型隨時(shí)間的變化過(guò)程,如圖6所示,由圖6中可知:
圖5 北京市2014—2016年城軌車(chē)站服務(wù)客流類(lèi)型Fig.5 Types of passenger flows urban rail stations serve for in Beijingin 2014,2015 and 2016
(1)服務(wù)于居住類(lèi)客流的車(chē)站是主體.結(jié)合圖5,在大的空間尺度上,北京市依然具有明顯的圈層結(jié)構(gòu),其職住分離現(xiàn)象較為明顯,軌道交通承擔(dān)著溝通城市內(nèi)部工作與城市郊區(qū)居住的功能,這種基本情況在短時(shí)間內(nèi)并未發(fā)生改變.
(2)服務(wù)于工作類(lèi)客流的車(chē)站數(shù)量呈上升趨勢(shì).該類(lèi)車(chē)站分布中心不變,分布范圍有擴(kuò)張趨勢(shì).這表明在城市核心區(qū)的崗位密度在加強(qiáng),并不斷向外部擴(kuò)張,這些車(chē)站的客流規(guī)律性會(huì)更強(qiáng)化.
(3)同時(shí)服務(wù)居住與工作的混合類(lèi)客流的車(chē)站數(shù)量逐年上升.這與上述的城市工作區(qū)的向外拓展相適應(yīng).但一方面,由圖5所示,這類(lèi)車(chē)站大量分布于城市的主城區(qū),說(shuō)明在城市中心區(qū)仍然存在大量需要乘坐地鐵去工作的人,顯示出城市內(nèi)部職住分離現(xiàn)象也較為嚴(yán)重;另一方面這類(lèi)車(chē)站的來(lái)源可能是其他3類(lèi)車(chē)站,而其發(fā)展方向也有可能是其他3類(lèi)車(chē)站,說(shuō)明這些車(chē)站所在的地區(qū)是城市變化較為激烈的地區(qū),其并未形成穩(wěn)定的屬性,較易受到后續(xù)社會(huì)經(jīng)濟(jì)發(fā)展的影響.
(4)服務(wù)于交通樞紐及旅游商業(yè)的車(chē)站數(shù)量逐年下降,且其范圍不斷縮小.至2017年該類(lèi)車(chē)站大多分布于天安門(mén)附近,原有的此類(lèi)車(chē)站部分轉(zhuǎn)變?yōu)楣ぷ骺土鞣?wù)的車(chē)站.其原因主要是北京市樞紐規(guī)劃調(diào)整與落實(shí),造成部分該類(lèi)車(chē)站失去服務(wù)對(duì)象,通勤特性凸顯.
圖6 車(chē)站服務(wù)客流類(lèi)型演變Fig.6 Evolution of station service flow types
綜上,只服務(wù)于居住類(lèi)及工作類(lèi)客流的車(chē)站數(shù)量基本保持穩(wěn)定,這表明現(xiàn)有的城市功能區(qū)中的居住區(qū)及工作區(qū)將在現(xiàn)有的基礎(chǔ)上保持穩(wěn)定,短期內(nèi)并未有明顯的改變趨勢(shì),而隨著北京軌道交通線網(wǎng)不斷向外部延伸,服務(wù)居住類(lèi)客流的車(chē)站數(shù)量將會(huì)有少量增加;服務(wù)交通樞紐及旅游商業(yè)類(lèi)客流車(chē)站由于自身功能被分散到其他類(lèi)型的車(chē)站,其數(shù)量在4年中逐漸下降,但此類(lèi)車(chē)站的剩余部分,其不可替代性較高,因而今后一段時(shí)間,其數(shù)量將保持基本穩(wěn)定;由于服務(wù)居住區(qū)與工作區(qū)的混合類(lèi)車(chē)站具有較強(qiáng)的不確定性,其發(fā)展方向?qū)⑹艿街笠欢螘r(shí)間內(nèi)社會(huì)經(jīng)濟(jì)政策的影響,其所在的區(qū)域?qū)⑹浅鞘凶兓顬榧ち业牡貐^(qū),加強(qiáng)對(duì)這些地區(qū)的調(diào)查研究,制定相應(yīng)的規(guī)劃方案,對(duì)其進(jìn)行科學(xué)的規(guī)劃和管理,將是未來(lái)城市發(fā)展的關(guān)鍵.
本文提出了一種無(wú)監(jiān)督RF方法,在保證精度的前提下,有效的避免了傳統(tǒng)RF在本領(lǐng)域訓(xùn)練集選擇上依賴主觀經(jīng)驗(yàn)的弊端,并且以北京軌道交通AFC數(shù)據(jù)為基礎(chǔ),分析了2014—2017年車(chē)站服務(wù)客流性質(zhì)的變化過(guò)程,反映出軌道交通線網(wǎng)對(duì)職住分布及城市結(jié)構(gòu)的塑造作用.這為進(jìn)一步認(rèn)識(shí)城市軌道交通網(wǎng)與城市結(jié)構(gòu)的互動(dòng)關(guān)系提供了借鑒.
然而本文尚有不足,一方面針對(duì)于反映車(chē)站屬性的指標(biāo)的選擇,本文只選取了AFC數(shù)據(jù)中能提取的指標(biāo),對(duì)于乘客個(gè)人社會(huì)經(jīng)濟(jì)屬性等能反映乘客類(lèi)型的指標(biāo)未涉及,不同經(jīng)濟(jì)屬性的乘客出行規(guī)律性程度不同,對(duì)于交通政策變化的敏感程度也不一樣,這意味著對(duì)同一類(lèi)車(chē)站的政策調(diào)整會(huì)對(duì)客流造成不同程度的影響;而另一方面,本文將車(chē)站分為4類(lèi),其中交通樞紐將旅游商業(yè)類(lèi)歸為一類(lèi),并沒(méi)有精確地將其區(qū)分開(kāi)來(lái),針對(duì)這個(gè)問(wèn)題,后續(xù)的研究中應(yīng)嘗試采用不同的指標(biāo)來(lái)表征車(chē)站屬性,并且對(duì)分類(lèi)的數(shù)量進(jìn)行研究,以期進(jìn)一步提高分類(lèi)精度.