錢慧敏,徐海輝,翁劍成,李 靜,王亞朝
(1.北京市交通運行監(jiān)測調(diào)度中心,北京 100161;2.綜合交通運行監(jiān)測與服務(wù)北京市重點實驗室,北京 100161;3.北京工業(yè)大學(xué)交通工程重點實驗室,北京 100024)
隨著人們對豐富精神生活追求的需求日益突出,以文藝活動、體育賽事、展覽展銷為代表的大型活動在各大城市頻繁舉辦,滿足人們對豐富精神生活追求的同時也帶來了一系列問題.活動的舉辦需要參與者在短時間內(nèi)完成集散,因此活動前后將對周邊公共交通、路網(wǎng)、出租車及慢行交通的正常運行造成極大壓力,并且極易引發(fā)大客流擁堵.與此同時,地鐵作為目前城市交通出行的重要工具之一,活動開展會導(dǎo)致周邊受影響的地鐵站客流出現(xiàn)巨幅增長,極易引發(fā)大客流對沖而導(dǎo)致?lián)砣?,造成安全隱患.因此,地鐵運營部門和公安機(jī)關(guān)亟須通過流量預(yù)測技術(shù)了解大客流發(fā)生的時段、規(guī)模,提前部署相應(yīng)運力及安保策略,保障市民安全出行.
現(xiàn)階段關(guān)于軌道客流預(yù)測相關(guān)的研究,主流仍是采用四階段法為基礎(chǔ)的需求預(yù)測模型或者是基于行為分析的概率模型[1].20世紀(jì)60年代,文獻(xiàn)[2-3]首先進(jìn)行了嘗試,提出了交通分布和交通分配的組合模型,并給出了求解算法.熊杰等[4]提出了基于歷史數(shù)據(jù),然后基于Kalman濾波、灰色關(guān)聯(lián)分析方法預(yù)測客流量.而現(xiàn)階段關(guān)于大型活動相關(guān)的研究更多的是針對奧運會、世園會等級別高、影響大的大型活動.Karlaftis等[5]建立了針對大型活動的交通決策支持系統(tǒng)和輔助公交優(yōu)化模型,并在2004年雅典奧運會中成功應(yīng)用.王田田[6]從政策、票務(wù)、區(qū)位等方面分析青島世園會影響客流規(guī)模的因素,并從月分布特征、高峰小時客流等指標(biāo)對入園客流特征進(jìn)行刻畫.劉淼[7]主要從時間、空間分布特征入手,結(jié)合天氣、票務(wù)政策、游客心理等因素進(jìn)行分析,對比總結(jié)上海世博會的入園月變、周變、時變客流特征.林文聞[8]以上海世博會為例,利用基本數(shù)理統(tǒng)計工具和方法,對入口進(jìn)行單獨分析,從而總結(jié)了世博客流在各個入口的分布特征.錢慧敏等[9]分析了北京園博會客流特征,并定量化闡述了氣溫、降雨、日期屬性等因素對活動客流的影響.
現(xiàn)階段關(guān)于大型活動的研究更多是關(guān)注世界及國家層面的活動,而針對頻繁在城市內(nèi)舉辦的體育賽事活動、文藝演出等大型活動的研究較少.本研究將以城市內(nèi)舉辦的體育賽事活動為切入點,通過AFC數(shù)據(jù)鑒別活動影響范圍,利用數(shù)據(jù)驅(qū)動,發(fā)現(xiàn)活動前后軌道站點進(jìn)出站客流的時變特征,進(jìn)一步剖析類型、天氣、節(jié)假日、時段等諸多因素對客流的影響,并構(gòu)建基于梯度下降決策樹的大型活動周邊軌道站點影響時段內(nèi)客流預(yù)測模型.
收集2016—2018年北京市共計109場體育賽事活動信息,涉及工人體育場及凱迪拉克中心兩大場館,包括中超聯(lián)賽(CSL)及中國男籃聯(lián)賽(CBA).其中超聯(lián)賽44場,中國男籃聯(lián)賽65場.大型活動數(shù)據(jù)主要包含大型活動舉辦日期、星期、天氣、活動名稱、主場隊伍、客場隊伍、舉辦場館及活動時間,如表1所示.提取活動開展當(dāng)日、前一日及上周同期的AFC刷卡數(shù)據(jù),刷卡數(shù)據(jù)主要包含進(jìn)站線路編號、進(jìn)站站點編號、出站線路編號、出站站點編號、進(jìn)站時間、出站時間等共15個字段,字段說明見表2.
表1 體育賽事大型活動樣例數(shù)據(jù)
表2 AFC刷卡數(shù)據(jù)字段說明
活動期間周邊軌道站點客流主要由兩部分組成:背景客流和誘增客流.背景客流[10]可通過分析吸引范圍內(nèi)的土地利用、社會經(jīng)濟(jì)、公交服務(wù)等因素,直接估計站點和分析進(jìn)出站客流量,也可基于時間序列、小波分析等相關(guān)模型進(jìn)行預(yù)測.本文的研究對象是體育賽事類大型活動,活動時間和舉辦場所相對固定,因此需要明確受其影響的軌道站點及時段.
對比活動期間周邊軌道站點客流數(shù)據(jù)與同時期無大型活動軌道站點客流發(fā)現(xiàn),凱迪拉克場館影響到地鐵五棵松站,工人體育場周邊受影響軌道站點較多,分別為東四十條、團(tuán)結(jié)湖及東大橋.由此可發(fā)現(xiàn),受影響站點均為場館周邊不同軌道線路距離場館最近的站點,如圖1所示.
圖1 場館周邊受影響軌道站點分布圖
從工人體育場舉辦的中超聯(lián)賽對周邊軌道站點客流的影響究中發(fā)現(xiàn),站點出站客流在活動開始前2.5 h出現(xiàn)增長,進(jìn)站客流在活動結(jié)束后1 h內(nèi)客流有明顯增長.出站客流峰值一般出現(xiàn)在活動開始前1 h,15 min出站客流較無大型活動增幅300%,達(dá)1 726人次圖2(a);進(jìn)站客流峰值出現(xiàn)在活動結(jié)束后0.5 h,15 min出站客流可達(dá)2 395人次圖2(b).
圖2 場館周邊軌道站點客流受影響時段分析圖
活動客流受諸多因素影響,總體可分為活動屬性因素(內(nèi)因)與客觀因素(外因)兩大類.其中活動內(nèi)因主要有活動類型、主客場隊伍等;活動外因有活動舉辦期間的氣候、日期屬性等因素.它們都會對活動客流水平造成影響.
3.3.1 軌道站點
當(dāng)場館周邊受影響站點為多個站點時,因各線路走勢、影響范圍及站點距離場館的距離均不相同,可發(fā)現(xiàn)各軌道站點客流特征并不相同.如工體周邊受影響3個站點就存在差異,受影響最大的站點為東大橋,其次為東四十條,影響最小的為團(tuán)結(jié)湖站(圖3).
圖3 不同受影響軌道站點客流分布
3.3.2 天氣狀況
天氣狀況對室外活動開展有顯著影響,當(dāng)出現(xiàn)大降水時,客流將明顯減少,并且降雨越大對客流的減少越明顯[9].對于預(yù)約購票的大型活動,特殊天氣不會對客流水平造成過多影響,因此對特殊天氣下的交通系統(tǒng)應(yīng)急保障提出更高要求.基于最小顯著性差異分析方法發(fā)現(xiàn),多云和小雨天氣情況下客流是沒有顯著差異的;小雨和多云、中雨、晴天及雷陣雨均不存在差異;多云、晴天及雷陣雨三者間客流則均存在顯著差異(表3).
表3 站點客流量根據(jù)天氣情況多重比較結(jié)果
3.3.3 日期屬性
對于大型活動而言,雙休日和法定節(jié)假日通常會出現(xiàn)較大幅度的客流增長(表4).不同日期屬性條件下,即工作日、雙休日、節(jié)假日條件下,大型活動客流特征及規(guī)律呈現(xiàn)不同的特點.基于最小顯著性差異分析方法發(fā)現(xiàn),工作日、節(jié)假日、雙休日活動客流存在顯著性差異,而雙休日和節(jié)假日間并沒有顯著性差異.
表4 站點客流量根據(jù)日期屬性多重比較結(jié)果
3.3.4 活動類型
體育賽事活動包含足球、籃球、排球、網(wǎng)球等多種類型,各類型活動在各國受歡迎程度均不同.本文獲得了在北京舉辦的中超聯(lián)賽及CBA聯(lián)賽.通過分析發(fā)現(xiàn),盡管國內(nèi)觀眾對國足在國際賽場的表現(xiàn)失望,但其受歡迎程度仍高于CBA聯(lián)賽.
3.3.5 主、客場隊伍
主、客場隊伍均有各自的粉絲,其擁有的粉絲越多則觀眾會越多.廣州恒大、上海上崗及山東魯能是大家熟知的國內(nèi)中超聯(lián)賽的強(qiáng)隊,對比發(fā)現(xiàn)其吸引的客流明顯高于其他隊伍,不同知名度及實力客隊伍的誘增客流有顯著的差異(圖4).本文僅獲取了北京賽事數(shù)據(jù),主場隊伍均為國安,但由客場隊伍的差異推斷,不同主場隊伍所吸引的客流也將存在明顯差異.
圖4 不同客場隊伍情況下誘增客流
3.3.6 距離活動開始、結(jié)束時間
由圖2、圖3可發(fā)現(xiàn),觀眾于活動開始前2.5 h抵達(dá),于活動結(jié)束后1 h內(nèi)離場,在這兩個時間段內(nèi),將產(chǎn)生極高的交通需求.在這2個時間內(nèi)客流分布也是不同的,活動開始前2 h至活動開始前30 min出站客流在不斷增加,隨后衰減,結(jié)束后客流也有相似特征.而本文的預(yù)測最小單位為15 min,因此其在預(yù)測模型中也是極其重要的一個參數(shù)指標(biāo).
GBDT(gradient boosting decision tree)又叫MAR是一種迭代的決策樹算法,其學(xué)習(xí)機(jī)制是共迭代構(gòu)建M個不同的個體決策樹,h(x,a1),…,h(x,aM),其中第n個決策樹可表示為:
fn(x)=fn-1(x)+βnh(x;an)
(1)
式中:fn-1(x)為從第1個決策樹到第(n-1)個決策樹;βn為第n棵樹的節(jié)點權(quán)重.假設(shè)第n-1輪迭代得到的學(xué)習(xí)器為fn-1(x),損失函數(shù)為L(x,fn-1(x)),那么第n輪迭代的目標(biāo)就是找到一個βnh(x;an),使本輪的損失函數(shù)L(x,fn-1(x))最小.
梯度提升決策樹的回歸算法如下:
輸入訓(xùn)練樣本集
T={(x,y1),(x,y2),…,(xm,ym)}.
1)初始化弱學(xué)習(xí)器
(2)
2)對迭代輪數(shù)i=1,2,…,T有:
a)對樣本i=1,2,…,m,計算負(fù)梯度
(3)
b)利用(xi,τit)(i=1,2,…,m),擬合一棵CART回歸樹,得到第t棵回歸樹,其對應(yīng)的葉子節(jié)點區(qū)域為j,j=1,2,…,J.其中J為回歸樹t的葉子節(jié)點個數(shù).
c)對葉子區(qū)域j=1,2,…,J,計算最佳擬合值
(4)
d)更新學(xué)習(xí)器
(5)
得到強(qiáng)學(xué)習(xí)器f(x)的表達(dá)式
(6)
收集2016—2018年北京市共計109場中超聯(lián)賽和CBA聯(lián)賽體育賽事活動信息,為了提高模型泛化程度,防止過擬合現(xiàn)象,將前70%日期的數(shù)據(jù)作為訓(xùn)練集,后30%作為測試集進(jìn)行模型訓(xùn)練.
在具體預(yù)測中需要將訓(xùn)練集的影響因素進(jìn)行標(biāo)準(zhǔn)化處理,以表5為標(biāo)準(zhǔn)化處理規(guī)則.標(biāo)準(zhǔn)化處理后形成標(biāo)準(zhǔn)的訓(xùn)練集.
表5 影響因素標(biāo)準(zhǔn)化處理對照表
在實際預(yù)測中嘗試不同參數(shù)組合下模型預(yù)測效率和精度,對于模型參數(shù)優(yōu)化.嘗試了不同組合,最終選取{max_depth=7,learning_rate=0.1,n_estimators=750,max_features=10,min_samples_split=6}參數(shù)組合作為優(yōu)選組合.其中,max_depth為決策樹的最大深度;learning_rate為學(xué)習(xí)率;n_estimators為基學(xué)習(xí)器數(shù)目,max_features為最大特征值,min_samples_split每個葉子結(jié)點內(nèi)所包含樣本量.
以2018-11-07北京中赫國安與上海申花在工人體育場的比賽進(jìn)行驗證,周邊受影響的軌道站點分別為東大橋、東四十條、團(tuán)結(jié)湖3個站點,預(yù)測時段內(nèi)平均精度分別為93.67%、90.76%、89.61%,總體預(yù)測精度較高圖5~圖7.團(tuán)結(jié)湖站點客流受大型活動影響程度較小,受背景客流影響較大且波動性大導(dǎo)致預(yù)測精度相對較低.
圖5 東大橋出站客流預(yù)測
圖6 東四十條出站客流預(yù)測
圖7 團(tuán)結(jié)湖出站客流預(yù)測
利用現(xiàn)階段獲取的海量刷卡數(shù)據(jù)、3年的體育賽事活動數(shù)據(jù),分析發(fā)現(xiàn),活動對周邊軌道站點的正常運行產(chǎn)生巨大壓力,受影響的站點為各軌道線路中離場館距離最近的站點;受影響時段上,出站誘增客流出現(xiàn)在活動開始前2.5 h,在活動開始前1 h達(dá)到峰值;離場客流于活動結(jié)束后1 h內(nèi)離場完畢.不同站點、日期屬性、活動類型、天氣、主客場隊伍情況下受影響軌道站點誘增客流有明顯差異.基于此構(gòu)建梯度提升決策樹預(yù)測模型,驗證發(fā)現(xiàn)東大橋、東四十條及團(tuán)結(jié)湖3個站點出站客流,預(yù)測平均精度分別為93.67%、90.76%、89.61%,可為相關(guān)政府部門、運營企業(yè)的決策提供支撐.