光志瑞 魏 運(yùn)** 薛云雷 謝莎婷 吳雁軍
(1. 北京市地鐵運(yùn)營(yíng)有限公司技術(shù)創(chuàng)新研究院, 100039, 北京; 2. 地鐵運(yùn)營(yíng)安全保障技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室, 100039, 北京;3. 京投新岸線技術(shù)有限公司, 100089, 北京∥第一作者, 高級(jí)工程師)
選擇合理的歷史相似日(以下簡(jiǎn)稱“相似日”),是城市軌道交通客流預(yù)測(cè)工作的重要組成部分。電力系統(tǒng)在負(fù)荷預(yù)測(cè)中對(duì)相似日進(jìn)行了廣泛研究,如文獻(xiàn)[1-3]將溫度、濕度、日類型及天氣狀況等影響電力負(fù)荷的因素量化,給出了各因素相似度映射表計(jì)算日期的相似度。在交通領(lǐng)域,文獻(xiàn)[4]通過對(duì)OD(起訖點(diǎn))概率矩陣進(jìn)行聚類分析,將運(yùn)營(yíng)日分為5類;文獻(xiàn)[5]在對(duì)節(jié)假日客流進(jìn)行預(yù)測(cè)時(shí),提出了構(gòu)建日期特征向量、選取合理評(píng)估函數(shù)的相似日選擇思路。但以上研究均缺乏對(duì)城市軌道交通客流影響因素的量化分析,以及日期相似度的系統(tǒng)化模型構(gòu)建。
本文從日期相似度算法策略設(shè)計(jì)、各影響因素相似度計(jì)算、日期相似度模型構(gòu)建等方面,提出了適合城市軌道交通客流預(yù)測(cè)的相似日選擇方法。
城市軌道交通客流預(yù)測(cè)相似日選擇的技術(shù)路線如圖1所示。
注:普通日是指正常工作日與雙休日;與之對(duì)應(yīng)的是特殊日,特殊日含節(jié)假日、節(jié)假日的前一日、重大政治文化活動(dòng)日等。圖1 城市軌道交通客流預(yù)測(cè)相似日選擇方法的技術(shù)路線Fig.1 Technical route of similar day selection method for urban rail transit passenger flow forecast
客流模式是指當(dāng)日城市軌道交通線路/線網(wǎng)所對(duì)應(yīng)的客流影響因素合集。客流模式越接近,客流的影響因素越相似,預(yù)測(cè)日與相似日在客流總量、客流分布情況或客流變化趨勢(shì)等方面越相似,因此,可將相似日的選擇過程轉(zhuǎn)化為客流模式的識(shí)別過程。定義第日客流模式的特征向量M(i)為:
M(i)=[Di,we,Di,lt,Di,wo,Ti,h,Ti,l,Wi,we,Wi,wi]
(1)
式中:
Di,we——星期類型,如星期一、星期二等;
Di,lt——與預(yù)測(cè)日的間隔時(shí)長(zhǎng);
Di,wo——工作日屬性;
Ti,h——日最高溫度;
Ti,l——日最低溫度;
Wi,we——晴、大雨等天氣狀況;
Wi,wi——風(fēng)力。
普通日的客流量與日期距離密切相關(guān)。一般地,Di,lt越小,客流總量越接近,可稱為“客流總量相當(dāng)日”。節(jié)假日、節(jié)假日的前一日(以下簡(jiǎn)稱“節(jié)前一日”)等特殊日與鄰近普通日的客流規(guī)律差別較大,但和往年相同時(shí)期或相似節(jié)假日的變化趨勢(shì)相似,可稱為“客流變化相似日”。
在進(jìn)行客流模式識(shí)別時(shí),為節(jié)約運(yùn)算成本、提高算法效率,可針對(duì)客流總量相當(dāng)日和客流變化相似日,分別采用不同的相似日選擇算法策略。
策略一:選擇客流總量相當(dāng)?shù)南嗨迫諘r(shí),采用前向逐日檢索法,從最臨近預(yù)測(cè)日的歷史日開始,逆時(shí)序逐日計(jì)算每個(gè)歷史日與預(yù)測(cè)日的相似度,選取最近N天中相似度最高的n天作為與之客流總量相當(dāng)?shù)臍v史相似日,或選取相似度大于某個(gè)閾值的n天作為歷史相似日。其中,n為確定選用的歷史相似日的總天數(shù)。
策略二:選擇客流變化相似的相似日時(shí),采用雙向定位檢索法,將往年(如最近3年)同期作為定位點(diǎn),如同一特殊階段、假期天數(shù)相同的法定節(jié)假日中與預(yù)測(cè)日時(shí)序相同的某天,從定位點(diǎn)分別正向、逆向逐日計(jì)算每個(gè)歷史日與預(yù)測(cè)日的相似度,確定n個(gè)歷史相似日。
1.4.1 日期相似度的計(jì)算
設(shè)Ri為歷史第i日與預(yù)測(cè)日的日期相似度,ri,m為歷史第i日與預(yù)測(cè)日在第m種客流影響因素上的相似度,km為第m種客流影響因素的權(quán)重系數(shù)(通過自適應(yīng)過程標(biāo)定)。采用各客流影響因素相似度累乘的方法計(jì)算Ri,通過km確定各因素的影響指數(shù)。km標(biāo)定的目標(biāo)是使Ri的排序與對(duì)應(yīng)客流相似度排序盡可能一致。Ri的計(jì)算式為:
(2)
1.4.2 相似日樣本數(shù)n的確定
可借鑒聚類分析中確定類別數(shù)的方法確定相似日的樣本數(shù):
1) 結(jié)合實(shí)際法。根據(jù)實(shí)際應(yīng)用經(jīng)驗(yàn),進(jìn)行客流預(yù)測(cè)時(shí),普通日可選擇4~6個(gè)相似日,特殊日可選擇1~2個(gè)相似日。
2) 肘方法。確定與預(yù)測(cè)日相似度最高的1~n個(gè)相似日,參考相似日的客流情況對(duì)預(yù)測(cè)日的客流進(jìn)行預(yù)測(cè),繪制樣本數(shù)與預(yù)測(cè)誤差的折線圖,折線的拐點(diǎn)處即為合適的樣本數(shù)。
客流的影響因素主要包括星期類型、與相似日的間隔時(shí)長(zhǎng)、工作日屬性、日最高溫度、日最低溫度、天氣狀況、風(fēng)力等。這些因素可分為0-1型指標(biāo)、定性指標(biāo)、定量指標(biāo)3種類型。應(yīng)按照影響因素不同的類型分別進(jìn)行相似度計(jì)算。
工作日與非工作日、法定節(jié)假日與非法定節(jié)假日、重大政治文化活動(dòng)日與非重大政治文化活動(dòng)日間的客流特點(diǎn)明顯不同,兩兩絕非相似日。若歷史日與預(yù)測(cè)日同屬同一個(gè)類型,如均為工作日,則相似度取1,否則取0。式(1)中的Di,wo屬0-1型指標(biāo)。
式(1)中的Di,we、Wi,we屬定性指標(biāo)。計(jì)算定性指標(biāo)的相似度時(shí),可直接匹配已標(biāo)定的相似度映射表。映射表標(biāo)定流程如下:① 通過給定性指標(biāo)賦值或借助其他定量指標(biāo),對(duì)定性指標(biāo)進(jìn)行定量轉(zhuǎn)化;② 對(duì)定量轉(zhuǎn)化后的指標(biāo)進(jìn)行量綱一化處理;③ 計(jì)算相似度,形成定性指標(biāo)相似度映射表。
本文以星期類型相似度為例,介紹定性指標(biāo)的相似度計(jì)算方法。星期類型對(duì)客流量有較大影響,構(gòu)建星期類型相似度函數(shù)時(shí),需遵循以下基本原則:① 星期類型的相似度函數(shù)分布在(0,1]區(qū)間;② 若星期類型相同,則相似度為1;工作日與雙休日相似度最小,最小相似度應(yīng)大于0;③ 通過構(gòu)造函數(shù)法構(gòu)建相似度計(jì)算函數(shù),使不同星期類型的相似度能夠較均勻地分布在(0,1]內(nèi)。
根據(jù)以上原則,構(gòu)建出星期類型的兩個(gè)相似度函數(shù),其計(jì)算式分別為:
rDt,1=1-|xp-xq|
(3)
(4)
式中:
rDt,1——星期類型的相似度函數(shù)1;
rDt,2——星期類型的相似度函數(shù)2;
xp——星期類型為p的日期所對(duì)應(yīng)客流量的量綱一化值;
xq——星期類型為q的日期所對(duì)應(yīng)客流量的量綱一化值;
p、q——均為星期類型,星期一取1,星期二取2,…,星期日取7。
表1 基于兩個(gè)相似度函數(shù)得到的各星期類型間客流相似度結(jié)果Tab.1 Results of passenger flow similarity between week types based on two similarity functions
在特殊情況下(如星期六調(diào)休加班下的客流與工作日客流間差別較小),星期類型不應(yīng)作為客流預(yù)測(cè)的主導(dǎo)因素。為避免星期類型在任何條件下均為主導(dǎo)因素,應(yīng)使星期類型相似度較均勻地分布在(0,1]內(nèi),因此,選用式(4)作為星期類型的相似度函數(shù),其計(jì)算結(jié)果如表2所示。
表2 基于式(4)得到的各星期類型間客流相似度結(jié)果Tab.2 Results of passenger flow similarity betweendifferent week types based on formula (4)
式(1)中的Di,lt、Ti,h、Ti,l、Wi,wi屬定量指標(biāo)。本文以Di,lt、Ti,h為例,構(gòu)造定量指標(biāo)的相似度計(jì)算函數(shù)。
2.3.1Di,lt的相似度計(jì)算
Di,lt對(duì)客流的影響具有“近大遠(yuǎn)小”的特點(diǎn),即:當(dāng)預(yù)測(cè)日為普通日時(shí),Di,lt和Di,we為客流預(yù)測(cè)的主導(dǎo)因素。離待預(yù)測(cè)日越近,其客流特征越相似,且隨著與預(yù)測(cè)日距離的增加相似度緩慢衰減。當(dāng)預(yù)測(cè)日為節(jié)假日及節(jié)前一日時(shí),Di,lt為客流預(yù)測(cè)的主導(dǎo)因素,離定位點(diǎn)的距離越近其客流特征越相似,且隨著與定位點(diǎn)距離的增加相似度驟減。因此,引入特殊日因子λ,用以解決不同情況下主導(dǎo)因素變換的問題。同時(shí),考慮到普通日距離衰減的緩慢性,分別引入了周衰減比例和日衰減比例,用以表述該指數(shù)函數(shù)的衰減程度。Di,lt相似度的計(jì)算式為:
(5)
式中:
rDd(d1,d2)——Di,lt相似度;
d1——第i個(gè)歷史日距離預(yù)測(cè)日的天數(shù);
d2——第i個(gè)歷史日距離定位點(diǎn)的天數(shù);
新思想、新理論的提出和形成都有其深刻的理論淵源,習(xí)近平黨的紀(jì)律建設(shè)思想就是在對(duì)馬克思主義關(guān)于無產(chǎn)階級(jí)政黨的紀(jì)律建設(shè)思想和中國(guó)共產(chǎn)黨人紀(jì)律建設(shè)思想的繼承和發(fā)展的基礎(chǔ)上提出和形成的。
ω1——普通日的周相似衰減比例;
ω2——普通日的日相似衰減比例;
ω3——特殊日的日期距離衰減系數(shù)。
式(5)中:λ為0-1變量,當(dāng)預(yù)測(cè)日為特殊日時(shí),λ取1,否則取0;int為取整運(yùn)算,mod為取余運(yùn)算。
2.3.2Ti,h相似度計(jì)算
Ti,h、Ti,l、Wi,wi等定量指標(biāo)計(jì)算方法類似。以Ti,h為例,不同范圍內(nèi)Ti,h變化對(duì)客流的影響程度不同:當(dāng)Ti,h低于某閾值時(shí),客流對(duì)最高溫度的反應(yīng)不敏感,如Ti,h為23 ℃與28 ℃時(shí)(相差5 ℃)的客流量相當(dāng);但是一旦超過某閾值,客流對(duì)溫度的反應(yīng)將變得敏感,如Ti,h為36 ℃與31 ℃時(shí)(相差5 ℃)的客流量相差較大。因此,通過構(gòu)建分段函數(shù)來計(jì)算Ti,h的相似度,分段函數(shù)的影響系數(shù)用αk表示,Ti,h低于閾值時(shí)k取1,高于閾值時(shí)k取2:
rTh=1-αk|Tu,h-Tv,h|
(6)
式中:
rTh——Ti,h相似度;
Tu,h——第u日Ti,h量綱一化值;
Tv,h——第v日Ti,h量綱一化值;
αk——影響系數(shù)(k取1,2)。
當(dāng)Ti,h低于某一閾值(如34 ℃),此時(shí)Ti,h不是主導(dǎo)因素,k取1,αk可取0.001(結(jié)合星期類型相似度賦值);當(dāng)Ti,h高于某一閾值(如34 ℃),此時(shí)Ti,h為主導(dǎo)因素,k取2,αk可取0.020(結(jié)合星期類型相似度賦值)。
相似日選擇是否合理,主要通過評(píng)估預(yù)測(cè)精度來判斷。設(shè)城市軌道交通客流預(yù)測(cè)的平均絕對(duì)誤差為EMAE,平均絕對(duì)百分比誤差為EMAPE,其計(jì)算式分別為:
(7)
(8)
式中:
ys——實(shí)際客流;
t——預(yù)測(cè)樣本數(shù)。
本文基于經(jīng)驗(yàn)法與相似日選擇法,對(duì)2017年11月23日(星期四)進(jìn)行相似日選擇,對(duì)該日的北京城市軌道交通全路網(wǎng)客流進(jìn)站量進(jìn)行預(yù)測(cè),并對(duì)傳統(tǒng)經(jīng)驗(yàn)法的預(yù)測(cè)結(jié)果與本文提出的相似日選擇法的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。
在選擇普通日相似日時(shí),通常采用無異常情況的4個(gè)與預(yù)測(cè)日星期類型相同的歷史日期作為相似日。采用經(jīng)驗(yàn)法選擇的相似日為2017-11-16(星期四)、2017-11-09(星期四)、2017-11-02(星期四)、2017-10-26(星期四)。采用本文提出的相似日選擇法,式(5)的ω1取0.98,ω2取0.99,得到的計(jì)算結(jié)果如下:2017-11-22(星期三)的相似度為0.984、2017-11-21(星期二)的相似度為0.969、2017-11-16(星期四)的相似度為0.980、2017-11-15(星期三)的相似度為0.964。
在此基礎(chǔ)上,采用平均值與二次指數(shù)平滑法(平滑系數(shù)l分別取0.1、0.2、0.3)計(jì)算EMAE和EMAPE。經(jīng)驗(yàn)法和相似日選擇法得到的EMAE和EMAPE如表3所示。由表3可看出,對(duì)4種客流預(yù)測(cè)結(jié)果的誤差進(jìn)行平均,可得到采用相似日選擇法得到的EMAE為5 080人次,EMAPE為0.08%,其預(yù)測(cè)精度高于經(jīng)驗(yàn)法的預(yù)測(cè)精度。
表3 基于兩種相似日選擇法的普通日相似日客流預(yù)測(cè)誤差對(duì)比
本文基于經(jīng)驗(yàn)法與相似日選擇法,對(duì)2017年國(guó)慶節(jié)的前一日(2017-09-30,星期六)進(jìn)行相似日選擇,并預(yù)測(cè)該日北京城市軌道交通全路網(wǎng)的客運(yùn)量。
經(jīng)驗(yàn)法選用2016-09-30(星期五)作為相似日,由于星期五與星期六相似度較低(僅為0.421),不能作為本次客流預(yù)測(cè)的參考。采用相似日選擇法得到的相似日為2017年端午節(jié)的前一日(2017-05-27,星期六),該日與預(yù)測(cè)日均為調(diào)休加班日,二者的相似度為0.786。
如表4所示,采用增長(zhǎng)系數(shù)法進(jìn)行預(yù)測(cè)得到相似日選擇法的EMAPE為1.27%,預(yù)測(cè)誤差小于經(jīng)驗(yàn)法的預(yù)測(cè)誤差(6.95%)。
表4 基于兩種相似日選擇法對(duì)節(jié)前一日客流預(yù)測(cè)的誤差對(duì)比Tab.4 Comparison of two similar day selection methods on passenger flow prediction of the previous day of holiday
選擇合理的相似日,是提高城市軌道交通客流預(yù)測(cè)精度的有效途徑。本文提出的用于城市軌道交通客流預(yù)測(cè)中的相似日選擇法,綜合考慮了星期類型、與預(yù)測(cè)日的間隔時(shí)長(zhǎng)、工作日屬性、日最高溫度等各類影響城市軌道交通客流的因素,并根據(jù)各影響因素的特征構(gòu)建了不同影響因素的相似度度量方法,可為不同的城市軌道交通客流預(yù)測(cè)場(chǎng)景提供參考。