傅晨琳,黃 敏,沙志仁
(1.中山大學 智能交通系統(tǒng)重點實驗室,廣東 廣州 510006;2. 廣東方緯科技有限公司 研發(fā)中心,廣東 廣州 510006)
城市軌道交通以其大運量、低成本和高環(huán)保的特點,逐漸成為發(fā)展智慧交通的關鍵。城市軌道交通站點客流量是評價其服務水平和實現城市軌道交通資源有效配置的基礎數據和依據,因而掌握客流波動的特征和規(guī)律,可以實現科學合理地預測各站點短期客流對開展客流控制和列車調度。由于城市軌道交通進站客流受到站點位置、節(jié)假日、重大事件等因素的影響,客流序列的波動呈現很強的非線性和非平穩(wěn)性,客流量的預測難度較大。
客流預測常用方法主要有ARIMA 時間序列模型、回歸模型、神經網絡等,郝勇等[1]運用時間序列模型通過客流7 d 均量分別進行系統(tǒng)日客流量的迭代預測和遞推預測;李麗輝、Smith 等[2-3]分別采用隨機森林回歸和季節(jié)差分自回歸移動平均模型預測短期交通量;李春曉等[4]提出一種基于廣義動態(tài)模糊神經網絡(GD—FNN)用于預測短時進站客流量。為更有效地利用模型的優(yōu)點,互相彌補缺陷,組合預測的理論和方法已成為目前的趨勢。王興川等[5]構建基于小波分解與重構的GM—ARIMA客流預測模型,基于AFC 客流數據實現對大型活動期間的軌道交通客流預測;Yu 等[6]將經驗模態(tài)分解法和BP 神經網絡組合對地鐵客流進行預測。
目前,有關城市軌道交通分時客流預測的研究較少,而且由于城市軌道交通進站客流在時空分布不均勻,呈現出非線性、非穩(wěn)態(tài)的特點,傳統(tǒng)的預測方法難以捕捉數據間的非線性波動,而時間序列存在間歇性,在數據分解時容易出現模態(tài)混疊的現象。為提高進站客流預測精準度,將噪聲輔助數據分析的集合經驗模態(tài)分解法和適合時間序列預測的BP 神經網絡構建組合預測模型對城市軌道交通進站客流進行短期預測。
經驗模態(tài)分解法(Empirical Mode Decomposition,EMD)是Huang 等人于1998 年提出的一種自適應信號時頻處理方法[7],特別適用于非線性非平穩(wěn)信號的分析處理。由于自身優(yōu)勢和適用性,其在交通領域的應用日益成熟。而集合經驗模態(tài)分解法(Ensemble Empirical Mode Decomposition,EEMD)是針對傳統(tǒng)EMD 在處理間歇性的時間序列信號時會出現模式混合的情況而提出的改進算法[8],利用EMD 尺度分離原則和噪聲統(tǒng)計特性,在處理非平穩(wěn)、非線性間歇性時間序列能有效抑制模態(tài)混疊,充分保持原有序列的動態(tài)性,區(qū)分異常狀態(tài),將信號逐級分解成不同頻率和特征尺度的若干個獨立的特征模態(tài)函數(Intrinsic Mode Function,IMF)。
EEMD 的分解原理是通過添加白噪聲輔助分析,促進數據在分解中進行抗混處理,以抑制模式混疊現象。EEMD 的理論依據是在待分解信號添加白噪聲,使其成為真實時間序列和白噪聲的混合,利用白噪聲頻譜在整個時頻的均勻分布特性使數據按照時間尺度自動分布到適合的參考尺度范圍。由于白噪聲具有零均值性,雖然每次分解中白噪聲互不相同,經過多次分解求平均值后,噪聲就可以互相抵消,信號本身才是唯一持久穩(wěn)固的部分,即本質是一種添加白噪聲的多次經驗模態(tài)分解[9],分解后的IMF 分量應滿足近似為周期函數,且任意數據點的極值包絡線的平均值為零。EEMD的分解流程圖如圖1 所示。
EEMD 分解的具體步驟如下。
(1)向原始序列X(t)中分別添加N次均值為0,幅值標準差為0.2 的白噪聲,添加噪聲后的序列為X’(t),確定X’(t)所有的極大值和極小值。
(2)利用三次樣條插值法分別擬合極大值和極小值的上下包絡線,根據上下包絡線計算其局部均值m(t)及差值d(t),判斷d(t)是否滿足IMF 條件:如果滿足,將d(t)表示為第i個 IMF 分量,并以剩余量r來替代X’(t);第i個 IMF 分量通常被記作cn(t);若不滿足,則用X’(t)替代d(t)。
(3)重復以上步驟,當r為單調函數或小于某固定值時,一次分解過程完成,分解后的原始序列可表示成n個IMF 分量與剩余量r的和。
(4)將以上步驟多次分解對應的IMF 總體求平均值,消除白噪聲的影響,得到EEMD 分解后的IMF 分量及剩余量,可表示為
圖1 EEMD 的分解流程圖Fig.1 Decomposition flow chart of EEMD
式中:cj(t)為第j個IMF 分量:r(t)為剩余量。
BP 神經網絡(Back Propagation Network)也被稱為誤差反向傳播神經網絡,是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,具有監(jiān)督的學習模式,是目前應用最廣泛的神經網絡。BP 神經網絡算法的基本思想是梯度下降法,通過反向傳播不斷調整網絡的權值和閾值,使網絡的實際輸出和期望輸出的誤差平方和為最小。BP 神經網絡模型結構通常包括輸入層、隱含層和輸出層,輸入層負責接收神經網絡的輸入信息,隱含層位于中間,是輸入層和輸出層中神經元連接信息的傳輸帶,并對輸入信息進行分析處理,隱含層可以是多層的,輸出層是將分析處理后的結果集合輸出,即神經網絡的輸出。每一層都由不同數量的神經元組成,典型的單隱含層BP 神經網絡的模型拓撲圖如圖2所示。
建立BP 神經網絡模型需要確定包括隱含層層數、各層節(jié)點數、學習速率、迭代次數、各層神經元激勵函數等因素,對網絡性能有一定的影響,在應用時需要通過試驗不斷調整得出適應值。
為更準確地進行客流預測,將EEMD和BP 神經網絡組合構建EEMD—BP 組合模型預測城市軌道交通短期進站客流,其組合思路為:先運用EEMD 對城市軌道交通日進站客流序列進行模態(tài)分解,再對分解后得到的IMF 分量進行識別和篩選,按照與原始時間序列的相關程度將分量分為高相關分量和低相關分量;接著設計實驗研究不同分量組合形式輸入BP 神經網絡的客流預測情況,并對比分析各實驗組的預測結果。簡言之,組合模型分為數據分解階段、分量識別階段、客流預測階段、結果分析階段。
(1)數據分解階段。由于城市軌道
交通客流數據是非線性、非穩(wěn)態(tài)的,且具有間歇性,因而需要先通過EEMD 將原始客流序列分解為若干個簡單獨立的IMF 分量,分解出的IMF 分量按照頻率由高到低排列,各自表示原始客流數據的局部特點,如振蕩范圍、變化趨勢、周期模式等。分解本質是將影響原始序列波動的各成分特征分類分離出來,即原始客流序列呈現出的波動性就是這些分量疊加的結果。
圖2 典型的單隱含層BP 神經網絡的模型拓撲圖Fig.2 Model topology diagram of BP neural network
(2)分量識別階段。通過EEMD 分解后,將得到的IMF 分量中識別篩選出對原始客流序列有顯著影響的高相關分量。高頻分量的周期較短,代表較短時間范圍內客流的波動模式,低頻分量的周期較長,代表較長時間范圍內客流的變化模式,而剩余量代表原始數據整個時間范圍的長期變化趨勢。為更好地分析IMF 分量與原始客流序列之間的內在關系,識別有意義的分量,用以下統(tǒng)計量來分析。①平均周期:定義為快速傅里葉變換的最大振幅所對應的頻率的倒數,代表各 IMF 分量的波動周期;②Pearson 相關系數:用于衡量數據間的線性相關關系,相關系數越大,表示相應的分量與原始客流序列間的線性程度越強;③Kendall 相關系數:用于衡量定序變量間的線性關系,相關系數越大,表示分量與原始序列在某時刻變化方向一致性越高;④方差占比:每個IMF 分量方差所占數據列總體方差的比重。根據各統(tǒng)計量的值分析出原始客流序列的高相關分量。
(3)客流預測階段。通過對IMF 分量的識別篩選之后,為對比和驗證不同模式的預測效果,利用BP 神經網絡設計以下6 組實驗。①直接將原始客流時間序列作為神經網絡的輸入;②將分解后的所有IMF 分量以單獨的方式作為神經網絡的輸入;③將篩選后的高相關性分量以單獨的方式作為神經網絡的輸入;④將篩選后的高相關性分量以組合的方式作為神經網絡的輸入;⑤將篩選后的高相關性分量以單獨的方式,低相關性分量以組合的方式作為神經網絡的輸入;⑥將篩選后的高相關性分量以組合的方式,低相關性分量以組合的方式作為神經網絡的輸入。
(4)結果分析階段。為了合理比對不同輸入模式的預測效果,采用均方根誤差(RMSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE) 3 個指標進行判斷分析。均方根誤差能體現預測誤差的離散分布程度,值越大表示誤差分布越離散,越偏離平均值,預測效果越差;平均絕對誤差是預測值與算術平均值誤差絕對值的平均,可避免誤差互相抵消,更直觀反映實際誤差的大小,值越小表示實際誤差越小;平均絕對百分比誤差是絕對百分比誤差的平均值,可用于評價模型預測結果的好壞,值越大說明預測效果越差。均方根誤差σ、平均絕對誤差ρ、平均絕對百分比誤差τ3 個指標可以表示為
式中:n為所預測的時間段個數;y(t)為原始數據值;為預測值。
廣州珠江新城站為廣州地鐵3 號線和5 號線的換乘站,位于廣州天河中央商務區(qū),是廣州最繁忙的城市軌道交通站點之一。以江新城站為樣本,選取2016 年10 月10 日至11 月30 日期間工作日的分時進站客流作為原始數據,采用EEMD—BP組合模型對該站進行短期客流預測。
根據珠江新城地鐵站的運營時間,以15 min為間隔共2 774 個數據,珠江新城站部分工作日日進站客流隨時間的變化如圖3 所示。由圖3 可知,工作日客流在17 : 30—19 : 30 呈明顯的晚高峰,對應工作客流下班通勤,也是站點實施常態(tài)化客流控制的時段。另外,客流在21 : 00—22 : 00 之間還有一個小晚高峰,對應夜間活動返程客流。需要注意的是,由于燈光節(jié)的影響,少部分日期的22 : 00 附近出現客流異常情況。運用EEMD 對原始客流進行分解,采樣期間工作日的進站客流序列分解為10 個IMF 分量和1 個剩余量,原時間序列及分解后得到的IMF 分量如圖4 所示。將分解所得的IMF 分量按照頻率由高到低依次排列,各自的波動代表了原始時間序列的波動特征成分,最后無法分解的部分為剩余量,剩余量單調遞增,說明整個采樣期間工作日的進站客流呈上升的趨勢。
為識別與原始序列相關程度較高的分量,對各分量進行平均周期、Pearson 相關系數、Kendall相關系數、方差占比4 個指標的統(tǒng)計分析,各IMF 分量的統(tǒng)計分析結果如表1 所示。從周期上看,IMF1 至IMF4 都體現了進站客流的分時波動,其中IMF2 和IMF3 對應了一天之內的2 個高峰,IMF4 體現了半天的波動性,恰好在時間上將白天平峰與晚間高峰分隔開,而IMF5 的波形與原始波形最為相似,體現了原始客流的日波動性;而IMF7 的周期接近5,體現了一周工作日的波動性;IMF10 的周期與原始客流時間范圍一致,則體現整個采樣時間的客流變化特征。從Pearson 相關系數和Kendall 相關系數看,IMF2 和IMF3 的周期雖然相同,但IMF3 的相關系數更大,說明IMF3 與原始序列的線性關系和一致性更高,因而IMF3 對應的是傍晚的高峰??傮w來看,IMF2 至IMF5 的相關系數與其他分量相比明顯更大,說明這些分量與原始序列的波動一致性較高,且他們的方差占比總和為全部占比的97.8%,說明他們是原始序列變化趨勢中的主導分量。根據相關系數的參考準則[10],選擇分量IMF2 至IMF5 為高相關分量,其余分量為低相關分量。
圖3 珠江新城站部分工作日日進站客流隨時間的變化Fig.3 Daily passenger flow in the Zhujiang New Town Station
圖4 原時間序列及分解后得到的IMF 分量Fig.4 Original time series and IMFs obtained after decomposition
選用單隱含層結構神經網絡建立預測模型。為提高預測精度,預測前對數據進行異常值剔除,剔除原始序列中受燈光節(jié)影響導致客流異常的3 d,將原數據分為訓練集和測試集,其中訓練集為前32 d 的數據,按8:2 劃分訓練集和驗證集,最后3 d 為測試集。將每天的時間序列樣本劃分為4 個時段,分別是(06 : 00,12 : 00],(12 : 00,17 : 00],(17 : 00,20 : 00],(22 : 00,23 : 45]。訓練過程中,樣本以15 min 為間隔,以6 為滾動單位,即取前6 個連續(xù)樣本為基礎訓練預測下一個樣本(以6 : 00—7 : 30 為輸入預測7 : 45 數據,再以6 : 15—7 : 45為輸入預測8 : 00的數據)。參數設置經過嘗試,隱藏層激活函數為elu,輸出層激活函數為linear,損失函數采用mae。按照實驗方案的設計,輸入節(jié)點個數基于滾動單位,IMF 分量及每日劃分時段,隱含層節(jié)點數選擇誤差最小的最優(yōu)數,各組實驗的BP 神經網絡訓練的關鍵參數如表2 所示。
表1 各IMF 分量的統(tǒng)計分析結果Fab.1 Statistical analysis results of each IMF
表2 各組實驗的BP 神經網絡訓練的關鍵參數Fab.2 Parameters of BP neural network in each group of experiments
采用均方根誤差、平均絕對誤差、平均絕對百分比誤差作為指標對EEMD—BP 組合預測模型的預測結果進行評價,各實驗方案的預測結果評價分析如表3 所示。
通過表3 可以得出,將原始序列分解為特征分量的形式輸入比直接將原始客流序列作為神經網絡輸入的預測效果精度高,高相關分量是預測精準度提高的關鍵特征分量,分量以組合的形式輸入改善預測精度的效果更好,且將高相關分量和低相關分量分開作為輸入得出最佳預測結果為實驗6。實際數據與實驗6 預測結果比較如表4 所示。
表3 各實驗方案的預測結果評價分析Fab.3 Evaluation of prediction results of each experimental program
表4 實際數據與實驗6 預測結果比較Fab.4 Comparison of actual data with best experimental predictions
(1)城市軌道交通進站客流易受多種因素的影響而呈現時空分布不均勻,難以進行較精準的短期客流預測。EEMD—BP 組合預測模型通過將原始客流序列分解為含有客流不同局部波動特征的若干IMF 分量,并根據對原始序列波動的影響程度識別篩選出高相關分量和低相關分量,作為BP 神經網絡的輸入再進行預測。
(2)經過實驗比較分析,結果表明此模型不僅能提高客流短期預測的精準度,減少預測模型的輸入量,而且將高相關分量和低相關分量分類,再以組合的形式分開輸入時可以最大改善預測效果,預測精準度可達93.01%。
(3)這種預測方法可以應用于基于歷史客流數據對城市軌道交通的客流預測領域,為制定客流控制、列車調度等方案提供數據基礎和科學依據。