基金項(xiàng)目:
2021年度廣西高校中青年教師科研基礎(chǔ)能力提升項(xiàng)目“基于DALI及無線技術(shù)的智能照明控制系統(tǒng)的研究與應(yīng)用”(編號(hào):2021KY1125)
作者簡(jiǎn)介:
王菊嬌(1986—),碩士,講師,工程師,研究方向:電子信息技術(shù),物聯(lián)網(wǎng)技術(shù)、計(jì)算機(jī)應(yīng)用技術(shù)。
摘要:針對(duì)軌道交通客流量預(yù)測(cè)問題,文章以南寧市軌道交通1號(hào)線為對(duì)象,提出了一種基于多模型Stacking集成學(xué)習(xí)的方法,對(duì)客流量進(jìn)行預(yù)測(cè)并進(jìn)行評(píng)估。通過融合XGBoost、LightGBM和LSTM模型,利用各模型優(yōu)勢(shì)互補(bǔ),降低過擬合風(fēng)險(xiǎn),提高預(yù)測(cè)準(zhǔn)確性和泛化能力。結(jié)果顯示:Stacking模型在客流量預(yù)測(cè)中表現(xiàn)優(yōu)異,與實(shí)際值接近,評(píng)價(jià)指標(biāo)表現(xiàn)良好,可有效提高運(yùn)營效率和管理決策水平。
關(guān)鍵詞:軌道交通;客流量預(yù)測(cè);Stacking集成學(xué)習(xí)
中圖分類號(hào):U491.1+4文獻(xiàn)標(biāo)識(shí)碼:A 47 157 3
0 引言
近年來,城市軌道交通迅速發(fā)展,據(jù)2023年數(shù)據(jù)顯示,全國已有66座城市開通城市軌道交通,總線路長度達(dá)11 900.29 km,其中僅當(dāng)年新增的城市軌道交通運(yùn)營線路長度達(dá)884.55 km,占全球新增線路長度的42.56%。高效便捷、綠色經(jīng)濟(jì)的軌道交通,日益成為人們的優(yōu)選出行工具。然而,軌道交通系統(tǒng)面臨諸如天氣變化,大型文體活動(dòng)、重大節(jié)假日等造成客流量激增,交通擁堵等問題,除了直接影響著交通運(yùn)營的效率和乘客出行體驗(yàn),甚至還會(huì)引發(fā)公共安全事件。因此,準(zhǔn)確預(yù)測(cè)客流量可以掌握客流規(guī)律和特點(diǎn),幫助軌道交通提前制定預(yù)案,對(duì)優(yōu)化軌道交通系統(tǒng)的運(yùn)營、緩解交通擁堵、提升服務(wù)質(zhì)量以及改善乘客出行體驗(yàn)至關(guān)重要。
當(dāng)前學(xué)術(shù)界關(guān)于短期客流預(yù)測(cè)的方法有很多,趙鵬等[1]用ARIMA模型對(duì)客流量進(jìn)行預(yù)測(cè)取得一定的成果,但在處理非線性和突發(fā)性數(shù)據(jù)時(shí)表現(xiàn)有限;付甜等[2]使用多因素XGBoost進(jìn)行城市軌道交通短時(shí)客流預(yù)測(cè),較好地分析客流量與天氣、日期等多種影響因素的關(guān)系模型,利用歷史數(shù)據(jù)進(jìn)行較準(zhǔn)確預(yù)測(cè),不足的是涉及的環(huán)境因素相對(duì)較少;韓皓等[3]研究的LightGBM預(yù)測(cè)模型,不需要對(duì)數(shù)據(jù)進(jìn)行假定,利用其高效性能和較快的訓(xùn)練速度來處理大規(guī)模數(shù)據(jù)集,并取得較好的預(yù)測(cè)效果,但在數(shù)據(jù)量較小或噪聲較多的情況容易過擬合;孫越等[4]對(duì)原始數(shù)據(jù)進(jìn)行分析和特征提取,訓(xùn)練LSTM模型和ARMA模型,通過組合模型對(duì)鐵路客流量預(yù)測(cè),但在多因素影響方面存在改進(jìn)空間。
由于影響軌道交通短時(shí)客流量的因素很多,如天氣、時(shí)間、特殊事項(xiàng)等,其數(shù)據(jù)具有周期性、非線性和隨機(jī)性,在上述單模型算法和同質(zhì)組合模型中,存在著一定的局限性,如處理非線性關(guān)系時(shí)表現(xiàn)有限,容易過擬合,多因素影響上表現(xiàn)不佳等問題。針對(duì)這些挑戰(zhàn),本文提出了一種基于多模型Stacking集成學(xué)習(xí)的軌道交通短時(shí)客流量預(yù)測(cè)方法。該方法通過融合多種優(yōu)秀的異質(zhì)模型(XGBoost、LightGBM、LSTM),訓(xùn)練并預(yù)測(cè)最終的客流量結(jié)果,綜合利用各模型優(yōu)勢(shì),彌補(bǔ)其不足,降低過擬合風(fēng)險(xiǎn),提高整體預(yù)測(cè)性能和泛化能力,從而實(shí)現(xiàn)更準(zhǔn)確和穩(wěn)健的客流量預(yù)測(cè)。
1 模型準(zhǔn)備
1.1 XGBoost算法
XGBoost算法[5]處理一些不規(guī)則數(shù)據(jù)有較大的優(yōu)勢(shì),屬于集成學(xué)習(xí)中的Boosting框架算法,包括多個(gè)CART(分類回歸樹)的集成,采取迭代增加樹,擬合上一輪迭代中預(yù)測(cè)值和真實(shí)值的殘差,逐步逼近真實(shí)數(shù)值。
XGBoost的預(yù)測(cè)模型公式如下:
y︿i=∑mm=1fm(xi)
(1)
式中:m——樹的總量;
fm——第m棵樹;
y︿i——數(shù)據(jù)xi的對(duì)應(yīng)的預(yù)測(cè)結(jié)果。
1.2 LightGBM算法
LightGBM是一種基于決策樹算法(GBDT)的梯度提升框架,采用基于直方圖的決策樹算法,通過Leaf-wise生長策略來構(gòu)建樹,同時(shí)引入了互斥特征捆綁和直方圖做差等技術(shù),以提高訓(xùn)練效率和預(yù)測(cè)性能。
LightGBM利用直方圖算法,將連續(xù)的浮點(diǎn)特征(#data)分割為k個(gè)離散數(shù)值(分桶bins),建立寬度為k的直方圖,遍歷訓(xùn)練數(shù)據(jù),計(jì)算每個(gè)離散值在直方圖中的累積統(tǒng)計(jì)量,根據(jù)直方圖的離散值來尋找最優(yōu)的分割點(diǎn)。如下頁圖1所示。
LightGBM采用Leaf-wise(按葉子生長)生長策略,能夠在更小的計(jì)算代價(jià)上建立所需的決策樹。每次從當(dāng)前所有葉子中找到分裂增益最大(一般也是數(shù)據(jù)量最大)的一個(gè)葉子,然后分裂,如此循環(huán),但需要控制樹的深度和每個(gè)葉子節(jié)點(diǎn)的最小數(shù)據(jù)量,從而減少過擬合。如圖2所示。
1.3 LSTM算法
基于Stacking集成學(xué)習(xí)的軌道交通短時(shí)客流量預(yù)測(cè)研究/
王菊嬌,闕凡博
LSTM(Long Short-Term Memory)如圖3所示,是一種專門用于處理時(shí)間序列數(shù)據(jù)的深度學(xué)習(xí)模型,具有記憶單元和門控機(jī)制,能夠有效捕捉長期依賴關(guān)系。通過遺忘門、輸入門和輸出門的調(diào)控神經(jīng)元細(xì)胞的信息流動(dòng),避免梯度消失或梯度爆炸問題,從而在處理序列數(shù)據(jù)時(shí)表現(xiàn)更為優(yōu)越。
1.4 Stacking模型
Stacking是一種集成學(xué)習(xí)方法,其通過將多個(gè)基礎(chǔ)模型的預(yù)測(cè)結(jié)果作為新特征,并通過訓(xùn)練一個(gè)次級(jí)模型來融合基本模型的預(yù)測(cè)結(jié)果。由于兩次所使用的訓(xùn)練數(shù)據(jù)不同,因此可以在一定程度上防止過擬合。本研究采用兩層的學(xué)習(xí)器構(gòu)成,初級(jí)學(xué)習(xí)器使用兩種模型,分別是處理不規(guī)則數(shù)據(jù)效果好的XGBoost和效率性能佳的LightGBM,次級(jí)學(xué)習(xí)器使用預(yù)測(cè)能力強(qiáng)的LSTM深度神經(jīng)網(wǎng)絡(luò),可以捕捉數(shù)據(jù)中的重要模式和特征。
2 模型融合與預(yù)測(cè)結(jié)果分析
本文對(duì)南寧軌道交通1號(hào)線進(jìn)行短時(shí)客流預(yù)測(cè)分析。1號(hào)線是南寧軌道交通系統(tǒng)的首條地鐵線路,全線長32.1 km,起點(diǎn)站為石埠,終點(diǎn)為南寧東站,沿途有25座地下站。
2.1 客流量數(shù)據(jù)分析
客流量數(shù)據(jù)選取的時(shí)間為2023-11-06至2023-12-03(4周),并通過官網(wǎng)獲取這個(gè)時(shí)間段的天氣和氣溫情況。軌道交通1號(hào)線各個(gè)車站客流量如圖4所示。由圖4可知,在南寧市軌道交通1號(hào)線25個(gè)車站中,客流量較多的有火車東站、瑯東客運(yùn)站、會(huì)展中心站、廣西大學(xué)站、動(dòng)物園站和朝陽廣場(chǎng)站,這里選取客流量最多的朝陽廣場(chǎng)站作為研究對(duì)象。圖5~6為地鐵1號(hào)線朝陽廣場(chǎng)站一個(gè)月內(nèi)6:30-23:00的進(jìn)站量的分布曲線??土髟谠绺叻搴屯砀叻逵休^大的波動(dòng)性。另外,朝陽廣場(chǎng)站的客流量整體體現(xiàn)了以星期為周期的波動(dòng)規(guī)律,周一到周五晚高峰客流量明顯增多,周六、周日客流量增多,同時(shí)也受溫度、天氣和所處地段的影響(見圖7)。
對(duì)客流量相關(guān)的數(shù)據(jù)特征進(jìn)行分類,分為區(qū)域類型、日期、氣溫、天氣、特殊事件類型等,如表1所示。
2.2 模型融合
基于Stacking集成學(xué)習(xí)的軌道交通短時(shí)客流量預(yù)測(cè)是通過集成兩層學(xué)習(xí)器,第一層學(xué)習(xí)器采用XGBoost、LightGBM,第二層學(xué)習(xí)器采用LSTM。對(duì)應(yīng)的步驟如下:
步驟一:數(shù)據(jù)準(zhǔn)備,將軌道交通客流的原數(shù)據(jù)劃分為兩大類,一類是用于訓(xùn)練的數(shù)據(jù)的集合T,另一類是用于測(cè)試的數(shù)據(jù)集合V。按日期進(jìn)行分類,A類為周一~周四的數(shù)據(jù),B類為周五數(shù)據(jù),C類為雙休日數(shù)據(jù)。以A類數(shù)據(jù)預(yù)測(cè)為例結(jié)合其他特征參數(shù)進(jìn)行分析,將4周中A類數(shù)據(jù)共16 d的數(shù)據(jù),按照15 min粒度的客流量進(jìn)行分析,時(shí)間為南寧地鐵1號(hào)線的運(yùn)營時(shí)間6:30-23:00,每天67條數(shù)據(jù),合計(jì)有1 072條數(shù)據(jù)。將前15 d的數(shù)據(jù)歸為訓(xùn)練集,后1 d的數(shù)據(jù)歸為測(cè)試集。
步驟二:初級(jí)學(xué)習(xí)器訓(xùn)練過程,如圖8所示。采用XGBoost、LightGBM兩類基模型對(duì)訓(xùn)練集合T數(shù)據(jù)處理,將訓(xùn)練集隨機(jī)平分為等5個(gè)子集T1、T2、T3、T4、T5,即將前15 d共1 005條客流量數(shù)據(jù)均分成5份,每份客流量數(shù)據(jù)為201條。其中4個(gè)子集用作訓(xùn)練集,剩下的1個(gè)子集用作測(cè)試集,將子集連續(xù)進(jìn)行5次迭代。每次迭代完成后,就使用原始測(cè)試集進(jìn)行預(yù)測(cè),得到一個(gè)預(yù)測(cè)結(jié)果Y,每個(gè)基學(xué)習(xí)器進(jìn)行5折交叉驗(yàn)證會(huì)得到對(duì)應(yīng)的預(yù)測(cè)結(jié)果,這樣就會(huì)產(chǎn)生特征樣本的預(yù)測(cè)集{Y1,Y2,Y3,Y4,Y5}。5次迭代結(jié)束后,對(duì)每一次預(yù)測(cè)的結(jié)果取均值得到基學(xué)習(xí)器的預(yù)測(cè)結(jié)果,并將此預(yù)測(cè)結(jié)果與訓(xùn)練數(shù)據(jù)集5次的測(cè)試結(jié)果保存在一起作為次級(jí)學(xué)習(xí)器的特征值。
步驟三:將初級(jí)學(xué)習(xí)器訓(xùn)練得到的新訓(xùn)練集Y與測(cè)試集C作為輸入,通過第二層學(xué)習(xí)器LSTM用于次級(jí)訓(xùn)練,最后輸出城市軌道交通客流量預(yù)測(cè)的最終結(jié)果。如圖9所示。
2.3 測(cè)試結(jié)果
通過Stacking對(duì)多種模型進(jìn)行融合,設(shè)置相關(guān)參數(shù),訓(xùn)練集損失最小時(shí)即為最合適的迭代次數(shù)。本研究最佳迭代次數(shù)為195次,其在訓(xùn)練集和測(cè)試集最終預(yù)測(cè)結(jié)果與真實(shí)值對(duì)比如圖10和圖11所示。
由圖10、圖11可知,預(yù)測(cè)結(jié)果與實(shí)際值非常接近,兩條曲線相差很小,說明本研究采用的Stacking模型預(yù)測(cè)效果很好。
結(jié)合評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行評(píng)估,主要計(jì)算出以下三個(gè)參數(shù),得出的結(jié)果如表2所示。
MAPE=1N∑ni=1yi-y︿iyi
(2)
MAE=1N∑ni=1|yi-y︿i|
(3)
RMSE= 1N∑ni=1yi-y︿iyi2
(4)
根據(jù)評(píng)估結(jié)果可以看出,Stacking模型的平均絕對(duì)百分比MAPE、均方根差RMSE、平均絕對(duì)誤差MAE都較小,整體效果良好。
3 結(jié)語
本文以南寧市軌道交通1號(hào)線為研究對(duì)象,通過Stacking集成學(xué)習(xí)算法進(jìn)行客流量的預(yù)測(cè)。選擇XGBoost和LightGBM這兩種基于決策樹算法的梯度提升框架作為基學(xué)習(xí)器,以提高預(yù)測(cè)準(zhǔn)確性和泛化能力;利用長短期記憶網(wǎng)絡(luò)(LSTM)作為元學(xué)習(xí)器,充分發(fā)揮其在序列數(shù)據(jù)處理方面的優(yōu)勢(shì)。通過對(duì)南寧市軌道交通1號(hào)線客流量的精準(zhǔn)預(yù)測(cè),可以為城市軌道交通部門提前規(guī)劃運(yùn)營策略,調(diào)整發(fā)車間隔、優(yōu)化運(yùn)營時(shí)間等措施,從而提升運(yùn)營效率,為城市軌道交通系統(tǒng)的管理決策提供更精確的支持。
參考文獻(xiàn)
[1]趙 鵬,李 璐. 基于ARIMA模型的城市軌道交通進(jìn)站量[J]. 重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,39(1):40-44.
[2]付 甜,劉曉鋒,陳 強(qiáng). 多因素的XGBoost城市軌道交通短時(shí)客流預(yù)測(cè)方法[J].裝備制造技術(shù),2022(10):34-37,56.
[3]韓 皓,徐圣安,趙 蒙. 考慮線網(wǎng)結(jié)構(gòu)的LightGBM軌道交通短時(shí)客流預(yù)測(cè)模型[J]. 鐵道運(yùn)輸與經(jīng)濟(jì),2021,43(10):109-117.
[4]孫 越,宋曉宇,金莉婷,等. 基于ARMA-LSTM組合模型的鐵路客流量預(yù)測(cè)[J]. 計(jì)算機(jī)應(yīng)用與軟件,2021,38(12):262-267,273.
[5]張杉基.城市軌道交通短時(shí)客流預(yù)測(cè)與實(shí)證分析研究[D]. 蘭州:蘭州交通大學(xué),2020.