• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于決策樹模型的地鐵線網(wǎng)短時(shí)OD客流預(yù)測(cè)

      2023-05-30 06:46:19張恒秦振華肖為周張明嬌
      河北工業(yè)科技 2023年2期

      張恒 秦振華 肖為周 張明嬌

      摘 要:為了準(zhǔn)確獲取地鐵線網(wǎng)短時(shí)OD(起訖點(diǎn))的客流分布,從而高效協(xié)調(diào)運(yùn)輸能力和客運(yùn)需求,結(jié)合集成學(xué)習(xí)思想構(gòu)建了基于決策樹模型的多時(shí)間粒度下地鐵線網(wǎng)短時(shí)OD客流預(yù)測(cè)模型。首先利用地鐵自動(dòng)售檢票數(shù)據(jù)分析得到線網(wǎng)OD客流出行的時(shí)空分布特征,引入多種時(shí)空影響因素對(duì)全網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練以及預(yù)測(cè),其次分析了地鐵線網(wǎng)OD客流量預(yù)測(cè)精度與時(shí)間粒度之間的關(guān)系,最后以蘇州市地鐵為對(duì)象進(jìn)行實(shí)例分析。結(jié)果表明:相對(duì)于其他模型,研究模型不僅可以有效降低預(yù)測(cè)誤差和擬合客流峰值,而且運(yùn)算時(shí)間也節(jié)約了數(shù)倍,提高了地鐵線網(wǎng)短時(shí)OD客流預(yù)測(cè)的準(zhǔn)確性和效率。因此,所設(shè)計(jì)的模型可為地鐵運(yùn)營(yíng)與控制系統(tǒng)提供重要數(shù)據(jù),有助于運(yùn)營(yíng)者進(jìn)行限流措施、行車計(jì)劃等的制定與調(diào)整。

      關(guān)鍵詞:鐵路運(yùn)輸管理;短時(shí)OD;客流預(yù)測(cè);決策樹模型;多時(shí)間粒度

      中圖分類號(hào):U293.13

      文獻(xiàn)標(biāo)識(shí)碼:A

      DOI: 10.7535/hbgykj.2023yx02010

      Short-time OD passenger flow prediction of subway line network based on decision tree model

      ZHANG Heng1,QIN Zhenhua2,XIAO Weizhou1,ZHANG Mingjiao1

      (1.School of Rail Transportation, Soochow University, Suzhou, Jiangsu 215000,China; 2.Suzhou Rail Transit Group Company Limited, Suzhou, Jiangsu 215000, China)

      Abstract:In order to accurately obtain the short-time OD (origin-destination) passenger flow distribution of the subway line network, so as to efficiently coordinate the transportation capacity and passenger demand, a multi-time granularity short-time OD passenger flow prediction model of subway line network based on the decision tree model was constructed combined with the ensemble learning idea. Firstly, the spatial and temporal distribution characteristics of OD passenger flow on the line network were obtained by using the automatic ticketing data analysis, and various spatial and temporal influencing factors were introduced to train and predict the whole network data. Secondly, the relationship between the prediction accuracy and temporal granularity of OD passenger flow on the metro line network was analyzed. Finally, Suzhou Metro was taken as an example to carry out the case analysis. The results show that, compared with other models, the model can not only effectively reduce the prediction error and fit the peak passenger flow, but also save several times of computing time, which improves the accuracy and efficiency of the short-time OD passenger flow prediction of the subway line network. The designed model can provide important data input for the metro operation and control system, and help operators to formulate traffic restriction measures, travel plans and other strategies.

      Keywords:railroad transportation management; short-time OD; passenger flow prediction; decision tree model; multiple time granularity

      隨著地鐵網(wǎng)絡(luò)化運(yùn)營(yíng)特征的日漸凸顯,乘客路徑選擇的多樣化使線網(wǎng)客流分布呈現(xiàn)出隨機(jī)、復(fù)雜等特點(diǎn),在這樣的趨勢(shì)下預(yù)測(cè)客流需求愈發(fā)困難。短時(shí)OD是指在某一較短時(shí)間粒度下,所有乘客由起點(diǎn)O到訖點(diǎn)D的出行過(guò)程,它反映了線網(wǎng)客流需求的時(shí)空分布。OD預(yù)測(cè)無(wú)法像進(jìn)出站量預(yù)測(cè)一樣直接對(duì)客流采用時(shí)間序列法預(yù)測(cè),因?yàn)槌丝偷某稣拘畔⑿枰?jīng)過(guò)一段時(shí)間才能獲取到1,所以O(shè)D客流不僅在時(shí)間上具有相關(guān)性,而且還具有空間相關(guān)性2。精準(zhǔn)預(yù)測(cè)地鐵線網(wǎng)短時(shí)OD客流量可以使運(yùn)營(yíng)者提前掌握客流分布動(dòng)向,并根據(jù)短時(shí)OD客流預(yù)測(cè)結(jié)果對(duì)運(yùn)營(yíng)調(diào)度進(jìn)行優(yōu)化。

      目前,短時(shí)OD客流預(yù)測(cè)領(lǐng)域比較成熟的理論主要分為2類。一類是基于統(tǒng)計(jì)學(xué)理論的方法,如歷史平均模型3、時(shí)間序列模型[4、卡爾曼濾波模型、K近鄰算法(K-NN)等。劉洋等5提出了一種基于約束條件的卡爾曼濾波模型對(duì)地鐵線網(wǎng)OD進(jìn)行預(yù)測(cè),獲得了較好的總體估計(jì)效果和分時(shí)段估計(jì)效果。HABTEMICHAEL等6通過(guò)K-NN識(shí)別客流相似序列,證明了增強(qiáng)型K-NN比卡爾曼濾波模型、普通的K-NN模型預(yù)測(cè)效果更好。基于統(tǒng)計(jì)學(xué)理論的方法僅注重客流時(shí)間序列的變化,難以考慮除目標(biāo)變量以外的時(shí)空特征,并且在處理具有高維非線性特征的數(shù)據(jù)時(shí)適用性不強(qiáng)。另一類是基于機(jī)器學(xué)習(xí)的方法,如支持向量機(jī)模型7、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型、深度學(xué)習(xí)模型及集成學(xué)習(xí)模型等。TSAI等8建立了基于時(shí)間特征的多時(shí)間單位神經(jīng)網(wǎng)絡(luò)和并行集成神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)表明這2種模型的短時(shí)客流預(yù)測(cè)性能優(yōu)于傳統(tǒng)的多層神經(jīng)網(wǎng)絡(luò)模型。TIAN等9建立了長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory, LSTM)模型對(duì)工作日的客流進(jìn)行短時(shí)預(yù)測(cè),并與支持向量機(jī)單隱藏層前饋神經(jīng)網(wǎng)絡(luò)等模型比較,證明所提出的預(yù)測(cè)模型具有更高的準(zhǔn)確率和泛化能力。CHEN等10的研究成果表明,極度梯度提升樹(extreme gradient boosting, XGBoost)模型在客流預(yù)測(cè)性能以及運(yùn)算效率上都要優(yōu)于隨機(jī)森林。上述機(jī)器學(xué)習(xí)模型僅針對(duì)單一客流特征進(jìn)行了建模,而現(xiàn)實(shí)中OD客流分布受多種時(shí)空特征因素影響。

      綜上所述,準(zhǔn)確預(yù)測(cè)短時(shí)OD客流需求需要在探討時(shí)間維度上OD客流變化規(guī)律的同時(shí),挖掘空間維度上與OD客流存在關(guān)聯(lián)性的影響因素。目前既有研究多是選用一種時(shí)間粒度進(jìn)行預(yù)測(cè),但單一時(shí)間粒度的OD客流變化規(guī)律缺乏對(duì)比性,不同時(shí)間粒度下統(tǒng)計(jì)的OD客流的規(guī)律性和穩(wěn)定性存在明顯差異11。因此,在總結(jié)既有短時(shí)OD客流預(yù)測(cè)方法的基礎(chǔ)上,本文利用地鐵自動(dòng)售檢票(automatic fare collection, AFC)系統(tǒng)刷卡數(shù)據(jù),在多時(shí)間粒度場(chǎng)景下,建立基于決策樹的LightGBM(light gradient boosting machine)線網(wǎng)短時(shí)OD客流預(yù)測(cè)模型,并考慮OD對(duì)類型、天氣及空氣質(zhì)量因素、短時(shí)進(jìn)出站客流量因素、工作日與非工作日因素等時(shí)空特征對(duì)OD客流需求的影響,與多種模型在預(yù)測(cè)精度、運(yùn)算效率等方面進(jìn)行對(duì)比,以驗(yàn)證LightGBM模型在線網(wǎng)短時(shí)OD客流預(yù)測(cè)方面的優(yōu)越性。

      1 問(wèn)題描述

      對(duì)于客流預(yù)測(cè)這類回歸問(wèn)題來(lái)說(shuō),數(shù)據(jù)和特征決定了預(yù)測(cè)本身的上限,而模型只是逼近這個(gè)上限。先驗(yàn)數(shù)據(jù)時(shí)間粒度的選取決定了短時(shí)客流預(yù)測(cè)的輸入12,直接影響到預(yù)測(cè)結(jié)果精度。以線網(wǎng)中任一OD為例,分析其一周內(nèi)不同時(shí)間粒度Δt下的客流趨勢(shì),如圖1所示,不同時(shí)間粒度的OD客流數(shù)據(jù)規(guī)模和趨勢(shì)存在較大差異,時(shí)間粒度越大,一個(gè)時(shí)段內(nèi)統(tǒng)計(jì)的OD客流量越多,一周內(nèi)的時(shí)段數(shù)也越少。

      AFC是實(shí)現(xiàn)地鐵售檢票、計(jì)費(fèi)、統(tǒng)計(jì)等過(guò)程的自動(dòng)化系統(tǒng),可詳細(xì)記錄每一乘客的出行信息,但原始數(shù)據(jù)記錄的是每個(gè)乘客的進(jìn)出站時(shí)刻,無(wú)法直接獲取到不同時(shí)段內(nèi)的線網(wǎng)OD信息13。因此將處于5:00~24:00運(yùn)營(yíng)時(shí)段的1 140 min劃分為各時(shí)間粒度的時(shí)段,將所有乘客的進(jìn)出站時(shí)刻分別與時(shí)段匹配并對(duì)OD客流進(jìn)行集計(jì),得到不同時(shí)間粒度下的線網(wǎng)OD客流。短時(shí)OD預(yù)測(cè)時(shí)間粒度一般不小于15 min且不大于60 min,其中15 min客流和60 min客流通常用于超高峰小時(shí)和高峰小時(shí)的客流預(yù)測(cè)與評(píng)價(jià),在地鐵運(yùn)營(yíng)中具有重要實(shí)用價(jià)值。同時(shí),由圖1可知,訓(xùn)練數(shù)據(jù)規(guī)模隨時(shí)間粒度的成倍擴(kuò)大而成倍減少,為探究預(yù)測(cè)精度隨時(shí)間粒度的變化情況,將30 min時(shí)間粒度也納入后續(xù)預(yù)測(cè)模型之中。綜上,本文選取預(yù)測(cè)的時(shí)間粒度Δt為15,30以及60 min,則每天對(duì)應(yīng)的時(shí)段個(gè)數(shù)為76,38,19(1 140/Δt)。定義輸入數(shù)據(jù)的時(shí)段總數(shù)為T,地鐵線網(wǎng)站點(diǎn)個(gè)數(shù)為N,用yi(t)(i=1,2,…,N2;t=1,2,…,T)表示第t個(gè)時(shí)段內(nèi)由車站o前往車站d的OD客流量,N2為線網(wǎng)OD數(shù)目,xi(t)=(xi1,xi2,…,xin)表示該時(shí)段對(duì)應(yīng)的影響因素特征值,n為影響因素個(gè)數(shù),則引入客流影響因素的線網(wǎng)OD客流時(shí)間序列可表示為qo,d(t)=[xi(t),yi(t)]。綜上,客流預(yù)測(cè)問(wèn)題定義為對(duì)于線網(wǎng)所有OD,已知前k個(gè)時(shí)段的OD客流量yi(t)(t=1,2,…,k),結(jié)合xi(t)中影響因素的特征值,預(yù)測(cè)后續(xù)l個(gè)時(shí)段的客流量yi(t)(t=k+1,k+2,…,k+l)。

      2 模型構(gòu)建

      對(duì)于具有復(fù)雜規(guī)律的線網(wǎng)OD客流數(shù)據(jù),不同OD之間具有的客流趨勢(shì)往往存在較大差異,訓(xùn)練一個(gè)可以從多角度識(shí)別客流規(guī)律并作出精確預(yù)測(cè)的單一模型是極為困難的。集成學(xué)習(xí)是通過(guò)構(gòu)建一系列模型,再使用某種結(jié)合策略將各模型的學(xué)習(xí)結(jié)果整合在一起,以獲得比單一模型泛化性、準(zhǔn)確性更好的模型。它可以有效利用各子模型的預(yù)測(cè)信息,擇優(yōu)互補(bǔ),彌補(bǔ)了單一模型在預(yù)測(cè)時(shí)難以學(xué)習(xí)隨機(jī)性較強(qiáng)的不均衡數(shù)據(jù)的弊端,從而提升預(yù)測(cè)性能。此外,OD客流高峰時(shí)段往往比平峰時(shí)段高出數(shù)倍,因此,需要預(yù)測(cè)模型具有良好的泛化能力,以避免峰值客流對(duì)整體預(yù)測(cè)結(jié)果的擬合造成過(guò)大影響。LightGBM是一種基于集成學(xué)習(xí)的決策樹模型,是為了解決梯度提升決策樹(gradient boosting decision tree, GBDT)在面對(duì)海量數(shù)據(jù)時(shí)耗時(shí)過(guò)多的問(wèn)題而提出的。其集成方式旨在降低預(yù)測(cè)偏差,能夠基于泛化性能較弱的學(xué)習(xí)器構(gòu)建出很強(qiáng)的集成14-15,因而可以較好地?cái)M合OD峰值客流。相對(duì)GBDT需要遍歷一層所有葉子節(jié)點(diǎn)進(jìn)行分裂的按層生長(zhǎng)(level-wise)策略(如圖2所示),LightGBM采用了更為高效的按葉子生長(zhǎng)(leaf-wise)策略(如圖3所示)。該策略無(wú)需考慮同層的其他節(jié)點(diǎn),每次從當(dāng)前所有葉子中找到分裂增益最大的一個(gè)葉子進(jìn)行分裂,可有效加快訓(xùn)練速度。同時(shí),LightGBM使用單邊梯度采樣 (gradient-based one-side sampling, GOSS)和互斥特征綁定(exclusive feature bundling,EFB)兩大優(yōu)化方式實(shí)現(xiàn)訓(xùn)練過(guò)程中對(duì)樣本數(shù)和特征數(shù)的減少16,可以快速處理具有多特征的海量地鐵線網(wǎng)OD數(shù)據(jù)。

      給定訓(xùn)練數(shù)據(jù)所有時(shí)段的輸入qo,d={(x1,y1),(x2,y2),…,(xm,ym)},其中,m為輸入數(shù)據(jù)集序列長(zhǎng)度,xi(i=1,2,…,m)∈xRn,xi為影響因素的特征值,x為輸入空間,Rn表示n維向量空間,每個(gè)元素為(x1,x2,…,xn)的形式,代表各影響因素的特征值。yi為某時(shí)段由車站o前往車站d的OD客流量,yi∈y?R,y為輸出空間,R表示實(shí)數(shù)集,損失函數(shù)為L(zhǎng)(y,f(x))。綜上,LightGBM模型構(gòu)建流程如下:

      1)初始化決策樹(弱學(xué)習(xí)器)f0(x),并使所有訓(xùn)練樣本的均值為c。

      2)迭代訓(xùn)練s=1,2,…,S個(gè)決策樹,將影響因素的特征值xi輸入決策樹中進(jìn)行訓(xùn)練,計(jì)算每個(gè)樣本i(i=1,2,…,m)的負(fù)梯度rs,i,作為下一輪決策樹擬合的目標(biāo)值。

      式中:f(x)為上一次迭代生成的決策樹;f(xi)為f(x)在樣本i的輸出值。

      3)將(xi,rs,i)作為下一個(gè)決策樹的訓(xùn)練數(shù)據(jù),最小化當(dāng)前損失函數(shù),求出每個(gè)決策樹各葉子結(jié)點(diǎn)的輸出值cs,j。

      式中:Rs,j(j=1,2,…,J)表示第s個(gè)決策樹的葉子節(jié)點(diǎn)區(qū)域,J為其對(duì)應(yīng)的葉子節(jié)點(diǎn)個(gè)數(shù);fs-1(xi)為第s-1個(gè)決策樹在樣本i的輸出值。

      4)更新學(xué)習(xí)器。

      式中:fs(x)為第s個(gè)決策樹;I為指示函數(shù),若輸入空間x∈Rs,j,I=1,否則I=0。

      5)對(duì)每個(gè)弱學(xué)習(xí)器的輸出求和,得到最終的OD客流預(yù)測(cè)模型f^(x)。

      3 數(shù)據(jù)來(lái)源與分析

      3.1 AFC數(shù)據(jù)處理

      數(shù)據(jù)來(lái)源于2020年8月份蘇州市地鐵AFC系統(tǒng)采集的刷卡數(shù)據(jù),原始數(shù)據(jù)記錄約1 800萬(wàn)條,其中每條刷卡數(shù)據(jù)包含一位乘客的卡號(hào)、票卡類型、進(jìn)出站的日期和時(shí)間、進(jìn)出車站編號(hào),初始數(shù)據(jù)格式如表1所示。

      由于工作人員日常進(jìn)出維修以及數(shù)據(jù)上傳中可能存在干擾數(shù)據(jù)等各類現(xiàn)實(shí)狀況,初始數(shù)據(jù)會(huì)包含部分非自由乘客的出行數(shù)據(jù),在進(jìn)行短時(shí)OD客流集計(jì)前對(duì)這類數(shù)據(jù)進(jìn)行了清洗,數(shù)據(jù)清洗后余約1 726萬(wàn)條。主要按照以下原則進(jìn)行數(shù)據(jù)清洗:1)去除包含空值數(shù)據(jù)的行和重復(fù)行;2)去除超出運(yùn)行時(shí)間范圍的數(shù)據(jù);3)去除進(jìn)出閘機(jī)時(shí)間小于1 min或大于3 h的數(shù)據(jù)。

      3.2 客流特征

      線網(wǎng)短時(shí)OD客流分布受多方面因素的影響,將相關(guān)影響因素特征與短時(shí)OD特征綁定有利于算法識(shí)別客流規(guī)律,從而提高預(yù)測(cè)的精度。本文對(duì)多種時(shí)空影響特征進(jìn)行了分析。

      1)天氣因素 天氣數(shù)據(jù)來(lái)源于國(guó)家氣候數(shù)據(jù)中心,包含多種字段信息,其中如氣溫、氣壓、風(fēng)向、風(fēng)速以及降水量等字段記錄,其上傳時(shí)間間隔通常較短,易存在缺失值且缺乏真實(shí)有效的補(bǔ)充方式,因此選擇較為完整的天氣及空氣質(zhì)量數(shù)據(jù)作為天氣影響因素,以分析不同日期天氣對(duì)OD客流的影響。

      2)OD類型的標(biāo)定 不同的OD因站點(diǎn)周圍用地性質(zhì)、環(huán)境影響所產(chǎn)生的客流趨勢(shì)不同。由于峰值客流是運(yùn)營(yíng)管理中常用來(lái)衡量客流趨勢(shì)的指標(biāo),因此將一天劃分為早、晚高峰及平峰3個(gè)時(shí)段,計(jì)算各OD每天不同時(shí)段的出行比例,通過(guò)輪廓系數(shù)法確定聚類簇?cái)?shù),并使用K均值聚類算法進(jìn)行聚類。輪廓系數(shù)是評(píng)價(jià)聚類結(jié)果好壞的一種指標(biāo),值越大說(shuō)明同簇樣本相距越近、不同簇樣本相距越遠(yuǎn),聚類效果越好,設(shè)置聚類簇?cái)?shù)K取值范圍為[2,15],遍歷K值并計(jì)算每一K值下的輪廓系數(shù),如圖4所示,最優(yōu)聚類簇?cái)?shù)為3,線網(wǎng)OD被分為3類。

      3)起訖點(diǎn)客流影響因素 以起訖點(diǎn)249~449為例繪制15 min時(shí)間粒度下某日OD量與進(jìn)出站客流量趨勢(shì),如圖5所示,起點(diǎn)進(jìn)站和訖點(diǎn)出站客流趨勢(shì)與OD客流趨勢(shì)存在較強(qiáng)的相似性。

      4)工作日與非工作日的標(biāo)定 因人們出行目的的改變,客流在工作日與非工作日OD客流規(guī)律存在明顯差異,通常非工作日的客流隨機(jī)性更強(qiáng)。Pearson系數(shù)可以衡量數(shù)據(jù)的線性相關(guān)關(guān)系,系數(shù)越接近于1說(shuō)明數(shù)據(jù)之間的相關(guān)性越強(qiáng),因此抽樣2020-08-03至2020-08-09的1周數(shù)據(jù),使用Pearson

      系數(shù)度量各時(shí)間粒度一周內(nèi)每日OD客流時(shí)間序列的相似性。假設(shè)在時(shí)間粒度為Δt時(shí)該周第i天和第j天的Pearson系數(shù)為PΔt(Yi,Yj),用yti表示第i天第t個(gè)時(shí)段的OD客流量,y^ti表示在時(shí)間粒度Δt下第i天OD客流量的均值,則第i天與第j天的OD客流時(shí)間序列Yi與Yj的Pearson系數(shù)為

      各時(shí)間粒度一周內(nèi)每日之間的OD客流相似性如圖6所示,其中2020-08-03至2020-08-07為工作日,2020-08-08至2020-08-09為周末(非工作日),由圖6可以明顯看出,無(wú)論在哪種時(shí)間粒度下,工作日與工作日之間的OD客流時(shí)間序列都具有較強(qiáng)的相似性,周六、周日之間OD客流雖然也具有較強(qiáng)的相似性,但相對(duì)工作日Pearson系數(shù)較低,說(shuō)明非工作日時(shí)OD客流的隨機(jī)性較工作日增加。同時(shí),工作日與非工作日之間客流相似性顯著降低,說(shuō)明工作日與非工作日客流趨勢(shì)存在明顯差異。

      為便于算法識(shí)別,在多源數(shù)據(jù)集融合時(shí)將各類影響因素進(jìn)行特征編碼,即將字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù),如天氣特征中使用數(shù)字“1”代表晴天,“2”代表雨雪,其他字符型特征同理。以15 min時(shí)間粒度為例,最終訓(xùn)練數(shù)據(jù)結(jié)構(gòu)及編碼含義如表2所示,其中天氣、空氣質(zhì)量、工作日和周末(非工作日)為與時(shí)間相關(guān)聯(lián)的影響因素,根據(jù)日期字段與OD客流時(shí)間序列匹配; OD類別為與空間中的OD相關(guān)聯(lián)的影響因素,根據(jù)進(jìn)出站編號(hào)進(jìn)行匹配;進(jìn)出站量是與OD對(duì)應(yīng)的時(shí)間段內(nèi)起點(diǎn)車站的進(jìn)站客流量和終點(diǎn)車站的出站客流量,分別根據(jù)進(jìn)站車站編號(hào)、日期、時(shí)間和出站車站編號(hào)、日期、時(shí)間字段與OD客流時(shí)間序列匹配。

      4 模型求解

      4.1 評(píng)價(jià)指標(biāo)

      回歸問(wèn)題的評(píng)價(jià)指標(biāo)主要是為了反映模型預(yù)測(cè)結(jié)果與實(shí)際值的擬合程度。為全面評(píng)價(jià)預(yù)測(cè)結(jié)果,選擇平均絕對(duì)誤差(mean absolute error, MAE)和均方根誤差(root mean square error, RMSE)用于評(píng)價(jià)誤差大小,R2(決定系數(shù))用于評(píng)價(jià)預(yù)測(cè)曲線的擬合精度。

      式中:ytrue為真實(shí)值;ypred為預(yù)測(cè)值;N為預(yù)測(cè)樣本數(shù)。MAE反映的是真實(shí)誤差,RMSE是先對(duì)誤差進(jìn)行平方的累加后再開方,從而放大了誤差之間的差距,因此在評(píng)價(jià)中RMSE的值越小其意義越大。R2反映的是擬合優(yōu)度,越接近1說(shuō)明觀察點(diǎn)在回歸線附近越密集。

      4.2 參數(shù)尋優(yōu)

      劃分訓(xùn)練集數(shù)據(jù)為2020-08-03至2020-08-23的3周數(shù)據(jù),測(cè)試集數(shù)據(jù)為2020-08-24至2020-08-30的1周數(shù)據(jù),分別以15,30,60 min時(shí)間粒度執(zhí)行預(yù)測(cè)。利用智能搜索框架Optuna對(duì)LightGBM模型進(jìn)行參數(shù)尋優(yōu),參數(shù)尋優(yōu)的目標(biāo)函數(shù)即為誤差評(píng)價(jià)指標(biāo)RMSE,通過(guò)最小化目標(biāo)函數(shù)返回不同時(shí)間粒度模型的最優(yōu)參數(shù)值。參數(shù)搜索空間及不同時(shí)間粒度下的最優(yōu)參數(shù)搜索結(jié)果如表3所示,其中max_depth和num_leaves共同控制樹的形狀,max_depth為樹的深度,用于限制樹的生長(zhǎng)以防止過(guò)擬合,當(dāng)時(shí)間粒度為15 min和30 min時(shí)決策樹深度分別為15及20,但在時(shí)間粒度為60 min時(shí)決策樹深度驟增至100,說(shuō)明60 min時(shí)間粒度的模型過(guò)擬合風(fēng)險(xiǎn)較高。num_leaves為決策樹的葉子節(jié)點(diǎn)數(shù),配合max_depth共同使用,較大的num_leaves增加了訓(xùn)練集的精確度,但同樣也增加了過(guò)擬合的風(fēng)險(xiǎn)。為此,尋優(yōu)結(jié)果中決策樹深度增加時(shí)相應(yīng)葉子節(jié)點(diǎn)數(shù)減少,以降低過(guò)擬合風(fēng)險(xiǎn)。learning_rate為學(xué)習(xí)率,值越小意味著需要更多迭代次數(shù),當(dāng)時(shí)間粒度為30 min時(shí)學(xué)習(xí)率最大,其次是15 min和60 min,說(shuō)明30 min的預(yù)測(cè)模型的時(shí)間成本應(yīng)會(huì)較低。cat_smooth用于特征的概率平滑,以降低特征值中噪聲數(shù)據(jù)的影響,時(shí)間粒度越大特征中噪聲表現(xiàn)的越明顯。colsample_bytree為每次迭代時(shí)對(duì)特征列的采樣比例,由于構(gòu)建的客流特征都與OD客流具有一定的相關(guān)性,模型偏全采樣,因而受時(shí)間粒度影響較小。reg_lambda為L(zhǎng)2正則化系數(shù),通過(guò)對(duì)損失函數(shù)附加正則項(xiàng)進(jìn)行懲罰減小過(guò)擬合風(fēng)險(xiǎn),受極端值影響較大,30 min時(shí)正則化系數(shù)最小,說(shuō)明30 min模型受極端值影響最小,而60 min模型受極端值影響較大。

      4.3 特征重要度分析

      對(duì)于模型選取的影響因素,模型訓(xùn)練的特征重要度如圖7所示,縱坐標(biāo)為特征,橫坐標(biāo)為該特征在樹中作為劃分屬性的次數(shù),代表該特征在模型構(gòu)建

      過(guò)程中的重要性。其中,進(jìn)站車站編號(hào)和出站車站編號(hào)共同確定具體某一個(gè)OD,是決定預(yù)測(cè)結(jié)果最重要的因素。其次的影響因素是進(jìn)出站量,OD客流量總是屬于起訖點(diǎn)進(jìn)出站量的一部分,一個(gè)OD出行的產(chǎn)生必然導(dǎo)致起點(diǎn)進(jìn)站量和訖點(diǎn)出站量同時(shí)增長(zhǎng)1次,兩者之間存在緊密聯(lián)系。OD類型、日期、時(shí)段和是否為工作日對(duì)OD客流預(yù)測(cè)也存在一定程度的影響,而天氣及空氣質(zhì)量對(duì)預(yù)測(cè)的影響最小。

      4.4 預(yù)測(cè)結(jié)果分析

      為了對(duì)比算法間的預(yù)測(cè)效果差異,選取與LightGBM模型原理近似的XGBoost模型對(duì)比運(yùn)算速度,選取算法原理不同的統(tǒng)計(jì)學(xué)原理模型,如:移動(dòng)自回歸模型(ARIMA)、深度學(xué)習(xí)模型(長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)及門控循環(huán)網(wǎng)絡(luò)(GRU)),對(duì)比預(yù)測(cè)精度。對(duì)所有模型分別進(jìn)行參數(shù)調(diào)整:XGBoost和LightGBM參數(shù)類似,通過(guò)上述Optuna調(diào)參。GRU是LSTM的變體,兩者都屬于遞歸神經(jīng)網(wǎng)絡(luò)且參數(shù)相似,本文設(shè)置網(wǎng)絡(luò)層數(shù)為4層,隱藏神經(jīng)元個(gè)數(shù)為50,最大迭代次數(shù)為100,LSTM訓(xùn)練數(shù)據(jù)批大小為32,GRU訓(xùn)練數(shù)據(jù)批大小為150。ARIMA具有3個(gè)參數(shù),在3種時(shí)間粒度下自回歸項(xiàng)p為6/4/4,差分階數(shù)d為0/0/0,移動(dòng)平均項(xiàng)數(shù)q為1/3/2,最終各模型輸出預(yù)測(cè)結(jié)果的誤差評(píng)價(jià)指標(biāo)如表4所示。

      由表4可知,從預(yù)測(cè)模型上來(lái)看,LightGBM模型的預(yù)測(cè)誤差在15,30,60 min時(shí)均最小,并且運(yùn)算速度也最快;從預(yù)測(cè)時(shí)間粒度上看,所有模型在15 min時(shí)間粒度下預(yù)測(cè)誤差最小,在30 min時(shí)間粒度下擬合優(yōu)度最好。從運(yùn)算速度上看,基于集成學(xué)習(xí)的LightGBM和XGBoost模型在處理海量數(shù)據(jù),尤其是整個(gè)地鐵線網(wǎng)的OD數(shù)據(jù)時(shí)可以達(dá)到快速收斂的效果,而深度學(xué)習(xí)模型和ARIMA模型在處理多特征的海量數(shù)據(jù)時(shí)運(yùn)算速度極為緩慢。綜上所述:1)對(duì)于地鐵線網(wǎng)OD預(yù)測(cè),LightGBM模型的精確度和運(yùn)算速度都為最優(yōu),在時(shí)間粒度為15 min時(shí),MAE為1.04,RMSE為1.69,為所有模型中最小,但擬合優(yōu)度R2為0.74,相對(duì)30 min時(shí)間粒度略有不足;2)在時(shí)間粒度為30 min時(shí),LightGBM的MAE為1.23,RMSE為2.3,而R2達(dá)到0.82,為所有模型中最好,因?yàn)殡S著時(shí)間粒度劃分的增加,各時(shí)段集計(jì)的OD量也會(huì)增長(zhǎng)從而放大誤差,所以從整體上來(lái)看,以30 min時(shí)間粒度劃分時(shí)誤差項(xiàng)MAE,RMSE相對(duì)15 min僅略微增長(zhǎng),而擬合優(yōu)度和時(shí)間花費(fèi)達(dá)到最優(yōu),是表現(xiàn)最好的模型;3)在時(shí)間粒度為60 min時(shí),各模型的誤差和擬合優(yōu)度表現(xiàn)都開始下降,是模型中最不合適做預(yù)測(cè)的時(shí)間粒度。

      利用最優(yōu)的LightGBM模型對(duì)2020-08-24至2020-08-30的1周數(shù)據(jù)30 min時(shí)間粒度的線網(wǎng)OD客流進(jìn)行預(yù)測(cè),取其中2個(gè)OD對(duì)客流預(yù)測(cè)結(jié)果的實(shí)際值和預(yù)測(cè)值進(jìn)行比較,擬合效果如圖8和圖9所示,其中橫坐標(biāo)是將每天5:00~24:00按30 min時(shí)間粒度劃分的時(shí)間段排序,縱坐標(biāo)為OD客流量。

      5 結(jié) 語(yǔ)

      通過(guò)分析地鐵線網(wǎng)多時(shí)間粒度的OD客流,并將多種影響因素引入到OD客流預(yù)測(cè)中,建立了基于LightGBM模型的多時(shí)間粒度線網(wǎng)短時(shí)OD客流預(yù)測(cè)模型,預(yù)測(cè)結(jié)果可為地鐵線網(wǎng)的動(dòng)態(tài)化運(yùn)營(yíng)管理提供數(shù)據(jù)支持,對(duì)改善運(yùn)營(yíng)質(zhì)量、提高服務(wù)水平具有一定價(jià)值。

      1)通過(guò)綁定不同時(shí)間粒度的OD客流序列與對(duì)應(yīng)的影響因素,使LightGBM模型更好地識(shí)別客流時(shí)空分布特征并進(jìn)行預(yù)測(cè),在獲取更高精度的同時(shí)也大幅提高了運(yùn)算速度。對(duì)于地鐵線網(wǎng)來(lái)說(shuō),具有高效率的LightGBM集成算法既可保證預(yù)測(cè)的時(shí)效性,又兼有較好的泛化能力擬合客流峰值曲線。

      2)對(duì)于不同時(shí)間粒度的OD客流序列,預(yù)測(cè)結(jié)果存在較大差異,說(shuō)明時(shí)間粒度的選擇對(duì)于客流預(yù)測(cè)來(lái)說(shuō)具有重要影響,所以在進(jìn)行短時(shí)OD客流預(yù)測(cè)前需要預(yù)先探討短時(shí)預(yù)測(cè)的時(shí)間粒度選擇問(wèn)題,不同城市的線網(wǎng)OD客流趨勢(shì)不盡相同,最優(yōu)時(shí)間粒度需要針對(duì)數(shù)據(jù)分析獲得。以蘇州市地鐵線網(wǎng)為例,當(dāng)使用前3周數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)預(yù)測(cè)下一周的線網(wǎng)短時(shí)OD時(shí),預(yù)測(cè)結(jié)果的誤差和擬合優(yōu)度在30 min時(shí)間粒度時(shí)綜合表現(xiàn)最好。

      由于缺乏歷史數(shù)據(jù),未將大型活動(dòng)和節(jié)假日等特殊情況考慮在內(nèi),因此構(gòu)建的模型主要適用于日常情況下的短時(shí)OD客流預(yù)測(cè)。后續(xù)研究可將特殊情況下的日期或時(shí)段進(jìn)行標(biāo)簽化,并與常規(guī)情況進(jìn)行區(qū)分,作為一個(gè)新的特征加入模型中。

      參考文獻(xiàn)/References:

      [1] 陳志杰,毛保華,柏赟,等.基于多時(shí)間尺度的城市軌道交通短時(shí)OD估計(jì)[J].交通運(yùn)輸系統(tǒng)工程與信息,2017,17(5):166-172.

      CHEN Zhijie,MAO Baohua,BAI Yun,et al.Short-term origin-destination estimation for urban rail transit based on multiple temporal scales[J].Journal of Transportation Systems Engineering and Information Technology,2017,17(5):166-172.

      [2] 林友芳,尹康,黨毅,等.基于時(shí)空LSTM的OD客運(yùn)需求預(yù)測(cè)[J].北京交通大學(xué)學(xué)報(bào),2019,43(1):114-121.

      LIN Youfang,YIN Kang,DANG Yi,et al.Spatio-temporal LSTM for OD passenger demand prediction[J].Journal of Beijing Jiaotong University,2019,43(1):114-121.

      [3] LING Ximan,HUANG Zhiren,WANG Chengcheng,et al.Predicting subway passenger flows under different traffic conditions[J].PLoS One,2018,13(8):e0202707.

      [4] 張國(guó)赟,金輝.基于改進(jìn)ARIMA模型的城市軌道交通短時(shí)客流預(yù)測(cè)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(1):339-344.

      ZHANG Guoyun,JIN Hui.Research on the prediction of short-term passenger flow of urban rail transit based on improved ARIMA model[J].Computer Applications and Software,2022,39(1):339-344.

      [5] 劉洋,凌力,伍元忠,等.基于約束卡爾曼濾波的城市軌道交通線網(wǎng)客流OD實(shí)時(shí)估計(jì)研究[J].鐵道運(yùn)輸與經(jīng)濟(jì),2018,40(10):103-108.

      LIU Yang,LING Li,WU Yuanzhong,et al.A real-time OD estimation of passenger flow in urban rail transit network based on constrained Kalman filtering[J].Railway Transport and Economy,2018,40(10):103-108.

      [6] HABTEMICHAEL F G,CETIN M.Short-term traffic flow rate forecasting based on identifying similar traffic patterns[J].Transportation Research Part C:Emerging Technologies,2016,66:61-78.

      [7] 陳通箭,袁發(fā)濤.基于支持向量機(jī)的軌道車站客流高峰期持續(xù)時(shí)間預(yù)測(cè)[J].智能城市,2020,6(8):10-12.

      CHEN Tongjian,YUAN Fatao.Prediction of passenger flow peak duration at rail stations based on support vector machine[J].Intelligent City,2020,6(8):10-12.

      [8] TSAI T H,LEE C K,WEI C H.Neural network based temporal feature models for short-term railway passenger demand forecasting[J].Expert Systems with Applications,2009,36(2 Pt.2):3728-3736.

      [9] TIAN Yongxue,PAN Li.Predicting short-term traffic flow by long short-term memory recurrent neural network[C]//2015 IEEE International Conference on Smart City/SocialCom/SustainCom.Chengdu:IEEE,2015:153-158.

      [10]CHEN Tianqi,GUESTRIN C.XGBoost:A scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco:Association for Computing Machinery,2016:785-794.

      [11]張晚笛,陳峰,王子甲,等.基于多時(shí)間粒度的地鐵出行規(guī)律相似性度量[J].鐵道學(xué)報(bào),2018,40(4):9-17.

      ZHANG Wandi,CHEN Feng,WANG Zijia,et al.Similarity measurement of metro travel rules based on multi-time granularities[J].Journal of the China Railway Society,2018,40(4):9-17.

      [12]馬超群,李培坤,朱才華,等.基于不同時(shí)間粒度的城市軌道交通短時(shí)客流預(yù)測(cè)[J].長(zhǎng)安大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,40(3):75-83.

      MA Chaoqun,LI Peikun,ZHU Caihua,et al.Short-term passenger flow forecast of urban rail transit based on different time granularities[J].Journal of Chang′an University (Natural Science Edition),2020,40(3):75-83.

      [13]張萍,肖為周,沈錚璽.基于長(zhǎng)短期記憶網(wǎng)絡(luò)的軌道交通短期OD客流量預(yù)測(cè)[J].河北工業(yè)科技,2021,38(5):351-356.

      ZHANG Ping,XIAO Weizhou,SHEN Zhengxi.Forecast of short-term origin-destination passenger flow of rail transit based on long short-term memory network[J].Hebei Journal of Industrial Science and Technology,2021,38(5):351-356.

      [14]韓皓,徐圣安,趙蒙.考慮線網(wǎng)結(jié)構(gòu)的LightGBM軌道交通短時(shí)客流預(yù)測(cè)模型[J].鐵道運(yùn)輸與經(jīng)濟(jì),2021,43(10):109-117.

      HAN Hao,XU Shengan,ZHAO Meng.LightGBM prediction model of short-term passenger flow for rail transit considering network structure[J].Railway Transport and Economy,2021,43(10):109-117.

      [15]LI Dingzhe,PENG Jingbo,HE Dawei.Aero-engine exhaust gas temperature prediction based on LightGBM optimized by imroved bat algorithm[J].Thermal Science,2021,25(2A):845-858.

      [16]KE Guolin,MENG Qi,F(xiàn)INLEY T,et al.LightGBM:A highly efficient gradient boosting decision tree[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach:Curran Associates Incorporated,2017:3149-3157.

      华蓥市| 无锡市| 拜泉县| 讷河市| 云霄县| 清镇市| 山东省| 芦山县| 贵南县| 聊城市| 灵武市| 陆河县| 宁乡县| 理塘县| 耿马| 乐东| 固安县| 双城市| 铜陵市| 上思县| 余庆县| 剑河县| 沙雅县| 霍城县| 深州市| 乌拉特中旗| 团风县| 荆州市| 麻城市| 平邑县| 南靖县| 佳木斯市| 怀安县| 福鼎市| 包头市| 稷山县| 同仁县| 磐安县| 比如县| 福安市| 兴义市|