張 敏,卿粼波,王 巧,才虹麗,陳 楊
(1 四川大學(xué) 電子信息學(xué)院,成都 610065;2 四川通信科研規(guī)劃設(shè)計(jì)有限責(zé)任公司,成都 610065)
城市區(qū)域人流量預(yù)測(cè)在智慧交通系統(tǒng)中具有重大現(xiàn)實(shí)意義。例如,當(dāng)區(qū)域人流量過大、人群聚集程度較高時(shí),如果不能及時(shí)察覺潛在的風(fēng)險(xiǎn),進(jìn)行科學(xué)的疏導(dǎo)和控制,很容易發(fā)生踩踏等事件[1-2]。城市區(qū)域人流量預(yù)測(cè)在智慧交通系統(tǒng)中具有重大現(xiàn)實(shí)意義,人群流動(dòng)建模為日益嚴(yán)峻的交通狀況、公共衛(wèi)生安全、資源配置、風(fēng)險(xiǎn)評(píng)估等問題提供有效的決策支持[3]。
在城市區(qū)域人流量預(yù)測(cè)問題中,傳統(tǒng)的建模思路難以同時(shí)有效的處理時(shí)序的兩級(jí)周期性和空間依賴性問題。2017 年,Zhang 等人[4]建立了基于深度殘差網(wǎng)絡(luò)的城市人流量預(yù)測(cè)模型ST-ResNet。其后,研究人員在此基礎(chǔ)上陸續(xù)提出了ConvGRU[5]等一系列模型,將每個(gè)網(wǎng)格區(qū)域的人流量用規(guī)則矩陣表征卷積輸入,表征人流量預(yù)測(cè)中的空間依賴關(guān)系。文獻(xiàn)[6]中提出了DeepSTN+模型,結(jié)合區(qū)域的功能特性,能夠捕捉更大范圍空間的依賴關(guān)系。文獻(xiàn)[7]中使用空間卷積,來構(gòu)建預(yù)測(cè)不規(guī)則區(qū)域的人流量模型MVGCN 等等。然而,上述傳統(tǒng)的區(qū)域人流量預(yù)測(cè)模型,沒有充分挖掘人流量數(shù)據(jù)的時(shí)間特征,雖利用深度學(xué)習(xí)進(jìn)行預(yù)測(cè),但在數(shù)據(jù)量不足時(shí),訓(xùn)練數(shù)據(jù)的性能會(huì)顯著下降。
本文數(shù)據(jù)來源于CCF 2020 重點(diǎn)區(qū)域人群密度預(yù)測(cè)[8],在Top1[9]模型基礎(chǔ)上,針對(duì)以上問題,考慮時(shí)序特征的兩級(jí)周期性,一方面利用圖神經(jīng)網(wǎng)絡(luò)(GNN)[10]提取空間特征,另一方面將空間區(qū)域特性因素納入其中,構(gòu)建模型預(yù)測(cè)城市區(qū)域未來一周分小時(shí)的人流量分布。
城市區(qū)域人流量預(yù)測(cè)相比一般的時(shí)序預(yù)測(cè)問題具有時(shí)序特征、區(qū)域特征,而時(shí)間特征具有兩級(jí)周期性。圖1 為一個(gè)星期內(nèi),北京市內(nèi)兩種類型區(qū)域24小時(shí)人流量統(tǒng)計(jì)圖。圖中很明顯地展示了城市區(qū)域人流量預(yù)測(cè)的時(shí)序特征與區(qū)域特性。
(1)天級(jí)別周期性:體現(xiàn)了每個(gè)區(qū)域在一天內(nèi)小時(shí)級(jí)別的周期性。例如圖中兩個(gè)區(qū)域人流量,由于人們每日作息影響呈現(xiàn)周期性變化,即早晨和晚上人流量驟減,中午達(dá)到高峰。
(2)周級(jí)別周期性:體現(xiàn)了每個(gè)區(qū)域周級(jí)別的周期性。圖中兩個(gè)區(qū)域人流量受工作日的人群出行規(guī)律的影響,工作日和周末的人流量差異較為明顯。
(3)區(qū)域特性:由于人的移動(dòng)是發(fā)生在物理世界中,直接受到區(qū)域?qū)傩缘挠绊?。從圖中也可看出人流量的分布與功能區(qū)之間存在相關(guān)性。例如,北京站整體人流量較高,所以在構(gòu)建模型時(shí)應(yīng)當(dāng)充分考慮區(qū)域類型與時(shí)間的相關(guān)性對(duì)人流量的影響。
本文提出的基于混合時(shí)空感知網(wǎng)絡(luò)模型的完整網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。其中包括分為數(shù)據(jù)層、特征層和融合層。數(shù)據(jù)層選擇區(qū)域歷史人流量和區(qū)域?qū)傩詳?shù)據(jù)作為模型的輸入。首先進(jìn)行特征提取得到兩個(gè)級(jí)別的時(shí)序特征,通過圖神經(jīng)網(wǎng)絡(luò)(GNN)[10]提取空間特征;將時(shí)序特征和空間特征輸入到回歸樹模型和規(guī)則模型,對(duì)未來人流量進(jìn)行連續(xù)預(yù)測(cè);最后融合功能類型、時(shí)間影響因子、區(qū)域特性因子輸出預(yù)測(cè)值。
1.3.1 時(shí)序特征提取
本文對(duì)相關(guān)數(shù)據(jù)進(jìn)行特征提取,得到區(qū)域人流量?jī)杉?jí)時(shí)序特征。人流量具有天級(jí)別和周級(jí)別的兩級(jí)周期性,所以選擇預(yù)測(cè)方式分為水平方向預(yù)測(cè)與垂直方向預(yù)測(cè),如圖3 所示。
圖3 兩級(jí)時(shí)序特征提取Fig.3 Two level sequential feature extraction
其中,水平方向預(yù)測(cè)主要基于歷史數(shù)據(jù)每天的相同小時(shí)進(jìn)行預(yù)測(cè),這樣訓(xùn)練24 個(gè)回歸樹模型進(jìn)行預(yù)測(cè),將預(yù)測(cè)的序列長(zhǎng)度縮短到了7,垂直方向預(yù)測(cè)主要對(duì)歷史訓(xùn)練數(shù)據(jù)進(jìn)行統(tǒng)計(jì)建模。
1.3.2 空間特征提取
本文利用圖神經(jīng)網(wǎng)絡(luò),對(duì)不規(guī)則的空間特征進(jìn)行提取。其基本原理如下:
將城市區(qū)域人流量的相關(guān)數(shù)據(jù)抽象成空間內(nèi)有意義的模式與特征后,再將圖轉(zhuǎn)化成代數(shù)形式來對(duì)空間特征進(jìn)行提取。
圖4 為以定點(diǎn)i計(jì)算出的核大小為1 的圖卷積。而定點(diǎn)i與4 個(gè)一階相鄰定點(diǎn)的空間依賴關(guān)系則為圖4 中的f(1)、f(2)、f(3)、f(4)。
圖4 區(qū)域人流量空間特征提取Fig.4 Extraction of spatial characteristics of regional passenger flow
本文使用LightGBM[11]和XGBoost[12]兩模型預(yù)測(cè)人群密度預(yù)測(cè)值flowi,d,h。其中,growthi,h表示區(qū)域i在第h小時(shí)的增長(zhǎng)趨勢(shì)因子,ph和qh表示第h小時(shí)對(duì)應(yīng)的兩個(gè)模型,則第i個(gè)區(qū)域在第d天第h小時(shí)的人流量預(yù)測(cè)值為:
區(qū)域特性因子wp主要是計(jì)算同一時(shí)刻t內(nèi),遷入某一區(qū)域的人流量PE與遷出這一地區(qū)的人流量PR的比值,如公式(2)。
最后融合周級(jí)別周期因子α與天級(jí)別的影響因子β,可得到基于規(guī)則統(tǒng)計(jì)模型的人流量預(yù)測(cè)值為:
根據(jù)現(xiàn)實(shí)需求,本文選取的數(shù)據(jù)集包括北京市2020-01-17~2020-02-15 重點(diǎn)區(qū)域信息、100 個(gè)類別的重點(diǎn)區(qū)域小時(shí)級(jí)別的人群密度數(shù)據(jù)、城市間遷入遷出指數(shù)、網(wǎng)格聯(lián)系強(qiáng)度。預(yù)測(cè)接下來9 天北京市重點(diǎn)區(qū)域的人流量。所以要預(yù)測(cè)的序列長(zhǎng)度為216,屬于長(zhǎng)期序列預(yù)測(cè)問題。數(shù)據(jù)集的統(tǒng)計(jì)信息見表1。
表1 數(shù)據(jù)集統(tǒng)計(jì)信息Tab.1 Statistical information of data set
基于本文所構(gòu)建的模型,用均方根誤差RMSE(Root Mean Square Error)作為模型預(yù)測(cè)效果的評(píng)價(jià)指標(biāo)。
其中,ε表示城市的區(qū)域總數(shù);k表示預(yù)測(cè)的時(shí)間區(qū)間總數(shù);φ是預(yù)測(cè)值;是真實(shí)值。
為了驗(yàn)證本文模型在區(qū)域人流量預(yù)測(cè)問題上的可行性,選擇以下基準(zhǔn)預(yù)測(cè)方法進(jìn)行對(duì)比。預(yù)測(cè)方法包括:時(shí)間序列預(yù)測(cè)模型和基于深度學(xué)習(xí)的預(yù)測(cè)模型。主要有長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[13]、自回歸積分滑動(dòng)平均模型(ARIMA)[14]、以及基礎(chǔ)方法(base)。
(1)ARIMA 模型:自回歸積分滑動(dòng)平均模型,是時(shí)間序列預(yù)測(cè)模型中非常經(jīng)典的預(yù)測(cè)方法,ARIMA的預(yù)測(cè)結(jié)果較好,但模型對(duì)數(shù)據(jù)要求較高。
(2)LSTM 模型:長(zhǎng)短期記憶模型是一種循環(huán)神經(jīng)網(wǎng)絡(luò),擅長(zhǎng)處理序列類型的數(shù)據(jù)。
混合時(shí)空感知模型預(yù)測(cè)結(jié)果見表2。
表2 實(shí)驗(yàn)結(jié)果Tab.2 Experimental results
本文提出一種基于混合時(shí)空感知網(wǎng)絡(luò)模型,用于解決城市區(qū)域人流量預(yù)測(cè)問題。該模型可以對(duì)影響區(qū)域人流量的兩類因素(即空間信息和時(shí)間信息)進(jìn)行建模,根據(jù)天周期性和周周期性進(jìn)行預(yù)測(cè),將時(shí)序特征和空間特征分別輸入回歸樹模型和統(tǒng)計(jì)規(guī)則模型,對(duì)未來人群密度進(jìn)行連續(xù)預(yù)測(cè)。進(jìn)一步對(duì)回歸樹模型和統(tǒng)計(jì)規(guī)則模型的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)求和,融合后效果顯著。通過對(duì)北京重點(diǎn)區(qū)域人流量數(shù)據(jù)驗(yàn)證,證明本文提出的模型具有良好的效果。
當(dāng)前大部分的城市區(qū)域人流量預(yù)測(cè)模型都只考慮了某種單一的數(shù)據(jù)集,實(shí)際上,本模型可以考慮其他因素用于改進(jìn)城市區(qū)域人流量預(yù)測(cè)。為了驗(yàn)證模型的魯棒性,不同城市需要用到更多的數(shù)據(jù)來驗(yàn)證時(shí)空變化對(duì)預(yù)測(cè)精度的影響。同時(shí)為提高訓(xùn)練效率,可減少迭代次數(shù)以提高訓(xùn)練結(jié)果的準(zhǔn)確性。