鄒國建,賴子良,李曄
(1.同濟(jì)大學(xué) 道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室,上海 201804;2.同濟(jì)大學(xué) 交通運(yùn)輸工程學(xué)院,上海 201804)
高速公路速度預(yù)測(cè)對(duì)于智能交通系統(tǒng)(ITS)至關(guān)重要,可為出行者和交通管理部門預(yù)先提供有用的交通信息[1]。目前,高速公路交通速度預(yù)測(cè)研究主要聚焦于短時(shí)預(yù)測(cè),對(duì)于長時(shí)間速度預(yù)測(cè)能力略顯不足[2]。根據(jù)交通速度預(yù)測(cè)研究的特點(diǎn),可以將現(xiàn)有的研究方法分為統(tǒng)計(jì)方法、傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法三類。
統(tǒng)計(jì)方法成功應(yīng)用于交通速度預(yù)測(cè)任務(wù),包括歷史平均模型(HA)和自回歸綜合移動(dòng)平均模型(ARIMA)[3-5]。HA 使用同一時(shí)間的歷史數(shù)據(jù)的平均值作為未來預(yù)測(cè)任務(wù)中相同時(shí)刻的預(yù)測(cè)值[3]。ARIMA 作為傳統(tǒng)的時(shí)間序列預(yù)測(cè)方法,結(jié)合了移動(dòng)平均和自回歸分量來對(duì)歷史時(shí)間序列數(shù)據(jù)進(jìn)行建模[4-5]。然而,由于交通速度具有非線性的性質(zhì),參數(shù)化方法基于先驗(yàn)知識(shí)、理論假設(shè)和簡單的數(shù)學(xué)統(tǒng)計(jì),在精準(zhǔn)預(yù)測(cè)交通速度方面表現(xiàn)不佳。
傳統(tǒng)機(jī)器學(xué)習(xí)方法緩解了統(tǒng)計(jì)方法遇到的難題,此類方法通過提取交通大數(shù)據(jù)中的非線性特征來提高預(yù)測(cè)的精準(zhǔn)度[6-10],如:VANAJAKSHI等[6]提出一種支持向量機(jī)(SVM)的回歸技術(shù)用于交通速度的短期預(yù)測(cè);JIANG等[7]使用隱馬爾可夫模型(HMM)來表現(xiàn)單個(gè)車輛的速度與路段交通速度之間的統(tǒng)計(jì)關(guān)系;SHIN等[8]提出一種基于隨機(jī)模型的車速預(yù)測(cè)算法,使用具有速度約束的馬爾可夫鏈作為基礎(chǔ);ZHANG等[9]提出一種基于高階多元馬爾可夫模型的交通因素狀態(tài)網(wǎng)絡(luò)模型(TFSN)來建立速度與相關(guān)因素之間的關(guān)系。然而,傳統(tǒng)機(jī)器學(xué)習(xí)方法主要提取淺層數(shù)據(jù)特征,無法對(duì)復(fù)雜的交通路網(wǎng)時(shí)空數(shù)據(jù)特征進(jìn)行深度建模[2,7-9]。
相比傳統(tǒng)機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)技術(shù)在處理復(fù)雜的非線性交通數(shù)據(jù)方面優(yōu)勢(shì)更為明顯[11-14],在相關(guān)研究中:CSIKóS[11]等使用人工神經(jīng)網(wǎng)絡(luò)(ANN)進(jìn)行交通速度預(yù)測(cè);JIA等[12]提出深度信念網(wǎng)絡(luò)(DBN)模型用于短時(shí)交通速度預(yù)測(cè);TANG等[13]提出一種基于改進(jìn)模糊神經(jīng)網(wǎng)絡(luò)(FNN)的交通速度預(yù)測(cè)模型。然而,這些方法處理復(fù)雜的交通路網(wǎng)時(shí)空數(shù)據(jù)特征能力有限,迫切需要更為有效的深度學(xué)習(xí)方法。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種用于時(shí)間序列預(yù)測(cè)任務(wù)的深度學(xué)習(xí)方法,可以有效提取數(shù)據(jù)的時(shí)間關(guān)聯(lián)特征[15]。目前,許多交通速度預(yù)測(cè)任務(wù)使用RNN 作為時(shí)序特征提取器來提高預(yù)測(cè)精準(zhǔn)度[16-20],在相關(guān)研究中:GU等[17]建立一種基于長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)和GRU 的新型融合深度學(xué)習(xí)(FDL)模型,以捕捉車道短時(shí)速度預(yù)測(cè)的時(shí)空特征;WANG等[18]使用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)關(guān)鍵路段進(jìn)行建模的方法(Bi-LSTM NN),使用堆疊Bi-LSTM 層來合并時(shí)間信息。上述方法使用RNN 作為特征提取器來提取交通數(shù)據(jù)的時(shí)間的相關(guān)性,但是忽略了數(shù)據(jù)的空間相關(guān)性對(duì)預(yù)測(cè)產(chǎn)生的影響。為解決RNN 遇到的問題,基于CNN 的時(shí)空預(yù)測(cè)模型被廣泛應(yīng)用于交通速度預(yù)測(cè)任務(wù)中[21-27],在相關(guān)研究中:為捕捉復(fù)雜的動(dòng)態(tài)交通信息,ZHOU等[25]提出一種稱為時(shí)空深度張量神經(jīng)網(wǎng)絡(luò)(ST-DTNN)的速度預(yù)測(cè)方法,主要用于混合道路類型的大規(guī)模城市網(wǎng)絡(luò);YANG等[26]提出基于路徑的速度預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)(PSPNN),其由CNN和雙向LSTM(Bi-LSTM)網(wǎng)絡(luò)組成,用于提取歷史數(shù)據(jù)的時(shí)空特征,實(shí)現(xiàn)基于路徑的速度預(yù)測(cè);ZANG等[27]提出一種基于CovLSTM 的多尺度時(shí)空特征學(xué)習(xí)網(wǎng)絡(luò)(MSTFLN),用于高架公路長期交通速度預(yù)測(cè)的研究任務(wù)。然而,傳統(tǒng)的CNN 只適用于歐幾里得空間結(jié)構(gòu)數(shù)據(jù),而交通數(shù)據(jù)具有非歐幾里得空間性質(zhì)。因此,基于CNN 的交通速度數(shù)據(jù)空間特征提取存在較大的缺陷。
最新研究將CNN 擴(kuò)展到可以處理非歐幾里得空間結(jié)構(gòu)數(shù)據(jù)的圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)[28],并且已成功應(yīng)用于交通預(yù)測(cè)任務(wù)中,其中包括交通速度預(yù)測(cè)[29-31]。高速路網(wǎng)中每條道路之間的相關(guān)性隨著時(shí)間動(dòng)態(tài)變化,而GCN 受限于捕獲高速路網(wǎng)的動(dòng)態(tài)空間相關(guān)性。考慮到圖注意力網(wǎng)絡(luò)(GAT)可解決動(dòng)態(tài)的空間相關(guān)性問題[32],本文提出一種基于時(shí)空注意力網(wǎng)絡(luò)的動(dòng)態(tài)高速路網(wǎng)速度預(yù)測(cè)模型(ST-ANet),結(jié)合GAT 和LSTM 設(shè)計(jì)高速公路網(wǎng)絡(luò)時(shí)空特征提取塊(GLSTM-block)。首先使用基于空間注意力機(jī)制的GAT 網(wǎng)絡(luò)提取高速路網(wǎng)的動(dòng)態(tài)空間相關(guān)性,然后通過LSTM 網(wǎng)絡(luò)提取輸入數(shù)據(jù)和GAT 輸出特征的時(shí)間相關(guān)性,最后基于時(shí)間注意力機(jī)制計(jì)算歷史輸入數(shù)據(jù)和預(yù)測(cè)值之間的時(shí)間相關(guān)性。
本文的研究區(qū)域?yàn)橹袊鴮幭幕刈遄灾螀^(qū)銀川市濱湖新區(qū)的高速路網(wǎng),如圖1 所示,共采集8 個(gè)高速公路收費(fèi)站的ETC 行車數(shù)據(jù),包括49 條高速公路路段的交通速度數(shù)據(jù)。高速公路交通速度數(shù)據(jù)包括速度、時(shí)間和道路位置三個(gè)因素,時(shí)間跨度為2020 年5 月1 日—2020 年8 月31日。每隔1 h 采樣一次,得到交通速度數(shù)據(jù)的時(shí)間序列形式{xti|-∞<ti<+∞},其中:xti∈?N×3;N表示道路的條數(shù)。道路位置不隨時(shí)間變化,共有49 條道路,即49 個(gè)位置索引。本文使用80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集。
圖1 研究區(qū)域Fig.1 Study area
本文的研究目標(biāo)是:預(yù)測(cè)高速公路網(wǎng)絡(luò)中每一條道路未來一段時(shí)間內(nèi)的交通速度情況。將輸入的高速路網(wǎng)圖定義為G=(V,E,A),其中:V代表節(jié)點(diǎn)集;E表示邊集;A∈?N×N,表示鄰接矩陣;N表示節(jié)點(diǎn)的數(shù)量。需要特別強(qiáng)調(diào)的是高速路網(wǎng)圖,本文將每條道路抽象為圖中的節(jié)點(diǎn),將道路的連接抽象為邊,每條線段代表一條高速公路,每條道路都可以映射為圖網(wǎng)絡(luò)節(jié)點(diǎn)。鄰接矩陣A表示道路之間連接關(guān)系,1 表示兩條道路之間存在連接,0 表示沒有連接。假設(shè)輸入時(shí)間步長為P,預(yù)測(cè)時(shí)間步長為Q,且ti∈{t1,t2,…,tP,…,tP+Q}。本文研究問題的核心是如何揭示高速路網(wǎng)交通數(shù)據(jù)的時(shí)空相關(guān)性。因此,使用ST-ANet來學(xué)習(xí)隱藏在公路交通數(shù)據(jù)中的時(shí)空特征,實(shí)現(xiàn)高速路網(wǎng)交通速度的精準(zhǔn)預(yù)測(cè)。本文以有4 條道路的高速公路網(wǎng)絡(luò)為例,如圖2 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。其中:圖2(a)表示物理高速路網(wǎng),每條道路由不同的字符和顏色表示;圖2(b)為高速路網(wǎng)的圖表示,道路用節(jié)點(diǎn)表示。
圖2 高速路網(wǎng)示例Fig.2 Example of expressway network
針對(duì)時(shí)空特征提取和長期公路交通速度預(yù)測(cè),本文提出ST-ANet 預(yù)測(cè)模型,模型框架如圖3 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 板),其中包含編碼器和解碼器2 個(gè)部分,編碼器用于提取輸入數(shù)據(jù)的時(shí)空特征,解碼器用于預(yù)測(cè)未來高速公路交通速度。
圖3 ST-ANet 預(yù)測(cè)模型框架Fig.3 Framework of ST-ANet prediction model
1)編碼器。公路交通數(shù)據(jù)x={xt1,xt2,…,xtP},xti∈?N×dmodel以流水方式饋入到ST-ANet中,通過GLSTM-Block 學(xué)習(xí)每個(gè)時(shí)間步的時(shí)空特征。GAT 提取輸入交通數(shù)據(jù)的動(dòng)態(tài)空間相關(guān)性,使用LSTM 提取GAT 輸出的空間特征的時(shí)間相關(guān)性。
2)解碼器?;诰幋a器輸出,解碼器使用基于GLSTM-Block 的解碼器來預(yù)測(cè)長期高速公路交通速度。在整個(gè)解碼器預(yù)測(cè)過程中,使用時(shí)間注意力機(jī)制來計(jì)算歷史輸入數(shù)據(jù)與每個(gè)時(shí)間步預(yù)測(cè)值之間的相關(guān)性。
對(duì)于本文提出的ST-ANet,為整個(gè)網(wǎng)絡(luò)添加了密集連接和層歸一化技巧,以防止網(wǎng)絡(luò)信息丟失和內(nèi)部協(xié)變量偏移問題。下文將詳細(xì)描述ST-ANet 模型每個(gè)部分的實(shí)現(xiàn)過程。
每個(gè)節(jié)點(diǎn)包含3 類數(shù)據(jù)信息,包括位置信息、時(shí)間戳信息和交通速度信息。輸入變量可拆分為3 種類型的嵌入表示,包括位置嵌入、交通速度嵌入和時(shí)間戳嵌入(小時(shí)、周、月)∈?N×d。時(shí)間戳和位置嵌入方法與Transformer 的嵌入方法相同,通過one-hot映射到稠密矩陣[33]。交通速度嵌入方法通過線性變換完成。對(duì)于每一個(gè)類型數(shù)據(jù)嵌入,數(shù)據(jù)維度可表示為d=dmodel/ 3=64。
GLSTM-Block 由動(dòng)態(tài)空間特征提取器和時(shí)間特征提取器兩個(gè)關(guān)鍵部分組成。在本例中,高速路網(wǎng)表示為圖(Graph)。在高速路網(wǎng)中,每條道路的通行速度受全局道路通行速度的影響,并且不同時(shí)期的影響權(quán)重w不同,定義為動(dòng)態(tài)空間相關(guān)性。使用多層GAT 捕捉高速路網(wǎng)的動(dòng)態(tài)空間相關(guān)性。此外,對(duì)于不同的時(shí)間步,同一條道路具有時(shí)間相關(guān)性,表現(xiàn)出動(dòng)態(tài)連續(xù)變化的特性,定義為時(shí)間相關(guān)性。使用多層LSTM 來捕捉高速路網(wǎng)的動(dòng)態(tài)時(shí)間相關(guān)性。GLSTM-Block 整體框架如圖4 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版),其中⊕和?分別表示按元素求和和矩陣乘法。
圖4 GLSTM-Block 框架Fig.4 Framework of GLSTM-Block
由于本文將會(huì)高頻使用非線性變換函數(shù),因此首先將其定義為:
其中:x代表輸入變量;W和b代表可學(xué)習(xí)參數(shù);ReLU 代表非線性激活函數(shù)。
1)動(dòng)態(tài)空間特征提取器
本文使用GAT 在每個(gè)時(shí)間步ti提取高速公路網(wǎng)絡(luò)圖中任意節(jié)點(diǎn)vj的動(dòng)態(tài)空間相關(guān)性,如圖5 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。其中,圖例使用 2 層 GAT 提取高速公路交通數(shù)據(jù)的動(dòng)態(tài)空間相關(guān)性,每層獲取全局空間相關(guān)性特征。
圖5 動(dòng)態(tài)空間關(guān)聯(lián)特征提取過程Fig.5 Dynamic spatial correlation feature extraction process
對(duì)于案例圖節(jié)點(diǎn)vj,輸入為,動(dòng)態(tài)空間相關(guān)性可以通過多頭自注意力機(jī)制計(jì)算得到[33]。所有節(jié)點(diǎn)V對(duì)節(jié)點(diǎn)vj的影響可通過第k頭自注意力計(jì)算得到,如式(2)所示:
其中:表示節(jié)點(diǎn)vj與節(jié)點(diǎn)v之間的相關(guān)性。
相關(guān)性可以通過節(jié)點(diǎn)vj的查詢向量和v的鍵向量的內(nèi)積得到,如式(3)所示:
在獲得影響權(quán)重后,節(jié)點(diǎn)vj的隱藏狀態(tài)可以通過以下公式計(jì)算:
節(jié)點(diǎn)vj的動(dòng)態(tài)空間相關(guān)性通過式(4)計(jì)算后,多頭注意力被使用。多頭注意力允許模型關(guān)注來自不同高速道路不同子空間的信息。并行M頭注意力機(jī)制并行計(jì)算,拼接不同的子空間信息,vj新的隱藏狀態(tài)可以通過式(6)更新得到:
其中:Wo∈?Md×d表示映射層,它可以幫助模型整合高速道路vj所有相關(guān)方面的空間相關(guān)性。
在ti時(shí)間步,每條路vj的空間相關(guān)性可以通過式(1)~式(6)計(jì)算得到,并且整個(gè)路網(wǎng)的輸出為∈?N×d,如式(7)所示:
其中:表示動(dòng)態(tài)空間相關(guān)性提取器的輸出;Wl∈?d×d。
2)動(dòng)態(tài)時(shí)間特征提取器
時(shí)間相關(guān)性是高速公路交通數(shù)據(jù)的重要特征之一,以往的研究主要從時(shí)間維度展開[11,17]。LSTM 是時(shí)間特征提取的主流方法,本文將其用作時(shí)間特征提取器。多層LSTM 被用來捕獲公路交通數(shù)據(jù)的時(shí)間相關(guān)性。時(shí)間特征提取器的工作過程如圖6所示。
圖6 LSTM 模型結(jié)構(gòu)Fig.6 LSTM model structure
對(duì)于節(jié)點(diǎn)vj,空間特征提取器的輸出為使用LSTM 提取其時(shí)間特征。假設(shè)i、f、o分別代表輸入門、遺忘門和輸出門,是每個(gè)時(shí)間步ti的輸入,hvj,ti是每個(gè) 時(shí)間步ti的輸出,σ代表 sigmoid 函數(shù),tanh 代表 Tanh 函數(shù),W和b分別代表 LSTM 的權(quán)重和偏置參數(shù)。時(shí)間相關(guān)性的提取過程如下:
步驟1LSTM 選擇性地忘記時(shí)間步ti時(shí)細(xì)胞狀態(tài)cvj,ti-1的特征信息:
步驟2LSTM 從輸入特征中選取重要信息,用于更新狀態(tài)單元c′vj,ti:
步驟3確定LSTM 輸出:
上述整個(gè)GLSTM-Block 工作流程,介紹了在時(shí)間步ti高速公路交通數(shù)據(jù)時(shí)空特征hti∈?N×d的提取過程,包括動(dòng)態(tài)空間特征和時(shí)間特征。
數(shù)據(jù)的時(shí)空特征提取過程已經(jīng)在2.4節(jié)詳細(xì)介紹。為了防止每條高速道路過分依賴周邊道路信息,同時(shí)保持自身個(gè)性化的時(shí)間序列特征,本文研究獨(dú)立于GLSTM-Block,專門使用時(shí)間序列網(wǎng)絡(luò)LSTM 來提取原始輸入數(shù)據(jù)的時(shí)間特征,如圖3 中編碼器部分所示。LSTM 的時(shí)間序列特征提取過程如式(8)~式(14)所示,并且輸出時(shí)間特征為。最后,將LSTM 的輸出和GLSTM-Block 的輸出hST=進(jìn)行相加,得到最終的時(shí)空特征
給定輸入序列x={xt1,xt2,…,xtP},xti∈?N×d,由GLSTM-Block 和LSTM 構(gòu)成的編碼器用于將輸入數(shù)據(jù)的時(shí)空 相特征轉(zhuǎn)換 為隱藏 表示,用于解碼器的時(shí)間注意力層。
解碼器內(nèi)部組成類似于模型編碼器,基于GLSTM-Block,GLSTM-Block的輸出為。不同之處在于解碼器還包含其他兩個(gè)層:一個(gè)時(shí)間注意力層和一個(gè)子任務(wù)層。時(shí)間注意力層關(guān)注歷史高速公路交通數(shù)據(jù)的時(shí)空特征對(duì)每個(gè)時(shí)間步預(yù)測(cè)值的影響[33],子任務(wù)層用全連接層實(shí)現(xiàn)高速公路速度預(yù)測(cè)。
2.6.1 時(shí)間注意力
直到時(shí)間步tP+i,編碼器和解碼器輸出的時(shí)空特征和分別表示為對(duì)于示例圖節(jié)點(diǎn)vj,可以通過多頭自注意力機(jī)制計(jì)算時(shí)間相關(guān)性[33]。從t1到tP+i的每一時(shí)間步對(duì)時(shí)間步tP+i的影響權(quán)重通過多頭自注意力機(jī)制計(jì)算,如式(15)所示:
在時(shí)間步tP+i,時(shí)間相關(guān)性可以通過式(15)~式(19)計(jì)算得到,整個(gè)高速路網(wǎng)的輸出為h′′tP+i∈?N×d。
2.6.2 高速公路交通速度預(yù)測(cè)
對(duì)于高速公路交通速度預(yù)測(cè)任務(wù),將解碼器的輸出特征直接饋送到全連接層以生成預(yù)測(cè)值:
其中:Ws∈?d×1表示全連接層的權(quán)重參數(shù)。
2.6.3 損失函數(shù)
對(duì)于高速公路交通速度預(yù)測(cè),將本文提出的ST-ANet模型與以下基線方法進(jìn)行對(duì)比:
1)HA 模型:該模型在未來預(yù)測(cè)任務(wù)中使用每天同一時(shí)間的歷史數(shù)據(jù)的平均值作為預(yù)測(cè)值[3]。
2)ARIMA 模型:該模型是一種傳統(tǒng)的時(shí)間序列預(yù)測(cè)方法,結(jié)合了移動(dòng)平均和自回歸分量對(duì)歷史時(shí)間序列數(shù)據(jù)建模[5]。
3)SVM 模型:該模型是一種支持向量回歸技術(shù),用于交通速度的短期預(yù)測(cè)[6]。
4)Bi-LSTM NN 模型:該模型由Bi-LSTM 網(wǎng)絡(luò)構(gòu)成,用于對(duì)每個(gè)關(guān)鍵路徑進(jìn)行建模,然后使用堆疊在一起的多個(gè)Bi-LSTM 層來合并時(shí)間序列信息[18]。
5)FI-RNNs 模型:該模型將特征注入循環(huán)神經(jīng)網(wǎng)絡(luò),結(jié)合時(shí)間序列數(shù)據(jù)并使用堆疊的RNN 和編碼器來學(xué)習(xí)交通數(shù)據(jù)的序列特征[19]。
6)HyperNet 模型:該模型使用LSTM 和RNN 網(wǎng)絡(luò)來預(yù)測(cè)交通速度,使用自動(dòng)機(jī)器學(xué)習(xí)方法搜索模型超參數(shù)以執(zhí)行網(wǎng)絡(luò)訓(xùn)練[20]。
7)Multi-view CNN 模型:該模型基于傳統(tǒng)CNN 網(wǎng)絡(luò),將歷史和實(shí)時(shí)交通數(shù)據(jù)作為模型輸入預(yù)測(cè)交通速度[21]。
8)PSPNN 基于路徑的速度預(yù)測(cè)神經(jīng)網(wǎng)絡(luò),由CNN和Bi-LSTM 網(wǎng)絡(luò)組成,用于提取歷史數(shù)據(jù)的時(shí)空特征,實(shí)現(xiàn)基于路徑的速度預(yù)測(cè)[24]。
9)MDL 模型:該模型是一種新穎的混合深度學(xué)習(xí)模型,用于預(yù)測(cè)車道級(jí)短期交通速度,由卷積長短期記憶(Conv-LSTM)層、卷積層和全連接層組成[26]。
10)OGCRNN 模型:該模型基于GCN 和GRU 網(wǎng)絡(luò)的時(shí)空神經(jīng)網(wǎng)絡(luò)模型,用于提取路段之間交通演變的復(fù)雜時(shí)空特征以預(yù)測(cè)交通速度[30]。
11)GCN-LSTM模型:該模型基于GCN 和LSTM 網(wǎng)絡(luò)的融合深度模型,用于提取路段之間交通數(shù)據(jù)復(fù)雜的時(shí)空特征以預(yù)測(cè)交通速度[31]。
為評(píng)估ST-ANet 模型的預(yù)測(cè)性能,使用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和決定系數(shù)(R2)來評(píng)估觀測(cè)值yi和預(yù)測(cè)值之間的差異。這三個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式如下:
其中:T是測(cè)試集大小;yˉ表示的是觀測(cè)值的平均值。高R2和低 RMSE、MAE 值表明預(yù)測(cè)性能更精準(zhǔn)。
ST-ANet模型中的超參數(shù)在訓(xùn)練過程中確定,即通過MAE 在測(cè)試集上選擇性能最好的模型。首先,根據(jù)經(jīng)驗(yàn)手動(dòng)設(shè)定超參數(shù)范圍:學(xué)習(xí)率{0.01,0.005,0.001,0.000 5},dropout {0.0,0.1,0.2,0.3,0.4,0.5},正則化參數(shù) {0.1,0.01,0.001,0.000 1},衰減率{0.99,0.95,0.90,0.85}。對(duì)于ST-ANet 模型,發(fā)現(xiàn)以下設(shè)置效果最好:將 dropout 設(shè)置為0.5,衰減率設(shè)置為0.99,正則化參數(shù)設(shè)置為0.000 1,學(xué)習(xí)率設(shè)置為 0.000 5。使用基線模型時(shí),這些設(shè)置仍然有效。所有的實(shí)驗(yàn)?zāi)P屯ㄟ^Tensorflow框架實(shí)現(xiàn),并使用Batch 大小為32 的隨機(jī)梯度下降算法(SGD)優(yōu)化器訓(xùn)練所有模型。在所有實(shí)驗(yàn)中,模型使用了提前停止機(jī)制,即提前停止輪次和最大 epoch 分別設(shè)置為20 和50。
經(jīng)過多次訓(xùn)練,最終確定的模型框架參數(shù)如表1所示,其中列出了ST-ANet 模型的層數(shù)、節(jié)點(diǎn)數(shù)、輸出大小和相關(guān)超參數(shù)。本文提出的ST-ANet 模型和對(duì)比基線模型的具體實(shí)現(xiàn)代碼請(qǐng)參考個(gè)人GitHub主頁(https://github.com/zouguojian/Traffic-speed-prediction/tree/main/ ST-ANet)。
表1 模型參數(shù) Table 1 Model parameters
3.3.1 單步預(yù)測(cè)表現(xiàn)對(duì)比
交通速度單步預(yù)測(cè)任務(wù)意義顯著,也是當(dāng)前的研究熱點(diǎn)。目前多數(shù)交通速度預(yù)測(cè)研究集中在下一時(shí)刻的單步預(yù)測(cè),這與區(qū)域高速路網(wǎng)的交通運(yùn)行狀況緊密相關(guān)。因此,本文繼續(xù)將下一時(shí)刻的交通速度預(yù)測(cè)作為研究目標(biāo)任務(wù),預(yù)測(cè)結(jié)果如表2 所示,其中加粗表示最優(yōu)值。實(shí)驗(yàn)中,使用歷史6 h 數(shù)據(jù)來預(yù)測(cè)下一小時(shí)的交通速度 [6-1 h]。例如,上午05:00—11:00 是輸入時(shí)段,上午11:00—12:00 為預(yù)測(cè)時(shí)段。
表2 不同方法的交通速度預(yù)測(cè)結(jié)果([6-1 h]預(yù)測(cè)任務(wù))Table 2 Traffic speed prediction results of different methods([6-1 h]prediction task)
由表2 可以看出,HA 和ARIMA 的性能遠(yuǎn)不如所有其他基線模型,這說明了高速公路交通速度預(yù)測(cè)的難度。統(tǒng)計(jì)模型最佳MAE、RMSE和R2值分別為14.360、22.867 和0.427。與統(tǒng)計(jì)方法相比,傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法表現(xiàn)更好,因?yàn)樗鼈兏m合提取時(shí)空數(shù)據(jù)的非線性特征。因此,現(xiàn)有的研究正在逐漸從統(tǒng)計(jì)方法過渡到機(jī)器學(xué)習(xí)方法。
將基于RNN 和CNN 的基線模型分為時(shí)間依賴、空間依賴和時(shí)空依賴三大類。時(shí)間依賴模型包括Bi-LSTM NN、FI-RN Ns 和HyperNet,空間依賴模型包括Multi-view CNN,時(shí)空依賴模型包括PSPNN 和MDL。比較這些基線模型可以得出以下結(jié)論:
1)時(shí)間依賴模型的整體預(yù)測(cè)誤差低于空間依賴模型,最佳MAE 值為 13.760。實(shí)驗(yàn)結(jié)果表明,時(shí)間特征顯著影響交通速度預(yù)測(cè)的精準(zhǔn)性,體現(xiàn)使用基于RNN 網(wǎng)絡(luò)提取輸入數(shù)據(jù)時(shí)間相關(guān)性的優(yōu)勢(shì)。
2)空間依賴模型的交通速度預(yù)測(cè)偏差和擬合優(yōu)度優(yōu)于時(shí)間依賴模型,最佳RMSE 和R2值分別為22.274和0.632。實(shí)驗(yàn)結(jié)果表明,空間相關(guān)性在交通速度預(yù)測(cè)中起到了積極的作用,有效緩解了預(yù)測(cè)偏差過大和擬合優(yōu)度低的問題。
3)與時(shí)間依賴模型和空間依賴模型相比,時(shí)空依賴模型顯著,提高了交通速度預(yù)測(cè)的性能。最佳MAE、RMSE 和R2值分別為13.630、21.626 和0.653。實(shí)驗(yàn)結(jié)果表明,結(jié)合輸入數(shù)據(jù)的時(shí)間相關(guān)性和空間相關(guān)性兩個(gè)方面的特征,可以有效提高公路交通速度預(yù)測(cè)的準(zhǔn)確性。
在基線模型中,基于GCN 和RNN 的時(shí)空依賴模型包括OGCRNN 和GCN-LSTM。對(duì)比OGCRNN、GCN-LSTM 和PSPNN 模型可知,OGCRNN 和GCNLSTM 的預(yù)測(cè)表現(xiàn)更好,對(duì)應(yīng)的最優(yōu)MAE、RMSE 和R2的值分別為12.985,21.383 和0.661。實(shí)驗(yàn)證明GCN 解決了CNN 網(wǎng)絡(luò)面臨的問題,可以有效地提取非歐幾里德空間中離散道路之間交通數(shù)據(jù)的空間相關(guān)性。對(duì)比OGCRNN 和GCN-LSTM 的預(yù)測(cè)結(jié)果可知,GCN-LSTM的預(yù)測(cè)結(jié)果明顯好于OGCRNN。GCN-LSTM 的預(yù)測(cè)結(jié)果證明,LSTM 相對(duì)于GRU 更適用于時(shí)間序列特征提取。本文研究繼續(xù)考慮非歐式空間中交通數(shù)據(jù)的空間離散分布問題,將GCN 延伸到GAT 模型:
1)使用基于空間注意力的GAT 提取高速公路網(wǎng)絡(luò)動(dòng)態(tài)空間相關(guān)性。
2)與GCN-LSTM 模型類似,使用LSTM 作為時(shí)間特征提取器獲取輸入數(shù)據(jù)的時(shí)間相關(guān)性。
3)使用時(shí)間注意力機(jī)制計(jì)算歷史輸入數(shù)據(jù)與當(dāng)前預(yù)測(cè)值之間的相關(guān)性,以完成交通速度預(yù)測(cè)。通過將本文提出的ST-ANet模型與基線模型對(duì)比,ST-ANet模型的預(yù)測(cè)性能得到較大的提升。與最優(yōu)基線模型GCNLSTM 相比,模型的預(yù)測(cè)誤差減小了4.0%。
3.3.2 消融實(shí)驗(yàn)
使用以下模型進(jìn)行消融實(shí)驗(yàn)并對(duì)結(jié)果進(jìn)行分析:
1)GLSTM-Block。與GCN-LSTM 模型相比,GLSTM-Block 模型也是使用LSTM 作為時(shí)間特征提取器;不同之處是,GLSTM-Block 使用基于空間注意力機(jī)制的GAT 提取輸入數(shù)據(jù)的動(dòng)態(tài)空間相關(guān)性,而GCN-LSTM 是依托于GCN 提取靜態(tài)空間相關(guān)性的。與GCN-LSTM 相比,GLSTM-Block 取得了更好的表現(xiàn),MAE 降低了1.9%。實(shí)驗(yàn)結(jié)果證明:一方面,相比于GCN,GAT 考慮到了空間特征的動(dòng)態(tài)變化,這對(duì)高速公路網(wǎng)路的空間相關(guān)性特征提取效果要更加顯著;另一方面,考慮路段之間的動(dòng)態(tài)影響可以有效緩解預(yù)測(cè)能力不足的問題。
2)GLSTM-Block-LSTM。高速路網(wǎng)中的每條公路不僅受周邊公路影響,更受到自身速度的影響。相比于GLSTM-Block,GLSTM-Block-LSTM模型在Encoder部分添加獨(dú)立于GLSTM-Block 模塊用于提取每條公路速度時(shí)間序列特征的LSTM 網(wǎng)絡(luò),目的是為了保留每個(gè)路段自身的時(shí)序特征而不受周邊路段的影響。與GLSTM-Block 預(yù)測(cè)結(jié)果相比,GLSTM-Block-LSTM 模型的預(yù)測(cè)表現(xiàn)得到提升,并且MAE、RMSE 和 R2這3 個(gè)評(píng)判指標(biāo)測(cè)量值都得到更新,分別改善了1.0%、0.1%和0.2%。通過實(shí)驗(yàn)可知,道路的自身固有時(shí)序特征對(duì)道路交通速度預(yù)測(cè)任務(wù)影響較大。因此,在高速公路速度預(yù)測(cè)任務(wù)中,不僅需要考慮高速路網(wǎng)時(shí)空特征問題,而且還需要保留每一條道路固有的時(shí)間序列特征。
3)GLSTM-Block-Temporal-Attention。高速公路未來時(shí)間段的交通速度預(yù)測(cè)值會(huì)受到過去一段時(shí)間的交通速度影響。為此,本文提出基于時(shí)間注意力的GLSTM-Block-Temporal-Attention 模型。與GLSTM-Block相比,GLSTM-Block-Temporal-Attention在預(yù)測(cè)階段會(huì)考慮當(dāng)前預(yù)測(cè)與歷史輸入數(shù)據(jù)之間的相關(guān)性。通過與GLSTM-Block實(shí)驗(yàn)對(duì)比可知,添加時(shí)間注意力后的模型預(yù)測(cè)表現(xiàn)整體誤差減小,MAE值降低了0.3%。誤差降低的可能原因是,模型更加關(guān)注時(shí)間維度歷史輸入數(shù)據(jù)與預(yù)測(cè)值之間的相關(guān)性。這也反映了時(shí)間注意力機(jī)制在交通預(yù)測(cè)任務(wù)中的積極作用,可作為交通速度預(yù)測(cè)模型的重要組件之一。
4)ST-ANet。通過對(duì)GLSTM-Block,GLSTM-Block-LSTM和GLSTM-Block-Temporal-Attention 模型預(yù)測(cè)結(jié)果的分析,可總結(jié)得到基于空間注意力的GAT、LSTM和時(shí)間注意力機(jī)制對(duì)交通速度的預(yù)測(cè)具有不同程度的影響。為了綜合三者的優(yōu)勢(shì),本文在GLSTM-Block 模型中添加用于獨(dú)立提取高速公路每條道路交通速度時(shí)間序列特征的LSTM,以及用于計(jì)算歷史輸入數(shù)據(jù)與當(dāng)前預(yù)測(cè)值相關(guān)性的時(shí)間注意力機(jī)制,最終得到ST-ANet模型。與最優(yōu)基線模型GCN-LSTM 相比,ST-ANet 的預(yù)測(cè)誤差得到了大幅改善,MAE 減小了 4.0%。
3.3.3 長期預(yù)測(cè)表現(xiàn)對(duì)比
目前的交通速度預(yù)測(cè)研究主要集中在短期預(yù)測(cè),不足以滿足實(shí)際應(yīng)用場(chǎng)景的需要。高速公路交通速度的長期預(yù)測(cè)對(duì)于預(yù)測(cè)模型來說是一項(xiàng)具有挑戰(zhàn)性的任務(wù),它關(guān)系到未來一段時(shí)間公路交通的精確管控。對(duì)于表2 中的結(jié)果,已經(jīng)證明了ST-ANet在短期預(yù)測(cè)任務(wù)中的有效性,并分析了模型各部分的貢獻(xiàn)。為了驗(yàn)證ST-ANet在長期預(yù)測(cè)任務(wù)中的優(yōu)勢(shì),表3 分別顯示了基線模型和ST-ANet 模型在未來2 h 和3 h 的交通速度預(yù)測(cè)任務(wù)中的表現(xiàn)。由于基線模型的局限性,本階段從表2 中選擇性能好,并適用于長期預(yù)測(cè)的基線模型進(jìn)行實(shí)驗(yàn)對(duì)比。對(duì)于[6-2 h]交通速度預(yù)測(cè)任務(wù),使用6 h的歷史交通數(shù)據(jù)作為輸入,預(yù)測(cè)未來2 h 的交通速度,例如05:00—11:00 為輸入時(shí)段,11:00—13:00 為預(yù)測(cè)時(shí)段。對(duì)于[6-3 h]交通速度預(yù)測(cè)任務(wù),使用6 h 的歷史交通數(shù)據(jù)作為輸入,預(yù)測(cè)未來3 h 的交通速度,例如05:00—11:00為輸入時(shí)段,11:00—14:00為預(yù)測(cè)時(shí)段。
表3 不同方法的交通速度預(yù)測(cè)結(jié)果([6-2 h]和[6-3 h]預(yù)測(cè)任務(wù))Table 3 Traffic speed prediction results of different methods([6-2 h]and [6-3 h]prediction tasks)
為了更清楚地對(duì)不同模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,對(duì)每個(gè)模型的預(yù)測(cè)誤差、偏差和擬合優(yōu)度進(jìn)行可視化,如圖7 所示。結(jié)合圖7 和表3 可知,與用于長期預(yù)測(cè)任務(wù)的基線模型相比,ST-ANet表現(xiàn)最佳。對(duì)于交通預(yù)測(cè)任務(wù)[6-2 h],與最優(yōu)基線模型GCN-LSTM 相比,MAE改進(jìn)為3.6%,RMSE 改進(jìn)為0.3%。對(duì)于交通預(yù)測(cè)任務(wù)[6-3 h],與基線模型相比,MAE 改進(jìn)為 3.9%。此外,如圖7 所示,與基線模型相比,ST-ANet 的誤差隨著時(shí)間步數(shù)的增加變動(dòng)幅度較小,且誤差小于所有基線模型。由于ST-ANet 的預(yù)測(cè)結(jié)果優(yōu)勢(shì)顯著,因此具有巨大的應(yīng)用前景。值得注意的是,ST-ANet 的預(yù)測(cè)偏差和擬合優(yōu)度要略低于GCN-LSTM,原因可能是GCN對(duì)于降低模型偏差和提高擬合優(yōu)度方面的作用要好于GAT,而GAT 對(duì)于降低模型的誤差方面起著不可或缺的作用。ST-ANet 和GCN-LSTM 模型的特性給未來的交通路網(wǎng)交通速度預(yù)測(cè)帶來了新的啟發(fā),深度結(jié)合GCN 和GAT 的優(yōu)勢(shì)將是未來研究的一個(gè)重要方向。
圖7 長期交通速度預(yù)測(cè)能力Fig.7 Long-term traffic speed prediction ability
本文基于時(shí)空注意力網(wǎng)絡(luò),提出一種面向動(dòng)態(tài)高速路網(wǎng)的交通速度預(yù)測(cè)模型ST-ANet。為評(píng)估模型性能,對(duì)真實(shí)世界的高速公路交通數(shù)據(jù)進(jìn)行多次實(shí)驗(yàn)。對(duì)于高速公路交通速度短時(shí)預(yù)測(cè),在相同的測(cè)試集上,ST-ANet比基線方法具有更準(zhǔn)確的交通速度預(yù)測(cè)性能。對(duì)比最優(yōu)基線模型GCN-LSTM,ST-ANet模型對(duì)于未來1 h 預(yù)測(cè)誤差MAE降低4.0%。此外,對(duì)于長期預(yù)測(cè)任務(wù),ST-ANet的預(yù)測(cè)誤差、偏差和擬合優(yōu)度的變化范圍較小。對(duì)比次優(yōu)基線模型GCN-LSTM,ST-ANet模型對(duì)于未來2 h和3 h內(nèi)高速路網(wǎng)交通速度的預(yù)測(cè)誤差MAE 分別降低3.6%和3.9%。后續(xù)將在ST-ANet模型中添加GCN 網(wǎng)絡(luò),進(jìn)一步減小模型的預(yù)測(cè)誤差并提高模型的擬合優(yōu)度,同時(shí)并探索用于未來預(yù)測(cè)的高性能模型。