基于數(shù)據(jù)分解和深度強化學習的交通流預測方法

2023-08-09 05:51:20劉嘉輝杜金

牡丹江師范學院學報(自然科學版) 2023年3期

劉嘉輝杜金

文章編號：1003?6180（2023） 03?0028?07

摘? 要：提出一種基于數(shù)據(jù)分解和深度強化學習（DRL）的交通流預測框架.為了減輕不規(guī)則波動的影響，利用局部加權回歸時間序列分解方法將數(shù)據(jù)分解為趨勢分量、季節(jié)分量和剩余分量.趨勢分量由門控循環(huán)單元（GRU）訓練，季節(jié)分量和剩余分量作為環(huán)境狀態(tài)采用策略梯度算法和強化學習模型學習，根據(jù)門控循環(huán)單元網(wǎng)絡的趨勢預測結果，環(huán)境狀態(tài)對預測結果進行及時調整.實驗結果表明，本文提出的方法優(yōu)于其他模型.

關鍵詞：交通流預測；強化學習；時間序列；策略梯度

[? ?中圖分類號? ? ]TP391[? ? 文獻標志碼? ?]? A

Traffic Flow Prediction Method Based on Data Decomposition

and Deep Reinforcement Learning

LIU Jiahui， DU Jin

（ School of Computer Science and Technology， Harbin University of Science and Technology，

Harbin 150080，China）

Abstract：A traffic flow prediction framework based on data decomposition and deep reinforcement learning （DRL） is proposed. In order to mitigate the impact of irregular fluctuations， the time series decomposition method of local weighted regression is applied to decompose data into trend component， seasonal component and residual component.The trend component is trained by gated recurrent unit （GRU）， while the seasonal and residual component are trained as environmental states by the strategy gradient algorithm and reinforcement learning model， and the prediction results are timely adjusted according to the gated recurrent unit networks trend prediction results and environmental state.The experimental results show that the proposed method is superior to other models.

Key words： traffic flow prediction； reinforcement learning； time series； strategy gradient

隨著經(jīng)濟發(fā)展，機動車輛數(shù)量迅速增加，導致交通擁擠、交通事故、環(huán)境污染等問題.準確預測未來交通流量的變化趨勢是緩解交通問題的基礎，交通流預測是智能交通系統(tǒng)的重要指標.

基于深度學習的模型廣泛用于交通流預測，然而對交通流數(shù)據(jù)的非平穩(wěn)波動難以及時預測.隨著強化學習（RL）在機器人控制領域的深入應用，一些人將強化學習引入到預測過程中.其中一種基于半監(jiān)督深度強化學習（DRL）的網(wǎng)絡異常流量檢測模型可以提高預測性能.此外，根據(jù)RL可以預測加密貨幣價格的變化.將網(wǎng)絡流量預測問題建模為馬爾可夫決策過程，通過蒙特卡羅Q學習預測網(wǎng)絡流量，以滿足所提出機制的實時要求.邊緣云故障預測的自動概念漂移處理框架，利用RL選擇最合適的漂移適應方法以及適應所需的數(shù)據(jù)量.對于數(shù)據(jù)集相對較小的領域，可以利用DRL技術構建一個基于時間的鏈接預測模型，使用相對較小的真實數(shù)據(jù)集進行訓練.基于強化學習非線性時間序列智能預測模型可以將強化學習與隱馬爾可夫模型相結合，強化學習運用統(tǒng)計方法，采用歷史觀測數(shù)據(jù)作為回報，優(yōu)化模型參數(shù)，提高預測精度.由于網(wǎng)絡結構的復雜性和大量的網(wǎng)絡參數(shù)，深度網(wǎng)絡訓練非常耗時，因此，DRL的學習效率有限.從近似策略迭代強化學習算法誤差分析的角度，一種新的基于近似策略的加速算法被提出，以提高DRL的效率.DQN算法分析這三種神經(jīng)網(wǎng)絡的適應性，是可以獲得能夠更好預測結果的集成模型.代理人的日間行車燈決策過程通常不透明，一個自我監(jiān)督的可解釋框架可以發(fā)現(xiàn)可解釋的特征，從而使非專家也能輕松理解RL代理.

本文提出一種基于數(shù)據(jù)分解和深度強化學習的框架（簡稱D-DRL）.D-DRL的基本思想是利用對交通流數(shù)據(jù)的分解，提取季節(jié)因子以減輕季節(jié)波動的影響，利用DRL模型對分解后的交通流數(shù)據(jù)作預測.

1 相關工作

交通流數(shù)據(jù)容易受天氣影響，如果出現(xiàn)極端天氣，交通流量將急劇下降.為了減輕不規(guī)則波動的影響，提高交通流預測的性能，使用STL算法對交通流進行分解，對不規(guī)則波動信息進行分離.與其他分解過程相比，STL對數(shù)據(jù)中的異常值具有很強的魯棒性，可生成健壯的分量子序列.分量序列的魯棒性可以提高應用子序列預測的精度.STL算法是一個過濾過程，用于將時間序列分解為三個組成部分：趨勢、季節(jié)和剩余分量.趨勢分量代表長期低頻變化，季節(jié)成分代表時間序列中周期頻率的變化，殘差部分表示原始時間序列減去趨勢和季節(jié)的剩余結果.時間序列、趨勢分量、季節(jié)分量和剩余分量分別用Yt，Tt，St和Rt表示.

Yt=Tt+St+Rt， t=1，2，… N.? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? （1）

STL由兩個遞歸過程組成：嵌套在外部循環(huán)中的內部循環(huán)，每次傳遞都包含一個更新季節(jié)成分的季節(jié)平滑，然后是更新趨勢成分的趨勢平滑.每一次外循環(huán)都由內循環(huán)組成.魯棒性權重將在下一次內循環(huán)運行中使用，以減少瞬態(tài)、異常行為對趨勢和季節(jié)成分的影響.假設進行內部循環(huán)的初始運行，獲得殘差、趨勢和季節(jié)成分的估計值.表示為：? ? ? ? ? ? ? ? ? ? ? ? ?Rt=Yt - Tt - St .? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? （2）

時間點t的魯棒性權重表示為：? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Pt=B（|Rt|/h）.? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? （3）

式（3）中，B是雙平方權重函數(shù)，h= 6 median （|Rt|）.

GRU網(wǎng)絡是專門為時間序列信號設計的，該網(wǎng)絡是基于長短期記憶（LSTM）的改進網(wǎng)絡模型.與LSTM相比，GRU有可以自動學習的特征，可有效對遠距離相關信息建模，減少選通單元的數(shù)量，從而減少處理時間，保持準確性.它的可伸縮性有利于構建更大的模型.GRU將LSTM模型的門控制信號減少為兩個門，即更新門和重置門.圖1顯示了GRU模型的總體結構.

圖1中x1，x2和xt是輸入值，h0，h1和ht是存儲在每個GRU網(wǎng)絡中的狀態(tài)，y1，y2和yt是GRU網(wǎng)絡的輸出.GRU神經(jīng)網(wǎng)絡是由多個神經(jīng)單元模塊組成的鏈模型.

Deep Q-Network（DQN）可以訓練AI代理使用未經(jīng)處理的像素進行比人類玩家更好的Atari視頻游戲.然而，雖然DQN解決了高維觀測空間的問題，但它只能處理離散和低維的動作空間，對于交通流預測任務，有連續(xù)的動作空間，不能直接應用.無模型方法Deep DPG（DDPG）將DQN與確定性策略梯度（DPG）算法相結合，可以在學習策略的同時處理連續(xù)的動作空間，再次保持超參數(shù)和網(wǎng)絡結構不變.

DDPG通常由一個代理以離散的時間步長與動態(tài)環(huán)境交互組成.在每個時間點t，代理都會收到一個狀態(tài)st，采取一個動作at并收到一個獎勵rt，DDPG的目標是學習一項策略，該策略的目的是最大化未來折扣獎勵的總和Rt.

式（4）中，γ表示范圍從0到1的折扣因子，用來度量當前獎勵對未來獎勵的重要性.動作價值函數(shù)描述了在狀態(tài)st下執(zhí)行動作at后以及隨后遵循策略后的預期回報.

2 基于數(shù)據(jù)分解和深度強化學習的交通流預測框架

本文提出的基于數(shù)據(jù)分解和深度強化學習的交通流預測框架（D-DRL）見圖2.

利用STL算法將交通流數(shù)據(jù)分解為趨勢分量、季節(jié)分量和剩余分量，以減輕不規(guī)則波動的影響.用GRU網(wǎng)絡訓練分解后的趨勢分量，用GRU-DDPG網(wǎng)絡訓練季節(jié)分量和剩余分量.在GRU-DDPG網(wǎng)絡中，交通流數(shù)據(jù)、GRU網(wǎng)絡和DDPG網(wǎng)絡輸出用于計算GRU-DDPG模型的獎勵值.訓練后將兩個分支合并為一個輸出，實現(xiàn)交通流預測.

使用在Critic網(wǎng)絡結合GRU網(wǎng)絡的DDPG-GRU神經(jīng)網(wǎng)絡模型，通過在強化學習，使用深度確定性策略梯度方法與環(huán)境交互，構建強化學習中的代理模型，并將GRU網(wǎng)絡添加到關鍵網(wǎng)絡中進行改進.GRU-DDPG模型通過Actor網(wǎng)絡根據(jù)環(huán)境狀態(tài)輸出動作，Critic網(wǎng)絡通過參與者網(wǎng)絡輸出的動作和環(huán)境狀態(tài)估計當前策略的價值，使用GRU網(wǎng)絡了解關鍵網(wǎng)絡中的狀態(tài)，以增強對時序信息的感知.此外，Actor網(wǎng)絡和Critic網(wǎng)絡都有一個目標網(wǎng)絡和一個在線網(wǎng)絡.目標網(wǎng)絡通過緩慢跟蹤在線網(wǎng)絡進行更新，以確保目標網(wǎng)絡的穩(wěn)定變化.在GRU-DDPG模型與環(huán)境的交互過程中，DDPG-GRU模型根據(jù)環(huán)境提供的狀態(tài)選擇動作輸出，從環(huán)境中獲取獎勵和下一時刻的狀態(tài)st+1和獎勵rt，動作和行動信息下一時刻的狀態(tài)存儲在內存緩沖區(qū)中.通過從緩沖區(qū)中選擇最小批量數(shù)據(jù)學習和更新參數(shù).

環(huán)境狀態(tài)構建.利用STL算法對交通流時間序列Yt進行分解，得到交通流序列的趨勢分量Tt、周期分量St和剩余分量Rt.GRU網(wǎng)絡用于預測分解得到的趨勢序列Tt.由于代理在強化學習中所做的行動選擇受到不斷變化環(huán)境的影響，因此，代理被用來預測剩余的波動.強化學習的狀態(tài)包括交通流時間序列的剩余波動序列，即State=St+Rt.

代理輸出的動作不是直接的下次交通流，而是根據(jù)GRU網(wǎng)絡對分解的趨勢序列Tt趨勢預測tt之后的加減運算，即交通流時間序列的波動值.因此，agent動作定義為動作空間中的連續(xù)動作，動作空間是歸一化后的波動范圍，具體獎勵函數(shù)為：

rt =-|at+tt-lt| .? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（5）

式（5）中，rt表示在時間上獲得的獎勵值，at是代理在時間t上的動作值，tt是時間t上的趨勢預測值，lt是與時間t相對應的交通流量值.為了讓代理獲得足夠的經(jīng)驗來學習，在前k個回合給代理動作添加噪聲，然后去除噪聲，以便代理能夠更加專注地提高預測準確性.

由于交通流時間序列數(shù)據(jù)是一組連續(xù)的數(shù)據(jù)，因此，狀態(tài)以時間順序開始和結束.為了學習更多經(jīng)驗，根據(jù)以下公式選擇環(huán)境狀態(tài)的開始和結束：

statestart= random（state0， statemax） .? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（6）

stateend = min（（statestart+stepmax）， statemax） .? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（7）

式（6）和式（7）中，statestart表示開始狀態(tài)，random是一個隨機函數(shù)，state0是交通流時間序列的初始序列，statemax是交通流量時間序列的最后一個序列，stepmax是一個代理在單個回合時間內探索的最大步數(shù).

本文提出的D-DRL框架使用GRU-DDPG模型作為代理具體學習過程，如GRU-DDPG-DRL算法所示，每個訓練過程包括五個步驟：

Step1：初始化關鍵網(wǎng)絡、參與者網(wǎng)絡和緩沖區(qū)R和參數(shù)k.

Step2：循環(huán)并隨機選擇開始位置開始探索.

Step3：根據(jù)是否小于選擇動作.

Step4：計算獎勵并存儲轉換信息.

Step5：從緩沖區(qū)和更新網(wǎng)絡中選擇最小批量數(shù)據(jù).

算法1-GRU-DDPG-DRL算法描述如下：

1： Initialize the Actor，critic，R and k

2： for epoch to MAX_EPOCH do

3： Receive initial observation state

4： for step to do

5： if epoch< k：

Select action by selector with exploration noise

else：

Select action only GRU-DDPG

6： Receive from the environment

7： Store transitions（st， at， rt， st+1） from R

8： Select min batch data from buffer

9： Set y and update critic by minimizing the loss

10： Update the actor networks using the policy gradient

11： Soft update process of the target networks

12： end for， end for

3 實驗結果與分析

3.1 數(shù)據(jù)集描述

實驗數(shù)據(jù)選自英國高速公路的交通數(shù)據(jù)集.采樣間隔為15分鐘，不考慮平日和周末的交通流量數(shù)據(jù).經(jīng)過歸一化預處理后，將訓練集和測試集按照4：1的比例進行劃分.由于實驗數(shù)據(jù)太多，因此，選取部分交通流數(shù)據(jù)繪制交通流數(shù)據(jù)曲線，以便直觀地顯示交通流的變化.圖3顯示了數(shù)據(jù)集的詳細信息.可以看到交通流數(shù)據(jù)的最大值為500左右，最小值為0左右.整體具有周期性，但波峰與波谷處較為不平穩(wěn).

3.2 評價指標

使用四個評估指標，即平均絕對誤差（MAE）、均方根誤差（RMSE）、平均絕對百分比誤差（MAPE）和決定系數(shù)（DF）來評估該模型的預測精度.MAE使用絕對誤差描述實際值和預測值之間的平均偏差.RMSE是實際值和預計值之間殘余誤差的標準偏差，MAPE以平均絕對百分比衡量誤差，MAE，RMSE和MAPE是與量表相關的指標.DF 的取值范圍為0～1，用于衡量實際值與預測值之間的擬合優(yōu)度.

3.3 數(shù)據(jù)集重構分析

STL算法可以分解周期大于2的任何時間序列、季節(jié)數(shù)據(jù).時間序列可以通過較小周期的分解來平滑和過濾.為了測試分解周期對D-DRL算法的影響，繪制以分解頻率為橫坐標的MAE值的箱型圖（圖4）.可以看到，隨著分解周期的增加，MAE值隨之增加.分解頻率在從3到4的過程中增加最為明顯.

分解后的STL分解后的數(shù)據(jù)曲線如圖5所示.觀察到的是數(shù)據(jù)的原始曲線，趨勢、季節(jié)和殘差是STL分解的趨勢項曲線、季節(jié)項曲線和殘差項曲線.趨勢曲線與原始曲線的趨勢基本相同，在25，75個時間點附近達到峰值，在30，100個時間點處達到低谷.曲線比原始曲線更平滑.剩余項在波峰附近劇烈波動，在波谷處平緩波動.

從圖6中可以看到，強化學習中狀態(tài)數(shù)據(jù)的acf值在0和1處的變化很大，然后在0左右上下波動.可以看出狀態(tài)數(shù)據(jù)不具有明顯的趨勢，大部分數(shù)據(jù)集中在0附近，其余數(shù)據(jù)呈現(xiàn)以0為中心并隨著距離越遠數(shù)據(jù)分布逐漸減少.

3.4 預測結果分析

為了評價基于D-DRL的交通流預測模型的有效性，選擇RDPG，BI-LSTM，Transformer以及STL-SVR進行對比.以RMSE，MAE，MAPE和DF作為實驗的測量指標.

表1顯示了交通流預測比較方法的結果.與未使用STL時間序列分解的RDPG，BILSTM，Transformer等模型相比，STL-SVR，STL-GRU，D-DRL等模型的RMSE，MAE，MAPE均小于單一模型，DF均大于單一模型，表明其預測均具有較高的準確性.STL算法可以有效降低交通流數(shù)據(jù)中波動對預測結果的影響，其中D-DRL的RMSE，MAE，MAPE，DF值分別為5.766，4.130，0.031，0.998，表明通過結合深度學習與強化學習的方法，進一步提高了預測的準確性.總體而言，D-DRL的預測效果優(yōu)RDPG，BI-LISTM，Transformer，STL-SVR和STL-GRU，表明D-DRL具有更好的預測性能.

4 結論

本文提出了D-DRL法，用于交通流預測.首先，為了減輕不規(guī)則波動的影響，使用STL算法將數(shù)據(jù)分解為趨勢分量、季節(jié)分量和殘差分量.趨勢分量由GRU訓練，季節(jié)分量和殘差分量由GRU-DDPG模型添加、組合和訓練.在GRU-DDPG網(wǎng)絡中，將GRU網(wǎng)絡添加到DDPG模型的關鍵網(wǎng)絡中，可以使GRU-DDPG模型以矩陣的形式處理交通流的時間特征信息，從而提高對時間狀態(tài)的感知.將GRU-DDPG模型的GRU輸出與預測趨勢的GRU輸入相結合，并將其與實際值進行比較，GRU-DDPG模型可以在原始數(shù)據(jù)和交通流之間創(chuàng)建直接的非線性或線性映射，而不會高度依賴提取特征的質量.實驗結果表明，該方法在準確性和穩(wěn)定性方面優(yōu)于傳統(tǒng)方法.

未來，我們將把實驗擴展到更多的交通數(shù)據(jù)集，以測試D-DRL方法的泛化能力.交通網(wǎng)絡中不同位置的道路交通流相互影響，通過多智能體的協(xié)調可以提高預測的及時性和準確性.

參考文獻

[1]宋大華，宋大全，章慧鳴.Logistic方程混沌周期點與精度研究[J].牡丹江師范學院學報：自然科學版，2020（01）：22-26.

[2]彭輝，周瑩青，李瑜琪.人工智能在數(shù)字出版行業(yè)的應用研究[J].牡丹江師范學院學報：社會科學版，2020（02）：1-10.

[3]谷嘉煒，韋慧.XGBoost-ESN組合模型股價預測方法[J].牡丹江師范學院學報：自然科學版，2022（01）：1-5.

編輯：琳莉

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于數(shù)據(jù)分解和深度強化學習的交通流預測方法