基于強(qiáng)化學(xué)習(xí)的城市快速路入口匝道信號控制方法研究

2020-12-29 07:56:58劉樹青

機(jī)電信息 2020年36期

劉樹青張行

（北京易華錄信息技術(shù)股份有限公司，北京100043）

0 引言

快速路早晚高峰時段擁堵的情況時有發(fā)生，嚴(yán)重影響了出行效率和交通秩序。目前快速路入口匝道信號控制方案一般是人工提前設(shè)定的，無法根據(jù)主線或周邊擁堵情況進(jìn)行實時調(diào)整，對快速路的匝道信號控制方案進(jìn)行實時合理的調(diào)整，已成為城市管理的重要需求。

目前，國內(nèi)外學(xué)者對于快速路匝道信號控制方法的研究，主要可以分為多變量控制、目標(biāo)最優(yōu)控制和智能啟發(fā)式控制。其中，多變量控制代表性控制策略包括ALINEA算法[1]、METALINE算法[2]等。目標(biāo)最優(yōu)控制一般是建立描述系統(tǒng)運(yùn)行狀態(tài)的目標(biāo)函數(shù)，通過尋求目標(biāo)函數(shù)的最優(yōu)解得出系統(tǒng)最佳控制策略。Bin Han等以減少匝道排隊延遲和降低匝道排隊長度為目標(biāo)對匝道調(diào)節(jié)率進(jìn)行了研究，并通過模擬測試驗證了該方法的有效性[3]。陳學(xué)文以快速路系統(tǒng)車輛總消耗時間為控制目標(biāo)，建立快速路系統(tǒng)擁堵疏散控制模型，實現(xiàn)了快速路網(wǎng)絡(luò)整體優(yōu)化控制[4]。項喬君、禹奧業(yè)等發(fā)明了一種基于排隊長度的城市快速路入口匝道控制系統(tǒng)及控制方法，通過迭代計算得到最終合理的綠信比[5]；啟發(fā)式控制是通過制定啟發(fā)規(guī)則，根據(jù)交通狀態(tài)控制匝道信號，代表性控制方法有SWARM算法[6]、CPSO-RBF-PID模型[7]等。然而，現(xiàn)有研究大多數(shù)以確定的匝道控制模型為主，模型中的參數(shù)確定難度較大，對模型在不同程度的主線擁堵場景下的表現(xiàn)考慮較少。

本文基于強(qiáng)化學(xué)習(xí)建立了快速路入口匝道控制模型，通過元胞自動機(jī)模型構(gòu)建快速路仿真器，并利用歷史數(shù)據(jù)對模型參數(shù)進(jìn)行訓(xùn)練和學(xué)習(xí)，實現(xiàn)了快速路主線擁堵的動態(tài)識別和疏導(dǎo)，從而提升了快速路的交通控制水平。

1 快速路入口匝道信號控制流程設(shè)計

快速路匝道信號控制是通過信號等對城市快速路的入口匝道進(jìn)行控制，本文設(shè)計了一種基于強(qiáng)化學(xué)習(xí)的快速路入口匝道信號控制流程。

強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)的方法論之一，智能體通過“試錯”的方式進(jìn)行學(xué)習(xí)，通過與環(huán)境交互獲得獎賞行為，最終目標(biāo)是智能體獲得最大的獎賞。在每一個計算循環(huán)中，將觀測到的交通檢測數(shù)據(jù)作為強(qiáng)化學(xué)習(xí)控制器的環(huán)境輸入，智能體根據(jù)規(guī)則輸出各信號燈當(dāng)前的動作是開啟還是關(guān)閉。同時根據(jù)環(huán)境數(shù)據(jù)計算快速路各路段上的擁堵情況，根據(jù)擁堵程度將智能體的獎懲行為分為4個等級：（1）輕微擁堵，獎懲等級=-1；（2）擁堵，獎懲等級=-2；（3）嚴(yán)重?fù)矶?，獎懲等?-3；（4）不擁堵，獎懲等級=1。當(dāng)獎懲等級為1時，將擁堵記憶庫中的參數(shù)發(fā)送給控制機(jī)，作為下一次判斷擁堵的條件。當(dāng)獎懲等級為其他值時，就基于當(dāng)前的擁堵情況輸出不同的信號控制策略。每一個計算循環(huán)的獎懲等級、動作、環(huán)境數(shù)據(jù)都會存入記憶庫，用于計算下一個循環(huán)智能體損失函數(shù)的損失值。

2 匝道控制模型和算法

強(qiáng)化學(xué)習(xí)模型中，智能體通過與環(huán)境交互獲取獎勵值，從而動態(tài)調(diào)整模型中的參數(shù)[8]。本文基于元胞自動機(jī)模型構(gòu)建了快速路仿真器，以仿真器作為模型的交互環(huán)境，利用歷史數(shù)據(jù)對強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練學(xué)習(xí)。

2.1 快速路仿真器建模

本文采用改進(jìn)的元胞傳輸模型[9]（Modified Cell Transmission Model，MCTM），與元胞傳輸模型選取每個元胞內(nèi)的車輛數(shù)作為元胞狀態(tài)變量不同，改進(jìn)的元胞傳輸模型以元胞中的車輛密度作為狀態(tài)變量，這種改進(jìn)去除了元胞傳輸模型對于每個元胞長度必須相等的限制。元胞長度限制的取消使得道路的元胞劃分更加靈活，可以用更少的元胞來描述路網(wǎng)交通流，從而大大降低了元胞狀態(tài)變量的維數(shù)。

路網(wǎng)元胞可分為3種類型：

（1）用于描述路段邊界交通需求的源元胞，如環(huán)形快速路的入口匝道元胞可看作是源元胞；

（2）用于接收其他元胞輸入車輛的阱元胞，如環(huán)形快速路中的出口匝道可稱為“阱元胞”；

（3）既有輸入又有輸出的元胞稱為“中間元胞”，如快速路中的主干道元胞。

當(dāng)中間元胞的輸入和輸出流量只取決于該元胞本身狀態(tài)時，即若其上游元胞能充分提供其所需的車輛數(shù)，下游元胞能充分接收其流出的車輛數(shù)，則稱之為“理想元胞”。

理想元胞的密度計算公式如下：

式中：qi,in（k）和qi,out（k）表示在第k個時間間隔進(jìn)入和駛出元胞i的交通流量，包括主路和進(jìn)、出口匝道的交通流；ρi（k+1）表示第k+1個時間間隔元胞i的密度。

為了對城市快速路主線、入口匝道、出口匝道進(jìn)行仿真建模，將元胞之間的連接方式分為3種，如圖1所示。其中簡單連接方式對應(yīng)快速路主線上的路段仿真，融合連接方式對應(yīng)主線和入口匝道交匯處，分離連接方式對應(yīng)主線與出口匝道交匯處。

圖1 元胞連接方式

根據(jù)需要仿真的快速路道路長度、出入口匝道位置、檢測器點位等信息，將元胞通過上述3種方式連接起來。由于快速路是雙向封閉的，因此在元胞建模時，需要將快速路分為兩條道路進(jìn)行仿真。

道路路段元胞劃分的規(guī)則為：

（1）元胞長度需滿足約束：元胞長度需小于或等于仿真步長和自由流速度的乘積；

（2）保證入口匝道分布在元胞的上游，出口匝道分布在元胞的下游；

（3）為充分利用微波點位數(shù)據(jù)，盡量保證一個元胞中只包含一個微波點位。

2.2 仿真器參數(shù)初始化

元胞仿真器構(gòu)建好后，需要對仿真器的參數(shù)進(jìn)行設(shè)定和初始化，其中包括仿真模型參數(shù)和交通流參數(shù)。模型參數(shù)包括仿真步長、元胞個數(shù)、元胞長度、自由流速度、最大通行能力、臨界密度、擁堵波波速、阻塞密度。交通參數(shù)包括入口匝道需求流量和出口匝道分離比以及信號燈狀態(tài)。

2.3 各入口匝道流量初始值

根據(jù)全天00：00—24：00的交通量狀況進(jìn)行時段劃分，在不同時段根據(jù)歷史交通規(guī)律設(shè)置不同的輸入需求流量，使需求流量符合一定的歷史交通規(guī)律分布，并在該分布下隨機(jī)生成輸入需求流量，模擬器的輸入流量符合全天的交通流潮汐和平峰規(guī)律。

2.4 各元胞的平均速度

道路模擬器的元胞的平均速度是由速度模型計算得到的，采用分二段的模型進(jìn)行速度計算，基本思想是用兩種不同的曲線來分別擬合自由流和擁擠流。Edie模型的自由流采用Underwood模型，如公式（2）所示：

式中：uf表示自由流速度；Km為阻塞密度。

而擁擠流采用Greenberg模型，如公式（3）所示：

式中：um表示最大交通量的速度，即最佳速度；Km為阻塞密度。

2.5 元胞的聚類

仿真器的輸入是各元胞的流量、密度、入口匝道的信號燈狀態(tài)等數(shù)據(jù)，輸出為駛?cè)牒婉偝龈髟拿芏群驮麅?nèi)平均速度。為了簡化模型，量化各信號燈的實際控制效果，將所有元胞按照與信號燈之間的距離進(jìn)行聚類，聚類的數(shù)目為入口匝道信號燈的個數(shù)。

2.6 強(qiáng)化學(xué)習(xí)模型和算法

根據(jù)搭建的仿真器，利用快速路檢測歷史數(shù)據(jù)對強(qiáng)化模型進(jìn)行訓(xùn)練。訓(xùn)練的基本流程如圖2所示。首先根據(jù)歷史檢測環(huán)境數(shù)據(jù)，計算各元胞路段在k時刻的交通運(yùn)行情況，并與k-1時刻的運(yùn)行情況進(jìn)行對比，獲得學(xué)習(xí)過程中的獎賞值。同時，計算k時刻的擁堵開始或消散情況，若元胞k時刻的交通運(yùn)行狀況判定為擁堵，則下發(fā)相應(yīng)的控制策略；否則，對強(qiáng)化學(xué)習(xí)模型中的權(quán)重參數(shù)進(jìn)行調(diào)整。

圖2 強(qiáng)化學(xué)習(xí)模型的訓(xùn)練過程

2.7 交通運(yùn)行狀態(tài)計算

本文參考《城市交通運(yùn)行狀況評價規(guī)范》（GB/T 33171—2016）關(guān)于交通運(yùn)行狀態(tài)的計算方法，通過計算各元胞在k時刻的行程時間比來判斷交通運(yùn)行狀態(tài)。各元胞在k-1時間間隔內(nèi)行程時間比TTIi,k-1計算如公式（4）所示：

式中：TTIi,k-1表示評價元胞i在k-1時間間隔內(nèi)行程時間比表示評價元胞i在k-1時間間隔內(nèi)所使用的平均行程時間；ti,k-1表示評價元胞i在k-1時間間隔內(nèi)自由流行程時間表示評價元胞i在k-1時間間隔內(nèi)所使用的平均行程速度；vi,k-1表示評價元胞i在k-1時間間隔內(nèi)自由流行速度。

特殊地，當(dāng)路段平均行程時間小于自由流行程時間時，設(shè)定TTIi,k-1=1。

通過公式（5）將聚類的各元胞路段行程時間比進(jìn)行加權(quán)平均，得到各信號燈控制的元胞道路的總行程時間比。其中，γi,k-1將元胞的路段長度和流量之積作為各評價元胞權(quán)重系數(shù)。

根據(jù)表1得到元胞路段總交通運(yùn)行指數(shù)Ck。

表1 道路網(wǎng)行程時間比和城市交通運(yùn)行指數(shù)的推薦轉(zhuǎn)換關(guān)系

2.8 獎懲值計算及擁堵狀況判定

根據(jù)元胞路段k-1時段的交通運(yùn)行指數(shù)，計算智能體k時刻的獎懲值如公式（6）所示，在路段處于中度擁堵及以上狀態(tài)時，智能體的獎勵值不斷下降。

若Ck≥1.9，Ck-1≥1.9，Ck-2＜1.9，Ck-3＜1.9，認(rèn)定k時刻擁堵開始。若Ck＜1.9，Ck-1＜1.9，Ck-2≥1.9，Ck-3≥1.9，則認(rèn)為擁堵消散，下發(fā)控制策略。本文中的控制策略是在提前預(yù)設(shè)好的多個方案中選擇其中一套，或者是將信號燈變?yōu)槌＞G狀態(tài)。

2.9 強(qiáng)化學(xué)習(xí)模型權(quán)重參數(shù)學(xué)習(xí)調(diào)整

在每一次擁堵形成到擁堵消散的緩堵周期，系統(tǒng)要根據(jù)各時間間隔k的Rk值、各時間間隔k的環(huán)境觀測量、各時間間隔k的控制策略，計算神經(jīng)網(wǎng)絡(luò)損失值，用于指導(dǎo)神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù)學(xué)習(xí)調(diào)整。損失值的計算如公式（7）所示：

式中：loss為損失值；Rk為元胞在k時刻的獎勵值；為k-1時段通過神經(jīng)網(wǎng)絡(luò)輸出的各元胞的控制策略動作向量；y為經(jīng)過歸一化后的概率向量。

得到損失值后，通過深度學(xué)習(xí)框架TensorFlow獲得強(qiáng)化學(xué)習(xí)模型中神經(jīng)網(wǎng)絡(luò)各層參數(shù)的梯度，然后更新各層的參數(shù)，完成一次學(xué)習(xí)過程。

3 實驗和結(jié)果

天津市快速路是天津市重點工程，整體長度共41 987 m。測試選取了快速路主路較擁堵的某處點位，選取某早高峰時段啟用入口匝道信號燈調(diào)節(jié)由輔道進(jìn)入主路的流量，并對測試入口下游500 m主路路段速度數(shù)據(jù)進(jìn)行分析。速度方面，開啟控制當(dāng)日，在早高峰燈控時段，該下游主路路段平均速度為47.36 km/h，較上周同期速度44.22 km/h提升7.09%；流量方面，開啟控制當(dāng)日，該下游主路路段每5 min平均車流量為540，較上周同一時段每5 min車流量460提升17.29%。

4 結(jié)語

針對目前城市快速路早晚高峰擁堵的問題，本文提出了一種基于強(qiáng)化學(xué)習(xí)的快速路入口匝道信號控制方法。通過元胞自動機(jī)建立快速路仿真器，在此基礎(chǔ)上根據(jù)歷史數(shù)據(jù)對強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練學(xué)習(xí)，模型采用交通運(yùn)行指數(shù)來計算訓(xùn)練過程中的獎勵值，并通過仿真器反饋自學(xué)習(xí)調(diào)整模型權(quán)值。實驗結(jié)果表明，測試的點位下游主線路段平均速度提升了7.09%。

在快速路發(fā)生持續(xù)擁堵時，模型的控制策略具有一定局限性，且該場景下模型獎勵值一直為負(fù)，模型的收斂速度較慢。下一步將在模型中考慮控制策略的靈活性，深入研究交通運(yùn)行狀態(tài)對模型參數(shù)的影響，進(jìn)一步優(yōu)化完善模型。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看