• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      交互協(xié)調(diào)強化學習下的城市交通信號配時決策

      2018-06-01 10:51:06夏新海XIAXinhai
      計算機工程與應用 2018年11期
      關鍵詞:交通信號車流量車流

      夏新海XIAXinhai

      廣州航海學院 港航管理學院,廣州 510725

      School of Port and Shipping Management,Guangzhou Maritime University,Guangzhou 510725,China

      1 引言

      目前城市路網(wǎng)交通擁擠問題日益突出,而作為城市道路交通管理的核心部分,城市交通信號配時決策是實現(xiàn)城市道路交通流有效運行的重要保障[1]。城市路網(wǎng)中各交叉口處的交通流是相互關聯(lián)和影響的(特別是在較高飽和度交通條件下)。因此為了更有效地進行城市交通的交通信號配時決策,有必要引入?yún)f(xié)調(diào)機制。

      國外強化學習在城市交通自適應交通信號配時決策中應用研究取得重要進展。文獻[2-5]分別應用多目標混合多agent強化學習、基于細胞傳輸模型的強化學習、基于tile coding的Q-強化學習、基于節(jié)點樹的多agent強化學習來進行城市路網(wǎng)交通協(xié)調(diào)控制,但未深入引入直接交互機制。Mannion P[6-7]提出將啟發(fā)式預見性建議及并行計算融入到強化學習來進行交叉口的交通信號配時決策,但還存在計算復雜性的問題,并且強調(diào)各個交叉口之間的獨立學習。雖然Arel I[8]、Medina J C[9]進行的自適應交通信號配時決策研究中分別考慮了相鄰交叉口的狀態(tài)、相對交通量、延誤、擁擠水平等信息,但是這些方法沒有包含任何外在的協(xié)調(diào)機制。Alvarez I[10]、Clempnera J B[11]利用馬爾科夫決策過程為交叉口交通信號配時決策進行建模,但未融入強化學習。Darmoul S,Elkosantini S,Louati A等[12]在分層多agent系統(tǒng)框架下,通過與相鄰交叉口直接通訊和協(xié)調(diào),其應用免疫網(wǎng)絡算法獲取交通擾動相關知識。

      國內(nèi)學者也已經(jīng)意識到自適應交通信號配時決策中協(xié)調(diào)機制研究的重要性,取得了可喜的成果。首艷芳、徐健閩[13]通過引入群體動力學來進行交叉口群協(xié)調(diào)控制機制研究,但未結合強化學習研究。閆飛、田福禮、史忠科[14]研究了城市區(qū)域交通信號迭代學習控制策略,但未引入?yún)f(xié)調(diào)機制。戈軍、周蓮英[15]提出了一種基于SARSA(λ)的實時交通信號控制模型和算法,但沒有考慮相鄰交叉口的關聯(lián)性。Li Li[16]通過建立深度神經(jīng)網(wǎng)絡來學習強化學習的Q函數(shù),但也未考慮與相鄰交叉口的交通信號配時決策的協(xié)調(diào)。

      綜上所述,目前對于自適應交通信號配時決策中應用強化學習存在如下問題:

      (1)城市交叉口自適應交通信號配時決策中強化學習與協(xié)調(diào)機制結合研究還不夠深入。先前大部分的研究主要考慮獨立強化學習,雖然少數(shù)學者考慮了兩級協(xié)調(diào),但協(xié)調(diào)機制不夠深入。(2)維數(shù)災難問題。雖然目前存在多agent強化學習方法,但遭遇維數(shù)災難問題,需要每個agent觀察整個系統(tǒng)的狀態(tài),這在運輸網(wǎng)絡情況下是不可行的。本文在設計城市交通信號配時決策的獨立Q-強化學習算法的基礎上,通過引入交互協(xié)調(diào)機制進行拓展,并通過仿真實驗分析其有效性和收斂性。

      2 基于獨立Q-強化學習的交叉口交通信號配時決策算法

      Q強化學習是Watkins于1989年提出,是強化學習算法中應用最為廣泛的并最有效的一種方法,其基本原理見文獻[17]。下面在Q-學習算法的基礎上構建面向自適應交通信號控制的獨立強化學習算法。

      (1)交叉口交通狀態(tài)空間S

      選擇信號周期C、各相位的綠燈時間gi作為狀態(tài)變量,以四相位交叉口為例,其相位為{東西直行右轉(zhuǎn),東西左轉(zhuǎn),南北直行右轉(zhuǎn),南北左轉(zhuǎn)},則S=(C,g1,g2,g3,g4)。

      (2)交叉口信號控制動作集A

      針對交叉口的交通狀態(tài),以固定配時方案為初始方案,通過調(diào)整各相位的綠燈時間,形成對應的信號控制動作集。以4個相位控制的交叉口為例,設Δgi為第i相位的綠燈時間調(diào)整量,各個相位均可采取三種動作,分別是增加綠燈時間2 s,保持不變,減少綠燈時間2 s,即 Δgi={+2 s,0 s,-2 s},則 A={(g1+Δg1,g2+Δg2,g3+Δg3,g4+Δg4)},并且A是離散的、有限的。

      (3)獎懲函數(shù)r(s,a)

      這里,獎懲函數(shù)采用消極回報,即行為的車均延誤越大,得到的回報r(s,a)越大,則懲罰越大。根據(jù)周期時間的車均延誤與周期時間的比率來建立r(s,a)。

      其中rt(s,a)為在狀態(tài)s下,時間步t采取行為a所獲得的獎勵;dtk為時間步t對應的行為集A采取行為a的周期時間車均延誤;dt0為每一時間步t起始方案產(chǎn)生的周期時間車均延誤;C0、Ck分別為變化前后的周期時長。

      (4)算法流程

      根據(jù)以上分析,設計算法如下:

      ①設置學習因子αt、折扣系數(shù)γ;

      ②令t=0,將所有的Q0(s0,a0)設為固定配時方案的車均延誤;

      ③重復每一時間步;

      ④選取初始狀態(tài)s0;

      ⑤根據(jù)策略,從狀態(tài)s0對應的行為集A選擇一個行為at+1;

      ⑥執(zhí)行行為at+1,計算即時回報rt+1(見式(1)),轉(zhuǎn)到下一狀態(tài)st+1;

      ⑦這里以車均延誤最小為目標,使得Q值最小,采用下式更新Q函數(shù):

      ⑧ s←st+1,t←t+1;

      ⑨直到Q值由小變大,終止學習,否則返回③。

      3 引入?yún)f(xié)調(diào)機制的強化學習算法設計

      本文第2章介紹的獨立強化學習算法中,交叉口交通信號控制agent在利用其局部狀態(tài)和局部行動及方程(2)進行獨立學習和決策時,遭遇維數(shù)災難問題,即狀態(tài)空間隨著交叉口個數(shù)增加呈指數(shù)增長,因此引入直接交互機制,相鄰交叉口交通信號控制agent間直接交換配時動作和狀態(tài),對獨立Q-強化學習算法進行擴展,從而提高相鄰交叉口間的交通信號協(xié)調(diào)配時決策的效率并增強其有效性。

      3.1 算法基本思想

      (1)交叉口交通信號控制agent間的交互

      每個交叉口交通信號控制agent在進行本交叉口局部交通信號配時決策時均受到其他交叉口特別是相鄰交叉口局部交通信號配時決策的影響,因此交叉口交通信號控制agent間需要進行狀態(tài)和動作等信息的交互,交互過程見圖1,此交互環(huán)境屬于離散動態(tài)交互。

      (2)算法基本思想

      交叉口交通信號控制agenti從隨機局部動作(a*0i)開始,并與相鄰交叉口交通信號控制agenti交換動作和狀態(tài)。對任意 j∈{1,2,…,|NBi|},交叉口交通信號控制agenti通過更新Q-值來學習同其相鄰的交叉口交通信號控制agentj的相應(i,j)的最優(yōu)聯(lián)合動作。根據(jù)當前動作集給定相鄰交叉口交通信號控制agent的動作,每一交叉口交通信號控制agent利用下一狀態(tài)應當采取的動作的值來更新Q-值。

      圖1 交叉口交通信號控制agent間的交互過程

      3.2 算法流程設計

      根據(jù)上述思路構建的基于交互協(xié)調(diào)機制的強化學習算法流程如下:

      (1)初始化:對每一交叉口交通信號控制agenti,i∈{1,2,…,N},及每一相鄰交叉口 j∈{1,2,…,|NBi|},初始化,,,。

      (2)對于每一時間步k,及每一交叉口交通信號控制agenti,i∈{1,2,…,N},廣播當前動作。

      (3)每一相鄰交叉口 j∈{1,2,…,|NBi|},接收動作。

      (4)觀察,及。

      (5)更新αk。

      (6)更新Qi,j。

      (7)更新并確定。

      3.3 交互協(xié)調(diào)學習中動作選擇

      交互協(xié)調(diào)學習中動作的選擇是關鍵。在基于交互協(xié)調(diào)的強化學習方法中,交叉口交通信號控制agenti通過與相鄰交叉口交通信號控制agentj進行直接交換策略來產(chǎn)生下一個配時動作。交叉口交通信號控制agenti根據(jù)當前配時動作以及接收到的相鄰交叉口交通信號控制agentj的動作計算其相對于相鄰交叉口交通信號控制agentj的效用Uc和最優(yōu)反應策略的效用Ubr,見式(3)和式(4)。差值 (Ubr-Uc)表示一個收益值,這里稱為交互點Gain(i),見式(5)。交互點值反映交叉口交通信號控制agent間決定是否進行交互的閾值。

      交叉口交通信號控制agenti將其交互點值告知給相鄰交叉口交通信號控制agentj并接收到它們的交互點值。如果當前周期交叉口交通信號控制agenti的交互點值比所有從相鄰交叉口交通信號控制agentj獲得的交互點值都大,即當Gain(i)≥Gain(j),交叉口交通信號控制agenti就會將此配時動作更新為最優(yōu)配時動作,見式(6),并告知給相鄰交叉口交通信號控制agentj。

      此過程一直重復直到所有相鄰的交叉口交通信號控制agentj改變它們的配時動作為止。

      4 仿真分析

      4.1 問題描述

      以圖2路網(wǎng)為例來進行交叉口間交通信號協(xié)調(diào)配時決策分析。車道長度452 m,東西為主干道方向,自由車流速度50 km/h,南北向車流量qNS1=qSN1=705輛/h,qNS2=qSN2=903輛/h,qNS3=qSN3=902輛/h。

      圖2 分析用到的路網(wǎng)

      對于基于獨立Q-強化學習的交通信號協(xié)調(diào)控制算法,其每一交叉口交通信號控制agent采用Q-學習算法時,僅僅考慮其局部狀態(tài)和動作,其需要協(xié)調(diào)的車流方向由控制中心決定,僅當位于干道的檢測器檢測到一個確定的交通模式才予以改變。以東西主干道為例,如果協(xié)調(diào)的車流為東向西方向車流(qEW),圖2中東向西方向車道上行駛的車輛期望不停車地通過干道。如果協(xié)調(diào)的車流為西向東車流(qWE),圖2中西向東車道上行駛的車輛獲得優(yōu)先權。為了簡單起見,設東向西方向的車流量更大,控制中心最初決定這個方向的所有交通信號的協(xié)調(diào)。

      4.2 方法有效性分析

      4.2.1 車道車流密度分析

      采用車道平均車流密度作為性能指標,其代表車輛的空間密集度。為了減少學習的狀態(tài)空間,降低計算復雜度,對于車流密度按定性信息處理,不同交通狀態(tài)對應的交通密度值的定性描述見表1。

      表1 不同交通狀態(tài)對應的交通密度值的定性描述

      對三種交通情況進行分析,以東西方向為例,對于情況(1),一個方向的車流量明顯大于另一個方向的車流量;對于情況(2),兩個方向車流量均為中等大??;對于情況(3),兩個方向車流量中等偏低,仿真分析結果見表2。

      (1)東向西車流量(qEW)明顯比西向東車流量(qWE)大。qEW=1 088輛/h,qWE=170輛/h,其車流量分別對應于表1中的密度區(qū)間D-4和D-2。

      基于獨立強化學習的交通信號控制方法運行的效果比較好,這是因為一個方向的車流量總比反方向的車流量大,從而使得基于交互協(xié)調(diào)機制的強化學習方法的優(yōu)勢沒有得到充分發(fā)揮。將利用獨立強化學習和基于協(xié)調(diào)機制的強化學習方法分別獲得的東向西車道的密度區(qū)間進行比較,可以發(fā)現(xiàn)獨立強化學習得到的密度區(qū)間與基于協(xié)調(diào)機制的強化學習的相同,或者低一個區(qū)間。例如,對于車道3→2的平均密度,在獨立強化學習下是D-4,而在基于協(xié)調(diào)機制的強化學習下是D-5。

      由于西向東的交通流流量qWE低,無論是獨立強化學習還是基于協(xié)調(diào)機制的強化學習都不可能對協(xié)調(diào)的性能進行干擾。這是因為在仿真運行過程中,西向東的交通流從來沒有要求優(yōu)先權。

      (2)東西兩個方向車流量均為中等大小。qEW=1 088輛/h,qWE=332輛/h,兩者都對應于表1中密度區(qū)間D-4。

      由于兩個方向都表現(xiàn)為交通擁擠,交叉口交通信號控制agent必須處理兩個方向的交通協(xié)調(diào)的競爭。因此,此時基于協(xié)調(diào)機制的強化學習更能體現(xiàn)其自適應性。然而,基于協(xié)調(diào)機制的強化學習具有優(yōu)越性不僅僅是因為它能夠處理交叉口的局部交通變化,而且還因為在這種方法下干道的總的通行能力增加了。

      就東向西車道而言,基于協(xié)調(diào)機制的強化學習的性能與獨立強化學習的性能相比,兩者相同或者前者要更優(yōu)一個密度區(qū)間。當比較西向東方向的車道時,基于協(xié)調(diào)機制的強化學習的交通信號控制性能明顯地優(yōu)于獨立強化學習的交通信號控制方法。這是因為獨立強化學習方法未能給予交叉口的水平方向優(yōu)先權,也就意味著協(xié)調(diào)的解除。在另一方面,基于協(xié)調(diào)機制的強化學習允許交叉口交通信號控制agent在必要情況下改變協(xié)調(diào)。

      (3)相反兩個方向都具有中等偏低車流量。東向西的車流密度對應區(qū)間為D-1,而西向東車流密度對應區(qū)間為D-2。雖然兩個方向的車流量僅僅是微小變化,但基于協(xié)調(diào)機制的強化學習的也比獨立強化學習運行效果更好。這是由于車流在兩個方向相對偏小,交通流量相對自由地經(jīng)過干道,并且交叉口局部交通狀態(tài)變化不大。

      綜合上述(1)~(3)三種情況可以看到,當一個方向車流量明顯高于相反方向車流量的穩(wěn)定情況下,由于很少或者沒有交通沖突發(fā)生,獨立強化學習方法運行效果更好(見情況(1))。然而,當相反兩個方向的車流量幾乎相等的情景下,相對于基于協(xié)調(diào)機制的強化學習來說獨立強化學習方法運行效果較差。這是因為,基于協(xié)調(diào)機制的強化學習方法具有一定的自適應能力,能夠在很短時間內(nèi)處理交叉口局部交通變化,并且能允許交叉口交通信號控制agent在一定條件下改變協(xié)調(diào)。因此當比較干道的每一個車道的平均密度時,基于協(xié)調(diào)機制的強化學習的交通信號控制被證明更加有效。

      表2 獨立強化學習和基于協(xié)調(diào)機制的強化學習車道車流密度分析

      4.2.2 路網(wǎng)系統(tǒng)的性能分析

      以整個路網(wǎng)系統(tǒng)的車均延誤和總等待排隊長度為性能指標,在上述車流情況(2)下,即東西兩個方向都獲得一個中等大小車流量時候,比較固定配時、最大排隊優(yōu)先[18]、獨立強化學習、協(xié)調(diào)強化學習四種方法的性能,仿真運行結果見圖3及圖4。其中固定配時東西主干道綠燈時間設置為70 s,支線方向綠燈時間設置為40 s??偟膩碚f車均延誤、總等待排隊長度均小于其他三種算法。經(jīng)過近1 000次迭代運行后,其他三種算法性能明顯下降,于是容易產(chǎn)生交通擁擠問題。此仿真結果表明基于協(xié)調(diào)機制的強化學習算法由于考慮相鄰交叉口的信號交互,能有效解決城市交通擁擠問題。

      圖3 路網(wǎng)系統(tǒng)車均延誤

      圖4 路網(wǎng)總等待排隊長度

      4.3 收斂性分析

      收斂性分析能對算法的可靠性進行評價。圖5給出了仿真過程中,三個交叉口的交通信號控制agent的交互點Gain值的變化。由于路徑定義的車流量不同,路網(wǎng)中三個交叉口交通信號控制agent的交互點Gain的行為是不同的。隨著仿真的運行,交互點值的曲線出現(xiàn)一些波動,這是由每一交叉口交通信號控制agent的決策過程決定的。當交叉口交通信號控制agent間決定合作時,交互點值減少;但當決定不合作時,交互點值增加??偟膩碚f,運行2 000步后,交互點值趨向穩(wěn)定。

      圖5 交互點值隨時間變化曲線

      對基于協(xié)調(diào)的強化學習算法和獨立強化學習進行2 000次運行后,表3給出基于協(xié)調(diào)的強化學習算法和獨立強化學習在兩個方向(東向西和西向東方向)都獲得一個大致相同車流量情況下的計算時間和收斂速度。相對于獨立強化學習方法,基于協(xié)調(diào)的強化學習算法始終加快收斂速度。每一交叉口交通信號控制agent進行獨立學習時,每一個交通信號控制agent面臨著一個運動目標學習問題,即此交通信號控制agent的最優(yōu)策略的變化受到其他交通信號控制agent的策略的影響。交通需求水平越高,由于交叉口交通信號控制agent之間進行直接交互,基于協(xié)調(diào)的強化學習算法收斂加速性能越好。通過表3可以看出基于獨立的強化學習方法收斂速度更慢,需要更多的計算時間。

      表3 計算時間和收斂速度

      5 結語

      設計了交叉口交通信號進行控制的獨立強化學習算法。在此基礎上,通過引入交互協(xié)調(diào)機制對獨立強化學習算法進行拓展,即相鄰交叉口交通信號控制agent間直接交換狀態(tài)、配時動作和交互點值,解決獨立強化學習算法存在的維數(shù)災難問題。通過仿真實驗分析,當相反兩個方向的車流量幾乎相等時,基于交互協(xié)調(diào)的強化學習的控制效果明顯優(yōu)于獨立強化學習算法,協(xié)調(diào)更有效,并且基于交互協(xié)調(diào)機制的強化學習算法能加快收斂速度。交通需求水平越高,基于協(xié)調(diào)機制的強化學習算法收斂加速性能越好。本研究為將多agent強化學習應用于干線和區(qū)域自適應交通信號控制奠定理論基礎。

      參考文獻:

      [1]Han Ke,Sun Yuqi,Liu Hongcheng,et al.A bi-level model of dynamic traffic signal control with continuum approximation[J].Transportation Research Part C:Emerging Technologies,2015,55:409-431.

      [2]Khamis M A,Gomaa W.Adaptive multi-objective reinforcement learning with hybrid exploration for traffic signal control based on cooperative multi-agent framework[J].Engineering Applications of Artificial Intelligence,2014,29:134-151.

      [3]Chanloha P,Chinrungrueng J,Usaha W,et al.Traffic signal control with cell transmission model using reinforcement learning for total delay minimisation[J].International Journal of Computers Communications&Control,2015,10(5):627-642.

      [4]Abdoos M,Mozayani N,Bazzan A L C.Hierarchical control of traffic signals using Q-learning with tile coding[J].Applied Intelligence,2014,40(2):201-213.

      [5]Zhu F,Aziz H M A,Qian X,et al.A junction-tree based learning algorithm to optimize network wide traffic control:A coordinated multi-agentframework[J].Transportation Research Part C Emerging Technologies,2015,1:1-33.

      [6]Mannion P,Duggan J,Howley E.Learning traffic signal control with advice[C]//Proceedings of the Adaptive and Learning Agents Workshop,2015.

      [7]Mannion P,Duggan J,Howley E.Parallel reinforcement learning for traffic signal control[J].Procedia Computer Science,2015:956-961.

      [8]Arel I,Liu C,Urbanik T,et al.Reinforcement learningbased multi-agent system for network traffic signal control[J].IET Intelligent Transport Systems,2010,4(2):128-135.

      [9]Medina J C,Benekohal R F.Q-learning and approximate dynamic programming for traffic control—A case study for an oversaturated network[C]//Transportation Research Board 91st Annual Meeting.Washington DC:Transportation Research Board,2012.

      [10]Alvarez I,Poznyak A,Malo A.Urban traffic control problem a game theory approach[C]//Proceedings of the 47th IEEE Conference on Decision and Control,2008:2168-2172.

      [11]Clempnera J B,Poznyakb A S.Modeling the multi-traffic signal-control synchronization:A Markov chains game theory approach[J].Engineering Applications of Artificial Intelligence,2015,43(8):147-156.

      [12]Darmoul S,Elkosantini S,Louati A,et al.Multi-agent immune networks to control interrupted flow at signalized intersections[J].Transportation Research Part C Emerging Technologies,2017,82:290-313.

      [13]首艷芳,徐建閩.基于群體動力學的協(xié)調(diào)控制子區(qū)劃分[J].華南理工大學學報:自然科學版,2013(4):77-82.

      [14]閆飛,田福禮,史忠科.城市區(qū)域交通信號迭代學習控制策略[J].控制與決策,2015(5):71-75.

      [15]戈軍,周蓮英.基于SARSA(λ)的實時交通信號控制模型[J].計算機工程與應用,2015,51(24):244-248.

      [16]Li Li,Lv Yisheng,Wang Feiyue.Traffic signal timing via deep reinforcement learning[J].IEEE/CAA Journal of Automatica Sinica,2016,3(3):247-254.

      [17]Watkins C.Q-learning[J].Machine Learning,1992,8(3):279-292.

      [18]Wunderlich R,Liu C,Elhanany I,et al.A novel signalscheduling algorithm with quality-of-service provisioning for an isolated intersection[J].IEEE Transactions on Intelligent Transportation Systems,2008,9(3):536-547.

      猜你喜歡
      交通信號車流量車流
      《車流》
      工會博覽(2022年33期)2023-01-12 08:52:32
      《城市軌道交通信號圖冊》正式出版
      道路躁動
      揚子江(2019年3期)2019-05-24 14:23:10
      《城市軌道交通信號設備》正式出版
      城市軌道交通信號設備監(jiān)測技術探討
      交通信號智能指揮模型
      隨機車流下公路鋼橋疲勞可靠度分析
      參考答案
      高速公路重大節(jié)假日免費車流量金額算法研究與應用
      一種新型多車道車流量檢測算法
      電視技術(2014年19期)2014-03-11 15:38:21
      耿马| 叙永县| 淮南市| 白玉县| 沈丘县| 泗洪县| 定州市| 武邑县| 内黄县| 呼伦贝尔市| 象山县| 莱西市| 平度市| 林甸县| 北流市| 伊金霍洛旗| 新干县| 曲靖市| 安庆市| 吉隆县| 南和县| 全南县| 东安县| 江油市| 兰坪| 灵丘县| 安吉县| 会同县| 华坪县| 临洮县| 定兴县| 江城| 盐边县| 弥勒县| 芦山县| 方城县| 光山县| 山西省| 金堂县| 新化县| 昭平县|