• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于強(qiáng)化學(xué)習(xí)的交通燈控制與車(chē)輛誘導(dǎo)算法

      2017-05-11 17:33:18趙佳文喬春凱
      科技創(chuàng)新與應(yīng)用 2017年1期

      趙佳文++喬春凱

      摘 要:城市交通控制的核心是由交通燈控制系統(tǒng)和車(chē)輛誘導(dǎo)系統(tǒng)兩部分組成,實(shí)現(xiàn)在空間上對(duì)交通流進(jìn)行分流和在時(shí)間上對(duì)交通燈進(jìn)行動(dòng)態(tài)配時(shí)。文章設(shè)計(jì)基于Q學(xué)習(xí)的交通燈控制算法和基于Sarsa學(xué)習(xí)的車(chē)輛誘導(dǎo)算法,從對(duì)系統(tǒng)整體性能的角度出發(fā)利用協(xié)同控制策略,更好地解決城市道路交通擁堵問(wèn)題。

      關(guān)鍵詞:交通燈控制;車(chē)輛誘導(dǎo);Q學(xué)習(xí);Sarsa學(xué)習(xí)

      引言

      針對(duì)我國(guó)城市道路交通的現(xiàn)狀,在交通燈控制系統(tǒng)和車(chē)輛誘導(dǎo)系統(tǒng)獨(dú)立實(shí)施的基礎(chǔ)上,以交通道路信息的協(xié)同為基礎(chǔ),從協(xié)同模式著手。

      越來(lái)越多的學(xué)者致力于智能交通系統(tǒng)的研究,提出很多交通控制策略。Bell等人提出的交通燈控制與車(chē)輛誘導(dǎo)協(xié)同模型有低水平的數(shù)據(jù)共享方式、高層次的策略交互方式,主要考慮了數(shù)據(jù)信息的共享[1]。孫建平等人在基于A(yíng)gent的理論上提出交通燈控制與車(chē)輛誘導(dǎo)協(xié)同模型,并對(duì)基于知識(shí)模型的多智能體交通控制進(jìn)行研究[2];龔 等人在對(duì)交通燈控制和車(chē)輛誘導(dǎo)分別進(jìn)行研究的基礎(chǔ)上,提出了融合算法來(lái)提高兩系統(tǒng)之間的協(xié)同效果,從而提高了交通系統(tǒng)的性能[3]。Mirchandani等人設(shè)計(jì)研究了交通燈控制與車(chē)輛誘導(dǎo)偏重式控制系統(tǒng),兩個(gè)系統(tǒng)在數(shù)據(jù)和策略實(shí)施上都進(jìn)行協(xié)同控制,更好的利用交通信息[4]。

      在實(shí)際的交通控制策略中,交通燈控制策略和車(chē)輛誘導(dǎo)策略在信息產(chǎn)生、數(shù)據(jù)處理和策略實(shí)施等多個(gè)方面應(yīng)相互協(xié)同。交通控制系統(tǒng)主要采用的基于Q學(xué)習(xí)的交通燈控制算法和基于Sarsa學(xué)習(xí)的車(chē)輛誘導(dǎo)算法來(lái)提升整體的交通控制系統(tǒng)的性能。

      1 問(wèn)題分析

      1.1 多智能體

      多智能體系統(tǒng)(MAS,Multi-Agent-System)是多個(gè)智能體組成的集合,它的目標(biāo)是將大而復(fù)雜的系統(tǒng)建設(shè)成小的、彼此互相通信和協(xié)調(diào)的,易于管理的系統(tǒng)。

      1.2 強(qiáng)化學(xué)習(xí)

      強(qiáng)化學(xué)習(xí)過(guò)程中Agent判斷當(dāng)前狀態(tài),選擇一個(gè)動(dòng)作作用于環(huán)境,環(huán)境在動(dòng)作的影響下發(fā)生變化,并反饋給Agent一個(gè)獎(jiǎng)懲值,Agent根據(jù)獎(jiǎng)懲值進(jìn)行下一個(gè)動(dòng)作的選擇,即Agent通過(guò)不斷試錯(cuò)與環(huán)境進(jìn)行交互獲得信息。

      2 基于Q學(xué)習(xí)的交通燈控制策略

      本文設(shè)計(jì)一種基于Q學(xué)習(xí)的自適應(yīng)交通燈控制策略。每個(gè)交通燈作為Q學(xué)習(xí)的Agent,Agent根據(jù)交叉口車(chē)道上車(chē)輛飽和度選擇交通燈綠燈時(shí)間作為Agent的動(dòng)作,車(chē)輛在交叉口處車(chē)道上的平均行駛時(shí)間作為Q學(xué)習(xí)的回報(bào)函數(shù)值。學(xué)習(xí)系統(tǒng)與環(huán)境不斷的交互,獲得反饋值并調(diào)整狀態(tài)到動(dòng)作的映射策略。

      Q學(xué)習(xí)更新公式如下所示:

      式中,參數(shù)?琢是學(xué)習(xí)率,參數(shù)?酌是折扣率,R(s,a)即為動(dòng)作a作用于環(huán)境的反饋值。Q(s,a)為R(s,a)的累積值。Agent將根據(jù)系統(tǒng)的反饋值來(lái)進(jìn)行Q(s,a)的更新。

      2.1 狀態(tài)描述

      交通環(huán)境中的狀態(tài)一般是連續(xù)的,但強(qiáng)化學(xué)習(xí)卻是應(yīng)用在離散空間下的求解,所以需要把交叉口狀態(tài)進(jìn)行離散化。本文在離散化過(guò)程中,把0到1的之間的車(chē)輛飽和度合理的離散化為四個(gè)等級(jí)。

      根據(jù)交叉口各方向車(chē)道的車(chē)輛飽和度進(jìn)行描述,對(duì)于有n個(gè)方向交叉口,其狀態(tài)描述為s(d1,d2,kdn),其狀態(tài)空間即為4n。其中,di表示第i個(gè)入口車(chē)道的車(chē)輛飽和度。

      2.2 動(dòng)作選擇

      本文使用Boltzmann策略進(jìn)行動(dòng)作選擇,公式如下所示:

      式中,A為交通燈的動(dòng)作集合,p[a|s]為交通燈在狀態(tài)s選擇動(dòng)作a的概率。?子為溫控參數(shù),溫控參數(shù)越大,不同Q值對(duì)應(yīng)的動(dòng)作選擇概率就越相近;溫控參數(shù)越小,Boltzman策略與貪婪策略越相似。

      3 基于Sarsa學(xué)習(xí)的車(chē)輛誘導(dǎo)策略

      本文設(shè)計(jì)基于Sarsa學(xué)習(xí)的車(chē)輛誘導(dǎo)策略。交通路網(wǎng)中的車(chē)輛是Sarsa學(xué)習(xí)的Agent,Agent利用Sarsa學(xué)習(xí)過(guò)程指導(dǎo)車(chē)輛進(jìn)行動(dòng)作選擇,即選擇下一條車(chē)道,Sarsa學(xué)習(xí)算法與環(huán)境交互的回報(bào)函數(shù)值為車(chē)輛在車(chē)道上的行駛時(shí)間。自學(xué)習(xí)系統(tǒng)不斷的與環(huán)境進(jìn)行交互,獲得反饋信息,從而修改狀態(tài)動(dòng)作之間的映射。

      Sarsa算法的更新公式如下所示:

      式中,參數(shù)?琢是學(xué)習(xí)率,參數(shù)?酌是折扣率,Qd(s,k)是車(chē)輛從節(jié)點(diǎn)s出發(fā)經(jīng)過(guò)節(jié)點(diǎn)k到達(dá)終節(jié)點(diǎn)d的期望行駛時(shí)間。tsk即為Agent的動(dòng)作作用于環(huán)境的反饋值。Qd(s,k)的環(huán)境反饋值的累積值,Agent將根據(jù)環(huán)境實(shí)時(shí)的反饋值和歷史的數(shù)據(jù)信息來(lái)進(jìn)行Qd(s,k)的更新。

      3.1 狀態(tài)描述

      在對(duì)車(chē)輛進(jìn)行誘導(dǎo)時(shí),首選確定Agent的狀態(tài),才能獲得更好的誘導(dǎo)模式。決定車(chē)輛Agent狀態(tài)的參數(shù)主要有車(chē)輛所在的車(chē)道和車(chē)輛所在的交叉口。因?yàn)楸疚闹熊?chē)輛的終點(diǎn)是某個(gè)信息節(jié)點(diǎn),所以把車(chē)輛所在的交叉口定義為車(chē)輛Agent的狀態(tài)。如果把車(chē)輛所在的車(chē)道定義為車(chē)輛Agent的狀態(tài),這么多狀態(tài)如果都進(jìn)行考慮,那么狀態(tài)空間會(huì)十分巨大,將會(huì)增大Sarsa學(xué)習(xí)算法的收斂難度。

      3.2 動(dòng)作選擇

      本文使用Boltzmann策略進(jìn)行動(dòng)作選擇,公式如下:

      式中,A為車(chē)輛的動(dòng)作集合,p[a|s]為車(chē)輛在狀態(tài)s選擇動(dòng)作a的

      概率,?子為溫控參數(shù)。

      4 基于強(qiáng)化學(xué)習(xí)的交通燈控制與車(chē)輛誘導(dǎo)協(xié)同策略

      交通燈控制與車(chē)輛誘導(dǎo)協(xié)同問(wèn)題實(shí)際上就是控制與交通流分配的協(xié)同問(wèn)題,因此系統(tǒng)模型實(shí)際上就是交通燈控制模型與車(chē)輛誘導(dǎo)模型的協(xié)同模型。本文采用偏重交通燈控制方式的協(xié)同模型。

      4.1 偏重交通燈控制方式

      在偏重式協(xié)同下,交通燈控制系統(tǒng)和車(chē)輛誘導(dǎo)系統(tǒng)不是平等的關(guān)系,而是主從關(guān)系。以交通燈控制系統(tǒng)為主導(dǎo)系統(tǒng)的協(xié)同控制方式,就是偏重交通燈控制方式。

      假設(shè)交通燈控制系統(tǒng)的優(yōu)化函數(shù)為C,保證交叉口處車(chē)輛延誤時(shí)間最?。卉?chē)輛誘導(dǎo)系統(tǒng)的優(yōu)化函數(shù)為U,保證車(chē)道上車(chē)輛的行駛時(shí)間最小。

      偏重交通燈控制方式:

      R=arg(P)交通燈控制目標(biāo)函數(shù)最優(yōu);

      s.t f(x)∈U車(chē)輛誘導(dǎo)目標(biāo)函數(shù)最優(yōu)。

      在偏重交通燈控制方式中,交通燈控制系統(tǒng)是保證交叉口的延誤時(shí)間最小,緩解交叉口的擁堵現(xiàn)象。車(chē)輛誘導(dǎo)系統(tǒng)是保證車(chē)道上車(chē)輛的行駛時(shí)間最小,進(jìn)行動(dòng)態(tài)的交通流分配。從整體系統(tǒng)性能的角度出發(fā),協(xié)同控制下可以更好的確保行程時(shí)間的最小。

      4.2 交通燈控制與車(chē)輛誘導(dǎo)協(xié)同模型

      本文主要是以交通燈控制系統(tǒng)為主導(dǎo)系統(tǒng)的協(xié)同控制,車(chē)輛誘導(dǎo)系統(tǒng)每次更新過(guò)程后產(chǎn)生新的車(chē)輛控制方案時(shí)都會(huì)實(shí)時(shí)的報(bào)告給交通燈控制系統(tǒng),從而減少車(chē)輛到達(dá)目標(biāo)地點(diǎn)的行程時(shí)間。

      車(chē)輛的行程時(shí)間包括車(chē)輛在車(chē)道上行駛時(shí)間和交叉口處的延誤時(shí)間,行駛時(shí)間是由基于Sarsa學(xué)習(xí)的車(chē)輛誘導(dǎo)策略中所決定,而延誤時(shí)間主要取決于基于Q學(xué)習(xí)的交通燈控制策略。交通燈控制與車(chē)輛誘導(dǎo)的協(xié)同公式:

      式中,C(x,t)為車(chē)輛到達(dá)終節(jié)點(diǎn)的行程時(shí)間。T(r)為車(chē)輛誘導(dǎo)系統(tǒng)決定的車(chē)輛行駛時(shí)間,T(q)為由交通燈控制系統(tǒng)決定的車(chē)輛延遲時(shí)間。車(chē)輛誘導(dǎo)系統(tǒng)和交通燈控制系統(tǒng)的偏重式協(xié)同過(guò)程,如圖1所示。

      在交通燈控制系統(tǒng)中每個(gè)交通燈agent之間協(xié)同,優(yōu)化交通燈的配時(shí)。在車(chē)輛誘導(dǎo)系統(tǒng)中,車(chē)輛agent相互協(xié)同,優(yōu)化車(chē)輛路徑選擇。車(chē)輛的行駛時(shí)間和通過(guò)交通燈是的延誤時(shí)間分別受兩個(gè)系統(tǒng)影響。交通燈控制系統(tǒng)所決定的策略依賴(lài)于車(chē)輛誘導(dǎo)系統(tǒng)更新過(guò)程后產(chǎn)生新的車(chē)輛控制方案進(jìn)行制定,從而提高了整個(gè)交通系統(tǒng)的性能。

      5 仿真實(shí)驗(yàn)及結(jié)果分析

      5.1 實(shí)驗(yàn)環(huán)境

      為了驗(yàn)證本文提出的交通控制策略的有效性和正確性,通過(guò)開(kāi)源軟件SUMO仿真器[5]在如圖2所示路網(wǎng)上進(jìn)行仿真和實(shí)驗(yàn),通過(guò)java語(yǔ)言實(shí)現(xiàn),路網(wǎng)是美國(guó)佛蒙特州的部分路段。

      5.2 仿真設(shè)置

      仿真中設(shè)置的參數(shù)均為在進(jìn)行多次試驗(yàn)后所得到的經(jīng)驗(yàn)值,其中,交通燈控制策略中的Q學(xué)習(xí)的學(xué)習(xí)率?琢為0.7,折扣率?茁為0.9,交通燈Agent動(dòng)作選擇策略中?子設(shè)為0.2。車(chē)輛誘導(dǎo)策略中的Sarsa學(xué)習(xí)的學(xué)習(xí)率?琢為0.7,折扣率?茁為0.8。在仿真實(shí)驗(yàn)中,仿真器的時(shí)間步與現(xiàn)實(shí)生活中的時(shí)間秒數(shù)相對(duì)應(yīng),總的仿真器時(shí)間設(shè)為15000。

      5.3 基于強(qiáng)化學(xué)習(xí)的交通燈控制與車(chē)輛誘導(dǎo)算法

      從系統(tǒng)整體性能的角度出發(fā),利用基于Sarsa學(xué)習(xí)的車(chē)輛誘導(dǎo)策略(SVIS)對(duì)基于最短路徑的車(chē)輛誘導(dǎo)系統(tǒng)的性能進(jìn)行提升,利用常見(jiàn)的Dijkstra算法的作為最短路徑算法(DVIS)。

      本實(shí)驗(yàn)中,交通燈控制系統(tǒng)采用基于Q學(xué)習(xí)的交通燈控制策略(QTGCS)通燈進(jìn)行動(dòng)態(tài)配時(shí)。而交通燈控制系統(tǒng)的附屬系統(tǒng)車(chē)輛誘導(dǎo)系統(tǒng)由基于最短路徑的車(chē)輛誘導(dǎo)策略轉(zhuǎn)變?yōu)榛赟arsa學(xué)習(xí)的車(chē)輛誘導(dǎo)策略,并對(duì)性能進(jìn)行比較。

      圖3和圖4分別顯示了DVIS與QTGCS協(xié)同系統(tǒng)、SVIS與QTGCS協(xié)同系統(tǒng)所統(tǒng)計(jì)的評(píng)價(jià)數(shù)據(jù)。

      交通系統(tǒng)中交叉口處車(chē)輛數(shù)量如圖3所示。

      實(shí)驗(yàn)結(jié)果表明,以基于Sarsa學(xué)習(xí)的車(chē)輛誘導(dǎo)策略為基礎(chǔ)的基于Q學(xué)習(xí)的交通燈控制策略與以基于Dijkstra算法的車(chē)輛誘導(dǎo)策略為基礎(chǔ)的基于Q學(xué)習(xí)的交通燈控制策略相比提高了交通系統(tǒng)的控制效果、減少系統(tǒng)中車(chē)輛到達(dá)終節(jié)點(diǎn)的行駛時(shí)間,可以很好的利用路網(wǎng)中的實(shí)時(shí)信息,達(dá)到縮減交通系統(tǒng)中車(chē)輛行駛時(shí)間和車(chē)輛延遲時(shí)間的目的。

      6 結(jié)束語(yǔ)

      城市交通系統(tǒng)影響因素復(fù)雜,本文提出基于強(qiáng)化學(xué)習(xí)的交通燈控制與車(chē)輛誘導(dǎo)算法。實(shí)驗(yàn)結(jié)果表明,通過(guò)該協(xié)同策略減少了路網(wǎng)中的車(chē)輛數(shù)量和車(chē)輛在交叉口的行駛時(shí)間,提升了交通系統(tǒng)的通行能力。

      參考文獻(xiàn)

      [1]Sheffi Y, Powell W B. Optimal Signal Settings over Transportation Networks[J].Journal of Transportation Engineering,1983,109(6):824-839.

      [2]徐麗鮮.城市交通流誘導(dǎo)與控制一體化理論和模型研究[D].吉林工業(yè)大學(xué),吉林大學(xué),1999.

      [3]龔 .城市交通誘導(dǎo)與控制的融合研究[D].北京科技大學(xué),2015.

      [4]Li P, Mirchandani P, Zhou X. Solving simultaneous route guidance and traffic signal optimization problem using space-phase-time hypernetwork[J]. Transportation Research Part B Methodological, 2015, 81(1):103-130.

      [5]Krajzewicz D, Erdmann J, Behrisch M, et al. Recent Development and Applications of SUMO - Simulation of Urban MObility[J]. International Journal on Advances in Systems & Measurements,2012, 3&4(3and4):128-138.

      作者簡(jiǎn)介:趙佳文(1991-),男,滿(mǎn)族,吉林省蛟河市,碩士,單位:沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,研究方向:數(shù)據(jù)庫(kù)理論與信息系統(tǒng)。

      喬春凱(1992-),男,漢族,遼寧省瓦房店市,碩士,單位:沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,研究方向:數(shù)據(jù)庫(kù)理論與信息系統(tǒng)。

      包头市| 中山市| 安溪县| 仪征市| 集安市| 德江县| 徐闻县| 柞水县| 安宁市| 普格县| 手机| 广德县| 颍上县| 翁源县| 疏附县| 长宁县| 马关县| 连山| 鹤峰县| 上思县| 余姚市| 积石山| 西乌珠穆沁旗| 当涂县| 屯门区| 江都市| 福泉市| 蓬溪县| 咸阳市| 象州县| 桃江县| 赫章县| 东丽区| 方山县| 南乐县| 进贤县| 弥渡县| 海安县| 金塔县| 包头市| 崇明县|