基于Q學(xué)習(xí)的多目標(biāo)分時段路口交通控制

2016-04-07 22:05:14張辰

電腦知識與技術(shù) 2016年3期

張辰

摘摘要：針對路口堵塞，提出了一種基于Q學(xué)習(xí)算法的多目標(biāo)分時段路口信號燈控制方法。該方法在多個單路口交通性能評價指標(biāo)的基礎(chǔ)上，考慮了不同時段所具有的不同流量特征，從而設(shè)計了一套混合型的綜合信號燈控制策略。最后在VISSIM上對本策略進(jìn)行了仿真實驗，驗證了有效性。

關(guān)鍵詞： Q學(xué)習(xí)；多目標(biāo)；分時段；交通控制

中圖分類號：TP393.08 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-3044（2016）03-0291-02

1 引言

當(dāng)今，汽車已經(jīng)成為人們出行的主要手段。然而，汽車的普及與城市路口建設(shè)的局限性，使得如何有效地管理交通成為了一個非常重要的課題。為了做好路口的交通控制問題，國內(nèi)外許多專家都對此進(jìn)行了大量的研究，近年來，交通控制理論越來越成熟。在路口控制問題上，提出了很多不同的性能評價指標(biāo)，并且從這些基本指標(biāo)出發(fā)，逐漸從對單一目標(biāo)的優(yōu)化發(fā)展到對多目標(biāo)的優(yōu)化。但是后者存在一個問題，就是多目標(biāo)之間可能會有沖突，從而無法左右兼顧，達(dá)到最理想的情況。為了解決這個問題，研究人員采用了諸如遺傳算法，模糊偏好，粒子群等多種算法，并由此產(chǎn)生了一套日趨完善的多目標(biāo)優(yōu)化理論。同時，交通控制方法已經(jīng)從傳統(tǒng)的理論發(fā)展到與人工智能，神經(jīng)網(wǎng)絡(luò)，自學(xué)習(xí)等結(jié)合起來應(yīng)用，并且產(chǎn)生了大量實際有效的成果[1]。其中，強(qiáng)化學(xué)習(xí)算法（Reinforcement Learning， RL）被認(rèn)為是一種利用自學(xué)習(xí)來解決交通控制的非常有效的方法。而Q學(xué)習(xí)[2]則是強(qiáng)化算法中非常具有代表性的一種算法，對于其在路口交通控制中的應(yīng)用也已經(jīng)有了一定的研究歷史。

本文在國內(nèi)外已經(jīng)取得成果的基礎(chǔ)上[3]，結(jié)合Q學(xué)習(xí)算法，提出了一種多目標(biāo)，多時段的混合控制策略。該策略考慮了不同交通狀況和時段下，人們所著重的優(yōu)化目標(biāo)也會不同，因此需要根據(jù)實際情況，自動權(quán)衡，修正各目標(biāo)之間的權(quán)重關(guān)系。接著利用Q學(xué)習(xí)算法，將混合策略應(yīng)用到信號燈的控制上，使得控制具有自適應(yīng)的特點。最后與傳統(tǒng)的策略[4][5]進(jìn)行比較，證明了本混合策略的顯著的優(yōu)化效果。

2 基于Q學(xué)習(xí)的控制策略

本文提出的方法是一種多目標(biāo)，多時段的混合控制策略。本策略由主要有兩個方面：多目標(biāo)，多時段。

對于多目標(biāo)來說，本文具體分析了各個路口性能評價指標(biāo)的意義，并選取了幾個具有較好代表性的指標(biāo)來作為優(yōu)化目標(biāo)。在策略中，我們采取線性組合的方式，將幾個目標(biāo)組合在一起。每一個目標(biāo)之間通過權(quán)重來確定其對整個優(yōu)化函數(shù)所做的貢獻(xiàn)，從而達(dá)到最優(yōu)化的操作。

對于多時段來說，在交通控制中，評價指標(biāo)如何選取與當(dāng)前交通流的具體情況有著密切的聯(lián)系。隨著路口交通堵塞情況的變化，優(yōu)化目標(biāo)之間的權(quán)重也應(yīng)該有所改變。

2.1 參數(shù)設(shè)計

本策略采用了如下多目標(biāo)參數(shù)：

通行能力（Capacity）

通行能力是指在其余條件不變的情況下，在單位時間內(nèi)，通過交叉口的最大車輛數(shù)。通行能力在一定程度上可以反映交通情況是否暢通，以及暢通的程度。

延誤時間（delay time）

延誤時間是指，當(dāng)一輛車從進(jìn)入交叉口道路一直到離開，由于交叉口不暢通所導(dǎo)致的額外的行駛時間。延誤時間一般由停車時間和因為擁堵而導(dǎo)致的緩慢行駛所浪費的時間組成。

飽和度（saturation degree）：

飽和度是指，路口中入口方向的到達(dá)車流與通行能力的比值。

2.2 Q學(xué)習(xí)參數(shù)設(shè)計State

在單交叉口中，由一個Agent負(fù)責(zé)感知和接收當(dāng)前路口的環(huán)境參數(shù)值。在本算法中，我們考慮了以下幾個常用參數(shù)：

1. 當(dāng)前相位的編號。

2. 當(dāng)前相位中，紅燈方向的排隊長度和。

3. 當(dāng)前相位中，綠燈方向的車流數(shù)量和。

Action

采用（保持/切換）的兩種行為組成的集合。相對前者來說，后者不僅簡單，適合可變周期，其只有兩個值的優(yōu)點更使得在與state進(jìn)行結(jié)合配對時，狀態(tài)空間呈指數(shù)級的減小，從而在一定程度上加快了Agent的響應(yīng)速度。

Reward

定義回報函數(shù)為兩個相鄰時段的交通性能值的差。

3 實驗結(jié)果分析

實驗在VISSIM上仿真了一個主要交通路口。路口信息為：4方向，每個方向3條車道（進(jìn)車道，直行/右轉(zhuǎn)出車道，左轉(zhuǎn)出車道）

這是中度擁堵的情況下，自適應(yīng)策略的相對百分比評價指數(shù)提升。在中度擁堵的情況下，三個指標(biāo)的提升相對來說比較平均，基本都圍繞8%的水平。在中度擁堵的情況下，策略對平均停車次數(shù)具有強(qiáng)烈的偏好性（0.8），對通行能力具有次級偏好（0.2），因此，策略在執(zhí)行過程中以這兩個為目標(biāo)進(jìn)行優(yōu)化。相對于重度和輕度兩種情況來說，停車次數(shù)指標(biāo)在中度擁堵情況中得到了最好的提升，而通行能力的提升水平也是比較高的。

4 結(jié)論

本文提出了一種分時段，多目標(biāo)混合交通控制策略，設(shè)計將分時段與多目標(biāo)進(jìn)行結(jié)合，并應(yīng)用到路口控制中，可以最大限度，最廣面積的考慮到路口的復(fù)雜的需求。通過Q學(xué)習(xí)實現(xiàn)了該策略，展示了以Q學(xué)習(xí)為代表的RL算法在交通路口控制中的可行性和所具有的優(yōu)勢。使用Q學(xué)習(xí)算法，路口的性能評價得到了顯著有效地提升。結(jié)果顯示了Q學(xué)習(xí)在復(fù)雜多變的路口交通情況中，與傳統(tǒng)的通過建立固定模型進(jìn)行控制的方法，具有更大的靈活性和自適應(yīng)性。

參考文獻(xiàn)：

[1] 盧凱.交通信號協(xié)調(diào)控制基礎(chǔ)理論與關(guān)鍵技術(shù)研究[D].華南理工大學(xué)，2010：46-48.

[2] Watkins P Dayan. Q-learning. Machine Learning， 1992， 8（3）： 279-292 .

[3] 徐建閩.交通管理與控制[M]. 北京：人民交通出版社，2007：139-140.

[4] Waltz M D，F(xiàn)u K S. A Heuristic Approach to Reinforcement Learning Control System[J].IEEE Transaction on Automatic Control， 1965， 10（4）：390-398.

[5] Siagh S P. Reinforcement Learning with Replacing Eligibility Traces[J].Machine Learning， 1996， 22： 159-195.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于Q學(xué)習(xí)的多目標(biāo)分時段路口交通控制