張辰
摘 摘要:針對路口堵塞,提出了一種基于Q學(xué)習(xí)算法的多目標(biāo)分時段路口信號燈控制方法。該方法在多個單路口交通性能評價指標(biāo)的基礎(chǔ)上,考慮了不同時段所具有的不同流量特征,從而設(shè)計了一套混合型的綜合信號燈控制策略。最后在VISSIM上對本策略進(jìn)行了仿真實驗,驗證了有效性。
關(guān)鍵詞: Q學(xué)習(xí);多目標(biāo);分時段;交通控制
中圖分類號:TP393.08 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)03-0291-02
1 引言
當(dāng)今,汽車已經(jīng)成為人們出行的主要手段。然而,汽車的普及與城市路口建設(shè)的局限性,使得如何有效地管理交通成為了一個非常重要的課題。為了做好路口的交通控制問題,國內(nèi)外許多專家都對此進(jìn)行了大量的研究,近年來,交通控制理論越來越成熟。在路口控制問題上,提出了很多不同的性能評價指標(biāo),并且從這些基本指標(biāo)出發(fā),逐漸從對單一目標(biāo)的優(yōu)化發(fā)展到對多目標(biāo)的優(yōu)化。但是后者存在一個問題,就是多目標(biāo)之間可能會有沖突,從而無法左右兼顧,達(dá)到最理想的情況。為了解決這個問題,研究人員采用了諸如遺傳算法,模糊偏好,粒子群等多種算法,并由此產(chǎn)生了一套日趨完善的多目標(biāo)優(yōu)化理論。同時,交通控制方法已經(jīng)從傳統(tǒng)的理論發(fā)展到與人工智能,神經(jīng)網(wǎng)絡(luò),自學(xué)習(xí)等結(jié)合起來應(yīng)用,并且產(chǎn)生了大量實際有效的成果[1]。其中,強(qiáng)化學(xué)習(xí)算法(Reinforcement Learning, RL)被認(rèn)為是一種利用自學(xué)習(xí)來解決交通控制的非常有效的方法。而Q學(xué)習(xí)[2]則是強(qiáng)化算法中非常具有代表性的一種算法,對于其在路口交通控制中的應(yīng)用也已經(jīng)有了一定的研究歷史。
本文在國內(nèi)外已經(jīng)取得成果的基礎(chǔ)上[3],結(jié)合Q學(xué)習(xí)算法,提出了一種多目標(biāo),多時段的混合控制策略。該策略考慮了不同交通狀況和時段下,人們所著重的優(yōu)化目標(biāo)也會不同,因此需要根據(jù)實際情況,自動權(quán)衡,修正各目標(biāo)之間的權(quán)重關(guān)系。接著利用Q學(xué)習(xí)算法,將混合策略應(yīng)用到信號燈的控制上,使得控制具有自適應(yīng)的特點。最后與傳統(tǒng)的策略[4][5]進(jìn)行比較,證明了本混合策略的顯著的優(yōu)化效果。
2 基于Q學(xué)習(xí)的控制策略
本文提出的方法是一種多目標(biāo),多時段的混合控制策略。本策略由主要有兩個方面:多目標(biāo),多時段。
對于多目標(biāo)來說,本文具體分析了各個路口性能評價指標(biāo)的意義,并選取了幾個具有較好代表性的指標(biāo)來作為優(yōu)化目標(biāo)。在策略中,我們采取線性組合的方式,將幾個目標(biāo)組合在一起。每一個目標(biāo)之間通過權(quán)重來確定其對整個優(yōu)化函數(shù)所做的貢獻(xiàn),從而達(dá)到最優(yōu)化的操作。
對于多時段來說,在交通控制中,評價指標(biāo)如何選取與當(dāng)前交通流的具體情況有著密切的聯(lián)系。隨著路口交通堵塞情況的變化,優(yōu)化目標(biāo)之間的權(quán)重也應(yīng)該有所改變。
2.1 參數(shù)設(shè)計
本策略采用了如下多目標(biāo)參數(shù):
通行能力(Capacity)
通行能力是指在其余條件不變的情況下,在單位時間內(nèi),通過交叉口的最大車輛數(shù)。通行能力在一定程度上可以反映交通情況是否暢通,以及暢通的程度。
延誤時間(delay time)
延誤時間是指,當(dāng)一輛車從進(jìn)入交叉口道路一直到離開,由于交叉口不暢通所導(dǎo)致的額外的行駛時間。延誤時間一般由停車時間和因為擁堵而導(dǎo)致的緩慢行駛所浪費的時間組成。
飽和度(saturation degree):
飽和度是指,路口中入口方向的到達(dá)車流與通行能力的比值。
2.2 Q學(xué)習(xí)參數(shù)設(shè)計State
在單交叉口中,由一個Agent負(fù)責(zé)感知和接收當(dāng)前路口的環(huán)境參數(shù)值。在本算法中,我們考慮了以下幾個常用參數(shù):
1. 當(dāng)前相位的編號。
2. 當(dāng)前相位中,紅燈方向的排隊長度和。
3. 當(dāng)前相位中,綠燈方向的車流數(shù)量和。
Action
采用(保持/切換)的兩種行為組成的集合。相對前者來說,后者不僅簡單,適合可變周期,其只有兩個值的優(yōu)點更使得在與state進(jìn)行結(jié)合配對時,狀態(tài)空間呈指數(shù)級的減小,從而在一定程度上加快了Agent的響應(yīng)速度。
Reward
定義回報函數(shù)為兩個相鄰時段的交通性能值的差。
3 實驗結(jié)果分析
實驗在VISSIM上仿真了一個主要交通路口。路口信息為:4方向,每個方向3條車道(進(jìn)車道,直行/右轉(zhuǎn)出車道,左轉(zhuǎn)出車道)
這是中度擁堵的情況下,自適應(yīng)策略的相對百分比評價指數(shù)提升。在中度擁堵的情況下,三個指標(biāo)的提升相對來說比較平均,基本都圍繞8%的水平。在中度擁堵的情況下,策略對平均停車次數(shù)具有強(qiáng)烈的偏好性(0.8),對通行能力具有次級偏好(0.2),因此,策略在執(zhí)行過程中以這兩個為目標(biāo)進(jìn)行優(yōu)化。相對于重度和輕度兩種情況來說,停車次數(shù)指標(biāo)在中度擁堵情況中得到了最好的提升,而通行能力的提升水平也是比較高的。
4 結(jié)論
本文提出了一種分時段,多目標(biāo)混合交通控制策略,設(shè)計將分時段與多目標(biāo)進(jìn)行結(jié)合,并應(yīng)用到路口控制中,可以最大限度,最廣面積的考慮到路口的復(fù)雜的需求。通過Q學(xué)習(xí)實現(xiàn)了該策略,展示了以Q學(xué)習(xí)為代表的RL算法在交通路口控制中的可行性和所具有的優(yōu)勢。使用Q學(xué)習(xí)算法,路口的性能評價得到了顯著有效地提升。結(jié)果顯示了Q學(xué)習(xí)在復(fù)雜多變的路口交通情況中,與傳統(tǒng)的通過建立固定模型進(jìn)行控制的方法,具有更大的靈活性和自適應(yīng)性。
參考文獻(xiàn):
[1] 盧凱.交通信號協(xié)調(diào)控制基礎(chǔ)理論與關(guān)鍵技術(shù)研究[D].華南理工大學(xué),2010:46-48.
[2] Watkins P Dayan. Q-learning. Machine Learning, 1992, 8(3): 279-292 .
[3] 徐建閩.交通管理與控制[M]. 北京:人民交通出版社,2007:139-140.
[4] Waltz M D,F(xiàn)u K S. A Heuristic Approach to Reinforcement Learning Control System[J].IEEE Transaction on Automatic Control, 1965, 10(4):390-398.
[5] Siagh S P. Reinforcement Learning with Replacing Eligibility Traces[J].Machine Learning, 1996, 22: 159-195.