劉元元,盧守峰,劉肖亮,朱婷婷
速度協(xié)調(diào)的Q學(xué)習(xí)模型研究
劉元元1,盧守峰1,劉肖亮2,朱婷婷1
(1. 長(zhǎng)沙理工大學(xué) 交通運(yùn)輸工程學(xué)院,湖南 長(zhǎng)沙 410114;2. 湖南聯(lián)智科技股份有限公司,湖南 長(zhǎng)沙 410219)
為平滑高速公路瓶頸區(qū)域上、下游車流速度,基于單位距離速度變化量和多項(xiàng)式SG卷積平滑處理的2個(gè)獎(jiǎng)勵(lì)函數(shù),分別建立了2個(gè)速度協(xié)調(diào)的Q學(xué)習(xí)模型。利用Excel-VBA、VISSIM和MATLAB的集成仿真平臺(tái),對(duì)獎(jiǎng)勵(lì)函數(shù)的性能進(jìn)行了仿真分析。研究結(jié)果表明:基于SG卷積平滑的獎(jiǎng)勵(lì)函數(shù),可以有效地緩解瓶頸上游“走走停?!钡默F(xiàn)象,減小速度的波動(dòng)幅度。速度協(xié)調(diào)的Q學(xué)習(xí)模型可以根據(jù)交通狀態(tài)實(shí)時(shí)選擇最優(yōu)的運(yùn)行速度。
速度協(xié)調(diào);Q學(xué)習(xí)算法;SG卷積平滑;集成仿真平臺(tái)
小汽車擁有量日益驟增,交通密度增大,交通流處于不穩(wěn)定狀態(tài),加之車道變窄、合流分流、不良天氣、急剎車等因素,容易導(dǎo)致車輛加減速循環(huán)、走走停停,不僅延誤行程,降低通行能力,還增加燃油消耗,產(chǎn)生大量的有害氣體,污染環(huán)境。因此,如何有效緩解高速公路交通擁堵現(xiàn)象,已成為許多學(xué)者深思的問(wèn)題。
有學(xué)者提出高速公路速度控制方法,即速度協(xié)調(diào)(基于可變速度限制、車輛信息共享和自動(dòng)車輛控制等策略,平滑車輛在高速公路運(yùn)行時(shí)的速度變化,使得交通順暢,提高道路通行能力,緩解交通擁堵)。國(guó)內(nèi)外學(xué)者對(duì)該方向進(jìn)行了大量研究。Li[1?2]等人提出了基于描述函數(shù)的理論特性和強(qiáng)化學(xué)習(xí)的汽車跟隨模型,與傳統(tǒng)的建模方法相比,構(gòu)建策略可以有效地抑制振蕩幅度的發(fā)展,從而減少油耗和廢氣排放。Ma[3?4]等人提出了時(shí)間?距離線性速度協(xié)調(diào)算法和Bang-bang反饋控制速度協(xié)調(diào)算法,發(fā)現(xiàn)速度協(xié)調(diào)后的交通流軌跡可降低振蕩行為。Ghiasi[5?6]等人基于智能網(wǎng)聯(lián)車輛(connected automated vehicles,簡(jiǎn)稱為CAV)的軌跡平滑概念,用CAV實(shí)時(shí)協(xié)調(diào)交通,通過(guò)CAV和交通傳感器提供的信息,檢測(cè)下游速度的下降和振蕩,預(yù)測(cè)其向上游的傳播。該策略可以獲得更平滑的軌跡,提高交通流的總體平穩(wěn)性。王正武[7?8]等人構(gòu)建了基于優(yōu)化強(qiáng)制換道模型和考慮駕駛風(fēng)格車輛的換道時(shí)間和距離預(yù)測(cè)模型,可以較準(zhǔn)確地預(yù)測(cè)和解釋換道行為。Malikopoulos[9]等人提出了可以實(shí)時(shí)實(shí)施的車速控制策略,實(shí)現(xiàn)交通流中的速度協(xié)調(diào),使每輛車實(shí)現(xiàn)最佳的加速或減速。Park[10]等人提出了車速控制策略,采用最小化自動(dòng)駕駛環(huán)境中的車禍風(fēng)險(xiǎn),通過(guò)車輛間風(fēng)險(xiǎn)分析,執(zhí)行車輛速度控制,實(shí)現(xiàn)交通流中的速度協(xié)調(diào)。
強(qiáng)化學(xué)習(xí)可以分為無(wú)模型和模型化[11]。1989年Watkins提出的Q學(xué)習(xí)算法,是一種基于值函數(shù)的典型無(wú)模型強(qiáng)化學(xué)習(xí)算法,可用于解決馬爾可夫決策。其原理是智能體根據(jù)當(dāng)前狀態(tài),選擇某一動(dòng)作作用于環(huán)境,發(fā)生狀態(tài)改變,同時(shí)產(chǎn)生一個(gè)強(qiáng)化信號(hào)(獎(jiǎng)或懲)反饋給智能系統(tǒng),智能系統(tǒng)再根據(jù)強(qiáng)化信號(hào)和當(dāng)前環(huán)境狀態(tài),選擇下一個(gè)動(dòng)作,如此迭代循環(huán),直至目標(biāo)獲得最大獎(jiǎng)賞,其框架如圖1 所示。
圖1 強(qiáng)化學(xué)習(xí)框架
(,)是指某一時(shí)刻的狀態(tài)(∈),采取動(dòng)作(∈)能夠獲得回報(bào)的期望值。環(huán)境會(huì)根據(jù)智能體的動(dòng)作反饋相應(yīng)的回報(bào),可以用矩陣來(lái)存儲(chǔ)(,)值。然后根據(jù)(,)值選取能夠獲得最大回報(bào)的動(dòng)作。(,)值的更新公式為:
狀態(tài)、行為、獎(jiǎng)賞是Q學(xué)習(xí)模型構(gòu)建的3個(gè)主要元素。為實(shí)現(xiàn)速度協(xié)調(diào),引入CAV作為控制車輛。通過(guò)優(yōu)化CAV的速度,達(dá)到平滑速度波動(dòng)的效果。針對(duì)速度協(xié)調(diào)的特點(diǎn),狀態(tài)選取每個(gè)步長(zhǎng)下游檢測(cè)器測(cè)得的平均車速,行為指CAV的建議運(yùn)行速度,構(gòu)建了2個(gè)獎(jiǎng)賞函數(shù)。
受線性速度協(xié)調(diào)算法[3]的啟發(fā),提出了基于單位距離速度變化量的獎(jiǎng)勵(lì)函數(shù),具體公式為式(2)~(5)。結(jié)合Q學(xué)習(xí)算法,形成了基于單位距離速度變化量獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法,簡(jiǎn)稱為D-Q算法。
由式(3)可知,獎(jiǎng)勵(lì)函數(shù)的含義為智能網(wǎng)聯(lián)測(cè)試車的建議速度越接近單位距離速度變化量下的建議速度時(shí),越小,懲罰值也越小。
VISSIM仿真分析可知,下游檢測(cè)器測(cè)得的速度波動(dòng)幅度大,導(dǎo)致(,)的取值出現(xiàn)大幅的波動(dòng)。因此,提出基于多項(xiàng)式(savitsky-golay,簡(jiǎn)稱為SG)卷積平滑算法的獎(jiǎng)勵(lì)函數(shù)(通過(guò)SG卷積平滑算法將下游檢測(cè)器測(cè)得的速度進(jìn)行平滑處理),結(jié)合Q學(xué)習(xí)算法,形成基于SG卷積平滑算法的獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法,簡(jiǎn)稱S-G算法。
式中:為坐標(biāo)軸上的數(shù)據(jù)點(diǎn),∈。
由式(6)可得到個(gè)方程,組成元線性方程組,≥時(shí)(一般選擇>),方程組有解,采用最小二乘法擬合確定參數(shù)。
式(7)用矩陣形式表示為:
其中,乘以1之后代表矩陣形式。
則式(8)中的最小二乘解為:
式中:為平滑前的值。
則的濾波值為:
經(jīng)SG卷積平滑算法分析,結(jié)合本試驗(yàn)實(shí)例,取平滑窗口的寬度為=4,=3,則=9,得:
。 (13)
利用集成仿真平臺(tái)[12]方法,構(gòu)建了速度協(xié)調(diào)在線仿真模型?;赩ISSIM的COM接口與Excel VBA、MATLAB相結(jié)合,對(duì)速度協(xié)調(diào)的Q學(xué)習(xí)模型進(jìn)行仿真,運(yùn)算步驟為:
1) 建立VISSIM路網(wǎng)文件(net文件)。包括建立道路網(wǎng)、設(shè)置車輛數(shù)、檢測(cè)器的位置和個(gè)數(shù)、車輛組成、期望速度等,設(shè)置相應(yīng)的評(píng)估參數(shù),以便分析后續(xù)所需數(shù)據(jù)。
2) vba程序中,聲明所使用的VISSIM的相關(guān)變量與對(duì)象,例如Vehicles(車輛對(duì)象),DataCollection(檢測(cè)器對(duì)象)等;定義相應(yīng)的初始化函數(shù),例如StartVISSIM (啟動(dòng)VISSIM軟件)、ReadINPFile(讀入Net文件)、main(主函數(shù))等。
3) 主程序中,通過(guò)COM接口的Get Data CollectionByNumber對(duì)象,連接VISSIM文件中設(shè)置的檢測(cè)器,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)讀??;通過(guò)AddVehicleAtLinkCoordinate對(duì)象,將本文定義的自動(dòng)網(wǎng)聯(lián)測(cè)試車加入路網(wǎng)中,實(shí)現(xiàn)對(duì)車輛的控制;通過(guò)檢測(cè)器的GetResult屬性,實(shí)現(xiàn)檢測(cè)器數(shù)據(jù)的采集;通過(guò)ActiveWorkbook.Save功能,將VISSIM仿真的實(shí)時(shí)數(shù)據(jù)進(jìn)行輸出。
4) 獲取最優(yōu)矩陣。采用在線Q學(xué)習(xí)算法進(jìn)行VISSIM仿真學(xué)習(xí),通過(guò)多次運(yùn)行在線Q學(xué)習(xí)仿真程序,獲得最優(yōu)矩陣。首先,在Excel VBA中執(zhí)行VISSIM仿真程序,以2 s為一個(gè)步長(zhǎng),實(shí)時(shí)獲取路網(wǎng)的交通狀態(tài)、評(píng)價(jià)指標(biāo)等信息。然后,通過(guò)式(1),更新矩陣,當(dāng)其達(dá)到終止條件時(shí),停止運(yùn)行。單次VISSIM仿真停止運(yùn)行條件為測(cè)試車到達(dá)下游檢測(cè)器附近停止運(yùn)行。如果本次運(yùn)行的最終矩陣未到達(dá)收斂條件時(shí),將本次仿真的最終矩陣作為下一次仿真時(shí)的初始矩陣,直到達(dá)到收斂條件,獲得最優(yōu)矩陣。
5) 執(zhí)行最優(yōu)矩陣方案,獲取最優(yōu)建議速度。通過(guò)Excel-VBA程序,控制VISSIM仿真運(yùn)行。通過(guò)最優(yōu)矩陣方案,VISSIM仿真的下游檢測(cè)器的實(shí)時(shí)狀態(tài),獲取最優(yōu)建議速度,并將建議速度應(yīng)用到VISSIM仿真中,檢驗(yàn)速度協(xié)調(diào)效果。獲取最優(yōu)矩陣后的VISSIM仿真運(yùn)行流程如圖2所示。
圖2 集成仿真平臺(tái)流程
以VISSIM為仿真平臺(tái),構(gòu)建一條三車道的高速公路試驗(yàn)路段。道路5 km處,由三車道變成兩車道,形成物理瓶頸。其中,仿真路段總長(zhǎng)6.68 km,三車道路段為6 km,瓶頸路段長(zhǎng)600 m,漸變段長(zhǎng)度為40 m。道路1 km處設(shè)置上游檢測(cè)器u,4.9 km處設(shè)置下游檢測(cè)器d,用于檢測(cè)某一時(shí)刻車輛通過(guò)該檢測(cè)器時(shí)的平均速度。設(shè)置道路的交通流量為 3 780輛/h,飽和度為0.7,具體道路網(wǎng)的示意如圖3所示。
當(dāng)仿真初始化10 min后,由于瓶頸的存在,道路上出現(xiàn)明顯擁堵。此時(shí),道路的1 km處(即上游檢測(cè)器D),控制三輛CAV車輛(C1、C2和C3)并排進(jìn)入實(shí)驗(yàn)路段,下游檢測(cè)器D測(cè)得的平均速度為Q學(xué)習(xí)算法中的狀態(tài),三輛CAV車輛采取的建議運(yùn)行速度均為Q學(xué)習(xí)算法中動(dòng)作,以Δ=2 s為迭代步長(zhǎng),每隔2 s,由下游檢測(cè)器測(cè)得的平均車速。根據(jù)Q學(xué)習(xí)算法,計(jì)算出此時(shí)上游三輛CAV車輛應(yīng)采取的建議運(yùn)行速度,使當(dāng)前時(shí)刻的獎(jiǎng)勵(lì)函數(shù)達(dá)到最大,如此循環(huán)迭代,優(yōu)化Q值函數(shù),選取最優(yōu)動(dòng)作,直到滿足收斂條件,結(jié)束實(shí)驗(yàn)。
Q學(xué)習(xí)算法的狀態(tài)為下游檢測(cè)器的速度值,即下游檢測(cè)器D在每個(gè)步長(zhǎng)所測(cè)得的平均速度。通過(guò)對(duì)VISSIM仿真狀態(tài)進(jìn)行分析,然后初始化,下游檢測(cè)器的速度值多分布在20~50 km/h之間,因?yàn)闋顟B(tài)數(shù)為一個(gè)確定的值或區(qū)間,所以本研究將下游檢測(cè)器的速度進(jìn)行分段離散劃分,把下游檢測(cè)器速度[20,50] km/h劃分為15個(gè)區(qū)間,劃分區(qū)間如圖4所示。
圖3 路段示意圖(單位:m)
圖4 基于D?Q算法的狀態(tài)劃分
劃分后,得到狀態(tài)集為:
Q學(xué)習(xí)算法行為是CAV的實(shí)時(shí)速度,即測(cè)試車C1,C2,C3的速度值,速度區(qū)間為[40,120]。同時(shí),將測(cè)試車的速度進(jìn)行分段離散劃分,將速度區(qū)間[40,120]劃分為40個(gè)區(qū)間,劃分區(qū)間如圖5所示。
劃分后,得到狀態(tài)集為:
根據(jù)本研究提出的基于單位距離速度變化量的獎(jiǎng)勵(lì)函數(shù)和基于SG卷積平滑算法獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法,對(duì)C1、C2、C3分別進(jìn)行2種獎(jiǎng)勵(lì)函數(shù)Q學(xué)習(xí)算法的仿真試驗(yàn),并與“無(wú)控制情況”的結(jié)果做對(duì)比。
3.3.1 3種不同情況下C1、C2、C3的速度協(xié)調(diào)曲線
CAV在無(wú)控制時(shí),速度協(xié)調(diào)曲線如圖6所示。從圖6中可以看出,無(wú)控制情況下3輛控制車輛的初始速度較大,經(jīng)過(guò)4.6 km后,控制車輛的速度驟降,速度從90~120 km/h降到0~40 km/h,車輛的速度波動(dòng)大,在瓶頸處形成“交通震蕩”,符合無(wú)控制情況下的實(shí)際情況?;趩挝痪嚯x速度變化量獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法,對(duì)控制車輛進(jìn)行控制的位置?速度曲線如圖7所示。與圖6相比,雖然速度呈整體下降趨勢(shì),但是波動(dòng)減小,表明:該算法起到了“速度協(xié)調(diào)”的作用?;赟G卷積平滑算法,獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法對(duì)控制車輛進(jìn)行控制的位置?速度曲線如圖8所示。從圖8中可以看出,其速度曲線比圖6、7中的曲線更為平滑,速度波動(dòng)幅度更小,有較好的速度協(xié)調(diào)效果。
圖6 無(wú)控制時(shí)速度協(xié)調(diào)曲線
3.3.2 三種不同情況下的C2的速度協(xié)調(diào)曲線
由于C1、C2、C3的速度大致相同,以C2為例,分析無(wú)控制、基于單位距離速度變化量獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法、基于SG卷積平滑算法獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法3種不同情況下的C2速度變化,如圖9所示。
從圖9中可以看出,C2車輛從起點(diǎn)1 km到5 km處的速度變化很明顯。C2的初始速度很大,達(dá)110 km/h。由于處于無(wú)控制情況下,C2無(wú)法知道路段下游的道路狀況,影響C2車速的主要因素是C2周圍的車輛情況,而不是道路下游的車輛情況,導(dǎo)致C2前期一直處于高速狀態(tài),直到經(jīng)過(guò)4.6 km后接近瓶頸,從110 km/h驟降到20 km/h,速度變化波動(dòng)大,在此處產(chǎn)生典型的交通震蕩。
圖7 基于D-Q算法的速度協(xié)調(diào)曲線
圖8 基于SG-Q的速度協(xié)調(diào)曲線
圖9 C2速度協(xié)調(diào)效果對(duì)比
從圖9中還可以看出,基于單位距離速度變化量獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法,對(duì)C2進(jìn)行速度控制達(dá)到速度協(xié)調(diào)效果。由于引入了單位距離速度變化量獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法,系統(tǒng)每間隔2 s,根據(jù)道路下游檢測(cè)器d測(cè)得平均速度。通過(guò)Q學(xué)習(xí)算法計(jì)算,此時(shí)C2應(yīng)該采取最優(yōu)速度。C2根據(jù)計(jì)算推薦的最優(yōu)速度,每隔2 s更新速度,使得C2的速度波動(dòng)減小幅度下降,而不是驟降,減小了“交通震蕩”。與無(wú)控制情況相比,基于單位距離速度變化量獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法,更有效地協(xié)調(diào)了C2的速度。
由于基于單位距離速度變化量獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法的速度協(xié)調(diào)效果曲線中,道路下游檢測(cè)器d測(cè)得的平均波動(dòng)較大。為使速度波動(dòng)更小,速度曲線更平滑,引入基于SG卷積平滑算法獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法對(duì)道路下游檢測(cè)器d進(jìn)行速度控制,在基于單位距離速度變化量獎(jiǎng)勵(lì)函數(shù)基礎(chǔ)上,得到平滑下游檢測(cè)器所測(cè)得的平均速度。表明:與基于單位距離速度變化量獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法相比,基于SG卷積平滑算法獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法的速度協(xié)調(diào)效果曲線更平滑,C2的速度波動(dòng)更小,更有效地協(xié)調(diào)了C2的速度變化。因此,基于SG卷積平滑算法獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法對(duì)C2的速度協(xié)調(diào)效果最好。
基于D-Q算法、SG-Q算法的值收斂如圖10、11所示。從圖10中可以看出,基于單位距離速度變化量獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法,迭代次數(shù)在203與903區(qū)間中。連續(xù)700次,迭代收斂值小于9。從圖11中可以看出,基于SG卷積平滑算法獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法,迭代次數(shù)在98與798區(qū)間中。連續(xù)700次,迭代收斂值小于9。因此,可以看出前者迭代次數(shù)為903次,后者迭代次數(shù)為798次,2個(gè)獎(jiǎng)勵(lì)函數(shù)均收斂,且后者收斂速度更快。
圖10 基于D-Q算法的Q值收斂
圖11 基于SG-Q算法的Q值收斂
基于SG卷積平滑算法獎(jiǎng)勵(lì)函數(shù)的Q學(xué)習(xí)算法,速度波動(dòng)最小,速度曲線最平滑。同時(shí),從收斂情況可知,基于單位距離速度變化量獎(jiǎng)勵(lì)函數(shù)收斂的穩(wěn)定性更好,基于SG卷積平滑算法獎(jiǎng)勵(lì)函數(shù)的收斂速度更快。因此,提出的D?Q算法、SG?Q算法2個(gè)獎(jiǎng)勵(lì)函數(shù)均能有效地協(xié)調(diào)高速公路上車輛的速度變化,減小了“速度震蕩”。當(dāng)高速公路瓶頸處發(fā)生嚴(yán)重排隊(duì)現(xiàn)象時(shí),上游車輛到達(dá)瓶頸處,將減少“走走停停”的現(xiàn)象。
[1] Li X P, Cui J X, An S, et al. Stop-and-go traffic analysis: Theoretical properties, environmental impacts and oscillation mitigation[J]. Transportation Research Part B: Methodological, 2014, 70: 319?339.
[2] Qu X B, Yu Y, Zhou M F, et al. Jointly dampening traffic oscillations and improving energy consumption with electric, connected and automated vehicles: A reinforcement learning based approach[J]. Applied Energy, 2020, 257: 114030.
[3] Ma J Q, Li X P, Shladover S, et al. Freeway speed harmonization[J]. IEEE Transactions on Intelligent Vehicles, 2016, 1(1): 78?89.
[4] Yang H, Rakha H. Feedback control speed harmonization algorithm: Methodology and preliminary testing[J]. Transportation Research Part C: Emerging Technologies, 2017, 81: 209?226.
[5] Ghiasi A , Ma J , Zhou F , et al. Speed harmonization algorithm using connected autonomous vehicles[C]// The 96th Annual Meeting of the Transportation Research Board, transportation Research Board, 2017.
[6] Ghiasi A, Li X P, Ma J Q. A mixed traffic speed harmonization model with connected autonomous vehicles[J]. Transportation Research Part C: Emerging Technologies, 2019, 104: 210-233.
[7] 王正武, 鄒文竹, 郝威. 高速公路交通事故后基于優(yōu)化的強(qiáng)制換道研究[J]. 交通科學(xué)與工程, 2020, 36(1): 87?92.(WANG Zheng-wu, ZOU Wen-zhu, HAO Wei. Research on mandatory lane change based on optimization after traffic accidents on the expressway[J]. Journal of Transport Science and Engineering, 2020, 36(1): 87?92.(in Chinese))
[8] 劉思源, 喻偉, 劉潔瑩, 等. 考慮駕駛風(fēng)格的車輛換道行為及預(yù)測(cè)模型[J]. 長(zhǎng)沙理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 16(1): 28?35. (LIU Si-yuan, YU Wei, LIU Jie-ying, et al. Characteristics analysis and prediction model of lane changing behavior under different driving styles[J]. Journal of Changsha University of Science & Technology (Natural Science), 2019, 16(1): 28?35.(in Chinese))
[9] Malikopoulos A A, Hong S, Park B B, et al. Optimal control for speed harmonization of automated vehicles[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(7): 2405?2417.
[10] Park H, Oh C. A vehicle speed harmonization strategy for minimizing inter-vehicle crash risks[J]. Accident Analysis & Prevention, 2019, 128: 230?239.
[11] 趙婷婷, 孔樂, 韓雅杰, 等. 模型化強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)科學(xué)與探索,2020,14(6):918?927.(ZHAO Ting-ting, KONG Le, HAN Ya-jie, et al. Review of model-based reinforcement learning[J]. Journal of Frontiers of Computer Science and Technology, 2020, 14(6): 918?927.(in Chinese))
[12] 盧守峰, 韋欽平, 沈文, 等. 集成VISSIM、Excel VBA和MATLAB的仿真平臺(tái)研究[J]. 交通運(yùn)輸系統(tǒng)工程與信息, 2012, 12(4): 43?48, 63. (LU Shou-feng, WEI Qin-ping, SHEN Wen, et al. Integrated simulation platform of VISSIM, excel VBA, MATLAB[J]. Journal of Transportation Systems Engineering and Information Technology, 2012, 12(4): 43?48, 63.(in Chinese))
Research on Q-Learning model of speed harmonization
LIU Yuan-yuan1, LU Shou-feng1, LIU Xiao-liang2, ZHU Ting-ting1
(1.Traffic and Transportation Engineering College, Changsha University of Science & Technology, Changsha 410114, China; 2. Hunan Lianzhi Technology Co., Ltd., Changsha 410219, China)
In order to optimize the speed of upstream and downstream traffic flow in the bottleneck area of expressway, two reward functions based on unit distance velocity variation and SG convolution smoothing were proposed, and two Q-learning models of speed harmonization were established. The integrated simulation platform combining Excel-VBA, VISSIM and MATLAB was used to simulate the reward functions. The results show that, the reward function based on SG convolution smoothing can effectively relieve the stop-and-go traffic on the upstream of the bottleneck. The fluctuation amplitude of speed was reduced. The Q-Learning model of speed-coordinated can suggest the optimal real time speed according to the traffic state.
speed harmonization; Q-Learning model; SG convolution smoothing; integrated simulation platform
U491.4
A
1674 ? 599X(2021)02 ? 0098 ? 07
2020?10?30
劉元元(1995?),女,長(zhǎng)沙理工大學(xué)碩士生。