基于強(qiáng)化協(xié)作博弈方法的雙車道混合交通流特性

2019-08-06 08:43:06郭靜秋方守恩曲小波王亦兵劉洋澤西

同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版) 2019年7期

郭靜秋, 方守恩, 曲小波, 王亦兵, 劉洋澤西

(1．同濟(jì)大學(xué) 道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室，上海 201804； 2. 查爾姆斯理工大學(xué) 建筑與土木工程系，查爾姆斯 41296； 3.浙江大學(xué) 建筑工程學(xué)院，浙江杭州 310058)

智能網(wǎng)聯(lián)車(connected and automated vehicle, CAV)是近年來(lái)道路交通領(lǐng)域革命性的發(fā)展方向，有望從微觀行駛行為層面改善傳統(tǒng)交通流特性[1].自適應(yīng)巡航控制(adaptive cruise control，ACC)和協(xié)同自適應(yīng)巡航控制(cooperative adaptive cruise control，CACC)是CAV技術(shù)發(fā)展的重要階段.然而，在未來(lái)相當(dāng)長(zhǎng)的時(shí)間里，CAV的市場(chǎng)滲透率將逐步增長(zhǎng)，CAV將與普通車輛(regular vehicle, RV)長(zhǎng)期共享有限的道路資源.CAV環(huán)境下的交通調(diào)控和資源整合優(yōu)化是一項(xiàng)極具挑戰(zhàn)的課題.Chen等人在研究自動(dòng)駕駛車輛換道決策模型時(shí)，通過(guò)層次分析法和逼近最優(yōu)解的排序思想，對(duì)普通的換道決策進(jìn)行多屬性賦值，從而實(shí)現(xiàn)車輛換道安全和效率的平衡約束[2].Talebpour等人在車聯(lián)網(wǎng)環(huán)境下提出了一種基于博弈論的車輛換道決策模型[3].Meng等人在此基礎(chǔ)上，結(jié)合結(jié)構(gòu)平衡理論，構(gòu)建了滾動(dòng)時(shí)域控制的博弈換道決策模型[4].他們認(rèn)為車輛換道決策問(wèn)題可分解為換道價(jià)值和換道安全兩個(gè)子問(wèn)題，并在應(yīng)用博弈論對(duì)車輛間影響、換道安全和駕駛效率綜合考慮后給出換道決策.

然而，國(guó)內(nèi)外學(xué)者在混合交通流特性研究方面還處于起步階段.一方面，相比于RV，CAV具有更小的反應(yīng)延遲時(shí)間，在行駛過(guò)程中與前車保持更小的車頭時(shí)距，借此可以提升行駛速度；另一方面，CAV具備與周圍同類型車輛相互通信的能力，這一能力可以使得CAV在換道操作過(guò)程中獲得更多信息，有助于生成并執(zhí)行更加靈活、智能的決策.因此，CAV有可能對(duì)提升道路通行能力發(fā)揮積極效能[2-8].此外，自動(dòng)駕駛汽車可能會(huì)降低能源消耗和尾氣排放，對(duì)低碳出行也有一定的推動(dòng)作用[9].

目前，國(guó)內(nèi)外對(duì)智能網(wǎng)聯(lián)環(huán)境下的宏微觀混合交通流特性以仿真研究為主.宏觀方面主要依靠不同的車隊(duì)車輛間距、車輛換道策略分析混合交通流宏觀特性[6, 10].然而，由于宏觀模型通常在該問(wèn)題上進(jìn)行了大量的假設(shè)，容易使得分析結(jié)果與實(shí)際條件產(chǎn)生較大的差異.采用均衡交通流模型的文獻(xiàn)多數(shù)基于流密曲線.微觀行為分析是研究此問(wèn)題的主流途徑[11-12].通過(guò)考慮混合交通流的離散性，分解CAV及RV不同的跟馳及換道行為來(lái)進(jìn)行仿真演化，并反應(yīng)混合交通流的整體宏觀特性.元胞自動(dòng)機(jī)(cellular automata model, CA)是一種經(jīng)典的中(微)觀交通研究基礎(chǔ)模型，它能夠通過(guò)制定簡(jiǎn)單的演化規(guī)則來(lái)有效地模擬并復(fù)現(xiàn)微觀交通的非線性特征，從而被大量地作為基礎(chǔ)模型并應(yīng)用于各種特殊環(huán)境下的微觀交通流研究[13-18].然而，由于CAV與RV是兩種不同的智能體，傳統(tǒng)的CA固定規(guī)則無(wú)法很好地描述CAV的智慧跟馳及換道行為，因此難以揭示出逼近真實(shí)的混合交通流特性.到目前為止，嵌入CAV智能性的混合交通流的仿真研究依然缺乏.

近年來(lái)，以強(qiáng)化學(xué)習(xí)為代表的人工智能領(lǐng)域迅速興起，并在自然語(yǔ)言處理、圖像識(shí)別等方面取得重大突破[19-20].強(qiáng)化學(xué)習(xí)是智能體以從環(huán)境狀態(tài)中得到累積獎(jiǎng)勵(lì)值為目標(biāo)而進(jìn)行動(dòng)作選擇的映射學(xué)習(xí)[21-23].不同于元胞自動(dòng)機(jī)規(guī)則化的行為選擇，強(qiáng)化學(xué)習(xí)通過(guò)試錯(cuò)過(guò)程來(lái)進(jìn)行最優(yōu)行為策略映射.Q學(xué)習(xí)是一種流行的免模型強(qiáng)化學(xué)習(xí)方法，通過(guò)值迭代的方式逼近馬爾科夫決策過(guò)程中的最優(yōu)策略，可以很好地體現(xiàn)CAV駕駛行為的不確定性及智能性.尤其在CAV以車群行駛時(shí)，映射空間復(fù)雜，強(qiáng)化學(xué)習(xí)方法仍然可以在動(dòng)作空間上進(jìn)行無(wú)監(jiān)督模式映射.

鑒于此，考慮一種結(jié)合元胞自動(dòng)機(jī)及強(qiáng)化學(xué)習(xí)的多智能體混合交通流仿真模式.對(duì)于RV，在CA強(qiáng)規(guī)則行為方式上加入Gipps跟馳模型進(jìn)行更細(xì)致的改進(jìn)[24-26]；對(duì)于CAV，一方面為突出其駕駛行為的不確定性，另一方面為呈現(xiàn)其具備的更高的智能水平，因此通過(guò)基于改進(jìn)Q學(xué)習(xí)來(lái)訓(xùn)練不同周圍環(huán)境下的CAV，以此訓(xùn)練形成CAV的非線性動(dòng)態(tài)駕駛特性.在此基礎(chǔ)上對(duì)混合交通流的宏觀特性進(jìn)行分析，并對(duì)該特性產(chǎn)生的影響進(jìn)行總結(jié).

1 研究背景

1.1 RV演化模式

傳統(tǒng)的NaSch元胞自動(dòng)機(jī)模型遵循線性跟馳思想，認(rèn)為駕駛員對(duì)速度的反應(yīng)不會(huì)反應(yīng)在跟馳距離上[27].之后的學(xué)者們對(duì)NaSch進(jìn)行改進(jìn)，揭示了非線性跟馳模型更能合理地反應(yīng)真實(shí)交通狀況[28-30].Gipps提出的安全距離模型是一種常見的非線性跟馳模型，該模型認(rèn)為車輛速度由當(dāng)前理想速度、最大加速度和安全制動(dòng)距離決定.考慮將Gipps模型引入CA，即無(wú)論前方車輛是否為CAV，dsafe,n表示第n輛普通車與前車在任何時(shí)刻都應(yīng)保持的最小安全跟馳間距.極限情況如圖1所示.此時(shí)，

dsafe,n=xn-1(t)-xn(t)-l=μ·vn(t)+

(1)

式中:xn-1(t)、xn(t)分別表示t時(shí)刻前方第n-1車輛與本車位置;l為車輛n的長(zhǎng)度;μ為駕駛員反應(yīng)時(shí)間;vn-1(t)、vn(t)分別表示前方n-1車輛與該車在t時(shí)刻的速度;b表示車輛n的最大減速度.設(shè)lcell表示單元元胞長(zhǎng)度，則在CA模型中車輛n在t時(shí)刻的最小安全跟馳間距dsafe,n(t)應(yīng)為

dsafe,n(t)=dsafe,n(t)lcell·lcell

(2)

RV在跟馳過(guò)程dsafe,n中根據(jù)調(diào)整下一時(shí)間步的車速來(lái)避免與前車發(fā)生追尾，即存在安全跟馳速度vsafe,n(t+1)如下：

vsafe,n(t+1)=min({vn(t)+2.5aμlcell[1-vn(t)vmax]·0.025+vn(t)vmax}/lcell,

(μb+(μb)2-b{2[xn-1-xn-l]-μvn(t)-2vn-1(t)2bn-1(t)+bn-1(t-1)})/lcell)

(3)

式中，a為車輛最大加速度，vmax為車輛最大行駛速度，bn-1(t)表示前車在t時(shí)刻的減速度值.

圖1 安全跟馳間距示意

1.2 基本更新規(guī)則

普通車RV依照CA模型的通用規(guī)則框架按序進(jìn)行t→t+1更新.每一規(guī)則均對(duì)應(yīng)了特定的車輛操作.

(1)換道規(guī)則.換道行為是車輛在多車道環(huán)境下常見的駕駛操作.基于文獻(xiàn)[31]中的換道規(guī)則，考慮當(dāng)車輛n在式(4)～式(6)環(huán)境時(shí)會(huì)以一定的概率pchange進(jìn)行換道操作，即

(4)

dn,other>dn

(5)

dn+1,other>vn+2(t)+δ

(6)

式中:dn,other，dn+1,other分別表示旁車道前方及后方距離;vn+2(t)為旁車道后方車t時(shí)刻車速.δ衡量車輛n的換道操作水平[32]，δ越大，表現(xiàn)為越強(qiáng)制性換道，即在考慮換道時(shí)對(duì)目標(biāo)車道后方車輛的間距及速度的要求越低.

(2)加速規(guī)則.車輛在行駛過(guò)程中，當(dāng)?shù)趎車輛在每個(gè)時(shí)間步開始時(shí)首先進(jìn)行按常規(guī)加速度進(jìn)行加速行駛估計(jì).該步驟速度僅反映駕駛員試圖保持高速行駛的意圖，還需在接下來(lái)進(jìn)行安全距離判斷，因此不作為最終速度.

vn→min(vmax,vn+a)

(7)

(3)確定性減速規(guī)則.傳統(tǒng)NaSch模型設(shè)置方式不同，該規(guī)則主要保證了車輛間應(yīng)保持的安全距離.當(dāng)?shù)趎車輛與其前方車輛之間的距離小于該車行駛時(shí)所需要保持的安全距離dsafe,n、或該車行駛速度在經(jīng)加速規(guī)則后超過(guò)安全速度vsafe,n時(shí)，為確保安全駕駛則需要進(jìn)行確定性地減速.

vn→min(vn,vsafe,n,dn,dsafe,n)

(8)

(4)隨機(jī)慢行.考慮到駕駛員在行駛過(guò)程中可能存在的駕駛行為不穩(wěn)定性，在演化規(guī)則中引入隨機(jī)慢化概率prandom(0≤prandom≤1).行駛過(guò)程中的車輛按照隨機(jī)慢化概率進(jìn)行速度的慢化以更真實(shí)反映駕駛員的行駛不確定因素.

vn→max(0,vn-1)

(9)

(5)位置更新.在速度演化更新規(guī)則的基礎(chǔ)上，進(jìn)行車輛位置的更新.

xn→xn+vn

(10)

2 CAV行為建模

如前所述，CAV的駕駛行為設(shè)計(jì)應(yīng)遵循比RV更智慧的跟馳及換道策略.而目前大多數(shù)的CAV行為模型是在保證安全的條件下以自我利益最大化為目標(biāo)、不考慮對(duì)周圍車輛的影響的建模方式.隨著CAV滲透率的提高，CAV與RV、CAV與CAV之間的動(dòng)態(tài)交互將對(duì)車輛群體產(chǎn)生復(fù)雜的影響作用.

2.1 基于Q學(xué)習(xí)的訓(xùn)練方法

在強(qiáng)化學(xué)習(xí)領(lǐng)域，Q學(xué)習(xí)系統(tǒng)是一種典型的離散人工智能學(xué)習(xí)系統(tǒng).在無(wú)需任何外界預(yù)先知識(shí)的情況下可以使學(xué)習(xí)主體(智能體)從零學(xué)起，直至形成一套足夠優(yōu)化的映射規(guī)則，因此可應(yīng)用于CAV的行駛模式構(gòu)建.Q學(xué)習(xí)系統(tǒng)由3個(gè)方面組成[33]：環(huán)境E、動(dòng)作庫(kù)A和獎(jiǎng)勵(lì)值r.智能體在狀態(tài)S下選擇特定動(dòng)作A的過(guò)程稱為策略π，即π：S→A.因此，在t時(shí)刻時(shí)智能體在狀態(tài)st時(shí)首先選擇動(dòng)作策略a，隨后外部環(huán)境給予獎(jiǎng)勵(lì)，智能體接收獎(jiǎng)勵(lì)并評(píng)估，以此決定下一動(dòng)作并進(jìn)入下一狀態(tài)st+1.累積獎(jiǎng)勵(lì)值V為未來(lái)獎(jiǎng)勵(lì)的折現(xiàn)，回報(bào)折扣因子為γ(0≤γ≤1).智能體依靠累積獎(jiǎng)勵(lì)值的最大化，進(jìn)而由反饋機(jī)制引導(dǎo)其在連續(xù)時(shí)間點(diǎn)中采取智慧高效的動(dòng)作.設(shè)Qπ(s,a)表示在狀態(tài)s時(shí)根據(jù)策略π而執(zhí)行a動(dòng)作的值函數(shù)估計(jì)，則

(11)

π*=argmaxπVπ(s)

(12)

Qπ(s,a)=r(s,a)+γmaxa′Q(δ(s,a),a′)=

(13)

式中：j為相對(duì)于時(shí)刻t的未來(lái)時(shí)間點(diǎn)；δ(s,a)為狀態(tài)轉(zhuǎn)換函數(shù).Qπ(s,a)的更新滿足Bellman方程如下：

Qπ(st,at)=∑st+1[p(st,at,st+1)·r(st,at,st+1)]+γ∑st+1,at+1[p(st,at,st+1)·Qπ(st+1,at+1)]

(14)

式中：p(st,at,st+1)為狀態(tài)st時(shí)，智能體采取動(dòng)作at轉(zhuǎn)移到st+1狀態(tài)的概率；r(st,at,st+1)表示動(dòng)作at和狀態(tài)st轉(zhuǎn)移到st+1的回報(bào)值.Q學(xué)習(xí)對(duì)應(yīng)的最優(yōu)動(dòng)作估計(jì)Qπ*(s,a)和最優(yōu)策略π*(s)為

Qπ*(s,a)=maxπQπ(s,a)

(15)

π*(s)=argmaxπ[r(s,a)+γV*(δ(s,a))]=

argmaxaQ(s,a)

(16)

綜上所述，可以總結(jié)基于Q學(xué)習(xí)的CAV訓(xùn)練過(guò)程：首先，確定車輛的狀態(tài)定義和動(dòng)作選擇集合，構(gòu)建由不同狀態(tài)和動(dòng)作選擇組合的二維Q表；其次，將CAV放入仿真環(huán)境運(yùn)行，并混以不同比例的普通車輛，結(jié)合式(11)～式(16)迭代更新Q表，以形成車輛完整的狀態(tài)-動(dòng)作映射；最后，在正式仿真過(guò)程中，收集交通微觀數(shù)據(jù)，統(tǒng)計(jì)宏觀交通特性.

2.2 車輛狀態(tài)定義

目前在CAV的主流仿真研究中，均假設(shè)了車輛具備一定的周邊交通感知能力及協(xié)同能力[34-35].因此，為體現(xiàn)CAV應(yīng)有的智能水平，在跟馳和換道過(guò)程中除考慮自身行駛狀態(tài)，還需要考慮本車所在車道的前方最近車輛n-1、相鄰車道前后方最近車輛n-2、n+2的車輛行駛狀態(tài)，并認(rèn)為以上4車的行駛狀態(tài)決定了本CAV的行駛策略.圖2綜合考慮以上多變量影響因素在車輛行駛過(guò)程中表現(xiàn)出的高度動(dòng)態(tài)性，為了更好地模擬真實(shí)狀態(tài)，車輛n通常需要考慮連續(xù)若干時(shí)間步的狀態(tài)，并結(jié)合自身的最優(yōu)行駛利益來(lái)決定下一時(shí)間步的行駛策略.

圖2 CAV狀態(tài)

Sn(t)=[vn+2;pn+2;dn+1,other;vn;dn;dn,other;vn-1;pn-1;vn-2;pn-2]

(17)

其中，pi表示i號(hào)位置對(duì)應(yīng)的車輛類型(i∈{n-1,n-2,n+2}，pi∈{CAV,RV,None}).若i號(hào)位置無(wú)車輛，則pi=None，vi=0.可以看出，在雙車道環(huán)境下，當(dāng)?shù)趎輛CAV車輛在跟馳CAV或RV時(shí)，由于pn-1取值不同，因此所對(duì)應(yīng)狀態(tài)表征也不同，據(jù)此可以做出不同的動(dòng)作選擇.

2.3 狀態(tài)動(dòng)作選擇

一般情況下，車輛的動(dòng)作空間Aall有6個(gè)不同動(dòng)作，分別為：本車道減速“F-”、本車道保持車速“F=”、本車道加速“F+”、換車道減速“C-”、換車道保持車速“C=”、換車道加速“C+”.為確保車輛間無(wú)碰撞無(wú)追尾等沖突發(fā)生，需要對(duì)CAV添加一定的先驗(yàn)知識(shí)，以避免缺乏合理性的模擬過(guò)程，從而顯著提高學(xué)習(xí)效率.如當(dāng)dn=0時(shí)車輛n不可能采取本車道加速的“F+”動(dòng)作.設(shè)車輛n在狀態(tài)S時(shí)可行的非空動(dòng)作空間為Afeasible,n(S)，且Afeasible,n(S)∈Aall.為了充分體現(xiàn)Q強(qiáng)化學(xué)習(xí)方法的在線學(xué)習(xí)性，采用ε-貪婪策略選取即時(shí)動(dòng)作，即車輛n處以ε的概率執(zhí)行Q表中狀態(tài)S的動(dòng)作價(jià)值最大對(duì)應(yīng)的動(dòng)作，以(1-ε)概率隨機(jī)執(zhí)行動(dòng)作，即

(18)

其中，rand()表示[0,1]中一個(gè)隨機(jī)數(shù)，F(xiàn)(·)表示隨機(jī)選擇函數(shù).獎(jiǎng)勵(lì)值的設(shè)置以行駛目標(biāo)為準(zhǔn)則.基于所有車輛均以獲得最大平均速度為行駛目標(biāo)的假設(shè)，因此Q學(xué)習(xí)中的獎(jiǎng)勵(lì)應(yīng)引導(dǎo)CAV嘗試提速操作.獎(jiǎng)勵(lì)值計(jì)算如下：

r=vn(S′)-vn(S)

(19)

式中：vn(S)表示車輛n在狀態(tài)S時(shí)的車速，且S′：S×π(S).

2.4 混合訓(xùn)練

CAV與RV在仿真系統(tǒng)中的訓(xùn)練過(guò)程如圖3所示.由于混合交通流中CAV與RV共存，兩種智能體分別由Q學(xué)習(xí)和CA構(gòu)造，因此考慮對(duì)Q學(xué)習(xí)進(jìn)行改造，取消Q學(xué)習(xí)中的周期，并將Q學(xué)習(xí)中的迭代步與CA的時(shí)間步訓(xùn)練演化策略相融合.同時(shí)，系統(tǒng)中所有CAV共享Q表，以顯著加速?gòu)?qiáng)化學(xué)習(xí)速度.

3 仿真與數(shù)值分析

3.1 仿真設(shè)計(jì)

仿真平臺(tái)由python語(yǔ)言編寫，以道路長(zhǎng)度L=3 km的雙車道作為仿真模擬環(huán)境.為更細(xì)致地反應(yīng)車輛在車道上的行駛性質(zhì)，單元元胞長(zhǎng)度lcell設(shè)置為1 m，車輛車身長(zhǎng)度l為5 m，即單車占用5個(gè)連續(xù)元胞.車輛最大行駛速度vmax為25元胞·s-1(90 km·h-1)，最大加速度a與最大減速度b分別設(shè)為5元胞·s-2、10元胞·s-2.RV的換道操作水平δ={-2,-1,0,1,2}，隨機(jī)慢行概率Prandom=0.05.為簡(jiǎn)化分析維度、更大程度地揭示兩種車型不同的微觀行駛特性、提高仿真效率，假設(shè)換道概率Pchange=1，即當(dāng)車輛滿足換道條件時(shí)便采取換道操作.設(shè)N表示車輛總數(shù)，β為CAV車輛滲透率，T為有效仿真時(shí)長(zhǎng)，則車流平均速度為單位時(shí)期內(nèi)所有車輛速度總和的平均值，車流平均密度為每公里每車道平均的車輛數(shù)，流量為單位時(shí)間內(nèi)通過(guò)某一道路橫截面的車輛數(shù).

圖3 仿真模擬過(guò)程示意圖

(20)

(21)

(22)

(23)

式中：i為具體車道編號(hào)，即i={1,2}.

整個(gè)仿真過(guò)程分為訓(xùn)練過(guò)程及正式模擬過(guò)程.在訓(xùn)練過(guò)程，分別在不同密度不同CAV滲透率下運(yùn)行106時(shí)間步用于訓(xùn)練并形成CAV的運(yùn)行模式；在正式模擬中，每次演化時(shí)間步，只保留最后5 000步作為有效穩(wěn)定結(jié)果.每種仿真環(huán)境均重復(fù)運(yùn)行20次，將每次仿真得到的車道平均密度、車輛平均速度及平均流量再次平均化并以此最終仿真結(jié)果，用以降低瞬時(shí)效應(yīng).

3.2 不同CAV滲透率下的交通流特征分析

圖4反應(yīng)了不同密度及CAV車輛滲透率對(duì)混合交通流特征的影響程度.可以清晰看出車輛密度和CAV滲透率對(duì)混合交通流的通行能力及平均速度的影響效用.從圖4a可以看出，對(duì)于一定的β，密度與車輛速度呈現(xiàn)反相關(guān)關(guān)系.密度越大，車輛速度越低，并且當(dāng)30 veh·km-1≤ρ≤40 veh·km-1時(shí)影響效果最顯著.另一方面，β對(duì)速度的影響表現(xiàn)出了明顯的非線性，即Q學(xué)習(xí)下CAV與CA強(qiáng)規(guī)則的RV具有不同的演化方式.當(dāng)ρ在0～20 veh·km-1區(qū)間(車流稀疏)時(shí)，β對(duì)速度的影響程度不大.當(dāng)ρ在20～60 veh·km-1區(qū)間(車流趨于擁堵)，且β在0～0.65區(qū)間內(nèi)時(shí)β對(duì)速度的影響程度較弱，此時(shí)車流仍具有較大速度；當(dāng)β在0.65～1.00時(shí)β對(duì)速度的影響程度加強(qiáng)，表現(xiàn)為在同一密度下，β越大，車流速度越大；當(dāng)ρ在60～160 veh·km-1區(qū)間(車流處于輕微擁堵至較重?fù)矶聽顟B(tài))，β的提高顯著減小了密度對(duì)車速的影響程度；當(dāng)ρ大于160 veh·km-1時(shí)，即交通處于嚴(yán)重?fù)矶拢聦?duì)車流速度的影響程度降低，但仍然滿足正相關(guān)關(guān)系.

a β-ρ對(duì)速度的影響

b β-ρ對(duì)速度的影響

由式(23)可知，圖4b與圖4a的流量與速度在β與ρ的變化上具有相似特征，且由圖5還可以看出，當(dāng)β=0時(shí)，道路最大通行能力Qmax=2 073 veh·h-1；當(dāng)β=1時(shí)，Qmax=3 013 veh·h-1，即100%CAV的交通條件下通行能力提升了45.34%.此外，定義Φη(β)為在β一定時(shí)，密度ρ對(duì)應(yīng)的車輛流量Qρ大于η·Qmax的密度區(qū)間，即

(24)

η=0.85時(shí)不同的β所對(duì)應(yīng)的Φη(β)如圖6所示.可以看出，β有效地延長(zhǎng)了道路高通行能力的適應(yīng)密度.

由以上混合交通流特征分析可以看出，伴隨CAV滲透率的提高，交通流狀態(tài)有明顯改善.分析原因，主要是：

(1)CAV允許更小的車頭時(shí)距，CAV可以以更緊密的車隊(duì)集合行駛；

(2)經(jīng)過(guò)充分優(yōu)化訓(xùn)練的CAV智能體對(duì)每個(gè)可選動(dòng)作都事先加以評(píng)估，并選擇最優(yōu)駕駛行為，以期在動(dòng)態(tài)交通環(huán)境中達(dá)到更大速度，從而提升整體交通流的通行能力和平均速度.

a 速度-密度關(guān)系

b 流量-密度關(guān)系

圖6 Φ0.85(β)范圍曲線

3.3 換道頻率分析

研究表明，頻繁的換道是引發(fā)交通擁堵及事故的主要成因之一[36].換道操作改變了車輛橫向穩(wěn)定性，會(huì)對(duì)交通流產(chǎn)生重要影響.定義混合流換道頻率fLC為單位時(shí)間單位車輛的換道次數(shù)，由普通車輛及CAV車輛的換道頻率計(jì)算得

(25)

式中:Np,LC為有效仿真過(guò)程中p類型車輛的換道總次數(shù);Np為p類型車輛數(shù).仿真結(jié)果如圖7所示.

另一方面，隨著ρ的增加，fLC、fCAV,LC、fRV,LC在不同β下均呈現(xiàn)類基本圖走勢(shì).ρ越大，保持的換道頻率水平越低.具體而言，當(dāng)ρ低于轉(zhuǎn)折點(diǎn)對(duì)應(yīng)密度時(shí)，車輛間仍具有相對(duì)充足的空間進(jìn)行自由換道操作，此時(shí)fLC、fCAV,LC、fRV,LC與ρ呈現(xiàn)正相關(guān)關(guān)聯(lián)性；當(dāng)高于轉(zhuǎn)折點(diǎn)對(duì)應(yīng)密度后，受道路空間限制的趨勢(shì)加強(qiáng)，fLC、fCAV,LC、fRV,LC表現(xiàn)為與ρ呈反相關(guān).此外，相比于CAV，由于RV的換道條件對(duì)道路空間要求更高，因此fRV,LC表現(xiàn)出對(duì)ρ變化更加敏感.

圖7 不同滲透率、不同密度的換道頻率

4 結(jié)論

通過(guò)探索一種雙車道環(huán)境下的強(qiáng)化學(xué)習(xí)方法與元胞自動(dòng)機(jī)相結(jié)合的演化機(jī)制，提出了基于改進(jìn)的Q學(xué)習(xí)方法，精準(zhǔn)模擬普通車和智能網(wǎng)聯(lián)車輛的微觀行駛策略，以此構(gòu)建了一種針對(duì)雙車道環(huán)境下混合交通流的高效仿真方法.此方法以個(gè)體優(yōu)化為目標(biāo)，探討CAV微觀駕駛行為所產(chǎn)生的集聚效應(yīng)是否對(duì)交通流有優(yōu)化作用，得到結(jié)論如下：

(1)相比于高度規(guī)則化的元胞自動(dòng)機(jī)，強(qiáng)化學(xué)習(xí)形成的行駛策略具有更高的靈活性及相鄰時(shí)空環(huán)境適應(yīng)能力，更符合CAV的智慧行為特征；

(2)不同車流密度條件下，道路通行能力及車流平均速度可隨著CAV滲透率的提高而增加，且維持高通行能力的密度范圍也同步擴(kuò)大，一定程度上延后了車流擁堵密度；

(3)不同車流密度條件下，隨著CAV滲透率的提高，混合車流換道頻率降低，車流橫向穩(wěn)定性增強(qiáng).

由于采用的對(duì)稱式雙車道的道路仿真環(huán)境相對(duì)簡(jiǎn)單，對(duì)整體交通情況的刻畫還不夠貼近，因此可能與現(xiàn)實(shí)情況還存在一定差距.將來(lái)的研究工作需要進(jìn)一步改進(jìn)道路模型，也需要對(duì)更復(fù)雜的道路交通環(huán)境下的混合交通流特性進(jìn)行深入研究.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看