• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于場景動力學(xué)和強化學(xué)習(xí)的自動駕駛邊緣測試場景生成方法*

      2022-08-04 07:19:34李江坤鄧偉文任秉韜王文奇
      汽車工程 2022年7期
      關(guān)鍵詞:主車測系統(tǒng)邊緣

      李江坤,鄧偉文,任秉韜,王文奇,丁 娟

      (1. 北京航空航天大學(xué)交通科學(xué)與工程學(xué)院,北京 100191;2. 浙江天行健智能科技有限公司,嘉興 314000)

      前言

      汽車智能化是汽車行業(yè)未來發(fā)展的重要方向,因其在緩解交通擁堵、提升道路安全方面的巨大優(yōu)勢已引起政府、行業(yè)和科研機構(gòu)的廣泛關(guān)注。由于真實世界場景具有無限豐富、難以預(yù)測、強不確定性的特征,使基于人工智能的智能駕駛技術(shù)在實際場景應(yīng)用中不斷呈現(xiàn)脆弱性,導(dǎo)致Waymo、Tesla、Uber 和蔚來等智能駕駛汽車事故頻發(fā)。因此如何解決小概率、高風(fēng)險邊緣測試場景的長尾問題成為自動駕駛測試驗證的關(guān)鍵技術(shù)挑戰(zhàn)。

      智能駕駛系統(tǒng)由感知模塊、決策規(guī)劃模塊和執(zhí)行功能模塊組成。任何功能模塊失效都有可能導(dǎo)致車輛發(fā)生安全事故。道路測試是目前主要的測試手段。在安全員的監(jiān)管下,智能駕駛系統(tǒng)在法律規(guī)定的開放道路上進行實車測試。真實的道路場景兼顧了以上方面,能夠?qū)崿F(xiàn)軟硬件一體化測試,但是也面臨著測試不充分的問題,主要體現(xiàn)在兩個方面:(1)當車輛面臨危險時,安全員會第一時間接管車輛來保證絕對安全,導(dǎo)致無法測試系統(tǒng)在極端工況下的性能表現(xiàn);(2)小概率邊緣場景的稀疏樣本問題。

      邊緣場景是邏輯場景參數(shù)空間中介于碰撞危險和安全邊界附近區(qū)域的場景集合,具有小概率、高風(fēng)險的特點,能夠加速測試自動駕駛系統(tǒng)的能力邊界。以真實世界中頻繁發(fā)生的典型切入場景為例,高危險、緊急突發(fā)的交通車切入干擾行為具有小概率發(fā)生特征,依托于現(xiàn)有示范區(qū)和開放道路的測試效率低。因此基于仿真的邊緣場景自動生成技術(shù)成為了自動駕駛系統(tǒng)安全驗證的關(guān)鍵。

      數(shù)字孿生仿真測試技術(shù)是一種融合實際場地與虛擬場景的高效測試手段,它不僅能解決邊緣場景測試不充分的問題,還能提升測試效率實現(xiàn)加速測試。數(shù)字孿生的仿真測試打破了時空約束,可在仿真平臺中不受時間、場地的限制生成具有挑戰(zhàn)性的邊緣場景。建模過程中,首先連續(xù)場景被離散為有限個條件動作組合,然后基于“條件-動作”結(jié)構(gòu)對場 景 建 模。例 如Zhao 等使 用TTC(time to collision)作為切入場景中前車切入動作的觸發(fā)條件,當兩車之間的TTC 滿足閾值時前車按照固定的速度和換道路徑開始換道。OpenScenario 標準中對場景的條件和動作設(shè)計給出了詳細描述。該方法的優(yōu)勢在于將高度抽象的測試環(huán)境建模為能夠用數(shù)學(xué)公式描述的參數(shù)化場景。其中邊緣場景建模問題可轉(zhuǎn)化為相應(yīng)優(yōu)化求解問題,通過優(yōu)化搜索“條件-動作”參數(shù)空間來不斷縮小測試過程中實際風(fēng)險與預(yù)期風(fēng)險之間的偏差。常用的優(yōu)化方法有貝葉斯優(yōu)化、模擬退火、粒子群優(yōu)化算法和強化學(xué)習(xí)。然而,這類場景建模方法存在動態(tài)交互不足的問題,換道過程中交通車按照預(yù)定的速度行駛無法及時響應(yīng)被測系統(tǒng)的速度變化,與真實世界的復(fù)雜的交互博弈差別較大。

      考慮到真實場景中的各種外界輸入直接或間接地影響內(nèi)部狀態(tài)隨時間的變化規(guī)律,包括被測車狀態(tài)、交通流中車輛間的相互作用等,文中從場景動力學(xué)角度研究場景中作用于參與物的力和參與物狀態(tài)關(guān)系變化規(guī)律的映射關(guān)系,力求準確描述交通流中車輛的交互與動態(tài)博弈行為。因此,本研究采用動力學(xué)方程建立邏輯場景模型,并提出一種面向自動駕駛加速測試的邊緣場景強化生成方法。場景動力學(xué)系統(tǒng)描述狀態(tài)隨時間的動態(tài)變化,能夠及時響應(yīng)被測系統(tǒng)的狀態(tài)變化,減少無效場景的生成。并引入強化學(xué)習(xí)理論來解決邊緣場景的優(yōu)化生成問題。最后通過仿真驗證所提出方法的有效性。該方法已應(yīng)用于團隊自研的商業(yè)仿真軟件PanoSim,表明具有一定的工程應(yīng)用價值。

      1 生成方法框架

      將場景動力學(xué)建模和強化學(xué)習(xí)方法相結(jié)合,提出一種基于場景動力學(xué)的邊緣場景強化生成方法。如圖1 所示,整個方法分為場景動力學(xué)建模和邊緣場景控制器建模兩大部分。

      圖1 基于場景動力學(xué)的邊緣場景強化生成框架

      場景動力學(xué)建模:隨時間動態(tài)變化的場景被建模為由微分方程表達的場景動力學(xué)系統(tǒng)?=(,,)。由于場景中的被測系統(tǒng)未知,無法基于形式化推導(dǎo)建立準確的場景數(shù)學(xué)表達模型,因此將場景動力學(xué)系統(tǒng)建模為一個黑箱函數(shù)。本研究僅關(guān)注場景輸入對被測系統(tǒng)的影響,即與場景評價目標的差值。常見的場景評價指標有場景危險度、場景復(fù)雜度和場景無序度等。

      最后基于強化學(xué)習(xí)算法構(gòu)建邊緣場景控制器,目標是找到一組能夠刺激被測系統(tǒng)產(chǎn)生緊急制動行為的邊緣場景。強化學(xué)習(xí)部分著重介紹基于DDPG算法設(shè)計邊緣場景控制器的應(yīng)用示例,主要包含DDPG算法、獎勵函數(shù)設(shè)計和網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計3個模塊。

      2 場景動力學(xué)建模

      2.1 場景動力學(xué)系統(tǒng)描述

      真實世界場景是一個隨時間變化的復(fù)雜動態(tài)系統(tǒng),具有不可預(yù)測、不可窮盡的特征。場景中的道路網(wǎng)絡(luò)和交通規(guī)則是靜態(tài)結(jié)構(gòu),不會隨時間變化,可以通過組合的方式生成。相反,場景交通是一個隨時間變化的動態(tài)系統(tǒng),交通參與者的運動組合具有無窮多種,基于離散事件組合生成方法無法窮盡所有的參數(shù)組合,且伴隨大量無效組合場景生成。因此,本研究受到微觀交通流建模方法的啟發(fā),從微觀建模的角度,在考慮場景靜態(tài)結(jié)構(gòu)的影響下,基于交通參與者個體的運動建模方法建立場景動力學(xué)模型。

      場景的狀態(tài)方程可描述為如下的時變非線性系統(tǒng):

      式中:(·)為系統(tǒng)微分函數(shù),描述系統(tǒng)狀態(tài)的動態(tài)行為變化規(guī)律,綜合反映了靜態(tài)場地、交通設(shè)施、天氣條件和其他交通參與者對交通參與者個體行為變化的影響;為場景靜態(tài)參數(shù),包含道路結(jié)構(gòu)、氣象條件和交通設(shè)施等;為系統(tǒng)狀態(tài)變量,是完整描述系統(tǒng)運動狀態(tài)的數(shù)量最小的一組變量。狀態(tài)變量可以是交通參與者的位置、速度和加速度等物理量。狀態(tài)變量的選取較為自由,可以根據(jù)建模需求選定。例如,被測系統(tǒng)對交通車的擾動能夠驅(qū)使系統(tǒng)狀態(tài)發(fā)生轉(zhuǎn)變,因此兩車的相對運動狀態(tài)(相對距離、相對速度)可以作為系統(tǒng)的狀態(tài)量;為系統(tǒng)輸入量,是驅(qū)動場景系統(tǒng)動態(tài)變化的主要驅(qū)動力,例如高速公路直道跟馳場景中,交通車的縱向驅(qū)動力是場景動態(tài)變化的主要驅(qū)動力;為系統(tǒng)輸出量。場景評價量化信息是重要的系統(tǒng)輸出量,用于指導(dǎo)場景的優(yōu)化搜索方向。例如,場景復(fù)雜度、場景無序度、場景危險度等量化指標。TTC、THW(time headway)和緊急制動強度等是常用的場景危險度的量化指標。

      2.2 場景動力學(xué)建模過程

      圖2 為典型的切入場景。場景可以分為3 個階段“直行-換道-直行”。場景初始時刻交通車位于被測系統(tǒng)后方,首先交通車直行超越被測系統(tǒng),然后當滿足切入條件時執(zhí)行換道切入動作,最后完成換道繼續(xù)直行。交通車的換道切入動作侵占了被測系統(tǒng)的行駛空間,極易引發(fā)追尾碰撞事故,是典型的邊緣場景。本文中以圖2為例介紹場景動力學(xué)模型的建立過程。

      圖2 基于固定切入點的場景參數(shù)化模型

      場景靜態(tài)參數(shù)描述了場景的空間結(jié)構(gòu)、天氣條件、交通規(guī)則,它不隨時間變化,可以作為場景的初始預(yù)定義參數(shù)。如圖2 所示,本文暫未考慮天氣條件和交通設(shè)施的影響,假設(shè)車輛沿著固定路徑行駛,因此場景靜態(tài)參數(shù)被簡化為一個固定的路徑。

      基于固定切入點的優(yōu)勢在于換道過程中的曲線軌跡固定不變,可以通過調(diào)節(jié)第一段直行路徑的長度和兩車的速度來模擬各種工況下的切入行為,從而將交通車的橫縱向運動控制簡化為簡單的循跡運動控制。

      狀態(tài)變量主要從位置信息和速度信息兩大類中選取。具體選取結(jié)果為

      式中:為交通車到切入點的距離,m;為交通車的車頭速度,m/s;為兩車的縱向相對距離,交通車相對被測系統(tǒng)位置在前為負,在后為正,m;為被測系統(tǒng)的車頭速度,m/s。因此是一個5 維的狀態(tài)變量。

      因為交通車沿固定路徑行駛,因此系統(tǒng)的輸入量是交通車的縱向驅(qū)動力,即

      車輛行駛過程中,除道路結(jié)構(gòu)和交通設(shè)施的影響,車輛的速度波動多來自于周圍交通車的干擾。車輛制動加速度能客觀反映場景的危險程度。場景越危險,系統(tǒng)反應(yīng)時間越短,緊急制動加速度越大。因此本研究選取被測系統(tǒng)緊急制動加速度作為場景邊緣屬性量化指標,即系統(tǒng)的輸出量為

      式中為比例系數(shù)。

      綜上所述,典型切入場景的狀態(tài)方程為

      式中:為系統(tǒng)的狀態(tài)矩陣,反映了系統(tǒng)內(nèi)部各狀態(tài)變量之間的耦合關(guān)系;為輸入矩陣,反映輸入量是如何影響各狀態(tài)變量;為輸出矩陣,表明狀態(tài)變量到輸出的轉(zhuǎn)換關(guān)系。因被測系統(tǒng)的控制策略未知,是場景中的不可控元素,故難以給出明確的、矩陣。目前在場景生成過程中,研究人員多沿襲先進駕駛員輔助系統(tǒng)(ADAS)邏輯場景的構(gòu)建方法,通過預(yù)定義主車的行為或軌跡來近似建模。然而高級別的智能駕駛系統(tǒng)行為變化復(fù)雜,難以建立明確的系統(tǒng)數(shù)學(xué)模型,且過度簡化會丟失系統(tǒng)關(guān)鍵的動態(tài)特性,最后當被測主車與預(yù)期行為不一致時也會造成測試失效。

      基于以上分析,本研究忽略場景元素之間復(fù)雜的耦合關(guān)系,僅關(guān)注場景輸入和輸出的映射關(guān)系,將場景動力學(xué)系統(tǒng)描述為一個黑盒函數(shù),即

      式中F為場景黑盒函數(shù)。

      考慮到神經(jīng)網(wǎng)絡(luò)強大的黑盒建模能力,本研究基于強化學(xué)習(xí)方法構(gòu)建邊緣場景控制器,借助神經(jīng)網(wǎng)絡(luò)實現(xiàn)輸入到輸出的映射關(guān)系建模。生成的邊緣場景模型結(jié)構(gòu)為神經(jīng)網(wǎng)絡(luò),整個訓(xùn)練過程中滿足需求的網(wǎng)絡(luò)權(quán)重會被保存到邊緣場景庫中。

      表1 中詳細地示出3 種典型工況場景的狀態(tài)變量選取方法。其中,跟馳場景中狀態(tài)變量的選取主要考慮兩車的速度、相對距離和加速度信息;不規(guī)則切入場景中除要考慮速度和距離信息外,還須關(guān)注交通車到?jīng)_突點的距離和兩車通過沖突點的時間差?;在復(fù)雜的多車換道場景中,還須考慮主車的航向角和橫向剩余換道距離。表1 中的3種場景簡化了交通車運動僅考慮車輛的縱向運動,因此系統(tǒng)輸入量為縱向驅(qū)動力,與車輛的加速度成正比。在多車換道場景中,兩輛交通車協(xié)同運行,系統(tǒng)輸入量是兩車縱向驅(qū)動力的2維向量。

      表1 典型工況場景變量選取過程

      3 基于DDPG 算法的邊緣場景控制器構(gòu)建

      3.1 基于馬爾可夫決策過程的問題建立

      真實測試場景中,車輛下一個狀態(tài)決策不僅與當前狀態(tài)有關(guān),還和歷史狀態(tài)有關(guān)。為簡化模型,本研究假設(shè)交通車與被測系統(tǒng)的動態(tài)交互過程滿足馬爾科夫?qū)傩?,將邊緣場景控制器建模問題構(gòu)造為馬爾可夫決策過程(Markov decision process,MDP),即下一個狀態(tài)僅與當前的狀態(tài)和動作有關(guān),表示為

      式中:為強化學(xué)習(xí)模型的觀測狀態(tài),場景動力學(xué)模型的觀測量()和輸入()都是強化學(xué)習(xí)模型的狀態(tài)空間,=[(),()];為強化學(xué)習(xí)模型的動作空間,輸出下一時刻交通車的動作;(,)為描述環(huán)境狀態(tài)轉(zhuǎn)換的概率模型,表示在狀態(tài)下對智能體采取動作轉(zhuǎn)到下一個狀態(tài)的概率;(|)為個體策略,在狀態(tài)時采取動作的概率,場景模型函數(shù)=(|);(,)為環(huán)境獎勵,表示交通車從狀態(tài)轉(zhuǎn)換到狀態(tài)后收到的即時獎勵。

      基于強化學(xué)習(xí)的策略=(|)求解原理如圖3 所示。策略是具有可調(diào)參數(shù)的函數(shù)逼近器,例如深度神經(jīng)網(wǎng)絡(luò)。學(xué)習(xí)算法基于狀態(tài)、動作和獎勵不斷更新策略參數(shù)。

      圖3 強化學(xué)習(xí)方法原理

      3.2 深度確定性策略梯度算法

      本研究受到谷歌DeepMind 團隊研究的啟發(fā),將深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法應(yīng)用到交通車的連續(xù)動作控制中。DDPG 是一種基于Actor-Critic 網(wǎng)絡(luò)框架的無模型、離線策略強化學(xué)習(xí)方法,能夠很好處理連續(xù)動作空間的輸出問題,在自動駕駛控制領(lǐng)域應(yīng)用廣泛。

      DDPG 算法主要由基于策略的Actor 網(wǎng)絡(luò)和基于價值Critic 網(wǎng)絡(luò)兩部分組成,Actor 網(wǎng)絡(luò)根據(jù)環(huán)境狀態(tài)觀測信息產(chǎn)生連續(xù)動作,Critic 網(wǎng)絡(luò)是對Actor網(wǎng)絡(luò)輸出動作的評價,主要根據(jù)環(huán)境狀態(tài)信息、獎勵等參數(shù)更新網(wǎng)絡(luò)。為解決訓(xùn)練-樣本強相關(guān)性的問題,Actor、Critic網(wǎng)絡(luò)均采用off-policy方式訓(xùn)練,即有兩個網(wǎng)絡(luò)結(jié)構(gòu)完全一致的在線網(wǎng)絡(luò)和目標網(wǎng)絡(luò)。

      DDPG算法整體框架如圖4所示,智能體從環(huán)境中獲取當前的狀態(tài),然后由在線策略網(wǎng)絡(luò)計算得到智能體對應(yīng)動作,接著對環(huán)境實施動作得到獎勵和新的狀態(tài)′,并將上述要素組成新的四元組{,,,}存入經(jīng)驗回放池,并構(gòu)建如式(8)所示的均方差損失函數(shù),通過神經(jīng)網(wǎng)絡(luò)梯度反向傳播更新在線網(wǎng)絡(luò)的參數(shù)。

      圖4 深度確定性策略梯度算法框架

      在線網(wǎng)絡(luò)用于更新在線策略網(wǎng)絡(luò)參數(shù),其梯度表達式為

      DDPG 目標網(wǎng)絡(luò)的參數(shù)更新采用一種軟更新的方法,即每次參數(shù)值更新較小幅度,即

      式中為更新系數(shù),取值一般較小,如0.1或0.01。

      3.3 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計

      考慮到環(huán)境狀態(tài)的輸入變量空間規(guī)模較小,研究中首先選用簡單、高效的4 層全連接網(wǎng)絡(luò),從狀態(tài)中充分挖掘場景信息背后隱藏的運動規(guī)律,在滿足任務(wù)需求的前提下還能提高訓(xùn)練速度,Actor 網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。為提高模型的收斂速度,在全連接層之間采用ReLU 激活函數(shù),最后通過縮放層對輸出進行線性縮放和偏置,此處采用tanh 激活函數(shù)為加速度提供有界輸出。

      圖5 Actor網(wǎng)絡(luò)結(jié)構(gòu)

      Critic 網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。環(huán)境狀態(tài)通過2層的全連接層處理后與經(jīng)過1 層全連接層處理的動作取和,然后在經(jīng)過2 層的全連接層處理得到值。全連接層之間都采用ReLU激活函數(shù)。

      圖6 Critic網(wǎng)絡(luò)結(jié)構(gòu)

      3.4 獎勵函數(shù)設(shè)計

      獎勵函數(shù)是強化學(xué)習(xí)的重要組成元素,其設(shè)計直接影響智能體學(xué)習(xí)、進化的方向,是強化學(xué)習(xí)算法訓(xùn)練成功的關(guān)鍵。為使生成的邊緣場景兼顧危險性和合理性,本文中從對抗獎勵和不合理碰撞獎勵兩方面來設(shè)計獎勵函數(shù)。對抗性獎勵是為提高交通車對邊緣場景的探索能力,不合理碰撞獎勵是為約束交通車動作的合規(guī)性,提高生成場景的合理性。

      除因道路結(jié)構(gòu)限制導(dǎo)致的車輛減速行為外,智能駕駛系統(tǒng)行駛過程中的大幅制動多源于其他交通參與者的影響。例如行駛過程中前車緊急制動,或鄰車近距離切入都會導(dǎo)致車輛采取緊急制動避障行為。制動強度越大說明交通車的影響越大,場景越具有挑戰(zhàn)性。因此被測系統(tǒng)緊急制動過程中的制動加速度可以量化智能體的對抗性獎勵。對抗性獎勵可表示為

      當智能體在一個周期內(nèi)未觸發(fā)被測系統(tǒng)緊急制動行為時被認為探索失敗,須返回一個負獎勵。探索失敗獎勵的表達見式(12):

      式中為常數(shù),通過仿真調(diào)參選取具體值。

      雖然本文鼓勵碰撞事故發(fā)生,但是更關(guān)心被測系統(tǒng)導(dǎo)致的碰撞事故,因此要減小由交通車不合理行為導(dǎo)致的碰撞事故。例如交通車切入過程中的追尾事故、被測系統(tǒng)正常行駛過程中被追尾或交通車近距離切入導(dǎo)致智能駕駛系統(tǒng)來不及反應(yīng)去規(guī)避碰撞事故。這些都是不合理碰撞場景,應(yīng)該通過獎勵函數(shù)引導(dǎo)智能體的探索方向,減少此類場景的產(chǎn)生。不合理碰撞獎勵的表示見式(13):

      式中為常數(shù),通過仿真調(diào)參選取具體值。

      最終獎勵函數(shù)為

      式中、、為各項獎勵的權(quán)重系數(shù),通過仿真調(diào)參獲取最終值。

      4 驗證與分析

      本研究設(shè)計了兩個典型場景示例,以驗證所提出的方法。

      4.1 智能駕駛策略(被測系統(tǒng))

      被測系統(tǒng)基于智能駕駛員模型實現(xiàn)沿路行駛。當相鄰交通車的車身在地面上的投影落入自車前面車道便被視為前車。智能駕駛員模型(intelligent driving model,IDM)是典型的跟馳模型。該模型描述了在駕駛員追求期望車速的心理作用下車輛的速度和加速度變化規(guī)律,同時前車對車輛的運動變化構(gòu)成障礙。智能駕駛模型公式為

      4.2 DDPG模型基本參數(shù)設(shè)定

      DDPG 的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練參數(shù)如表2 和表3 所示。訓(xùn)練過程中每次訓(xùn)練的周期為30 s,采樣步長為0.1 s,最大訓(xùn)練次數(shù)為5 000 次。對于每一次訓(xùn)練,當車輛發(fā)生碰撞,或訓(xùn)練時間超過30 s,或最大行駛距離超過80 m 時,結(jié)束此次訓(xùn)練,并開始新一次的訓(xùn)練。

      表2 DDPG網(wǎng)絡(luò)結(jié)構(gòu)

      表3 DDPG網(wǎng)絡(luò)訓(xùn)練參數(shù)

      強化學(xué)習(xí)模型的狀態(tài)空間和動作空間須分別根據(jù)場景動力學(xué)模型的狀態(tài)變量和輸入變量具體設(shè)計。

      4.3 典型切入場景示例

      4.3.1 實驗參數(shù)

      狀態(tài)空間=[,,,,],動作空間=,獎勵函數(shù)式(12)~式(14)中的參數(shù)取值為= 1,= 1,= 10,= 20,= 20。

      4.3.2 分析與討論

      針對離散獎勵,獎勵平滑處理以后(平均窗口長度為300),整個訓(xùn)練過程的獎勵變化曲線如圖7 所示。經(jīng)過1 500次的訓(xùn)練獎勵值逐漸穩(wěn)定,說明強化學(xué)習(xí)模型收斂。

      圖7 每個Episode平均累積獎勵變化曲線

      訓(xùn)練過程中緊急制動次數(shù)的變化如圖8 所示,訓(xùn)練次數(shù)按照500 間隔被分為10 組??梢钥闯?,當訓(xùn)練在1 500次附近后,智能駕駛系統(tǒng)的緊急制動次數(shù)穩(wěn)定在400左右,即測試成功率為400/500 = 80%,這與基于平均累計獎勵變化曲線的分析結(jié)論一致。

      圖8 系統(tǒng)緊急制動次數(shù)變化

      與強化學(xué)習(xí)在優(yōu)化求解領(lǐng)域的應(yīng)用不同,本研究的目標不是找到一個最危險的邊緣場景,而是希望找到盡可能多的邊緣場景。由強化學(xué)習(xí)最優(yōu)求解的特性可知,繼續(xù)訓(xùn)練得到的都是同質(zhì)化的場景,無法提升場景的多樣性。因此,當強化學(xué)習(xí)訓(xùn)練收斂時,可以通過增加模型探索能力,來提高生成場景的多樣性。未來研究中,將考慮引入動態(tài)探索系數(shù)來提高場景多樣性。

      通過一個具體的測試場景來說明該方法在動態(tài)交互博弈方面的優(yōu)勢。訓(xùn)練過程中,兩車的速度-相對位置變化如圖9 所示。首先基于兩車的相對距離可將兩車的位置關(guān)系分為交通車相對位置在后和相對位置在前兩種。

      圖9 速度-相對距離變化曲線

      交通車相對位置在后時,速度呈現(xiàn)出一種波動增加的趨勢,這增加了智能駕駛系統(tǒng)對周圍交通車速度、未來運動趨勢預(yù)測的難度。交通車相對位置在前時,交通車運動狀態(tài)是先減速直行后加速切入,交通車先減速縮小兩車的相對距離,然后在加速切入縮短主車車道的時間,從而提高被測系統(tǒng)的緊急制動可能性。由此表明強化生成的交通車能夠通過對抗性博弈訓(xùn)練更高效地找到被測系統(tǒng)決策規(guī)劃的安全漏洞。

      經(jīng)過仿真統(tǒng)計,測試過程中智能駕駛系統(tǒng)的制動加速度分布區(qū)間為[ - 5.5,- 3.5]m s,然后按照0.25 m/s的間隔得到8 組加速度,加速度出現(xiàn)頻次占比分布如圖10所示。由圖可見,加速度的分布較均勻,最大占比和最小占比的極差為5.941 個百分點,這說明本文提出的方法能夠有效覆蓋各種測試工況。

      圖10 智能駕駛系統(tǒng)緊急制動加速度分布圖

      4.4 不規(guī)則切入場景示例

      4.4.1 場景描述

      場景中交通車的運動軌跡由多段曲線組合而成,為更加貼近真實駕駛場景,本研究將交通車的切入干擾運動過程抽象為試探切入-安全駛離-最終切入3 個階段,如圖11 所示。相鄰車輛換道切入時會存在試探行為,在試探切入過程中交通車如發(fā)現(xiàn)存在安全風(fēng)險,會終止試探行為,并安全駛離目標車道,然后等待合適的時機再繼續(xù)最終切入。

      圖11 不規(guī)則切入場景

      4.4.2 實驗參數(shù)

      表1 示出場景的狀態(tài)變量和輸入變量選取方法 。因此強化學(xué)習(xí)狀態(tài)空間=[,,[,,],[Δ,Δ,Δ]],動作空間=。獎勵函數(shù)式(12)~式(14)中的參數(shù)取值為= 1,=1,= 10,= 20,= 20。

      4.4.3 分析與討論

      交通車與主車的博弈對抗過程如圖12 所示。圖中藍色曲線為交通車的運動路徑,兩車的速度、相對距離、主車的加速度信息以散點的形式呈現(xiàn)。

      由圖12(a)可見,主車整個運動經(jīng)歷了加速-減速-加速-減速4 個過程。首次切入過程中,由圖12(d)可見:兩車的相對距離小于5 m,主車減速避讓;交通車駛離階段主車又加速行駛;在主車加速過程中,交通車的切入導(dǎo)致主車產(chǎn)生了緊急制動行為。圖12(b)也全面展示了主車的加速度變化。

      圖12 交通車-主車博弈對抗過程

      在交通車駛離時,主車激進加速能保證行駛效率但會帶來安全隱患,主車過于保守能確保安全,但行駛效率低。該場景很好地考驗了主車的綜合決策能力,為效率最優(yōu)和安全最優(yōu)之間的權(quán)衡決策提供了有效測試手段。不規(guī)則切入場景相比于固有勻速切入場景,能增強對車輛間交互能力的測試,貼合實際測試要求,其中交通車的速度過快或過慢都無法保證3 個階段在整體測試過程起作用。這表明本研究設(shè)計的基于DDPG 構(gòu)建的邊緣場景控制器為解決生成效率低和交互測試困難提供了一種有效途徑。

      4.5 基于PanoSim仿真平臺的測試應(yīng)用

      本研究提出的方法已在國產(chǎn)商業(yè)仿真軟件PanoSim 進行驗證。PanoSim 是由作者團隊自主開發(fā)的一款面向汽車自動駕駛技術(shù)與產(chǎn)品研發(fā)的一體化仿真與測試平臺,它集成了高精度車輛動力學(xué)模型、高逼真汽車行駛環(huán)境與交通模型、車載環(huán)境傳感器模型和豐富的測試場景。作為國內(nèi)自主仿真平臺在第四屆世界智能駕駛挑戰(zhàn)賽(WIDC)中得到應(yīng)用。

      本文中選取PanoSim 軟件內(nèi)置的智能駕駛員模型作為測試對象,將生成的邊緣場景模型導(dǎo)入PanoSim軟件中驅(qū)動交通車運動,仿真結(jié)果顯示它能有效觸發(fā)被測對象的緊急避撞策略,實現(xiàn)危險工況的自動化生成和測試。圖13 展示了一個完整的測試過程,仿真初始時刻主車(灰色的SUV)和交通車(白色的轎車)分別位于兩條車道上,交通車在主車的后方,然后交通車加速超過主車,在超過主車一定距離后實施換道切入動作,從而觸發(fā)主車的緊急制動策略,完成測試。

      圖13 基于PanoSim的仿真測試過程

      測試過程中,主車的加速度變化曲線如圖14所示。在第15 s時,主車開始緊急制動,最大制動減速度達到8.29 m/s,說明該方法能有效生成極具挑戰(zhàn)性的邊緣場景,有助于發(fā)現(xiàn)系統(tǒng)的安全漏洞,提高測試效率。

      圖14 被測系統(tǒng)加速度變化

      仿真場景生成方法具有可重復(fù)性的優(yōu)勢。訓(xùn)練過程中所有緊急制動場景對應(yīng)的網(wǎng)絡(luò)權(quán)重都被保存到邊緣場景庫中。測試階段僅須調(diào)用對應(yīng)的網(wǎng)絡(luò)權(quán)重即可復(fù)現(xiàn)測試場景。例如,當智能系統(tǒng)算法工程師對算法進行迭代升級后,通過調(diào)用邊緣場景庫中的網(wǎng)絡(luò)權(quán)重即可實現(xiàn)測試場景復(fù)現(xiàn),且場景中的交通車具備動態(tài)交互能力,通過測試能發(fā)現(xiàn)新升級的算法是否具備應(yīng)對該邊緣場景的能力,從而提高測試效率。此外,強化學(xué)習(xí)只有在訓(xùn)練過程中需要大量計算資源,當訓(xùn)練生成了目標網(wǎng)絡(luò)策略后,調(diào)用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)無需耗費大量的計算資源,能滿足車輛極限工況測試的實時性要求。

      5 結(jié)論與展望

      為解決自動駕駛仿真測試中邊緣場景小概率、高風(fēng)險的長尾問題,本文中提出一種基于場景動力學(xué)的邊緣場景強化生成方法,提升快速測試能力。該方法首先為場景建立了由微分方程表達的動力學(xué)系統(tǒng)模型,描述測試環(huán)境系統(tǒng)的狀態(tài)變化;然后將神經(jīng)網(wǎng)絡(luò)作為通用函數(shù)逼近器,基于強化學(xué)習(xí)構(gòu)造邊緣場景黑盒控制器。仿真測試結(jié)果表明,該方法能有效地提升邊緣場景的動態(tài)博弈行為模擬、場景覆蓋率和可重復(fù)測試能力。當前研究還存在邊緣特征提取不全、場景建??紤]因素不全面的問題,未來將深入研究復(fù)雜場景的動力學(xué)建模和屬性量化問題。

      猜你喜歡
      主車測系統(tǒng)邊緣
      歐曼牽引車制動系統(tǒng)異常的故障處理
      時代汽車(2018年4期)2018-05-31 02:53:08
      主車與掛車分別設(shè)立第三者責(zé)任保險的賠償額如何確定
      山東青年(2017年7期)2018-01-11 16:09:15
      一張圖看懂邊緣計算
      防洪非工程措施設(shè)計實例——嘉興市水文巡測系統(tǒng)項目設(shè)計
      電快速瞬變脈沖群對核測系統(tǒng)的影響及對策
      基于廣域量測系統(tǒng)的電力系統(tǒng)綜合負荷辨識模型的研究
      電測與儀表(2015年8期)2015-04-09 11:50:12
      三維標測系統(tǒng)指導(dǎo)下射頻消融治療房顫的護理觀察
      在邊緣尋找自我
      雕塑(1999年2期)1999-06-28 05:01:42
      走在邊緣
      雕塑(1996年2期)1996-07-13 03:19:02
      邊緣藝術(shù)
      雕塑(1996年4期)1996-07-12 07:45:16
      肇源县| 红河县| 闻喜县| 台安县| 普陀区| 寻乌县| 湘阴县| 博罗县| 公主岭市| 交城县| 昔阳县| 广平县| 河东区| 阳信县| 新民市| 舞钢市| 昂仁县| 安丘市| 烟台市| 凤台县| 施甸县| 莒南县| 靖江市| 南康市| 金坛市| 扎鲁特旗| 陕西省| 招远市| 新田县| 长治市| 蕲春县| 图木舒克市| 泸州市| 称多县| 青冈县| 关岭| 咸丰县| 崇左市| 黎平县| 阜新市| 利津县|