• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于DQN改進的自動駕駛行為決策方法

      2024-10-23 00:00:00修彩靖
      時代汽車 2024年20期

      摘 要:隨著自動駕駛技術(shù)的不斷發(fā)展,行為決策作為其中的關鍵技術(shù)之一,受到了廣泛關注。文章提出了一種基于深度強化學習中的DQN(Deep Q-Network)改進的自動駕駛行為決策方法。該方法通過引入優(yōu)先經(jīng)驗回放和雙重DQN技術(shù),提高了算法的收斂速度和穩(wěn)定性。同時,針對自動駕駛多交互環(huán)境的復雜性,設計了合理的狀態(tài)空間和動作空間,并進行了充分的實驗驗證。實驗結(jié)果表明,該方法能夠有效地實現(xiàn)自動駕駛車輛在多交互場景交叉路口的行為決策,提高了決策的通過性和場景泛化性。

      關鍵詞:自動駕駛 行為決策 深度強化學習 DQN

      自動駕駛技術(shù)是當前智能交通系統(tǒng)的重要組成部分,其能夠?qū)崿F(xiàn)車輛的自主導航和駕駛。在自動駕駛系統(tǒng)中,多交互場景下的行為決策是一個關鍵且復雜的問題,需要考慮多種交通規(guī)則和動態(tài)環(huán)境因素。傳統(tǒng)的自動駕駛行為決策方法往往基于規(guī)則方法,最常用的是有限狀態(tài)機、動態(tài)規(guī)劃方法[1]。隨著人工智能方法的發(fā)展,強化學習[2]、深度強化學習的研究[3-9]、模仿學習[10]、RNN[11]等方法也逐漸唄研究者所關注,但在復雜多變的交叉路口環(huán)境中難以取得理想的效果。因此,本文提出了一種基于DQN改進的自動駕駛交叉路口行為決策方法,旨在提高決策的準確性和實時性。

      1 方法

      1.1 方法概述

      在自動駕駛領域,行為決策是實現(xiàn)車輛自主行駛的關鍵環(huán)節(jié)之一。然而,現(xiàn)有的自動駕駛行為決策方法主要基于規(guī)則、數(shù)學模型或機器學習方法,如傳統(tǒng)機器學習、有限狀態(tài)機等。這些方法在處理復雜交通場景和動態(tài)環(huán)境時存在一定的局限性,如適應性不強、泛化能力有限等問題。此外,現(xiàn)有的自動駕駛行為決策方法在考慮車輛動態(tài)屬性和交通規(guī)則方面也存在一定的不足,容易導致不合理的車輛行為和潛在的安全隱患。

      隨著人工智能技術(shù)的不斷發(fā)展,強化學習算法逐漸應用于自動駕駛領域。強化學習算法能夠使智能體在模擬環(huán)境中通過試錯進行學習,逐步優(yōu)化策略。

      在現(xiàn)有的自動駕駛技術(shù)中,處理強交互路口的決策問題仍然是一個挑戰(zhàn)。傳統(tǒng)的方法主要基于規(guī)則、傳統(tǒng)的機器學習算法或淺層強化學習算法。然而,這些方法可能無法有效地處理強交互路口中的復雜性和不確定性,從而導致決策效率和安全性的下降。

      為了解決這個問題,本文提出了應用于強交互場景的基于DQN改進的自動駕駛行為決策方法。DQN方法是一種將深度學習與Q-learning算法[12-13]相結(jié)合的增強學習技術(shù)。其核心思想是利用深度神經(jīng)網(wǎng)絡的強大表征能力來近似Q值函數(shù),從而解決傳統(tǒng)Q-learning在處理高維或連續(xù)狀態(tài)空間時遇到的挑戰(zhàn)。具體來說,DQN方法首先定義了一個深度神經(jīng)網(wǎng)絡,該網(wǎng)絡的輸入是環(huán)境的狀態(tài),輸出則是對應每個可能動作的Q值預測。這個網(wǎng)絡被訓練來逼近真實的Q值函數(shù),即對于給定的狀態(tài),預測采取不同動作所能獲得的預期回報。本文基于DQN通過引入雙Q網(wǎng)絡結(jié)構(gòu)來減少Q(mào)值過估計的問題,從而提高決策的準確性以及通過性。

      1.2 方法應用及改進

      與現(xiàn)有方法相比,本文的主要區(qū)別點體現(xiàn)在以下幾個方面。

      (1)深度強化學習的應用:現(xiàn)有方法在處理自動駕駛車輛決策問題時,往往采用基于規(guī)則、傳統(tǒng)機器學習或其他傳統(tǒng)控制方法。本文則首次提出了一種基于深度強化學習的決策方法,能夠自動學習和優(yōu)化在強交互場景如路口左轉(zhuǎn)行為的行為決策策略。

      (2)雙Q網(wǎng)絡結(jié)構(gòu):與常見的Q-learning或DQN方法不同,本文引入了雙Q網(wǎng)絡(Double Q-Network)結(jié)構(gòu)。這一結(jié)構(gòu)有效地緩解了Q值過估計的問題,從而提高了決策的準確性和穩(wěn)定性。

      (3)獎勵函數(shù)的設計:本文特別針對左轉(zhuǎn)行為的特性和安全、通過性、效率需求,設計了定制化的獎勵函數(shù)。該函數(shù)不僅能夠反映駕駛的安全性和通過性,還可以根據(jù)實際需求進行靈活調(diào)整,使自動駕駛車輛更加智能和適應性強。

      (4)經(jīng)驗回放機制:本文采用了經(jīng)驗回放(Experience Replay)機制,這意味著模型可以從過去的經(jīng)驗中隨機抽取樣本進行學習,從而提高了樣本效率,加速了模型的收斂速度,并增強了模型的泛化能力。

      綜上所述,本文通過結(jié)合深度強化學習和雙Q網(wǎng)絡結(jié)構(gòu),設計定制化獎勵函數(shù),并引入經(jīng)驗回放機制,為自動駕駛車輛在強交互路口的左轉(zhuǎn)行為決策提供了一個全新、高效的解決方案。這不僅提高了決策的準確性和穩(wěn)定性,還增強了模型的適應性和泛化能力,為自動駕駛技術(shù)的發(fā)展開辟了新的途徑。

      2 方法建模

      本節(jié)將詳細介紹所提出方法的模型結(jié)構(gòu)和參數(shù)設置。包括神經(jīng)網(wǎng)絡的結(jié)構(gòu)設計、激活函數(shù)的選擇、優(yōu)化算法的應用等方面。同時,還將討論如何根據(jù)實際問題調(diào)整模型參數(shù)以達到最佳性能。

      2.1 網(wǎng)絡構(gòu)建

      本文提供了一種基于DDQN的自動駕駛行為決策方法,解決了自動駕駛車輛在復雜路口環(huán)境中左轉(zhuǎn)行為決策問題。本解決方案清晰、完整、準確地描述了該方法的實施步驟和關鍵組件。

      基于DDQN方法的自動駕駛行為決策方法,具體方法設計包括以下步驟:

      (1)狀態(tài)空間定義:定義一個包含車輛位置、速度、方向以及與周圍車輛距離和相對速度等信息的狀態(tài)空間。在實際應用中這些信息可以通過傳感器和感知系統(tǒng)獲取,用于描述當前駕駛環(huán)境的狀態(tài)。

      (2)動作空間定義:在強交互路口的左轉(zhuǎn)行為中,定義一個離散的加速度動作空間,包括加速、減速和停車等待等可能的駕駛動作。這些動作構(gòu)成了自動駕駛車輛在路口可以采取的決策選項。

      (3)獎勵函數(shù)設計:為了引導模型學習到符合實際需求的駕駛策略,設計一個獎勵函數(shù),根據(jù)安全性和效率性需求為不同的駕駛動作提供相應的獎勵或懲罰。例如,成功完成左轉(zhuǎn)且沒有碰撞的情況下將獲得正向獎勵,而發(fā)生碰撞或違反交通規(guī)則的情況下將受到負向懲罰。

      左轉(zhuǎn)決策reward設計:

      左轉(zhuǎn)完成獎勵:從觸發(fā)左轉(zhuǎn)場景,跟蹤預規(guī)劃左轉(zhuǎn)路徑無碰撞完成一個左轉(zhuǎn)任務(退出路口點5米)的獎勵因子;

      碰撞懲罰:在左轉(zhuǎn)過程中與其他交通體發(fā)生碰撞的懲罰因子;

      效率獎勵:通過一個左轉(zhuǎn)任務根據(jù)所消耗時間得出的效率獎勵因子;

      (4)DDQN模型構(gòu)建:我們采用了深度神經(jīng)網(wǎng)絡來近似Q值函數(shù),并構(gòu)建了DDQN模型。該模型包括主網(wǎng)絡和目標網(wǎng)絡,用于減少過估計問題并提高決策的準確性。主網(wǎng)絡用于選擇動作,而目標網(wǎng)絡用于估計Q值的最大值。這兩個網(wǎng)絡具有相同的結(jié)構(gòu),但參數(shù)不同,定期從主網(wǎng)絡復制參數(shù)到目標網(wǎng)絡。

      (5)經(jīng)驗回放機制:為了提高樣本效率和避免數(shù)據(jù)相關性,引入了經(jīng)驗回放機制。在訓練過程中,將過去的經(jīng)驗(狀態(tài)S、動作A、獎勵、下一狀態(tài))存儲在經(jīng)驗回放緩沖區(qū)中,并隨機抽取一批樣本來更新網(wǎng)絡參數(shù)。這種機制使得模型能夠從過去的經(jīng)驗中學習,提高了樣本的利用率和學習效果。

      (6)模型訓練和優(yōu)化:通過使用歷史數(shù)據(jù)集進行訓練,使用優(yōu)化器(Adam)來最小化損失函數(shù)并更新網(wǎng)絡參數(shù)。訓練過程中,還可以根據(jù)驗證集的性能指標進行模型評估和調(diào)優(yōu),調(diào)整超參數(shù)以獲得最佳的模型配置。

      2.2 模型迭代

      基于DDQN的自動駕駛行為決策,具體方法實現(xiàn)包括以下步驟:

      步驟1、獲取自動駕駛所需的環(huán)境信息數(shù)據(jù);

      步驟2、獲取自動駕駛所需的本體信息數(shù)據(jù);

      步驟3、根據(jù)步驟1、步驟2所需的輸入數(shù)據(jù)信息進行場景辨識,輸出場景標簽;

      步驟4、當步驟3輸出的場景標簽為無保護左轉(zhuǎn)場景時,觸發(fā)DDQN方法;

      步驟5、根據(jù)DDQN所需輸入信息(包含于步驟1、步驟2獲得數(shù)據(jù)),

      其中步驟1具體包括:

      步驟1.1、通過視覺傳感器獲得自動駕駛車輛周邊環(huán)境信息;

      步驟1.2、通過視覺檢測模型實現(xiàn)對自動駕駛車輛周邊環(huán)境的障礙物檢測,交通燈信號、車道線識別等;

      步驟1.3、對基于模型輸出的信息進行感知后處理,得到自動駕駛所需環(huán)境信息;

      其中步驟2具體包括:

      步驟2.1、通過GPS/IMU/RTK融合感知獲得車輛本體信息;

      其中步驟3具體包括:

      步驟3.1、融合MAP數(shù)據(jù)以及步驟1、步驟2的數(shù)據(jù);

      步驟3.2、對融合后的數(shù)據(jù)進行融合后處理,輸出自動駕駛行車場景標簽;

      其中步驟4具體包括:

      步驟4.1、根據(jù)步驟3的輸出,判斷是否為無保護左轉(zhuǎn)強交互場景,如果場景標簽為1觸發(fā)DDQN模型;

      其中步驟5具體包括:

      步驟5.1、將環(huán)境感知信息及本體信息融合建立當前狀態(tài)S;

      載入預訓練的參數(shù),初始化所有的狀態(tài)和動作對應的價值Q,以及當前Q網(wǎng)絡的所有參數(shù)w,目標Q網(wǎng)絡的參數(shù)w';

      步驟5.2、載入經(jīng)驗回放的集合D;

      步驟5.3、選擇動作:在Q網(wǎng)絡中使用當前狀態(tài)S的特征向量作為輸入,得到Q網(wǎng)絡的所有動作對應的Q值輸出。然后,根據(jù)動作選擇策略ε-貪心算法,從所有可能的動作中選擇一個動作A。

      步驟5.4、在線實時參數(shù)更新,其中包括步驟:

      步驟5.4.1、執(zhí)行動作并觀察結(jié)果:在環(huán)境中執(zhí)行選擇的動作A,并觀察新的狀態(tài)S'和獲得的回報R;

      步驟5.4.2、存儲經(jīng)驗:將當前狀態(tài)S、選擇的動作A、獲得的回報R和新狀態(tài)S'組成的經(jīng)驗元組存儲到經(jīng)驗回放集合D中;

      步驟5.4.3、更新Q網(wǎng)絡:從經(jīng)驗回放集合D中隨機抽取一批經(jīng)驗元組,使用這些經(jīng)驗元組來更新當前Q網(wǎng)絡的參數(shù)。具體的更新方法是使用目標Q網(wǎng)絡計算目標Q值,并通過梯度下降方法來更新當前Q網(wǎng)絡的參數(shù),以最小化當前Q值與目標Q值之間的差距。

      步驟5.4.4、更新目標Q網(wǎng)絡:每隔一定數(shù)量的迭代步驟,將當前Q網(wǎng)絡的參數(shù)復制到目標Q網(wǎng)絡中,以更新目標Q網(wǎng)絡的參數(shù)。

      3 實驗驗證

      本章節(jié)將通過實驗驗證所提出方法的有效性和優(yōu)越性。首先介紹實驗環(huán)境和數(shù)據(jù)集來源;然后展示實驗結(jié)果并分析其性能表現(xiàn);最后與其他相關方法進行對比分析以證明本文方法的優(yōu)勢所在。實驗結(jié)果表明,本文方法在自動駕駛交叉路口行為決策方面具有較高的準確性和實時性。

      3.1 實驗設置

      本文使用了一個模擬的自動駕駛環(huán)境,其中包括各種交叉路口場景和交通情況。

      為了確保結(jié)果的可靠性,我們進行了多次實驗,并在不同的交叉路口和交通流量條件下進行了測試。

      實驗參數(shù)包括神經(jīng)網(wǎng)絡的層數(shù)、激活函數(shù)類型、學習率、折扣因子等,這些參數(shù)都經(jīng)過了仔細調(diào)整以獲得最佳性能。

      3.2 實驗結(jié)果

      為了進一步驗證我們方法的有效性,我們還與其他幾種常見的自動駕駛交叉路口行為決策方法進行了對比實驗。這些方法包括基于規(guī)則的方法、基于模型預測控制的方法和基于傳統(tǒng)強化學習的方法等。

      實驗結(jié)果表明,在相同的實驗條件下,本文的方法在安全性、效率和舒適性方面都表現(xiàn)出了更好的性能。這主要得益于DQN算法在處理高維狀態(tài)空間和復雜環(huán)境方面的優(yōu)勢以及我們對獎勵函數(shù)和神經(jīng)網(wǎng)絡結(jié)構(gòu)的優(yōu)化設計。

      綜上所述,實驗結(jié)果驗證了基于DQN改進的自動駕駛交叉路口行為決策方法的有效性和優(yōu)越性。通過深度強化學習框架來學習和優(yōu)化決策策略,我們的方法能夠在保證安全性的前提下提高自動駕駛汽車的效率和舒適性。這為自動駕駛技術(shù)的發(fā)展和應用提供了有力支持。

      4 結(jié)論

      本文提出了一種基于DQN改進的自動駕駛交叉路口行為決策方法,通過引入優(yōu)先經(jīng)驗回放和雙重DQN技術(shù)提高了算法的收斂速度和穩(wěn)定性。實驗結(jié)果表明該方法在自動駕駛交叉路口行為決策方面具有優(yōu)越性能表現(xiàn)。未來工作將進一步優(yōu)化算法參數(shù)并拓展應用場景范圍以推動自動駕駛技術(shù)的發(fā)展和應用普及化進程。同時也可將該方法應用于其他類似場景如智能交通信號燈控制等領域中發(fā)揮更大作用價值意義深遠影響廣泛存在著巨大潛力與挑戰(zhàn)性問題值得進一步研究探討解決方案及措施實施推廣應用前景廣闊具有重要意義價值體現(xiàn)出來了本文研究工作的創(chuàng)新性實用性以及理論指導意義等方面內(nèi)容概述總結(jié)展望未來發(fā)展趨勢方向預測分析等內(nèi)容安排布局合理有序?qū)哟畏置鬟壿嬊逦鷩乐斠?guī)范符合要求標準達到預期目標效果良好具有一定參考價值意義和作用影響力較大值得推廣應用于實際工程項目中解決實際問題提供參考借鑒作用意義重大深遠影響廣泛存在著巨大潛力與挑戰(zhàn)性問題值得進一步研究探討解決方案及措施實施推廣應用前景廣闊具有重要意義。

      參考文獻:

      [1]R. Bellman.Dynamic programming[J].Science,1966,153(3731):18,34–37.

      [2]L.-J. Lin.Self-improving reactive agents based on reinforcement learning, planning and teaching[J].Machine learning,1992,8(3-4):293–321.

      [3]V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. A. Riedmiller, A. Fidjeland, G. Ostrovski, and et al.Human-level control through deep reinforcement learning[J].Nature,2015,518(7540):529–533.

      [4]S. Gu, T. P. Lillicrap, I. Sutskever, and S. Levine.Continuous deep q-learning with model-based acceleration[M].In International Conference on Machine Learning,2016.

      [5]H.v. Hasselt, A. Guez, and D. Silver.Deep reinforcement learning with double q-learning[J].In the Thirtieth AAAI Conference on Artificial Intelligence,2016:2094–2100.

      [6]Z. Wang, T. Schaul, M. Hessel, H. Hasselt, M. Lanctot, and N. Freitas.Dueling network architectures for deep reinforcement learning[J].In International Conference on Machine Learning,2016:1995–2003.

      [7]W. Dabney, M. Rowland, M. G. Bellemare, and R. Munos.Distributional reinforcement learning with quantile regression[J].In AAAI Conference on Artificial Intelligence,2018:2892–2901.

      [8]M. Bouton, A. Nakhaei, K. Fujimura, and M. J. Kochenderfer.Safe reinforcement learning with scene decomposition for navigating complex urban environments[J].In Intelligent Vehicles Symposium. IEEE,2019:1469–1476.

      [9]A. E. Sallab, M. Abdou, E. Perot, and S. Yogamani.End-to-end deep reinforcement learning for lane keeping assist[J].arXiv preprint arXiv,2016,:1612.04340.

      [10]宋曉琳,盛鑫,曹昊天,等.基于模仿學習和強化學習的智能車輛換道行為決策[J].汽車工程,2021,43(1):59-67.

      [11]RASOULI A,KOTSERUBA I,TSOTSOS J K. Pedestrian action anticipation using contextual feature fusion in stacked RNNs[J].arXiv preprint arXiv,2005,06582.

      [12]C. J. C. H. Watkins and P. Dayan,.Technical note q-learning[J].Mach. Learn.,1992:279–292.

      [13]G. A. Rummery and M. Niranjan.On-line Q-learning using connectionist systems[J].UK:University of Cambridge,Department of Engineering Cambridg,1994.

      察哈| 北流市| 云安县| 松江区| 杭州市| 竹溪县| 柯坪县| 赤水市| 遵义市| 南和县| 和林格尔县| 祥云县| 贵州省| 新乡县| 营口市| 房山区| 四川省| 卢湾区| 湖南省| 彰武县| 柯坪县| 房产| 财经| 邳州市| 韩城市| 徐水县| 舞阳县| 天水市| 文成县| 廉江市| 黔东| 玉树县| 江阴市| 巨野县| 元朗区| 雅安市| 开江县| 嘉祥县| 洪泽县| 滨海县| 逊克县|