摘? 要:隨著我國機動車數(shù)量的不斷增加,交通安全隱患問題越來越嚴重。針對傳統(tǒng)模仿學習效率低下的問題,提出一種基于條件模仿學習的輔助駕駛決策模型,在線模仿學習過程中,構建專家經(jīng)驗池和個人經(jīng)驗池來動態(tài)分配學習數(shù)據(jù),提高輔助駕駛決策的準確度,同時采用圖像語義切割和先驗知識遷移技術提取圖像特征,提高預測的效率和準確性。模擬實驗表明,該輔助駕駛決策模型顯著降低了平均預測誤差,使得輔助駕駛決策更加貼合個人的駕駛習慣。
關鍵詞:輔助駕駛;條件模仿學習;時序語義;圖像特征提取
中圖分類號:TP18? ? 文獻標識碼:A? 文章編號:2096-4706(2023)05-0078-04
Research on Assisted Driving Decision-making Model Based on Conditional Imitation Learning
DAI Ruiru
(Department of Applied Technology, Sichuan Preschool Educators College, Mianyang? 621000, China)
Abstract: With the increasing number of motor vehicles in China, the problem of traffic hidden dangers is becoming more and more serious. Aiming at the problem of low efficiency of traditional simulation learning, this paper proposes an assisted driving decision-making model based on conditional simulation learning. In the process of online simulation learning, expert experience pool and personal experience pool are constructed to dynamically allocate learning data to improve the accuracy of assisted driving decision-making. At the same time, image semantic cutting and prior knowledge transfer technology are used to extract image features to improve the efficiency and accuracy of prediction. The simulation experiment shows that the average prediction error is significantly reduced by the assisted driving decision model, which makes the assisted driving decision more suitable for personal driving habits.
Keywords: assisted driving; conditional imitation learning; temporal semantics; image feature extraction
0? 引? 言
隨著居民生活水平的不斷提高,機動車數(shù)量越來越多,導致交通狀況越發(fā)復雜,堵車、環(huán)境污染、交通事故也隨之而來。輔助駕駛技術作為保證駕駛安全的手段,可以有效降低交通事故發(fā)生的概率,同時通過優(yōu)化行車路線也可以有效降低碳排放,具有良好的環(huán)境效益和經(jīng)濟效益。
近年來,隨著電動汽車的推廣和普及,智能自動化已經(jīng)成為其區(qū)別于傳統(tǒng)燃油車的最大特點,各大車企、互聯(lián)網(wǎng)巨頭以及芯片公司將自動駕駛作為未來汽車發(fā)展的制高點,紛紛投入大量的資金推出各自的自動駕駛方案。隨著人工智能技術的日趨成熟,以深度學習為代表的技術引起大部分廠商的關注,越來越多的算法得以在自動駕駛中使用,如紅綠燈識別、行人檢測、車道檢測、主動剎車等。雖然這些技術無法在實際應用中取代人的作用,但不可否認的是它們極大地改善了駕駛環(huán)境。以圖像為輸入,經(jīng)決策模型獲得控制信息,有效降低了控制信息的不確定性傳遞。然而這種決策的有效性很大程度上取決于對圖像中特征信息提取的效率和準確度。由于駕駛環(huán)境千變萬化,駕駛員的駕駛習慣各不相同,妥善處理環(huán)境中的不確定性并有效解決數(shù)據(jù)離散等問題成為基于模仿學習輔助駕駛決策系統(tǒng)必須面對的難點。
1? 基于圖像語義的模仿學習輔助駕駛決策模型
1.1? 條件模仿學習
在模仿學習過程中,輸入的觀察圖像和控制行為是一對一映射的,在復雜的路況環(huán)境下,不同時間不同地點的處理邏輯也不盡相同,基于單一對應關系的控制很難奏效。為了有效應對復雜狀況下的模仿學習處理邏輯,Codevilla等提出了條件模仿學習的方法,將目標信息和專家經(jīng)驗建模為向量函數(shù),然后與汽車感知模塊相結合進行模仿學習,使得車輛的控制行為更接近于正常處理的流程。
當車輛在t時刻感知到周圍的狀態(tài)信息為statt,對應的車輛控制信息為ctrlt,除了道路的環(huán)境信息外,此時正常形式的車輛控制指令為pctrlt,即pctrlt=E(statt, pctrlt),通過不斷積累的專家經(jīng)驗將集合改為 ,損失函數(shù)為:
(1)
感知結果通過卷積神經(jīng)網(wǎng)絡進行特征提取,然后與汽車測量值m進行融合,同時將乘客的命令輸入到?jīng)Q策網(wǎng)絡中,確定最終的控制信息。但這種卷積神經(jīng)網(wǎng)絡的結構過于單一,難以實現(xiàn)復雜圖像的高維特征識別,且效率較為低下,導致模型預測不準(或者預測的時效性不足),從而導致自動駕駛決策失敗。
1.2? 基于圖像語義的模仿學習決策模型
實踐表明,專家經(jīng)驗數(shù)據(jù)對于自動駕駛來說不僅是很好的訓練數(shù)據(jù),也體現(xiàn)了一個不斷豐富并趨于完美的過程,而專家經(jīng)驗數(shù)據(jù)的有效利用則是決定自動駕駛成敗的關鍵因素?;趫D像語義的模仿學習決策模型框架如圖1所示。
輔助駕駛決策模型的決策主要包括宏觀決策和微觀決策兩個方面,其中宏觀決策用于確定車輛的前進路線,如行車方向、行車車道、行車速度等。微觀決策主要是根據(jù)當前車輛運行狀態(tài)信息以及車輛感知的環(huán)境信息獲取車輛動態(tài)控制信息,如加減速、變換車道、緊急制動、轉向控制信息等。
1.3? 宏觀決策
宏觀決策信息是指根據(jù)駕車人的決策條件(如目的地、道路選擇等)確定宏觀的駕駛導航信息,同時加上對路徑上道路交通管理標識(如路段限速、車道選擇、紅綠燈信息、交通標志信息等)的識別。導航信息中關鍵節(jié)點的狀態(tài),以及道路周邊交規(guī)標志形成的交規(guī)語義信息,在全連接層融合處理然后決定車輛在行駛過程中的主要宏觀路徑,在這里可以統(tǒng)稱為道路選擇條件。微觀決策信息是指根據(jù)當前車輛的控制參數(shù)信息獲取到的車輛狀態(tài)信息(如當前車速、油耗、車輛的運行路線等)以及通過車輛傳感器獲取到的車輛周邊信息(如車輛周邊的車輛信息及其速度、運行趨勢等),通過卷積神經(jīng)網(wǎng)絡對圖像信息進行分析,連同車輛的狀態(tài)信息生成車輛周邊環(huán)境的時序信息。宏觀決策信息與微觀決策信息共同交由決策模型生成最終的控制信息。
宏觀決策信息是由導航信息和交規(guī)信息共同生成的,導航信息中包含很多的關鍵節(jié)點,這些關鍵節(jié)點是指導航路線中的位置坐標p(x, y, z),一般是由導航衛(wèi)星計算得來,在輔助駕駛決策過程中,關鍵節(jié)點信息可以用特征向量ωi表示,整個行車路徑用W=f ( p,w1,w2,…,wn)表示,下一個導航點的平均航路朝向為:
(2)
其中,p和ωi表示當前位置p(x, y, z)和當前朝向θ組成,如圖2所示。
在計算宏觀導航信息時,必須考慮到交通規(guī)則對導航信息的影響,交通標識包括:危險標志、限速標志、強制標志,以及紅綠燈等交通信號。交通標識語義識別采用基于深度學習的語義提取方法,對交規(guī)語義信息的提取采用的是YOLOv5網(wǎng)絡,具體過程如下:
(1)輸入端采用mosaic數(shù)據(jù)增強點縮放、裁剪以及重新排布的方式提升特征點識別,同時采用不同的閾值計算不同環(huán)境下特征點的最佳錨框值,進而識別圖像中的關鍵特征點。
(2)使用Focus和CSP組件,實現(xiàn)圖像卷積值和殘差值的計算。
(3)預測網(wǎng)絡采用CIoU_loss損失函數(shù)作為目標邊界值的優(yōu)化目標,精準識別具體的道路標志信息。
1.4? 微觀決策
微觀決策信息是指從車輛狀態(tài)信息和車載傳感器獲取的圖像信息分析得來。車輛的狀態(tài)信息主要包括車輛的速度、胎壓、車輛重量、剎車片壓力、制動距離、燃油量、氣缸壓力等,這些參數(shù)都是車輛微觀控制階段的重要參數(shù),為圖像信息提供的決策信息提供直接的參考數(shù)據(jù)。車載傳感器獲取到的圖像信息以及部分交規(guī)語義信息是車輛微觀控制的決定性變量,其中交規(guī)語義信息在動態(tài)決策信息中屬于較為恒定的變量,因此在微觀決策信息中不做太多考慮,其他的數(shù)據(jù)可稱之為車輛微觀控制信息。微觀控制信息源于:圖像語義分割信息;通過遷移先驗知識增強對圖像的特征提??;記憶網(wǎng)絡中關聯(lián)時間內的圖像序列。
圖像語義分割的目的是通過對圖像的像素點進行標簽和分類,同時以像素組合的方式進行簡化,以便讓圖像的神經(jīng)網(wǎng)絡表征更加明顯,用以區(qū)分如道路標識、車輛分割線、行人、其他車輛以及障礙物等對象?;趫D像語義分割的圖像如圖3所示。
本文決策模型的圖像語義分割模塊使用圖像分割網(wǎng)絡SegNet,同時將分割的圖像與原始圖像進行融合,從而提高圖像的特征提取能力。
先驗知識遷移學習是降低輔助駕駛決策難度的重要手段,一般來說,決策系統(tǒng)首先分析傳感器獲得的圖像信息,然后根據(jù)實際情況做出正確的行車決策,在此過程中,圖像語義信息的分析和識別占據(jù)了重要地位。所謂的先驗知識遷移就是將其他領域中被驗證或者廣泛使用的圖像識別模型或參數(shù),根據(jù)輔助駕駛所需的特定參數(shù)進行相應的轉換之后遷移到輔助駕駛決策過程中。相對于從零開始的經(jīng)驗積累來說,先驗知識遷移是提高決策效率,降低決策成本的重要手段。通過對先驗知識的學習,可以讓輔助駕駛決策在盡可能短的時間內完成基本的功能。
微觀決策的運作包括兩個部分:基于模仿學習的離線學習模塊和基于確定性策略梯度算法的在線學習模塊。通過離線學習模塊對輔助駕駛的標簽數(shù)據(jù)進行訓練,避免大量無用的探索,在線學習模塊可以在實際使用過程中不斷完善和修正輔助駕駛決策模型。微觀決策的主要過程如圖4所示。
微觀決策的主要過程如下:通過先驗知識對模擬學習網(wǎng)絡進行訓練,構建模仿學習網(wǎng)絡,然后使用部分先驗知識在模仿學習網(wǎng)絡的構建中形成專家經(jīng)驗緩存池。與此同時,使用部分先驗知識的結果對在線學習網(wǎng)絡進行預訓練,得到基本的在線學習網(wǎng)絡。之后在線學習網(wǎng)絡開始運行,隨著車輛的運行,在線學習網(wǎng)絡通過學習駕駛員的處理行為,不斷地豐富個人經(jīng)驗緩存池,同時借助先驗知識不斷豐富專家經(jīng)驗緩存池,然后以專家經(jīng)驗緩存池和個人經(jīng)驗緩存池的內容作為數(shù)據(jù)支撐,強化訓練在線學習網(wǎng)絡,使得學習網(wǎng)絡不斷地逼近真實的車輛決策過程。
2? 仿真實驗及結果分析
2.1? 實驗環(huán)境
本實驗在ubuntu 20.04操作系統(tǒng)下進行,使用CARLA-simulator 0.9.9和Unreal Engine 4.24進行場景模擬,實驗具體參數(shù)如表1所示。
2.2? 宏觀決策測試
基于CARLA Benchmark進行測試,數(shù)據(jù)訓練場景為城鎮(zhèn)地圖T1,測試場景為城鎮(zhèn)地圖T2,兩個場景中分別設有紅綠燈、多岔路口等,如圖5所示。按照Benchmark的要求設定四種任務,分別為起點到終點的直行、轉彎、導航和動態(tài)導航等。
測試過程中,除了關注模擬車輛是否準確到達目的地外,還要關注測試結果的穩(wěn)定性。因此測試的指標包括任務成功率、軌跡成功率和失敗懲罰比例。其中成功率是成功次數(shù)succ與總次數(shù)total的比值;軌跡成功率是實際運行長度L0與軌跡長度L1的比值;懲罰比例由設定系數(shù)C0和懲罰系數(shù)p組成。評估指標res如下:
(3)
將本文方法與基線方法CIL進行對比試驗,測試結果的評估指標積分如表2所示。
從測試結果中可以看出,在靜態(tài)場景下,兩種方法在訓練城鎮(zhèn)T1中都具有較高的成功率,但是在測試城鎮(zhèn)T2中的成功率會普遍下降,本文所提方法的成功率不管是在訓練城鎮(zhèn)中還是在測試城鎮(zhèn)中都很高。在動態(tài)導航測試場景下,CIL基線方法的成功率較低,且在訓練環(huán)境和測試環(huán)境中波動較大,而本文所提方法的波動性較小,表現(xiàn)出較強的魯棒性。
2.3? 微觀決策測試
在微觀決策測試過程中,采用TORCS模擬器中的兩張地圖進行試驗,每張地圖采集800組數(shù)據(jù),然后使用這些數(shù)據(jù)來訓練模仿學習網(wǎng)絡。由于使用了模擬器,故只能通過打標簽的方式構建先驗知識,總共構建400組數(shù)據(jù)作為先驗知識。通過先驗知識指導模擬網(wǎng)絡的訓練,進而生成專家經(jīng)驗緩存池,循環(huán)測試生成1 600組數(shù)據(jù),TORCS模擬的加速和減速設置為自動,車輛自重、剎車性能等在本實驗中并未加以考慮。
兩張地圖上的訓練性能如圖6所示。
試驗結果表明,地圖的難度越大,模擬學習網(wǎng)絡性能越差,主要原因是收集的數(shù)據(jù)較少,但是兩張圖的最終訓練結果相差不多,這些結果足以訓練在線學習網(wǎng)絡,不會對整個模型的最終性能產(chǎn)生較大的影響。運行訓練好的模型,每隔100步記錄一下評估指標res的值,以此來檢驗算法的性能,結果如圖7所示。
雖然初期訓練數(shù)據(jù)的數(shù)量較少,但是在整體測試中的效率要明顯高于基準算法。從縱坐標的數(shù)據(jù)來看,在線學習模型的方式可以持續(xù)改進訓練結果,因此算法會隨著訓練次數(shù)的增加最終穩(wěn)定下來。
3? 結? 論
隨著機動車數(shù)量的不斷增加,車輛越來越轉向其功能屬性,如何增強用戶的乘車體驗,降低能源消耗是當前車企需要著重考慮的問題。以圖像為輸入,經(jīng)決策模型獲得控制信息,有效降低了控制信息的不確定性傳遞。有鑒于此,本文采用圖像語義切割和先驗知識遷移技術提取圖像特征,提高預測的效率和準確性,同時考慮到不同人駕駛習慣的不同,通過構建專家經(jīng)驗池和個人經(jīng)驗池來動態(tài)分配學習數(shù)據(jù),既提高了輔助駕駛決策的準確性,又可保證輔助決策結果更加符合駕駛員的個人駕駛習慣。
參考文獻:
[1] 高波.基于多傳感器感知的輔助駕駛技術研究 [D].西安:西安工業(yè)大學,2021.
[2] 王強.基于深度強化學習的自動駕駛控制決策研究 [D].大慶:東北石油大學,2022.
[3] 李沛安.基于深度神經(jīng)網(wǎng)絡的交通場景圖像語義分割研究 [D].北京:北京交通大學,2020.
[4] 趙樹煊,張潔,汪俊亮,等.基于兩階段深度遷移學習的面料疵點檢測算法 [J].機械工程學報,2021,57(17):86-97.
[5] CODEVILLA F,M?LLER M,L?PEZ A,et al. End-to-end driving via conditional imitation learning [J/OL].arXiv:1710.02410v2 [cs.RO].[2022-11-05].https://arxiv.org/abs/1710.02410v2.
[6] 李小艷,宋亞林,樂飛.殘差密集塊的卷積神經(jīng)網(wǎng)絡圖像去噪 [J].計算機系統(tǒng)應用,2022,31(10):166-174.
[7] 李壯飛,楊風暴,郝岳強.一種基于殘差網(wǎng)絡優(yōu)化的航拍小目標檢測算法 [J].國外電子測量技術,2022,41(8):27-33.
[8] 王海軍,何艷,周豪,等.基于YOLOv5網(wǎng)絡模型對鐵路軌道障礙物檢測與識別 [J].中國儲運,2022(9):86-87.
[9] 林禹,趙泉華,沈昭宇,等.改進SegNet與遷移學習的遙感建筑物分割方法 [J].測繪科學,2022,47(6):78-89.
[10] 王成康,黃李波.基于CARLA的駕駛仿真平臺搭建 [J].佳木斯大學學報:自然科學版,2021,39(3):27-29.
[11] 符莎.基于UNREAL ENGINE的沉浸式加工中心造型定制設計技術 [J].機電產(chǎn)品開發(fā)與創(chuàng)新,2022,35(5):162-165.
[12] 朱堅.基于深度強化學習的無人車路徑規(guī)劃研究 [D].西安:西安工業(yè)大學,2021.
作者簡介:戴瑞儒(1968.03—),男,漢族,陜西商洛人,講師,本科,研究方向:電氣設備自動控制、工業(yè)企業(yè)生產(chǎn)過程自動化、電機和儀表檢測等。
收稿日期:2022-11-08