胡益愷,王春香,楊 明
(上海交通大學(xué) 自動(dòng)化系;系統(tǒng)控制與信息處理教育部重點(diǎn)實(shí)驗(yàn)室,上海 200240)
智能車輛是輪式移動(dòng)機(jī)器人的一種,其利用車載傳感器來感知車輛周圍環(huán)境,獲取道路、車輛位置和障礙物等信息,生成車輛的轉(zhuǎn)向與速度控制指令,從而能夠安全、高效地到達(dá)目的地.經(jīng)典的智能車輛系統(tǒng)框架由感知模塊、定位模塊、預(yù)測模塊、決策模塊、規(guī)劃模塊、控制模塊以及車身底盤等組成[1-2].
智能車輛系統(tǒng)的決策模塊輸入有感知結(jié)果、定位結(jié)果、預(yù)測結(jié)果以及環(huán)境先驗(yàn)信息,根據(jù)決策方法,計(jì)算出合理的車輛行為決策,并發(fā)送給后續(xù)的執(zhí)行模塊.決策模塊將影響智能車輛行駛的安全性與舒適性,是系統(tǒng)的重要中樞.
感知模塊通過收集激光雷達(dá)、超聲波雷達(dá)以及攝像機(jī)等傳感器的信息,獲取動(dòng)態(tài)、靜態(tài)目標(biāo)的位姿與速度,并對(duì)目標(biāo)的類別進(jìn)行檢測.定位模塊根據(jù)激光雷達(dá)、全球定位系統(tǒng)(GPS)以及車輛底層等傳感器的數(shù)據(jù),獲取智能車輛自身的速度與位姿.預(yù)測模塊根據(jù)感知模塊計(jì)算獲得的周邊環(huán)境信息,對(duì)周圍環(huán)境進(jìn)行推演.決策模塊作為系統(tǒng)的神經(jīng)中樞,分別接受高精度地圖的先驗(yàn)信息、感知模塊以及預(yù)測模塊的環(huán)境物體檢測信息、定位模塊的自車位姿信息,然后形成車輛行為決策.隨后,將生成的決策交由架構(gòu)下游的規(guī)劃模塊.規(guī)劃模塊根據(jù)車輛的決策生成合理的軌跡,隨后控制模塊根據(jù)自身的定位信息,向底層線控輸出方向盤轉(zhuǎn)角及油門剎車大小等指令,實(shí)現(xiàn)對(duì)車輛的橫向控制以及縱向控制.
現(xiàn)階段已有部分學(xué)者對(duì)智能車輛的決策方法進(jìn)行了歸納與整理.文獻(xiàn)[3]對(duì)具體的決策系統(tǒng)方法進(jìn)行了歸納與介紹,其分別總結(jié)了Boss、Junior、Odin、Talos等系統(tǒng)的決策方法.然而,該文獻(xiàn)從決策系統(tǒng)的角度對(duì)決策方法展開歸納,并未對(duì)具體決策方法的類型進(jìn)行分類,并且該文獻(xiàn)所包括的決策方法多為傳統(tǒng)方法,對(duì)現(xiàn)階段常見的學(xué)習(xí)類、博弈類等決策方法的論述較少.文獻(xiàn)[4]對(duì)智能車輛的決策規(guī)劃方法進(jìn)行了歸納,其將車輛的決策方法分為基于博弈理論、基于概率、基于部分可觀察的Markov決策過程以及基于學(xué)習(xí)4個(gè)類別,該文獻(xiàn)清晰地對(duì)現(xiàn)有決策工作進(jìn)行了總結(jié).然而,該綜述并未對(duì)基于學(xué)習(xí)類的方法進(jìn)行進(jìn)一步細(xì)分介紹,并且基于博弈的決策方法與其他三類決策方法并未形成鮮明的對(duì)立關(guān)系,存在一定的重合性,從而該文獻(xiàn)的分類標(biāo)準(zhǔn)需要進(jìn)一步優(yōu)化.文獻(xiàn)[5]將智能車決策方法分類為基于規(guī)則的決策方法以及基于學(xué)習(xí)的決策方法,并將學(xué)習(xí)類算法進(jìn)一步細(xì)分為深度學(xué)習(xí)方法與其他學(xué)習(xí)方法.該文獻(xiàn)的分類方式較為概括,不利于決策研究者快速了解現(xiàn)階段的決策方法及研究進(jìn)展.通過對(duì)上述現(xiàn)有決策研究綜述的分析發(fā)現(xiàn),其均缺少對(duì)不同類型決策方法的適用場景的分析,且目前對(duì)于如何評(píng)估決策方法的性能以及如何制定合理的評(píng)估指標(biāo),缺乏文獻(xiàn)對(duì)其進(jìn)行歸納與總結(jié).同時(shí),現(xiàn)階段尚未有文獻(xiàn)對(duì)智能車輛決策方法研究常用的數(shù)據(jù)集進(jìn)行整理與歸納.
考慮到從信息輸入到?jīng)Q策生成的信息流鏈路,本文將從決策模塊的輸入、輸出、車輛周邊環(huán)境交互方式以及決策模塊所采用的算法類型4個(gè)方面對(duì)現(xiàn)有決策科研工作進(jìn)行總結(jié)與歸納,從而可以為后續(xù)對(duì)車輛決策方法進(jìn)行研究的科研人員提供指引與幫助.
輸入信息根據(jù)是否經(jīng)過計(jì)算處理可以分為,其他模塊計(jì)算結(jié)果信息與車載傳感器原始數(shù)據(jù)兩類.其中,其他模塊計(jì)算結(jié)果信息主要分為車載感知模塊計(jì)算信息與路測感知模塊信息,其常見形式為本車坐標(biāo)系下的環(huán)境元素的位置、速度、加速度等;而車載傳感器原始數(shù)據(jù)信息則是將車載傳感器如視覺傳感器的圖像數(shù)據(jù)、激光雷達(dá)點(diǎn)云數(shù)據(jù)直接輸入至決策模塊.
以車載感知模塊計(jì)算結(jié)果作為模塊輸入的決策方法,由于遮擋和傳感器噪聲等因素,對(duì)其帶來了感知的不確定性和部分可觀的特性.感知模塊計(jì)算結(jié)果常見形式為,由視覺傳感器、激光傳感器等感知信息融合后得到的環(huán)境中物體的空間位姿、包圍盒尺寸、物體速度加速度以及物體類別.
文獻(xiàn)[6]以部分可觀信息作為決策模塊的輸入,運(yùn)用部分可觀察Markov決策過程(POMDP)方法實(shí)現(xiàn)車輛的決策.文獻(xiàn)[7]運(yùn)用真實(shí)的部分感知數(shù)據(jù),結(jié)合概率估計(jì)方法,設(shè)計(jì)了高速公路場景下針對(duì)部分可觀環(huán)境的決策方法.文獻(xiàn)[8]同樣運(yùn)用實(shí)車測試中得到的傳感器處理數(shù)據(jù)作為模型輸入,訓(xùn)練了基于分層狀態(tài)機(jī)的智能車輛決策模型.
以車載感知模塊計(jì)算結(jié)果作為輸入的決策方法,將感知模塊與決策模塊分離,有較強(qiáng)的可遷移性及實(shí)用性.但傳感器感知范圍有限,且存在遮擋問題,因此感知模塊輸出的信息具有一定的局限性,從而對(duì)決策方法的穩(wěn)定性提出了挑戰(zhàn).
坡向?qū)τ谔柕墓庹?、住宅的采光度有著重要的影響??图胰藢?duì)住宅選址、布局、門的朝向上講究“風(fēng)水”,坡向(圖4b)也是影響客家人的建筑分布的一個(gè)因子。對(duì)DEM數(shù)據(jù)進(jìn)行坡度提取得到梅縣區(qū)內(nèi)地形的坡度數(shù)據(jù)(圖4c)。使用ArcGIS的分類功能,按照城市建設(shè)劃分標(biāo)準(zhǔn)中劃分為地平地、平地、平坡地、緩坡地、中坡地、陡坡地6種類型分別占總面積的0.21%、5.48%、14.22%、23.58%、48.03%、8.48%,平均坡度為12.5°,坡度標(biāo)準(zhǔn)差為8.23°。
與車載感知模塊計(jì)算結(jié)果所不同,以路側(cè)感知模塊信息作為輸入的決策方法,常出現(xiàn)于學(xué)術(shù)研究成果與“車與任何事物的聯(lián)系”(V2X)場景中.該類型的輸入常將環(huán)境中參與者的位置、速度、加速度等信息,直接或間接地轉(zhuǎn)換為相對(duì)于智能車輛的位姿信息.
路側(cè)感知模塊信息常常由高空攝像機(jī)或無人機(jī)拍攝獲得,或者由仿真模擬器直接生成.在這種場景下,智能車輛可以獲得所有周邊車輛相對(duì)于其的位置、速度等信息.文獻(xiàn)[9]以高空攝像機(jī)生成的下一代仿真(NGSIM)數(shù)據(jù)集作為模型的輸入,運(yùn)用pAC(Passive Actor-Critic)方法完成車輛匯流時(shí)的決策.文獻(xiàn)[10-11]同樣基于完全可觀數(shù)據(jù),結(jié)合博弈論模型,解決了智能車輛變道場景下的決策問題.文獻(xiàn)[12]運(yùn)用路側(cè)感知模塊信息作為決策模塊的輸入,在強(qiáng)化學(xué)習(xí)(RL)技術(shù)的基礎(chǔ)上,提出了一種合作的變道策略.
除了通過高空相機(jī)獲得路側(cè)感知模塊信息,現(xiàn)階段部分研究成果采用仿真器生成的路側(cè)感知數(shù)據(jù)作為決策模型的輸入.文獻(xiàn)[13]以三車道仿真平臺(tái)的完全可觀數(shù)據(jù)作為系統(tǒng)輸入,運(yùn)用強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)速度決策以及變道決策.文獻(xiàn)[14]結(jié)合基于規(guī)則的約束,將基于深度Q網(wǎng)絡(luò)方法用于自動(dòng)駕駛車道變更決策任務(wù).文獻(xiàn)[15]同樣以三車道仿真平臺(tái)的觀測數(shù)據(jù)作為模塊輸入,提出了一種基于進(jìn)化學(xué)習(xí)的智能車輛決策方法.
路側(cè)感知模塊信息有著較為直觀的特性,屬于理想場景下的源數(shù)據(jù)形式,可以有效改善由于遮擋、噪聲等帶來的信息不完全可觀問題.在新算法的開發(fā)與早期驗(yàn)證、以及在不同模型之間進(jìn)行性能比較的場景中有著較大的優(yōu)勢.然而在真實(shí)的車輛行駛環(huán)境中,由于基礎(chǔ)設(shè)施尚未全面部署,難以獲得全面的路側(cè)感知信息數(shù)據(jù).但隨著通訊技術(shù)的不斷增強(qiáng),車聯(lián)網(wǎng)技術(shù)逐漸完善,該類決策方法將會(huì)得到更為廣泛的應(yīng)用.
口服固體制劑的體外溶出試驗(yàn)及體內(nèi)外相關(guān)性研究進(jìn)展…………………………………………………… 趙悅清等(12):1718
現(xiàn)階段存在部分決策方法直接以傳感器的原始數(shù)據(jù)作為決策方法的輸入信息.文獻(xiàn)[16]以視覺傳感器獲得的圖像信號(hào)作為系統(tǒng)輸入,運(yùn)用端到端算法設(shè)計(jì)車輛決策模塊,使車輛在即將駛?cè)氲穆房谧鞒龊侠淼臎Q策.文獻(xiàn)[17]基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)以及生成的對(duì)抗網(wǎng)絡(luò)設(shè)計(jì)了端到端決策模塊.文獻(xiàn)[18-20]以車輛攝像頭的圖像信息作為決策模塊的輸入,訓(xùn)練出決策指令.文獻(xiàn)[21]也同樣采用了車載傳感器的原始數(shù)據(jù)作為輸入.
當(dāng)前鋼結(jié)構(gòu)施工期間存在較多的項(xiàng)目環(huán)節(jié),項(xiàng)目成本、質(zhì)量、安全管理、進(jìn)度管理以及控制等方面均存在問題。具體而言,在工程項(xiàng)目的推進(jìn)過程中,施工環(huán)節(jié)存在較多的不確定性影響因素,工程變動(dòng)難免會(huì)影響造價(jià)成本,為企業(yè)帶來了一定的經(jīng)濟(jì)損失。安裝期間,由于技術(shù)人員沒有掌握正確的施工技術(shù),也會(huì)影響工程的推進(jìn)效果,甚至延誤工期,造成不良經(jīng)濟(jì)損失。運(yùn)輸與安裝鋼結(jié)構(gòu)構(gòu)件時(shí),也會(huì)因損壞以及污染等問題延長施工進(jìn)度,技術(shù)人員需要重新調(diào)配構(gòu)件,導(dǎo)致工期延誤。工程項(xiàng)目推進(jìn)期間,施工人員需要進(jìn)行現(xiàn)場操作,會(huì)受多種因素的影響導(dǎo)致技術(shù)以及安全等問題,從而影響鋼結(jié)構(gòu)的施工效果。
以車載傳感器原始數(shù)據(jù)信息作為輸入的決策方法是端到端算法的有效應(yīng)用,其可以獲得環(huán)境感知的全部信息,并可以提取到環(huán)境中影響決策的深層特征.但該種類方法對(duì)訓(xùn)練數(shù)據(jù)要求較高,并且對(duì)決策方法的可解釋性提出了挑戰(zhàn).
按照決策方法輸出信息的類型,可以將其歸納為離散決策輸出以及廣義決策輸出.離散決策輸出的算法所生成的指令為獨(dú)立的動(dòng)作,例如左變道、右變道、保持直行等等.廣義決策輸出的算法,亦可理解為端到端方法.該方法直接生成決策控制序列,例如方向盤的轉(zhuǎn)角時(shí)間序列、油門的時(shí)間序列、剎車的時(shí)間序列指令.決策模塊的輸出示意圖如圖1所示.其中:ti(i=0,1,…,N)為決策序列中的時(shí)間戳.
圖1 決策模塊輸出示意圖Fig.1 Schematic diagram of output of decision module
意圖決策輸出的指令集,常具有較高的抽象性,例如是否換道、是否避讓等,在生成該指令后,需傳遞給規(guī)劃模塊與控制模塊以生成具體的局部路徑與控制指令.
文獻(xiàn)[22]利用Bayesian網(wǎng)絡(luò),將決策層的輸出劃分為采用自適應(yīng)巡航控制(ACC)跟車策略、向左變道、向右變道以及保持當(dāng)前速度4種離散決策以決定智能車輛是否進(jìn)行超車行為.文獻(xiàn)[13]將強(qiáng)化學(xué)習(xí)決策模塊的輸出根據(jù)速度進(jìn)行了更細(xì)一步的劃分.文獻(xiàn)[8]提出的分層狀態(tài)機(jī)決策方法以離散的決策作為輸出.文獻(xiàn)[23]基于強(qiáng)化學(xué)習(xí)的決策研究與文獻(xiàn)[24]基于POMDP的研究同樣以離散決策作為模塊的輸出.類似的,文獻(xiàn)[15]將決策模塊的輸出空間分為保持直行、左變道以及右變道3種離散決策.文獻(xiàn)[25]基于長短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(LSTM-CRF)方法,為車輛變道場景做出決策,決策模塊的輸出為保持直行、準(zhǔn)備變道、左變道和右變道4種決策.文獻(xiàn)[26]基于博弈論方法,生成6個(gè)離散的加速度,以實(shí)現(xiàn)智能車輛與環(huán)境車輛在路口的行為決策.
該方法的優(yōu)點(diǎn)在于數(shù)據(jù)來源于真實(shí)環(huán)境,較有說服力,缺點(diǎn)在于數(shù)據(jù)中的車輛缺乏與智能車輛的交互性,不能有效驗(yàn)證涉及交互的決策方法.
基于廣義決策輸出的決策方法,將輸出連續(xù)的決策指令,即輸出方向盤轉(zhuǎn)角、油門與剎車等控制量的時(shí)間序列.此種決策方法涵蓋了智能車輛框架中的決策模塊、規(guī)劃模塊以及控制模塊的功能,是端到端算法的應(yīng)用實(shí)現(xiàn).
文獻(xiàn)[27]運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練了決策模型,并以方向盤轉(zhuǎn)角作為決策模塊的輸出.文獻(xiàn)[28-29]將車輛的方向盤轉(zhuǎn)角作為決策模塊的輸出.以廣義類型作為輸出的決策方法,在解空間上有更廣泛的遍歷,該特性賦予了決策方法更多求解優(yōu)化的空間,從而可以得出更加貼近實(shí)際的決策.但廣義類型的決策輸出具有較高的意圖不確定性,如何通過可解釋性規(guī)則進(jìn)行約束以提高決策方法的可解釋性以及安全性是當(dāng)下研究的一個(gè)熱點(diǎn)方向.
綜合第2.1與2.2節(jié)內(nèi)容,依據(jù)輸入輸出類型,智能車輛決策方法分類如表1所示.
表1 依據(jù)輸入輸出類型的決策方法分類Tab.1 Classification of decision-making methods based on input and output types
除了依據(jù)信息輸入與輸出形式進(jìn)行分類外,決策模塊與環(huán)境的交互方式亦可作為決策方法歸納的重要指標(biāo)之一.智能車輛在行駛過程中所進(jìn)行的決策過程,可視為車輛與環(huán)境進(jìn)行交互的過程.現(xiàn)階段智能車輛決策方法的研究已經(jīng)度過了簡單場景的階段,開始聚焦于與環(huán)境具有沖突的復(fù)雜場景的決策方法研究.不同的環(huán)境交互方式所形成的決策方法在進(jìn)行決策時(shí)會(huì)有較大的差異,本節(jié)將從兩種環(huán)境交互方式來進(jìn)行歸納分析.
決定場地穩(wěn)定性的因素主要為地層巖性和地質(zhì)構(gòu)造。巖性條件對(duì)填埋場選址至關(guān)重要,場地應(yīng)盡量選在以細(xì)小顆粒為主的松散巖層或堅(jiān)硬巖層基礎(chǔ)上,巖性適合為更新統(tǒng)粘土、粉質(zhì)粘土以及板溪群、冷家溪群變質(zhì)砂巖、板巖或致密的花崗巖,基巖風(fēng)化程度最好為中風(fēng)化~微風(fēng)化,不宜為較粗顆粒的砂、礫石以及壺天群、棋子橋組等溶洞發(fā)育的灰?guī)r區(qū),以保證場地基礎(chǔ)及邊坡的穩(wěn)定性;選址應(yīng)選擇在無活動(dòng)斷裂、充水?dāng)嗔选⒌卣鸹顒?dòng)的地區(qū),活動(dòng)斷裂會(huì)造成地面不均勻沉降,威脅場地基礎(chǔ)穩(wěn)定性,充水?dāng)嗔褧?huì)大大增加地下水滲透性,增加場地基礎(chǔ)建設(shè)難度。
基于博弈論的決策方法認(rèn)為智能車輛與環(huán)境中的周邊車輛存在博弈關(guān)系,常見的建模方式為將存在交互行為的所有決策個(gè)體視為博弈中的參與者,各方的狀態(tài)改變?yōu)椴┺牟呗?,以此?gòu)建雙方的收益矩陣,通過求解博弈模型的Nash均衡,作為雙方的最優(yōu)駕駛策略組合.現(xiàn)階段研究常用的博弈參與者收益由自車的安全性、效率以及舒適性等指標(biāo)構(gòu)成[26].
文獻(xiàn)[10]通過在駕駛員之間運(yùn)用博弈論方法,解決了高速公路匝道口匯入的困難場景問題.文獻(xiàn)[26]通過對(duì)路口場景的車輛進(jìn)行建模,運(yùn)用加減速度決策對(duì)建立Nash矩陣,并生成最終決策.在Nash矩陣中,每一個(gè)決策者的收益值會(huì)受其余所有決策者的決策影響,所以決策Nash矩陣的維度將隨著決策者數(shù)量的增加呈指數(shù)型增長,這將帶來計(jì)算時(shí)間的指數(shù)型增加.為了解決該問題,可以采用基于樹搜索的算法.文獻(xiàn)[31]運(yùn)用蒙特卡洛樹(MCT)加速最優(yōu)值的搜索.文獻(xiàn)[30]引入了車輛的運(yùn)動(dòng)學(xué)、動(dòng)力學(xué)限制,通過遞歸的方式,減少了搜索的空間.文獻(xiàn)[28]則通過引入Stackelberg博弈來減少智能車輛自身的決策空間.Stackelberg博弈為兩階段的完全信息動(dòng)態(tài)博弈,博弈雙方都是根據(jù)對(duì)方可能的策略來選擇自己的策略以保證自己在對(duì)方策略下的利益最大化,從而達(dá)到Nash均衡.在該文獻(xiàn)中讓智能車輛作為該博弈場景中的先導(dǎo)決策方,率先作出即使所有環(huán)境車輛做出最惡劣舉措下的自身最優(yōu)決策.對(duì)于其他環(huán)境中的參與者,算法假設(shè)其均采取相同的策略,然后系統(tǒng)通過迭代直到收斂.該方案將決策方法的計(jì)算量減少為隨決策參與者線性增長,實(shí)現(xiàn)了運(yùn)算的加速.
博弈論的思想已融入到眾多決策方法中,多策略決策(MPDM)方法將博弈形式作為決策方法的基礎(chǔ).該方法為環(huán)境中的所有參與者設(shè)置了相同的策略空間,對(duì)全體參與者所有可能的選擇的決策組,MPDM設(shè)計(jì)了一個(gè)類似于模型預(yù)測控制(MPC)的推演窗口,計(jì)算出不同的子策略集所對(duì)應(yīng)的全局損失函數(shù)cost,然后在cost集里面選擇cost最小值所對(duì)應(yīng)的決策集作為當(dāng)前的最優(yōu)決策[29].文獻(xiàn)[32]針對(duì)動(dòng)態(tài)不確定的智能車輛環(huán)境,設(shè)計(jì)了基于MPDM的決策方法.文獻(xiàn)[9]將MPDM與 pAC結(jié)合,運(yùn)用MPDM計(jì)算匯流的候選點(diǎn),使pAC的總體成功率達(dá)到了與人類駕駛員相當(dāng)?shù)?2%.
半夏原植物性狀、功效、禁忌、毒性以及炮制工藝考證…………………………………………………… 靳曉琪等(23):3289
基于博弈的決策方法,是建立在環(huán)境中的決策參與者均為理性決策者的基礎(chǔ)上的一種方法.當(dāng)智能車輛在真實(shí)場景中,遇到非理性駕駛員時(shí),該方法常常會(huì)做出錯(cuò)誤的決策.如何對(duì)決策者為理性決策者和非理性決策者進(jìn)行建模分析,如何增強(qiáng)博弈決策算法的穩(wěn)定性,是基于博弈論的決策方法需要面臨的挑戰(zhàn).
與博弈形式所不同,禮讓形式的決策方法更加傾向于以對(duì)環(huán)境造成影響較小的最優(yōu)決策.文獻(xiàn)[33]提出一種最大交互防御策略(MIDP),以完成車道匯流場景下的安全決策.文獻(xiàn)[34]將環(huán)境車輛的駕駛行為建模為樸素貝葉斯(Naive Bayesian)的形式,智能車輛首先對(duì)當(dāng)前環(huán)境車輛進(jìn)行觀測,如果環(huán)境車輛加速,那么該車輛禮讓智能車輛的可能性較低;如果減速,則該環(huán)境車輛有較大概率禮讓.基于此模型,該論文聚焦于高速公路的匯入車流場景,設(shè)計(jì)出禮讓形式的決策方案.智能車輛對(duì)不同的決策所帶來的代價(jià)函數(shù)進(jìn)行計(jì)算,然后選擇最佳策略.文獻(xiàn)[35]使用粒子濾波器來估計(jì)環(huán)境中智能駕駛員模型的行為參數(shù),例如最大加速度、期望加速度、期望速度、最小間隔距離等.隨后,該決策方法基于此模型,根據(jù)當(dāng)前觀測,推演未來空間內(nèi)各物體的位姿,從而獲得最優(yōu)決策.文獻(xiàn)[36]將環(huán)境中的障礙物等信息以語義序列的方式提取出來,然后通過優(yōu)化目標(biāo)函數(shù)進(jìn)行決策.
現(xiàn)階段已有眾多研究成果運(yùn)用強(qiáng)化學(xué)習(xí)方法方法生成離散決策或連續(xù)決策[42-45].文獻(xiàn)[46]基于獎(jiǎng)勵(lì)函數(shù)和更新函數(shù)開發(fā)了增強(qiáng)型Q學(xué)習(xí)算法.文獻(xiàn)[47]基于深度強(qiáng)化學(xué)習(xí)(Deep RL)設(shè)計(jì)了決策訓(xùn)練器以進(jìn)行智能車輛決策訓(xùn)練.文獻(xiàn)[48]針對(duì)車輛駕駛性能的多目標(biāo)問題,提出了基于最小二乘策略迭代(LSPI)的多目標(biāo)強(qiáng)化學(xué)習(xí)(MORL)算法,并且應(yīng)用于車輛智能駕駛決策問題.文獻(xiàn)[49]將三維點(diǎn)云以及攝像機(jī)圖片作為決策模塊的輸入,通過基于多重獎(jiǎng)勵(lì)架構(gòu)(MRA)強(qiáng)化學(xué)習(xí)方法,實(shí)現(xiàn)車輛在高速公路場景下的控制與決策.隨著解空間構(gòu)型的逐漸復(fù)雜,強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過程可能會(huì)急劇加長甚至不再收斂.現(xiàn)階段RL研究工作者分別提出了課程式學(xué)習(xí)[50-52]與對(duì)抗學(xué)習(xí)[53-54].
采取典型臨床癥狀患病羊新鮮血液進(jìn)行血常規(guī)檢查,發(fā)現(xiàn)患病羊紅細(xì)胞數(shù)量下降到5.0×1012個(gè)/L,血紅蛋白數(shù)量下降到50 g/L(正常數(shù)值分別為13.0×1012個(gè)/L和110 g/L),患病羊血液中紅細(xì)胞數(shù)量和血紅蛋白數(shù)量嚴(yán)重下降,遠(yuǎn)低于正常數(shù)值。采集患病羊耳尖靜脈鮮血滴加到載玻片上,向其中加入等量生理鹽水,混合均勻后,蓋上蓋玻片,在1 000倍的顯微鏡下觀察,發(fā)現(xiàn)血液中幾乎看不到成熟的血紅細(xì)胞,紅細(xì)胞形態(tài)為逗號(hào)狀月牙狀,血細(xì)胞核為幼稚紅細(xì)胞,在紅細(xì)胞內(nèi)并沒有發(fā)現(xiàn)梨形蟲和弓形蟲[1]。
依據(jù)與環(huán)境的交互方式,智能車輛決策方法分類如表2所示.
表2 依據(jù)與環(huán)境交互方式的決策方法分類Tab.2 Classification of decision-making methods based on interaction with the environment
機(jī)器學(xué)習(xí)是現(xiàn)階段決策算法研究中常用的方法,是否基于機(jī)器學(xué)習(xí)方法以及所采用算法的類型是對(duì)決策方法進(jìn)行總結(jié)歸納的一個(gè)重要依據(jù).通過分析已有的科研工作,本小節(jié)將分別從非學(xué)習(xí)類方法與學(xué)習(xí)類方法兩大類進(jìn)行介紹.
非學(xué)習(xí)類的決策方法又稱為傳統(tǒng)決策方法,其主要代表為有限狀態(tài)機(jī)(FSM)方法,該方法由于其穩(wěn)定性在現(xiàn)階段仍得到了廣泛的應(yīng)用.基于狀態(tài)機(jī)的決策方法有著結(jié)構(gòu)簡單、可解釋性強(qiáng)的特點(diǎn).FSM是一種離散輸入、輸出系統(tǒng)的數(shù)學(xué)模型,其由有限個(gè)狀態(tài)組成,當(dāng)前狀態(tài)接收事件并產(chǎn)生相應(yīng)的動(dòng)作,進(jìn)而引起狀態(tài)的轉(zhuǎn)移.狀態(tài)、事件、轉(zhuǎn)移、動(dòng)作是有限狀態(tài)機(jī)的四大要素.根據(jù)狀態(tài)分解以及連接邏輯,將其分為串聯(lián)式、并聯(lián)式、混聯(lián)式3種體系架構(gòu)[5].
文獻(xiàn)[37]運(yùn)用決策樹方法對(duì)智能車輛決策模塊進(jìn)行建模.決策樹方法可以視為狀態(tài)機(jī)方法的抽象方法,決策樹方法將狀態(tài)機(jī)中生成的決策以樹狀形式維護(hù)起來.當(dāng)車輛處于不同的決策場景中時(shí),通過計(jì)算車輛狀態(tài),在決策樹中檢索具體的最優(yōu)行為決策.文獻(xiàn)[8]提出一種基于層次狀態(tài)機(jī)的智能車輛換道決策方法,該決策框架由兩部分組成:微型場景信息模型和基于多屬性決策的車道變更行為的決策模型.
HEHE的超聲增強(qiáng)方式與其組織特征相關(guān),活躍的腫瘤細(xì)胞主要位于周邊部,腫瘤組織中央部分可發(fā)生透明樣變,為此在超聲造影上腫瘤生長活躍的周邊部增強(qiáng)較明顯[21]。在增強(qiáng)CT上,如果注射造影劑后呈外周強(qiáng)化,有病灶融合趨勢,可診斷為HEHE。若HEHE出現(xiàn)病灶內(nèi)緣短粗毛刺樣增強(qiáng)長度較穩(wěn)定,增強(qiáng)始終不能達(dá)到病灶中央,需要在臨床上合理鑒別[22]。特別是但當(dāng)病灶出現(xiàn)環(huán)狀增強(qiáng)要注意是否有HEHE存在的可能性,門脈期和延遲期快速減退為低回聲是提示HEHE的特征性表現(xiàn)[23]。
基于狀態(tài)機(jī)的決策方法擁有清晰的決策意圖,從而具備較強(qiáng)的可解釋性,但其難以涵蓋車輛真實(shí)行駛環(huán)境中的邊緣場景,難以保證決策方法在真實(shí)復(fù)雜多變的駕駛環(huán)境中的穩(wěn)定性.
基于學(xué)習(xí)的決策方法隨著車載計(jì)算單元計(jì)算能力的增強(qiáng),愈發(fā)得到學(xué)術(shù)界與工業(yè)界的關(guān)注.現(xiàn)階段學(xué)習(xí)類的決策方法主要可以分為基于深度監(jiān)督學(xué)習(xí)、基于強(qiáng)化學(xué)習(xí)以及基于逆強(qiáng)化學(xué)習(xí)(IRL)3種,本節(jié)將以此進(jìn)行分類與介紹.
(1)基于深度監(jiān)督學(xué)習(xí)的方法.基于深度監(jiān)督學(xué)習(xí)的決策方法主要形式為從大量的標(biāo)簽駕駛行為數(shù)據(jù)中學(xué)習(xí)環(huán)境信息到車輛決策的有效映射關(guān)系.由于深度監(jiān)督學(xué)習(xí)已經(jīng)在圖像等領(lǐng)域得到了廣泛的應(yīng)用與驗(yàn)證,該類型在學(xué)習(xí)類方法中率先被應(yīng)用于智能車輛的決策方法研究中.
現(xiàn)階段已有眾多國內(nèi)外科研機(jī)構(gòu)基于深度監(jiān)督學(xué)習(xí)方法對(duì)車輛決策進(jìn)行了研究.文獻(xiàn)[38]提出基于注意力機(jī)制的車輛決策方法,以實(shí)現(xiàn)在擁擠車流中的決策.文獻(xiàn)[39]運(yùn)用多任務(wù)學(xué)習(xí)(MT-LfD)框架實(shí)現(xiàn)對(duì)環(huán)境車輛的決策預(yù)測.同樣基于監(jiān)督學(xué)習(xí)開展科研工作的還有英特爾公司的端到端決策模塊[16],Comma.ai公司所提出的基于RNN的端到端決策模塊[17].文獻(xiàn)[25]以NGSIM數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),設(shè)計(jì)了基于長短時(shí)記憶(LSTM)神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(CRF)模型的類人決策算法,提高了車輛換道決策的成功率.相似的研究還有百度 Apollo 團(tuán)隊(duì)的研究成果[40],其運(yùn)用基于深度監(jiān)督學(xué)習(xí)的決策方法,實(shí)現(xiàn)了對(duì)智能車輛的橫向控制與縱向控制.Apollo團(tuán)隊(duì)運(yùn)用CNN實(shí)現(xiàn)車輛的橫向控制,該決策模塊以前視攝像機(jī)的圖片作為決策方法的輸入,決策模塊直接計(jì)算出方向盤的期望偏角,以實(shí)現(xiàn)對(duì)路徑的跟蹤.同時(shí),Apollo團(tuán)隊(duì)采用LSTM模型,從圖像時(shí)間序列中獲取油門與剎車的控制量.
基于深度監(jiān)督學(xué)習(xí)的決策方法,依賴于數(shù)據(jù)集的質(zhì)量,其可以在特定場景下通過對(duì)已有專家數(shù)據(jù)的學(xué)習(xí),做出精準(zhǔn)、高效的決策.然而此類型方法仍然存在一些不足,例如當(dāng)訓(xùn)練數(shù)據(jù)集出現(xiàn)不均衡的情況或者數(shù)據(jù)集缺少難例樣本時(shí),決策方法難以根據(jù)學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)做出正確的決策.同時(shí),由于深度監(jiān)督學(xué)習(xí)基于深度神經(jīng)網(wǎng)絡(luò)以實(shí)現(xiàn)車輛決策的計(jì)算,其模型的可解釋性較低,難以獨(dú)立應(yīng)用于車輛的決策系統(tǒng).
車載傳感器通常有激光雷達(dá)、毫米波雷達(dá)、攝像頭,由傳感器獲得的數(shù)據(jù)有著數(shù)據(jù)形式貼合實(shí)際車輛行駛環(huán)境,數(shù)據(jù)信息量豐富等特點(diǎn).
(2)基于強(qiáng)化學(xué)習(xí)的方法.強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)不同,監(jiān)督學(xué)習(xí)中的決策方法從數(shù)據(jù)集中直接獲得正負(fù)樣本的標(biāo)簽,而強(qiáng)化學(xué)習(xí)模型須通過在解空間內(nèi)的反復(fù)試錯(cuò),才能獲得最優(yōu)模型[41].
采用禮讓形式的決策方法,可以理解為與環(huán)境的單向交互,此類型的決策方法通?;趯?duì)歷史數(shù)據(jù)中先驗(yàn)信息的提取,根據(jù)對(duì)未來場景的推演,生成智能車輛當(dāng)前幀的決策以達(dá)到最優(yōu)目標(biāo)函數(shù).該類方法較依賴于數(shù)據(jù),并且缺乏對(duì)環(huán)境的主動(dòng)交互,在長時(shí)域?qū)Νh(huán)境車輛的駕駛行為以及運(yùn)動(dòng)軌跡的預(yù)測不足,短時(shí)域內(nèi)可能會(huì)陷于局部最優(yōu),從而對(duì)決策方法的穩(wěn)定性帶來了挑戰(zhàn).除此之外,禮讓形式下的決策方法在交互場景中更傾向于選擇保守的決策,該特性雖然可以有效地提高車輛的安全性,但是在車流量較高的復(fù)雜場景中常陷入舉步不前的決策結(jié)果.
此類方法的主要優(yōu)點(diǎn)是該類方法在訓(xùn)練時(shí)不需要標(biāo)注數(shù)據(jù)集,從而降低了標(biāo)注的成本.除此之外,其可以處理非結(jié)構(gòu)化數(shù)據(jù),例如原始或經(jīng)過稍微預(yù)處理的雷達(dá)或基于攝像機(jī)的圖像信息.然而該方法仍有不足之處,其學(xué)習(xí)與訓(xùn)練的目標(biāo)依賴人為設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù),該獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的好壞將直接決定強(qiáng)化學(xué)習(xí)決策方法的性能.同時(shí),由于強(qiáng)化學(xué)習(xí)需要在仿真器內(nèi)進(jìn)行迭代訓(xùn)練,仿真器對(duì)現(xiàn)實(shí)工況的模擬程度將影響決策方法從仿真環(huán)境到現(xiàn)實(shí)環(huán)境的可遷移性.
(3)基于逆強(qiáng)化學(xué)習(xí)的方法.針對(duì)強(qiáng)化學(xué)習(xí)需要人為設(shè)置獎(jiǎng)勵(lì)函數(shù)的弊端,逆強(qiáng)化學(xué)習(xí)通過從專家演示中學(xué)到未知的獎(jiǎng)勵(lì)函數(shù)來解決該問題.
文獻(xiàn)[55]在高速公路仿真中學(xué)習(xí)不同駕駛風(fēng)格,此工作展示了具有未知獎(jiǎng)勵(lì)函數(shù)的Markov決策過程在車輛行為決策中的優(yōu)勢.為了避免逆強(qiáng)化學(xué)習(xí)的過擬合,現(xiàn)階段研究采用最大熵IRL方法來解決過擬合問題.文獻(xiàn)[56]應(yīng)用了最大熵IRL的原理,因?yàn)樽畲箪胤植硷@示出對(duì)數(shù)據(jù)的最少承諾,這是避免過度擬合的自然選擇,.文獻(xiàn)[57]設(shè)計(jì)了一個(gè)風(fēng)險(xiǎn)敏感的IRL框架,能夠明確考慮專家的風(fēng)險(xiǎn)敏感度.該框架能夠捕獲從中性風(fēng)險(xiǎn)到最壞情況的不同風(fēng)險(xiǎn)偏好范圍.基于線性編程的算法可用于推斷專家的隱藏風(fēng)險(xiǎn)指標(biāo).文獻(xiàn)[58]提出了最大熵深度IRL框架,利用深度完全卷積神經(jīng)網(wǎng)絡(luò)的表達(dá)能力表示潛在的駕駛行為成本模型.
基于逆強(qiáng)化學(xué)習(xí)的決策方法,彌補(bǔ)了強(qiáng)化學(xué)習(xí)方法中人為設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)時(shí)的缺陷,是現(xiàn)階段決策研究的一個(gè)新方向,該方法將專家知識(shí)與算法的自我學(xué)習(xí)能力相結(jié)合,進(jìn)一步提高算法的性能.然而和強(qiáng)化學(xué)習(xí)類方法相類似,逆強(qiáng)化學(xué)習(xí)類方法對(duì)仿真器的環(huán)境重現(xiàn)性能有較高的要求.
通過本節(jié)的總結(jié)與分析,依據(jù)其是否采用學(xué)習(xí)類算法以及所采用學(xué)習(xí)類算法的類型,智能車輛決策方法的分類歸納如表3所示.
部分民間投資者不講誠信,對(duì)招商協(xié)議及項(xiàng)目恰談中承諾的投資和設(shè)施(特別是水土保持工程措施)建設(shè)不落實(shí),對(duì)建設(shè)生產(chǎn)過程中產(chǎn)生的水土流失不治理,工程項(xiàng)目不僅未能改善生態(tài)環(huán)境,還一定程度上加劇了項(xiàng)目區(qū)水土流失。部分投資者在經(jīng)濟(jì)林建設(shè)中野蠻施工,對(duì)地塊周邊植被及原有水利水保設(shè)施損毀嚴(yán)重,項(xiàng)目區(qū)生物多樣性和生態(tài)環(huán)境被破壞。部分投資者只圖作業(yè)便利,在中藥材種植基地采取順坡起壟整地,地塊內(nèi)水土流失嚴(yán)重。
隨著現(xiàn)階段科研水平的不斷提高,眾多科研工作者運(yùn)用智能車輛在現(xiàn)實(shí)環(huán)境中創(chuàng)建仿真場景對(duì)決策方法進(jìn)行測試.文獻(xiàn)[61]在真實(shí)車流中評(píng)估其決策算法.
表3 依據(jù)算法類型的決策方法分類Tab.3 Classification of decision-making methods based on algorithm types
如前文所述,現(xiàn)階段對(duì)于決策方法的性能評(píng)估標(biāo)準(zhǔn)尚未統(tǒng)一,且當(dāng)前缺乏文獻(xiàn)對(duì)其進(jìn)行歸納與總結(jié).同時(shí),現(xiàn)階段尚未有文獻(xiàn)對(duì)決策研究中常用的數(shù)據(jù)集進(jìn)行整理與歸納.本小結(jié)將對(duì)決策效果評(píng)估方法進(jìn)行討論,并將對(duì)常用數(shù)據(jù)集進(jìn)行總結(jié).
如何評(píng)估智能車輛決策方法的優(yōu)越性,是算法研究中的關(guān)鍵問題.現(xiàn)階段決策方法的相關(guān)成果中,決策方法的評(píng)估手段可以分類為自建仿真場景的評(píng)估方法與基于數(shù)據(jù)集的評(píng)估方法.
5.1.1自建仿真場景的評(píng)估方法 自建仿真場景并設(shè)計(jì)智能機(jī)器人模仿環(huán)境參與者以進(jìn)行決策方法的評(píng)估是現(xiàn)階段常見的評(píng)估方法.該方法中,科研工作者常搭建仿真環(huán)境,并定義具體的指標(biāo)來衡量算法的優(yōu)越性,例如安全、效率、舒適的量化指標(biāo),是否會(huì)發(fā)生碰撞以及碰撞發(fā)生的最小時(shí)間等.文獻(xiàn)[15]建立了三車道仿真平臺(tái),并基于此評(píng)估了其提出的基于進(jìn)化學(xué)習(xí)的智能車輛決策方法.文獻(xiàn)[22]設(shè)計(jì)了兩個(gè)評(píng)估指標(biāo):延長碰撞時(shí)間(ETTC)和動(dòng)態(tài)預(yù)測距離分布(DPIDP),并在自建的仿真平臺(tái)上進(jìn)行了決策方法評(píng)估與驗(yàn)證.文獻(xiàn)[59]通過設(shè)計(jì)路口仿真器,驗(yàn)證了其提出的基于可到達(dá)集的決策方法.文獻(xiàn)[60]設(shè)計(jì)了T型路口仿真器,通過對(duì)比碰撞率以及通過時(shí)間來評(píng)估其決策方法.文獻(xiàn)[13]以及[23-24]同樣采用自建仿真場景來進(jìn)行評(píng)估.
觀察組患兒給予孟魯司特聯(lián)合阿奇霉素:阿奇霉素的運(yùn)用方法與對(duì)照組患兒一致,對(duì)患兒給予孟魯司特(生產(chǎn)廠商即為杭州默沙東制藥有限公司,批準(zhǔn)文號(hào)即為國藥準(zhǔn)字J20130047,規(guī)格即為10 mg×5片/盒),年齡小于6周歲的患兒服用劑量單次4 mg,年齡大于6周歲的患兒服用劑量單次5 mg,每日2次,在早間與晚間加以服用,持續(xù)實(shí)施3周的治療。
5.1.2基于數(shù)據(jù)集的評(píng)估方法 另一種常見的評(píng)估方法是基于已有的數(shù)據(jù)集對(duì)決策方法進(jìn)行評(píng)估.在運(yùn)用數(shù)據(jù)集對(duì)智能車輛決策方法進(jìn)行評(píng)估時(shí),一個(gè)主要特點(diǎn)是數(shù)據(jù)集中的車輛軌跡是既定的.在眾多采用此方法進(jìn)行評(píng)估的研究工作中,常見的方式為將數(shù)據(jù)集中的目標(biāo)車輛(例如正在或即將進(jìn)行換道、匯流的車輛)替換為采用目標(biāo)決策方法的智能車輛,隨后根據(jù)該智能車輛能否安全順利完成指定目標(biāo)來進(jìn)行評(píng)估.同時(shí),除了將目標(biāo)完成度作為度量指標(biāo)外,在模擬評(píng)估過程中車輛的碰撞率、平穩(wěn)性、最小安全距離等指標(biāo)也將作為評(píng)價(jià)函數(shù)的子屬性對(duì)決策方法進(jìn)行評(píng)估.文獻(xiàn)[62]在論文中設(shè)計(jì)了評(píng)估指標(biāo),并運(yùn)用NGSIM數(shù)據(jù)集對(duì)其提出的基于pAC的決策方法的評(píng)估.文獻(xiàn)[11]運(yùn)用NGSIM數(shù)據(jù)集中的匯流場景,對(duì)其基于博弈論的決策方法進(jìn)行評(píng)估驗(yàn)證,并以匯流是否成功作為評(píng)估指標(biāo).文獻(xiàn)[25]運(yùn)用NGSIM數(shù)據(jù)集驗(yàn)證其車輛換道決策的類人性與安全性.
智能車輛所面臨的決策問題可以概括為一個(gè)在復(fù)雜條件下的優(yōu)化問題,而意圖類型的決策輸出讓智能車輛在充滿非凸問題的復(fù)雜環(huán)境中,獲得將問題轉(zhuǎn)化為凸問題再求解的能力.同時(shí),此時(shí)的輸出使決策模塊更加穩(wěn)定,因?yàn)楹蛦渭兊臄?shù)值優(yōu)化求解器相比,單純的數(shù)值優(yōu)化方法很難保證每一幀的解是相對(duì)穩(wěn)定的,但是意圖決策輸出可以保證決策的連續(xù)性和穩(wěn)定性.除此之外,意圖輸出也簡化了決策模塊的輸出數(shù)據(jù)結(jié)構(gòu),成為了眾多決策方法研究的輸出形式.但意圖輸出同樣存在不足之處,現(xiàn)實(shí)車輛行駛環(huán)境較為復(fù)雜,通過離散決策難以枚舉全量解空間,所以可能會(huì)丟失最優(yōu)解.
專項(xiàng)整治后我院住院患者抗菌藥物使用量與大腸埃希菌耐藥率的變化及其相關(guān)性分析 ………………… 奚彩萍等(2):204
5.2.1NGSIM數(shù)據(jù)集 美國聯(lián)邦公路局于2002年發(fā)起的NGSIM計(jì)劃.通過在路段上方安裝高清攝像機(jī)的方式采集檢測路段上的車輛運(yùn)行數(shù)據(jù),再利用視頻處理軟件,以10幀/s或15幀/s的頻率對(duì)車輛軌跡數(shù)據(jù)進(jìn)行還原[63].
該數(shù)據(jù)集包括I-80、US-101、Lank、Peach 4個(gè)路段上的車輛軌跡數(shù)據(jù).其中,I-80和US-101為高速公路,Lank和Peach為城市道路.此數(shù)據(jù)集在車輛跟馳、車輛變道、交通流演化和車輛軌跡預(yù)測等方面有著廣泛的應(yīng)用[64-67].針對(duì)智能車輛決策研究領(lǐng)域,NGSIM數(shù)據(jù)集可用于進(jìn)行決策方法的功能性驗(yàn)證.同時(shí),由于該數(shù)據(jù)集采集時(shí)間較早且使用廣泛,適合研究人員用于不同決策方法之間優(yōu)越性的對(duì)比.但該數(shù)據(jù)集的不足在于其場景比較單一,并且在車輛的邊緣提取上存在一定的誤差.NGSIM數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)如表4所示.
5.2.2High-D數(shù)據(jù)集 High-D數(shù)據(jù)集由德國亞琛工業(yè)大學(xué)汽車工程研究所提供,為德國高速公路的大型自然車輛軌跡數(shù)據(jù)集[68].此數(shù)據(jù)集由高空懸停無人機(jī)拍攝并經(jīng)由后期圖像處理,包括來自6個(gè)地點(diǎn)的11.5 h測量值和1.1×105輛車,所測量的車輛總行駛里程為4.5×104km,還包括 5 600 條完整的變道記錄.該數(shù)據(jù)集定位誤差平均小于10 cm.該數(shù)據(jù)集的車輛定位精準(zhǔn)、車輛邊緣識(shí)別準(zhǔn)確,且車流密度較大,適合于高車速場景下的決策方法研究.但不足之處在于場景較為單一,聚焦于高速公路場景.High-D數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)如表5所示.
表4 NGSIM 數(shù)據(jù)集數(shù)據(jù)格式Tab.4 Data format of NGSIM dataset
表5 High-D數(shù)據(jù)集數(shù)據(jù)格式Tab.5 Data format of High-D dataset
智能車輛決策模塊是車輛安全性、舒適性與高效性的決定因素之一,而車輛行駛環(huán)境的高度動(dòng)態(tài)性與復(fù)雜性對(duì)決策方法的研究提出了挑戰(zhàn).近年來,學(xué)術(shù)界和工業(yè)界進(jìn)行了廣泛和深入的研究,并提出了一系列的決策方法.然而,目前的研究依舊存在如下挑戰(zhàn)亟待解決.
針對(duì)智能車輛決策方法研究領(lǐng)域,該數(shù)據(jù)集適用于駕駛員決策風(fēng)格的提取、對(duì)抗性場景下決策方法研究以及車流密度較大的、復(fù)雜場景下的決策預(yù)測與研究.同時(shí),該數(shù)據(jù)集收集了危險(xiǎn)場景、碰撞場景的案例,可以供科研工作者進(jìn)行危險(xiǎn)場景下的研究.但由于該數(shù)據(jù)集的信息并非由傳感器直接收集獲得,所以不能應(yīng)用于端到端的算法開發(fā)中.INTERACTION數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)如表6所示.
⑴沒有完善信息管理制度。從目前形勢看來,信息化管理制度處于初步發(fā)展階段,也可以說是保持在雛形,其還需要長時(shí)間完善和發(fā)展,而且很多醫(yī)院缺乏軟件和硬件設(shè)施,根本不滿足辦公自動(dòng)化的基礎(chǔ)需求。而且患者電子檔案也缺乏相應(yīng)的保障措施,在沒有安全措施的保護(hù)下,患者資料很容易泄露出去,不僅會(huì)給患者帶來很大影響,也會(huì)造成患者對(duì)醫(yī)院的不信任,讓醫(yī)院正面形象受損。隨著醫(yī)院對(duì)辦公自動(dòng)化研究的深入,很多醫(yī)院都在檔案管理中投入大量資金,不過由于缺乏完善的信息管理制度,很多資金都沒能用在關(guān)鍵地方,導(dǎo)致硬件和軟件在配套上存在很大問題,其中的差距很難彌補(bǔ)。
表6 INTERACTION 數(shù)據(jù)集數(shù)據(jù)格式Tab.6 Data format of INTERACTION dataset
5.2.4Level 5數(shù)據(jù)集 Level 5數(shù)據(jù)集由美國Lyft公司提供,該數(shù)據(jù)集包含了超過 4 000 個(gè)車道段的基礎(chǔ)高精度空間語義地圖、197個(gè)人行橫道、60個(gè)停車標(biāo)志、54個(gè)停車區(qū)、8個(gè)減速帶和11個(gè)減速帶[70].
數(shù)據(jù)集約有 3 000 個(gè)駕駛場景,總計(jì)16.7 h的視頻數(shù)據(jù)共6×105幀,以及大約2.5×107個(gè)3D邊界框和2.2×107個(gè)2D邊界框.Level 5由兩個(gè)子數(shù)據(jù)集組成,分別是感知數(shù)據(jù)集與預(yù)測數(shù)據(jù)集.感知數(shù)據(jù)集的數(shù)據(jù)格式沿用nuScenes 格式,由7個(gè)攝像頭和3個(gè)激光雷達(dá)傳感器采集生成.預(yù)測數(shù)據(jù)集包含1.7×105個(gè)場景,這些場景捕獲了自動(dòng)駕駛汽車周圍的環(huán)境,并且每個(gè)場景都會(huì)在給定的時(shí)間點(diǎn)對(duì)車輛周圍的狀態(tài)進(jìn)行編碼.Level 5數(shù)據(jù)集的數(shù)據(jù)格式如表7所示.
綜上所述,介紹了4個(gè)在決策方法研究中常用的數(shù)據(jù)集,本文對(duì)各數(shù)據(jù)集的特性以及引用情況進(jìn)行了總結(jié)分析,如表8所示.
表7 Level 5 數(shù)據(jù)集數(shù)據(jù)格式Tab.7 Data format of Level 5 dataset
表8 數(shù)據(jù)集總結(jié)表Tab.8 Summary of datasets
5.2.3INTERACTION數(shù)據(jù)集 INTERACTION是由加州大學(xué)伯克利分校機(jī)械系統(tǒng)控制實(shí)驗(yàn)室(MSC Lab)等建立的一個(gè)國際性、對(duì)抗性、協(xié)作性的數(shù)據(jù)集[69].該數(shù)據(jù)集場景較為豐富,包含了城市道路、公路、匝道合并、帶有禮讓停車標(biāo)志的環(huán)形路口以及信號(hào)燈交叉路口等.同時(shí),該數(shù)據(jù)集采集地點(diǎn)來自不同的國家,以便自然地包含不同文化中的駕駛偏好和風(fēng)格,并且該數(shù)據(jù)集具有完整語義的地圖信息,包括物理層、參考線、道路連接以及交通規(guī)則.
(1)數(shù)據(jù)不均衡問題尚未解決.決策方法的設(shè)計(jì)與驗(yàn)證離不開數(shù)據(jù),然而現(xiàn)階段智能車輛決策方法研究中所用的真實(shí)數(shù)據(jù)常存在不均衡問題.例如車輛在正常行駛狀況下,直道的行為遠(yuǎn)多于彎道的行為,簡單場景的決策會(huì)遠(yuǎn)多于復(fù)雜危險(xiǎn)場景的決策.不平衡數(shù)據(jù)集在訓(xùn)練模型時(shí),反饋的梯度分布也會(huì)失衡,從而使模型的能力偏向于數(shù)據(jù)分布較大的數(shù)據(jù),而對(duì)少分布的數(shù)據(jù)估計(jì)、預(yù)測能力較差.
(2)可解釋、穩(wěn)定性的決策方法尚未實(shí)現(xiàn).現(xiàn)階段學(xué)習(xí)類方法在決策方法中得到了較為廣泛的應(yīng)用,為了提高決策方法的可解釋性并建立用戶與決策模型之間的信任關(guān)系,消除模型在實(shí)際部署應(yīng)用中的不穩(wěn)定性,近年來學(xué)術(shù)界和工業(yè)界已經(jīng)在可解釋性上取得了一定的進(jìn)展.然而該方向的研究還處于初級(jí)階段,依然存在許多的關(guān)鍵問題尚待解決.
(3)決策模塊中的倫理問題尚未得到深入探討.自“電車問題”提出以來,眾多學(xué)者對(duì)如何做出符合倫理的決策產(chǎn)生持續(xù)的爭論.智能車輛的決策模塊由于其功能的特殊性,也常受到倫理問題的挑戰(zhàn).例如在博弈環(huán)節(jié)中如何設(shè)置遵循倫理的目標(biāo)函數(shù),如何在路權(quán)被侵犯時(shí)合理地與環(huán)境車輛進(jìn)行交互等.
(4)噪聲、不完全可觀場景下決策方法的穩(wěn)定性需要進(jìn)一步提高.環(huán)境的感知與定位信息對(duì)于智能車輛的決策生成而言至關(guān)重要.但當(dāng)車流密度較大時(shí),感知信息中常存在噪聲,并且由于環(huán)境車輛的遮擋而導(dǎo)致不完全客觀環(huán)境的問題難以避免.以上問題對(duì)決策方法的穩(wěn)定性提出了挑戰(zhàn).
(5)實(shí)際應(yīng)用場景中車輛決策實(shí)驗(yàn)亟需開展.目前的車輛決策方法研究仍然以實(shí)驗(yàn)室環(huán)境驗(yàn)證為主,缺乏實(shí)際應(yīng)用場景的驗(yàn)證.
針對(duì)現(xiàn)階段智能車輛決策方法研究中存在的問題,本文從5個(gè)方面指出未來的研究方向.
(1)針對(duì)邊緣場景的決策方法研究與數(shù)據(jù)集設(shè)計(jì)工作.隨著智能車輛研究工作的展開,現(xiàn)階段決策方法逐漸聚焦于解決邊緣場景、困難場景下的決策生成.因此,設(shè)計(jì)應(yīng)對(duì)訓(xùn)練數(shù)據(jù)不均衡,解決現(xiàn)實(shí)中不常見場景下的決策問題,將會(huì)成為智能車輛決策方法研究的方向之一.同時(shí),由于當(dāng)前數(shù)據(jù)集缺乏對(duì)危險(xiǎn)場景、沖突場景等邊緣場景的數(shù)據(jù)采集,設(shè)計(jì)具有針對(duì)性的數(shù)據(jù)集亦將成為未來研究工作的方向之一.
(2)第三代人工智能背景下可解釋、魯棒決策方法研究.現(xiàn)階段決策方法難以兼顧解釋性與穩(wěn)定性,原因在于當(dāng)下的學(xué)習(xí)類決策方法,較多地依賴于數(shù)據(jù)驅(qū)動(dòng),卻忽略了專家知識(shí)信息.未來車輛決策方法的研究將會(huì)把數(shù)據(jù)驅(qū)動(dòng)與知識(shí)驅(qū)動(dòng)結(jié)合起來,通過同時(shí)利用知識(shí)、數(shù)據(jù)、算法和算力等4個(gè)要素實(shí)現(xiàn)決策方法的開發(fā).
(3)考慮倫理道德的車輛決策方法研究.決策是否遵循倫理道德,將會(huì)直接影響在車輛遇險(xiǎn)等場景下的責(zé)任追究與法律判定.同時(shí),決策是否符合倫理規(guī)范將會(huì)影響用戶與公眾對(duì)決策模型的信任,進(jìn)而影響智能車輛在社會(huì)范圍大規(guī)模推廣的進(jìn)程.因此,將倫理問題量化,并為決策模塊中的倫理問題設(shè)計(jì)合適的代價(jià)函數(shù),亦成為未來決策方法的研究方向之一.
圖1描述了2008年和2009年中國城鎮(zhèn)居民主觀幸福感的核密度分布圖,從圖中可以看出,2008年和2009年的核密度分布走勢相似,且峰值均出現(xiàn)在30左右;平均來看,公眾的主觀幸福感較高。
(4)基于路側(cè)感知與車間通訊的決策方法研究.隨著通訊技術(shù)的進(jìn)步以及路側(cè)基礎(chǔ)設(shè)施的普及,以路側(cè)感知信息和車間通訊信息作為輸入的決策方法將有效解決感知噪聲干擾和不完全可觀場景下的決策問題,因此該方向?qū)⒊蔀槲磥淼臎Q策方法研究熱點(diǎn)之一.
Lambert-Beer定律視粒子的散射過程與吸收過程等同,該方法局限于粒子的單次散射條件.在實(shí)際傳輸過程中,吸收現(xiàn)象使得光子不再向前傳播,造成了能量的衰減.散射則是通過改變光子的行進(jìn)方向,使接收到的粒子數(shù)減少,造成探測到的能量減小.而粒子經(jīng)過多次散射后可能被接收到,這種多次散射情況會(huì)對(duì)透過率產(chǎn)生貢獻(xiàn),卻不能被Lambert-Beer定律計(jì)算得出.
(5)實(shí)際復(fù)雜場景下的智能車輛決策實(shí)驗(yàn).結(jié)合實(shí)際的車輛行駛場景,如開放、擁堵場景下的車輛變道行為、匯流場景下的車輛博弈決策行為、路口場景中的車輛決策行為、車輛與行人等多種交通參與者的混合場景下的決策行為等展開實(shí)驗(yàn).