黃昆
(天津經(jīng)緯恒潤科技有限公司,天津 300385)
主題詞:跟車測試場景 聚類挖掘 K均值聚類 自動駕駛技術(shù)
隨著智能駕駛技術(shù)的不斷發(fā)展,特斯拉、蔚來等主機廠已經(jīng)開發(fā)了許多較為完善的先進自動駕駛輔助系統(tǒng)[1-2],例如高速自動輔助駕駛(Highway Pilot,HP)、擁堵自動輔助駕駛[3](Traffic Jam Pilot,TJP)等,然而目前智能駕駛汽車仍無法實現(xiàn)L4及以上的智能駕駛,其技術(shù)發(fā)展仍需要多種自然駕駛場景支持,因此,十分有必要開展各類駕駛場景挖掘研究。
場景聚類挖掘[4-5]是獲取智能駕駛測試場景的主要方法之一。徐向陽[6]等基于國家車輛事故深度調(diào)查體系中的499 例事故場景數(shù)據(jù),對我國自動緊急制動(Autonomous Emergency Braking, AEB)場景進行聚類挖掘。郭景華[7]等基于我國自然駕駛數(shù)據(jù)中的危險工況片段,使用層次聚類法對駕駛行程中的危險場景進行聚類挖掘。夏瀾[8]等通過對43例自然駕駛場景進行分析,挖掘到6 類目標切入的危險跟車場景。Adam[9]等人以交通目標之間的位置關(guān)系作為判別量,基于此提出了一種距離聚類的場景挖掘方法。Jin[10]等人使用考慮時間與空間的馬氏距離對跟車進行聚類,提出了一種交通異常事件的場景挖掘方法。Birant[11]等人提出了一種用于處理大規(guī)模數(shù)據(jù)集異常問題的時空異常場景挖掘算法。
場景聚類挖掘是智能駕駛場景研發(fā)和驗證的基石,對我國智能駕駛技術(shù)的發(fā)展具有十分重要的意義。本文基于K均值聚類算法,對自然駕駛過程中的跟車場景進行場景解構(gòu)和場景聚類挖掘研究,依據(jù)場景主體要素挖掘到3類典型的跟車工況,并結(jié)合場景交通環(huán)境及車輛類型等要素,構(gòu)建了大量的類跟車測試場景,這對我國自動駕駛輔助系統(tǒng)的研發(fā)和測試具有十分重要的意義。
道路試驗從2020 年4 月10 日開始到2020 年5 月21 日結(jié)束,測試有效時間為56 d,道路測試總里程為10 120 km,測試地點涵蓋河北、山西、河南及周邊地區(qū)。道路類型包括高速、國道、市區(qū),測試天氣有晴天、陰天、雨天、霧天,場景數(shù)據(jù)包括直道、彎道、十字路口、紅綠燈和人行橫道場景。共選取10名男性駕駛員進行試驗,平均年齡為35歲,試驗車中采集數(shù)據(jù)的傳感器主要包括Mobileye 攝像頭、激光雷達和ESR毫米波雷達,其實物如圖1所示。由于本次試驗主要開展駕駛員跟車特性的研究,故將3種傳感器都安裝在試驗車的前部,其安裝位置如圖2所示,其中淺色圈部分代表傳感器的具體安裝部位。
圖1 試驗所用傳感器
圖2 傳感器安裝位置示意
基于數(shù)據(jù)庫,首先選取399例城市道路、387例高速公路、413例鄉(xiāng)村道路的跟車場景,并對其加減速度曲線進行提取。共提取1 199例跟車場景,排除121例曲率半徑較大的彎道跟車速度曲線,剔除68例涉及非機動車場景或其它特殊車輛的跟車場景,最終獲得1 010 例跟車場景(均為跟隨同一目標,不存在跟車目標轉(zhuǎn)換)。
圖3 從CANape 17.0中提取的參數(shù)曲線
如圖4 所示,基于CANape 17.0 進行(濾波)提取的跟車場景參數(shù)包括速度、目標車頭時距(THW)、橫/縱向相對距離、相對速度。圖5為加速度、減速度曲線樣本頻次分布統(tǒng)計。
圖4 跟車場景參數(shù)頻次分布統(tǒng)計
圖5 加速度、減速度頻次分布統(tǒng)計
可以看出,跟車狀態(tài)下樣本車的加速度、減速基本維持在-1~1 m/s2之間,這表明所提取的一些超過正常加速度、減速度范圍的數(shù)值反應(yīng)了安全性較差的跟車情況。
場景要素是跟車場景聚類分析的依據(jù),是主成分提取的數(shù)據(jù)來源。跟車場景要素的分類如圖6所示,包括交通環(huán)境要素和場景主體要素2大類以及天氣、光照等10個小類。其中,交通環(huán)境要素包括跟車場景中的天氣類型、光照條件、道路類型、交通密度等,場景主體要素包括自車和目標車的車輛類型、車輛位置及運動狀態(tài)等要素。
圖6 跟車場景要素提取結(jié)果
(1)交通環(huán)境要素的提取
跟車場景的交通環(huán)境要素包括天氣類型、光照條件、道路類型、交通密度等,天氣類型包括4類:晴天、陰天、雨天、雪天,光照條件主要分為3類:白天、傍晚、夜間,道路類型主要包括5類:城市、高速、國道/省道、鄉(xiāng)村道路,交通密度主要包括3類:暢通、正常、擁堵,其提取結(jié)果如表1所示。
表1 交通環(huán)境要素提取結(jié)果
目前,受自動駕駛領(lǐng)域內(nèi)感知技術(shù)發(fā)展的限制,交通環(huán)境要素還無法實現(xiàn)自動提取,需進行人工篩選。
(2)場景主體要素提取
場景主體要素如表2 所示,包括自車和目標車的車輛類型、車輛位置、運動狀態(tài)等。其中,車輛類型包括轎車、大型貨車/客車等;車輛位置及運動狀態(tài)包括自車位置、自車距車道線位置、目標位置、自車速度、自車加速度、目標縱向距離、目標橫向距離、相對速度等參數(shù)。
表2 跟車場景主體要素
定義場景主體要素提取矩陣Pmn,用以表征場景主體要素序號1~16 的提取結(jié)果(車輛類型單獨考慮)。依據(jù)本文提取的1 010例跟車場景,獲取的跟車場景主體要素矩陣如公式(1)所示。
式中,m為場景主體要素序號(m為1~16,要素序號對照詳見表2),n表示提取的跟車場景片段個數(shù)。
至此,跟車場景特征要素提取已經(jīng)完成,其提取過程有3個特點:
(1)考慮了跟車場景中的交通環(huán)境要素和場景主體要素,并對交通環(huán)境要素進行參數(shù)化,便于場景類型劃分。
(2)場景主體要素基于主機廠的道路試驗數(shù)據(jù),提取的場景數(shù)據(jù)源于真實駕駛數(shù)據(jù),且具有十分的典型性。
(3)從宏觀角度出發(fā),考慮自車和目標車的車輛類型對場景類型的影響。
由3.1節(jié)的場景主體要素矩陣Pmn可知,場景主體要素包含的參數(shù)維度較高。為簡化計算,需要降低參數(shù)與參數(shù)之間的相關(guān)性,以達到可以便于聚類分析的要求。此外,由于自車與目標的車輛類型對跟車過程影響較大,需要單獨考慮,對其類型進行劃分。
(1)車輛類型
自車與目標的車輛類型包括轎車和大型貨車/客車兩類。依據(jù)車輛類型不同,可以將跟車場景劃分為4種類型的跟車場景,如表3所示。
表3 場景分類
(2)車輛位置和運動狀態(tài)
由3.1 節(jié)可知,跟車過程中的車輛位置和運動狀態(tài)信息可由場景主體要素矩陣Pmn表征,由于矩陣維度較高,且變量之間的相關(guān)性較強,為了簡化計算,需要對主體要素矩陣進行相關(guān)性分析和降維處理。
PCA (Principal Component Analysis)[12-14]是一種常用的數(shù)據(jù)分析方法。PCA 通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關(guān)表示,可用于提取數(shù)據(jù)的主要特征分量,常用于高維數(shù)據(jù)的降維。因此,本文使用PCA 算法對跟車場景中的主體要素進行相關(guān)性分析和降維處理。
PCA算法的過程如下:
(1)主體要素矩陣的標準化處理
在主體要素矩陣Pmn進行降維之前,首先采用公式(2)對矩陣中的參數(shù)進行標準化,消除量綱對參數(shù)的影響。
式中,Q*mn為標準化矩陣;Pmn為主體要素矩陣;σn為第n個跟車場景片段的特征參數(shù)標準差。
經(jīng)過公式(2)對矩陣中的每一個參數(shù)進行標準化后,最終獲得的主體要素標準化矩陣如公式(3)所示。
式中,Q*mn為標準化矩陣中第m行n列的值;P為主體要素的標準化矩陣。
(2)利用PCA算法對標準化后主體要素矩陣進行降維
主體要素矩陣經(jīng)過標準化處理后,已經(jīng)消除了量綱對矩陣中參數(shù)的影響,可以利用PCA算法對標準化后的矩陣進行降維處理,得到標準化后的矩陣參數(shù)線性組合R*。
式中,Q*mn為標準化矩陣中第m行n列的值;Pomn為相關(guān)系數(shù)矩陣。
在PCA算法的主成分分析過程中,任務(wù)主成分累計貢獻率達到85%以上,即可認為主成分可以代表原始信息。進行標準化后的場景主體要素矩陣主成分分析結(jié)果如圖7 所示,前3 個主成分的累計貢獻率已經(jīng)達到91.16%,完全可以表征跟車場景主體要素信息。依據(jù)主成分分析結(jié)果,將主體要素矩陣降為3維矩陣。
圖7 主成分分析結(jié)果
跟車主體要素矩陣經(jīng)過降維后,保留累計貢獻率排名前3的主成分,其參數(shù)詳見表4。
表4 累計貢獻率排名前3的主成分
經(jīng)過標準化后的主體要素矩陣使用PCA 算法降維后僅保留排名前3的主成分,降維后的矩陣如公式(5)所示。
式中,P為降維后的主體要素矩陣;P1n,P2n,P3n依次代表自車加速度,目標相對距離,目標相對速度。
K 均 值 聚 類 算 法(K-Means Clustering Algo?rithm)[15-17]是一種迭代求解的聚類分析算法,在數(shù)據(jù)分析、信號處理以及機器學(xué)習(xí)等領(lǐng)域得到了廣泛的應(yīng)用。本文采用K 均值聚類算法對降維后的跟車特征參數(shù)矩陣進行聚類,聚類過程如下:
(1)定義初始聚類中心
在K均值聚類的計算過程中,首先需要定義初始聚類中心矩陣以及聚類中心個數(shù)k。
式中,M為初始聚類中心矩陣,mj為第j個聚類中心(j∈1,2,…,k),其值為隨機數(shù)。此處聚類中心個數(shù)k取值為3。
(2)樣本分配
在K均值聚類的計算過程中,每一輪迭代更新開始后,需要計算每個樣本分別到每個聚類中心的歐氏距離[18],其計算過程如公式(7)所示。
式中,xi為樣本數(shù)據(jù)中的第i(i∈1,2,…,n)個樣本,d(xi, mj)為第i(i∈1,2,…,n)個樣本xi到第j(j∈1,2,…,k)個聚類中心mj之間的距離。
計算各個樣本到各個聚類中心的距離之后,依據(jù)距離最小原則,將樣本分配到與距離中心距離最近的類中,如公式(8)所示。
式中,x為樣本數(shù)據(jù),Mj為樣本數(shù)據(jù)聚成的類。
(3)更新聚類中心
由第(2)步將樣本數(shù)據(jù)聚為k類后,需要對聚類中心進行迭代更新,計算每一類樣本數(shù)據(jù)的均值,使用每一類中所有樣本數(shù)據(jù)的樣本均值作為新的聚類中心,實現(xiàn)對聚類中心的更新,其更新過程如公司(9)所示。
式中,mˉj為更新后的聚類中心;x為Mj(j∈1,2,…,k)類中的樣本數(shù)據(jù)。
(4)準則函數(shù)的計算
在K均值聚類的過程中,當完成一輪樣本分配和聚類中心的更新后,需要對聚類結(jié)果的準則函數(shù)進行計算,如公式(10)所示。若準則函數(shù)結(jié)果變化較大,重復(fù)第(2)和第(3)步,繼續(xù)進行迭代更新。若準則函數(shù)的結(jié)果不變,則停止迭代,結(jié)束聚類。
式中,E為準則函數(shù);mˉj為更新后的聚類中心;x為Mj(j∈1,2,…,k)類中的樣本數(shù)據(jù)。
通過以上步驟計算得到每個樣本對所有聚類中心的準則函數(shù)進行計算,然后依據(jù)距離中心不變原則和誤差平方和局部最小原則,終止樣本聚類的更新迭代。
利用MATLAB對樣本進行聚類,除了K均值聚類外,還以車頭間距、目標的相對速度、自車加速度進行模糊C 均值聚類,并作為對比(表5)。結(jié)果表明,K 均值聚類的相對距離和相對速度較低,且自車加速度較低,但結(jié)果都將樣本聚類為3簇,因此將跟車場景分為3類。
表5 K均值聚類和模糊C均值聚類對比
依據(jù)場景主體要素的聚類分析結(jié)果,將跟車場景劃分為Cluster 1~3類,聚類結(jié)果的樣例如圖8~10所示,結(jié)合場景的天氣類型、光照條件等交通環(huán)境要素,共獲得1 728類測試場景,其結(jié)果如表6所示。
表6 聚類分析結(jié)果 類
(1)場景聚類結(jié)果為Cluster 1樣例
限于篇幅原因,選擇1 例聚類結(jié)果為Cluster 1 的場景作為樣例,示例1場景數(shù)據(jù)如圖8所示,跟車的車頭間距圍繞一個值在小范圍內(nèi)上下浮動,將Cluster 1劃分為穩(wěn)定跟車。
圖8 示例1的場景數(shù)據(jù)
(2)場景聚類結(jié)果為Cluster 2樣例
限于篇幅原因,選擇1 例聚類結(jié)果為Cluster 2 的場景作為樣例,示例2場景數(shù)據(jù)如圖9所示,跟車的車頭間距不斷縮小,相對速度恒為負值,將Cluster 2 劃分為加速跟車。
圖9 示例2的場景數(shù)據(jù)
(3)場景聚類結(jié)果為Cluster 3樣例
限于篇幅原因,選擇1 例聚類結(jié)果為Cluster 3 的場景作為樣例,示例3 場景數(shù)據(jù)如圖10 所示,跟車的車頭間距不斷增大,相對速度恒為正值,將Cluster 3劃分為減速跟車。
圖10 示例3的場景數(shù)據(jù)
本文基于道路試驗數(shù)據(jù)提取了跟車場景特征要素,運用K 均值聚類算法進行場景挖掘,挖掘獲得大量具有實際價值的跟車場景,并以此為基礎(chǔ),構(gòu)造了大量的跟車測試場景。場景數(shù)據(jù)源于真實道路試驗,構(gòu)建的場景更具有真實性、可靠性,對智能駕駛汽車的跟車仿真模型的建設(shè)具有重要意義。
未來的研究內(nèi)容,將會依托提取的跟車測試場景,圍繞高速領(lǐng)航功能、彎道跟車輔助功能、自動環(huán)道功能測試的仿真模型搭建展開。