張書生, 祝雪峰,2, 葉乾
(1.大連理工大學 汽車工程學院,遼寧 大連 116024; 2.大連理工大學寧波研究院,浙江 寧波 315000)
安全性是汽車工業(yè)中必須要考慮的關(guān)鍵問題,開發(fā)高標準的自動駕駛車輛更需要大量的行駛測試,而傳統(tǒng)的道路行駛測試需要花費數(shù)十年甚至上百年的時間[1]。針對這一問題,目前主流的解決方案是使用虛擬駕駛模擬器進行道路仿真試驗,即使用代理模型通過虛擬駕駛環(huán)境進行自動駕駛研究。虛擬駕駛環(huán)境可根據(jù)環(huán)境狀況與車輛進行互動,同時可為行人檢測提供技術(shù)支持[2]。虛擬駕駛環(huán)境需滿足2個技術(shù)要求:首先,從環(huán)境感知、導航與控制方面測試和驗證自動駕駛車輛的性能;其次,生成大量標記的訓練數(shù)據(jù),這對深度學習尤其是計算機視覺方面的應用至關(guān)重要。
目前,虛擬駕駛環(huán)境的搭建方法主要分為3類:人工建模法、數(shù)據(jù)驅(qū)動法和神經(jīng)網(wǎng)絡(luò)合成法。人工建模法基于計算機圖形學、物理規(guī)律和機器人運動規(guī)劃技術(shù),通過人工方式進行駕駛環(huán)境建模。該方法可自由調(diào)控光照和各物理場,但是存在圖像仿真度不高、物體樣式有限等問題。數(shù)據(jù)驅(qū)動法使用攝像機、激光雷達等各類傳感器對實景進行掃描,從而自動構(gòu)建虛擬駕駛環(huán)境。其使用的環(huán)境背景布局和圖像直接取自實景,因此該方法圖像仿真度極高,但是存在調(diào)控靈活度不夠、無法改變光照和大氣條件等問題。此外,實地取景步驟復雜,需要極大的工作量。神經(jīng)網(wǎng)絡(luò)合成法將場景語義布局轉(zhuǎn)換為現(xiàn)實逼真的圖像,因此仿真度高,但存在調(diào)控靈活度不夠的問題。
近年來,深度學習逐漸應用于汽車性能分析?;谏疃葘W習的圖像樣式轉(zhuǎn)換技術(shù)為實現(xiàn)虛擬駕駛環(huán)境大氣與光照條件的可控性研究提供可能,通過語義布局即可生成現(xiàn)實仿真圖像。本文研究基于深度學習的汽車虛擬駕駛環(huán)境圖像生成方法,同時通過將不同時刻(光照條件)下的日間行車圖像轉(zhuǎn)換為夜晚行車圖像,設(shè)計虛擬駕駛環(huán)境圖像的模態(tài)控制方法。
假設(shè)x1∈χ1和x2∈χ2為來自2個不同圖像域的圖像。在無監(jiān)督的圖像轉(zhuǎn)換過程中,樣本分別從邊緣分布p(x1)和p(x2)中提取,而不是提取自聯(lián)合分布p(x1,x2)。本文目標是通過訓練后的圖像轉(zhuǎn)換模型p(x1→2|x1)和p(x2→1|x2),預測2個條件概率分布p(x2|x1)和p(x1|x2),其中x1→2是將x1翻譯至χ2產(chǎn)生的樣本,x2→1是將x2翻譯至χ1產(chǎn)生的樣本。一般情況下,p(x2|x1)和p(x1|x2)是復雜的多模態(tài)分布,確定性編譯模型不能很好地適用于這種情況。
本文模型的學習過程示意見圖1。翻譯模型由每個域χi(i=1,2)的編碼器Ei和解碼器Gi組成。每個自動編碼器的隱碼被分解為內(nèi)容碼ci和樣式碼si,(ci,si)=(Ec,i(xi),Es,i(xi))=Ei(xi)。
圖 1 模型學習過程示意
圖像到圖像的轉(zhuǎn)換通過交換編碼器-解碼器對執(zhí)行,見圖1下半部分。圖像到圖像轉(zhuǎn)換模型由2個自動編碼器組成,每個域各有1個。每個自動編碼器的隱碼由1個內(nèi)容隱碼c和1個樣式隱碼s組成。模型使用對抗目標(點線)進行訓練,確保翻譯后的圖像與目標域中的真實圖像不可區(qū)分。同時,模型使用雙向重建目標(虛線)進行訓練,以重建圖像和隱碼。雖然先驗分布是單模態(tài)的,但由于解碼器的非線性,輸出圖像分布可以是多模態(tài)的。損失函數(shù)包括雙向重建損失和對抗性損失。雙向重建損失確保編碼器和解碼器功能完全反向;對抗性損失確保翻譯圖像與目標域中圖像的分布相同。
所研究的自動編碼器架構(gòu)見圖2,由內(nèi)容編碼器、樣式編碼器和聯(lián)合解碼器組成。
圖 2 自動編碼器架構(gòu)
內(nèi)容編碼器由若干個對輸入進行下采樣的跨步卷積層和若干個處理卷積層信息的殘差塊組成[3],所有卷積層的輸出都經(jīng)過實例標準化(IN)[4]。樣式編碼器包含若干個跨步卷積層以及后面的全局平均池化層和全連接層,為保留重要樣式信息而不在樣式編碼器中使用IN層。
解碼器使用多層感知機(MLP)從樣式隱碼生成一組自適應實例標準化(AdaIN)層參數(shù)。內(nèi)容隱碼由具有AdaIN層的殘差塊處理,通過上采樣和卷積層解碼到圖像空間。
解碼器根據(jù)其內(nèi)容和樣式隱碼重建輸入圖像,采用一組殘差塊處理內(nèi)容隱碼,最終通過若干個上采樣和卷積層產(chǎn)生重建圖像。參考在標準化層中使用仿射變換參數(shù)表示樣式的研究內(nèi)容,對殘差塊配備AdaIN層[5],其參數(shù)由多層感知器從樣式隱碼動態(tài)生成,具體信息為
(1)
式中:AdaIN()表示AdaIN層參數(shù);z為先前卷積層的激活;γ和β為MLP生成的參數(shù);μ()和σ()為通道平均值和標準偏差。
感知損失通常定義為輸出和參考圖像在VGG特征空間[6]中的距離。采用域不變特性可以更為顯著地感知損失,以便使用輸入圖像作為參考。在計算距離前,對輸入VGG的圖像提前執(zhí)行IN處理,以便刪除原始特征均值和方差。這其中包含許多特定于域的信息,域不變的感知損失能加速對高分辨率數(shù)據(jù)集的訓練。
域不變的感知損失實驗圖像對比見圖3。在參考數(shù)據(jù)集上進行實驗驗證[7],隨機抽取2組圖像對,其中:圖3(a)為來自不同域(夏季和冬季)的同一場景圖像,圖3(b)為來自相同域的不同場景圖像。
(a)同一場景圖像對
不使用和使用IN計算距離的感知距離(無量綱)-圖像對數(shù)量直方圖見圖4。在使用IN的情況下,即使來自不同的域,同一場景的圖像對仍具有明顯更小的感知距離。因此,在計算距離前應采用IN操作使得特征距離更具有域不變特性。
(a)不使用IN
搭建網(wǎng)絡(luò)架構(gòu):c7s1-k表示具有k個濾波器、卷積核大小為7×7、步幅為1的層;dk表示具有k個濾波器、卷積核大小為4×4、步幅為2的層;Rk表示包含2層核心大小為3×3卷積層的殘差塊;uk表示放大倍數(shù)為2的最近鄰上采樣層,其后是具有k個濾波器、卷積核大小為5×5、步幅為1的層;GAP表示全局平均池化層;fck表示具有k個濾波器的全連接層。IN應用于內(nèi)容編碼器,AdaIN應用于解碼器。在生成器中使用ReLU激活函數(shù),在辨別器中使用Leaky ReLU激活函數(shù),函數(shù)自變量小于0的部分斜率為0.2。
(1)生成器架構(gòu)組成如下:內(nèi)容編碼器為c7s1-64、d128、d256、R256、R256、R256、R256;樣式編碼器為c7s1-64、d128、d256、d256、d256、GAP、fc8;解碼器為R256、R256、R256、R256、u128、u64、c7s1-3。
(2)辨別器架構(gòu)為d64、d128、d256、d512。
Cityscapes是一個大規(guī)模城市街景數(shù)據(jù)集,其中包含從50個不同城市的街道場景中錄制的一組不同的立體視頻,除去20 000幀粗糙注釋幀外,還有5 000幀的高質(zhì)量注釋幀圖像(見圖5),用于訓練語義視覺算法并評估其在城市場景識別任務中的性能。本文圖像合成實驗使用高質(zhì)量像素級的注釋數(shù)據(jù)集和無標簽的視頻數(shù)據(jù)集,圖片像素重新插值為256×256。
圖 5 Cityscapes高質(zhì)量注釋幀圖像(部分)
Comma2k19是由Comma AI提供的自動駕駛數(shù)據(jù)集,見圖6。該數(shù)據(jù)集是在美國加利福尼亞280高速公路的加利福尼亞圣若澤與舊金山之間的20 km路段上采集的,累計拍攝時長33 h,共有2 019段視頻,每段時長1 min,視頻分辨率為1 164×874。本文將其分辨率縮小為292×224,用于模態(tài)控制實驗。
圖 6 Comma2k19數(shù)據(jù)集視頻幀(部分)
3.2.1 主觀評價
自動駕駛車輛最終要在真實環(huán)境中使用,虛擬駕駛環(huán)境的圖像不僅需要在細節(jié)風格上保持真實性,環(huán)境中的內(nèi)容物體也需要在邏輯上符合現(xiàn)實。為此,在評價模型輸出的真實性時進行主觀評價。將一個輸入圖像和經(jīng)過網(wǎng)絡(luò)編譯后的生成圖像展現(xiàn)給評價人員,然后要求評價人員在有限的時間內(nèi)選擇哪張圖像是真實圖像。為每個評價人員隨機生成15個相關(guān)問題,共計100位評價人員參與該項調(diào)查。
3.2.2 LPIPS距離
LPIPS由圖像深度特征之間的加權(quán)歐式距離給出,相關(guān)研究已經(jīng)證明其與人類感知具有很高的相似性[8]。為量化評價圖像轉(zhuǎn)換的多樣性,計算在相同輸入情況下轉(zhuǎn)換輸出圖像之間的平均LPIPS距離。使用100個輸入圖像,并對每個輸入抽取10個輸出對作為樣本,總共有1 000個輸出樣本。
3.2.3 圖像質(zhì)量量化評價
在模態(tài)控制實驗中,為評價多模態(tài)圖像的質(zhì)量,對每個輸入圖像抽取10個輸出作為樣本,共取100張輸入圖像。實驗還需要評價在執(zhí)行光照條件控制任務時樣式隱碼重建損失、內(nèi)容隱碼重建損失和圖像重建損失對生成圖像質(zhì)量的影響。采用GAN辨別器作為圖像質(zhì)量量化評價標準,其中辨別器取自在Comma數(shù)據(jù)集上訓練后的模型。對于白天到夜晚轉(zhuǎn)換,使用夜晚域的辨別器;對于夜晚到白天轉(zhuǎn)換,使用白天域的辨別器。評價標準為辨別器判斷為真實圖像的百分比。
3.3.1 圖像合成實驗
實驗目的是合成自動駕駛環(huán)境圖像。神經(jīng)網(wǎng)絡(luò)可根據(jù)輸入的街景圖像語義布局生成真實的街景圖像。實驗使用Cityscapes數(shù)據(jù)集,將街景圖像與其語義標簽作為2個域供網(wǎng)絡(luò)訓練。本文模型與CG建模法主觀評價的結(jié)果對比見表1。英特爾的CARLA[9]、微軟的Airsim[10]、谷歌的Carcraft以及GTA5游戲是用于自動駕駛代理訓練的主流虛擬環(huán)境。本文在上述人工建模環(huán)境中進行駕駛模擬,截取引擎蓋視角的圖像用于比較。
表 1 本文模型與CG建模法主觀評價結(jié)果對比
從表1的數(shù)據(jù)可以看出,雖然本文方法生成圖像被認為更真實的比例僅有39.76%,但是人工建模法的圖像所獲得的評價為0,即完全沒有被認為是真實圖像。相較于人工建模法,本文的方法可以在很大程度上改善生成圖像的真實性。
同時,將本模型與其他神經(jīng)網(wǎng)絡(luò)合成法進行對比,當使用相同的語義分割標簽作為輸入時,預測的主觀評價結(jié)果對比見表2。所研究模型真實性評價排名第二,效果較好,生成的圖像示例見圖7。
表 2 本文模型與其他神經(jīng)網(wǎng)絡(luò)合成法主觀評價結(jié)果對比
圖 7 本文模型生成的圖像示例
在圖7中,第一、二列圖像為輸入模型的語義布局,第三、四列為對應的合成圖像。所生成的圖像在訓練集中并未出現(xiàn)過,但其圖像內(nèi)容合理、符合現(xiàn)實邏輯,可適用于自動駕駛模型的訓練和測試。
3.3.2 模態(tài)控制實驗
采用實驗的方法證明所設(shè)計模型對圖像模態(tài)進行控制的能力。虛擬駕駛環(huán)境的光照條件是重要屬性,對自動駕駛算法影響很大。實驗選取光照控制條件作為模態(tài)控制的可變因素,使用Comma2k19行車視頻作為數(shù)據(jù)集,每隔25幀采樣一次作為訓練數(shù)據(jù)。完成優(yōu)化的神經(jīng)網(wǎng)絡(luò)能在不同光照的駕駛環(huán)境下進行白天與夜晚的圖像轉(zhuǎn)換,并能可控渲染白天和黑夜不同時間段的光照。
定量分析本文模型及其3個變體,分別去除圖像重建損失、內(nèi)容隱碼重建損失和樣式隱碼重建損失,結(jié)果見表3。在沒有樣式隱碼重建損失的情況下,模型輸出的多樣性降低,與無圖像重建的損失相比,完整網(wǎng)絡(luò)前提下的圖像多樣性損失略低,但圖像質(zhì)量得到大幅提升,達到較好的平衡。
表 3 光照條件轉(zhuǎn)換圖像量化分析結(jié)果
白天轉(zhuǎn)夜晚行車圖像示例見圖8和9。本文模型成功地將白天行車圖像轉(zhuǎn)換為夜晚行車圖像。在給定白天行車輸入圖像情況下,通過輸入不同的樣式隱碼,能控制轉(zhuǎn)換生成夜晚圖像的光照條件。神經(jīng)網(wǎng)絡(luò)輸出結(jié)果表現(xiàn)出多模態(tài)特性,本文實驗取其中3種光照條件的結(jié)果作為示例。輸出的樣式1與剛?cè)胍沟墓庹障嗨?遠方天空微亮,由遠及近亮度逐漸降低,前方車輛尾燈亮起,路面出現(xiàn)車輛大燈照射效果;樣式2與有鹵素路燈照明路面的光照相似,整體色調(diào)偏暖;樣式3與深夜無路燈道路的光照條件相似,在車燈照射范圍外的景物漆黑一片。雖然圖片中的光照條件經(jīng)歷大幅變化,但是車道、車輛、樹木和天空的位置、形狀與布局都保持不變。
(a)原圖
(a)原圖
面向虛擬駕駛環(huán)境生成,提出基于多模態(tài)深度學習的虛擬駕駛環(huán)境圖像生成方法。該模型屬于無監(jiān)督方法,可實現(xiàn)由語義布局合成全新模擬真實駕駛環(huán)境圖像,并且在不影響圖像內(nèi)容的基礎(chǔ)上控制圖像模態(tài)。
在合成圖像真實性的主觀測試中,本文方法的結(jié)果優(yōu)于傳統(tǒng)建模法,同時在深度學習方法中也處于領(lǐng)先地位。本文方法可在多模態(tài)圖像轉(zhuǎn)換分析中提升圖像質(zhì)量及其多樣性,為自動駕駛虛擬環(huán)境平臺搭建提供技術(shù)參考。未來將結(jié)合長短時記憶網(wǎng)絡(luò),使視頻中相隔較遠的圖像幀具有較好的連續(xù)性。