張迅,李錦江
(1.同濟大學(xué)軟件學(xué)院,上海 200000;2.北京科技大學(xué)機械工程學(xué)院,北京 100000)
自動駕駛是當(dāng)今熱門研究領(lǐng)域,面臨許多技術(shù)挑戰(zhàn)。無人車在行駛時需要依賴感知識別系統(tǒng)對周圍的環(huán)境(道路、行人、車輛等)進行感知,為接下來的基于深度學(xué)習(xí)及人工智能的駕駛決策及控制提供依據(jù)。系統(tǒng)要感知檢測的事物種類繁多,且容易受到天氣、環(huán)境等因素的干擾。如果自動駕駛的算法不能在大量可靠的數(shù)據(jù)上進行適量的、有效的訓(xùn)練,那么,當(dāng)其被投入實際使用后,就可能造成不可預(yù)估的后果。因此,為了推動這一領(lǐng)域的后續(xù)研究與發(fā)展,自動駕駛相關(guān)數(shù)據(jù)集應(yīng)運而生,科研工作者圍繞眾多數(shù)據(jù)集做了很多開創(chuàng)性的工作。本文在現(xiàn)有文獻基礎(chǔ)上,從數(shù)據(jù)集內(nèi)容、采集方法、是否進行標(biāo)注和標(biāo)注方法等方面,針對不同的自動駕駛數(shù)據(jù)集進行總結(jié)與對比,為研究自動駕駛場景感知、行為決策及控制算法奠定基礎(chǔ)。
從采集內(nèi)容、采集設(shè)備及方法、標(biāo)注及標(biāo)注方法等方面對數(shù)據(jù)集進行介紹。典型數(shù)據(jù)集包括KITTI、Apollo、BDD100K、nuScenes、CityScapes 和HDD 等。
KITTI 數(shù)據(jù)集包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實圖像數(shù)據(jù),每張圖像中最多達(dá)15 輛車和30 個行人。整個數(shù)據(jù)集由389 對立體圖像和光流圖(包括194 對訓(xùn)練圖像和195 對測試圖像),39.2km 視覺測距序列以及超過200k 的3D 標(biāo)注物體的圖像組成,采樣頻率為10Hz,總共約3TB。
Apollo 為百度推出的交通場景解析數(shù)據(jù)集,包括上萬幀的高分辨率RGB 視頻和與其對應(yīng)的逐像素語義標(biāo)注。26 個語義類提供了總共17062 張圖像和相對應(yīng)的語義標(biāo)注與深度信息,用于設(shè)計算法和訓(xùn)練模型。
BDD100K 為目前規(guī)模最大、兼具內(nèi)容復(fù)雜性與多樣性的公開駕駛數(shù)據(jù)集,包含了10 萬段高清視頻,每段視頻約40s時長,分辨率為720p,幀率為30fps。每個視頻的第10s 對關(guān)鍵幀進行采樣,得到10 萬張圖片(1280×720),并進行標(biāo)注。數(shù)據(jù)集覆蓋了晴天、多云等6 種天氣;公路、城市街道等6 種場景;黎明/黃昏、白天、夜晚3 個階段,還有對目標(biāo)遮擋和截斷情況標(biāo)注。
nuScenes 包含1000 個場景,每個場景20 秒長,并用23 個類別和8 個屬性的3D 邊界框完全注釋。
Cityscapes 數(shù)據(jù)集主要針對城市景觀進行采集,由50個不同城市的街道上錄制的大量不同的立體視頻序列組成,總計25000 張圖像。
HDD 為日本本田研究所駕駛數(shù)據(jù)集,主要用于研究在現(xiàn)實生活環(huán)境中學(xué)習(xí)駕駛員的行為。該數(shù)據(jù)集包括了104小時真實人類駕駛數(shù)據(jù)總計150GB(1280×720 分辨率、30fps),包括GPS、圖像、激光雷達(dá)、汽車導(dǎo)航、司機駕駛行為等方面的信息。
KITTI 數(shù)據(jù)集使用標(biāo)準(zhǔn)旅行車進行收集,配備有兩種顏色和兩種灰度的PointGrey Flea2 攝像機、Velodyne HDL-64E 3D 激光掃描儀以及帶有RTK 校正信號的GPS/IMU 定位單元和運行實時數(shù)據(jù)庫的功能強大的計算機。以不同速率工作的攝像頭、激光雷達(dá)、GPS 等傳感器置于同一坐標(biāo)系下;最小化產(chǎn)生基礎(chǔ)事實需要的監(jiān)督數(shù)量,為每個基準(zhǔn)選擇適當(dāng)?shù)男蛄泻涂蚣?,以及為每個任務(wù)開發(fā)指標(biāo)。
Apollo 數(shù)據(jù)集的采集使用了裝備有RIEGL VMX-1HA 移動測繪系統(tǒng)的中尺寸多功能越野車來進行。該系統(tǒng)包括兩個LiDAR 傳感器(每秒500 條掃描線,覆蓋420 米內(nèi)的360 度視角)、一部INS/GNSS 單元以及兩個前向相機(VMX-CS6,3384×2710)。數(shù)據(jù)的采集頻率為每米一張圖像。
BDD100K 數(shù)據(jù)集是伯克利大學(xué)AI 實驗室在Nexar 協(xié)助下完成的,數(shù)據(jù)獲取自成千上萬的普通司機,主要由相機、GPS 和IMU 采集。
nuScenes 的采集主要依靠激光雷達(dá)和相機。使用諸如激光筆和標(biāo)定目標(biāo)板之類的工具將每個傳感器的外在坐標(biāo)表示為相對于自我框架,即耳軸的中點。特點是可以產(chǎn)生良好的數(shù)據(jù)對齊。
Cityscapes 數(shù)據(jù)收集使用了汽車級22 厘米基線立體聲相機,1/3 的CMOS 2 MP 傳感器,以及幀率為17Hz 的滾動快門,產(chǎn)生16 位線性顏色深度的高動態(tài)范圍(HDR)圖像,每個16位立體聲圖像對隨后被剝離和校正。
HDD 數(shù)據(jù)集的收集使用了三個攝像頭、一個水平激光雷達(dá)、一個汽車動力運動分析器和一個汽車控制器區(qū)域網(wǎng)絡(luò)(CAN)。
文獻[2]中自行設(shè)計了一個圖片標(biāo)注系統(tǒng),該標(biāo)注系統(tǒng)是一個通用、可擴展的注釋工具,適用于數(shù)據(jù)庫中所需的各種注釋,如邊界框、語義實例分割和車道檢測等。該注釋工具可完成的工作包括框注釋、區(qū)域注釋等,同時,具備高可擴展性。標(biāo)注包括圖像標(biāo)記、物體檢測、車道、可駕駛區(qū)域、語義實例分割等。
Cityscapes 數(shù)據(jù)集中,5000 幅圖像具有高質(zhì)量的像素級注釋;另外,20000 幅圖像具有粗略注釋,以支持利用大量弱標(biāo)記數(shù)據(jù)的方法。
HDD 數(shù)據(jù)集對駕駛場景做了目標(biāo)方向行為、刺激驅(qū)動行為、原因、關(guān)注,4 層注釋方案,使用ELAN 軟件進行。
上述數(shù)據(jù)集中,KITTI 是誕生最早的一個較為全面且合理的數(shù)據(jù)集,所以率先成為了該領(lǐng)域的一個基準(zhǔn),后續(xù)的許多研究都是通過從KITTI 中進行抽取或改良來獲取實驗用數(shù)據(jù)的。Apollo 數(shù)據(jù)集作為在中國國內(nèi)誕生的數(shù)據(jù)集,在收集的數(shù)據(jù)量上有所突破,為國內(nèi)自動駕駛領(lǐng)域做出了杰出貢獻。BDD100K 在數(shù)據(jù)量最大最全面,數(shù)據(jù)種類的多樣性也幾乎能覆蓋所有的自動駕駛場景;nuScenes 以場景劃分為標(biāo)志的多模態(tài)3D 數(shù)據(jù)集,是第一個包含雷達(dá)數(shù)據(jù)的自動駕駛數(shù)據(jù)集;CityScapes 數(shù)據(jù)集致力于捕捉真實城市內(nèi)部交通場景的可變性和復(fù)雜性,數(shù)據(jù)量不大,更為精簡;HDD 數(shù)據(jù)集專注于自動駕駛系統(tǒng)在現(xiàn)實生活環(huán)境中學(xué)習(xí)真實駕駛員的行為,一種新的注釋方法用于從未經(jīng)修剪的數(shù)據(jù)序列中理解駕駛員行為。
總之,數(shù)據(jù)量、數(shù)據(jù)種類與制作數(shù)據(jù)集的目的為數(shù)據(jù)集之間的主要差別,目的在于針對自動駕駛場景感知、行為決策及控制算法等的不同應(yīng)用。
綜上所述,現(xiàn)有數(shù)據(jù)集主要基于計算機視覺相關(guān),為自動駕駛提供廣泛真實的駕車場景,模擬行車復(fù)雜環(huán)境,進行先進安全特性的研究。數(shù)據(jù)集主要由靜態(tài)單圖像組成,通過使用“邊界框”來識別和跟蹤道路內(nèi)和周圍環(huán)境的常見物體。接下來,需要更精確、像素級的道路物體表示,以及通過連續(xù)視頻駕駛場景的鏡頭?;谝曨l的駕駛場景感知提供的數(shù)據(jù)流將更接近動態(tài)的真實駕駛情況,可進一步促使自動駕駛中機器學(xué)習(xí)、場景理解和行為預(yù)測的進步。