自動駕駛相關(guān)數(shù)據(jù)集研究綜述

2021-04-03 13:03:36張迅李錦江

中國設(shè)備工程 2021年1期

張迅，李錦江

（1.同濟大學(xué)軟件學(xué)院，上海 200000；2.北京科技大學(xué)機械工程學(xué)院，北京 100000）

自動駕駛是當(dāng)今熱門研究領(lǐng)域，面臨許多技術(shù)挑戰(zhàn)。無人車在行駛時需要依賴感知識別系統(tǒng)對周圍的環(huán)境（道路、行人、車輛等）進行感知，為接下來的基于深度學(xué)習(xí)及人工智能的駕駛決策及控制提供依據(jù)。系統(tǒng)要感知檢測的事物種類繁多，且容易受到天氣、環(huán)境等因素的干擾。如果自動駕駛的算法不能在大量可靠的數(shù)據(jù)上進行適量的、有效的訓(xùn)練，那么，當(dāng)其被投入實際使用后，就可能造成不可預(yù)估的后果。因此，為了推動這一領(lǐng)域的后續(xù)研究與發(fā)展，自動駕駛相關(guān)數(shù)據(jù)集應(yīng)運而生，科研工作者圍繞眾多數(shù)據(jù)集做了很多開創(chuàng)性的工作。本文在現(xiàn)有文獻基礎(chǔ)上，從數(shù)據(jù)集內(nèi)容、采集方法、是否進行標(biāo)注和標(biāo)注方法等方面，針對不同的自動駕駛數(shù)據(jù)集進行總結(jié)與對比，為研究自動駕駛場景感知、行為決策及控制算法奠定基礎(chǔ)。

1 數(shù)據(jù)集介紹

從采集內(nèi)容、采集設(shè)備及方法、標(biāo)注及標(biāo)注方法等方面對數(shù)據(jù)集進行介紹。典型數(shù)據(jù)集包括KITTI、Apollo、BDD100K、nuScenes、CityScapes 和HDD 等。

1.1 數(shù)據(jù)集內(nèi)容

KITTI 數(shù)據(jù)集包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實圖像數(shù)據(jù)，每張圖像中最多達(dá)15 輛車和30 個行人。整個數(shù)據(jù)集由389 對立體圖像和光流圖（包括194 對訓(xùn)練圖像和195 對測試圖像），39.2km 視覺測距序列以及超過200k 的3D 標(biāo)注物體的圖像組成，采樣頻率為10Hz，總共約3TB。

Apollo 為百度推出的交通場景解析數(shù)據(jù)集，包括上萬幀的高分辨率RGB 視頻和與其對應(yīng)的逐像素語義標(biāo)注。26 個語義類提供了總共17062 張圖像和相對應(yīng)的語義標(biāo)注與深度信息，用于設(shè)計算法和訓(xùn)練模型。

BDD100K 為目前規(guī)模最大、兼具內(nèi)容復(fù)雜性與多樣性的公開駕駛數(shù)據(jù)集，包含了10 萬段高清視頻，每段視頻約40s時長，分辨率為720p，幀率為30fps。每個視頻的第10s 對關(guān)鍵幀進行采樣，得到10 萬張圖片（1280×720），并進行標(biāo)注。數(shù)據(jù)集覆蓋了晴天、多云等6 種天氣；公路、城市街道等6 種場景；黎明/黃昏、白天、夜晚3 個階段，還有對目標(biāo)遮擋和截斷情況標(biāo)注。

nuScenes 包含1000 個場景，每個場景20 秒長，并用23 個類別和8 個屬性的3D 邊界框完全注釋。

Cityscapes 數(shù)據(jù)集主要針對城市景觀進行采集，由50個不同城市的街道上錄制的大量不同的立體視頻序列組成，總計25000 張圖像。

HDD 為日本本田研究所駕駛數(shù)據(jù)集，主要用于研究在現(xiàn)實生活環(huán)境中學(xué)習(xí)駕駛員的行為。該數(shù)據(jù)集包括了104小時真實人類駕駛數(shù)據(jù)總計150GB（1280×720 分辨率、30fps），包括GPS、圖像、激光雷達(dá)、汽車導(dǎo)航、司機駕駛行為等方面的信息。

1.2 數(shù)據(jù)集采集設(shè)備及方法

KITTI 數(shù)據(jù)集使用標(biāo)準(zhǔn)旅行車進行收集，配備有兩種顏色和兩種灰度的PointGrey Flea2 攝像機、Velodyne HDL-64E 3D 激光掃描儀以及帶有RTK 校正信號的GPS/IMU 定位單元和運行實時數(shù)據(jù)庫的功能強大的計算機。以不同速率工作的攝像頭、激光雷達(dá)、GPS 等傳感器置于同一坐標(biāo)系下；最小化產(chǎn)生基礎(chǔ)事實需要的監(jiān)督數(shù)量，為每個基準(zhǔn)選擇適當(dāng)?shù)男蛄泻涂蚣?，以及為每個任務(wù)開發(fā)指標(biāo)。

Apollo 數(shù)據(jù)集的采集使用了裝備有RIEGL VMX-1HA 移動測繪系統(tǒng)的中尺寸多功能越野車來進行。該系統(tǒng)包括兩個LiDAR 傳感器（每秒500 條掃描線，覆蓋420 米內(nèi)的360 度視角）、一部INS/GNSS 單元以及兩個前向相機（VMX-CS6，3384×2710）。數(shù)據(jù)的采集頻率為每米一張圖像。

BDD100K 數(shù)據(jù)集是伯克利大學(xué)AI 實驗室在Nexar 協(xié)助下完成的，數(shù)據(jù)獲取自成千上萬的普通司機，主要由相機、GPS 和IMU 采集。

nuScenes 的采集主要依靠激光雷達(dá)和相機。使用諸如激光筆和標(biāo)定目標(biāo)板之類的工具將每個傳感器的外在坐標(biāo)表示為相對于自我框架，即耳軸的中點。特點是可以產(chǎn)生良好的數(shù)據(jù)對齊。

Cityscapes 數(shù)據(jù)收集使用了汽車級22 厘米基線立體聲相機，1/3 的CMOS 2 MP 傳感器，以及幀率為17Hz 的滾動快門，產(chǎn)生16 位線性顏色深度的高動態(tài)范圍(HDR)圖像，每個16位立體聲圖像對隨后被剝離和校正。

HDD 數(shù)據(jù)集的收集使用了三個攝像頭、一個水平激光雷達(dá)、一個汽車動力運動分析器和一個汽車控制器區(qū)域網(wǎng)絡(luò)（CAN）。

1.3 標(biāo)注及標(biāo)注方法

文獻[2]中自行設(shè)計了一個圖片標(biāo)注系統(tǒng)，該標(biāo)注系統(tǒng)是一個通用、可擴展的注釋工具，適用于數(shù)據(jù)庫中所需的各種注釋，如邊界框、語義實例分割和車道檢測等。該注釋工具可完成的工作包括框注釋、區(qū)域注釋等，同時，具備高可擴展性。標(biāo)注包括圖像標(biāo)記、物體檢測、車道、可駕駛區(qū)域、語義實例分割等。

Cityscapes 數(shù)據(jù)集中，5000 幅圖像具有高質(zhì)量的像素級注釋；另外，20000 幅圖像具有粗略注釋，以支持利用大量弱標(biāo)記數(shù)據(jù)的方法。

HDD 數(shù)據(jù)集對駕駛場景做了目標(biāo)方向行為、刺激驅(qū)動行為、原因、關(guān)注，4 層注釋方案，使用ELAN 軟件進行。

2 數(shù)據(jù)集之間的比較

上述數(shù)據(jù)集中，KITTI 是誕生最早的一個較為全面且合理的數(shù)據(jù)集，所以率先成為了該領(lǐng)域的一個基準(zhǔn)，后續(xù)的許多研究都是通過從KITTI 中進行抽取或改良來獲取實驗用數(shù)據(jù)的。Apollo 數(shù)據(jù)集作為在中國國內(nèi)誕生的數(shù)據(jù)集，在收集的數(shù)據(jù)量上有所突破，為國內(nèi)自動駕駛領(lǐng)域做出了杰出貢獻。BDD100K 在數(shù)據(jù)量最大最全面，數(shù)據(jù)種類的多樣性也幾乎能覆蓋所有的自動駕駛場景；nuScenes 以場景劃分為標(biāo)志的多模態(tài)3D 數(shù)據(jù)集，是第一個包含雷達(dá)數(shù)據(jù)的自動駕駛數(shù)據(jù)集；CityScapes 數(shù)據(jù)集致力于捕捉真實城市內(nèi)部交通場景的可變性和復(fù)雜性，數(shù)據(jù)量不大，更為精簡；HDD 數(shù)據(jù)集專注于自動駕駛系統(tǒng)在現(xiàn)實生活環(huán)境中學(xué)習(xí)真實駕駛員的行為，一種新的注釋方法用于從未經(jīng)修剪的數(shù)據(jù)序列中理解駕駛員行為。

總之，數(shù)據(jù)量、數(shù)據(jù)種類與制作數(shù)據(jù)集的目的為數(shù)據(jù)集之間的主要差別，目的在于針對自動駕駛場景感知、行為決策及控制算法等的不同應(yīng)用。

3 結(jié)語

綜上所述，現(xiàn)有數(shù)據(jù)集主要基于計算機視覺相關(guān)，為自動駕駛提供廣泛真實的駕車場景，模擬行車復(fù)雜環(huán)境，進行先進安全特性的研究。數(shù)據(jù)集主要由靜態(tài)單圖像組成，通過使用“邊界框”來識別和跟蹤道路內(nèi)和周圍環(huán)境的常見物體。接下來，需要更精確、像素級的道路物體表示，以及通過連續(xù)視頻駕駛場景的鏡頭?；谝曨l的駕駛場景感知提供的數(shù)據(jù)流將更接近動態(tài)的真實駕駛情況，可進一步促使自動駕駛中機器學(xué)習(xí)、場景理解和行為預(yù)測的進步。