張向清 楊銳 白濤 王金妮
摘要:本文擬建立道路交通中視頻目標(biāo)檢測所使用的數(shù)據(jù)集,用通用的樣本標(biāo)注規(guī)則,完成高速公路場景中小車、卡車、大巴車和行人4類目標(biāo)的標(biāo)注,對不符合要求的數(shù)據(jù)進(jìn)行刪選,創(chuàng)建的數(shù)據(jù)集在不同場景下具有很好的魯棒性。
關(guān)鍵詞:自制數(shù)據(jù)集;樣本標(biāo)注;標(biāo)注規(guī)則
中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2020)02-0035-01
在視頻目標(biāo)檢測領(lǐng)域,數(shù)據(jù)集的質(zhì)量好壞對檢測結(jié)果起著至關(guān)重要的作用,當(dāng)前,各種通用數(shù)據(jù)集由于涉及的應(yīng)用領(lǐng)域多、覆蓋面廣,致使對于特定的道路場景并不適用?,F(xiàn)有通用數(shù)據(jù)集包括ImageNet、Microsoft COCO、Pascal VOC等[1],其中ImageNet數(shù)據(jù)集包含各類目標(biāo)共600萬張,是當(dāng)前大數(shù)據(jù)領(lǐng)域最全最完整的數(shù)據(jù)庫,并且每個目標(biāo)數(shù)據(jù)經(jīng)過標(biāo)注和處理,但其大多數(shù)樣本采集源于國外的道路場景且目標(biāo)形狀與國內(nèi)的大相徑庭。另外,Microsoft COCO數(shù)據(jù)集主要應(yīng)用于圖像分割和對場景中目標(biāo)進(jìn)行加字幕標(biāo)注,微軟公司實現(xiàn)的核心功能是完成圖像中目標(biāo)的分割和場景語義描述等功能,這樣標(biāo)注的數(shù)據(jù)集顯然并不適用目標(biāo)檢測領(lǐng)域。其次,Pascal VOC數(shù)據(jù)集[3]是最早應(yīng)用于視頻目標(biāo)檢測領(lǐng)域,VOC數(shù)據(jù)集因其具有圖像質(zhì)量好、標(biāo)注完備、樣本量適中的特點,作為自制數(shù)據(jù)集的標(biāo)注和評估的基準(zhǔn)數(shù)據(jù)集,但其所包含每一類樣本較少,容易發(fā)生過擬合現(xiàn)象。因此,結(jié)合目前流行的數(shù)據(jù)集的標(biāo)注方法,制定特定場景下的專用數(shù)據(jù)集勢在必行。
1 現(xiàn)有交通數(shù)據(jù)集的優(yōu)劣
通用數(shù)據(jù)集由于其適用場景較多,致使對每一類目標(biāo)的檢測精度并不高。因此,一些研究機構(gòu)建立了專有的數(shù)據(jù)集滿足部分應(yīng)用場景,比如應(yīng)用于自動駕駛領(lǐng)域的KITTI數(shù)據(jù)集[2],它所包含的數(shù)據(jù)樣本大多來源于行車記錄儀的視頻或者采用平行視角方式獲取樣本資源,其標(biāo)注樣本的格式和規(guī)則并不適用于攝像機角度較高的樣本;另外,Udacity數(shù)據(jù)集和CityScape數(shù)據(jù)集等優(yōu)化了樣本的多樣性,但其標(biāo)注的樣本大多應(yīng)用于目標(biāo)分割和語義分析,如果將其應(yīng)用于目標(biāo)檢測領(lǐng)域,需要重新進(jìn)行樣本的標(biāo)注,額外增加了工作量。因此,對于復(fù)雜的交通場景,建立自己的專用數(shù)據(jù)集是必不可少的。
2 數(shù)據(jù)集的制作方法
2.1 攝像機采集樣本
為了實現(xiàn)在高速公路場景下采集樣本,需要在高速路邊架設(shè)相對較高的攝像機裝置(通常約為10米左右),并利用遠(yuǎn)程控制來拍攝視頻或圖像。在采集視頻中目標(biāo)時,可以通過軟件來控制攝像機的角度和方向。安裝好攝像機裝置后,可以在云端等間隔時間段內(nèi)獲取視頻流,這些視頻流可以分為:不同時段的視頻流、不同天氣狀況下的視頻流、不同比例的視頻流和交通異常下的視頻流。獲取的視頻流,將其轉(zhuǎn)換為不同時間幀,其中對于一些無效的幀進(jìn)行剔除,保留那些目標(biāo)清晰可見的幀,挑選好的樣本需統(tǒng)一格式,并進(jìn)行可行性測試和分析,最后選出場景豐富、樣本特征明顯的數(shù)據(jù)。
2.2 虛擬仿真樣本
目前,隨著大數(shù)據(jù)和虛擬現(xiàn)實技術(shù)的日趨發(fā)展,可以對已有樣本數(shù)據(jù)進(jìn)行分析,并將其轉(zhuǎn)換為不同特征的樣本。尤其是深度學(xué)習(xí)模型的訓(xùn)練需要大量的樣本,由于設(shè)備和技術(shù)的不成熟,短暫時間內(nèi)無法采集到更多可靠有效的樣本。因此,可以利用現(xiàn)有的網(wǎng)絡(luò)資源和編程開發(fā)平臺,合成一些不常用或者現(xiàn)實生活中不存在的樣本分布特征,并對圖像中的顏色紋理特征進(jìn)行修改,增加樣本的豐富性。
2.3 目標(biāo)選取范圍
整理好的數(shù)據(jù)樣本需要進(jìn)行目標(biāo)的標(biāo)注,對于不同的應(yīng)用場景,其標(biāo)注方法和規(guī)則不盡相同。本文為了提高檢測的準(zhǔn)確度,需對高速公路場景下對樣本進(jìn)行精細(xì)標(biāo)注,在劃定的區(qū)域內(nèi)將同一目標(biāo)進(jìn)行大小分類,具體實施方法如圖1所示:
(1)為了能從攝像機采集的視頻中分出時間和地點,加入一些標(biāo)記信息,但會造成目標(biāo)樣本的遮擋,因此1號場景內(nèi)不選取樣本。
(2)選取的樣本盡可能大、清晰,將相機角度轉(zhuǎn)到合適位置,如圖1所示的2號區(qū)域,標(biāo)記此區(qū)域的所有樣本。
(3)不同的文獻(xiàn)中對于遠(yuǎn)處的小目標(biāo)有不同的標(biāo)注方法,本文著重檢測近場景的目標(biāo),因此3號區(qū)域的小目標(biāo)暫不進(jìn)行標(biāo)注。
(4)另外選取的部分視頻流中目標(biāo)較擁堵,影響最后的檢測效果,所以提前剔除包含擁堵場景的樣本。
3 實驗結(jié)果
本文起初標(biāo)注樣本采用photoshop軟件選取目標(biāo)矩形框,并將矩形框的位置信息保存,然后利用算法實現(xiàn)標(biāo)注文件的生成,但由于選取矩形框容易出現(xiàn)反選的錯誤,致使在訓(xùn)練模型時很難發(fā)現(xiàn)問題。因此,后期采用LabelImg標(biāo)注工具,直接在選中目標(biāo)后生成標(biāo)注文件,提高了標(biāo)注的效率和成本。
4 結(jié)語
本文以高速公路場景為研究對象,針對場景內(nèi)的數(shù)據(jù)樣本,實現(xiàn)樣本的獲取,樣本的標(biāo)注以及樣本的擴充。創(chuàng)建的數(shù)據(jù)集,經(jīng)過訓(xùn)練模型,其檢測的平均準(zhǔn)確率達(dá)到92%,但是由于目標(biāo)樣本分辨率為1920×1080,導(dǎo)致訓(xùn)練過程十分緩慢,檢測速率只能達(dá)到6.8fps。因此,后期主要研究方向為如何將樣本分辨率降低提高檢測速度,并對數(shù)據(jù)集做進(jìn)一步的優(yōu)化,形成統(tǒng)一標(biāo)準(zhǔn)的文檔。
參考文獻(xiàn)
[1] 張向清.高速公路場景下基于深度學(xué)習(xí)的車輛目標(biāo)檢測與應(yīng)用研究[D].西安:長安大學(xué),2018.
[2] 宋煥生,李瑩,楊瑾,等.基于高速公路場景的車輛目標(biāo)跟蹤[J].計算機系統(tǒng)應(yīng)用,2019,28(6):82-88.
[3] 張向清.基于深度學(xué)習(xí)方法的復(fù)雜場景下車輛目標(biāo)檢測[J].計算機應(yīng)用研究,2018,35(4):1270-1273.
Construction of? Datasets Based on Deep Learning in Highway Scenarios
ZHANG Xiang-qing,YANG Rui,BAI Tao,WANG Jin-ni
(School of? Mathematics and Computer Science, Yan'an University, Yan'an? Shaanxi? 716000)
Abstract:This paper intends to establish a data set used for video target detection in road traffic, and use common sample labeling rules to complete the labeling of 4 types of targets: cars, trucks, buses, and pedestrians in highway scenes. Deletion, the created data set is very robust in different scenarios.
Key words:homemade data set; sample labeling; labeling rules