梅若恒,馬惠敏
(北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院,北京100083)
遮擋問(wèn)題在計(jì)算機(jī)視覺(jué)領(lǐng)域一直是一個(gè)極具挑戰(zhàn)的問(wèn)題,當(dāng)遮擋發(fā)生時(shí),圖像目標(biāo)的特征會(huì)出現(xiàn)不同程度的缺失,造成目標(biāo)檢測(cè)算法精度的迅速下降。為了應(yīng)對(duì)遮擋問(wèn)題帶來(lái)的挑戰(zhàn),國(guó)內(nèi)外學(xué)者做了很多工作,如在跟蹤領(lǐng)域,分塊mean shift,HCF 等算法被提出以提升遮擋下的跟蹤性能[1-2],在自動(dòng)駕駛領(lǐng)域,關(guān)于行人檢測(cè)、車(chē)輛檢測(cè)和跟蹤的一系列算法被提出以解決自動(dòng)駕駛環(huán)境下的遮擋檢測(cè)問(wèn)題[3]。
雖然現(xiàn)在就遮擋問(wèn)題在許多應(yīng)用場(chǎng)景已經(jīng)誕生了很多優(yōu)秀的算法,但如何評(píng)估遮擋問(wèn)題對(duì)算法的影響仍是當(dāng)前亟需解決的任務(wù)。圖像數(shù)據(jù)集在計(jì)算機(jī)視覺(jué)研究中具有非常重要的作用,ImageNet[4]涵蓋20 000 多個(gè)類(lèi)別,并為每張圖像標(biāo)注了顏色、紋理等屬性。PASCAL VOC[5]擁有較高質(zhì)量的圖片數(shù)據(jù),并針對(duì)不同的任務(wù)對(duì)物體的分割和檢測(cè)提供了完備的標(biāo)注。這些數(shù)據(jù)集為挖掘深度學(xué)習(xí)算法的潛能做出了巨大的貢獻(xiàn),但是它們?nèi)狈?duì)遮擋的標(biāo)注來(lái)評(píng)估遮擋問(wèn)題。KITTI 數(shù)據(jù)集[6]是一個(gè)自動(dòng)駕駛場(chǎng)景下的大型數(shù)據(jù)集,包含城鎮(zhèn)、鄉(xiāng)村、高速公路等場(chǎng)景,并對(duì)行人、汽車(chē)等對(duì)象進(jìn)行了0~3 級(jí)的遮擋標(biāo)注。Caltech[7]是一個(gè)行人檢測(cè)數(shù)據(jù)集,使用完整包圍盒和可見(jiàn)包圍盒對(duì)行人進(jìn)行了標(biāo)注,并將遮擋程度簡(jiǎn)單地劃分為無(wú)遮擋、部分遮擋和嚴(yán)重遮擋。但是這些數(shù)據(jù)集對(duì)于遮擋問(wèn)題僅僅提供了粗略的標(biāo)注,仍缺乏合適的數(shù)據(jù)集來(lái)對(duì)遮擋問(wèn)題進(jìn)行系統(tǒng)地評(píng)價(jià)。
對(duì)于數(shù)據(jù)集的搭建,我們希望能夠快速大量地生成標(biāo)注準(zhǔn)確的數(shù)據(jù),而使用傳統(tǒng)的方式構(gòu)建大型數(shù)據(jù)集則需要在數(shù)據(jù)的采集和標(biāo)注上花費(fèi)大量的人力物力。近幾年來(lái),隨著圖形渲染質(zhì)量的不斷提升,已經(jīng)有學(xué)者開(kāi)始通過(guò)仿真的方式來(lái)構(gòu)建數(shù)據(jù)集。Mayer 和Ilg 等人使用Blender 搭建了仿真數(shù)據(jù)集FlyingThings3D dataset[8],用于訓(xùn)練CNN 在視差和光流上的性能。Richter 和Vineet 等人通過(guò)訪問(wèn)圖形接口解析游戲GTA-V的數(shù)據(jù),使用捕獲到的緩沖快速生成分割標(biāo)注,搭建了GTA dataset[9],同時(shí)證明了仿真數(shù)據(jù)能夠?yàn)樗惴◣?lái)準(zhǔn)確率的提升,但是該方法僅實(shí)現(xiàn)了類(lèi)級(jí)別的語(yǔ)義分割,且這種方式依賴(lài)于第三方的仿真平臺(tái),無(wú)法自由地在場(chǎng)景中改變或是添加新的物體,在數(shù)據(jù)生成上具有一定的局限性。
通過(guò)搭建仿真系統(tǒng)進(jìn)行數(shù)據(jù)仿真,能夠完全按照自己的想法生成數(shù)據(jù),高效地生成大量數(shù)據(jù)樣本及其對(duì)應(yīng)標(biāo)注,自由調(diào)整輸出圖像的分辨率以及布景、布光等影響識(shí)別率的因素。這種帶有極高自由度的數(shù)據(jù)生成方式還能提供更多具有挑戰(zhàn)的樣本。Barbu 和Mayo 等人也提出目標(biāo)擺放的角度和場(chǎng)所都會(huì)對(duì)目標(biāo)識(shí)別算法的識(shí)別性能產(chǎn)生巨大的影響,并制作了數(shù)據(jù)集Object-Net[10],通過(guò)特殊視角和放置來(lái)挑戰(zhàn)現(xiàn)有算法,指出現(xiàn)有目標(biāo)識(shí)別算法仍然有很大的進(jìn)步空間。
綜上,在遮擋數(shù)據(jù)集的構(gòu)建上,當(dāng)前還存在以下問(wèn)題:基于傳統(tǒng)拍攝真實(shí)圖像的方法在數(shù)據(jù)的采集和標(biāo)注上仍然需要巨大的成本;基于解析圖形接口的方法無(wú)法取得對(duì)場(chǎng)景物體的完全控制權(quán),嚴(yán)重限制了數(shù)據(jù)獲取的自由性;當(dāng)前數(shù)據(jù)集的遮擋標(biāo)注過(guò)于簡(jiǎn)單且沒(méi)有高動(dòng)態(tài)半透明物體如煙霧的標(biāo)注,無(wú)法滿(mǎn)足對(duì)于遮擋問(wèn)題評(píng)估的需求。
為了解決以上問(wèn)題,并就遮擋問(wèn)題建立一個(gè)有效的算法評(píng)估機(jī)制,本文基于Unreal Engine 4提出遮擋圖像數(shù)據(jù)生成系統(tǒng),用于生成遮擋圖像數(shù)據(jù)集MOCOD(More than Common Object Dataset)。系統(tǒng)以構(gòu)建數(shù)據(jù)集為需求導(dǎo)向,選擇場(chǎng)景并布景,控制智能體自動(dòng)采集場(chǎng)景中的圖像信號(hào)以及相關(guān)的輔助信息來(lái)生成數(shù)據(jù)集所需要的數(shù)據(jù)。MOCOD 數(shù)據(jù)集以遮擋為任務(wù)目標(biāo),設(shè)立了人、車(chē)、船、飛機(jī)四大類(lèi)識(shí)別對(duì)象。在遮擋物的設(shè)計(jì)上,除了傳統(tǒng)的實(shí)體遮擋,還實(shí)現(xiàn)了煙霧類(lèi)型的半透明遮擋來(lái)擴(kuò)充遮擋類(lèi)型。此外,通過(guò)程序?qū)φ趽跷锖驼趽鯇?duì)象做了精確的實(shí)例分割標(biāo)注,并對(duì)場(chǎng)景物體的遮擋率和場(chǎng)景遮擋難度進(jìn)行了評(píng)估和難度分級(jí)。通過(guò)使用遮擋圖像生成系統(tǒng),建立了包含8 200 張像素級(jí)語(yǔ)義分割圖像的數(shù)據(jù)集,在布置完場(chǎng)景,且場(chǎng)景中包含兩個(gè)目標(biāo)和一個(gè)煙霧的前提下,標(biāo)注并生成6 張1 280×720 的圖像及標(biāo)注文件在i7 8750H 2.2 GHz 和GTX 1060 的配置下僅使用1.455 s,極大地提高了數(shù)據(jù)采集的效率。
遮擋圖像數(shù)據(jù)生成系統(tǒng)旨在實(shí)現(xiàn)從虛擬場(chǎng)景中獲取數(shù)據(jù)到數(shù)據(jù)生成、處理的自動(dòng)化,使得能夠快速地按照同一標(biāo)準(zhǔn)搭建和擴(kuò)充數(shù)據(jù)集。本文提出的遮擋圖像數(shù)據(jù)生成系統(tǒng)框架如圖1 所示,其中紫色部分表示場(chǎng)景以及存在于場(chǎng)景中的物體,紫色部分底部的語(yǔ)義標(biāo)注圖像由更改后處理材質(zhì)得到;綠色部分表示控制對(duì)象以及其子模塊,用于采集處理信號(hào)并生成數(shù)據(jù);棕色部分為控制對(duì)象的控制器,用于對(duì)象控制;黃色部分是python 端,用于處理仿真系統(tǒng)生成的數(shù)據(jù);藍(lán)色部分是其他說(shuō)明(彩圖見(jiàn)期刊電子版)。
整個(gè)系統(tǒng)主要由3 個(gè)模塊構(gòu)成:場(chǎng)景及全局管理模塊(圖中紫色和紫框上面無(wú)色部分)、控制模塊(圖中綠色和棕色部分)及數(shù)據(jù)處理模塊(圖中黃色部分)。
本文建立的MOCOD 數(shù)據(jù)集以人、車(chē)、船和飛機(jī)四大類(lèi)為識(shí)別目標(biāo),在場(chǎng)景的搭建上,本文選擇了城鎮(zhèn)、工廠和海濱小鎮(zhèn)作為場(chǎng)景,涵蓋了城市和非城市道路、海洋以及天空。此外將識(shí)別目標(biāo)和遮擋物按常理和不按常理的放置以構(gòu)成接下來(lái)要進(jìn)行數(shù)據(jù)采集的場(chǎng)景。
在場(chǎng)景的管理上,預(yù)先創(chuàng)建了一個(gè)顏色映射表來(lái)保證數(shù)據(jù)生成的自動(dòng)化,并在場(chǎng)景初始化時(shí)遍歷場(chǎng)景中的物體,查詢(xún)識(shí)別目標(biāo)和潛在的遮擋物,為它們分配模板ID 和對(duì)應(yīng)的顏色,將不同類(lèi)別的對(duì)象保存到不同的列表,存儲(chǔ)在全局?jǐn)?shù)據(jù)中供其他類(lèi)調(diào)用。
圖1 遮擋圖像數(shù)據(jù)生成系統(tǒng)框架圖Fig .1 Frame diagram of occlusion image data generation system
控制模塊包括控制器和控制對(duì)象,其中控制對(duì)象是實(shí)際操控的智能體,通過(guò)控制器,使用手動(dòng)或是預(yù)先設(shè)置的行為模式控制其行為??刂茖?duì)象具有三個(gè)子模塊,分別是:場(chǎng)景捕獲模塊,根據(jù)設(shè)定的相機(jī)參數(shù)在當(dāng)前相機(jī)視角渲染幀圖像并將圖像二進(jìn)制數(shù)據(jù)流保存到緩存;后處理模塊,通過(guò)查詢(xún)和使用延遲渲染緩沖區(qū)中的數(shù)據(jù)來(lái)處理屏幕像素,配合場(chǎng)景全局?jǐn)?shù)據(jù)提取場(chǎng)景中更多的隱藏信息,用于生成場(chǎng)景深度圖和圖像標(biāo)注等數(shù)據(jù);煙霧2D 映射模塊,生成當(dāng)前相機(jī)視角下場(chǎng)景中半透明物體映射到相機(jī)光柵成像的透明度分布,用于計(jì)算半透明物體的遮擋率。
控制器用于實(shí)現(xiàn)對(duì)控制對(duì)象的控制,本文為控制器設(shè)計(jì)了手動(dòng)和自動(dòng)兩種控制模式:使用自動(dòng)模式能夠令控制對(duì)象沿著指定路徑批量采集數(shù)據(jù)實(shí)現(xiàn)采集效率最大化;采用手動(dòng)控制的模式則可以用于更精確的數(shù)據(jù)采集。
在遮擋率的計(jì)算上,為了解決遮擋率分級(jí)和半透明煙霧遮擋的問(wèn)題,分析系統(tǒng)生成的像素級(jí)標(biāo)注,分別計(jì)算常規(guī)不透明物體貢獻(xiàn)的遮擋率和煙霧半透明物體貢獻(xiàn)的遮擋率并求和。對(duì)于煙霧透明度標(biāo)注的生成,采用光線步進(jìn)[11]的方法繪制煙霧體,通過(guò)計(jì)算光線在煙霧體內(nèi)的積分來(lái)求解對(duì)應(yīng)像素?zé)熿F的透光比。對(duì)于遮擋率的評(píng)級(jí),根據(jù)生成的精確遮擋率將難度按遮擋率劃分為10 個(gè)等級(jí),用于評(píng)估算法在不同遮擋難度下的性能。
在KITTI 數(shù)據(jù)集下,可以看到當(dāng)前的前沿算法如F-PointNet[12],SINet_VGG[13],UberATGMMF[14]等的性能仍會(huì)因?yàn)檎趽鯊?qiáng)度的增加而迅速下降[15]。然而KITTI 數(shù)據(jù)集采用的是包圍盒的標(biāo)注類(lèi)型,且只有0~3 級(jí)的遮擋評(píng)級(jí),無(wú)法為遮擋問(wèn)題提供一個(gè)精確的評(píng)估。為了更好地評(píng)估遮擋問(wèn)題,為場(chǎng)景物體生成了實(shí)例分割級(jí)的標(biāo)注以提供更為精細(xì)的遮擋評(píng)級(jí)。
對(duì)于不透明物體的像素級(jí)標(biāo)注,建立一個(gè)顏色映射表實(shí)現(xiàn)ID-顏色的映射,并將ID 作為模板值寫(xiě)入G-Buffer,作為圖像后處理采用的目標(biāo)填充標(biāo)識(shí),確保每個(gè)對(duì)象色彩的唯一性。如圖2 所示,上圖表示的是場(chǎng)景中的原始圖像,下圖是原始圖像對(duì)應(yīng)的標(biāo)注圖像,最下面一行是用于查詢(xún)的顏色映射表的一部分,每一個(gè)顏色對(duì)應(yīng)著唯一ID(彩圖見(jiàn)期刊電子版)。在生成標(biāo)注時(shí),系統(tǒng)查找像素所屬的對(duì)象,并根據(jù)ID 填充對(duì)應(yīng)的顏色。但是事實(shí)上,在遮擋圖像標(biāo)注數(shù)據(jù)的生成過(guò)程中,更關(guān)心的是遮擋目標(biāo)和遮擋物,為了在保留必要信息的前提下提高數(shù)據(jù)捕獲效率,僅保留了遮擋目標(biāo)和遮擋物的mask 信息,如圖3 所示。
圖2 全場(chǎng)景實(shí)例分割標(biāo)注Fig.2 Full-scene instance segmentation mask
圖3 僅留下遮擋物和被遮擋對(duì)象的標(biāo)注Fig.3 Pixel level mask with target and occluder
然而僅僅擁有全局的標(biāo)注仍然無(wú)法計(jì)算物體的遮擋率,物體遮擋率的計(jì)算還需要每個(gè)對(duì)象的完整標(biāo)注。為此在全局?jǐn)?shù)據(jù)中記錄了遮擋物和被遮擋物的實(shí)例序列,通過(guò)控制實(shí)例在場(chǎng)景中是否被繪制來(lái)獲取完整標(biāo)注圖像中每個(gè)對(duì)象的像素級(jí)標(biāo)注,如圖4 所示。
圖4 單個(gè)實(shí)例的像素級(jí)標(biāo)注Fig.4 Pixel level mask with single instance
對(duì)于生成的圖像,添加了標(biāo)注文件來(lái)記錄一些必要的信息和指定圖像實(shí)例的像素級(jí)標(biāo)注路徑,確保數(shù)據(jù)處理時(shí)能夠跟蹤到所有的相關(guān)數(shù)據(jù)。
L=(P,θ,I),i=(ID,T,C,Path,D),其中:L表示標(biāo)簽數(shù)據(jù),P表示圖像分辨率,θ表示相機(jī)俯仰角,I表示實(shí)例集,i表示實(shí)例集中的一個(gè)實(shí)例,ID為實(shí)例標(biāo)識(shí),T為實(shí)例類(lèi)型,C為實(shí)例對(duì)應(yīng)顏色,Path為實(shí)例單獨(dú)標(biāo)注的路徑,D表示實(shí)例對(duì)象到相機(jī)的距離。
半透明類(lèi)型的遮擋如燃燒產(chǎn)生的煙霧,水蒸氣遇冷產(chǎn)生的水汽霧以及自然形成的大霧也是生活場(chǎng)景中常見(jiàn)的物體遮擋源。在仿真系統(tǒng)的渲染中,為了保證繪制的正確性,半透明物體的渲染在常規(guī)不透明片面繪制之后進(jìn)行,難以通過(guò)常規(guī)的方式獲取它的mask 信息。為了正確獲取煙霧為像素點(diǎn)貢獻(xiàn)的透明度,本文采用光線步進(jìn)[11]的方式,依賴(lài)輻射傳輸方程[16],以Beer-Lambert[17]為衰減準(zhǔn)則,沿著光線路徑計(jì)算路徑采樣數(shù)據(jù)的積分,其中密度積分的結(jié)果作為煙霧的透明度輸出,輻射亮度積分的結(jié)果作為煙霧的亮度輸出。
現(xiàn)實(shí)中的煙霧動(dòng)態(tài)是十分復(fù)雜的,為了獲得實(shí)時(shí)的物理可信的煙霧,對(duì)煙霧模型作了簡(jiǎn)化,假設(shè)煙霧粒子在統(tǒng)計(jì)學(xué)上是獨(dú)立的,且不發(fā)生非彈性碰撞,光線在體積中的散射均為均勻散射。
然而想要對(duì)三維空間中的體積進(jìn)行采樣,還需要一個(gè)三維的采樣空間。為了創(chuàng)建出這個(gè)空間,如圖5 所示,在時(shí)序上生成噪聲作為煙霧在空間切片上的密度分布,并將序列作為空間上的第三維,從而獲得一個(gè)偽3D 紋理來(lái)構(gòu)建距離場(chǎng),通過(guò)對(duì)偽3D 紋理插值采樣就能夠得到光線在采樣點(diǎn)的密度值。
煙霧生成分為光線求交和光線步進(jìn)采樣兩部分。如圖6 所示,綠線表示當(dāng)前相機(jī)射線采樣積分的路徑,橙線表示積分路徑上采樣點(diǎn)沿著光源方向的自陰影積分路徑,灰色的點(diǎn)表示相機(jī)發(fā)出的光線在前進(jìn)時(shí)沒(méi)有采樣到有效信息,藍(lán)色的點(diǎn)表示介質(zhì)內(nèi)的有效采樣點(diǎn),紅色的點(diǎn)表示自陰影積分路徑上的采樣點(diǎn),光線在求出體積盒入點(diǎn)后按固定步長(zhǎng)前進(jìn)和采樣(彩圖見(jiàn)期刊電子版)。
圖5 偽3D 紋理生成示意圖Fig.5 Pseudo 3D texture generation schema
圖6 光線步進(jìn)示意圖Fig.6 Ray marching schema
光線求交:
(1)沿著相機(jī)到光柵像素的方向發(fā)射射線;
幾年前,父親帶著李離入蜀,去看青衣江上的佛像。川人集合了數(shù)千工匠,花掉了四十余年的時(shí)間,將一座山峰雕成慈眉善目的如來(lái)立像,秋風(fēng)秋雨中,釋迦牟尼的眉眼音容依稀已經(jīng)出現(xiàn),工人們搭著梯子,腰上纏著麻繩,舉錘布鑿,敲打他厚實(shí)的耳垂,慢慢將佛祖由山嶺間喚醒。
(2)射線與體包圍盒求交,計(jì)算光線在包圍盒上的入射點(diǎn)p0和出射點(diǎn)p1;
(3)檢測(cè)該射線對(duì)應(yīng)像素的場(chǎng)景深度d,比較場(chǎng)景深度和出射點(diǎn)離相機(jī)的距離,若比場(chǎng)景深度大,更新出射點(diǎn)為場(chǎng)景深度對(duì)應(yīng)的點(diǎn),并計(jì)算入射點(diǎn)到出射點(diǎn)的距離;
(4)輸出入射點(diǎn)和包圍盒內(nèi)光線傳輸?shù)木嚯x。
光線采樣:
(1)計(jì)算光線步進(jìn)采樣點(diǎn)的采樣值
(2)加入環(huán)境光照
由于光線在體積中被吸收和內(nèi)散射而衰減,使得當(dāng)煙霧極為濃厚時(shí),背光且厚重的部分會(huì)出現(xiàn)濃重的黑色陰影,考慮到大氣散射帶來(lái)的能量,在采樣點(diǎn)附近做了多次隨機(jī)采樣來(lái)模擬環(huán)境光照來(lái)獲得柔和的自陰影,如圖7 所示(上圖為未加入環(huán)境光照的煙霧效果,下圖為加入環(huán)境光照的煙霧效果)。
其中:LENV(x,ω,y)表示環(huán)境貢獻(xiàn)的輻射亮度,Lenv是環(huán)境光強(qiáng)度,y′i表示采樣點(diǎn)附近的隨機(jī)點(diǎn),z′i表示從該隨機(jī)點(diǎn)出發(fā)沿著自陰影方向的出射點(diǎn)。
(3)路徑積分
在獲得了光線路徑每一點(diǎn)的輻射亮度采樣值后,沿著光線路徑進(jìn)行積分就能得到從光柵發(fā)射出去的光線最終采集到的輻射亮度:
通過(guò)光線步進(jìn)的方式積分計(jì)算消光項(xiàng),可以很容易得到光線對(duì)應(yīng)像素的煙霧透光度。
為了將計(jì)算得到的透明度的標(biāo)注輸出到本地,系統(tǒng)從場(chǎng)景中獲取相機(jī)和煙霧的相關(guān)參數(shù)建立虛擬光柵模擬相機(jī)在場(chǎng)景中渲染煙霧的流程,從而將煙霧在三維空間中的成像映射到二維空間,最終得到煙霧在相機(jī)視角下透明度標(biāo)注的輸出結(jié)果。如圖8 所示,上圖為場(chǎng)景中的體積煙,下圖為體積煙對(duì)應(yīng)的不透明度mask 信息,純黑表示無(wú)遮擋,純白表示完全遮擋。
圖8 煙霧透明度標(biāo)注Fig.8 Smoke translucent mask
仿真系統(tǒng)生成的圖像數(shù)據(jù)以及對(duì)應(yīng)標(biāo)注信息如圖9 所示,包含人車(chē)船飛機(jī)四類(lèi)數(shù)據(jù)。Occlusion 表示只有單物體遮擋時(shí)的遮擋率,Opaque、Translucent 和Total 分別表示多物體遮擋時(shí)的不透明遮擋率、半透明遮擋率和總遮擋率。其中輔助遮擋率計(jì)算的信息有完整標(biāo)注圖像、物體標(biāo)注圖像以及煙霧的標(biāo)注圖像。為了計(jì)算圖像目標(biāo)對(duì)應(yīng)的遮擋率,本文提出了如下遮擋率計(jì)算規(guī)則:
其中:C(Label)表示計(jì)算對(duì)象在標(biāo)注圖像中所占的像素?cái)?shù)量,C(Mask)表示計(jì)算對(duì)象在自身物質(zhì)標(biāo)注中所占的像素?cái)?shù)量,∑L Alpha表示計(jì)算對(duì)象在自身標(biāo)注圖像中未被不透明物體遮擋部分的像素貢獻(xiàn)的煙霧透明度,該規(guī)則的設(shè)立,實(shí)現(xiàn)了混合遮擋下的目標(biāo)遮擋率計(jì)算。本文根據(jù)該規(guī)則劃分出10 個(gè)遮擋難度等級(jí),為遮擋率難度的評(píng)估提供了依據(jù)。
圖9 MOCOD 數(shù)據(jù)集及標(biāo)注Fig.9 MOCOD dataset with annotation
本文通過(guò)遮擋圖像數(shù)據(jù)生成系統(tǒng)生成了包含人、車(chē)、船、飛機(jī)四大類(lèi)對(duì)象共8 200 組圖像,每一組圖像包含(3+a)張圖像,其中3 表示原始圖像、視場(chǎng)內(nèi)完整的mask 標(biāo)注和煙霧的mask 標(biāo)注,a 表示視場(chǎng)內(nèi)被標(biāo)記物體的數(shù)量,每個(gè)標(biāo)記物體會(huì)生成一張自己的mask 標(biāo)注,每張圖像的分辨率均為1 280×720,數(shù)據(jù)集的標(biāo)注比較如表1 所示。本文提出的數(shù)據(jù)集將標(biāo)注精確到了實(shí)例分割級(jí)別,相較其他數(shù)據(jù)集劃分了更多的遮擋等級(jí),同時(shí)大大提升了標(biāo)注的速度,能夠更快地?cái)U(kuò)充數(shù)據(jù)集,提供更精確的遮擋評(píng)估。
表1 數(shù)據(jù)集標(biāo)注情況比較Tab.1 Comparison of dataset annotation
對(duì)于MOCOD 引入的煙霧遮擋,目前主要面對(duì)生活中的大面積煙霧,如圖10 所示,其中上圖為現(xiàn)實(shí)中存在的煙霧,下圖為仿真得到的煙霧。相比于其他數(shù)據(jù)集,煙霧類(lèi)型遮擋和對(duì)應(yīng)標(biāo)注的引入進(jìn)一步增強(qiáng)了數(shù)據(jù)集對(duì)于遮擋問(wèn)題評(píng)估的完備性。
圖10 現(xiàn)實(shí)和仿真煙霧對(duì)比Fig.10 Comparison between real and simulated smoke
本文創(chuàng)建了一個(gè)遮擋圖像數(shù)據(jù)生成系統(tǒng)來(lái)高效構(gòu)建遮擋圖像數(shù)據(jù)庫(kù)MOCOD。在遮擋圖像庫(kù)的構(gòu)建中,引入了煙霧類(lèi)型的半透明遮擋,擴(kuò)充了場(chǎng)景中的遮擋類(lèi)型。在系統(tǒng)中,提供了城鎮(zhèn)、工廠和海濱小鎮(zhèn)三個(gè)場(chǎng)景和數(shù)百個(gè)可以自由放置的物體,以及360°自由的拍攝角度,并提供了手動(dòng)和自動(dòng)追蹤路徑的控制模式來(lái)高效的捕獲場(chǎng)景數(shù)據(jù)并得到實(shí)例分割結(jié)果,能夠根據(jù)需求快速生成不同難易程度的樣本。同時(shí)建立的圖像庫(kù)MOCOD 相較于當(dāng)前其他公開(kāi)的圖像庫(kù)擁有更詳細(xì)的遮擋標(biāo)注和評(píng)級(jí),能夠更好的評(píng)估檢測(cè)和分割算法在遮擋下的圖像識(shí)別性能。
本文的系統(tǒng)還具有很好的可擴(kuò)展性。第一,在遮擋物的方面,現(xiàn)實(shí)生活中還存在著更豐富的遮擋類(lèi)型,如被高溫加熱后的空氣、含有雜質(zhì)的液態(tài)流體等,都可以被引入從而進(jìn)一步豐富我們的遮擋圖像;第二,當(dāng)前的半透明煙霧遮擋物僅使用隨機(jī)噪聲模擬,未來(lái)還可以在煙霧運(yùn)動(dòng)上加入物理約束得到更加合理的煙霧形態(tài);第三,系統(tǒng)還能夠繼續(xù)擴(kuò)展,根據(jù)需求生成光流、亮度分布等更多類(lèi)型的數(shù)據(jù)。我們相信隨著圖形渲染技術(shù)的進(jìn)步,利用仿真系統(tǒng)擴(kuò)充樣本將會(huì)越來(lái)越廣泛的應(yīng)用在計(jì)算機(jī)視覺(jué)領(lǐng)域,推動(dòng)圖像算法的進(jìn)一步發(fā)展。