王 晨,湯心溢,高思莉
?
基于深度卷積神經(jīng)網(wǎng)絡(luò)的紅外場景理解算法
王 晨1,2,3,湯心溢1,3,高思莉1,3
(1. 中國科學(xué)院上海技術(shù)物理研究所,上海 200083;2. 中國科學(xué)院大學(xué),北京 100049;3. 中國科學(xué)院紅外探測與成像技術(shù)重點實驗室,上海 200083)
采用深度學(xué)習(xí)的方法實現(xiàn)紅外圖像場景語義理解。首先,建立含有4類別前景目標(biāo)和1個類別背景的用于語義分割研究的紅外圖像數(shù)據(jù)集。其次,以深度卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),結(jié)合條件隨機(jī)場后處理優(yōu)化模型,搭建端到端的紅外語義分割算法框架并進(jìn)行訓(xùn)練。最后,在可見光和紅外測試集上對算法框架的輸出結(jié)果進(jìn)行評估分析。實驗結(jié)果表明,采用深度學(xué)習(xí)的方法對紅外圖像進(jìn)行語義分割能實現(xiàn)圖像的像素級分類,并獲得較高的預(yù)測精度。從而可以獲得紅外圖像中景物的形狀、種類、位置分布等信息,實現(xiàn)紅外場景的語義理解。
紅外圖像;紅外場景;語義分割;卷積神經(jīng)網(wǎng)絡(luò)
圖像語義分割能實現(xiàn)對輸入圖像每個像素進(jìn)行分類,是對圖像中的場景進(jìn)行理解,廣泛應(yīng)用于機(jī)器人視覺、汽車輔助駕駛等領(lǐng)域,是現(xiàn)在國內(nèi)外的研究熱點。隨著深度學(xué)習(xí)算法的不斷發(fā)展,在諸多圖像檢測和識別方面取得比傳統(tǒng)算法更高的精確度。采用深度卷積神經(jīng)網(wǎng)絡(luò),可以實現(xiàn)端到端的語義信息預(yù)測,得到圖像像素級的類別標(biāo)簽,并取得了更高的預(yù)測精度。Jonathan Long在CVPR 2015會議上提出了全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[1],首次實現(xiàn)了端到端的語義分割卷積神經(jīng)網(wǎng)絡(luò)框架,達(dá)到了當(dāng)時最高的預(yù)測精度。S. Zheng等人在ICCV2015會議上,提出CRFasRNN[2],將后處理conditional random field(CRF)算法表征成可訓(xùn)練的循環(huán)卷積網(wǎng)絡(luò)結(jié)構(gòu),加入深度語義分割框架,在一個端到端的網(wǎng)絡(luò)實現(xiàn)了對語義分割結(jié)果的邊緣進(jìn)一步優(yōu)化,提高了在PASCAL VOC數(shù)據(jù)集上的預(yù)測精度。ICLR2015會議上,Liang-Chieh Chen等人將FCN結(jié)構(gòu)進(jìn)一步改進(jìn),Deeplab[3]框架大幅度減小了框架參數(shù),提高了訓(xùn)練和預(yù)測速度,并采用全連接CRF方法對預(yù)測圖進(jìn)行后處理優(yōu)化,進(jìn)一步提高了語義分割的精度。Hyeonwoo Noh采用了卷積與反卷積對稱的網(wǎng)絡(luò)結(jié)構(gòu)[4],并加入基于bounding box的前處理目標(biāo)預(yù)估計方法,再一次刷新了預(yù)測精度。PASCALVOC作為目標(biāo)檢測和語義分割算法研究權(quán)威的競賽平臺,隨著新的算法的提出,預(yù)測精度一直在刷新。
國際上對語義分割方法的研究主要是針對可見光圖像的。然而,在實際應(yīng)用中,由于可見光圖像的采集受到光照、天氣等條件影響,具有一定的局限性。紅外圖像作為熱圖像,能在光照條件較差的環(huán)境下彌補(bǔ)可見光成像效果差的不足,同時,紅外探測系統(tǒng)在軍事、航天等特定領(lǐng)域也具有廣泛應(yīng)用。因此,對紅外圖像進(jìn)行場景理解具有重要意義。目前,公開發(fā)布的用于場景理解、語義分割算法研究的數(shù)據(jù)集主要是可見光圖像,還沒有相關(guān)的紅外數(shù)據(jù)集。筆者參考PASCAL VOC和Cityscapes數(shù)據(jù)集的設(shè)計,建立了用于紅外圖像場景理解研究的數(shù)據(jù)集,并對紅外圖像的深度卷積神經(jīng)網(wǎng)絡(luò)語義分割算法進(jìn)行研究。在紅外數(shù)據(jù)集上采用深度卷積神經(jīng)網(wǎng)絡(luò)上實現(xiàn)了紅外圖像的語義分割,實現(xiàn)了對場景中景物像素級的分類,并采用交叉驗證法對模型進(jìn)行評估。證明了基于深度卷積神經(jīng)網(wǎng)絡(luò)的語義分割算法框架在紅外圖像場景理解上的可行性和有效性。
紅外數(shù)據(jù)集采用“初航”紅外探測器,在室外場景下采集街道場景圖像,并對包含的4類別景物,采用4種固定灰度值進(jìn)行人工標(biāo)注。4類別景物包括:人、汽車、建筑、樹木,類別號1~4表示(對每個類別細(xì)分的種類不作區(qū)分),1個背景,類別號0。如圖1所示,為紅外圖像和對應(yīng)的人工標(biāo)簽圖。
原始數(shù)據(jù)為14bit,為了顯示和制作標(biāo)簽圖,采用預(yù)處理算法壓縮成8bit圖像。紅外圖像是景物的熱輻射圖像,圖像的動態(tài)范圍較大、噪聲較大,圖像中存在過亮和過暗的區(qū)域。采用基于整幅圖像的增強(qiáng)算法,會受到這些區(qū)域的影響,造成圖像的整體灰度偏暗或偏亮,造成細(xì)節(jié)的模糊。為了更好的顯示紅外圖像,突出目標(biāo)細(xì)節(jié)、抑制噪聲,采用基于局部直方圖增強(qiáng)的壓縮算法能很好地滿足需求。預(yù)處理算法由圖像壓縮和增強(qiáng)算法組成。
步驟1:對14bit紅外數(shù)據(jù)進(jìn)行直方圖統(tǒng)計,采用閾值為20,寬度為10的滑動窗口對統(tǒng)計直方圖進(jìn)行截斷,去除掉連續(xù)10個灰度值,所含像素個數(shù)均小于20的灰度范圍,得到像素分布集中的灰度范圍[min,max]。
步驟2:對紅外圖像進(jìn)行線性映射到[0,255]。映射方程:
步驟3:采用限制對比度自適應(yīng)直方圖均衡增強(qiáng)算法(CLAHE)[5]對映射后的圖像進(jìn)行增強(qiáng)處理。得到8bit紅外增強(qiáng)圖像。
圖2為采用基于全局直方圖統(tǒng)計的圖像壓縮算法和本文算法的處理結(jié)果。相比之下,本文算法能更好地平衡圖像整體的灰度,抑制過亮和過暗區(qū)域?qū)θ诛@示的影響,更好地增強(qiáng)了低對比度區(qū)域的景物細(xì)節(jié),限制了噪聲的放大,得到細(xì)節(jié)清晰、視覺效果較好的紅外灰度圖像。
數(shù)量:1000張
尺寸:640×512
內(nèi)容和格式:14bit原始數(shù)據(jù)“.mat”;8bit紅外圖像“.jpg”;彩色標(biāo)簽圖“.png”;類別號標(biāo)簽圖“.png”。
圖1 紅外數(shù)據(jù)集樣本
Fig.1 Sample of infrared image datasets
圖2 壓縮效果對比
Fig.2 Comparison of compression results
語義分割算法框架主要由深度卷積神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場模型兩部分構(gòu)成。分別實現(xiàn)分割預(yù)測和分割結(jié)果的優(yōu)化處理。語義分割框架是通過對傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)框架的修改獲得的。傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)由卷積層、池化層后接全連接層,送入Softmax分類器進(jìn)行分類。全連接層使得輸出丟失了空間信息。將全連接層看作用覆蓋原有輸入?yún)^(qū)域的卷積核進(jìn)行卷積??梢缘玫礁鼮榫o致的包含空間信息的輸出圖。卷積與池化操作使得得到的特征圖尺寸縮小,為了得到與輸入圖像尺寸相同的預(yù)測圖,框架引入反卷積層,采用雙線性插值的方法對特征圖進(jìn)行上采樣操作,可以得到與分類器類別數(shù)量個數(shù)相同的預(yù)測得分圖,通過取最大操作,得到每個像素的類別評分最高的預(yù)測圖。從而實現(xiàn)圖像的語義分割。如圖3所示,是采用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)圖像語義分割的基本流程。
VGG-16[6]網(wǎng)絡(luò)在ImageNet ILSVRC-2014競賽中在定位和分類分別取得第一、二名的成績。網(wǎng)絡(luò)結(jié)構(gòu)包含16個可訓(xùn)練參數(shù)層,如表1所示。此網(wǎng)絡(luò)參數(shù)模型是在Imagenet數(shù)據(jù)集上進(jìn)行訓(xùn)練得到的,經(jīng)驗證,作為語義分割框架的初始化模型,比AlexNet和GoogleNet取得更高的預(yù)測精度。
對VGG網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了改進(jìn),在全卷積神經(jīng)網(wǎng)絡(luò)的框架的基礎(chǔ)上,改變網(wǎng)絡(luò)的步長大小,采用Hole算法改變連接方式,保證感受野的不變,不需要FCN的大尺度擴(kuò)充,正常擴(kuò)充下能得到更為緊致的預(yù)測圖[3]。將該模型訓(xùn)練成一個更有效率和有效的緊致特征提取器,實現(xiàn)圖像語義分割系統(tǒng)??蚣苤饕隽巳缦赂淖儯?/p>
2.3.1 Hole算法實現(xiàn)的緊致滑動窗特征提取器
同F(xiàn)CN框架一樣將VGG-16網(wǎng)絡(luò)的全卷連接層用卷積層替換,為了解決大步長32造成的預(yù)測評分圖過于稀疏的問題,通過更改倒數(shù)兩個池化層的步長,將步長減小到8。采用Hole算法,算法原理如圖4,在保證感受野不變的同時跳過后兩個池化層后的下采樣,在其后面卷積層的濾波器像素與像素之間補(bǔ)0,來增加其長度。
圖3 語義分割算法流程
表1 VGG-16框架
圖4 hole算法示意圖
2.3.2 框架計算加速
轉(zhuǎn)換為卷積層的第一個全連接層,含有尺寸為7×7的濾波器4096個,減小其濾波器尺寸到4×4(或3×3),減小了網(wǎng)絡(luò)的感受野尺寸。使得第一層全連接層的計算時間減小2~3倍。將全連接層的通道數(shù)減半到1024,在保證框架計算結(jié)果的情況下,進(jìn)一步降低了計算時間和內(nèi)存用量。
由于語義分割框架采用對稀疏預(yù)測圖進(jìn)行上采樣操作得到預(yù)測圖,景物的邊緣分割比較粗糙,預(yù)測精度較低。通常,CRF來平滑粗糙的分割預(yù)測結(jié)果圖。
模型的能量函數(shù)[7]:
表示像素的標(biāo)簽。一元的勢能(x)=-lg(x),(x)是由DCNN計算得到的標(biāo)簽概率。對于圖像中一對像素,他們的成對勢能是:
如果x1x,(x,x)=1,其余條件,等于0。模型的因子圖是全連接的,因為圖像中任意兩個像素組成像素對。每一個m是一個高斯核,由像素和決定其參數(shù),參數(shù)m決定權(quán)重。核函數(shù):
第一個核表示像素的位置和灰度信息,第二個核只表示像素的位置信息。超參數(shù),和決定了高斯核的尺度。接著采用一個可分解的平均場近似方法,可以將CRF模型中信息的傳輸表示為在特征空間進(jìn)行高斯核卷積操作。能大幅度降低運(yùn)算復(fù)雜度、提升運(yùn)算速度。
為了彌補(bǔ)自建數(shù)據(jù)集樣本數(shù)量的不足,采用Cityscapes[8]數(shù)據(jù)集先進(jìn)行預(yù)訓(xùn)練,再用紅外數(shù)據(jù)集進(jìn)行再訓(xùn)練。Cityscapes數(shù)據(jù)集主要用于城市街道場景境的語義理解,數(shù)據(jù)集內(nèi)包含可見光彩色圖像和標(biāo)簽圖,其中訓(xùn)練集2975張,測試集500張,圖像大小2048×1024。含有景物類別30種,包括道路,行人、小汽車、摩托車、植物、建筑、天空等。我們提取其中包含的8種景物的2973張圖,將8種景物為4個大類別,人:人、騎行者;汽車:小汽車、公交車、卡車;建筑:房屋、墻;樹木:植物。與我們建立的紅外數(shù)據(jù)集相匹配。為了加快訓(xùn)練速度,將數(shù)據(jù)集的圖像轉(zhuǎn)換為灰度圖像,并將原始圖像和標(biāo)簽圖尺寸縮小到1024×512。紅外數(shù)據(jù)集包含1000個樣本,隨機(jī)抽取800個作為訓(xùn)練集,其余200個作為測試集。
我們先用VGG-16模型在Cityscapes數(shù)據(jù)集進(jìn)行訓(xùn)練,訓(xùn)練參數(shù)為:分類輸出大小5(4類別和背景),mini-batch為5,初始化學(xué)習(xí)率0.001,每2000次循環(huán),學(xué)習(xí)率乘以0.1,向量值0.9,權(quán)值衰減0.0005。訓(xùn)練8000次循環(huán),得到模型1。然后,將模型1作為初始化模型,在紅外數(shù)據(jù)集進(jìn)行再訓(xùn)練。每4000次學(xué)習(xí)率乘以0.1,其他參數(shù)保持不變,訓(xùn)練8000次、16000次得到模型2,3。紅外圖像訓(xùn)練速度:0.33ms/frame。本實驗在Ubuntu14.04系統(tǒng)上采用Caffe框架實現(xiàn),采用CUDA進(jìn)行處理,GPU型號:NVDIA GM200,內(nèi)存12G。
頻率加權(quán)IU:
交叉驗證法:由于紅外數(shù)據(jù)集圖像較少,采用5折交叉驗證的方法在紅外數(shù)據(jù)集上進(jìn)行訓(xùn)練和驗證,增加算法的隨機(jī)性和客觀性。將全部紅外圖像隨機(jī)分成5份,輪流將其中4份作為訓(xùn)練集,1份作為驗證集。5次計算結(jié)果的均值作為對算法精度的估計,見表2、表3。
圖5展示了深度卷積語義分割網(wǎng)絡(luò)對紅外圖像的處理結(jié)果。從可視化結(jié)果上看,采用該算法框架得到比較理想的預(yù)測結(jié)果,分割結(jié)果與人工標(biāo)注標(biāo)簽圖比較相近,可以實現(xiàn)不同類別景物的分割和分類。在可見光和紅外數(shù)據(jù)集訓(xùn)練8000次循環(huán)的模型1、2,mean IU分別達(dá)到0.670和0.531,見表2。當(dāng)訓(xùn)練循環(huán)次數(shù)達(dá)到16000次,mean IU顯著提高,達(dá)到0.719,見表2。加入CRF優(yōu)化模型,預(yù)測精度結(jié)果變化不大,部分反而有所下降。但是從可視化結(jié)果看,采用CRF模型進(jìn)行后處理,對目標(biāo)的邊緣精確度有顯著提升,更接近標(biāo)簽圖,但同時造成了部分邊緣區(qū)域分割的錯誤。目前,在可見光數(shù)據(jù)集Cityscapes上,最好的模型SegModel,達(dá)到的mean IU為0.777,僅作為參照。
表2 預(yù)測精度對比
表3 紅外數(shù)據(jù)集各類別IU結(jié)果
圖5 語義分割結(jié)果
Fig.5 Semantic segmentation results
存在的問題:不同類別的景物分割精度存在差異,較大的物體,如汽車、建筑、樹木,獲得的分割精度較高,“人”所占空間比例較小,訓(xùn)練不夠充分,預(yù)測精度較低。IU只有0.556,見表3。因此拉低了平均IU。對于像“人”這樣的物體,占的像素較少,形態(tài)變化大,預(yù)測精度低,如何提高此類景物的預(yù)測精度,有待進(jìn)一步研究和解決。CRF優(yōu)化模型在可見光彩色圖像的語義分割實驗中,對預(yù)測精度提升明顯。由于紅外圖像是灰度圖像,沒有顏色信息,邊緣模糊,紋理缺失,采用CRF模型進(jìn)行后處理優(yōu)化邊緣,有一定局限性,后處理算法有待進(jìn)一步改進(jìn)。
為了實現(xiàn)紅外圖像場景的理解,本文將廣泛用于可見光圖像分析的深度學(xué)習(xí)語義分割算法框架應(yīng)用于紅外圖像。通過自建紅外數(shù)據(jù)集、在Caffe深度學(xué)習(xí)框架上構(gòu)建基于深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)合條件隨機(jī)場模型構(gòu)建算法框架,在紅外數(shù)據(jù)集上對算法進(jìn)行驗證和評估。證明了深度學(xué)習(xí)算法在紅外圖像語義分割上的可行性和有效性。對于輸入的紅外圖像,可以獲得圖像中每個像素的類別標(biāo)簽。進(jìn)而,可以得到圖像場景中景物的類別、位置分布、形狀、占有的比例等信息,實現(xiàn)圖像場景的高級語義理解。通過實驗結(jié)果的觀測和分析,對于較大的物體,如樹木、建筑等,語義分割效果較好。一些特征比較復(fù)雜,所占像素較少的景物,如“人”,分割精度比較低。從模型架構(gòu)和訓(xùn)練參數(shù)調(diào)整兩方面進(jìn)行優(yōu)化和改進(jìn),提高此類景物的語義分割精度,并實現(xiàn)整體平均預(yù)測準(zhǔn)確度的提高,是我們下一步要解決的問題。
[1] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//, 2015: 1337-1342.
[2] Zheng S, Jayasumana S, Romeraparedes B, et al. Conditional random fields as recurrent neural networks[C]//, 2015:1529-1537.
[3] Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]., 2014(4):357-361.
[4] Noh H, Hong S, Han B. Learning deconvolution network for semantic segmentation[C]//, 2015: 1520-1528.
[5] Pizer S M, Amburn E P, Austin J D, et al. Adaptive Histogram equalization and its variations[J].,,, 1987, 39(3): 355-368.
[6] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[2014] [DB/OL]. arXiv preprint arXiv: 1409.1556.
[7] Kr?henbühl P, Koltun V. Efficient Inference in fully connected CRFs with Gaussian edge potentials[C]//, 2012:109-117.
[8] Cordts M, Omran M, Ramos S, et al. The cityscapes dataset for semantic urban scene understanding[C]//, 2016: 3213-3223.
Infrared Scene Understanding Algorithm Based on Deep Convolutional Neural Network
WANG Chen1,2,3,TANG Xinyi1,3,GAO Sili1,3
(1.,200083,;2.,100049,;3.,,200083,)
We adopt a deep learning method to implement a semantic infrared image scene understanding. First, we build an infrared image dataset for the semantic segmentation research, consisting of four foreground object classes and one background class. Second, we build an end-to-end infrared semantic segmentation framework based on a deep convolutional neural network connected to a conditional random field refined model. Then, we train the model. Finally, we evaluate and analyze the outputs of the algorithm framework from both the visible and infrared datasets. Qualitatively, it is feasible to adopt a deep learning method to classify infrared images on a pixel level, and the predicted accuracy is satisfactory. We can obtain the features, classes, and positions of the objects in an infrared image to understand the infrared scene semantically.
infrared images,infrared scene,semantic segmentation,convolutional neural network
TP391.41
A
1001-8891(2017)08-0728-06
2016-10-06;
2016-10-31.
王晨(1989-),博士研究生,主要研究方向是圖像處理與目標(biāo)識別。E-mail:ilkame@sina.com。
國家“十二五”國防預(yù)研項目,上海物證重點實驗室基金(2011xcwzk04),中國科學(xué)院青年創(chuàng)新促進(jìn)會資助(2014216)。