魏 麗,丁 萌,曾麗君
?
紅外圖像中基于似物性與稀疏編碼的行人檢測(cè)
魏 麗1,丁 萌2,3,曾麗君1
(1.南京航空航天大學(xué)金城學(xué)院,江蘇 南京 210016;2.南京航空航天大學(xué)民航學(xué)院,江蘇 南京 210016;3.光電控制技術(shù)重點(diǎn)實(shí)驗(yàn)室,河南 洛陽 471023)
行人檢測(cè)是計(jì)算機(jī)視覺的經(jīng)典問題。針對(duì)紅外圖像中的行人檢測(cè)問題,提出了一種基于似物性和稀疏編碼及空間金字塔特征提取的行人檢測(cè)方法。首先,針對(duì)紅外圖像的特點(diǎn),利用基于頻域殘差的顯著性分析方法得到紅外圖像的顯著圖,在此基礎(chǔ)上提出了一種似物性計(jì)算方法,進(jìn)而得到不同區(qū)域的似物度得分,并根據(jù)得分提取出感興趣區(qū)域;其次,以尺度不變特征轉(zhuǎn)換為基礎(chǔ),將稀疏編碼和空間金字塔算法應(yīng)用于非監(jiān)督特征學(xué)習(xí)實(shí)現(xiàn)對(duì)感興趣區(qū)域的特征提??;最后,利用線性支持向量機(jī)構(gòu)建分類器實(shí)現(xiàn)對(duì)圖像中每個(gè)感興趣區(qū)域的行人檢測(cè)。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的感興趣區(qū)域提取算法和針對(duì)單幅紅外圖像行人檢測(cè)算法的有效性。
紅外圖像;行人檢測(cè);似物性;頻域殘差;稀疏編碼;空間金字塔
行人檢測(cè)(pedestrian detection)一直是計(jì)算機(jī)視覺、模式識(shí)別領(lǐng)域研究的熱點(diǎn)之一[1]。從單幅圖像中實(shí)現(xiàn)對(duì)行人進(jìn)行檢測(cè)的算法主要由2部分組成:感興趣區(qū)域(region of interest, ROI)的獲取和識(shí)別算法設(shè)計(jì)。
ROI獲取也稱為目標(biāo)候選區(qū)域確定,其主要目的是從圖像中首先確定可能包括行人的區(qū)域,確定ROI區(qū)域就可以避免了識(shí)別算法對(duì)整個(gè)圖像區(qū)域的遍歷,即傳統(tǒng)意義上的滑窗法(slide window),這可以降低行人檢測(cè)算法的運(yùn)算量,提高算法的實(shí)時(shí)性。現(xiàn)有的ROI獲取方法總體上可以分為靜態(tài)背景下基于序列圖像的方法和動(dòng)態(tài)背景下基于單幅圖像的方法,本文所研究的主要是動(dòng)態(tài)背景下基于單幅紅外圖像的行人檢測(cè)方法。近年來,基于顯著性(saliency)分析的ROI區(qū)域獲取方法成為研究熱點(diǎn)[2-4],由此實(shí)現(xiàn)了行人檢測(cè)從滑窗到選擇窗(Selected Window)轉(zhuǎn)變,通過對(duì)顯著圖窗口的似物性得分(objectness score)的計(jì)算[5-6],確定窗口中的存在目標(biāo)的可能性,由此實(shí)現(xiàn)對(duì)窗口的選擇,達(dá)到ROI區(qū)域提取的目的。
不同于一般的行人檢測(cè)算法所針對(duì)可見光圖像,本文所研究的紅外圖像其在色彩、紋理、邊緣信息方面的豐富程度都遠(yuǎn)遠(yuǎn)不及前者。因此,現(xiàn)有的許多基于色彩、邊緣等的顯著性分析方法無法有效在紅外圖像中加以利用。為此,針對(duì)紅外圖像中的ROI區(qū)域提取問題提出了一種基于紅外圖像頻域殘差的ROI區(qū)域提取算法。
識(shí)別算法一般由2個(gè)部分組成,即特征提取與分類器設(shè)計(jì)。在行人檢測(cè)的識(shí)別算法中,最為經(jīng)典方法是HOG+SVM的方法[7],即利用方向梯度直方圖(histogram of gradient, HOG)進(jìn)行特征提取,利用支持向量機(jī)(support vector machine, SVM)進(jìn)行分類器訓(xùn)練。在HOG特征的基礎(chǔ)上,近年來又出現(xiàn)了共生梯度方向直方圖特征、二階梯度方向直方圖、局部二值模式(LBP)以及cell-LBP特征等。在分類器算法方面,又先后出現(xiàn)了最小二乘SVM、Adaboosting等[8-12]。
近年來,隨著深度學(xué)習(xí)(deep learning)、稀疏編碼(sparse coding)等方法出現(xiàn),傳統(tǒng)的特征提取方法逐漸被取代。ScSPM(sparse coding spatial pyramid matching)就是建立在稀疏編碼和特征池化基礎(chǔ)上的特征提取方法[13-14]。其將傳統(tǒng)的特征提取升華為無監(jiān)督特征學(xué)習(xí),在相同分類器的前提下,利用ScSPM特征學(xué)習(xí)獲取的特征向量所得到的識(shí)別準(zhǔn)確率有顯著提高。由于本文所研究的對(duì)象是紅外圖像,因此傳統(tǒng)的基于可見光圖像所開發(fā)的特征提取方法在識(shí)別過程中的效果不是十分理想,為此,本文在SCSPM架構(gòu)的基礎(chǔ)上,利用非監(jiān)督特征學(xué)習(xí)實(shí)現(xiàn)行人的特征提取,在此基礎(chǔ)上利用SVM實(shí)現(xiàn)行人檢測(cè)。
本文針對(duì)單幅紅外圖像提出了一種基于窗口似物性得分和非監(jiān)督特征學(xué)習(xí)的行人檢測(cè)方法。該方法首先利用頻域顯著性分析方法計(jì)算窗口似物性得分,根據(jù)得分獲取圖像中的ROI區(qū)域,在此基礎(chǔ)上利用非監(jiān)督特征學(xué)習(xí)方法對(duì)ROI區(qū)域進(jìn)行特征提取,進(jìn)而利用SVM分類器實(shí)現(xiàn)ROI區(qū)域的行人檢測(cè)。
相比于可見光圖像,紅外圖像的紋理、色彩及邊緣信息的豐富程度較低,因此現(xiàn)有的許多基于紋理、邊緣等信息的顯著性分析方法都無法有效地用于紅外圖像。為此,利用基于頻域殘差(spectral residual, SR)的顯著性分析方法實(shí)現(xiàn)對(duì)ROI區(qū)域的提取?;赟R的顯著性分析方法是由Hou等人首先提出的,SR的基本步驟如下[2]:
輸入:紅外圖像X
輸出:顯著圖S
步驟1:計(jì)算X的傅里葉變換F;
步驟2:計(jì)算傅里葉變換的對(duì)數(shù)幅值:=lg(|F|);
步驟3:求出傅里葉變換的相位角:=Angle(F);
步驟4:對(duì)對(duì)數(shù)幅值進(jìn)行均值濾波處理:L’= AverageFilter(L);
步驟5:計(jì)算頻譜殘差:R=L-L’;
步驟6:生成殘差傅里葉變換:F’=Exp(R)*Exp(iP);
步驟7:利用傅里葉反變換計(jì)算顯著性圖:S= InverseFourierTransform(F’).
在利用SR算法計(jì)算出紅外圖像X對(duì)應(yīng)的頻域殘差顯著圖S前需要對(duì)圖像進(jìn)行成比例縮?。s小系數(shù)),這樣做的目的是為了確保對(duì)顯著度局部峰值對(duì)目標(biāo)區(qū)域的集中。在得到顯著圖S后,通過設(shè)置閾值threshold,得到顯著圖對(duì)應(yīng)的二值圖T,將二值圖T的每個(gè)像素與顯著圖S的對(duì)應(yīng)像素相乘得到合成圖M。在此基礎(chǔ)上,計(jì)算不同窗口區(qū)域的似物性得分score:
式中:表示二值圖的相應(yīng)窗口范圍內(nèi)的所有點(diǎn)的像素值之和;表示合成圖的相應(yīng)窗口范圍內(nèi)的所有點(diǎn)的像素值之和。
在行人檢測(cè)中確定搜索窗口區(qū)域的大小范圍為從原始圖像高度30%~80%作為搜索窗口的高度變化范圍,搜索窗口的寬度為對(duì)應(yīng)高度的50%。圖1為ROI區(qū)域確定方法流程圖。圖2為ROI區(qū)域確定過程中得到的中間結(jié)果和最終結(jié)果,圖2(e)中的數(shù)字為score值(為了顯示方便僅取score值的整數(shù)部分)。
以尺度不變特征(scale-invariant feature transform, SIFT)為基礎(chǔ)利用稀疏編碼在SPM架構(gòu)下建立目標(biāo)的稀疏特征是由Yu Kai等[13]人最早提出的,該特征是建立非監(jiān)督特征學(xué)習(xí)的基礎(chǔ)上,相較于傳統(tǒng)的SIFT、HOG、LBP等特征提取方法,其得到的特征向量其對(duì)于不同目標(biāo)可分性越高,可以利用簡(jiǎn)單的分類器完成不同類型的分類。本文所采用的特征提取方法如下:
輸入:待提取特征的圖像塊,即單個(gè)ROI區(qū)域
輸出:特征向量
圖1 ROI獲取算法流程
圖2 ROI獲取結(jié)果
步驟1:將圖像塊大小縮放為固定大?。槐疚膶⑺袌D像塊固定為128×64pixel。
步驟2:將圖像塊分成若干子區(qū)域,每個(gè)子區(qū)域的大小為g1×g1;其中相鄰兩個(gè)子區(qū)域之間的重疊度為g2,在本文中g(shù)1=16,g2=10,由此共得到19×9=171個(gè)子區(qū)域(如圖3)。
步驟3:對(duì)每個(gè)子區(qū)域提取一個(gè)SIFT特征,即一個(gè)128維向量,因此對(duì)一個(gè)128×64pixel圖像塊,共得到171個(gè)128維特征向量。
步驟4:利用稀疏字典計(jì)算每個(gè)特征向量的稀疏表示;在本文中選擇的字典規(guī)模為128×1024,即每個(gè)特征向量的稀疏表示為一個(gè)1024維的稀疏向量。
步驟5:對(duì)圖像塊進(jìn)行金字塔表示,將根據(jù)不同的劃分尺度,對(duì)二維平面圖像進(jìn)行不同尺度的劃分。當(dāng)劃分尺度=0時(shí),不對(duì)圖像進(jìn)行劃分,即原始圖像,把它看作金字塔的第1層。當(dāng)=1時(shí),將圖像平均分成4個(gè)部分,作為金字塔的第2層。依次類推,對(duì)于劃分尺度,將圖像平均分成22τ份,對(duì)應(yīng)金字塔的第+1層;在本文中=3層(=0,1,2),可得到1+4+16=21個(gè)圖像子塊。
步驟6:對(duì)每個(gè)圖像子塊中對(duì)應(yīng)的稀疏向量進(jìn)行特征池化(pooling)。本文利用最大值池化(max-pooling)進(jìn)行特征融合,該方法最大的優(yōu)點(diǎn)是對(duì)局部噪聲有魯棒性。
步驟7:特征合并完成目標(biāo)特征提取,通過最大值特征池化共得到21個(gè)1024維融合特征向量,將這21個(gè)特征首尾相接得到一個(gè)長度為1024×21=21504維的特征向量,完成目標(biāo)的特征提取。
圖3 圖像塊劃分
分類器一直以來都是模式識(shí)別研究的重點(diǎn),模式識(shí)別理論誕生于20世紀(jì)60年代,在20世紀(jì)70年代成為一門獨(dú)立的學(xué)科體系。模式識(shí)別方法大體上可以分為4類:統(tǒng)計(jì)模式識(shí)別、句法模式識(shí)別、模糊模式識(shí)別、神經(jīng)網(wǎng)絡(luò)模式識(shí)別。前兩者是較為古老的模式識(shí)別方法,當(dāng)前基于神經(jīng)網(wǎng)絡(luò)的模式識(shí)別是較常用的方法,其中以小樣本學(xué)習(xí)理論與支持向量機(jī)成為新的研究與應(yīng)用熱點(diǎn)。本文利用SVM為基礎(chǔ)設(shè)計(jì)分類器。
基于機(jī)器學(xué)習(xí)的識(shí)別算法由2個(gè)部分組成:第一是離線的學(xué)習(xí)(learning)過程,就是將包含行人的ROI區(qū)域作為正樣本,不包含行人的作為負(fù)樣本,并預(yù)先抽取出來作為訓(xùn)練樣本,利用監(jiān)督學(xué)習(xí)的方法訓(xùn)練分類器,所有的訓(xùn)練原本都需要首先進(jìn)行尺寸上的統(tǒng)一,在此基礎(chǔ)上提取出特征向量及其對(duì)應(yīng)的標(biāo)簽(label),完成訓(xùn)練后得到表征分類器的參數(shù),由于這一訓(xùn)練過程是預(yù)先完成的,因此稱為離線訓(xùn)練過程。第二是在線識(shí)別(recognition)的過程,利用離線訓(xùn)練得到的分類器,在線對(duì)提取出的ROI區(qū)域進(jìn)行特征提取,將其特征向量送入分類器,得到其對(duì)應(yīng)的識(shí)別標(biāo)簽,根據(jù)標(biāo)簽就可以判斷每個(gè)ROI區(qū)域中是否包含行人。
在利用SVM訓(xùn)練分類器過程中,對(duì)訓(xùn)練樣本中負(fù)樣本的選擇參考該樣本的似物性得分,對(duì)于似物性較高的負(fù)樣本,在隨機(jī)訓(xùn)練過程中的選中概率較高,該類負(fù)樣本的用于訓(xùn)練的重復(fù)度也較高。這是因?yàn)镽OI獲取過程中得到這類負(fù)樣本的概率較高,故分類器應(yīng)該能夠重點(diǎn)剔除這類負(fù)樣本。
圖4為3幅行人檢測(cè)的紅外圖像,分別拍攝于室內(nèi)弱光環(huán)境、室外白天環(huán)境與室外夜晚環(huán)境,從圖中可見,人體溫度與周圍環(huán)境溫度之間有著明顯區(qū)別。圖5為利用本文提出的ROI獲取算法得到的3幅圖像的ROI區(qū)域,由圖可見提出的方法均能將行人包含在ROI區(qū)域中,由此證明了本算法的有效性。同時(shí),圖5中每個(gè)ROI區(qū)域上方對(duì)應(yīng)的數(shù)字為其score值(為顯示方便取整值),從獲取的score值可見,行人目標(biāo)的顯著性明顯,由此證明了采用頻域殘差算法的有效性。
使用相同的SVM分類器,針對(duì)兩種不同的特征提取方法,對(duì)本文所使用的特征提取方法和常用的HOG法針對(duì)紅外圖像中的行人識(shí)別的準(zhǔn)確率進(jìn)行比較。所選擇的訓(xùn)練樣本和測(cè)試樣本完全相同,通過選擇訓(xùn)練樣本的數(shù)量的不同,得到的識(shí)別結(jié)果如表1所示。在實(shí)驗(yàn)中,共有正樣本318個(gè),負(fù)樣本685個(gè),分4組進(jìn)行實(shí)驗(yàn),每組訓(xùn)練樣本的數(shù)量分別為:第1組正樣本100個(gè),負(fù)樣本200個(gè);第2組正樣本150個(gè),負(fù)樣本300個(gè);第3組正樣本200個(gè),負(fù)樣本400個(gè);第4組正樣本250個(gè),負(fù)樣本500個(gè)。所有剩余樣本作為測(cè)試樣本,每組樣本隨機(jī)抽取10次,得到的識(shí)別結(jié)果如表1所示。圖6為每組樣本數(shù)量的平均識(shí)別率,從該圖可見,本文利用的基于ScSPM的分類器的識(shí)別率明顯高于基于HOG的分類器的識(shí)別率。此外,訓(xùn)練樣本數(shù)量的增加也有助于提高分類器的識(shí)別率。
圖4 用于行人檢測(cè)的紅外圖像
圖5 ROI區(qū)域獲取
Fig.5 ROI detection
圖6 不同訓(xùn)練樣本數(shù)量的平均識(shí)別率
利用第4組訓(xùn)練樣本得到的分類器對(duì)圖2與圖5的ROI區(qū)域進(jìn)行識(shí)別,得到的行人檢測(cè)的結(jié)果如圖7所示,由圖7可見,本文提出的方法可以有效地從紅外圖像中完成行人檢測(cè)。
針對(duì)單幅紅外圖像,研究了一種基于似物性得分和稀疏編碼空間金字塔特征提取的行人檢測(cè)方法,在紅外圖像頻域顯著性分析的基礎(chǔ)上提取出ROI區(qū)域,利用非監(jiān)督特征學(xué)習(xí)與SVM實(shí)現(xiàn)對(duì)圖像中的行人檢測(cè),驗(yàn)證了該算法針對(duì)單幅紅外圖像行人檢測(cè)的有效性。本文的主要特點(diǎn)如下:
1)根據(jù)紅外圖像特點(diǎn),利用頻域殘算法獲取紅外圖像的顯著圖;
2)提出了一種基于頻域殘差顯著圖的窗口似物性得分計(jì)算方法;
3)將窗口似物性得分作為得到選擇訓(xùn)練樣本負(fù)樣本的重要參考,有針對(duì)性地進(jìn)行分類器訓(xùn)練。
表1 本文方法和HOG法對(duì)紅外圖像中的行人識(shí)別的準(zhǔn)確率比較
圖7 行人檢測(cè)結(jié)果
Fig.7 Results of pedestrian detection
[1] Dollar P, Wojek C, Schiele B, et al. Pedestrian detection: An evaluation of the state of the art[J]., 2012, 34(4): 743-761.
[2] Hou X D, Zhang L. Saliency detection: a spectral residual approach[C]//on(), USA: IEEE, 2007: 1-8.
[3] Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]//(), USA: IEEE, 2009: 1597-1604.
[4] Goferman S, Zelnik-Manor L, Tal A. Context-aware saliency detection[C]//(), USA: IEEE, 2010: 2376-2383.
[5] Alexe B, Deselaers T, Ferrari V. Measuring the objectness of image windows[J]., 2012, 34(11): 2189-2202.
[6] 柯洪昌, 孫宏彬. 圖像序列的顯著性目標(biāo)區(qū)域檢測(cè)方法[J]. 中國光學(xué),2015, 8(5): 768-774.
KE Hong-chang, SUN Hong-bin. A saliency target area detection method of image sequence[J]., 2015, 8(5): 768-774.
[7] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//(), USA: IEEE, 2005(1): 886-893.
[8] Geronimo D, Lopez A M, Sappa A D, et al. Survey on pedestrian detection for advanced driver assistance systems[J]., 2010, 32(7): 1239-1258.
[9] Dollar P, Wojek C, Schiele B, et al. Pedestrian detection: A bench- mark[C]//(), USA: IEEE, 2009: 304-311.
[10] 張春鳳, 宋加濤, 王萬良. 行人檢測(cè)技術(shù)研究綜述[J]. 電視技術(shù), 2014, 38(3): 157-161.
ZHANG Chunfeng, SONG Jiatao, WANG Wanliang. Survey on pedestrian detection technology[J]., 2014, 38(3): 157-161.
[11] 許騰, 黃鐵軍, 田永鴻. 車載視覺系統(tǒng)中的行人檢測(cè)技術(shù)綜述[J].中國圖象圖形學(xué)報(bào), 2013, 18(4): 359-367.
XU Teng, HUANG Tiejun, TIAN Yonghong. Survey on pedestrian detection technology for on-board vision systems[J]., 2013, 18(4): 359-367.
[12] 侯旺,孫曉亮,尚洋,等紅外弱小目標(biāo)檢測(cè)技術(shù)研究現(xiàn)狀與發(fā)展趨勢(shì)[J]. 紅外技術(shù), 2015, 37(1): 1-10.
HOU Wang, SUN Xiao-liang, SHANG Yang, et al. Present state and perspectives of small infrared targets detection technology[J]., 2015, 37(1): 1-10.
[13] Yang J C, Yu K, Gong Y H, et al. Linear spatial pyramid matching using sparse coding for image classification[C]//(), USA: IEEE, 2009: 1-8.
[14] Bao C Q, He L T, Wang Y L. Linear spatial pyramid matching using non-convex and non-negative sparse coding for image classification[C]//(), China: IEEE, 2015: 186-190.
Pedestrian Detection Based on Objectness and Sparse Coding in a Single Infrared Image
WEI Li1,DING Meng2,ZENG Lijun1
(1.,,210016,; 2.,,210016,3.471023,)
Pedestrian detection is a classic issue of computer vision. For the pedestrian detection problems in a single infrared image, this paper proposes a pedestrian detection method based on objectness, sparse coding and spatial pyramid matching. The algorithm can be divided into three phases. Firstly, the saliency map is computed based on spectral residual, and the paper presents an objectness score computation based on saliency map and selects regions of interest according to the score of different sub-windows. Secondly, scale-invariant feature transform, sparse coding and spatial pyramid matching are used to extract the feature vectors of the regions of interest. Finally, linear support vector machine is used to build a classifier and detect pedestrian in each region of interest. The experimental results verify the effectiveness of objectness score computation and the proposed algorithm for infrared images.
infrared image,pedestrian detection,objectness,spectral residual,sparse coding,spatial pyramid matching
TP391.4
A
1001-8891(2016)09-0752-06
2016-01-21;
2016-05-10.
魏麗:(1982-),女,江蘇鎮(zhèn)江人,講師,碩士,紅外圖像分析、信號(hào)處理。
丁萌:(1981-),男,江蘇儀征人,副教授,博士,計(jì)算機(jī)視覺與模式識(shí)別。
航空科學(xué)基金(20155152041),國家自然科學(xué)基金(61203170),中國博士后基金特別資助(2013T60539),中央高校基本科研業(yè)務(wù)費(fèi)(NS2016061)。