劉翠響,袁香偉,王寶珠,張亞鳳,馬 杰
河北工業(yè)大學(xué)電子信息工程學(xué)院,天津 300401
近年來,行人重識別技術(shù)已成為研究熱點,受到越來越多學(xué)者的青睞.行人重識別是指不同攝像機之間的行人匹配,旨在于實現(xiàn)多個無重疊視域攝像機之間的特定行人的識別.由于攝像頭位置的不同,行人圖片會受到姿勢、光照和拍攝角度的影響,因此,行人重識別是一項具有挑戰(zhàn)性的任務(wù).現(xiàn)有的行人重識別技術(shù)研究主要有特征提取和距離度量學(xué)習(xí)兩個方向.前者是運用一些技術(shù)手段將行人圖像像素級別的表示轉(zhuǎn)換為特征向量的形式,如顏色直方圖、紋理直方圖等;后者是通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)一種度量函數(shù),使得相同行人之間的距離較小,而不同行人之間的距離較大.
針對特征提取方向的研究,行人重識別技術(shù)主要集中在顏色空間、紋理特性以及梯度方向等方面.例如,顏色標(biāo)簽要素與顏色和紋理特征合并,直方圖通過區(qū)域和塊分割提取,以獲得圖像特征[1];基于空間顏色特征的行人重識別方法[2],先把行人圖像分為上下兩個部分,進而將每一部分再劃分子塊,最后在每個子塊上提取HSV(hue, saturation, value)特征,并在計算相似度時引入位置信息;采用顏色特征與紋理特征結(jié)合的特征表示方法[3],將HSV空間中的HS分量、LAB顏色空間的AB分量和Gabor濾波器后的紋理特征進行融合;GHEISSARI[4]提出一種時空分割法來檢測穩(wěn)定的前景區(qū)域.針對劃分的各個局部區(qū)域,計算 HS 直方圖和邊緣直方圖;LIAO[5]提出局部最大概率(local maximal occurrence, LOMO)描述器,它主要由HSV顏色直方圖和 SILTP紋理直方圖組成特征;MATSUKAWA等[6]提出利用分層高斯算子將圖像分為由多個高斯分布進行描述的不同區(qū)域來表示顏色和紋理信息(Gaussian of Gaussian, GOG).
針對距離度量方向的研究從歐氏、余弦等距離,發(fā)展到較復(fù)雜的馬氏[7]和巴氏距離等,其度量方式在不斷變化.DIKMEN等[8]改進了大間隔最近鄰局(large margin nearest neighbor, LMNN)算法,提出LMNN-R算法;鄭偉詩等[9]提出基于概率相對距離比較(probabilistic relative distance comparison, PRDC)的距離度量學(xué)習(xí);K?STINGER等[10]提出基于簡單并且直接策略(keep it simple and straight, KISS)的距離度量學(xué)習(xí);PEDAGADI等[11]提出局部線性判別分析(local fisher discrimination analysis, LFDA)的距離學(xué)習(xí)函數(shù),并將其用于行人重識別;LIAO等[5]將PSD限制和非對稱權(quán)重應(yīng)用于度量函數(shù)學(xué)習(xí)中,提出一種跨視圖二次鑒別分析(cross-view quadratic discriminant analysis, XQDA)方法[12].
本研究通過分析現(xiàn)有的特征提取和距離度量方法,采用整體和局部特征結(jié)合、顏色和紋理特征結(jié)合的方式提取行人特征.首先,整體提取圖像的HSV顏色空間直方圖,對圖像進行了直方圖均衡化,分塊提取(local binary pattern, LBP)的一種改進算法(scale invariant local ternary pattern, SILTP)紋理特征作為圖像局部特征;然后,對圖像進行兩次下采樣,再次進行上述特征提?。蛔詈?,采用XQDA度量學(xué)習(xí)進行圖像特征距離學(xué)習(xí).通過實驗證明,對圖像進行均衡化后的特征比原有特征的識別率更高,說明該方法的有效性.
均衡化指將已知分布的直方圖映射到另一個更寬且更均勻的強度值分布上.其中,映射函數(shù)是一個累積分布函數(shù)(cumulative distribution function, CDF).圖像均衡化旨在使圖像的細節(jié)更明顯,其基本思想是將圖像直方圖在一定范圍內(nèi)進行拉伸,以加強圖像對比度,提高圖像主觀視覺效果.對比度低的圖像適于采用直方圖均衡化方法來加強圖像的細節(jié).在圖像的目標(biāo)數(shù)據(jù)對比度不清晰時,該方法可有效提高圖像的全局對比度.因此,該方法不僅很好地增強了圖像局部目標(biāo)的對比度,且不影響圖像的整體對比度,尤其適用于當(dāng)圖像的前景與背景過亮或過暗時的情景.可見,直方圖均衡化能處理行人目標(biāo)與背景相似的情況,有效提高重識別率.
灰度直方圖均衡化算法實現(xiàn)步驟為:
1)統(tǒng)計原始行人圖像中各灰度級的像素數(shù)ni, 0≤i≤L,L為圖像中的灰度級(通常為256).
2)圖像中灰度級為i的像素出現(xiàn)的概率為
p(i)=ni/n
(1)
其中,n為所有像素總數(shù);p(i)為灰度級為i的歸一化圖像直方圖.
3)p的累積分布函數(shù)(cdf)是圖像累計歸一化直方圖,即
(2)
4)直方圖均衡化計算公式為
(3)
其中, round()為四舍五入取整函數(shù);cdfmin為累積分布函數(shù)最小值;M和N分別為圖像的長、寬方向的像素數(shù);L為灰度級數(shù);v為原始圖像中所有的灰度級數(shù).
由于攝像頭拍攝的行人圖像一般為彩色圖像,上述步驟為灰度圖像的均衡化,本研究將針對RGB彩色圖像進行均衡化.首先,將圖像分為R、G和B三個通道分量;然后,對每個通道分量分別求圖像均衡化;最后,選取3個分量對應(yīng)位置的最小值作為最終的均衡化值.在直方圖均衡處理后,原始圖像中像素數(shù)較少的灰度級將被分配給其他灰度級,像素數(shù)相對集中,并且灰度級范圍在處理之后變大,對比度增加并且銳度增加,從而可有效增強圖像,提高識別率.
行人重識別的實現(xiàn)主要分為特征提取和度量學(xué)習(xí)兩部分.特征提取是尋找一種最能描述特定行人的方法.采用圖像直方圖均衡化能更清晰地區(qū)分圖像中的行人與背景,該操作將原本較少像素的灰度級分配給其他灰度級,令像素將相對集中.度量學(xué)習(xí)則是通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)一種距離矩陣,使相同行人之間的距離小于不同行人之間的距離,以更好的實現(xiàn)重識別.
在實際場景中,行人圖像會因姿態(tài)、光照等不同而有所差異,因此,本研究采用局部和整體結(jié)合的方式提取行人特征.以VIPeR數(shù)據(jù)集的圖片為例,首先,把圖像大小統(tǒng)一改為128×48像素;對圖像求HSV直方圖作為整體特征;然后,通過直方圖均衡化后獲得的圖像被劃分為在水平方向上具有50%的重疊率的條帶,在每個條形塊中以10×10像素大小,步長為5的滑塊提取的SILTP紋理特征;最后,對圖像進行2次下采樣,對采樣后的圖像分別進行上述特征提取,將所有特征融合成一個特征向量,并作為最終的行人特征.經(jīng)過均衡化的部分特征如圖1.
圖1 均衡化部分特征Fig.1 (Color online) Some equalized features
行人在拍攝過程中受很多因素的影響,為使算法的比例尺度不變性更佳,對均衡化后的圖像進行兩次下采樣.經(jīng)過下采樣操作后,可生成不同尺寸的圖像縮略圖.行人重識別技術(shù)經(jīng)過對不同尺寸圖像的進行訓(xùn)練,使該方法具有較好的尺度不變性.
距離度量學(xué)習(xí)是為了能夠更好地區(qū)分不同行人之間的特征,實現(xiàn)較好的重識別.本研究使用XQDA方法,用跨視圖二次鑒別分析學(xué)習(xí)低維度的判別子空間,并用高斯模型擬合樣本特征的差值分布,同時在子空間中學(xué)習(xí)一個距離測度方法[13].度量學(xué)習(xí)定義了如下概率密度函數(shù):
(4)
(5)
其中,Δ=xi-xj,xi和xj為不同攝像頭下的原始特征,xi,xj∈Rd(d為特征維數(shù));當(dāng)樣本標(biāo)簽相同時,Δ被稱為類內(nèi)差值,并被重新定義為ΩI, 當(dāng)樣本標(biāo)簽不同時,Δ被稱為類間差值,并被重新定義為ΩE,ΩI和ΩE都服從均值為0,方差分別為σI和σE的高斯分布;ΣI和ΣE分別為類內(nèi)樣本差值分布的協(xié)方差矩陣與類間樣本差值分布的協(xié)方差矩陣; (ΣI)-1和(ΣE)-1分別為協(xié)方差矩陣ΣI和ΣE的逆矩陣.根據(jù)貝葉斯法則和對數(shù)似然比,可得距離度量函數(shù)為
f(Δ)=ΔT[(ΣI)-1-(ΣE)-1]Δ
(6)
樣本xi與xj之間的距離為
d(xi,xj)=(xi-xj)T[(ΣI)-1-(ΣE)-1](xi-xj)
(7)
算法流程圖請掃描論文末頁右下角二維碼.
實驗將在Intel(R) CoreTM i3-3110M CPU,頻率2.40 GHz,內(nèi)存4.00 Gbyte Matlab 2014b基礎(chǔ)配置環(huán)境下進行.為更好地區(qū)分圖像中行人目標(biāo)與背景的相似性,本研究利用彩色圖像3通道的直方圖均衡化最小化來增強行人細節(jié)特征.采用累計匹配特性(cumulative matching characteristic, CMC)曲線[14]來估計所提出的算法,并在數(shù)據(jù)集VIPeR、PKU-Reid和i-LIDS-VID上進行驗證. 3個數(shù)據(jù)集簡介如表 1.其中,所有圖像采集自2個攝像頭.隨機選取行人數(shù)的一半作為訓(xùn)練樣本集,另一半作為測試樣本集.
表1 數(shù)據(jù)集簡介Table 1 Data sets introduction
VIPeR數(shù)據(jù)集每個行人采集2個圖像,所得圖像特點是視角和光照多樣.將數(shù)據(jù)集隨機均分成各316個行人的分?jǐn)?shù)據(jù)集,一個用于訓(xùn)練,一個用于測試.PKU-Reid數(shù)據(jù)集包含從兩個分離的相機視圖中捕獲的1 824幅圖像,每個相機針對1個行人從8個不同方向各捕捉1幅圖像,即每個行人采集16個圖像.該數(shù)據(jù)集是第1個從8個方向捕捉人的外貌的數(shù)據(jù)集.同樣,將該數(shù)據(jù)集隨機均分為一個包含57個人用于培訓(xùn)和一個包含57個人用于測試的子數(shù)據(jù)集.?dāng)?shù)據(jù)集i-LIDS-VID由300個不同個體的600個圖像序列組成,每個人有一對來自兩個攝像機視圖的圖像序列.每個圖像序列的長度為23~192幀,平均約為73幀.?dāng)?shù)據(jù)集i-LIDS-VID非常具有挑戰(zhàn)性,因為行人服裝相似,攝像機視圖之間的燈光和視角變化,雜亂的背景和隨機遮擋.訓(xùn)練子集是為學(xué)習(xí)不同特征的核矩陣,而測試子集是計算不同攝像機中一對行人樣本的相似性.計算 CMC 曲線時,為使實驗結(jié)果穩(wěn)定且可靠,取10次實驗的平均識別率作為最后結(jié)果.
為驗證算法中HSV空間的有效性,采用與LAB顏色空間進行對比.先將圖像轉(zhuǎn)化為LAB空間,再進行相應(yīng)的紋理特征提取,最后在VIPeR、PKU-Reid和i-LIDS-VID數(shù)據(jù)集分別進行實驗,實驗結(jié)果如表2.由表2可見,在 VIPeR數(shù)據(jù)集上采用HSV顏色空間的識別結(jié)果rank1要比LAB顏色空間高13.51%;在 PKU-Reid數(shù)據(jù)集上采用HSV顏色空間的識別結(jié)果rank1要比LAB顏色空間高7.02%;在i-LIDS-VID數(shù)據(jù)集上采用HSV顏色空間的識別結(jié)果rank1要比LAB顏色空間高8.50%.可見,采用HSV顏色空間的識別結(jié)果在3個數(shù)據(jù)集中都有最佳識別率.在 3個數(shù)據(jù)集上對比采用HSV顏色空間和采用LAB顏色空間進行識別時,所得CMC曲線如圖2.由圖2(a)可見,在數(shù)據(jù)集VIPeR上,使用HSV空間的整體重識別效果要比LAB空間的好.由圖2(b)可見,在數(shù)據(jù)集PKU Reid上,HSV空間的重識別率要比LAB空間收斂的快且效果好.由圖2(c)可見,在數(shù)據(jù)集i-LIDS-VID上使用HSV空間的整體重識別效果比LAB空間的好.
表2 在VIPeR、PKU-Reid和PKU-Reid數(shù)據(jù)集上的識別率Table 2 The recognition rate on the data sets of VIPeR, PKU-Reid and PKU-Reid %
圖2 不同數(shù)據(jù)集的累積匹配分?jǐn)?shù)變化曲線Fig.2 (Color online) Cumulative matching score change curves for different data sets
為驗證本研究算法均衡化的有效性,通過實驗對比多種特征在均衡化前后的識別率.由于在CMC曲線中rank1最能體現(xiàn)重識別的好壞,故在此選擇rank1進行比較,實驗在數(shù)據(jù)集VIPeR上進行,結(jié)果如表3.
表3 數(shù)據(jù)集VIPeR上不同特征在 均衡化前后識別率對比Table 3 Comparison of recognition rates before and after equalization of different features on data set VIPeR %
從表3可見,無論采用哪種特征,對圖像進行均衡化后,識別率都會提高,這證明均衡化可有效提高重識別率.
為驗證本研究所提出的行人特征及均衡化的有效性,采用文獻[3]和LOMO特征[5]與本研究所述特征在不同數(shù)據(jù)集上進行對比.首先對圖像進行3通道均衡化取小者,然后用提取紋理特征的方法提高重識別率.在VIPeR、PKU-Reid和i-LIDS-VID數(shù)據(jù)集上分別進行實驗,結(jié)果如表4.從表4可見,本研究采用的先對圖像進行均衡化,再提取紋理特征的方法,對文獻[3]的特征重識別率提高顯著.相較于采用LOMO特征,采用本研究方法的重識別率也有所提高:在數(shù)據(jù)集VIPeR上重識別率rank1提高了0.28%;在數(shù)據(jù)集PKU-Reid上重識別率rank1提高了1.75%;在數(shù)據(jù)集i-LIDS-VID上重識別率rank1提高了0.20%,從而驗證了本方法的有效性.
表4 在VIPeR、PKU-Reid和i-LIDS-VID數(shù)據(jù)集上的識別率Table 4 The recognition rate on the data sets of VIPeR, PKU-Reid and i-LIDS-VID %
本研究只考慮了短時間內(nèi),行人的外觀和行為沒有發(fā)生巨大變化的情況.為增強行人目標(biāo)與背景的區(qū)分度,對行人圖像先進行了直方圖均衡化,然后提取相應(yīng)的紋理特征,使其紋理特征能較好地描述行人,提高了識別結(jié)果.研究結(jié)果證明,均衡化有助于提高重識別率.但在現(xiàn)實生活中,若要很好地實現(xiàn)跨攝像頭的行人重識別,進而完成安全且智能的城市建設(shè),則需提取更細致的行人特征,研究更有判別力的距離度量,這也是今后的研究熱點.