徐同文,白宗文*,楊延寧
(1.延安大學(xué)物理與電子信息學(xué)院;2.陜西省能源大數(shù)據(jù)智能處理省市共建重點(diǎn)實(shí)驗(yàn)室,陜西延安716000)
行人再識(shí)別[1,2](Person Re-identification,ReID)是指在無(wú)重疊視域攝像機(jī)網(wǎng)絡(luò)中,對(duì)同一個(gè)行人目標(biāo)進(jìn)行匹配跟蹤。因此,行人再識(shí)別在大型場(chǎng)所的安防監(jiān)控管理上有非常廣泛的應(yīng)用前景。在不同攝像機(jī)拍攝的海量視頻中,對(duì)同一個(gè)目標(biāo)進(jìn)行人工跟蹤管理,不僅耗費(fèi)大量的時(shí)間,而且很有可能造成目標(biāo)跟蹤失敗。行人再識(shí)別就是在沒(méi)有人參與的情況下對(duì)同一個(gè)目標(biāo)進(jìn)行跨攝像機(jī)跟蹤。但是行人的非剛性姿態(tài)、不同光照以及背景噪聲等條件下攝像機(jī)所采集圖像的差異性,這都對(duì)行人再識(shí)別研究提出了嚴(yán)峻的挑戰(zhàn),同時(shí)也是當(dāng)前本領(lǐng)域的熱點(diǎn)和難點(diǎn)問(wèn)題。
深度學(xué)習(xí)方法是當(dāng)前人工智能研究熱點(diǎn)之一,雖然深度學(xué)習(xí)在行人再識(shí)別中取得了較高的識(shí)別精度,但是其模型需要大量的訓(xùn)練和測(cè)試樣本,而且學(xué)習(xí)出的模型泛化能力也有一定限制。如何學(xué)習(xí)出一個(gè)有效的度量矩陣,也是當(dāng)前研究者的一個(gè)重要熱點(diǎn)。KISS算法是由Kostinger等人[3]提出的基于貝葉斯概率正負(fù)樣本對(duì)的度量算法。由于算法步驟簡(jiǎn)單、學(xué)習(xí)出的馬氏距離度量矩陣有效而且算法精度較高,因此KISS算法是當(dāng)前行人再識(shí)別中常用的經(jīng)典算法之一。宋麗麗等人[4]認(rèn)為KISS算法的模型參數(shù)估計(jì)容易出現(xiàn)過(guò)擬合現(xiàn)象,因而提出對(duì)樣本進(jìn)行重采樣,增強(qiáng)模型的泛化能力,提高KISS算法的精度,但是重采樣過(guò)程有些復(fù)雜。Liao等人[5]認(rèn)為使用PCA對(duì)特征向量降維影響了KISS算法中的半正定矩陣的學(xué)習(xí),因此提出了把降維嵌入到度量矩陣的學(xué)習(xí)中去,在學(xué)習(xí)半正定矩陣的同時(shí)學(xué)習(xí)出一個(gè)降維矩陣,結(jié)果表明改進(jìn)后的算法精度優(yōu)于KISS算法。Tao等人[6]認(rèn)為KISS算法過(guò)高的估計(jì)了半正定矩陣的特征值,因此提出DR-KISS對(duì)特征值進(jìn)行正則化。齊美彬等人[7]認(rèn)為,在核空間中使用KISS算法,可以有效的解決特征向量數(shù)據(jù)的非線性,實(shí)驗(yàn)結(jié)果表明把特征向量映射到核空間中,再使用KISS算法可以大大增加了算法的精度,取得了很好的效果。
但是在核空間中,KISS算法只用了兩個(gè)向量的差來(lái)學(xué)習(xí)半正定矩陣,并沒(méi)有把向量的有效信息全部包含進(jìn)來(lái),兩個(gè)向量的和[8]同樣也可以表示兩個(gè)向量的相似性,因此本文在學(xué)習(xí)KISS算法的半正定矩陣時(shí)把兩個(gè)向量的和信息也加入進(jìn)來(lái),實(shí)驗(yàn)結(jié)果表明使用兩個(gè)向量的和向量和差向量學(xué)習(xí)出的半正定矩陣包含更多的信息,可以有效的用來(lái)計(jì)算兩個(gè)向量的相似度,提高KISS算法精度。
kKISS算法是文獻(xiàn)[7]提出的,它首先把行人的特征向量使用核函數(shù)從低維空間映射到高維空間,以此增加向量的線性可分性,然后在核空間中使用KISS算法進(jìn)行向量間的相似度度量。
1.1.1 核空間映射
假設(shè)vi是原始空間里面的一個(gè)特征向量,使用核函數(shù)φ映射到核空間即高維空間中,得到高維空間中的特征表達(dá)ki。使用核函數(shù)得到高維空間的特征表達(dá)式為
ki=[φ(v1,vi)],φ(v2,vi),…φ(vn,vi)],
其中v1,v2,…vn是低維空間里面的n個(gè)樣本向量。核函數(shù)φ為RBF卡方指數(shù)核函數(shù)。
1.1.2 KISS算法
Kostinger等人[3]為引出馬氏距離中度量矩陣的學(xué)習(xí)方式,從統(tǒng)計(jì)學(xué)的角度提出了KISS算法。
假設(shè)xi和xj分別代表描述行人的兩個(gè)特征向量,兩個(gè)向量的差值表示為xij=xi-xj。HI表示兩個(gè)特征向量是相似的,HE表示這兩個(gè)特征向量不相似,則KISS算法定義描述兩個(gè)向量的相似度值用出現(xiàn)這兩種情況下的概率值的比值對(duì)數(shù)來(lái)表示:
(1)
從公式看出,如果δ(xi,xj)的值越大,就說(shuō)明HI出現(xiàn)的情況可能性越大也就是這兩個(gè)特征向量越相似,反過(guò)來(lái),如果δ(xi,xj)的值越小,就說(shuō)明HE出現(xiàn)的情況可能性越大這兩個(gè)向量越不相似。算法假設(shè)xij符合高斯分布,那么δ(xi,xj)可以重寫(xiě)為:
(2)
忽略上述公式的常數(shù)項(xiàng),可以得到:
(3)
(4)
(5)
NI和NE分別為情況HI和HE下訓(xùn)練集樣本數(shù)量。
圖1 兩維空間中向量示意圖
對(duì)于一個(gè)圖像對(duì)(xi,yi),xi,yi分別表示描述行人的特征向量。LSSL算法[8]定義:兩個(gè)向量的差為e=x-y,向量的和為m=x+y。如圖1所示,圖像對(duì)(x1,y1)是一對(duì)相似的向量,(x2,y3)是一對(duì)非相似的向量。從圖上發(fā)現(xiàn),相似對(duì)(x1,y1)的差值?!琫11‖很小,而和值模‖m11‖大。同時(shí),非相似對(duì)(x2,y3)的差值?!琫23‖大,而和值模‖m23‖小。因此,如果把兩個(gè)向量的和也用來(lái)表示這兩個(gè)向量的相似性,這樣可以得到更多的信息。
LSSL算法定義兩個(gè)向量的相似性度量值為:r(x,y)=mTAm-λeTBe,其中A、B為兩個(gè)向量的和向量和差向量的協(xié)方差矩陣,λ是常數(shù)。
根據(jù)KISS算法,可以得出
對(duì)于一個(gè)相似對(duì)(xi,yi),i=1,2,…,N,有xi=ui+εil和yi=ui+εi2,其中ui表示行人真實(shí)的特征向量表示,εi1、εi2分別表示為對(duì)攝像機(jī)拍攝到圖像提取特征向量對(duì)真實(shí)的特征向量的偏差。
于是有eii=εi1-εi2,mii=2ui+εi1+εi2。
因?yàn)閡i,εi1,εi2是分布是獨(dú)立的。因此可以得出
cov(e,e)=2Sε,cov(m,m)=4Su+2Sε,因此有
P(m|Hs)=N(0,∑mS),P(e|Hs)=N(0,∑eS),
其中∑mS=4Su+2Sε,∑eS=2Sε。
對(duì)于非相似對(duì)(xi,yi),i≠j,i,j=1,2,…,N,xi=ui+εi1和yj=uj+εj2,得出
eij=ui-uj+εi1-εj2,mij=ui+uj+εi1+εj2,
其中ui,uj,εi1,εi2是獨(dú)立分布的,因此得出
cov(e,e)=2Su+2Sε,cov(m,m)=2Su+2Sε。
因此,P(m|HD)=N(0,∑mD),
P(e|HD)=N(0,∑eD),
其中∑mD=2Su+2Sε,∑eD=2Su+2Sε,
觀察以上兩式和相似對(duì)的和向量和差向量的協(xié)方差矩陣
∑mS=4Su+2Sε,∑eS=2Sε,可以得出
EmD+EeD=EmS+EeS和EmD=EeD,
令∑=(∑mS+∑eS)/2=∑mD=∑eD,
因此KISS算法中的M矩陣可以重寫(xiě)為
從上面的公式討論可以看出,半正定矩陣M可以由向量對(duì)的和向量和差向量聯(lián)合學(xué)習(xí)出,這比KISS算法中單獨(dú)使用兩個(gè)向量的差向量學(xué)習(xí)出包含的信息更多,因此聯(lián)合學(xué)習(xí)出的M矩陣用于計(jì)算向量的相似度時(shí)更精確。
在進(jìn)行向量間的相似性度量之前,需要把圖像進(jìn)行特征描述,使行人圖像轉(zhuǎn)換成向量的形式。本文使用RGS、YCbCr、HSI、HSV四種顏色特征進(jìn)行行人的特征表達(dá),首先把圖像水平6等分,在每一個(gè)等分條帶中每一個(gè)顏色通道提取16 bin的顏色直方圖。一種顏色空間有三個(gè)通道,因此提取出的特征向量維數(shù)為16×6×3=288維。另外,本文還使用HOG特征進(jìn)行行人的外觀形狀描述,把顏色特征和HOG特征串聯(lián)融合起來(lái)就得到了行人最終的特征表達(dá)[7]。
本文實(shí)驗(yàn)在Intel(R)CoreTM i5-7500 CPU,頻率3.40 GHz,內(nèi)存4.00 Gbyte Matlab 2014a基礎(chǔ)配置環(huán)境下進(jìn)行。
VIPeR數(shù)據(jù)集是行人再識(shí)別算法測(cè)試中最常用的公共數(shù)據(jù)集之一。它是由兩個(gè)攝像機(jī)拍攝到632個(gè)行人共1264張圖像組成的。每一個(gè)行人的圖像像素為128×48。在算法測(cè)試中,隨機(jī)抽選316個(gè)行人即632張圖像做訓(xùn)練集,剩下的632張圖像做測(cè)試集。CUHK01也是由兩個(gè)攝像機(jī)采集到圖像組成的。一共有971個(gè)行人,每一個(gè)行人圖像的像素為160×60。在測(cè)試中,隨機(jī)選取485個(gè)行人的圖像做訓(xùn)練集,剩下的486個(gè)行人的圖像做測(cè)試集。
本文采用累積匹配特性(CMC)曲線[3]作為評(píng)價(jià)量化算法精度的標(biāo)準(zhǔn)。
本文提出的方法與當(dāng)前的一些算法在兩個(gè)公共測(cè)試集上VIPeR和CUHK01的結(jié)果對(duì)比如下。如圖2所示,在VIPeR數(shù)據(jù)集上本文算法和五種算法(kKISS、SCNCD、LMNN、ITML、KISSME)的CMC曲線圖,從圖中可以看出,本文提出的方法rank1的精度為37.03%,高于其他算法,并且本文算法精度從rank1到rank15的精度一直比其他算法高。為進(jìn)一步比較實(shí)驗(yàn)結(jié)果,如表1所示,列出本文在rank 1、rank 5、rank 10、rank 15、rank 20上與其他算法的精度對(duì)比,從表中可以看出,本文的方法在rank1這個(gè)重要指標(biāo)上比kKISS算法高出3.04%,這說(shuō)明,在學(xué)習(xí)半正定矩陣時(shí),充分運(yùn)用到了兩個(gè)向量的和來(lái)補(bǔ)充表征兩個(gè)向量的相似度可以得到更多的向量信息,學(xué)習(xí)出的半正定矩陣更具有可識(shí)別性。
圖2 本文算法與當(dāng)前算法在VIPeR上的比較。rank 1精度標(biāo)記在算法名稱(chēng)前。
同樣如表2所示,為本文提出的算法與其它算法在CUHK01數(shù)據(jù)集上的精度對(duì)比。從表中看出,本文的算法精度在rank 1至rank 20上達(dá)到了最優(yōu)的識(shí)別精度,在rank 1精度上比kKISS算法提高了2.47%。這樣同樣驗(yàn)證了本文提出的半正定矩陣比kKISS算法學(xué)習(xí)出的矩陣富含更多的信息,更具有有效性。
表1 本文算法與當(dāng)前算法在VIPeR上的識(shí)別精確比較(%)
表2 本文算法與當(dāng)前算法在CUHK01上的識(shí)別精度比較(%)
本文提出了基于核空間中改進(jìn)的KISS行人再識(shí)別算法。針對(duì)KISS算法計(jì)算半正定矩陣只用到兩個(gè)向量的差向量而包含信息有限的問(wèn)題,提出在學(xué)習(xí)半定矩陣時(shí)同時(shí)使用向量的差向量和和向量,這樣學(xué)習(xí)出的矩陣包含的信息更多,計(jì)算出的相似度更精確,兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文所提出的算法精度超過(guò)了多種常用算法的精度,并且rank1精度優(yōu)于kKISS,驗(yàn)證了本文算法的有效性。