王亞東,張榮,蔣檜慧,郭立君
(寧波大學(xué)信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
引入垂直全局表觀約束的中層特征行人再識別
王亞東,張榮,蔣檜慧,郭立君
(寧波大學(xué)信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
行人再識別問題中,包含語義信息的中層特征能夠提供更強(qiáng)的判別力。由于中層特征也采用局部匹配方式,與底層特征一樣存在由于不同行人部分表觀區(qū)域比較相似而產(chǎn)生誤匹配問題??紤]到行人幾乎都處于站立姿態(tài),同一行人在垂直方向上的表觀序列比不同行人的更相似,提出了在中層特征的基礎(chǔ)上引入行人垂直全局表觀約束,并融合底層稠密塊匹配的識別方法。實驗結(jié)果表明,算法在最具挑戰(zhàn)的公用VIPeR數(shù)據(jù)庫和CUHK01數(shù)據(jù)庫上,均取得了比現(xiàn)有方法更高的命中率。
行人再識別;中層特征;垂直表觀約束
行人再識別[1,2]是指在非重疊多攝像頭監(jiān)控系統(tǒng)中,判別一個視頻中出現(xiàn)的行人是否與另一個視頻中的行人為同一個人。該技術(shù)在智能視頻監(jiān)控領(lǐng)域有著重要的應(yīng)用,但如今仍存在許多問題難以克服。如圖 1所示,同一列圖像中的行人為同一行人,他們在不同攝像頭中會受到如光照不同、視角變換、姿勢變化、部分遮擋等因素的影響[3],導(dǎo)致同一行人的不同圖像在視覺表觀上差異較大,在進(jìn)行再識別時容易產(chǎn)生錯誤匹配。建立一個對上述影響因素具有頑健性且命中率高的行人再識別方法,已成為該領(lǐng)域研究的一個熱點。
圖1 CUHK01數(shù)據(jù)庫中的行人圖像
經(jīng)過對近幾年研究的分析,本文所提方法主要考慮以下兩個方面。
(1)在現(xiàn)有的研究中,底層特征在行人再識別領(lǐng)域已經(jīng)取得了較好的效果。如參考文獻(xiàn)[4-6]等利用底層稠密塊匹配,計算稠密塊的突出性作為匹配的約束完成行人再識別,在識別結(jié)果上相比其他底層特征識別方法有了較大的提升。考慮到底層特征缺乏語義信息,在行人再識別任務(wù)中無法兼顧準(zhǔn)確性和不變性,研究人員提出了基于中層特征的識別方法。中層特征在底層特征的基礎(chǔ)上構(gòu)建,包含一定的語義信息,具有兼顧準(zhǔn)確性和局部改變不變性等特點??紤]到底層特征與中層特征各自的特點及互補(bǔ)性,本文提出融合底層稠密塊匹配及中層特征的方法,以取得更好的識別效果。
(2)由于底層特征與中層特征都采用局部特征匹配方式,均存在由于不同行人部分表觀區(qū)域比較相似而產(chǎn)生誤匹配問題。通過對行人圖像的觀察,可以發(fā)現(xiàn)行人幾乎都處于站立姿勢,而且相同行人在垂直方向上的全局表觀信息比不同行人的更加相似。如圖2所示,圖2(a)、圖2(b)為同一行人,圖2(b)、圖2(c)為不同行人。這3張圖像的部分區(qū)域比較相似,如每幅圖像中方框標(biāo)記塊。從圖2中可以發(fā)現(xiàn),同一行人圖2(a)、圖2 (b)標(biāo)記塊各自對應(yīng)的垂直表觀信息(左側(cè)一列)比不同行人圖2(b)、圖2(c)標(biāo)記塊各自對應(yīng)的垂直表觀信息更加相似。因此,提出了引入垂直全局表觀約束的中層特征行人再識別方法,該方法在考慮兩幅行人圖像對中層特征匹配的同時,引入了中層特征在各自行人圖像中垂直方向上的全局表觀約束,并融合了取得不錯效果的底層稠密塊匹配方法,從而有效地提高了再識別的命中率。
圖2 稠密塊表觀信息序列
最近目標(biāo)行人再識別的工作主要集中在兩個方面:特征的設(shè)計與選擇、度量學(xué)習(xí)。
在特征的設(shè)計與選擇方面,較早的方法是采用如顏色、紋理等全局特征直接進(jìn)行再識別,但這類方法在視角及姿態(tài)變化的行人圖像上識別效率并不是很高。因此,一些研究提出了將行人圖像劃分為塊,利用塊之間的相似性來進(jìn)行匹配的方法。如Farenzena等人[7]提出了累積對稱局部特征(symmetry-driven accumulation of local feature,SDALF)的方法,主要利用了行人圖像處理視圖中的對稱性變化。Cheng等人[8]利用圖像結(jié)構(gòu)來估計行人結(jié)構(gòu),并根據(jù)不同的身體部位來計算視覺特征,以應(yīng)對姿勢變化。參考文獻(xiàn)[4]中將行人的圖像平均劃分為多個塊并提取各塊的顏色特征和SIFT特征,然后利用無監(jiān)督的方法學(xué)習(xí)各塊的顯著性特征并進(jìn)行識別。另外,Prosser等人[9]將行人再識別問題轉(zhuǎn)化為排名問題,利用改進(jìn)的SVM算法 RankSVM來學(xué)習(xí)相似的行人對,也取得了不錯的效果。但是,隨著研究的深入,底層特征缺乏語義信息、判別能力比較弱等缺點逐漸顯露出來,而近幾年在一些視覺模型上中層特征得到了許多應(yīng)用。如Singh等人[10]和Jain等人[11]通過塊聚類、純度測量和分?jǐn)?shù)檢測來學(xué)習(xí)中層特征用于場景檢測和動作識別??紤]到中層特征出色的效果,最近也被用于行人再識別領(lǐng)域,Layne等人[12]提出了一種對中級語義屬性的選擇和加權(quán)的方法來描述行人。Song等人[13]利用行人的屬性來修剪主題模型,并通過貝葉斯決策來進(jìn)行行人匹配,然而學(xué)習(xí)行人的屬性需要人工標(biāo)注圖像的屬性標(biāo)簽,因為每個行人的圖像可能有超過50個屬性,所以標(biāo)記匹配行人標(biāo)簽的代價是非常昂貴的。Zhao等人[14]提出來一種自動學(xué)習(xí)具有判別性的中層過濾器的方法,這種方法不需要對行人屬性進(jìn)行標(biāo)注,通過累計中層過濾器相應(yīng)的匹配得分進(jìn)行再識別,并取得了顯著的效果。但該方法中的行人匹配建立在局部圖像塊對每個中層過濾器響應(yīng)上,由于在計算中層過濾器響應(yīng)度的匹配得分時只考慮了人體的基本結(jié)構(gòu)約束(如頭部、軀干、腿部等),這會使得只考慮對應(yīng)的局部區(qū)域內(nèi)中層過濾器響應(yīng)度匹配得分時,兩個行人相似度很高。但實際上,相同區(qū)域內(nèi)對同一過濾器得分相似的圖像塊不一定意味著是同一行人,還應(yīng)該考慮這樣的圖像塊在各自人體的全局表觀約束上是否一致,即此圖像在各自圖像中垂直表觀序列是否相似。同樣地,參考文獻(xiàn)[15,16]主要運(yùn)用塊或像素的約束關(guān)系來確定人體部位關(guān)系,依然會由于不同行人的部分表觀比較相似而導(dǎo)致匹配得分較高,最終陷入局部匹配而產(chǎn)生誤判。本文考慮到行人一般處于站立姿態(tài),同一行人的不同圖像在垂直方向上的全局表觀信息較為相似,將在已取得良好效果的中層特征的基礎(chǔ)上引入垂直全局表觀信息,對原中層特征匹配得分的有效性予以約束,從而在一定程度上避免相似行人誤匹配的情況發(fā)生。
在度量學(xué)習(xí)方面,Zheng等人[17]提出了概率相對距離比較(person reidentification as a relative distance comparison,PRDC)模型,該算法通過對同一個人的兩幅圖像計算的距離較小的概率大于不同人計算距離較小的概率來進(jìn)行目標(biāo)行人再識別。Li等人[18]開發(fā)了一個局部自適應(yīng)決策函數(shù)(learning locally-adaptive decision functions,LADF)模型,通過聯(lián)合距離度量和局部自適應(yīng)閾值規(guī)則,取得了良好的效果。
該部分將分為3個階段介紹引入垂直全局表觀約束的中層特征行人再識別方法。首先,介紹學(xué)習(xí)中層特征的過程,中層特征是利用底層稠密塊構(gòu)建的,主要包括選取判別能力和泛化能力較強(qiáng)的稠密塊(以下簡稱有效塊),對選取的有效塊聚類以及基于聚類結(jié)果訓(xùn)練中層過濾器3個步驟。其次,計算垂直全局表觀約束,以對中層特征匹配得分的有效性予以約束。最后,利用加入垂直全局表觀約束的中層特征匹配得分,融合底層稠密塊匹配得分進(jìn)行行人再識別。
3.1 學(xué)習(xí)中層過濾器
中層過濾器是在底層特征上構(gòu)建的,通過聚類和訓(xùn)練所獲得的能夠描述一定視覺信息的過濾器。而行人圖像在各中層過濾器的響應(yīng)度將組成該行人圖像的中層特征。以下將介紹如何學(xué)習(xí)中層過濾器并計算行人的中層特征。
3.1.1 有效塊的選取
訓(xùn)練一個有效而又可靠的中層過濾器非常重要的一點是選取合理的樣本,即選取具有辨別能力和泛化能力的稠密塊。通過實驗驗證,這種有效塊的一個特點是在圖像庫中擁有相似視覺信息的塊不是太多也不是太少,因此能夠代表一類行人所特有的視覺信息。為了選取這種有效塊,將計算每個稠密塊在圖像庫中的最近鄰稠密塊所組成的集合,并計算該稠密塊與其最近鄰稠密塊所組成的集合中前Np個稠密塊的距離和。較小的距離和說明此稠密塊在圖像庫中存在較多與其相似的稠密塊,屬于最普通、最常見的塊,這種稠密塊在行人再識別中的辨別能力較弱。相反較大的距離和說明此稠密塊在圖像庫中存在較少與其相似的稠密塊,盡管這樣的稠密塊由于稀少可能使其辨別能力較強(qiáng),但這種稠密塊的泛化能力較弱;合適的距離和說明此稠密塊在圖像庫中存在部分與其相似的稠密塊,擁有一定的辨別能力和泛化能力,能夠有效地描述圖像庫中一組行人所共有的表觀屬性。因此,可以利用此距離和作為得分來表示稠密塊的辨別能力和泛化能力,具體符號約定如下。
那么,一個稠密塊辨別能力和泛化能力的得分可以表示如下:
為了方便后續(xù)實驗,將對得分進(jìn)行量化處理??紤]到行人具有一定的結(jié)構(gòu)性,為了防止行人不同部位的稠密塊由于較為相似混合在一起,本文首先將行人圖像重疊地分為 Ny層,每層與相鄰兩層各重疊一行,如圖3所示。然后,根據(jù)式(2)得到的稠密塊得分把各層的稠密塊平均量化為Nl個等級。一個稠密塊所處的l等級代表著此稠密塊的辨別能力和泛化能力,l等級越大,辨別能力越強(qiáng),泛化能力越弱;相反 l等級越小,辨別能力越弱,泛化能力越強(qiáng)。
圖3 行人圖像垂直方向重疊分層
具體計算式如下:
3.1.2 有效塊的聚類
一個性能良好的中層過濾器是根據(jù)一組描述特有視覺信息的稠密塊訓(xùn)練獲得的。雖然根據(jù)對每一層有效塊進(jìn)行量化分級,但是在每一層的每一級內(nèi)包含不同視覺信息的有效塊依然混合在一起。因此將對每一層內(nèi)每一級的有效塊進(jìn)行聚類,盡量使含有相同視覺信息的稠密塊聚在一起。這里采用聚類粒度從粗到細(xì)來構(gòu)建層次樹[19],對層次樹進(jìn)行修剪以找到相關(guān)有效塊集合。那么,對于一個分級內(nèi)的有效塊進(jìn)行聚類的具體方法是,由式(5)得到的一個分級的有效塊集合作為根節(jié)點,建立一個子節(jié)點為Ot、最大深度為 Dt的層次聚類樹[7]。為了學(xué)習(xí)到一個能描述特定的視覺信息,并產(chǎn)生緊湊響應(yīng)的過濾器,將只保留葉子節(jié)點,并設(shè)置閾值范圍對葉子節(jié)點進(jìn)行裁剪,當(dāng)葉子節(jié)點中的有效塊數(shù)目處于 Tmax與 Tmin之間,將作為聚類結(jié)果,記作表示聚類的節(jié)點數(shù)目。在本文實驗中 Ot=4,Dt=10。
3.1.3 訓(xùn)練SVM中層過濾器
獲取到所需的聚類結(jié)果后,目標(biāo)是訓(xùn)練出能從行人庫中辨別出同一行人圖像,并對因攝像頭變換而引起的姿勢、視角和亮度變化有頑健性的過濾器。因此,訓(xùn)練準(zhǔn)確描述一個聚類結(jié)果Nodek所表示的視覺信息的過濾器,以此聚類結(jié)果中的所有稠密塊作為正樣本,從與此聚類結(jié)果同一等級的其他聚類結(jié)果中隨機(jī)抽樣的稠密塊作為負(fù)樣本。為了確保不同視角的同一行人的圖像對過濾器的響應(yīng)程度保持一致,僅僅依靠上述正負(fù)樣本還不能學(xué)習(xí)到具有較強(qiáng)頑健性和較強(qiáng)判別性的過濾器,因此將手工標(biāo)注此聚類結(jié)果中所有稠密塊對應(yīng)同一行人不同圖像的匹配塊作為輔助正樣本,這樣可以使得同一行人的不同圖像對過濾器的響應(yīng)程度保持一致,另外將此聚類結(jié)果中所有稠密塊所匹配到相似行人(利用參考文獻(xiàn)[4]的算法)的稠密塊作為輔助負(fù)樣本可以在一定程度上避免相似行人對此過濾器擁有較高的響應(yīng)度。那么,利用構(gòu)建好的樣本訓(xùn)練一個線性 SVM過濾器由于 Nodek屬于第 yk層,所以相應(yīng)的 SVM 過濾器將被約束在這一層,因此,聚類結(jié)果 Nodek對應(yīng)的 SVM過濾器可以表示為行人對中層過濾器的響應(yīng)度是通過 max-pooling技術(shù)計算該過濾器所屬層對應(yīng)的所有稠密塊獲得的。A攝像頭下第u幅圖像(即行人 u)對每一個過濾器的響應(yīng)度記為并對其進(jìn)行 L2范數(shù)歸一化和稀疏化處理后所得到的作為行人u的中層過濾器響應(yīng)度,即行人u的中層特征。
行人u與行人v的中層特征匹配得分可以定義為:
3.2 垂直全局表觀約束
雖然中層過濾器考慮到了一定的空間約束信息,即在過濾器上加入了所屬層的空間限制,但這種約束是對過濾器進(jìn)行了局部空間約束,當(dāng)不同行人圖像的部分區(qū)域比較相似時,會由于部分過濾器響應(yīng)度的匹配得分較高而產(chǎn)生錯誤匹配。考慮到行人在攝像頭中一般處于站立姿態(tài),同一行人的不同圖像在垂直方向上的表觀信息更加相似。因此,將在原中層特征的基礎(chǔ)上引入垂直全局表觀約束,利用同一行人的不同圖像在垂直方向上的表觀信息更加相似這一特性,對中層特征匹配得分的有效性施以約束,在一定程度上解決相似行人誤匹配的問題。
一個行人的中層過濾器響應(yīng)度是利用max-pooling技術(shù)進(jìn)行計算的。如圖4所示,以計算行人對第一個過濾器的響應(yīng)度為例。圖4中行人u為被稠密分塊的簡易圖,稠密塊為白色的表示背景,其他顏色表示前景。被黑色框圍上的前3行稠密塊為第一層,那么計算第一層內(nèi)所有的稠密塊與第一個中層過濾器(此過濾器 yk=1)的響應(yīng)度,以稠密塊中的最大響應(yīng)度作為行人的中層過濾器響應(yīng)度,對應(yīng)的稠密塊為最大響應(yīng)度稠密塊,即圖4中行人u第一行中顏色最深的稠密塊。由圖2所示,不同行人的表觀中部分區(qū)域較為相似,導(dǎo)致對同一個描述這一視覺信息的中層過濾器都擁有較高的響應(yīng)度,但是不同行人在垂直方向上的表觀信息存在差異,可以利用這種差異進(jìn)行約束。為了抵抗部分遮擋、姿勢變化、光線、衣服皺紋等因素對表觀信息的影響,對圖 4中最大響應(yīng)度稠密塊在自身前景圖像的每一行都搜索一個與其最相似的稠密塊,即圖4中每行畫斜線的稠密塊,這些畫斜線的稠密塊所組成的序列即圖2中的垂直表觀序列。對應(yīng)的,此最大響應(yīng)度稠密塊與這些畫斜線的稠密塊的距離所組成的序列,稱為此最大響應(yīng)度稠密塊的表觀信息序列。
圖4 中層過濾器響應(yīng)度及表觀信息序列計算流程
同理,另一行人 v對上述同一中層過濾器的最大響應(yīng)度稠密塊為,那么其垂直表觀信息序列定義如下:
當(dāng)這兩個最大響應(yīng)度稠密塊來源于同一個行人的不同圖像時,那么在各自圖像中的垂直表觀信息更相似,即垂直表觀信息序列之間的歐氏距離更小。為了將這種垂直表觀信息的相似性作為對應(yīng)中層過濾器響應(yīng)度匹配有效性的約束,這里將表觀信息差異轉(zhuǎn)化為權(quán)值問題來量化處理,計算方式如下:
由于中層過濾器響應(yīng)度匹配得分越高,兩行人越可能是同一行人,為了與之一致,將權(quán)值做如下轉(zhuǎn)化:
經(jīng)過轉(zhuǎn)化后,兩個最大響應(yīng)度稠密塊在各自圖像中的垂直表觀信息越相似,對應(yīng)中層過濾器響應(yīng)度匹配得分給予越大的權(quán)值'w,與兩行人對此中層過濾器響應(yīng)度匹配計算出的得分越大保持一致。
引入垂直全局表觀約束的中層特征匹配得分計算流程如圖5所示,行人圖像u、v是圖像庫中原始圖像,為了避免背景對識別的影響,采用了Yang等人[20]的姿勢評估算法,較快地從圖像中提取粗略的前景(人體部分)。然后,利用訓(xùn)練好的過濾器計算行人的中層過濾器響應(yīng)度,并計算對應(yīng)最大響應(yīng)度稠密塊的表觀信息距離序列。最后,將表觀信息距離序列的相似度作為響應(yīng)度匹配的約束,從而得到中層特征匹配得分。具體計算式為:
3.3 融合匹配得分
底層稠密塊匹配方法[4]取得了良好的效果,而且能夠彌補(bǔ)中層特征所丟失的一些信息,融合底層特征與中層特征能起到互補(bǔ)的作用,因此在最終匹配過程中融合底層稠密塊匹配的得分,從而取得更好的識別效果。兩幅圖像的最終匹配得分由底層稠密塊匹配得分和引入垂直表觀全局約束的中層特征得分融合共同決定,得分越高表示兩幅圖像越有可能是同一行人。
底層稠密塊匹配得分的具體計算式如下:
其中, spi表示行人 u、v對應(yīng)的匹配塊之間得分,與表示行人 u、v對應(yīng)的匹配稠密塊, wpi是對應(yīng)的突出性權(quán)重。
那么,最終得分式描述如下:
圖5 中層特征匹配計算流程
本文算法將在兩個公用數(shù)據(jù)庫上進(jìn)行實驗驗證,分別為 VIPeR 和 CUHK01 數(shù)據(jù)庫[2]。VIPeR 數(shù)據(jù)庫是現(xiàn)在用來評估行人再識別最為廣泛的數(shù)據(jù)庫,而CUHK01數(shù)據(jù)庫相比VIPeR數(shù)據(jù)庫擁有更多的圖像。兩個數(shù)據(jù)庫所包含的圖像都是低分辨率,光照、姿態(tài)、背景都有變化,都是極具挑戰(zhàn)性的數(shù)據(jù)庫。實驗結(jié)果將采用標(biāo)準(zhǔn)的累積匹配特征(cumulative matching characteristic,CMC)曲線進(jìn)行評估描述,CMC曲線是指在候選行人庫中檢索目標(biāo)行人,前r個檢索結(jié)果中命中正確匹配結(jié)果的比率。r如果比較小,在實際應(yīng)用中就可以通過人眼進(jìn)行輔助識別出目標(biāo),大大減少人力物力,當(dāng)r=1時,即該算法的真實識別能力。
采用基于稠密塊的特征提取策略,稠密塊定義為塊大小為10 dpi×10 dpi,以步長4個像素點向右或向下移動。在每個稠密塊中的LAB通道中提取32維的顏色直方圖特征和128維的SIFT特征,為了更好地獲得輪廓與細(xì)節(jié)的判別信息,每個通道都進(jìn)行了降采樣(降采樣因子分別為0.5、0.75)。顏色直方圖和SIFT特征通過L2范數(shù)進(jìn)行歸一化處理,最終結(jié)合為672維的特征作為一個稠密塊的特征。
4.1 VIPeR數(shù)據(jù)庫的測試結(jié)果
VIPeR數(shù)據(jù)庫是從兩個不重疊攝像頭在戶外環(huán)境捕獲的包含632個行人的圖像庫,其中每個行人都有兩張不同視角的圖像,且大部分行人的兩幅圖像的視角變化超過了90°。所有的圖像都?xì)w一化到128 dpi×48 dpi。
實驗中為與其他算法進(jìn)行公平的比較,將隨機(jī)選取316個行人圖像(632幅)作為訓(xùn)練集,余下的316個行人作為測試集。測試時,攝像頭A中的圖像先作為查詢庫,攝像頭B中的圖像作為候選行人庫。每個查詢圖像與候選行人庫中的每幅圖像都要匹配,從而得到相應(yīng)的匹配排名。然后,再交換查詢庫和候選行人庫。為獲得穩(wěn)定的識別率,以上產(chǎn)生訓(xùn)練集和測試集的過程將重復(fù)10次,并取10次實驗結(jié)果的平均值作為最終的實驗結(jié)果。
為了充分地驗證本算法的性能,將其與近幾年比較有代表性的算法進(jìn)行了比較,對比算法的實驗結(jié)果采用相關(guān)文獻(xiàn)提供的實驗結(jié)果或文獻(xiàn)中提供的公開代碼進(jìn)行的仿真結(jié)果。圖6是根據(jù)各算法結(jié)果繪制的CMC曲線,表1給出了圖6中各算法在r=1、5、10、20時的匹配率。
圖6 CMC曲線比較(VIPeR)
表1 VIPeR庫各算法部分匹配率比較
從圖6的CMC曲線及表1中可以看出,本文的方法取得最好的識別結(jié)果。其中 SDALF[8]、SalMatch[5]、eSDC[4]及LMF[7]方法為特征設(shè)計方法,本文方法與SDALF及SalMatch[5]相比都有一定的提升,與本方法所融合的底層顯著性稠密塊匹配方法eSDC[4]相比提升了4%左右,與未加入表觀約束的中層特征匹配方法 LMF[7]相比提高了 1%左右。值得注意的是,LMF[7]方法通過與當(dāng)時識別效果最好的方法LADF[18]結(jié)合后rank-1命中率達(dá)到了 43.39%,因此將本文方法與LADF[18]進(jìn)行結(jié)合,可以看到rank-1達(dá)到44.38%,依然高于結(jié)合了LADF[18]的LMF[7]方法,說明垂直全局表觀約束有效地提升了再識別的命中率。對于其他距離度量學(xué)習(xí)方法LF[21]、KISSME[22]、PRDC[23]及PCCA[24]等方法相比本文方法也有較大的提升。
4.2 CUHK01數(shù)據(jù)庫的測試結(jié)果
CUHK01數(shù)據(jù)庫是從兩個不重疊攝像頭在校園環(huán)境捕獲的包含971個行人的圖像庫,每個人在每個攝像頭下都捕獲兩張圖像,共4張圖像。行人的前兩張圖像捕獲行人的正面和背面,行人的后兩張圖像捕獲不同的側(cè)面視角。行人的這4張圖像在視角、姿態(tài)和光照上均有明顯的變化。所有圖像都?xì)w一化到160 dpi×60 dpi。
為了實驗的公平性,實驗中隨機(jī)選取486個行人圖像(1 994幅)作為訓(xùn)練集,剩余485個行人圖像作為測試集,為獲得穩(wěn)定的識別率,測試時,攝像頭A中的圖像先作為查詢庫,攝像頭B中的圖像作為候選行人庫。每個查詢圖像與候選行人庫中的每幅圖像都要匹配,從而得到相應(yīng)的匹配排名。然后,再交換查詢庫和候選行人庫。以上產(chǎn)生訓(xùn)練集和測試集的過程將重復(fù)10次,并取10次實驗結(jié)果的平均值作為最終的實驗結(jié)果。
同樣,為了充分地驗證本算法的性能,將與最近幾年比較有代表性的算法進(jìn)行比較,實現(xiàn)結(jié)果采用文獻(xiàn)給出的結(jié)果,或根據(jù)文獻(xiàn)中提供的公開代碼進(jìn)行的仿真結(jié)果。圖7是根據(jù)各算法的實驗結(jié)果繪制的CMC曲線,表2給出了圖7中各算法在r=1、5、10、20時的命中率。
圖7 CMC曲線比較(CUHK01)
表2 CUHK01庫各算法部分匹配率比較
從圖7的CMC曲線及表2可以看出,本文算法相比其他算法有較明顯的提升。其中SDALF[8]、SalMatch[5]、eSDC[4]及 LMF[7]方法為特征設(shè)計方法,本文方法與SDALF[8]、SalMatch[5]及eSDC[4]等方法相比提升較為明顯,與未加入表觀約束的中層特征匹配方法LMF[7]相比也提高了1%左右,rank-1的命中率達(dá)到了35.85%。對于其他距離度量方法 LMNN[25]、 ITML[25]及 GenericMetric[25]相比都有較大的提升。
從實際應(yīng)用價值角度來看,行人再識別中匹配結(jié)果的排名越靠前,應(yīng)用價值越大,這可用匹配結(jié)果的等級排名來說明。圖8給出了本文算法及LMF算法在CUHK01庫上的可視化等級排名對比結(jié)果,圖8中左邊一列為待識別行人,右邊為識別匹配結(jié)果等級排名,越靠左排名越靠前,其中方框為正確匹配候選目標(biāo)。從圖8中可以看出,本文算法所識別的正確匹配候選目標(biāo)更加靠前,在實際應(yīng)用中具有更高的價值。
圖8 CUHK01庫上的可視化rank排名對比結(jié)果
另外,本文算法在CUHK01上的結(jié)果明顯優(yōu)于 VIPeR,根據(jù)實驗進(jìn)行分析,一個原因是CUHK01所包含的樣本數(shù)量更多,且分辨率稍高于VIPeR數(shù)據(jù)庫,可以訓(xùn)練出更好的中層過濾器。而在實際應(yīng)用中,樣本復(fù)雜性更高且樣本數(shù)量充足,因此本文算法的優(yōu)勢將會更加明顯。
行人再識別是一個實際應(yīng)用價值較高同時具有挑戰(zhàn)性的問題。中層特征擁有底層特征所沒有的語義信息和更好的辨別能力,結(jié)合中層特征和底層特征能起到很好的互補(bǔ)作用。而且現(xiàn)有的底層特征方法和中層特征方法都沒有考慮人體在垂直方向上的全局表觀約束。因此,提出了在中層特征的基礎(chǔ)上引入了垂直全局表觀約束,并融合底層稠密塊特征匹配方法,一定程度上解決相似行人由于局部誤匹配而影響識別效果的問題,提高了行人再識別的命中率。VIPeR和CUHK01這兩個公共數(shù)據(jù)集里的圖像都存在光照變化、行人姿態(tài)變化、視角變化以及遮擋等情況, 但該算法在這兩個數(shù)據(jù)集上的識別效果都比已有算法更優(yōu),驗證了本文算法的有效性,并且有一定的普適性。
[1] VEZZANI R, BALTIERI D, CUCCHIARA R. People reidentification in surveillance and forensics: a survey[J]. ACM Computing Surveys, 2013, 46(2):1-37.
[2] WANG X, ZHAO R. Person re-identification: system design and evaluation overview[M]. Berlin: Springer-Verlag, 2014: 351-370.
[3] 黃凱奇, 陳曉棠, 康運(yùn)鋒, 等. 智能視頻監(jiān)控技術(shù)綜述[J]. 計算機(jī)學(xué)報, 2015, 38(6): 1093-1118. HUANG K Q, CHEN X T, KANG Y F, et al. Intelligent visual surveillance: a review[J]. Chinese Journal of Computers, 2015, 38(6): 1093-1118.
[4] ZHAO R, OUYANG W, WANG X. Unsupervised salience learning for person re-identification[C]//CVPR, June 25-27, 2013, Portland, Oregon. New Jersey: IEEE Press, 2013: 3586-3593.
[5] ZHAO R, OUYANG W, WANG X. Person re-identification by salience matching[C]// IEEE International Conference on Computer Vision, December 1?8, 2013, Sydney, Australia. New Jersey: IEEE Press, 2013: 2528-2535.
[6] 陳普強(qiáng), 郭立君, 張榮, 等. 基于全局空間約束塊匹配的目標(biāo)人體識別[J]. 計算機(jī)研究與發(fā)展, 2015(3): 596-605. CHEN P Q, GUO L J, ZHANG R, et al. Patch matching with global spatial constraints for person re-identification[J]. Journal of Computer Research and Development, 2015(3): 596-605.
[7] FARENZENA M, BAZZANI L, PERINA A, et al. Person re-identification by symmetry-driven accumulation of local features[C]//CVPR, June 13?18, 2013, San Francisco, California, USA. New Jersey: IEEE Press, 2010: 2360-2367.
[8] CHENG D S, CRISTANI M, STOPPA M, et al. Custom pictorial structures for re-identification[C]//BMVC, August 22?September 2, 2011, Dundee, USA. New Jersey: IEEE Press, 2011, 1(2): 6.
[9] PROSSER B, ZHENG W S, GONG S, et al. Person re-identification by support vector ranking[C]//BMVC , April 4?9, 2010, New York, USA. New Jersey: IEEE Press, 2010: 6.
[10] SINGH S, GUPTA A, EFROS A A. Unsupervised discovery of mid-level discriminative patches[M]. Berlin: Springer Heidelberg, 2012: 73-86.
[11] JAIN A, GUPTA A, RODRIGUEZ M, et al. Representing videos using mid-level discriminative patches[C]//CVPR, June 25?27, 2013, Portland, Oregon. New Jersey: IEEE Press, 2013: 2571-2578.
[12] LAYNE R, HOSPEDALES T M, GONG S, et al. Person re-identification by attributes[C]//BMVC, April 11?17, 2012, Surrey, USA. New Jersey: IEEE Press, 2012: 8.
[13] LIU X, SONG M, ZHAO Q, et al. Attribute-restricted latent topic model for person re-identification[J]. Pattern Recognition, 2012, 45(12): 4204-4213.
[14] ZHAO R, OUYANG W, WANG X. Learning mid-level filters for person re-identification[C]//IEEE Conference on Computer Vision and Pattern Recognition, June 24?27, 2014, Columbus, Ohio, USA. New Jersey: IEEE Press, 2014: 144-151.
[15] MA K, BEN-ARIE J. Vector array based multi-view face detection with compound exemplars[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), October 11?13, 2012, Providence, USA. New Jersey: IEEE Press, 2012: 3186-3193.
[16] HU Y, LIAO S, LEI Z, et al. Exploring structural information and fusing multiple features for person re-identification[C]// CVPR, June 25?27, 2013, Oregon, Portland. New Jersey: IEEE Press, 2013: 794-799.
[17] ZHENG W S, GONG S, XIANG T. Reidentification by relative distance comparison[J]. IEEE transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3): 653-668.
[18] LI Z, CHANG S, LIANG F, et al. Learning locally-adaptive decision functions for person verification[C]// Conference on Computer Vision and Pattern Recognition, June 25-27, 2013, Portland, Oregon. New Jersey: IEEE Press, 2013: 3610-3617.
[19] ZHANG W, WANG X, ZHAO D, et al. Graph degree linkage: agglomerative clustering on a directed graph[C]//European Conference on Computer Vision, April 11?14, 2012, Berlin, German. Berlin: Springer, 2012: 428-441.
[20] YANG Y, RAMANNAN D. Articulated pose estimation with flexible mixtures-of-parts[C]// IEEE Conference on Computer Vision and Pattern Recognition, June 20-25, 2011, Colorado Springs, USA. New Jersey: IEEE Press, 2011: 1385-1392.
[21] PEDAGADI S, ORWELL J, VELASTIN S, et al. Local fisher discriminant analysis for pedestrian re-identification[C]// CVPR, June 25?27, 2013, Oregon, Portland. New Jersey: IEEE Press, 2013: 3318-3325.
[22] K?STINGER M, HIRZER M, WOHLHART P, et al. Large scale metric learning from equivalence constraints[C]// Conferenceon Computer Vision and Pattern Recognition, Providence, June 16?21, 2012, Providence, RI, USA. New Jersey: IEEE Press, 2012: 2288-2295.
[23] ZHENG W S, GONG S, XIANG T. Person re-identification by probabilistic relative distance comparison[C]// Conference on Computer Vision and Pattern recognition, June 20?25, 2011, Colorado Springs, USA. New Jersey: IEEE Press, 2011: 649-656.
[24] MIGNON A, JURIE F. PCCA: a new approach for distance learning from sparse pairwise constraints[C]// Conference on Computer Vision and Pattern Recognition, June 16?21, 2012, Providence, RI, USA. New Jersey: IEEE Press, 2012: 2666-2672.
[25] LI W, ZHAO R, WANG X. Human reidentification with transferred metric learning[C]//Asian Conference on Computer Vision, March 1?5, 2012, Berlin, German. Berlin: Springer, 2012: 31-44.
王亞東(1990?),男,寧波大學(xué)信息科學(xué)與工程學(xué)院碩士生,主要研究方向為計算機(jī)視覺與模式識別。
張榮(1974?),女,博士,寧波大學(xué)副教授,主要研究方向為數(shù)字取證與信息安全。
蔣檜慧(1993?),女,寧波大學(xué)信息科學(xué)與工程學(xué)院碩士生,主要研究方向為計算機(jī)視覺與模式識別。
郭立君(1970?),男,博士,寧波大學(xué)教授,主要研究方向為計算機(jī)視覺與模式識別、移動互聯(lián)網(wǎng)及其應(yīng)用。
Person re-identification using mid-level features with vertical global appearance constraint
WANG Yadong, ZHANG Rong, JIANG Huihui, GUO Lijun
College of Information Science and Engineering, Ningbo University, Ningbo 315211, China
Mid-level features with the semantic information can provide stronger discrimination in the person re-identification than low-level features. But like the low-level features, the mid-level features also use local feature matching methods and easily leads mismatch problem when different pedestrians have similar appearance features in some local areas. Considering the same pedestrians are more similar than different pedestrians in the vertical direction since pedestrians are almost always in a standing position, global vertical appearance constraints was introduced. Furtherly, a method for person re-identification was proposed which fuses the low-level densely patch-matching and the mid-level features with the global vertical appearance constraints. Experimental results show that the proposed algorithm can achieve a higher hit rate than the existing methods on the most challenging public VIPeR database and CUHK01 database.
person re-identification, mid-level feature, apparent constraint
TP391
A
10.11959/j.issn.1000?0801.2017023
2016?11?25;
2017?01?06
張榮,zhangrong@nbu.edu.cn
國家自然科學(xué)基金資助項目(No.61175026);浙江省自然科學(xué)基金資助項目(No.LY17F030002);“信息與通信工程”浙江省重中之重學(xué)科開放基金資助項目(No.xkxl1516,No.xkxl1521);寧波大學(xué)胡嵐博士基金資助項目(No.ZX2013000319)
Foundation Items:The National Natural Science Foundation of China(No.61175026), Zhejiang Provincial Natural Science Foundation of China(No.LY17F030002), Zhejiang Open Foundation of the Most Important Subjects(No.xkxl1516, No.xkxl1521), Dr.Hu Lan Foundation of Ningbo University(No.ZX2013000319)