顏 悅,嚴(yán)雙林,顏昌沁
1.昭通學(xué)院 物理與信息工程學(xué)院,云南 昭通 657000
2.南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210014
行人重識(shí)別,是指在非重疊相機(jī)視角下匹配行人,可用于大規(guī)模監(jiān)控網(wǎng)絡(luò)中特定行人目標(biāo)的快速檢索,目前已經(jīng)取得了一系列重大研究進(jìn)展[1-7],具有廣闊的應(yīng)用前景,包括行人檢索、行人跟蹤和行人行為分析等。盡管計(jì)算機(jī)視覺研究人員已經(jīng)做出了很大的努力來提高行人重識(shí)別的性能,但是由于行人的外觀在跨相機(jī)視角下通常表現(xiàn)出巨大的視覺歧義性,因此行人重識(shí)別技術(shù)仍存在巨大的挑戰(zhàn)。
除了背景干擾、遮擋、照明變化和姿勢(shì)差異外,不同相機(jī)視角之間的域偏移也是導(dǎo)致行人視覺歧義的關(guān)鍵因素之一。通常有兩種方法可以解決這些問題,一種是學(xué)習(xí)或構(gòu)造域不變特征表示,另一種是采用模型來減輕上述不利影響。對(duì)于前者,域不變特征可以是手工特征或基于學(xué)習(xí)的特征。在手工特征中,最常用的包括基于生物仿生特征的協(xié)方差描述符(covariance descriptor based on bioinspired features)[8]、局部特征的對(duì)稱驅(qū)動(dòng)累積(symmetry-driven accumulation of local features)[9]、分層高斯描述符(hierarchical gaussian descriptor)[10]、局部特征集合(ensemble of localized features)[11]和局部最大共現(xiàn)表示(local maximal occurrence representation)[3]。這些特征可以直接用于跨視角或無監(jiān)督的行人重識(shí)別,但它們不能充分利用數(shù)據(jù)分布信息,因此無法解決不同相機(jī)視角之間的域偏移問題。在基于學(xué)習(xí)的特征表示中最常用的學(xué)習(xí)方法包括域分離網(wǎng)絡(luò)(domain separation networks)[12]、圖像-圖像轉(zhuǎn)換網(wǎng)絡(luò)(image-image translation networks)[13]和奇異值分解網(wǎng)絡(luò)(singular value decomposition network,SVDNet)[14]。但是,基于深度學(xué)習(xí)的特征表示方法通常需要手動(dòng)標(biāo)記大量的訓(xùn)練樣本對(duì),這極大地限制了在實(shí)際應(yīng)用中的可擴(kuò)展性?;谀P偷男腥酥刈R(shí)別主要包括基于度量學(xué)習(xí)的方法[15-22]、基于字典學(xué)習(xí)的方法[23-27],以及基于深度學(xué)習(xí)的方法[22,28-30]?;诙攘繉W(xué)習(xí)的方法通常是通過搜索最佳特征子空間來緩解視覺歧義。在該子空間中,類間差異可以被最大化,而類內(nèi)差異可以被最小化。盡管魯棒的特征表示對(duì)判別性有著重要影響,但在此類方法中通常沒有被給予足夠的重視。在減輕行人圖像的視覺歧義時(shí),基于字典的學(xué)習(xí)也是一種常用方法,它可以基于原始輸入特征創(chuàng)建更魯棒的特征?;谏疃葘W(xué)習(xí)的方法由于其良好的性能吸引了研究人員的注意,但是這種方法需要大量手動(dòng)標(biāo)記的訓(xùn)練樣本,可擴(kuò)展性較差。因此,以上方法均不能完全緩解由不同相機(jī)視角之間的域偏移引起的行人外觀歧義等問題。
從圖1可以看出,不同相機(jī)視角下的域偏移是導(dǎo)致行人外觀歧義的主要因素之一。另外還可以發(fā)現(xiàn),同一相機(jī)視角中的域信息在一定時(shí)間內(nèi)是穩(wěn)定的,并且同一視角下的所有圖像共享相同的域信息。此時(shí),如果能將域信息從行人圖像中分離出來,那么剩余的信息將不會(huì)受到域信息的干擾,并且來自不同視角的行人圖像之間也將不再存在域偏移?;谶@種思想,本文提出一種域通用和域分離字典對(duì)學(xué)習(xí)方法,用于跨視角行人重識(shí)別。在此方法中,假定來自同一相機(jī)視角下的圖像共享相同的域。為了獲得行人的視覺特征,將來自不同相機(jī)視角下的行人圖像分為特定視角的域信息部分和域分離的行人外觀特征部分。
圖1 來自PRID2011數(shù)據(jù)集中的行人圖像樣本對(duì)Fig.1 Person image sample pairs selected from PRID2011 dataset
為了實(shí)現(xiàn)上述信息的分離,本文在低維空間中跨視角學(xué)習(xí)具有域信息的域通用字典,并將其用于從輸入圖像中分離出域信息,而學(xué)習(xí)域分離字典是用來表示分離域信息后的行人外觀特征。同時(shí),由于來自同一相機(jī)視角的圖像具有域相似性,因此用于表示域信息的字典應(yīng)該是低秩的。為了進(jìn)一步提高學(xué)習(xí)字典的判別力,強(qiáng)制具有相同身份、相同視角的多幅圖像的編碼系數(shù)在域通用字典下有很強(qiáng)的一致性。此外,提出一種新穎的擴(kuò)展正則化方法來解決不同行人相似外貌特征和同一行人不同外貌特征的視覺外觀歧義問題。以兩個(gè)視角X1和X2為例,所提出方法的具體實(shí)現(xiàn)過程如圖2所示。
圖2 所提出方法的總體框架Fig.2 Overall framework of proposed method
本文的主要?jiǎng)?chuàng)新如下:
(1)將同一視角下的行人圖像分解為特定視角的域信息分量和分離域信息后的行人外觀分量,并提出僅基于行人的外觀設(shè)計(jì)行人匹配方案,從而避免域偏移對(duì)識(shí)別結(jié)果的不利影響。
(2)為了將域信息與行人外觀信息分開,同時(shí)學(xué)習(xí)域通用和域分離字典,其中,鼓勵(lì)來自同一相機(jī)視角中的所有圖像在域通用字典下共享相同的稀疏表示,此時(shí),可以將每個(gè)視角下的域信息與行人外觀信息分離開來。
(3)為了促進(jìn)學(xué)習(xí)字典的判別性并解決行人外觀在視覺上的歧義,提出一種新穎的擴(kuò)展正則化方法來解決不同行人的外貌特征比同一人更相似,而同一行人的外貌特征比不同人更不相似的問題。
字典學(xué)習(xí)是通過學(xué)習(xí)算法來構(gòu)建一組具有表達(dá)能力的特征,實(shí)現(xiàn)對(duì)輸入樣本的有效表示。該過程能使學(xué)習(xí)到的字典具有較強(qiáng)的表達(dá)能力,但沒有較強(qiáng)的判別能力。為解決這一問題,把魯棒的特征表示學(xué)習(xí)和判別式度量學(xué)習(xí)整合到一個(gè)框架中。
首先,學(xué)習(xí)兩個(gè)字典分別表示不同視角i下的行人圖像特征:
式中,D∈?m×d是所有相機(jī)視角下的行人圖像共享的域通用字典(domain-commom dictionary),D t∈?m×d t表示域分離字典(domain-invariant dictionary),用于在分離域信息后對(duì)僅剩的行人外觀特征進(jìn)行編碼,Z i是對(duì)應(yīng)字典D的編碼系數(shù)矩陣,Z ti是對(duì)應(yīng)字典D t的編碼系數(shù)矩陣。Φ(D,D t,Z i,Z ti)是數(shù)據(jù)保真度項(xiàng),將其最小化可以賦予字典D和D t表達(dá)能力。Ψ(D,D t)是字典的判別促進(jìn)項(xiàng),Γ(Z i,Z ti)是編碼系數(shù)的判別促進(jìn)項(xiàng),將這兩項(xiàng)最小化可以使字典和編碼系數(shù)具有更好的判別能力。d j?是D的第?列,是D t的第?列。
具體地,為了緩解不同相機(jī)視角之間的域偏移,首先把數(shù)據(jù)保真度項(xiàng)Φ(D,D t,Z i,Z ti)表示為:
式中,X i∈?m×n表示相機(jī)視角i下的訓(xùn)練樣本集,用于建立相機(jī)視角i的域信息,‖X i-DZ i-用于把域信息與不受域信息影響的行人外觀特征分開。同時(shí),來自同一臺(tái)相機(jī)的圖像具有相同的域特征,并且這些圖像在域特征方面彼此線性相關(guān),因此,把字典判別促進(jìn)項(xiàng)表示為:
式中,‖D‖*是對(duì)字典D的核范數(shù)求解,它是矩陣D的奇異值之和,對(duì)該項(xiàng)最小化能夠?qū)崿F(xiàn)域信息從輸入樣本X i中的分離。同時(shí),因?yàn)橛蛐畔⒎至亢托腥说耐庥^特征具有不同的空間形態(tài),引入結(jié)構(gòu)不相干的正則項(xiàng)來促使字典D和D t相互獨(dú)立。α1和α2是兩個(gè)標(biāo)量參數(shù),分別代表著‖D‖*和項(xiàng)的權(quán)重信息。
另外,希望來自不同相機(jī)視角的同一行人在域分離字典D t上具有相同的編碼系數(shù),也就是說,如果只有兩個(gè)相機(jī)視角(i和j),并且每個(gè)行人在每個(gè)視角中只有一張圖像時(shí),應(yīng)將最小化。同時(shí)還希望來自不同相機(jī)視角的不同行人的編碼系數(shù)之間的距離大于一個(gè)常數(shù),此時(shí)有:
式中,c是一個(gè)常數(shù)。表示i視角下的第l個(gè)行人的編碼系數(shù);z t,jl表示j視角下的與i視角下第l個(gè)行人最不相似的行人編碼系數(shù),此時(shí)它們同屬于一個(gè)行人身份;表示j視角下的與i視角下第l個(gè)行人最相似,但又是第l*個(gè)不同于行人身份l的行人編碼系數(shù),其中,意思是當(dāng)時(shí),,此時(shí)不同行人之間的距離遠(yuǎn)遠(yuǎn)大于同一行人之間的距離,它不會(huì)導(dǎo)致對(duì)行人身份的誤判,損失記為0。而表示意味著在這種情況下使用行人圖像特征的編碼系數(shù)進(jìn)行行人匹配會(huì)導(dǎo)致誤識(shí)別,此時(shí),最小化可以促使。進(jìn)一步地,對(duì)于i視角域的編碼系數(shù)矩陣Z i,相同的域應(yīng)具有相同的稀疏表示?;谝陨峡紤],定義式(1)中的判別促進(jìn)項(xiàng)Γ(Z i,Z ti)可表示為:
該模型可以擴(kuò)展為多個(gè)視角和一個(gè)行人身份擁有多幅圖像的行人重識(shí)別問題:
式中,表示i視角下的第k個(gè)行人的第l k張圖像的編碼系數(shù);表示j視角下的和i視角下第k個(gè)行人第l k張圖像的編碼系數(shù)最不相似的第s k張圖像的編碼系數(shù),此時(shí)它們屬于同一行人身份,其中i≠j;表示i′視角下的和i視角下第k個(gè)行人第l k張圖像的編碼系數(shù)最相似的第k′個(gè)行人第l k′張圖像的編碼系數(shù),此時(shí)它們屬于不同行人身份,即k′≠k。式中,M i表示i相機(jī)視角下的行人數(shù)量,N k表示相機(jī)視角i下第k個(gè)行人的圖像數(shù)量。
1.2.1 更新Z i
為了更新編碼系數(shù)Z i,固定D,D t,Z t,i不變,式(7)中關(guān)于Z i有以下目標(biāo)函數(shù):
對(duì)于變量Z i是一個(gè)典型的l2,1最小化問題,通過文獻(xiàn)[31]的方法可以很容易地解決它,此時(shí),得到Z i的解析解:
其中,Λ1是由構(gòu)成的對(duì)角稀疏矩陣,表示Z i的第j列。
1.2.2 更新Z t,i
為了方便優(yōu)化,將式(10)重寫為向量形式:
其中,是i視角下第k個(gè)行人的第l k張圖像的特征。為了求解式(11)中的,需要引入一個(gè)松弛變量,此時(shí),可以將等式(11)放寬為:
可以通過以下求解來更新變量:
以上問題也是一個(gè)典型的l1最小化問題,使用迭代收縮算法Iterative Shrinkage Algorithm[32]可以很容易地解決這個(gè)問題。確定之后,可以通過文獻(xiàn)[19]中采用的梯度下降法進(jìn)行更新:
式中,h表示第h次迭代。,它 是 式(12)中關(guān)于在第h次迭代時(shí)的求導(dǎo)。Q=,它 是 式(12)中關(guān)于在第h次迭代時(shí)的求導(dǎo)。并且在求解過程中,當(dāng)時(shí),損失 記 為0,即取0,有;否則,。τ是梯度下降法中使用的步長,它根據(jù)迭代的次數(shù)進(jìn)行變化,即。最后,根據(jù)更新的構(gòu)造Z t,i,
1.2.3 更新D和D t
在更新編碼系數(shù)Z i和Z t,i之后,字典D和D t可以通過交替更新獲得,固定其他變量不變,式(7)中關(guān)于D和D t有以下目標(biāo)函數(shù):
為了更新D,引入一個(gè)中間變量C,式(15)改寫為:
中間變量C可以通過以下求解得到:
關(guān)于變量C是一個(gè)典型的核范數(shù)最小化問題,可通過奇異值閾值算法Singular Value Thresholding[33]來解決。確定C之后,引入一個(gè)松弛變量H更新D:
松弛變量H的解析解可以通過直接求導(dǎo)得到:
其中,I1∈?m×m為一個(gè)單位矩陣。使用更新得到的C和H,關(guān)于變量D可以通過以下求解來優(yōu)化:
這個(gè)問題可以通過拉格朗日對(duì)偶法[34]來解決,其解析解為:
同樣地,此問題也可以用公式(20)中采用的拉格朗日對(duì)偶法[34]得到解決。為了便于理解模型,以下算法總結(jié)了提出的判別性字典對(duì)學(xué)習(xí)的訓(xùn)練算法。
算法域通用和域分離字典對(duì)學(xué)習(xí)的行人重識(shí)別訓(xùn)練算法
輸入:視角i下的行人訓(xùn)練圖像X i,最大迭代次數(shù)M。
隨機(jī)值初始化:Z i,Z t,i,D,D t。
當(dāng)?shù)螖?shù)小于M時(shí),重復(fù)步驟1~8:
步驟1通過式(9)更新Z i;
步驟2通過迭代收縮算法更新式(13)中的;
步驟3通過式(14)更新;
步驟4通過構(gòu)造Z t,i;
步驟5通過式(17)更新中間變量C;
步驟6通過式(19)更新松弛變量H;
步驟7通過式(21)更新變量D;
步驟8通過式(22)更新變量D t;
輸出 當(dāng)達(dá)到最大迭代次數(shù)M時(shí)輸出D,D t。
在測(cè)試中,用訓(xùn)練中學(xué)習(xí)到的字典D和D t,通過以下求解來實(shí)現(xiàn)域信息和特定行人信息的分離:
在式(23)中,X i'是測(cè)試樣本,Z i表示視角i下的編碼系數(shù)矩陣,Z ti表示視角i下的特定行人信息的編碼系數(shù)矩陣,這個(gè)問題可以通過交替迭代法解決。首先固定變量{D,Zi t}更新Z i,關(guān)于Z i的目標(biāo)函數(shù)表示為:
對(duì)于變量Z i也是一個(gè)l2,1最小化問題,通過文獻(xiàn)[31]的方法可以很容易地解決它,此時(shí),得到Z i的解析解:
其中,Λ1是由構(gòu)成的對(duì)角矩陣,表示Z i的第j列。確定Z i以后,更新變量,式(23)關(guān)于的目標(biāo)函數(shù)為:
以上關(guān)于求解的問題也是一個(gè)典型的l1最小化問題,使用迭代收縮算法Iterative Shrinkage Algorithm[32]可以很容易地解決這個(gè)問題。
其中,表示相機(jī)視角j中第k*個(gè)行人的第l k*幅圖像的編碼系數(shù)。
實(shí)驗(yàn)中,使用四個(gè)具有挑戰(zhàn)性的行人重識(shí)別數(shù)據(jù)集證明該方法的有效性,包括PRID2011、GRID、CUHK01和i-LIDS。PRID2011數(shù)據(jù)集中的行人圖像是由室外環(huán)境下的兩個(gè)非重疊相機(jī)捕獲,并且每個(gè)視角下都包含干擾圖像。GRID數(shù)據(jù)集也存在大量不相關(guān)的行人干擾圖像,并且兩視角之間的遮擋,照明和背景情況存在較大差異。在CUHK01數(shù)據(jù)集中,每個(gè)身份在每個(gè)相機(jī)視角下都有兩張圖像,此數(shù)據(jù)集中的所有圖像都來自安置于校園內(nèi)的兩臺(tái)不同的相機(jī)。i-LIDS數(shù)據(jù)集中的行人圖像是通過安裝在機(jī)場(chǎng)到達(dá)大廳中的多個(gè)非重疊相機(jī)捕獲,該數(shù)據(jù)集包含119個(gè)行人身份的476張圖像,不同相機(jī)拍攝到的每個(gè)行人有2到8張不等。這些數(shù)據(jù)集具有不同的特征,因此可以更客觀、全面地測(cè)試算法的性能。
在實(shí)驗(yàn)中,每個(gè)數(shù)據(jù)集被分為兩個(gè)部分,一部分用作訓(xùn)練樣本,另一部分用作測(cè)試樣本,同時(shí)采用累積匹配特性(cumulative matching characteristic,CMC)曲線對(duì)識(shí)別性能進(jìn)行定量評(píng)估。在提出的行人重識(shí)別模型中有七個(gè)參數(shù),包括字典D和D t的大小d和d t,以及五個(gè)標(biāo)量參數(shù)α1,α2,α3,α4,α5。為了對(duì)算法的有效性進(jìn)行驗(yàn)證,在整個(gè)實(shí)驗(yàn)過程中,將上述參數(shù)的值分別設(shè)置為d=50,d t=760,α1=1,α2=0.01,α3=28,α4=1,α5=5。這些參數(shù)對(duì)識(shí)別性能的影響將在后面的小節(jié)中進(jìn)行詳細(xì)討論。
第一組實(shí)驗(yàn)在GRID數(shù)據(jù)集上進(jìn)行,從不同視角拍攝得到的一些示例圖像如圖3所示。從這些圖像可以看出,除了存在遮擋、行人姿勢(shì)、照明等巨大變化以外,還存在大量不相關(guān)的行人圖像的干擾,由此可見,該數(shù)據(jù)集對(duì)于行人重識(shí)別來說具有極大的挑戰(zhàn)性。GRID數(shù)據(jù)集里的圖像是從安置于地鐵站中的8個(gè)非重疊攝像頭拍攝得到,在此數(shù)據(jù)集中,有250個(gè)行人圖像對(duì),有775張不屬于這250個(gè)行人對(duì)中的干擾圖像,共有1 275個(gè)行人圖像。本實(shí)驗(yàn)中,隨機(jī)選擇了125個(gè)行人身份的圖像對(duì)作為訓(xùn)練數(shù)據(jù),其余125個(gè)行人圖像對(duì)與所有不相關(guān)的行人圖像一起作為測(cè)試數(shù)據(jù)。重復(fù)該過程10次,并將平均識(shí)別率作為最終識(shí)別結(jié)果。將該方法與MtMCML(2014)[35]、PolyMap(2015)[36]、LOMO+XQDA(2015)[3]、LSSCDL(2016)[37]、DR-KISS(2016)[38]、GOG+XQDA(2016)[10]、SLSSCDL(2017)[26]、MHF(2017)[39]、DMLV(2017)[40]、CRAFT-MFA(2018)[41]、MKFSL(2017)[42]、DMVFL(2018)[43]、CSPL+GOG(2018)[44]、SRR+MSTC(2019)[45]進(jìn)行對(duì)比。表1的結(jié)果顯示本文的方法在GRID數(shù)據(jù)集上有很好的識(shí)別率,并且在Rank 1、Rank 5、Rank 20分別優(yōu)于第二好的方法4.10、1.06和1.18個(gè)百分點(diǎn)。
圖3 來自GRID數(shù)據(jù)集的行人圖像示例Fig.3 Person image examples taken from GRID dataset
表1 不同算法在GRID數(shù)據(jù)集的識(shí)別率比較Table 1 Performance comparison of different algorithms on GRID %
在PRID2011數(shù)據(jù)集上進(jìn)行第二組實(shí)驗(yàn),該數(shù)據(jù)集中的行人圖像由室外環(huán)境下的兩個(gè)非重疊攝像頭捕獲得到,每個(gè)人在每個(gè)相機(jī)視角中只有一個(gè)圖像。在本實(shí)驗(yàn)中,隨機(jī)選擇100個(gè)行人身份的圖像作為訓(xùn)練數(shù)據(jù),并另外選擇100個(gè)行人身份圖像和749個(gè)干擾圖像作為測(cè)試數(shù)據(jù)。重復(fù)該過程10次,將平均識(shí)別率視為最終識(shí)別結(jié)果,如圖4。由于兩個(gè)視角都存在干擾因素,該數(shù)據(jù)集更具挑戰(zhàn)性。在PRID2011數(shù)據(jù)集上將本文的方法與一些最新方法進(jìn)行了比較,如表2,包括RPLM(2012)[46]、MetricEnsemble(2015)[47]、LDNS(2016)[48]、LOMO+XQDA(2015)[3]、TCP(2016)[49]、LOMO+M(2017)[50]、LADF(2017)[40]、DMLV(2017)[40]、MKFSL(2017)[42]、APDLIC(2018)[25]。比較結(jié)果表明,該方法在不同Rank上的識(shí)別率最高,比次優(yōu)方法分別高5.4、3.9、4.9和0.5個(gè)百分點(diǎn)。
圖4 來自PRID2011數(shù)據(jù)集的行人圖像示例Fig.4 Person image examples taken from PRID2011 dataset
表2 不同算法在PRID2011數(shù)據(jù)集的識(shí)別率比較Table 2 Performance comparison of different algorithms on PRID2011%
在CUHK01數(shù)據(jù)集中,有971個(gè)行人身份被安置于校園環(huán)境中的兩個(gè)不同攝像頭捕獲。與上述數(shù)據(jù)集不同,每個(gè)人在每個(gè)相機(jī)視圖中都有兩張圖像,一個(gè)相機(jī)視角捕獲行人的正視圖或后視圖,而另一個(gè)相機(jī)視角則主要捕獲側(cè)視圖。在實(shí)驗(yàn)中,將所有行人圖像標(biāo)準(zhǔn)化為128×48像素,并隨機(jī)選擇485個(gè)行人圖像對(duì)進(jìn)行訓(xùn)練,486個(gè)行人圖像對(duì)進(jìn)行測(cè)試。重復(fù)該過程10次,將平均結(jié)果作為最終行人的匹配率,如圖5。表3顯示了本文算法與MetricEnsemble(2015)[47]、LOMO+XQDA(2015)[3]、TCP(2016)[49]、DRJRL+kLFDA(2016)[29]、LDNS(2016)[48]、GOG+XQDA(2016)[10]、DR-KISS(2016)[38]、LADF(2017)[40]、DMLV(2017)[40]、MVLDML(2018)[21]、CSPL+GOG(2018)[44]、GOG+TDL(2019)[51]算法的比較結(jié)果。提出的方法顯示了不錯(cuò)的識(shí)別結(jié)果,Rank 1值為71.20%,比次優(yōu)算法高1.02個(gè)百分點(diǎn)。
圖5 來自CUHK01數(shù)據(jù)集的行人圖像示例Fig.5 Person image examples taken from CUHK01 dataset
表3 不同算法在CUHK01數(shù)據(jù)集的識(shí)別率比較Table 3 Performance comparison of different algorithms on CUHK01%
在本次實(shí)驗(yàn)中,驗(yàn)證了該模型在多鏡頭i-LIDS數(shù)據(jù)集上的有效性。該數(shù)據(jù)集中的行人圖像是通過安裝在機(jī)場(chǎng)到達(dá)大廳中的多個(gè)非重疊攝像頭捕獲。該數(shù)據(jù)集包含119人的476張圖像,在不同的相機(jī)視角下行人圖像的范圍從1到8不等。圖6展示了一些行人示例圖像。由于這些圖像是由具有不同背景、不同相機(jī)采集的,并且還存在照明、遮擋和姿勢(shì)差異的變化,因此,該數(shù)據(jù)集對(duì)正確匹配來自不同相機(jī)的行人圖像提出了巨大的挑戰(zhàn)。在此實(shí)驗(yàn)中,隨機(jī)選擇60人進(jìn)行訓(xùn)練,其余59人被用來測(cè)試。實(shí)驗(yàn)進(jìn)行了10次以后,取平均值與近年來提出的其他方法進(jìn)行比較。表4顯示了該算法與PRDC(2011)[52]、MetricEnsemble(2015)[47]、FT-JSTL+DGD(2016)[53]、TCP(2016)[49]、JDML(2017)[27]、MLQAW(2017)[16]、MMLBD(2017)[54]、FSCML(2017)[55]、JDSML(2019)[28]和GOG+TDL(2020)[51]的比較結(jié)果。可以清楚地看到,與其他方法相比,本文的方法在i-LIDS數(shù)據(jù)集上的性能有了很大的提高。
圖6 來自i-LIDS數(shù)據(jù)集的行人圖像示例Fig.6 Person image examples taken from i-LIDS dataset
表4 不同算法在i-LIDS數(shù)據(jù)集的識(shí)別率比較Table 4 Performance comparison of different algorithms on i-LIDS %
2.6.1 參數(shù)的影響和選擇
實(shí)驗(yàn)中,字典D和D t的大小是影響算法性能的兩個(gè)關(guān)鍵參數(shù)。因此,有必要討論由字典原子數(shù)變化而引起的性能變化。在此過程中,使用GRID數(shù)據(jù)集作為測(cè)試集,通過固定一個(gè)字典的原子數(shù)大小,研究另一字典的原子數(shù)大小對(duì)識(shí)別性能的影響。圖7顯示了識(shí)別性能與兩字典原子數(shù)d和d t值的關(guān)系。固定其余參數(shù),調(diào)整字典D的大小d從20變?yōu)?00,從圖7(a)的結(jié)果可以看出,當(dāng)d達(dá)到50時(shí),本文的方法可以實(shí)現(xiàn)較高的識(shí)別精度。此外,還研究了d t對(duì)GRID數(shù)據(jù)集的影響,圖7(b)表明,當(dāng)d固定為50時(shí),d t=760算法可以實(shí)現(xiàn)較高的識(shí)別性能。
圖7 GRID數(shù)據(jù)集上不同字典大小D和D t對(duì)應(yīng)的性能Fig.7 Performance of our algorithm on different sizes of D andD t on RID dataset
除字典D和D t的大小外,還需要設(shè)置五個(gè)標(biāo)量參數(shù),即α1、α2、α3、α4、α5。使用交叉驗(yàn)證來確定這些參數(shù)的取值。此過程在GRID和PRID2011數(shù)據(jù)集上進(jìn)行,如圖8、圖9。首先,將α2、α3、α4、α5分別固定為0.01、28、1和5,然后討論α1的影響。圖8(a)和圖9(a)顯示了在GRID和PRID2011數(shù)據(jù)集上將α1設(shè)置為不同值時(shí)的影響。從結(jié)果可以看出,當(dāng)α1達(dá)到1時(shí),模型可以獲得更好的性能,因此將其設(shè)置為1。在α1=1、α3=28、α4=1、α5=5的情況下,從圖8(b)和圖9(b)可以發(fā)現(xiàn),當(dāng)α2=0.01時(shí)算法可以達(dá)到不錯(cuò)的識(shí)別性能。圖8(c)和圖9(c)顯示了當(dāng)α1、α2、α4、α5分別固定為1、0.01、1和5時(shí),α3=28算法可以為兩個(gè)測(cè)試數(shù)據(jù)集實(shí)現(xiàn)較好的性能。為了研究參數(shù)α4的取值效果,分別將α1、α2、α3、α5固定為1、0.01、28和5。圖8(d)和圖9(d)表明,當(dāng)α4達(dá)到1時(shí),算法的識(shí)別精度達(dá)到平穩(wěn)狀態(tài)。此外,圖8(e)和圖9(e)顯示了識(shí)別率與α5值的關(guān)系,其中α1、α2、α3、α4分別固定為1、0.01、28和1,當(dāng)兩個(gè)測(cè)試數(shù)據(jù)集的α5均達(dá)到5時(shí),模型將獲得令人滿意的性能。
圖8 GRID數(shù)據(jù)集上不同的α1、α2、α3、α4、α5值對(duì)算法識(shí)別率的影響Fig.8 Recognition rates of proposed algorithm on different values ofα1,α2,α3,α4,α5 on GRID dataset
圖9 PRID2011數(shù)據(jù)集上不同的α1、α2、α3、α4、α5值對(duì)算法識(shí)別率的影響Fig.9 Recognition rates of proposed algorithm on different values ofα1,α2,α3,α4,α5 on PRID2011 dataset
2.6.2 收斂分析
式(3)并非對(duì)變量{D,D t}都是共同凸的,但對(duì)于它們各自而言是凸的。而諸如上述的收斂問題已經(jīng)被廣泛研究,并可通過交替迭代方法來解決。因此,本小節(jié)對(duì)兩個(gè)字典的收斂性進(jìn)行分析。圖10顯示了GRID數(shù)據(jù)集上兩個(gè)字典的收斂曲線??梢郧宄乜吹?,經(jīng)過不到10次迭代,所有變量的迭代差值逐漸收斂為0。
圖10 D、D t在GRID數(shù)據(jù)集上的收斂曲線Fig.10 Convergence curve of D and D t on GRID dataset
2.6.3 僅基于行人外觀設(shè)計(jì)匹配方案的優(yōu)勢(shì)分析
公式(6)是僅基于行人外觀設(shè)計(jì)匹配方案的目標(biāo)函數(shù),在式(6)中,通過項(xiàng)將域信息從行人圖像中分離了出來,此時(shí),剩余的行人圖像信息不會(huì)受到域信息的干擾。若沒有分離域信息,直接基于同時(shí)存在域信息分量和行人外觀信息分量的圖像訓(xùn)練模型,目標(biāo)函數(shù)將會(huì)變成:
此時(shí)訓(xùn)練的模型將會(huì)受到不同視角下的不同域信息的干擾。具體地,在GRID數(shù)據(jù)集上分析僅基于行人設(shè)計(jì)的優(yōu)勢(shì),圖11顯示了僅基于行人外觀設(shè)計(jì)匹配方案和基于同時(shí)存在域信息分量和行人外觀信息分量設(shè)計(jì)匹配方案兩個(gè)模型的識(shí)別率曲線。由圖11可以看出,本文僅基于行人外觀設(shè)計(jì)匹配方案的識(shí)別率遠(yuǎn)遠(yuǎn)高于基于同時(shí)存在域信息分量和行人外觀信息分量設(shè)計(jì)匹配方案的識(shí)別率。
圖11 在GRID數(shù)據(jù)集上僅基于行人外觀設(shè)計(jì)匹配方案的算法曲線分析Fig.11 Algorithm curve analysis based only on person appearance design matching scheme on GRID dataset
為了緩解由不同相機(jī)視角引起的域偏移問題,提出了一種基于不同成分分離的域分離的圖像特征表示模型。該模型可以將域信息與行人圖像信息進(jìn)行分離,從而實(shí)現(xiàn)跨視角的行人重識(shí)別。同時(shí),為了提高表示系數(shù)的判別性,提出了一種新穎的擴(kuò)展正則化方法,以鼓勵(lì)外貌相似身份卻不同的行人彼此遠(yuǎn)離。在四個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),由于本文的算法可以有效緩解不同相機(jī)視角之間的域偏移問題,因此與其他一些相關(guān)方法相比具有更好的性能。相對(duì)于深度學(xué)習(xí)方法,本文算法可以不用大規(guī)模的訓(xùn)練樣本就能獲得較好的性能,同時(shí)在復(fù)雜的背景環(huán)境及變化的光照視角條件下也能取得良好的匹配結(jié)果,因此具有較好的實(shí)際意義。