楊 琦, 車 進(jìn)*, 張 良, 張玉霞
(1. 寧夏大學(xué) 物理與電子電氣工程學(xué)院,寧夏 銀川 750021; 2. 寧夏沙漠信息智能感知重點(diǎn)實(shí)驗(yàn)室,寧夏 銀川 750021)
行人再識(shí)別[1](Person ReID)可以看作是一個(gè)跨攝像機(jī)視角的人物檢索問題,旨在建立多個(gè)攝像機(jī)圖像之間的身份對(duì)應(yīng)關(guān)系。由于拍攝角度、光照、姿勢(shì)、視角、圖像分辨率、相機(jī)設(shè)置、遮擋和背景雜波的影響,會(huì)導(dǎo)致同一行人的不同圖像可能會(huì)有顯著不同,造成較大的類內(nèi)差異,這使得行人再識(shí)別仍然是一項(xiàng)充滿挑戰(zhàn)性的任務(wù)。
隨著深度學(xué)習(xí)在行人再識(shí)別任務(wù)中的廣泛應(yīng)用,卷積神經(jīng)網(wǎng)絡(luò)由于其強(qiáng)大的特征表達(dá)能力以及學(xué)習(xí)不變的特征嵌入,近年來涌現(xiàn)出各種各樣的深度學(xué)習(xí)算法,尤其在GAN網(wǎng)絡(luò)方面取得不錯(cuò)的進(jìn)展。生成對(duì)抗網(wǎng)絡(luò)最初是由Goodfellow等人[2]提出,被描述為一個(gè)通過對(duì)抗訓(xùn)練生成模型的過程。GAN由生成圖像的生成器(G)和鑒別器(D)組成,這兩個(gè)組件在極小極大值之間進(jìn)行博弈。文獻(xiàn)[3]提出將GAN擴(kuò)展到CNN領(lǐng)域,使得利用GAN獲取的訓(xùn)練樣本更加可控,進(jìn)一步說明了GAN網(wǎng)絡(luò)在計(jì)算機(jī)視覺任務(wù)中的可行性。
眾所周知,深度學(xué)習(xí)的發(fā)展得益于大數(shù)據(jù)的發(fā)展,而在如今行人再識(shí)別課題中,面臨著數(shù)據(jù)不足與類內(nèi)差異明顯等問題。作為GAN網(wǎng)絡(luò)的先行者,文獻(xiàn)[4]提出一種標(biāo)簽平滑的方法,利用生成的數(shù)據(jù)擴(kuò)充原始數(shù)據(jù)集,一定程度上提高了行人再識(shí)別的精度。不同于文獻(xiàn)[4]采用標(biāo)簽平滑對(duì)生成圖像的標(biāo)簽采用平均的策略,文獻(xiàn)[5]采用偽標(biāo)簽的策略,對(duì)生成圖像采用最大概率預(yù)測(cè)為其分配身份,作為具備真實(shí)標(biāo)簽的數(shù)據(jù)使用。文獻(xiàn)[6]提出一種識(shí)別模型與GAN中的判別器共享權(quán)重進(jìn)行聯(lián)合優(yōu)化。文獻(xiàn)[7]基于不同攝像機(jī)類內(nèi)差異,生成不同相機(jī)風(fēng)格的行人圖像。此外,最近的一些研究學(xué)者開始將姿態(tài)估計(jì)應(yīng)用到GAN網(wǎng)絡(luò)中。文獻(xiàn)[8]為減小姿態(tài)不同對(duì)行人外表的影響,使用PN-GAN將數(shù)據(jù)中的所有行人歸一化到8個(gè)姿態(tài)中,將真實(shí)數(shù)據(jù)中提取到的行人特征和生成數(shù)據(jù)中提取到的行人特征融合之后做ReID匹配。文獻(xiàn)[9]提出一種基于姿態(tài)遷移的 ReID 框架,通過引入姿態(tài)樣本庫(kù),進(jìn)而生成多姿態(tài)標(biāo)簽樣本。文獻(xiàn)[10]利用姿態(tài)引導(dǎo)的 GAN 網(wǎng)絡(luò),學(xué)習(xí)與身份相關(guān)且與姿態(tài)無關(guān)的特征,使得生成的行人圖像與姿態(tài)特征無關(guān)。不同于上述算法,也有學(xué)者將不同特征進(jìn)行融合得到新的特征表示。文獻(xiàn)[11]提出一種多尺度殘差網(wǎng)絡(luò)模型,融合不同的特征得到最終的特征表示。文獻(xiàn)[12]提出一種融合了全局特征、局部特征以及人體結(jié)構(gòu)特征的行人再識(shí)別算法,該算法無需引入任何人體框架先驗(yàn)知識(shí),并采用多級(jí)監(jiān)督機(jī)制優(yōu)化網(wǎng)絡(luò)。文獻(xiàn)[13]提出一種利用姿態(tài)遷移來生成行人圖片,并利用兩種不同的獨(dú)立卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,融合兩種特征得到最后的特征表示。
不同于上述GAN 網(wǎng)絡(luò),本文提出一種基于外觀特征和姿態(tài)特征混合編碼的行人再識(shí)別網(wǎng)絡(luò),生成模型通過切換外觀特征以及姿態(tài)特征,結(jié)合兩幅圖像中的特征混合編碼生成高質(zhì)量圖像,進(jìn)一步降低了類內(nèi)差異造成的影響。網(wǎng)絡(luò)采用外觀損失、姿態(tài)損失、對(duì)比損失、判別損失等多損失函數(shù)對(duì)生成的圖像進(jìn)行監(jiān)督,進(jìn)一步提高生成圖像的質(zhì)量。利用擴(kuò)充數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使得網(wǎng)絡(luò)模型更加健壯。
網(wǎng)絡(luò)架構(gòu)如圖1所示。將原數(shù)據(jù)集中的人物圖像輸入到生成對(duì)抗網(wǎng)絡(luò),利用輸入圖像的姿態(tài)特征以及外觀特征進(jìn)行自圖像以及互圖像生成,將生成的人物圖像結(jié)合原數(shù)據(jù)集中的人物圖像共同輸入到卷積神經(jīng)網(wǎng)絡(luò),對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,一方面擴(kuò)充了原數(shù)據(jù)集中圖像不足的問題,另一方面利用這種自圖像與互圖像生成模式進(jìn)一步挖掘了圖像的細(xì)粒度特征,使得訓(xùn)練的模型更加魯棒。
圖1 網(wǎng)絡(luò)架構(gòu)
2.1.1 自生成網(wǎng)絡(luò)
.
(1)
考慮到y(tǒng)i=yj,即為同一行人的不同圖像, 行人圖像的外觀特征是相近的,因此提出一種利用同一行人的不同圖像來生成圖像的方法。即采用圖像xi的姿態(tài)特征,僅采用圖像xj的外觀特征。由于外觀特征是相似的,所以基于同一行人的圖像生成應(yīng)該無限接近于原輸入圖像xi,因此仍然采用像素級(jí)的L1損失對(duì)其進(jìn)行訓(xùn)練,損失函數(shù)為:
(2)
圖2 自生成網(wǎng)絡(luò)
圖3 驗(yàn)證網(wǎng)絡(luò)
d=‖f1-f2‖2
.
(3)
采用對(duì)比損失[15]優(yōu)化網(wǎng)絡(luò)具體公式如下:
(4)
式中,d表示兩個(gè)樣本特征的二范數(shù),y為兩個(gè)樣本是否匹配的標(biāo)簽,y=1表示匹配,m為設(shè)定的閾值,N為樣本的個(gè)數(shù)。
2.1.2 互生成網(wǎng)絡(luò)
(5)
.
(6)
利用混合編碼對(duì)原始數(shù)據(jù)進(jìn)行圖像生成,使得生成的圖像更加逼真,一方面,有效擴(kuò)充了數(shù)據(jù)集。另一方面,有效減緩了類內(nèi)差異的影響。采用多損失優(yōu)化網(wǎng)絡(luò)進(jìn)一步提高了圖像的真實(shí)性,有效解決了行人不夠真實(shí)、圖像模糊、背景不真實(shí)等問題。
圖4 互生成網(wǎng)絡(luò)框架
2.1.3 基于外觀特征的ID分配
網(wǎng)絡(luò)提取了人物圖像的姿態(tài)特征以及外觀特征,由于行人圖像在不同攝像機(jī)的視角下姿態(tài)是各異的,所以姿態(tài)特征并不具備區(qū)分不同行人的特性。在跨攝像機(jī)視角中,外觀特征的不變性可以作為區(qū)分不同屬性的行人。考慮到這個(gè)問題,首先訓(xùn)練一個(gè)基于外觀特征對(duì)行人圖像進(jìn)行身份鑒別的網(wǎng)絡(luò)模型,提取原始數(shù)據(jù)集中所有圖像的外觀特征,保留其標(biāo)簽屬性,采用交叉熵?fù)p失對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,損失函數(shù)如下:
(7)
式(7)為單個(gè)樣本的損失,總樣本的損失可以表示為:
(8)
(9)
生成器G和判別器D在極小極大博弈中扮演了兩個(gè)競(jìng)爭(zhēng)對(duì)手的角色,D作為一個(gè)判別網(wǎng)絡(luò)(如圖5所示)將原數(shù)據(jù)集圖像與生成圖像共同輸入到判別網(wǎng)絡(luò),提取特征利用交叉熵?fù)p失優(yōu)化判別網(wǎng)絡(luò)。
圖5 判別網(wǎng)絡(luò)模型
網(wǎng)絡(luò)優(yōu)化的目的是讓D(xi)無限接近于1,D(O(ai,sj))盡可能大,使用對(duì)抗性損失[16]來匹配生成圖像的分布與真實(shí)數(shù)據(jù)的分布如下:
L3=E[logD(xi)+log(1-D(O(ai,sj)))],
(10)
式中,D(xi)表示判斷真實(shí)圖片是否真實(shí)的概率。
對(duì)于相同的框架特征,將使用不同的外觀特征進(jìn)行圖像合成的圖像屬性視為與提供框架特征的行人具有相同的身份屬性。也就是說,可以看到同一位行人穿著不同的衣服,這迫使網(wǎng)絡(luò)模型學(xué)習(xí)與衣服等特征無關(guān)的特征表示,從而迫使網(wǎng)絡(luò)模型挖掘出更多的判別特征(圖,背包等),進(jìn)一步挖掘圖像中的細(xì)粒度信息,并增強(qiáng)網(wǎng)絡(luò)模型的魯棒性。損失函數(shù)可表示為:
(11)
在訓(xùn)練階段,網(wǎng)絡(luò)優(yōu)化了外觀損失姿態(tài)損失、驗(yàn)證損失、以及判別損失作為優(yōu)化的總目標(biāo),如式(12):
(12)
基于PyTorch深度框架搭建網(wǎng)絡(luò)模型,在訓(xùn)練階段,采用ResNet50作為基準(zhǔn)網(wǎng)絡(luò)提取外貌特征,訓(xùn)練的基線網(wǎng)絡(luò)僅僅依據(jù)外貌特征對(duì)圖像進(jìn)行分類。采用殘差塊與卷積層組合的輕量級(jí)網(wǎng)絡(luò)[17]提取姿態(tài)特征。驗(yàn)證網(wǎng)絡(luò)采用了DenseNet121[18]提取生成圖像的外貌特征。生成網(wǎng)絡(luò)[19]是由殘差塊經(jīng)過下采樣輸入到卷積單元組成的,判別網(wǎng)絡(luò)[20]是由6個(gè)卷積層和一個(gè)殘差塊組成。所有圖像的寬高比為128×384,參數(shù)m設(shè)置為1,并且通過SGD方法優(yōu)化和迭代網(wǎng)絡(luò)。初始學(xué)習(xí)率設(shè)置為0.001。
本文提出的行人再識(shí)別算法在公開的數(shù)據(jù)集Market1501[21]、DukeMTMC-reID[22]上進(jìn)行實(shí)驗(yàn)并取得不錯(cuò)的效果。本文使用累積匹配特征曲線(CMC)和平均精度均值(mAP)兩個(gè)指標(biāo)來衡量模型的性能。表1列出了數(shù)據(jù)集的詳細(xì)信息。
Market1501是一個(gè)大型的行人數(shù)據(jù)集,采集了6個(gè)攝像機(jī)的數(shù)據(jù),包含751個(gè)行人的12 936張訓(xùn)練圖像, 750個(gè)行人的19 732張測(cè)試圖像,邊界框直接由可變形零件模型(DPM)[23]檢測(cè),這更接近于真實(shí)的場(chǎng)景,采用訓(xùn)練集中的12 936張圖像訓(xùn)練網(wǎng)絡(luò),在single-shot模式下進(jìn)行。
DukeMTMC-reID是由8個(gè)攝像機(jī)采集的1 812個(gè)行人圖像,在數(shù)據(jù)集中有1 404個(gè)行人出現(xiàn)在兩個(gè)攝像機(jī)以上的視角中,隨機(jī)選擇702個(gè)行人的圖像作為訓(xùn)練集,剩余702個(gè)行人圖像作為測(cè)試集。
表1 數(shù)據(jù)集詳細(xì)信息
圖6 生成圖像示例
本文對(duì)提出的利用姿態(tài)特征以及外貌特征混合編碼的行人再識(shí)別算法與現(xiàn)有的行人再識(shí)別算法進(jìn)行了比較,如表3所示。表3中分割線以上為未采用生成圖像擴(kuò)充數(shù)據(jù)的算法,分割線以下為采用生成圖像輔助訓(xùn)練的算法。由表中的實(shí)驗(yàn)數(shù)據(jù)可以看出,采用姿態(tài)特征和外貌特征混合編碼的行人再識(shí)別算法后,在Market1501數(shù)據(jù)集上的表現(xiàn)效果較好,Rank-1僅比PCB算法稍低0.4%,但mAP的性能卻高于PCB算法0.6%;在DukeMTMC-ReID數(shù)據(jù)集上的Rank-1僅僅低于Part-aligned、Mancs算法不到一個(gè)百分點(diǎn),而mAP的性能僅低于Mancs算法。綜上所述,本文提出的算法在兩大公開的數(shù)據(jù)集上表現(xiàn)效果較好,Rank-1、mAP評(píng)估指標(biāo)能優(yōu)于現(xiàn)有的大部分主流算法,可以看出所提算法的優(yōu)越性。
表2 不同損失函數(shù)對(duì)模型的影響
表3 本文算法與現(xiàn)有算法進(jìn)行比較
本文提出一種利用姿態(tài)以及外觀特征混合編碼生成圖像的行人再識(shí)別算法。采用多損失監(jiān)督的方式修正生成圖像,使得生成模塊與判別模塊是一個(gè)在線的交互循環(huán),使得兩者相互受益。生成模型通過切換外觀特征以及結(jié)構(gòu)特征,結(jié)合兩幅圖像中的特征混合編碼生成高質(zhì)量圖像,判別模型將生成圖像的外觀特征反饋給生成模型的外觀編碼器,通過聯(lián)合優(yōu)化,進(jìn)一步提高生成圖片的質(zhì)量。一方面,解決了數(shù)據(jù)集不足的問題,另一方面,進(jìn)一步解決了行人圖像不真實(shí)、模糊、背景不真實(shí)等問題。這種利用擴(kuò)充數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)的方式,使得網(wǎng)絡(luò)模型更加魯棒。兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果顯示,算法的Rank-1指標(biāo)相比于FD-GAN方法提升了2.9%、4.3%,相比于mAP提升了4.5%、6%。