蔡歡歡
(濟(jì)寧職業(yè)技術(shù)學(xué)院,山東 濟(jì)寧 272000)
行人重識(shí)別(Person Re-identification)是利用計(jì)算機(jī)視覺技術(shù)判斷視頻中是否存在特定行人的問題。在行人重識(shí)別研究的初期,提取數(shù)據(jù)集樣本圖像的全局特征是重要的研究方法,但僅提取全局特征不能準(zhǔn)確檢索出所有目標(biāo)行人,因此一部分行人重識(shí)別研究者將目標(biāo)轉(zhuǎn)向局部特征。在遮擋、姿態(tài)變化等情況下,利用局部特征能夠幫助網(wǎng)絡(luò)學(xué)習(xí)到更魯棒性的模型[1]。在未利用姿態(tài)估計(jì)模型情況下,提出均勻切分的策略,將特征圖水平切分為6 塊,該方法稱為PCB。另外又提出了RPP來使水平切塊劃分得更準(zhǔn)確。雖然這種水平切塊的方式比全局特征較好地考慮了細(xì)節(jié)信息,但是缺乏水平切塊之間的聯(lián)系,不利于網(wǎng)絡(luò)模型提取有判別性特征。為解決水平切塊和其他的水平切塊之間缺乏關(guān)聯(lián)性的問題,研究者提出了一種關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)RRID,由于沒有同時(shí)考慮全局特征、局部特征以及局部特征之間的關(guān)系,同時(shí)進(jìn)行多任務(wù)訓(xùn)練,因此不利于更進(jìn)一步提升網(wǎng)絡(luò)模型的性能。
為了解決上述問題,該文設(shè)計(jì)了一種基于多分支關(guān)系的行人重識(shí)別網(wǎng)絡(luò)結(jié)構(gòu),包括全局分支、局部分支以及局部關(guān)系分支,可提取有區(qū)分力的特征,以實(shí)現(xiàn)網(wǎng)絡(luò)模型的優(yōu)化。
行人重識(shí)別是指在行人圖像庫中利用計(jì)算機(jī)視覺技術(shù)檢索該目標(biāo)行人的問題,如圖1 所示。圖1 中的待查詢圖像表示目標(biāo)行人,候選圖像表示數(shù)據(jù)集中待查詢圖像,網(wǎng)絡(luò)提取目標(biāo)行人和候選圖像的特征,返回度量學(xué)習(xí)后獲得結(jié)果。PCB 利用Resnet-50 對輸入圖片提取特征圖,并將獲取到的特征圖在水平方向上均勻劃分為6 個(gè)水平切塊,如圖2 所示。這樣的劃分方式雖然考慮了水平切塊的細(xì)節(jié)特征,但是由于沒有涉及水平切塊之間的關(guān)系,因此在面對數(shù)據(jù)集光照變化、行人姿勢變化以及攝像頭角度變化等現(xiàn)象時(shí),不能提取區(qū)分性的特征。RRID 網(wǎng)絡(luò)結(jié)構(gòu)充分考慮某個(gè)局部切塊和其他剩余水平切塊之間的聯(lián)系,彌補(bǔ)了PCB 缺乏水平切塊之間聯(lián)系的不足,但是沒有將全局特征和局部特征結(jié)合起來考慮。
圖1 行人重識(shí)別應(yīng)用示例
圖2 PCB 的網(wǎng)絡(luò)結(jié)構(gòu)圖
為了解決上述問題,該文設(shè)計(jì)了局部關(guān)系多分支網(wǎng)絡(luò),總體結(jié)構(gòu)圖如圖3 所示。先利用Resnet-50 提取初始特征圖,再將提取后的特征圖送到不同的分支,即全局分支和局部分支,局部分支又分為2 個(gè)分支,即局部分支GCP(Global contrastive feature)和局部關(guān)系分支。全局特征是為了提取全局信息的特征,如數(shù)據(jù)集中行人不同顏色的衣服、衣服的不同紋理等底層特征。但是全局特征對數(shù)據(jù)集中存在的噪聲以及行人姿態(tài)不對齊的問題不能有效提取顯著性信息,因此該文設(shè)計(jì)了2 個(gè)局部分支。第一個(gè)局部分支GCP 是在水平切塊PCB 的基礎(chǔ)上,使用全局最大池化和平均池化的和,有利于集中行人有效的特征信息,強(qiáng)調(diào)了行人顯著性特征,不會(huì)因噪聲的存在而降低模型性能。另外一個(gè)局部關(guān)系分支涉及水平切塊與剩余其他水平切塊之間的關(guān)系[2],作為局部分支的補(bǔ)充,給網(wǎng)絡(luò)訓(xùn)練過程增加約束,增強(qiáng)網(wǎng)絡(luò)挖掘更多顯著性信息的能力。該文在訓(xùn)練過程中還同時(shí)考慮了分類損失和三元組損失,以提高網(wǎng)絡(luò)模型的性能。
圖3 多分支網(wǎng)絡(luò)結(jié)構(gòu)圖
該文利用ImageNet 數(shù)據(jù)集在Resnet-50 預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu),并且不保留最后的全連接層。該文先將圖片輸入Resnet-50 預(yù)訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)中,得到初始特征圖。然后將初始特征圖分別送入3 個(gè)通道,全局分支用于提取全局特征,進(jìn)行分類訓(xùn)練。局部分支用于提取局部特征,即6 個(gè)水平切塊的局部特征,并且對6 個(gè)水平切塊特征進(jìn)行平均池化和最大池化,因此能夠去除一些噪聲的干擾。局部關(guān)系分支由于考慮了水平切塊與剩余水平切塊之間的關(guān)系,因此在模型訓(xùn)練過程中能夠補(bǔ)充PCB 水平切塊之間缺乏聯(lián)系的不足。最后將水平切塊特征和全局特征進(jìn)行融合,共同參與網(wǎng)絡(luò)模型的優(yōu)化過程。
1.2.1 全局分支
在行人重識(shí)別研究的初期,提取數(shù)據(jù)集樣本圖像的全局特征是重要的研究方法,即提取行人的全局特征向量。全局特征提取的是顏值、紋理和形狀等數(shù)據(jù)集中圖像整體的屬性特征,全局分支提取全局特征,計(jì)算分類損失,參與網(wǎng)絡(luò)模型的優(yōu)化,利用卷積神經(jīng)網(wǎng)絡(luò)提取行人樣本圖像的特征。但面對復(fù)雜多變的監(jiān)控環(huán)境,如攝像機(jī)位置不同、拍攝角度不同、分辨率不同、行人姿態(tài)變化、遮擋以及光線變化等,僅提取全局特征不能準(zhǔn)確地檢索出目標(biāo)行人所有圖像,因此一部分行人重識(shí)別研究者將目標(biāo)轉(zhuǎn)向局部特征。局部特征顧名思義是提取局部區(qū)域的特征,局部特征在遮擋、姿態(tài)變化等情況下比全局特征更有魯棒性,更能提高網(wǎng)絡(luò)的判別能力。
1.2.2 局部分支GCP
當(dāng)面對復(fù)雜數(shù)據(jù)集中存在的遮擋、姿勢變化、光照變化和攝像機(jī)視角變化的情況,全局特征不能有效提取有區(qū)分力的特征,因此在未利用姿態(tài)估計(jì)模型情況下,有研究者提出均勻切分的策略。將特征圖水平切分為6 塊,該方法稱為PCB,如圖2 所示。另外又提出RPP,來使水平切塊劃分得更準(zhǔn)確,進(jìn)而提升網(wǎng)絡(luò)的泛化性能。面對數(shù)據(jù)集中存在的復(fù)雜環(huán)境,這種基于水平切塊的局部特征的方式比全局特征較好地考慮了細(xì)節(jié)信息,因此該文也結(jié)合了局部特征,并且對局部特征進(jìn)行了處理。如圖4 所示,首先將6 個(gè)水平切塊進(jìn)行最大池化操作,獲得最大池化特征Px,6 個(gè)水平切塊經(jīng)過平均池化,得到平均池化特征Pavg。最大池化特征想通過只考慮行人的特征來降低背景、遮擋物等影響,但可能存在特征過于核心的缺陷,因此該文將平均池化特征和最大池化特征做了一個(gè)加法,即Px+Pavg=Pcont。Pcont表示在重視核心特征的基礎(chǔ)上,也考慮平均特征,這樣的設(shè)置可在背景復(fù)雜、遮擋情況下能夠提取更具有魯棒性的特征。
圖4 局部分支GCP
1.2.3 局部關(guān)系分支
每個(gè)水平切塊相對剩余的其他水平切塊都是獨(dú)立的,由于不同身份的行人可能存在相同的局部信息,僅考慮局部信息會(huì)導(dǎo)致預(yù)測錯(cuò)誤,不利于提高網(wǎng)絡(luò)模型的泛化能力。因此,同時(shí)考慮局部特征與其他剩余局部特征之間的關(guān)系,使網(wǎng)絡(luò)能夠區(qū)分相似局部特征的行人,在網(wǎng)絡(luò)訓(xùn)練的過程中增強(qiáng)了特征的表示。
該文考慮水平切塊與剩余其他水平切塊之間的關(guān)系,設(shè)置了局部關(guān)系分支,進(jìn)而對數(shù)據(jù)集中存在的遮擋問題、姿勢改變和攝像機(jī)視角變化等問題,網(wǎng)絡(luò)依然可以提取有區(qū)分力的特征。作為網(wǎng)絡(luò)模型優(yōu)化的補(bǔ)充,有利于降低監(jiān)控環(huán)境遮擋局部特征帶來的影響,幫助網(wǎng)絡(luò)提取有區(qū)分力的特征,進(jìn)而提高網(wǎng)絡(luò)模型的魯棒性。
該文設(shè)計(jì)的多分支關(guān)系網(wǎng)絡(luò)為有監(jiān)督學(xué)習(xí),即數(shù)據(jù)集樣本有標(biāo)簽,并且使用交叉熵?fù)p失和三元組損失共同參與網(wǎng)絡(luò)模型的優(yōu)化,如公式(1)所示。
式中:Lce為交叉熵?fù)p失;Ltriplet為三元組損失。
交叉熵?fù)p失也稱為分類損失或ID 損失,網(wǎng)絡(luò)最后一個(gè)全連接層節(jié)點(diǎn)數(shù)為行人身份的數(shù)量,并且計(jì)算交叉熵?fù)p失。交叉熵?fù)p失廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域中。在行人重識(shí)別任務(wù)中,分類函數(shù)作為分類器實(shí)現(xiàn)行人身份分類,計(jì)算交叉熵?fù)p失。該文在網(wǎng)絡(luò)訓(xùn)練過程中通過不斷迭代訓(xùn)練,減少交叉熵?fù)p失,提升預(yù)測行人身份的準(zhǔn)確性。三元組損失也是廣泛應(yīng)用于行人重識(shí)別領(lǐng)域中的另一種方法。三元組損失使網(wǎng)絡(luò)模型在訓(xùn)練過程中不斷縮短正樣本之間的距離,增加負(fù)樣本之間的距離。在訓(xùn)練過程中,三元組損失每次都選擇特征距離較遠(yuǎn)的正樣本和特征距離最近的負(fù)樣本,因此不僅能準(zhǔn)確識(shí)別區(qū)分度高的樣本,還能準(zhǔn)確識(shí)別身份不同卻外觀相似的負(fù)樣本。網(wǎng)絡(luò)訓(xùn)練過程中同時(shí)結(jié)合交叉熵?fù)p失和三元組損失,能夠提取更有效的細(xì)節(jié)特征,進(jìn)而能夠迭代訓(xùn)練,獲得更有泛化能力的網(wǎng)絡(luò)模型。
在行人重識(shí)別任務(wù)中,僅提取全局特征進(jìn)行網(wǎng)絡(luò)訓(xùn)練,不能有效考慮細(xì)節(jié)特征,而局部特征PCB 提出的將樣本水平劃分為6 塊的水平切塊方式,缺乏水平切塊之間的聯(lián)系,因此該文結(jié)合局部特征PCB 和局部關(guān)系網(wǎng)絡(luò),考慮了全局特征、局部特征和局部特征之間的關(guān)系,設(shè)計(jì)了多分支關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)。多分支關(guān)系網(wǎng)絡(luò)包括全局分支、局部分支和局部關(guān)系分支,全局分支用于提取圖像的整體特征,即全局特征;局部分支是將行人樣本在水平方向進(jìn)行均勻切割,提取行人細(xì)節(jié)特征;局部關(guān)系分支考慮了不同水平切塊之間的聯(lián)系。該網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)能夠降低由遮擋、姿勢改變和攝像機(jī)角度變化等帶來的影響,幫助網(wǎng)絡(luò)模型提取更魯棒性的特征。