寇旗旗,黃績,程德強,李云龍,張劍英
(1.中國礦業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116;2.中國礦業(yè)大學(xué)信息與控制工程學(xué)院,江蘇 徐州 221116)
行人重識別[1-2]任務(wù)的目標(biāo)是在同一區(qū)域內(nèi)的多個攝像機視角中識別并匹配具有相同身份的人,它在智能監(jiān)控系統(tǒng)中發(fā)揮著重要作用。該任務(wù)可以分為有監(jiān)督和無監(jiān)督2 種情況,近年來,有監(jiān)督重識別任務(wù)所取得的優(yōu)異成果給學(xué)術(shù)界留下了深刻印象,但由于訓(xùn)練數(shù)據(jù)集包含標(biāo)簽,不僅標(biāo)注成本巨大,而且在實際測試時不具備實時獲取目標(biāo)域標(biāo)簽的能力,導(dǎo)致監(jiān)督行人重識別難以滿足實際應(yīng)用的需求[3]。此時,無監(jiān)督訓(xùn)練的優(yōu)勢便體現(xiàn)出來,利用有標(biāo)簽的源域數(shù)據(jù)集訓(xùn)練出具有較強泛化性的網(wǎng)絡(luò),應(yīng)用于無行人標(biāo)簽的目標(biāo)域,這類網(wǎng)絡(luò)稱為無監(jiān)督跨域行人重識別網(wǎng)絡(luò)。
在網(wǎng)絡(luò)跨域訓(xùn)練過程中,為了解決標(biāo)簽問題,通常采用聚類的方式為行人分配偽標(biāo)簽,節(jié)省了人工標(biāo)注的成本。深度卷積神經(jīng)網(wǎng)絡(luò)通過堆疊卷積層和池化層來學(xué)習(xí)判別特征,由于輸入行人圖片情況各異,如行人身體錯位和區(qū)域比例不一致等,導(dǎo)致識別的準(zhǔn)確率受影響。其中,身體錯位一般有2 種情況:1) 人在行走時被相機抓拍導(dǎo)致姿態(tài)不同;2) 由于檢測不完善,導(dǎo)致同一行人在不同圖像中的身體部位出現(xiàn)區(qū)域比例不一致問題。在網(wǎng)絡(luò)對特征向量進行聚類時,上述問題產(chǎn)生的噪聲會直接影響聚類結(jié)果的準(zhǔn)確性。
此外,在域自適應(yīng)過程中不同數(shù)據(jù)域相機風(fēng)格或背景風(fēng)格等存在差異性,這種差異性對網(wǎng)絡(luò)的泛化能力是一種巨大的考驗。為了縮小這種差異,目前有2 種主流方法:1) 通過增強數(shù)據(jù)集或網(wǎng)絡(luò)重新生成數(shù)據(jù)集的方式,加大訓(xùn)練樣本的數(shù)量來提高網(wǎng)絡(luò)識別性能[4-5];2) 基于生成對抗網(wǎng)絡(luò)(GAN,generative adversarial network)將圖像外觀從源域轉(zhuǎn)換到目標(biāo)域,從而增加2 個域的相關(guān)性[6-7]。上述針對數(shù)據(jù)集操作的方法均是對源域和目標(biāo)域之間相關(guān)性的考慮,目標(biāo)域內(nèi)訓(xùn)練樣本中存在的相似性并未被進一步挖掘,且在網(wǎng)絡(luò)學(xué)習(xí)過程中增加了額外計算成本。
針對圖像身體錯位等因素導(dǎo)致聚類結(jié)果不準(zhǔn)確的問題,本文提出一種簡潔高效的基于語義融合的域內(nèi)相似性分組網(wǎng)絡(luò)。本文的主要貢獻如下。
1) 本文網(wǎng)絡(luò)在Baseline 網(wǎng)絡(luò)的基礎(chǔ)上創(chuàng)新性地添加了兩層語義融合層,實現(xiàn)對網(wǎng)絡(luò)中間特征圖的細(xì)化處理,增強卷積神經(jīng)網(wǎng)絡(luò)提取特征的辨識度,其中,本文提出的語義融合層包含空間語義融合(SSF,spatial semantic fusion)和通道語義融合(CSF,channel semantic fusion)2 個模塊。
2) 在不增加額外計算成本的前提下,本文利用域內(nèi)行人的細(xì)粒度相似性特征,將網(wǎng)絡(luò)的輸出特征圖水平分割為兩部分,通過聚類的方法根據(jù)全局和局部各自的域內(nèi)相似性對行人進行分類,使同一行人被分配多個偽標(biāo)簽,構(gòu)成新的數(shù)據(jù)集。被分配相同偽標(biāo)簽的不同行人圖片具有許多相似性,通過新的數(shù)據(jù)集對預(yù)訓(xùn)練模型進行微調(diào)來迭代挖掘更精確的行人分類信息。
3) 與近年會議中提出的算法相比較,本文算法在DukeMTMC-ReID、Market1501和MSMT17這3 個公共數(shù)據(jù)集上的跨域識別率得到顯著提升,算法的直接效果通過熱圖以及檢索排序等方式進行展示。
最近,眾多學(xué)者密切關(guān)注跨域行人重識別算法,利用在源域中訓(xùn)練的重識別模型以提高對未標(biāo)記目標(biāo)域行人的識別性能,跨域行人重識別也稱作無監(jiān)督域自適應(yīng)行人重識別,它解決了不同域間差異性的挑戰(zhàn)。但是,由于源域訓(xùn)練的模型對目標(biāo)域中特征變化很敏感,在使用預(yù)訓(xùn)練模型適應(yīng)目標(biāo)域時必須考慮到圖像的變化,當(dāng)前無監(jiān)督域自適應(yīng)行人重識別的解決方案可以分為三類:圖像風(fēng)格遷移、中間特征對齊和基于聚類的方法[8]。
在圖像風(fēng)格遷移方法中使用基于生成對抗網(wǎng)絡(luò)[9]是當(dāng)下流行的方法。ECN(exemplar-cameraneighborhood)[10]利用遷移學(xué)習(xí)并使用示例記憶最小化目標(biāo)不變性來學(xué)習(xí)不變特征;多視圖生成網(wǎng)絡(luò)CR-GAN(context rendering GAN)[6]著眼于背景風(fēng)格,通過掩蓋目標(biāo)域圖像中的行人以保留背景雜波,疊加源域中行人和目標(biāo)域背景作為輸入圖像來訓(xùn)練模型。但是,GAN的訓(xùn)練過程復(fù)雜,而且會引入額外的計算成本,因此不適用于實際場景。
中間特征對齊方法旨在減少域間特征和圖像級別的差距,假設(shè)源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集共享一個共同的中間特征空間,該共同中間特征可以用于跨域推斷人員身份。D-MMD 損失(dissimilaritybased maximum mean discrepancy loss)[11]通過使用小批量來關(guān)閉成對距離,實現(xiàn)特征對齊;基于補丁的無監(jiān)督學(xué)習(xí)(PAUL,patch-based unsupervised learning)[12]框架假設(shè)如果兩幅圖像相似,那么圖像間存在相似的局部補丁;PAUL[12]并不學(xué)習(xí)圖像全局級別特征,而是為行人識別提供局部細(xì)節(jié)級別特征。
基于聚類的方法通常根據(jù)聚類結(jié)果生成硬偽標(biāo)簽或軟偽標(biāo)簽,然后根據(jù)帶有偽標(biāo)簽的圖像訓(xùn)練模型和交替迭代這2 個步驟使模型達到最優(yōu)。深度軟多標(biāo)簽參考學(xué)習(xí)模型MAR[13]根據(jù)特征相似性和分類概率之間的差異挖掘潛在的成對關(guān)系,然后使用對比損失加強挖掘的成對關(guān)系;UDAP(unsupervised domain adaptive person re-identification)[4]計算重排序的距離后對目標(biāo)圖像進行聚類,然后根據(jù)聚類結(jié)果生成偽標(biāo)簽;SAL(self-supervised agent learning)[14]算法通過利用一組代理作為橋梁來減少源域和目標(biāo)域之間的差異。
上述3 種域自適應(yīng)行人重識別方法在訓(xùn)練時通過縮小源域和目標(biāo)域之間的差距從而提高模型的泛化能力,然而忽略了目標(biāo)域內(nèi)同一行人自身存在一定的相似性。利用這一特性,本文對目標(biāo)域行人特征進行上下分塊,聚焦于行人圖像上下部分的非顯著性特征,用聚類的方法將兩部分特征進行聚類,為行人共分配3 種偽標(biāo)簽。
針對公共數(shù)據(jù)集內(nèi)存在的圖像尺寸和人物比例不一致的問題,近年已有研究增強對尺寸和比例變化的特征表示能力。傳統(tǒng)方法一般采用尺寸不變的特征變換,如 SIFT(scale invariant feature transform)[15]和ORB(oriented FAST and rotated BRIEF)[16];對于卷積神經(jīng)網(wǎng)絡(luò),通過圖像對稱、尺度變換和旋轉(zhuǎn)等操作對數(shù)據(jù)進行轉(zhuǎn)換。然而,此類方法采用固定尺寸的卷積核進行操作,導(dǎo)致其對于未知的轉(zhuǎn)換任務(wù)存在局限性。此外,一些其他方法自適應(yīng)地從數(shù)據(jù)域中學(xué)習(xí)空間轉(zhuǎn)換:STN(spatial transformer network)[17]通過全局參數(shù)變換來扭曲特征圖;DCN(deformable convolutional network)[18]用偏移量增加了卷積中的采樣位置,并通過端到端的反向傳播來學(xué)習(xí)偏移量。
上述方法均通過對網(wǎng)絡(luò)進行大數(shù)據(jù)量的訓(xùn)練來得到圖像變換參數(shù),這對于數(shù)據(jù)量有限的行人識別任務(wù)來說并不合適。本文提出的空間語義融合模塊計算空間語義相似度,對相同身體部位信息進行聚集,無須進行參數(shù)訓(xùn)練。而且,在語義融合層中的通道語義融合模塊通過建模計算通道之間存在的相關(guān)性,顯著增強了特征的表示能力。
參照現(xiàn)有的大多數(shù)跨域識別網(wǎng)絡(luò)在源域數(shù)據(jù)集上對模型進行預(yù)訓(xùn)練的方式,本文利用在ImageNet[19]上預(yù)訓(xùn) 練好的 ResNet50[20]作 為Baseline 網(wǎng)絡(luò)。如圖1 所示,在Baseline 網(wǎng)絡(luò)layer2和layer3后分別添加語義融合層(虛線框內(nèi)2 個深灰色層)作為主干網(wǎng),為中間特征圖融合更多語義信息。將原網(wǎng)絡(luò)最后的全連接(FC,fully connected)層替換為兩層維度分別為2 048和源域身份數(shù)的全連接層。將網(wǎng)絡(luò)輸出的特征圖F水平切分為上下兩塊Fup和Fdn,由此可以獲取更多的細(xì)粒度特征。分別對特征圖F、Fup和Fdn進行全局平均池化(GAP,global average pooling)操作得到特征向量。然后將不同行人圖像的特征向量分組并分配偽標(biāo)簽。通過最小化每組偽標(biāo)簽的三元組損失Ltri來迭代更新模型。
圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)
語義融合層依次對空間和通道信息進行融合??臻g語義融合模塊根據(jù)輸入行人圖像的姿態(tài)和尺度自適應(yīng)地確定感受野。給定來自卷積神經(jīng)網(wǎng)絡(luò)的中間特征圖,利用相似特征和相鄰特征之間的高相關(guān)性特點,自適應(yīng)地定位各種姿勢和不同比例的身體部位,以此來更新特征圖。將更新后的特征圖經(jīng)過批量歸一化(CBN,batch normalization)層與原特征圖構(gòu)成殘差結(jié)構(gòu),再將結(jié)果進行通道語義融合。通道語義融合模塊是通道之間的相關(guān)語義融合,實現(xiàn)小規(guī)模視覺線索的保留。圖2 為語義融合層的網(wǎng)絡(luò)結(jié)構(gòu),殘差結(jié)構(gòu)可以使融合層保持良好的性能。
圖2 語義融合層的網(wǎng)絡(luò)結(jié)構(gòu)
2.1.1 空間語義融合模塊
受限于卷積神經(jīng)網(wǎng)絡(luò)的固定網(wǎng)絡(luò)結(jié)構(gòu),卷積層在固定位置對特征圖進行采樣,池化層以固定比例降低空間分辨率。由于特征圖感受野一般為矩形,導(dǎo)致感受野對行人不同姿態(tài)適應(yīng)性較差。此外,固定大小的感受野對于不同尺寸的身體部位進行編碼是不合適的。為了解決這個問題,本文對中間特征圖進行空間語義融合,通過建??臻g特征的相互依賴關(guān)系,自適應(yīng)地確定每個特征的感受野,從而提高特征對身體姿勢和比例變化的穩(wěn)健性。
空間語義融合模塊如圖3 所示。假設(shè)給定一個特征圖F∈RC×H×W,其中C、H和W分別表示通道數(shù)、特征圖高度和寬度。首先,將F重塑為F∈RC×M,其中M為空間特征的數(shù)量(M=H×W);然后,從特征圖的外觀關(guān)系和位置關(guān)系兩方面對空間特征進行依賴性建模,生成語義關(guān)系圖S;最后,融合特征圖F和語義關(guān)系圖S,生成新的融合特征圖。
圖3 空間語義融合模塊
對于外觀關(guān)系,通過測量輸入特征圖中任意兩位置之間的外觀相似性來生成外觀關(guān)系映射圖。Du等[21]提到在相鄰空間位置的局部特征具有重疊的感受野,所以它們之間有較高的相關(guān)性。因此涉及相鄰位置的感受野可以獲得更精細(xì)的外觀。假設(shè)fi,fj∈RC表示特征圖F中第i個和第j個空間位置的特征,分別選取i和j位置周圍大小為E×E的感受野,然后通過累加相應(yīng)位置特征之間的點積,使用SoftMax 函數(shù)對F中的所有空間位置進行歸一化處理得到外觀相似性,計算式為
其中,pi,e和pj,e分別表示感受野大小為e的i和j位置上的特征,表示感受野大小為E對應(yīng)的外觀關(guān)系圖。
根據(jù)式(2)融合不同尺寸E的感受野,得到對身體部位更穩(wěn)健的關(guān)系圖。SoftMax 函數(shù)可以抑制不同部位較小的相似度,通過式(2)可以得到外觀關(guān)系圖S1。
其中,G為具有元素乘積的融合函數(shù),Q為不同尺度感受野的數(shù)量。
對于位置關(guān)系,行人圖像對應(yīng)于相同的身體部位特征在空間上相近,通過二維高斯函數(shù)可以計算空間特征fi和fj之間的位置關(guān)系,即
其中,(xi,yi)和(xj,yj)分別為fi和fj的位置坐標(biāo),(σ1,σ2)為二維高斯函數(shù)的標(biāo)準(zhǔn)差。通過式(4)規(guī)范化lij,使其關(guān)系值之和為1,記位置關(guān)系圖為S2。
最后,根據(jù)式(5)將外觀關(guān)系圖和位置關(guān)系圖進行融合,得到空間語義關(guān)系圖S。
為了在原特征圖內(nèi)融入空間特征,通過兩者相乘的方式得到融合特征圖Fs,計算式為
2.1.2 通道語義融合模塊
通常,卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過下采樣處理后會丟失很多細(xì)節(jié)信息,然而這些細(xì)粒度信息對于行人的區(qū)分往往起到重要的作用,比如在困難樣本對中,通過利用衣服紋理或背包等細(xì)節(jié)信息,可以區(qū)分2 個不同的身份。根據(jù)Zhang 等[22]提到的大多數(shù)高級特征的通道圖對特定部分會表現(xiàn)出不同反應(yīng),融合不同通道中的相似特征,也可以增強行人獨有的特征。
通道語義融合模塊如圖4 所示。同空間語義融合一樣,重塑特征圖為F∈RC×M,將得到的F和自身轉(zhuǎn)置矩陣FT相乘,并將結(jié)果進行歸一化處理得到通道關(guān)系圖C∈RC×C,計算式為
圖4 通道語義融合模塊
其中,fm和fn分別表示F的第m和第n通道中的特征。通過式(8)將通道關(guān)系圖和原特征圖進行融合得到新的融合特征圖Fc。
受到Wang 等[23]提出的監(jiān)督訓(xùn)練分割方法的啟發(fā),即從細(xì)粒度中可以提取出更多有用的信息??紤]到目標(biāo)數(shù)據(jù)集中行人特征從全局到局部存在潛在的相似性,本文利用密度聚類方法[24]對全局和局部特征進行聚類,結(jié)合這兩部分信息能夠獲得更穩(wěn)健和有辨識度的行人特征表示。網(wǎng)絡(luò)中語義融合層很大程度降低了可能因數(shù)據(jù)集產(chǎn)生的聚類噪音。
對于式(9)中的每組特征向量,利用密度聚類算法得到相應(yīng)的偽標(biāo)簽組,即每個身份根據(jù)它所屬的組分配一個偽標(biāo)簽。經(jīng)過主干網(wǎng)后,每張圖像xi對應(yīng)3 個偽標(biāo)簽,分別表示為因此,可以基于3 個特征向量分組結(jié)果組成一個有標(biāo)簽的數(shù)據(jù)集X,如式(10)所示。此外,如圖1 所示,特征向量fi通過一個維度為2 048的全連接層,旨在獲取一個全局嵌入向量其偽標(biāo)簽與特征向量fi共享。
為了學(xué)習(xí)到更具判別力的特征,本文在預(yù)訓(xùn)練網(wǎng)絡(luò)損失函數(shù)上聯(lián)合使用難樣本挖掘的三元組損失和SoftMax 交叉熵?fù)p失。為每個小批量隨機采樣P個身份和K個實例,以滿足難樣本三元組損失的要求。三元組損失函數(shù)為
對于Baseline 網(wǎng)絡(luò)的訓(xùn)練,利用SoftMax 交叉熵?fù)p失提高網(wǎng)絡(luò)判別學(xué)習(xí)能力,其計算式為
其中,ya,i為第i個身份的K張圖像中第a張圖像的真實標(biāo)簽,H為身份的數(shù)量。通過式(13)將2 種損失函數(shù)進行組合,從而實現(xiàn)對預(yù)訓(xùn)練網(wǎng)絡(luò)的更新。
對于域遷移網(wǎng)絡(luò)的訓(xùn)練,目標(biāo)域圖片輸入網(wǎng)絡(luò)后,將聚類生成的偽標(biāo)簽作為監(jiān)督信息,使用三元組損失對預(yù)訓(xùn)練模型進行跨域自適應(yīng)微調(diào)。損失函數(shù)包含全局、上分塊、下分塊、全局嵌入4 個部分,計算式為
實驗主要在3 個行人數(shù)據(jù)集上對網(wǎng)絡(luò)進行評估,包括Market1501[25]、DukeMTMC-ReID[26]和MSMT17[27]。
Market1501[25]數(shù)據(jù)集圖像由6 臺相機捕捉,共包含身份1501 個,總圖像數(shù)量達到32 668 張。其中,訓(xùn)練集身份有751 個,圖像有12 936 張;query 圖像共有3 368 張,身份有750 個;gallery 圖像共有15 913張;身份有751 個。
DukeMTMC-ReID[26]數(shù)據(jù)集是由8 臺相機捕捉的包含1 812 個不同行人的重識別公開數(shù)據(jù)集,其中有1 404 個身份同時出現(xiàn)在2 臺及以上的相機中,其余408 個身份用作干擾項。數(shù)據(jù)集包含訓(xùn)練集圖像共有16 522 張,身份有702 個;query 圖像共有2 228 張,身份有702 個;gallery 圖像共有17 661 張,身份有1 110 個。
MSMT17[27]數(shù)據(jù)集是一個接近真實場景的大型數(shù)據(jù)集,由15 個相機捕捉圖像共有126 441 張,身份有4 101 個。其中訓(xùn)練集圖像有30 248 張,身份有1 041 個;query 圖像有11 659 張,身份3 060 個;gallery 圖像共有82 161 張,身份有3 060 個。
如第1 節(jié)所述,首先對Baseline 用源域數(shù)據(jù)集進行訓(xùn)練,采用Zhong 等[32]使用的方法進行訓(xùn)練。將輸入圖片的大小調(diào)整為256×128,采用隨機裁剪、翻轉(zhuǎn)和隨機擦除對數(shù)據(jù)進行增強;為滿足難樣本三元組損失的要求,將每個mini-batch 用隨機選擇的P=16個身份進行采樣,并從訓(xùn)練集中為每個身份隨機采樣K=8張圖片,得到mini-batch 為128 張,將三元組損失的邊緣參數(shù)α設(shè)置為0.5??臻g語義融合模塊中感受野的數(shù)量Q設(shè)置為3(如式(2))。由于ResNet[20]不同階段特征圖空間大小不同,因此本文采用不同的標(biāo)準(zhǔn)差(如式(3)),添加到layer2后的語義融合層σ1和σ2設(shè)置為10和20,添加到layer3后的語義融合層σ1和σ2設(shè)置為5和10。在訓(xùn)練中使用權(quán)重衰減為0.000 5的Adam[33]優(yōu)化器來優(yōu)化70個epoch的參數(shù)。初始學(xué)習(xí)率設(shè)置為 6 × 10?5,在7個epoch 后將學(xué)習(xí)率調(diào)整為 1.8 × 10?5,再經(jīng)過7 個epoch 學(xué)習(xí)率調(diào)整為 1.8 × 10?6,一直訓(xùn)練到結(jié)束。
在3 個公共數(shù)據(jù)集上,將本文算法與近年頂級會議文章所提出的算法進行比較。將行人重識別任務(wù)通用的累積匹配特性中的Rank 識別準(zhǔn)確率(R-1、R-5、R-10)和均值平均精度(mAP,mean average precision)作為評價指標(biāo),評價模型在數(shù)據(jù)集上的性能。比較結(jié)果如表1和表2 所示,所有數(shù)據(jù)均不經(jīng)過重排序處理。
表1 不同算法在DukeMTMC-ReID和Market1501的實驗結(jié)果
表2 不同算法在MSMT17的實驗結(jié)果
不同算法在MSMT17的實驗結(jié)果如表1 所示,包括8 種通過聚類形成偽標(biāo)簽的算法UDAP[4]、MAR[13]、ECN[10]、CDS[29]、UCDA[5]、SAL[14]、DCJ[31]和NSSA[30];2 種通過域風(fēng)格遷移的算法CR-GAN[6]和PDA-Net[7];3種特征對齊算法ARN[28]、D-MMD[11]和PAUL[12]。其中,CR-GAN[6]在DukeMTMC-ReID泛化到Market1501的mAP和R-1 表現(xiàn)最好,本文算法在網(wǎng)絡(luò)復(fù)雜度上遠(yuǎn)低于CR-GAN[6],而且mAP提高2.3%,R-1 提高0.9%。在數(shù)據(jù)集Market1501泛化到DukeMTMC-ReID的結(jié)果中,本文算法表現(xiàn)更好,和上述算法中表現(xiàn)最好的DCJ[31]相比mAP 提高了1.5%,R-1 提高了3.4%。
表2為DukeMTMC-ReID和Market1501 分別泛化到MSMT17的實驗結(jié)果。MSMT17 數(shù)據(jù)集包含的身份更多且攝像頭視角更多,數(shù)據(jù)集包含較多存在身體錯位和遮擋等問題的圖片,更接近現(xiàn)實場景,難度較大。與表2 中性能最優(yōu)的MMCL[35]算法相比,本文算法在DukeMTMC→MSMT17 上mAP提高 1.2%,R-1 提高 1.7%;在 Market1501→MSMT17 上mAP 提高0.8%,R-1 提高1.4%。
本節(jié)首先將模型在DukeMTMC-ReID 數(shù)據(jù)集上進行預(yù)訓(xùn)練,然后在Market1501 數(shù)據(jù)集上進行消融研究,最后通過實驗分別驗證語義融合層中各部分和特征細(xì)粒度分塊的有效性。
在添加的語義融合層內(nèi),空間語義融合模塊中感受野尺寸E(如式(1))的選擇對識別準(zhǔn)確率有較大影響。如表3 所示,不同尺寸E的感受野較Baseline 識別準(zhǔn)確率均有所提高,但當(dāng)E進一步增大到5 時,準(zhǔn)確率開始下降。感受野的不斷增大會忽略一些關(guān)鍵身份信息。本文在式(2)中對不同感受野對應(yīng)的關(guān)系圖進行融合時,選取感受野數(shù)量Q=3得到最優(yōu)的實驗結(jié)果。
表3 不同感受野尺寸E的感受野對實驗結(jié)果的影響
對于融合函數(shù)G的選取,本文實驗將逐元素求最大值、累加以及相乘3 種函數(shù)作比較,實驗數(shù)據(jù)如表4 所示。在Q=3的情況下,融合函數(shù)對經(jīng)過尺度分別為1、2、3的感受野所獲得的外觀相似圖進行融合,從表4 中可知,對應(yīng)位置逐元素求最大值、累加和相乘的融合函數(shù)較Baseline 網(wǎng)絡(luò)的識別準(zhǔn)確率均有所提升,其中逐元素相乘的融合函數(shù)對結(jié)果提升最為顯著。
表4 融合函數(shù)G 對實驗結(jié)果的影響
對于網(wǎng)絡(luò)的整體結(jié)構(gòu),本節(jié)分別對語義融合層中空間語義融合和通道語義融合模塊進行消融實驗,實驗結(jié)果如表5 所示。通過分析,Baseline 網(wǎng)絡(luò)分別添加空間語義融合和通道語義融合模塊對識別準(zhǔn)確率均有所提升。將二者按先空間后通道的方式串聯(lián)到一起,組合成語義融合層添加到Baseline 網(wǎng)絡(luò)中,對識別準(zhǔn)確率的提升最大:mAP 提高4%,R-1 提高3.1%。由此可見,添加語義融合層可以獲取更多有效的行人特征信息,從而提高識別準(zhǔn)確率。
表5 不同語義模塊對實驗結(jié)果的影響
對于網(wǎng)絡(luò)輸出特征圖,本節(jié)在水平分塊的數(shù)目上進行了消融實驗。通過表6 可知,將網(wǎng)絡(luò)輸出特征圖分為上下兩部分能得到最佳識別準(zhǔn)確率。通過分析可知,當(dāng)不進行分塊時,特征圖丟失了有用的細(xì)粒度信息;當(dāng)分塊較多時,由于數(shù)據(jù)集圖像內(nèi)存在一些身體錯位和被遮擋的圖像,導(dǎo)致在經(jīng)過密度聚類時會產(chǎn)生較多噪聲信息和較差的相似性挖掘以及匹配。因此,本文對網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計時將分塊數(shù)確定為2。
表6 不同分塊數(shù)對實驗結(jié)果的影響
為了更直觀地體現(xiàn)網(wǎng)絡(luò)在Baseline 上的改進,本節(jié)使用DukeMTMC-ReID 數(shù)據(jù)集進行預(yù)訓(xùn)練,使用Market1501 數(shù)據(jù)集進行訓(xùn)練和測試,使用熱圖[36]和檢索排序?qū)嶒灲Y(jié)果進行可視化分析。
熱圖共有4 組圖片,如圖5 所示。每組圖中,第一張圖像為Market1501 數(shù)據(jù)集行人圖片,第二張為經(jīng)過Baseline 網(wǎng)絡(luò)的熱圖,第三張為經(jīng)過本文網(wǎng)絡(luò)的熱圖。從圖5 中可以看出,Baseline 網(wǎng)絡(luò)由于固定感受野,所以只關(guān)注行人的局部信息,當(dāng)圖像整體色調(diào)相近時(如圖5(a)所示),Baseline 網(wǎng)絡(luò)對行人的關(guān)注會被背景所干擾,本文方法將不同尺寸的感受野進行融合,實現(xiàn)了更關(guān)注行人主體的效果;當(dāng)背景較為復(fù)雜時(如圖5(d)所示),Baseline網(wǎng)絡(luò)的關(guān)注完全偏離了人物,而本文的改進網(wǎng)絡(luò)表現(xiàn)依舊穩(wěn)定。
圖5 熱圖
圖6 分別展示了Baseline 網(wǎng)絡(luò)和本文網(wǎng)絡(luò)在Market1501 數(shù)據(jù)集上識別實例的檢索排序結(jié)果。每張行人圖像上方的“√”和“×”分別表示查詢結(jié)果的正確與否。可以看到經(jīng)過本文網(wǎng)絡(luò)的實驗結(jié)果在R-1、R-5 上的識別準(zhǔn)確率都較高且穩(wěn)定。其中,第二組行人的衣著相似難以辨認(rèn),Baseline 網(wǎng)絡(luò)在第二位置識別錯誤的行人圖像在本文網(wǎng)絡(luò)的識別結(jié)果排序中排第八位,且本文網(wǎng)絡(luò)未出現(xiàn)其他識別錯誤圖像。由此可見,在面對特征相似的行人圖像時,本文網(wǎng)絡(luò)依舊可以得到很好的識別效果。
圖6 檢索排序結(jié)果
本文提出了一種基于語義融合的域內(nèi)相似性分組網(wǎng)絡(luò)。語義融合層對于行人圖片自適應(yīng)生成不同尺度的感受野,增強了空間特征之間的相互依賴關(guān)系,通過融合通道信息進一步提高了網(wǎng)絡(luò)的表示能力。實驗結(jié)果表明,相比于未添加語義融合層前的網(wǎng)絡(luò),本文網(wǎng)絡(luò)的mAP 提高4.0%。此外,本文提出的網(wǎng)絡(luò)采用分塊的方式對目標(biāo)域內(nèi)細(xì)粒度相似性信息進行挖掘,得到更精確的行人分類信息。實驗數(shù)據(jù)表明,分塊聚類相比于未進行分塊處理的網(wǎng)絡(luò)mAP 提高5.0%。為了進一步增強網(wǎng)絡(luò)在現(xiàn)實環(huán)境中的泛化性,在后續(xù)的工作中本文將采用不同光照和塵霧環(huán)境的數(shù)據(jù)集對網(wǎng)絡(luò)進行訓(xùn)練。對于行人被遮擋的情況,本文會為網(wǎng)絡(luò)添加行人遮擋模塊使網(wǎng)絡(luò)具備一定的抗遮擋能力。