• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      結(jié)合注意力與局部特征融合的行人重識別算法

      2022-07-21 09:47:32陳林鋒雷景生吳宏毅朱陳思聰葉仕超
      計算機工程與應(yīng)用 2022年14期
      關(guān)鍵詞:分支全局行人

      陳林鋒,雷景生,吳宏毅,朱陳思聰,葉仕超

      浙江科技學(xué)院 信息與電子工程學(xué)院,杭州 310000

      隨著安防需求的日益增加,越來越多的攝像頭安裝在學(xué)校、游樂園、銀行、停車場、社區(qū)等場所,形成了大型分布式監(jiān)控網(wǎng)絡(luò)。成熟的監(jiān)控網(wǎng)絡(luò)能夠切實保障社會的平穩(wěn)運行、人身以及財產(chǎn)安全。學(xué)校安裝攝像頭可以保證學(xué)生的人身以及財產(chǎn)安全,銀行可以通過監(jiān)控視頻識別與跟蹤不法分子,社區(qū)安裝攝像頭來保證居民的人身以及財產(chǎn)安全。在面對不同攝像頭下行人身份關(guān)聯(lián)的問題時,由于攝像機拍攝角度以及分辨率的原因,無法得到可靠的人臉圖片進行身份識別,這時候就需要行人重識別技術(shù)。行人重識別是指在跨攝像頭跨場景下行人的識別與檢索,即給定一個要查詢的人,確定這個人是否在不同的時間出現(xiàn)在另一個地方,由不同的攝像頭捕捉到。由于光照變化、攝像頭視角變化、行人在視頻畫面中姿態(tài)變化以及遮擋等問題的存在,使得同一行人在不同時刻不同場景下被攝像頭捕捉到的圖像差別很大,這為行人重識別帶來了巨大的挑戰(zhàn)[1]。

      近年來,隨著機器學(xué)習(xí)的理論以及應(yīng)用取得了巨大的進步,深度學(xué)習(xí)作為其重要分支,也在各個領(lǐng)域大放異彩?;谏疃葘W(xué)習(xí)的行人重識別方法增強了表征信息的提取,促進了度量學(xué)習(xí)方法的革新,提升了在各個數(shù)據(jù)集上的檢索性能。

      全局特征學(xué)習(xí)方法通過使用先進的深度學(xué)習(xí)技術(shù)來提取行人的表征信息,然而,在光照、遮擋等不受限的環(huán)境下,只依靠全局特征的行人重識別方法無法解決較大的類內(nèi)差異,通常會導(dǎo)致檢索性能大幅下降,無法再準(zhǔn)確識別行人[2]。為了解決這個問題,基于局部特征的方法廣泛地應(yīng)用到行人重識別問題當(dāng)中。Sun等人[3]提出了基于局部的卷積網(wǎng)絡(luò),將從特征提取器獲得的特征水平分割成若干塊,對每一個特征塊提取細粒度局部信息,同時利用精修部件池化(refined part pool)改善直接分塊造成邊緣粗糙的缺點。Wang等人[4]將特征圖進行分割來提取多粒度的行人肢體語義信息。模型采用了三分支結(jié)構(gòu),一個分支用來提取全局特征,其他兩個分支用于局部特征表示,通過融合全局信息以及具有辨識力的多粒度局部信息來增強行人的特征表達。由于圖片中行人的身體各部位有不對齊的情況,直接使用基于局部特征的方法在計算特征相似度時會帶來噪聲,Suh等人[5]提出了基于身體部位對齊的雙流網(wǎng)絡(luò),其預(yù)訓(xùn)練權(quán)重由姿勢估計數(shù)據(jù)集訓(xùn)練而得,一個分支用于提取全局外觀特征,另一個分支用于提取局部身體特征,并通過雙線性池化將兩者進行融合。Zhang等人[6]提出了基于密集語義對齊的行人重識別模型,通過引入DensePose(dense human pose estimation in the wild)來定位行人身體各個部件,有效地解決了空間語義不對齊問題,同時也解決了姿態(tài)變化、遮擋等常見問題,顯著地提高了算法的精度。Sun等人[7]提出一種可見性感知局部模型(visibility-aware part model),VPM可估計出兩張行人圖像之間的共享區(qū)域,并在評估圖片相似性時聚焦共享區(qū)域,顯著提高了行人重識別的準(zhǔn)確率。

      注意力機制因其增強重要特征以及抑制無關(guān)特征的特性被廣泛應(yīng)用在行人重識別領(lǐng)域當(dāng)中,它能夠改善行人姿態(tài)變化、視角變化、檢測器檢測誤差等問題帶來的干擾[8]。Li等人[9]聯(lián)合硬注意力與軟注意力機制學(xué)習(xí)區(qū)域級別和像素級別的重要特征來解決同一行人不同圖片之間差距大的問題,同時提出了交叉注意力交互學(xué)習(xí)機制(cross-attention interaction)來高效地聯(lián)合學(xué)習(xí)全局特征與局部特征。Chen等人[10]采用不同階次的注意力模塊提取高階統(tǒng)計量,從而顯著增強了注意力信息的辨別力和豐富性。此外,引入對抗學(xué)習(xí)約束來防止模型在訓(xùn)練階段時高階模塊坍塌為低階模塊。Xia等人[11]結(jié)合非局部機制與二階注意力來挖掘特征圖中點與點之間相關(guān)性,有效學(xué)習(xí)到豐富的全局信息,在局部分支加入了DropBlock進行特征擦除來提升模型的魯棒性。Chen等人[12]將一對互補的注意力模塊融入到骨干網(wǎng)絡(luò)中,分別提取通道以及空間域的注意力信息,避免注意力機制過度集中于前景,同時引入正交規(guī)范化對特征空間以及神經(jīng)網(wǎng)絡(luò)權(quán)重進行約束以確保重識別特征的多樣性。Park等人[13]提出基于非局部機制的關(guān)系網(wǎng)絡(luò),充分考慮了身體各個部位與其他部位之間的關(guān)系,使得每個局部特征都包含了相應(yīng)部位本身以及身體其他部位的信息,使其更具區(qū)分性,并提出全局對比池化來(global contrast pool)獲得行人圖片的細粒度全局特征。

      鑒于注意力機制與局部特征學(xué)習(xí)方法對行人姿態(tài)變化、遮擋、視角變化等問題的魯棒性,本文提出了結(jié)合注意力與局部特征融合的行人重識別算法。該算法將ResNeSt-50[14]作為特征提取器,由雙分支結(jié)構(gòu)組成,分別提取行人細粒度全局和局部特征,通過關(guān)注不同特征之間共享的空間域信息以及同一特征不同水平區(qū)域之間的特征相關(guān)性,提出了空間感知特征融合模塊(spatial-aware feature fusion module)以及跨區(qū)域特征融合模塊(cross-region feature fusion module)。在Market-1501[15]、DukeMTMC-reID[16]以及CUHK03[17]數(shù)據(jù)集上的實驗結(jié)果表明該算法極大程度上提升了網(wǎng)絡(luò)的檢索能力,同時與現(xiàn)有算法進行比較,凸顯出優(yōu)越性能。

      1 結(jié)合注意力與局部特征融合的算法介紹

      1.1 算法網(wǎng)絡(luò)框架

      ResNet-50憑借其引入的殘差結(jié)構(gòu),使得網(wǎng)絡(luò)能夠向更深的方向發(fā)展,提取到豐富的高層語義信息,避免了出現(xiàn)梯度爆炸和梯度消失問題。目前絕大部分行人重識別工作都選擇ResNet-50[18]作為骨干網(wǎng)絡(luò)來提取行人圖像的初始特征。然而,像ResNet等一系列基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)是針對圖像分類而設(shè)計,這些基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)會受到感受野的限制同時缺乏跨通道之間的相互作用。最近,新提出的ResNeSt在圖像分類、對象檢測、實例分割和語義分割任務(wù)中達到了最先進的性能,它通過基于通道的注意力機制來捕獲跨通道之間的關(guān)系。此外,它采用核大小為3×3的平均池化來代替ResNet-50中使用3×3卷積來進行下采樣,這樣不會損失很多空間信息。ResNeSt網(wǎng)絡(luò)目前在行人重識別任務(wù)中還未廣泛使用,本文選用最新的ResNeSt-50作為骨干網(wǎng)絡(luò)來拓展其在行人重識別任務(wù)中的應(yīng)用。

      圖1給出了本文提出的行人重識別網(wǎng)絡(luò)結(jié)構(gòu)圖,與單純使用ResNeSt-50不同的是,在ResNeSt-50的每個split-attention block中融入了空間感知特征融合模塊,目的是對不同的特征圖進行跨通道關(guān)聯(lián)之前,讓每一個特征圖經(jīng)過一個共享權(quán)重的空間域注意力模塊,這樣能夠幫助網(wǎng)絡(luò)先挑選重要的特征并抑制無關(guān)的噪聲,進一步增強特征魯棒性的同時加快網(wǎng)絡(luò)的收斂。

      圖1 算法網(wǎng)絡(luò)框架Fig.1 Algorithm network framework

      基于全局特征的單流網(wǎng)絡(luò)結(jié)構(gòu)能夠從圖像中提取行人身上顯著的辨別特征,來區(qū)分不同身份的行人,但是單流結(jié)構(gòu)無法提取關(guān)鍵的非顯著性特征,而且學(xué)習(xí)到的特征容易受背景信息的干擾,在面對遮擋、行人姿態(tài)變化等問題時很難完成行人身份的分類[19]。為了解決這個問題,多分支結(jié)構(gòu)被廣泛應(yīng)用在行人重識別任務(wù)中,通過多個分支學(xué)習(xí)不同粒度信息來獲得更強大的行人表征,例如雙流結(jié)構(gòu)以及三分支結(jié)構(gòu)等[20]。雖然多分支結(jié)構(gòu)能夠挖掘更豐富的語義信息,增強網(wǎng)絡(luò)的檢索能力,但同時也加大了網(wǎng)絡(luò)訓(xùn)練的難度,減慢了網(wǎng)絡(luò)的收斂。因此本文在設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)上,選用雙流網(wǎng)絡(luò)結(jié)構(gòu),這樣不僅可以通過多分支結(jié)構(gòu)增強行人的特征表示,而且不會因為過多的網(wǎng)絡(luò)分支造成訓(xùn)練難以收斂[21]。在圖1中,從ResNeSt-50 Layer1,2,3開始分開為兩個分支,分別是全局分支(global branch)以及部件關(guān)聯(lián)分支(part-association branch)。其中,全局分支強調(diào)學(xué)習(xí)行人整體的表征信息,部件關(guān)聯(lián)分支則強調(diào)學(xué)習(xí)行人各個身體部位的細粒度表征信息。在全局分支中,行人圖片通過ResNeSt-50 Layer1,2,3后,進入到ResNeSt-50 Layer4時使用下采樣,之后特征圖經(jīng)過平均池化層,核大小為12×4,得到2 048維特征向量。該特征向量先通過一個全連接層,得到1 024維的輸出特征fg_1,fg_1在測試階段被視為行人圖片的全局特征,在訓(xùn)練階段用來計算硬三元組損失。接著,fg_1進入一個全連接層得到輸出特征fg_2,此特征向量在訓(xùn)練階段用來計算交叉熵損失。在部件關(guān)聯(lián)分支中,與全局分支不同的是進入到ResNeSt-50 Layer4時為了保留足夠的語義信息,沒有使用下采樣,之后特征圖經(jīng)過降維層(Reduction)后進入跨區(qū)域特征融合模塊,讓每個身體部位的特征融合到其他身體部位來增強局部特征的豐富性,使得網(wǎng)絡(luò)能夠自適應(yīng)地關(guān)注到圖片中的行人區(qū)域,減少背景噪聲的干擾。模塊生成的各個局部特征先通過一個卷積塊進行特征融合,再經(jīng)過平均池化層得到1 024維的輸出特征fp_1,其在測試階段被視為行人圖片的局部特征,在訓(xùn)練階段用來計算硬三元組損失。接著,fp_1進入一個全連接層得到輸出特征fp_2,此特征向量在訓(xùn)練階段用來計算交叉熵損失。網(wǎng)絡(luò)將行人圖片的全局特征fg_1與局部特征fp_1按通道方向拼接在一塊,組成2 048維特征向量ftotal作為行人圖片的特征表示,如公式(1)所示:

      1.2 空間感知特征融合模塊

      由于ResNeSt網(wǎng)絡(luò)結(jié)構(gòu)中融入了基于通道的注意力機制,因此能夠捕獲跨通道的潛在語義信息,獲得更加精細化的行人表征。在行人重識別任務(wù)中,除了利用通道間的相互作用來增強特征的區(qū)別力之外,還可以捕獲空間域的重要特征信息,增強網(wǎng)絡(luò)學(xué)習(xí)行人特征表示的辨別能力,提升算法精度。鑒于以上分析,采用軟注意力機制,抑制特征圖中的噪聲,引導(dǎo)網(wǎng)絡(luò)關(guān)注對識別行人身份起到關(guān)鍵作用的空間位置,從而為后續(xù)的跨通道交互起到互補作用。

      給定在ResNeSt的某一個Bottleneck中分組卷積后輸出的特征映射組F={F1,F2,…,FT},即該分組卷積的結(jié)果有T個特征圖。如圖2(b)所示,輸入的每一個特征圖都先經(jīng)過一個共享權(quán)重的空間注意力塊(spatial attention block)來優(yōu)化空間信息,最后將每一個優(yōu)化后的特征圖進行累加融合,其結(jié)果作為跨通道交互的輸入特征。在圖2(a)中,空間注意力塊的輸入特征先通過一個按通道方向取每個特征位置平均值的全局池化層(Pool),從而得到通道數(shù)為1的三維特征向量,再經(jīng)過三個3×3卷積層(φ1、φ2、φ3)來擴大感受野,捕獲更豐富的空間信息,利用Sigmoid函數(shù)將卷積操作后的特征向量映射成空間注意力矩陣Xt,輸入特征與該注意力矩陣點乘后的結(jié)果通過一個殘差結(jié)構(gòu)得到優(yōu)化過空間信息的特征圖。特征映射組F經(jīng)過此空間感知特征融合模塊后得到融合特征,如公式(2)、公式(3)所示:

      圖2 空間注意力塊和空間感知特征融合模塊Fig.2 Spatial attention block and spatial-aware feature fusion module

      1.3 跨區(qū)域特征融合模塊

      最近的一些工作表明基于局部特征學(xué)習(xí)的方法有助于挖掘行人精細化表示,減少因遮擋產(chǎn)生的噪聲[11]。相比于其他方法將特征圖水平劃分為若干個區(qū)域并對這些區(qū)域采用池化方法來直接獲得局部特征不同,本文方法基于非局部注意力機制,充分考慮不同身體部件之間潛在的語義相關(guān)性,通過遍歷融合不同部位的局部特征來挖掘關(guān)鍵的非顯著性信息。數(shù)據(jù)經(jīng)過ResNeSt-50 Layer1,2,3之后,進入部件關(guān)聯(lián)分支學(xué)習(xí)細粒度局部特征,通過ResNeSt-50 Layer4,進入跨區(qū)域特征融合模塊學(xué)習(xí)不同身體部位之間的潛在語義信息,該模塊分為空間關(guān)聯(lián)注意力以及通道聚合注意力兩個子模塊。給定輸入特征P∈RC×H×W,其中C是特征圖的通道總數(shù),H和W分別是特征圖的高和寬。首先把P水平劃分為K個特征區(qū)域Pi∈RC×(H/K)×W,將這些特征區(qū)域經(jīng)過空間關(guān)聯(lián)注意力子模塊,利用不同身體部件之間的空間位置的相關(guān)性進行局部特征融合來得到輸出特征Ps_i,再將這些特征輸入到通道聚合注意力子模塊學(xué)習(xí)通道域中不同身體部件之間的非顯著信息,最后得到精細化行人局部特征Ps_c_i。通過聯(lián)合行人的細粒度全局特征和細粒度局部特征,行人特征的完整性以及豐富性得到進一步提升,網(wǎng)絡(luò)的檢索能力也因此大大增強。在圖1中展示了跨區(qū)域特征融合模塊的框架結(jié)構(gòu),對其各個子模塊的詳細說明如下。

      1.3.1 空間關(guān)聯(lián)注意力子模塊

      水平劃分的局部特征Pi∈RC×(H/K)×W首先拼接成完整特征圖P∈RC×H×W,再讓特征圖P通過兩個1×1卷積層(γs,μs)進行降維得到兩個輸出特征,對這兩個特征進行reshape操作后的結(jié)果分別進行矩陣乘積以及Sigmoid激活函數(shù)得到空間注意力系數(shù)矩陣As。為了挖掘局部特征的空間域相關(guān)性,根據(jù)Pi與Pj在特征圖P中的位置,即可從系數(shù)矩陣中找到Pj對應(yīng)于Pi的空間相關(guān)系數(shù)子矩陣As_i_j,如公式(4)所示:

      由于單個局部特征內(nèi)部的相關(guān)性較高而局部特征之間的相關(guān)性較低,為了挖掘到更多關(guān)鍵但非顯著的重要特征,在特征融合操作時沒有將局部特征本身的空間相關(guān)性As_i_i計算在內(nèi)。在圖3中,特征融合操作通過殘差結(jié)構(gòu)和一個1×1卷積層(σs)得到局部特征Pi的對應(yīng)輸出特征,如公式(5)所示:

      圖3 空間關(guān)聯(lián)注意力Fig.3 Spatial association attention(SAA)

      1.3.2 通道聚合注意力子模塊

      在行人重識別任務(wù)中,高層特征的通道往往有很強的相關(guān)性,一些通道共享相似的語義信息,例如衣服、鞋子、褲子、背景等。通過挖掘每個局部特征與其他局部特征之間的通道相關(guān)性來進行特征融合,增強重識別特征的豐富性與多樣性。

      從空間關(guān)聯(lián)注意力子模塊輸出的特征圖Ps_i按通道方向拼接成完整特征圖,將Ps與自身reshape操作后的特征圖進行矩陣乘積再通過歸一化得到通道注意力系數(shù)矩陣Ac。為了挖掘局部特征的通道域相關(guān)性,根據(jù)Ps_i與Ps_j在特征圖Ps中的位置,即可從系數(shù)矩陣中找到Ps_j對應(yīng)于Ps_i的通道相關(guān)系數(shù)子矩陣Ac_i_j,如公式(6)所示:

      同樣考慮到局部特征內(nèi)部的相關(guān)性較高而局部特征之間的相關(guān)性較低,在特征融合操作時沒有將局部特征本身的通道相關(guān)性Ac_i_i計算在內(nèi)。特征融合操作通過殘差結(jié)構(gòu)和一個1×1卷積層(σc)得到局部特征Ps_i的對應(yīng)輸出特征,如公式(7)所示:

      1.4 損失函數(shù)

      為了在訓(xùn)練過程中讓網(wǎng)絡(luò)學(xué)習(xí)到有身份鑒別力的特征,使用交叉熵損失(cross entropy loss)作為損失函數(shù)之一。交叉熵損失用來度量網(wǎng)絡(luò)預(yù)測類別分布與真實類別發(fā)布的差異性,被廣泛應(yīng)用于機器學(xué)習(xí)以及深度學(xué)習(xí)的分類問題當(dāng)中。在行人重識別任務(wù)中使用交叉熵損失意味著將重識別問題轉(zhuǎn)化為分類問題,即給定一張行人圖片,判斷它屬于哪個身份并把它歸到那一類別。通過將身份信息作為監(jiān)督信號,能夠有效地引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)到具有身份鑒別力的特征表示,保證在訓(xùn)練過程網(wǎng)絡(luò)能夠平穩(wěn)收斂。然而,行人重識別本質(zhì)上是一個圖像檢索問題,它通過比較查詢圖片與候選圖片之間的特征相似性進行排序,排名越靠前的圖片越有可能是與查詢圖片具有相同的身份。度量學(xué)習(xí),即相似度學(xué)習(xí),近幾年被廣泛應(yīng)用在模式識別領(lǐng)域,它采用神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,目標(biāo)是使得不同類別的圖片相似度小而相同類別的圖片相似度大。因此,將硬三元組損失(hard triplet loss)[22]作為另一個損失函數(shù)來引入度量學(xué)習(xí)。網(wǎng)絡(luò)將原始像素域信息映射到編碼空間,硬三元組損失通過拉近相同類別圖片距離的同時加大不同類別圖片的距離來達到聚類的效果,因此基于硬三元損失的模型更適用于行人重識別領(lǐng)域。由于僅僅依靠硬三元組損失進行模型訓(xùn)練會缺乏身份監(jiān)督信號,導(dǎo)致訓(xùn)練過程緩慢,因此聯(lián)合交叉熵損失與硬三元損失作為模型的損失函數(shù),這樣不僅引入了身份監(jiān)督信號,能夠?qū)W習(xí)到具有身份鑒別力的特征,加速網(wǎng)絡(luò)的平穩(wěn)收斂,而且拉近了同類圖片距離的同時加大不同類別圖片的距離,提升了檢索性能。

      對于交叉熵損失,本文的目標(biāo)是減少預(yù)測標(biāo)簽分布與真實分布的差異性來學(xué)習(xí)行人的身份鑒別力特征。在圖1中,把網(wǎng)絡(luò)學(xué)習(xí)到的特征fp_2與fg_2用于計算交叉熵損失。交叉熵定義如公式(8)所示,其中N表示一個批次行人圖片總數(shù),C表示訓(xùn)練集行人標(biāo)簽總數(shù),qi,j表示預(yù)測的標(biāo)簽概率,pi,j表示真實的標(biāo)簽。

      對于硬三元組損失,本文的目標(biāo)是讓距離最遠的相同標(biāo)簽的行人圖片距離小于最近的不同標(biāo)簽的行人圖片距離來提升檢索的準(zhǔn)確性。在圖1中,把網(wǎng)絡(luò)學(xué)習(xí)到的特征fp_1與fg_1用于計算硬三元組損失。硬三元組損失定義如公式(9)所示,其中分別是采樣得到的錨、積極以及消極特征,這里的積極是指與錨具有相同的標(biāo)簽,消極是指與錨的標(biāo)簽不同,P指的是一個批次采樣的行人標(biāo)簽總數(shù),R表示對一個行人標(biāo)簽采樣的圖片個數(shù),m是用來約束不同類別樣本距離的閾值。

      2 實驗

      2.1 數(shù)據(jù)集

      本文使用的數(shù)據(jù)集是在行人重識別任務(wù)中廣泛使用的Market-1501、DukeMTMC-reID以及CUHK03。

      Market-1501數(shù)據(jù)集是在清華大學(xué)校園內(nèi)通過5個高分辨率攝像頭和1個低分辨率攝像頭拍攝到的1 501個行人、32 668張行人圖片。數(shù)據(jù)集提供訓(xùn)練集以及測試集的劃分,其中訓(xùn)練集包含751個行人、12 936張行人圖片,測試集包含750個行人、19 732張行人圖片,每類圖片最少被2個攝像頭拍攝到。

      DukeMTMC-reID數(shù)據(jù)集是在杜克大學(xué)校園內(nèi)通過8個高分辨率攝像頭拍攝到的1 812個行人、36 411張行人圖片。數(shù)據(jù)集提供訓(xùn)練集以及測試集劃分,其中訓(xùn)練集包含702個行人、16 522張行人圖片,訓(xùn)練集包含702個行人、17 661張行人圖片,并且提供了手工標(biāo)注的邊界框(bounding box)。

      CUHK03數(shù)據(jù)集是在香港大學(xué)校園內(nèi)通過5對攝像頭拍攝到的1 467個行人、14 097張行人圖片,提供檢測器檢測(Detected)和人工標(biāo)注(Labeled)兩個數(shù)據(jù)集。采取新的測試協(xié)議,將訓(xùn)練集和測試集中行人個數(shù)分別劃分為767和700。相比于舊版本,新測試協(xié)議的訓(xùn)練圖片大大減少而測試圖片大大增加,因此加大了重識別的難度。

      選擇第n次命中準(zhǔn)確率(Rank-n)以及平均匹配度(mAP)作為網(wǎng)絡(luò)在數(shù)據(jù)集上測試效果的評價指標(biāo)。Rank-n表示待查詢圖像與候選庫圖像按照相似度從大到小排序的前n張候選圖片中存在與查詢圖像屬于同一身份的準(zhǔn)確率,計算如公式(10)所示,其中N表示查詢數(shù)據(jù)集中行人的數(shù)目,即總共進行N次查詢和排序,ri表示在按相似度排序后的候選圖片中第一個與查詢圖片屬于同一身份的行人圖像的位置。

      mAP計算公式如公式(11)所示,其中C表示行人身份的類別數(shù),AP(c)表示行人身份c的平均精度。平均精度是指同一個類別的每個待查詢行人圖像的精確率累加之和與該類樣本總數(shù)G的比值,AP的計算如公式(12)所示。精確率Precision指的是檢索出來的正樣本中正確的比例,Precision計算如公式(13)所示,其中TP表示被預(yù)測為正樣本,實際上也是正樣本的樣本數(shù)目,F(xiàn)P表示被預(yù)測為負樣本,實際上是正樣本的樣本數(shù)目。

      在所有實驗中,不使用重新排序(re-ranking)算法以及多次查詢?nèi)诤希╩ulti-query fusion)進一步提升評價性能。

      2.2 實施細節(jié)

      遵循常見的行人重識別設(shè)置,將所有圖像的大小調(diào)整為384×128,并通過隨機翻轉(zhuǎn)、隨機裁剪和隨機擦除來增強訓(xùn)練圖像。使用在ImageNet[23]上預(yù)訓(xùn)練的ResNeSt-50作為骨干網(wǎng)絡(luò),在其網(wǎng)絡(luò)結(jié)構(gòu)中去掉最后的全局平均池化以及全連接層。為了在部件關(guān)聯(lián)分支中保留足夠的語義信息,把Layer4下采樣層中平均池化的核大小設(shè)置為1×1,stride設(shè)置為1。使用Adam作為梯度優(yōu)化器,將學(xué)習(xí)率初始設(shè)置為0.000 3,并在訓(xùn)練階段的第30輪以及第60輪衰減10倍直至訓(xùn)練結(jié)束。批量大小設(shè)置為64,P=16,R=4,T=2,m=0.3,K=4。使用兩階段遷移學(xué)習(xí)算法來訓(xùn)練網(wǎng)絡(luò)參數(shù),首先凍結(jié)骨干網(wǎng)絡(luò)的權(quán)重,僅僅訓(xùn)練分類器150輪,然后將整個網(wǎng)絡(luò)再訓(xùn)練300輪。本文方法在pytorch框架上實現(xiàn),并在一塊3.6 GHz的Intel i9-9900KF CPU和NVIDIA TITAN RTX GPU環(huán)境下訓(xùn)練,所有數(shù)據(jù)集共享與上述相同的實驗設(shè)置。

      2.3 現(xiàn)有方法的對比實驗

      在本節(jié)中,將提出的方法與現(xiàn)有的最先進方法在三個主流數(shù)據(jù)集上進行對比來表明本文方法的優(yōu)越性能,具體在每個數(shù)據(jù)集上的情況說明如下。

      2.3.1 Market-1501

      表1中展示了在該數(shù)據(jù)集上本文提出的方法與現(xiàn)有最先進方法的比對結(jié)果,在該數(shù)據(jù)集上實現(xiàn)了95.9%Rank-1、98.7%Rank-5、99.2%Rank-10以及89.1%mAP。

      表1 在Market-1501數(shù)據(jù)集上的對比結(jié)果Table 1 Results comparisons over Market-1501 %

      對比使用單一局部特征的PCB,本文方法挖掘局部特征之間的相關(guān)性來增強行人表征的豐富性,分別在Rank-1和mAP提高3.6和11.7個百分點。對比同樣把ResNeSt-50作為骨干網(wǎng)絡(luò)的FastReID,本文方法分別在Rank-1和mAP提升了0.9和2.1個百分點,這得益于本文結(jié)合注意力以及局部特征融合的方法,增強重識別特征多樣性的同時提高了其魯棒性。GCP雖然充分地考慮身體各部位之間的相關(guān)性來挖掘具有身份鑒別力的特征,但是直接地水平劃分身體部件區(qū)域會導(dǎo)致邊界粗糙,本文提出的方法在局部關(guān)聯(lián)分支劃分身體部件之前已經(jīng)通過一系列軟注意力機制來優(yōu)化邊界特征,分別在Rank-1和mAP性能提升了0.7和0.2個百分點。

      2.3.2 DukeMTMC-reID

      在表2中,本文方法在該數(shù)據(jù)集上達到了89.1%Rank-1、94.3%Rank-5、95.8%Rank-10以及78.9%mAP。

      表2 在DukeMTMC-reID數(shù)據(jù)集上的對比結(jié)果Table 2 Results comparisons over DukeMTMC-reID %

      和只考慮局部特征的PCB相比,本文模型聯(lián)合全局特征以及局部特征來提升行人表征的完整性,分別在Rank-1和mAP提高了7.4和12.8個百分點。P2Net雖然充分挖掘行人以及外部裝飾的特征來提升精度,但是網(wǎng)絡(luò)的關(guān)注區(qū)域容易被行人圖片的背景所干擾,本文方法分別在Rank-1、Rank-5、Rank-10以及mAP提高了2.6、1.2、0.8、5.8個百分點。和充分考慮身體各個部位與其他部位之間的關(guān)系的GCP相比,本文模型在Rank-1上低了0.6個百分點,但在mAP上提高了0.3個百分點,這是由于該數(shù)據(jù)集的行人圖片被遮擋現(xiàn)象嚴(yán)重,存在較多的背景干擾,GCP在該數(shù)據(jù)集上的魯棒性比較強。

      2.3.3 CUHK03

      該數(shù)據(jù)集的標(biāo)注分為檢測器檢測(Detected)與人工標(biāo)注(Labeled)兩種。在Labeled數(shù)據(jù)集中,本文方法達到了85.5%Rank-1和82.1%mAP,在Detected數(shù)據(jù)集中,該方法達到了83.3%Rank-1和77.8%mAP,如表3。

      本文方法在這兩個數(shù)據(jù)集上的性能大大超過其他方法,在Detected數(shù)據(jù)集Rank-1、mAP上提高了3.7和3.3個百分點,在Labeled數(shù)據(jù)集Rank-1、mAP上提高了4.4和4.7個百分點。本文方法與僅提取局部特征的PCB相比,在Detected數(shù)據(jù)集Rank-1、mAP上提高了19.6和20.3個百分點。對比同樣考慮身體部件關(guān)聯(lián)的GCP,將其原有性能提高了大約10個百分點,這得益于本文模型提取的細粒度全局特征以及細粒度局部特征,提高了行人表征的鑒別力,提高了重識別特征的完整性。

      2.4 消融實驗

      為了驗證本文提出的每個注意力模塊的有效性以及探索局部特征劃分個數(shù)的問題。在Market-1501、DukeMTMC-reID和CUHK03這三個數(shù)據(jù)集上設(shè)計了幾個不同設(shè)置的消融實驗。

      表3 在CUHK03數(shù)據(jù)集上的對比結(jié)果Table 3 Results comparisons over CUHK03 %

      首先驗證注意力模塊的有效性,實驗的具體設(shè)置顯示在表4中,其中SFFM表示空間感知特征融合模塊,SAA表示跨區(qū)域特征融合模塊中的空間關(guān)聯(lián)注意力子模塊,CAA表示跨區(qū)域特征融合模塊中的通道聚合注意力子模塊。在表格的前兩行可以看到,為了驗證SFFM的有效性,在ResNeSt的split-attention block結(jié)構(gòu)中融入SFFM顯著提高了行人重識別的性能,在CUHK03-Labeled的Rank-1和mAP上提升3.9和3.8個百分點,在CUHK03-Detected的Rank-1和mAP上提升3.5和3.6個百分點。為了驗證不同特征融合模塊對模型性能的影響,在第三、四行分別對ResNeSt-50結(jié)構(gòu)中增加SAA以及CAA,可以看到不管是SAA還是CAA都有助于模型性能的提升。實驗結(jié)果表明,將SAA融入ResNeSt-50結(jié)構(gòu)后,在CUHK03-Labeled的Rank-1和mAP上提升6.7和5.7個百分點,在CUHK03-Detected的Rank-1和mAP上提升6.2和5.3個百分點,這得益于空間關(guān)聯(lián)子模塊將不同身體部位進行關(guān)聯(lián),來學(xué)習(xí)身體部件之間的空間位置的相關(guān)性,增強局部特征的鑒別力。將CAA融入ResNeSt-50結(jié)構(gòu)后,在CUHK03-Labeled的Rank-1和mAP上提升5.1和6.9個百分點,在CUHK03-Detected的Rank-1和mAP上提升5.5和6.5個百分點,這得益于通道聚合子模塊通過挖掘局部特征與其他局部特征的通道相關(guān)性,來加強學(xué)習(xí)局部特征之間的非顯著性信息。第五行將它們聯(lián)合使用,進一步提高了精確度。為了驗證軟注意力(SFFM)與非局部注意力(SAA、CAA)的互補作用,從第六行開始分別對它們不同的組合進行實驗,可以看到無論哪一種組合都比舍棄對應(yīng)模塊的性能要強得多。最后一行將所有模塊組合在一起,實驗結(jié)果表明它在這兩個數(shù)據(jù)集上達到最先進的性能。整個模型在CUHK03-Labeled的Rank-1和mAP上相較于單流網(wǎng)絡(luò)ResNeSt-50分別提升了12.8和13.1個百分點,在CUHK03-Detected的Rank-1和mAP上相較于單流網(wǎng)絡(luò)ResNeSt-50分別提升了13.2和12.5個百分點,這表明全局分支與部件關(guān)聯(lián)分支具有互補作用,通過聯(lián)合網(wǎng)絡(luò)分支結(jié)構(gòu)學(xué)習(xí)到的細粒度全局特征與細粒度局部特征,提高了重識別特征的完整性與準(zhǔn)確性,極大程度增強了模型的檢索性能。

      其次,研究了部件關(guān)聯(lián)分支中身體部件劃分個數(shù)對模型性能的影響,在圖4中展示了不同身體部件劃分個數(shù)的模型在不同數(shù)據(jù)集上mAP指標(biāo)的變化??梢钥吹诫S著部件數(shù)量的增加,mAP在不同數(shù)據(jù)集上的趨勢都是先逐步升高再緩慢下降,當(dāng)部件數(shù)量設(shè)置為4時在各個數(shù)據(jù)集上的性能達到最高。這個觀察結(jié)果表明,局部特征的劃分個數(shù)會直接影響模型的性能,過少的部件數(shù)不能充分提取細粒度局部特征而過多的部件數(shù)會減弱部件關(guān)聯(lián)分支的效果,進而降低特征表達的能力。

      圖4 不同部件數(shù)量的對比實驗Fig.4 Comparative experiment of different part numbers

      接著,利用Grad-Cam[31]可視化了一些圖像在不同模型中關(guān)注的區(qū)域情況。如圖5所示,第1列為輸入到模型的原始圖像,第2列和第3列分別是ResNeSt-50和本文提出的模型的圖像熱力圖。在圖5中,和ResNeSt-50相比,本文模型的關(guān)注區(qū)域更集中在行人身上以及覆蓋區(qū)域更廣,這是因為通過聯(lián)合軟注意力和非局部注意力機制來挖掘更多的全局信息,提升了關(guān)注區(qū)域的豐富性,還利用身體部件之間的關(guān)聯(lián)性來融合不同層次的語義信息,增強了關(guān)注區(qū)域的魯棒性。

      表4 注意力模塊的消融實驗Table 4 Ablation experiment of attention modules %

      圖6 Market-1501數(shù)據(jù)集部分圖像查詢結(jié)果Fig.6 Market-1501 dataset partial image query results

      圖5 Market-1501數(shù)據(jù)集部分圖像熱力圖Fig.5 Market-1501 dataset partial image heatmap

      圖6展示了在遮擋、背景雜亂、圖片分辨率低等復(fù)雜情況下ResNeSt-50與本文算法的一些查詢前5名的對比結(jié)果。第一、二、三排行人的查詢圖片在被背包遮擋的情況下,本文算法相較于ResNeSt-50仍然可以準(zhǔn)確地檢索,這是由于本文算法融合了軟注意力以及非局部注意力機制,模型能夠發(fā)現(xiàn)更多具有鑒別力的行人特征,因此誤檢率更低。第四排、第五排查詢圖像在背景雜亂以及圖片模糊的情況下,本文算法相比于ResNeSt-50有更好的檢索性能,即使圖片出現(xiàn)較大的不對齊情況,仍然能找出對應(yīng)圖片,這得益于部件關(guān)聯(lián)分支充分地挖掘局部特征之間的潛在語義關(guān)系,使得算法提取到的細粒度局部特征提升了行人表征的魯棒性與豐富性。

      3 結(jié)束語

      在本文中,基于ResNeSt-50骨干網(wǎng)絡(luò),提出了結(jié)合注意力與局部特征融合的方法,通過兩個分支網(wǎng)絡(luò),分別提取行人的細粒度全局特征和細粒度局部特征。通過聯(lián)合軟注意力以及非局部注意力機制挖掘更豐富的全局信息,讓網(wǎng)絡(luò)提取到的特征更具區(qū)分力,同時通過挖掘身體各個部件之間的潛在語義相關(guān)性,融合不同層次的語義信息,增強了行人表征的魯棒性與豐富性,通過聯(lián)合全局特征與局部特征的方法進一步提升了行人表征的完整性,提高了網(wǎng)絡(luò)的重識別性能。將ResNeSt網(wǎng)絡(luò)高效地應(yīng)用在行人重識別任務(wù),促進其在更多領(lǐng)域上的推廣。大量實驗證明,提出的每個注意力模塊的有效性以及提出的方法相較于現(xiàn)有方法的優(yōu)越性。

      猜你喜歡
      分支全局行人
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      巧分支與枝
      路不為尋找者而設(shè)
      揚子江(2019年1期)2019-03-08 02:52:34
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      一類擬齊次多項式中心的極限環(huán)分支
      我是行人
      新思路:牽一發(fā)動全局
      生成分支q-矩陣的零流出性
      德保县| 内乡县| 丰宁| 保定市| 开平市| 客服| 屯门区| 古浪县| 通榆县| 霍林郭勒市| 潍坊市| 和平县| 镇平县| 措勤县| 湾仔区| 阿拉善左旗| 武邑县| 金昌市| 西吉县| 曲沃县| 滦平县| 济源市| 绥滨县| 辽中县| 荆州市| 平遥县| 焦作市| 汨罗市| 荣成市| 黑水县| 平南县| 平顺县| 澎湖县| 乐至县| 车险| 沂源县| 广平县| 泾阳县| 崇文区| 丹巴县| 阜新|