• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度多視圖特征距離學(xué)習(xí)的行人重識(shí)別

      2019-10-23 12:23鄧軒廖開陽鄭元林袁暉雷浩陳兵
      計(jì)算機(jī)應(yīng)用 2019年8期
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

      鄧軒 廖開陽 鄭元林 袁暉 雷浩 陳兵

      摘 要:傳統(tǒng)手工特征很大程度上依賴于行人的外觀特征,而深度卷積特征作為高維特征,直接用來匹配圖像會(huì)消耗大量的時(shí)間和內(nèi)存,并且來自較高層的特征很容易受到行人姿勢(shì)背景雜波影響。針對(duì)這些問題,提出一種基于深度多視圖特征距離學(xué)習(xí)的方法。首先,提出一種新的整合和改善深度區(qū)域的卷積特征,利用滑框技術(shù)對(duì)卷積特征進(jìn)行處理,得到低維的深度區(qū)域聚合特征并使其維數(shù)等于卷積層通道數(shù);其次,通過交叉視圖二次判別分析方法,從深度區(qū)域聚合特征和手工特征兩個(gè)角度出發(fā),提出一種多視圖特征距離學(xué)習(xí)算法;最后,利用加權(quán)融合策略來完成傳統(tǒng)特征和卷積特征之間的協(xié)作。在Market-1501和VIPeR數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,所提融合模型的 Rank1 值在兩個(gè)數(shù)據(jù)集上分別達(dá)到80.17% 和75.32%;在CUHK03數(shù)據(jù)集新分類規(guī)則下,所提方法的 Rank1 值達(dá)到33.5%。實(shí)驗(yàn)結(jié)果表明,通過距離加權(quán)融合之后的行人重識(shí)別的精度明顯高于單獨(dú)的特征距離度量取得的精度,驗(yàn)證了所提的深度區(qū)域特征和算法模型的有效性。

      關(guān)鍵詞:行人重識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);區(qū)域聚合特征;加權(quán)融合策略;距離度量

      中圖分類號(hào):?TP183; TP391.4

      文獻(xiàn)標(biāo)志碼:A

      Person re-identification based on deep multi-view feature distance learning

      DENG Xuan1, LIAO Kaiyang1,2*, ZHENG Yuanlin1,3, YUAN Hui1, LEI Hao1, CHEN Bing1

      Abstract:?The traditional handcrafted features rely heavily on the appearance characteristics of pedestrians and the deep convolution feature is a high-dimensional feature, so, it will consume a lot of time and memory when the feature is directly used to match the image. Moreover, features from higher levels are easily affected by human pose or background clutter. Aiming at these problems, a method based on deep multi-view feature distance learning was proposed. Firstly, a new feature to improve and integrate the convolution feature of the deep region was proposed. The convolution feature was processed by the sliding frame technique, and the integration feature of low-dimensional deep region with the dimension equal to the number of convolution layer channels was obtained. Secondly, from the perspectives of the deep regional integration feature and the handcrafted feature, a multi-view feature distance learning algorithm was proposed by utilizing the cross-view quadratic discriminant analysis method. Finally, the weighted fusion strategy was used to accomplish the collaboration between handcrafted features and deep convolution features. Experimental results show that the Rank1 value of the proposed method reaches 80.17% and 75.32% respectively on the Market-1501 and VIPeR datasets; under the new classification rules of CHUK03 dataset, the Rank1 value of the proposed method reaches 33.5%. The results show that the accuracy of pedestrian re-identification after distance-weighted fusion is significantly higher than that of the separate feature distance metric, and the effectiveness of the proposed deep region features and algorithm model are proved.

      Key words:?person re-identification; Convolutional Neural Network (CNN); regional integration feature; weighted fusion strategy; distance metric

      0 引言

      行人重識(shí)別問題是通過多個(gè)攝像機(jī)視圖判斷行人是否為同一目標(biāo)的過程,當(dāng)前已廣泛應(yīng)用于跟蹤任務(wù)的視頻分析和行人檢索中。但是在實(shí)際生活中,由于行人重識(shí)別受到視角、光照、姿態(tài)、背景雜波和遮擋等因素的影響,使得行人圖像在不重疊的攝像機(jī)視圖中的差異性較大,如何減少和降低這種差異性對(duì)行人重識(shí)別的影響,是當(dāng)前行人重識(shí)別中存在的巨大問題和面臨的嚴(yán)峻挑戰(zhàn)。

      特征表示和度量學(xué)習(xí)是行人重識(shí)別系統(tǒng)中的兩個(gè)基本要素,而且由于特征表示是構(gòu)成距離度量學(xué)習(xí)的基礎(chǔ),使其在行人重識(shí)別系統(tǒng)中顯得尤為重要。雖然度量學(xué)習(xí)具有一定的有效性,但它很大程度上取決于特征表示的質(zhì)量。因此,當(dāng)前許多研究致力于開發(fā)更加復(fù)雜和具有魯棒性的特征,用以描述可變條件下的視覺外觀,可以將其提取的特征劃分為兩類:傳統(tǒng)特征和深度特征。

      部分學(xué)者對(duì)傳統(tǒng)特征的研究多集中于設(shè)計(jì)具有區(qū)分性和不變性特征,著手于不同外觀特征的拼接,克服了重識(shí)別任務(wù)中的交叉視圖的外觀變化,使得識(shí)別更加可靠。Liao等[1]提出局部最大出現(xiàn)特征(Local Maximal Occurrence Feature, LOMO)來表示每個(gè)行人圖像的高維特征,不僅從圖像中提取尺度不變的局部三元模式(Scale Invariant Local Ternary Pattern, SILTP)和HSV(Hue, Saturation, Value)顏色直方圖以形成高級(jí)描述符,還分析局部幾何特征的水平發(fā)生,并最大化出現(xiàn)以穩(wěn)定地表示行人圖像。

      當(dāng)前深度學(xué)習(xí)提供了一種強(qiáng)大的自適應(yīng)方法來處理計(jì)算機(jī)視覺問題,而無需過多地對(duì)圖像進(jìn)行手工操作,廣泛應(yīng)用于行人重識(shí)別領(lǐng)域。部分研究側(cè)重于通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)框架學(xué)習(xí)特征和度量,將行人重新編碼作為排序任務(wù),將圖像對(duì)[2]或三元組[3]輸入CNN。由于深度學(xué)習(xí)需要依賴于大量的樣本標(biāo)簽,因而使得該方法在行人重識(shí)別領(lǐng)域中具有應(yīng)用的局限性。

      度量學(xué)習(xí)旨在開發(fā)一種判別式匹配模型來測(cè)量樣本相似性,例如針對(duì)類內(nèi)樣本數(shù)目少于類間樣本數(shù)目的情況,丁宗元等[4]提出了基于距離中心化的相似性度量算法。Kestinger等[5]通過計(jì)算類內(nèi)和類間協(xié)方差矩陣之間的差異,設(shè)計(jì)了簡單而有效的度量學(xué)習(xí)方法,但是所提出的算法對(duì)特征表示的維度非常敏感。作為一種改進(jìn),Liao等[1]通過同時(shí)學(xué)習(xí)更具辨別性的距離度量和低維子空間提出了一種交叉視圖二次判別分析(Cross-view Quadratic Discriminant Analysis, XQDA)方法。從實(shí)驗(yàn)結(jié)果來看,XQDA是一種可以實(shí)現(xiàn)高性能的魯棒性方法。

      卷積神經(jīng)網(wǎng)絡(luò)提取的特征對(duì)圖像具有較強(qiáng)的描述能力,通??梢蕴崛∪S的卷積特征以及單維的全連接特征向量,但卷積層特征比全連接層特征更適合用來識(shí)別圖像,故本文使用微調(diào)過的Resnet-50模型作為研究的網(wǎng)絡(luò)模型,提取其卷積層的特征。由于卷積特征是三維特征,如果將其展成一維的特征向量,其維數(shù)必然很高,使用高維特征在數(shù)據(jù)庫中的圖像進(jìn)行匹配,必然會(huì)花費(fèi)大量的時(shí)間,增加計(jì)算的復(fù)雜度。因此如何將三維特征變成一維,并能夠保證特征的簡單化是本次研究的一個(gè)核心問題,基本思路是將通過滑框操作,將三維的卷積特征壓縮成一維的特征向量。由于來自較高層的特征具有大的感受野,容易受到人類姿勢(shì)和背景雜波的污染,不能充分地應(yīng)用于行人的重識(shí)別。而手工制作的不同的外觀特征,旨在克服重新識(shí)別任務(wù)中的跨視圖外觀變化,有時(shí)會(huì)更加獨(dú)特和可靠。所以本次研究的另一個(gè)核心問題是如何通過操作完成深度特征和傳統(tǒng)手工特征的融合,使之相互影響、互相協(xié)作,進(jìn)而提高識(shí)別的準(zhǔn)確度。于是,本次研究利用區(qū)域特征向量聚合的方法,在微調(diào)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,提出了一個(gè)新的低維深度特征向量,并提出了一種深度多視圖特征距離學(xué)習(xí)的算法模型,從深度區(qū)域聚合特征和傳統(tǒng)手工特征兩個(gè)角度出發(fā),利用加權(quán)策略,以一種有效的方式完成深度特征與傳統(tǒng)手工特征之間的協(xié)作,用參數(shù)加權(quán)融合來調(diào)整兩個(gè)特征的相對(duì)重要性。

      本文的工作主要體現(xiàn)在以下兩個(gè)方面:

      1)提出新的區(qū)域特征向量聚合的方法,將高維卷積特征向量變成低維的全局特征向量,并提高了圖像局部信息的描述能力。

      2)提出了深度多視圖特征距離學(xué)習(xí)的新方案,從深度區(qū)域聚合特征和傳統(tǒng)手工特征兩個(gè)角度出發(fā),通過XQDA度量學(xué)習(xí)完成傳統(tǒng)特征和深度特征之間的協(xié)作,利用參數(shù)加權(quán)融合的方式來判斷傳統(tǒng)特征和深度特征的相對(duì)重要性。

      1 相關(guān)工作

      特征表示是行人重識(shí)別的基本問題。許多現(xiàn)有的研究集中于開發(fā)強(qiáng)大和復(fù)雜的特征來描述在顯著不同的條件下產(chǎn)生的高度可變的視覺外觀。

      手工制作的特征經(jīng)常用于行人識(shí)別,例如通過利用對(duì)稱和不對(duì)稱的感性主體,F(xiàn)arenzena等[6]提取了三種特征類型來模擬人類外觀,包括最大穩(wěn)定顏色區(qū)域、加權(quán)顏色直方圖和經(jīng)常性高結(jié)構(gòu)色塊。LOMO通過分析局部特征的水平發(fā)生,并最大化出現(xiàn)以穩(wěn)定地表示重新識(shí)別圖像。這些方法對(duì)解決低分辨率和遮擋圖像以及姿態(tài)、照明和視點(diǎn)變化帶來的識(shí)別問題都很有效。由于傳統(tǒng)的顏色信息不是描述顏色的最有效的方法,張耿寧等[7]將顏色標(biāo)簽特征與顏色和紋理特征融合,并通過區(qū)域和塊劃分的方式提取直方圖來描述圖像特征。不同外觀組合成的傳統(tǒng)特征向量通常維數(shù)較高,為了解決這個(gè)問題,孫金玉等[8]提出典型相關(guān)分析(Canonical Correlation Analysis, CCA)方法進(jìn)行特征投影變換,通過提高特征匹配能力來避免高維特征運(yùn)算引起的維數(shù)災(zāi)難問題,

      鑒于CNN的成功,使用CNN學(xué)習(xí)深度特征最近受到關(guān)注。目前有許多研究在尋求行人外觀的獨(dú)特和有效特征的組合,并且證明利用集成編碼的補(bǔ)充信息來發(fā)現(xiàn)完整數(shù)據(jù)表示的多視圖特征是可行的。Wu等[2]提出的特征融合網(wǎng)絡(luò)(Feature Fusion Network, FFN)將卷積神經(jīng)網(wǎng)絡(luò)(CNN)深度特征和手工提取的特征(RGB、HSV、YCbCr、Lab、YIQ五種顏色空間提取的顏色特征和多尺度多方向Gabor濾波器提取的紋理特征)相結(jié)合,認(rèn)為傳統(tǒng)的直方圖特征可以補(bǔ)充CNN特征,并將兩者融合,得到了一個(gè)更具辨別性和緊密性的新的深度特征表示。Tao等[9]提出用折衷參數(shù)來完成深度特征與傳統(tǒng)特征的協(xié)作,文中所構(gòu)建的網(wǎng)絡(luò)模型卷積層數(shù)少,深度特征采用全連接層特征。相比之下,對(duì)于特定任務(wù)的識(shí)別來說,較高的卷積層特征更適合用于圖像識(shí)別,故本文采用微調(diào)的深度網(wǎng)絡(luò)模型,并對(duì)卷積特征采用滑框操作,形成區(qū)域特征向量,并利用加權(quán)融合策略來判斷深度區(qū)域特征和LOMO特征的相對(duì)重要性。

      子空間 W 通過學(xué)習(xí)優(yōu)化廣義瑞利熵來得到:

      J( w )=? w T Σ E w?? w T Σ I w

      (5)

      其中具有交叉視圖數(shù)據(jù)的子空間 W =( w 1, w 2,…, w r),表示在r維子空間中去學(xué)習(xí)交叉視圖相似性度量的距離函數(shù)。

      來自不同攝像機(jī)下的一對(duì)行人樣本數(shù)據(jù)( x i, x j)在子空間 W 的距離函數(shù)如式(6)所示:

      d( x i, x j)= ( x i- x j)T W ×(( W T Σ I W )-1-( W T Σ E W )-1)× W T( x i- x j)

      (6)

      2.4 加權(quán)融合策略

      由于提出的深度特征學(xué)習(xí)模型與實(shí)際問題直接相關(guān),但來自較高層的特征可能受到行人姿勢(shì)背景雜波等顯著變化的污染,不能充分地定位于行人的重識(shí)別;并且深度網(wǎng)絡(luò)依賴大量的樣本標(biāo)簽,而傳統(tǒng)的LOMO特征與樣本數(shù)量無關(guān),在克服重新識(shí)別任務(wù)中的跨視圖外觀變化時(shí)會(huì)更加可靠。所以整合兩種特征的編碼補(bǔ)充信息以克服它們各自的缺陷是有效的。

      具體而言,從深度區(qū)域聚合特征和LOMO特征這兩個(gè)角度考慮,XQDA從這兩個(gè)特征分別學(xué)習(xí)測(cè)試庫和查詢庫圖像之間的距離?;?LOMO、本文提出的DRIF兩個(gè)特征,采用式(6)定義的距離函數(shù)可分別獲取每個(gè)特征優(yōu)化的距離度量,如式(7)所示:

      dk( x ik, x jk)= ( x ik- x jk)T W k×(( W Tk Σ I W k)-1-

      ( W Tk Σ E W k)-1)× W kT( x ik- x jk)

      (7)

      式中:k分別代表LOMO和DRIF兩個(gè)不變特征。

      為了更好地表達(dá)傳統(tǒng)和深度學(xué)習(xí)功能之間的協(xié)作,最終用于排序的距離可以通過以下加權(quán)平均方案將深度特征得到的距離與傳統(tǒng)特征得到的距離融合:

      d=αdLOMO+(1-α)dDRIF

      (8)

      其中

      參數(shù)0≤α≤1用來調(diào)整區(qū)域聚合深度特征和傳統(tǒng)特征的相對(duì)重要性。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 數(shù)據(jù)集和評(píng)估協(xié)議

      本文使用三個(gè)重識(shí)別數(shù)據(jù)集,其中在兩個(gè)大規(guī)模行人重識(shí)別基準(zhǔn)數(shù)據(jù)集Market-1501[12]和CUHK03[13]上進(jìn)行實(shí)驗(yàn),這兩個(gè)數(shù)據(jù)集包含每個(gè)測(cè)試圖像的多個(gè)正樣本。另外,本文還在具有挑戰(zhàn)性的數(shù)據(jù)集VIPeR上進(jìn)行重識(shí)別實(shí)驗(yàn)。

      本文使用三個(gè)重識(shí)別數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),包括:Market-1501[12]、CUHK03[13]和VIPeR,它們的

      具體信息如表1所示。其中:#ID表示數(shù)據(jù)集中含有的行人身份;#image表示數(shù)據(jù)集中含有的行人的圖像的數(shù)量;#camera表示該數(shù)據(jù)集使用的相機(jī)的數(shù)量;evaluation表示實(shí)驗(yàn)中對(duì)數(shù)據(jù)集所用的評(píng)估方法。

      所有行人圖像的大小調(diào)整為224×224,用調(diào)整后的行人圖像來微調(diào)網(wǎng)絡(luò),提取卷積特征。

      Market-1501是目前最大的基于圖像的行人基準(zhǔn)數(shù)據(jù)集。它包含32668個(gè)標(biāo)記的邊界框,其中包含從不同視點(diǎn)捕獲的1501個(gè)身份,每個(gè)行人身份的圖像最多由6臺(tái)攝像機(jī)拍攝。根據(jù)數(shù)據(jù)集設(shè)置,將數(shù)據(jù)集分為兩部分:訓(xùn)練集有751人,包含12936張圖像;測(cè)試集有750人,包含19732張圖像。

      實(shí)驗(yàn)時(shí),從測(cè)試集中人為選取750 人,共有3368幅圖像作為查詢集合,對(duì)于查詢集中給定的行人樣本,需要在測(cè)試集中找出和該樣本一樣的行人,最后根據(jù)相似度排名給出識(shí)別結(jié)果。

      CUHK03包含1467位行人的13164幅圖像。每個(gè)行人都是由CUHK校園的兩臺(tái)攝像機(jī)拍攝的,每位行人在一個(gè)攝像頭下平均有4.8張圖像。該數(shù)據(jù)庫提供了labeled和detected兩個(gè)數(shù)據(jù)集,本文對(duì)這兩個(gè)數(shù)據(jù)集分別進(jìn)行了實(shí)驗(yàn)。

      VIPeR是行人重識(shí)別中使用最廣泛的數(shù)據(jù)集,包含632個(gè)行人,每個(gè)行人包含不同視點(diǎn)中的兩幅圖像,這使得難以從兩個(gè)不同的視點(diǎn)中匹配同一個(gè)人。此外,諸如拍攝地點(diǎn)、照明條件和圖像質(zhì)量等其他變化也使得匹配相同行人更加困難。因此,VIPeR數(shù)據(jù)集具有挑戰(zhàn)性。

      本文將行人重識(shí)別作為圖像檢索問題來處理,使用Rank1即第一次命中的匹配準(zhǔn)確率和平均準(zhǔn)確率(mean Average Precision, mAP)兩個(gè)評(píng)估指標(biāo)來評(píng)估Market-1501和CUHK03數(shù)據(jù)集上重識(shí)別方法的性能,而使用累計(jì)匹配曲線(Cumulative Matching Characteristic, CMC)來評(píng)估數(shù)據(jù)集VIPeR上重識(shí)別方法的性能。

      3.2 在Market-1501上的實(shí)驗(yàn)

      本文首先在最大的基于圖像的重識(shí)別數(shù)據(jù)集上評(píng)估提出的算法模型。在此數(shù)據(jù)集中,在微調(diào)的ResNet-50上提取最后一層卷積特征,并對(duì)產(chǎn)生的卷積映射進(jìn)行滑框操作,產(chǎn)生多個(gè)局部特征向量,經(jīng)過L2歸一化處理,并直接相加操作后,得到低維的深度特征,其向量維數(shù)等于卷積層通道數(shù),故得到的新的深度特征向量維數(shù)為2048維。接著使用LOMO特征和本文提出的區(qū)域整合特征向量通過參數(shù)α的加權(quán)融合完成二者的協(xié)作。在此數(shù)據(jù)集上,本文設(shè)置滑框尺度L=4,加權(quán)參數(shù)α=0.5,用參數(shù)α加權(quán)來評(píng)估傳統(tǒng)LOMO特征和區(qū)域聚合深度特征的相對(duì)重要性。

      與本文提出的算法模型Fusion Model進(jìn)行比較的算法包括:

      對(duì)稱驅(qū)動(dòng)的局部特征積累(Symmetry-Driven Accumulation of Local Features, SDALF)[6],詞袋模型(Bag-of-Words model, BOW)[12],LOMO[1],CAN[14],ID判別嵌入(ID-discriminative Embedding, IDE)[15](其中IDE(C)表示所用模型為Caffe,IDE(R)表示所用模型為Resnet-50),姿態(tài)不變嵌入(Pose Invariant Embedding, PIE)[161和Spindle Net[17]。

      表2的結(jié)果顯示,本文的Fusion Model與PIE(Res50)相比Rank 1性能要高1.52個(gè)百分點(diǎn)。本文提出了深度區(qū)域聚合特征向量(DRIF),在此特征向量的基礎(chǔ)上提出了距離融合模型,所以將本文的Fusion Model與DRIF相比較,Rank1的值提高了3.77個(gè)百分點(diǎn),mAP值提高了5.46個(gè)百分點(diǎn),說明本文提出的算法模型是有效的。

      為了說明通過微調(diào)網(wǎng)絡(luò)得到的新的區(qū)域整合特征向量的魯棒性,將XQDA度量應(yīng)用于新的區(qū)域整合向量與另外幾種已有的特征包括BOW[12]、LOMO[1]、IDE(C)[15]、IDE(R)[15]進(jìn)行比較,結(jié)果如表3所示,本文提出的DRIF特征與IDE(R)特征相比Rank1值提高了4.99個(gè)百分點(diǎn),mAP值提高了7.15個(gè)百分點(diǎn)。

      圖2是三個(gè)示例圖片的查詢結(jié)果,對(duì)應(yīng)每一幅查詢圖片,右邊第一行和第二行分別是使用IDE和DRIF特征得到的排名結(jié)果,框中的行人圖片表示與查詢圖屬于同一個(gè)行人。由圖2可以看出,對(duì)于DRIF特征,在排名列表頂部能夠得到更多正確匹配的行人,而正確匹配的行人圖片在IDE的排名列表中被遺漏,進(jìn)一步說明本文提出的DRIF特征是具有判別性的。

      3.3 在CUHK03上的實(shí)驗(yàn)

      在CUHK03上數(shù)據(jù)集上,本文使用類似于Market-1501的新訓(xùn)練/測(cè)試協(xié)議重新評(píng)估性能。新協(xié)議將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,分別由767個(gè)行人和700個(gè)行人組成。在測(cè)試中,從每個(gè)攝像機(jī)中隨機(jī)選擇一個(gè)圖像作為每個(gè)圖像的查詢,并使用其余圖像構(gòu)建測(cè)試。新協(xié)議將數(shù)據(jù)集均勻地劃分為訓(xùn)練集和測(cè)試集,有利于避免重復(fù)訓(xùn)練和測(cè)試。對(duì)于CUHK03數(shù)據(jù)集的新的分類情況如表4所示。

      本文設(shè)置滑框尺度L=4、加權(quán)參數(shù)α=0.5,表5的結(jié)果表明,本文提出的Fusion Model比LOMO特征[1]、IDE(C)[15]和IDE(R)[15]得到的性能要好。

      本文提出的Fusion Model與DRIF相比:在訓(xùn)練集“Labeled”上的Rank1值要高2.3個(gè)百分點(diǎn),mAP值要高2.8個(gè)百分點(diǎn);在測(cè)試集“Detected”上的Rank1值要高2.5個(gè)百分點(diǎn),mAP值要高2.0個(gè)百分點(diǎn)。這說明本文提出的加權(quán)融合模型(Fusion Model)是有效的。

      3.4 在VIPeR上的實(shí)驗(yàn)

      VIPeR數(shù)據(jù)集包含的行人圖像樣本數(shù)量少,因此無法用該數(shù)據(jù)集的圖像作為標(biāo)簽來微調(diào)網(wǎng)絡(luò),所以本文采用的仍然是使用Market-1501數(shù)據(jù)集的圖像微調(diào)過的Resnet-50模型。實(shí)驗(yàn)結(jié)果表明,在提取同一層卷積特征,并都對(duì)卷積特征進(jìn)行區(qū)域特征提取的條件下,使用微調(diào)過后的模型比未改進(jìn)的模型效果要好,說明使用行人重識(shí)別數(shù)據(jù)集微調(diào)網(wǎng)絡(luò)使模型對(duì)于判別不同身份的行人是非常有效的。

      本文采用了廣泛使用的CMC方法對(duì)性能進(jìn)行定量評(píng)估。 對(duì)于VIPeR,隨機(jī)選取大約一半人(316人)進(jìn)行訓(xùn)練,其余人員用于測(cè)試。使用單次評(píng)估方法,并將VIPeR測(cè)試集劃分為參考集和測(cè)試集。在VIPeR數(shù)據(jù)集上,設(shè)置滑框尺度L=4,加權(quán)參數(shù)α=0.8,對(duì)比算法包括深度多視圖特征(Deep Multi-View Feature, DMVFL)[9]、Deep Feature Learning[3]、LOMO特征[1]、CNN[18]。當(dāng)α=0.8時(shí), Rank1的值為7532%。排名前1、5、10、20(即Rank1、Rank5、Rank10和Rank20)的結(jié)果見表6。

      由表6可知,本文提出的加權(quán)融合策略在此數(shù)據(jù)集上得到的性能最好;而且與另外兩大數(shù)據(jù)集Market-1501和CHUK03相比,該算法模型在VIPeR數(shù)據(jù)集上得到的效果是最顯著的。

      為了進(jìn)一步說明文中所提融合模型在VIPeR數(shù)據(jù)集上的有效性,在使用同一度量方法XQDA的前提下,使用融合模型、LOMO特征、Resnet-50模型和微調(diào)的Resnet-50模型得到的性能如表7所示。表7中的結(jié)果表明本文所提算法模型效果顯著,由于LOMO特征強(qiáng)調(diào)HSV和SILTP直方圖,因此它在特定照明條件下表現(xiàn)效果更佳。視角和光照的多樣性是VIPeR數(shù)據(jù)集的特點(diǎn),表7中的結(jié)果表明本文提出的加權(quán)融合模型在背景、照明和視點(diǎn)等方面有大幅變化的數(shù)據(jù)集上效果最明顯,能夠顯著提高行人重識(shí)別的性能。本文提出的融合模型得到的性能優(yōu)于LOMO特征,與單獨(dú)使用

      LOMO特征以及使用F-Resnet-50模型提取卷積特征并對(duì)特征進(jìn)行滑框操作得到的區(qū)域聚合特征進(jìn)行距離度量相比,融合

      LOMO特征和深度區(qū)域聚合特征(DRIF)這兩個(gè)特征距離能夠得到較高的識(shí)別率,說明這兩個(gè)特征距離的融合具有強(qiáng)烈的判別能力,并進(jìn)一步表明本文提出的區(qū)域聚合特征是LOMO特征的互補(bǔ)特征。

      3.5 微調(diào)策略分析

      使用MatConvNet(Convolutional neural Networks for Matlab)工具,利用ImageNet模型訓(xùn)練Market-1501數(shù)據(jù)集。對(duì)于網(wǎng)絡(luò)Resnet-50使用默認(rèn)參數(shù)設(shè)置,并從ImageNet預(yù)先訓(xùn)練好的模型中進(jìn)行微調(diào)。圖像在被送入網(wǎng)絡(luò)之前被調(diào)整224×224大小;初始學(xué)習(xí)率設(shè)置為0.001,并在每次迭代后減少至上一次的1/10,訓(xùn)練迭代36次之后完成。

      為了證明微調(diào)策略的有效性,在VIPeR數(shù)據(jù)集上用微調(diào)的模型進(jìn)行實(shí)驗(yàn),分別用Resnet-50網(wǎng)絡(luò)以及微調(diào)過后的Resnet-50網(wǎng)絡(luò)(Fine-tuning Resnet-50, F-Resnet-50)提取卷積層特征,并對(duì)兩個(gè)模型提取的同一層三維卷積特征利用區(qū)域聚合特征方法變成2048維的特征向量,并進(jìn)行距離度量。表8中的結(jié)果表明,利用行人重識(shí)別數(shù)據(jù)集微調(diào)過后的網(wǎng)絡(luò)模型提高了區(qū)分能力,減少了錯(cuò)誤檢測(cè)對(duì)背景的影響,并提高了識(shí)別率。

      3.6 參數(shù)分析

      如圖1區(qū)域聚合部分所示,在滑框與滑框之間,都存在一定的重疊區(qū)域,而最終采用簡單的加和方式把局部的區(qū)域特征向量整合成全局特征,其中那些重疊的區(qū)域可以認(rèn)為是給予了較大的權(quán)重。因此,并不是將特征平面分得越細(xì)越好。在本文中,滑框之間的重疊率取40%。在實(shí)驗(yàn)中,使用L種不同尺度的滑框處理特征平面在數(shù)據(jù)集CUHK03上進(jìn)行實(shí)驗(yàn),結(jié)果如表9所示,可以看出,當(dāng)L=4時(shí),將提出的新的區(qū)域聚合特征向量用于度量時(shí)的效果最好。

      當(dāng)L=4時(shí),將提出的新的區(qū)域聚合特征向量用于度量時(shí)的效果最好。 為了克服傳統(tǒng)特征和深度特征各自的缺陷,用參數(shù)α加權(quán)評(píng)估深度區(qū)域特征向量和傳統(tǒng)LOMO特征的相對(duì)重要性。其中0≤α≤1,由圖3可知,當(dāng)α=0.5時(shí),在Labeled和Detected兩個(gè)數(shù)據(jù)集上的Rank1和mAP值都最高,即在CUHK03數(shù)據(jù)集得到的性能最好。

      3.7 運(yùn)行時(shí)間分析

      如表10所示是VIPeR數(shù)據(jù)集上單個(gè)圖像的平均特征提取時(shí)間??梢钥闯?,本文提出的深度區(qū)域特征提取方法比一些手工特征提取方法更快,例如基于生物啟發(fā)特征的協(xié)方差描述符(Covariance descriptor based on Bio-inspired features, gBiCov)[19];與LOMO手工特征、CNN特征、FFN特征相比,本文提出的DRIF特征的維度是2048維,具有更低的維度,并且其維度等于卷積層通道數(shù)。通過在速度和維度復(fù)雜性之間取得平衡,本文提出的區(qū)域特征向量提取算法可以實(shí)際應(yīng)用。

      4 結(jié)語

      本文構(gòu)建了一個(gè)完整的行人重識(shí)別的算法模型,通過微調(diào)的Resnet-50網(wǎng)絡(luò)提取三維卷積特征,并把不同尺度的滑框作用于卷積激活映射,得到了低維的區(qū)域聚合特征向量;從深度區(qū)域聚合特征和傳統(tǒng)手工特征LOMO兩個(gè)角度出發(fā),用參數(shù)加權(quán)來評(píng)估各自的相對(duì)重要性,并利用有效的加權(quán)融合方式得到最終用于計(jì)算的距離,用最終距離進(jìn)行識(shí)別排序。在Market-1501、CHUK03和VIPeR三個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試,在重新訓(xùn)練網(wǎng)絡(luò)的情況下,大量實(shí)驗(yàn)表明本文提出的算法模型在指標(biāo)Rank1和mAP上均具有較明顯的提升,展示了所提算法模型的有效性。下一步的研究方向是提取出更魯棒性的特征,使其能夠更具有判別性,使多視圖特征融合方法能夠顯著提高行人重識(shí)別的性能。

      參考文獻(xiàn) (References)

      [1]?LIAO S, HU Y, ZHU X, et al. Person re-identification by local maximal occurrence representation and metric learning [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 2197-2206.

      [2]?WU S, CHEN Y-C, LI X, et al. An enhanced deep feature representation for person re-identification [C]// Proceedings of the 2016 IEEE Winter Conference on Applications of Computer Vision. Washington, DC: IEEE Computer Society, 2016: 1-8.

      [3]?DING S, LIN L, WANG G, et al. Deep feature learning with relative distance comparison for person re-identification [J]. Pattern Recognition, 2015, 48(10): 2993-3003.

      [4]?丁宗元,王洪元,陳付華,等.基于距離中心化與投影向量學(xué)習(xí)的行人重識(shí)別[J].計(jì)算機(jī)研究與發(fā)展,2017,54(8):1785-1794. (WANG Z Y, WANG H Y, CHEN F H, et al. Person re-identification based on distance centralization and projection vectors learning [J]. Journal of Computer Research and Development, 2017, 54(8): 1785-1794.)

      [5]?KSTINGER M, HIRZER M, WOHLHART P, et al. Large scale metric learning from equivalence constraints [C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012, 1: 2288-2295.

      [6]?FARENZENA M, BAZZANI L, PERINA A, et al. Person re-identification by symmetry-driven accumulation of local features [C]// Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 2360-2367.

      [7]?張耿寧,王家寶,李陽,等.基于特征融合與核局部Fisher判別分析的行人重識(shí)別[J].計(jì)算機(jī)應(yīng)用,2016,36(9):2597-2600. (ZHANG G N, WANG J B, LI Y, et al. Person re-identification based on feature fusion and kernel local Fisher discriminant analysis [J]. Journal of Computer Applications, 2016, 36(9): 2597-2600.)

      [8]?孫金玉,王洪元,張繼,等.基于塊稀疏表示的行人重識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2018,38(2):448-453. (SUN J Y, WANG H Y, ZHANG J, et al. Person re-identification method based on block sparse representation [J]. Journal of Computer Applications, 2018, 38(2): 448-453.)

      [9]?TAO D, GUO Y, YU B, et al. Deep multi-view feature learning for person re-identification [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(10): 2657-2666.

      [10]?GONG Y, WANG L, GUO R, et al. Multi-scale orderless pooling of deep convolutional activation features [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8695. Cham: Springer, 2014: 392-407.

      [11]?GRAY D, BRENNAN S, TAO H. Evaluating appearance models for recognition, reacquisition, and tracking [C]// Proceedings of the 2007 IEEE International Workshop on Performance Evaluation for Tracking and Surveillance. Piscataway, NJ: IEEE, 2007: 41-49.

      [12]??ZHENG L, SHEN L, TIAN L, et al. Scalable person re-identification: a benchmark [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1116-1124.

      [13]?LI W, ZHAO R, XIAO T, et al. DeepReID: deep filter pairing neural network for person re-identification [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 152-159.

      [14]?LIU H, FENG J, QI M, et al. End-to-end comparative attention networks for person re-identification [J]. IEEE Transactions on Image Processing, 2017, 26(7): 3492-3506.

      [15]?ZHENG L, ZHANG H, SUN S, et al. Person re-identification in the wild [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 3346-3355.

      [16]?ZHENG L, HUANG Y, LU H, et al. Pose invariant embedding for deep person re-identification [J]. arXiv E-print, 2018: arXiv:1701.07732.?[J/OL]. [2018-12-06]. https://arxiv.org/abs/1701.07732.

      [17]?ZHAO H, TIAN M, SUN S, et al. Spindle net: person re-identification with human body region guided feature decomposition and fusion [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 907-915.

      [18]?PAISITKRIANGKRAI S, SHEN C, van den HENGEL A. Learning to rank in person re-identification with metric ensembles [C]// Proceedings of the 2015 Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1846-1855.

      [19]?MA B, SU Y, JURIE F. Covariance descriptor based on bio-inspired features for person re-identification and face verification [J]. Image and Vision Computing, 2014, 32(6/7): 379-390

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)
      基于深度神經(jīng)網(wǎng)絡(luò)的微表情識(shí)別
      卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時(shí)間方法研究
      卷積神經(jīng)網(wǎng)絡(luò)語言模型研究
      基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識(shí)別的算法的研究
      禹州市| 定襄县| 当阳市| 遂平县| 庆阳市| 思南县| 孟村| 乌兰浩特市| 哈尔滨市| 彰化县| 连州市| 沈阳市| 灵宝市| 辽阳市| 彭山县| 思茅市| 额济纳旗| 万安县| 邹平县| 中西区| 金华市| 泽库县| 乐安县| 关岭| 凤凰县| 丹棱县| 教育| 汶川县| 瑞金市| 禹城市| 昌平区| 都江堰市| 玉田县| 宝坻区| 修武县| 玛纳斯县| 荥阳市| 景泰县| 紫阳县| 青铜峡市| 同江市|