• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多尺度幀率的視頻行人再識別方法

      2018-11-01 03:04劉一敏蔣建國齊美彬
      電腦知識與技術(shù) 2018年19期
      關(guān)鍵詞:深度學習

      劉一敏 蔣建國 齊美彬

      摘要:伴隨著安防監(jiān)控領(lǐng)域科學技術(shù)的發(fā)展和國家對安防監(jiān)控領(lǐng)域的重視,我國已經(jīng)成了世界上最安全的國家之一。無重疊視域行人再識別旨在解決通過不同視域的攝像機來識別匹配相同行人,研究對行政機關(guān)和司法機關(guān)維護社會公共安全具有重大的意義?;谏疃葘W習的行人再識別因數(shù)據(jù)集偏小而依賴于樣本數(shù)量,設(shè)計了一種基于多尺度幀率的視頻行人再識別方法,通過自適應可分離卷積插幀技術(shù)生成幀間信息,增加了目標樣本和運動間的細節(jié)變化特征;并且在訓練中對輸入進行了幀率尺度變化,提高了時-空注意力網(wǎng)絡(luò)對行人步伐大小、周期快慢的魯棒性。實驗結(jié)果表明,提出的方法在一定程度上可以提高公開數(shù)據(jù)集的識別率,在PRID2011和iLIDS-VID數(shù)據(jù)集上進行實驗,RANK1分別達到了79%和64%。

      關(guān)鍵詞:行人再識別;深度學習;插幀算法

      中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)19-0196-04

      Abstract:With the development of science and technology in the field of security monitoring and the emphasis on national security in government policy, China has become one of the safest countries in the world. The non-overlapped view person re-identification aims to solve the problem of identifying and matching the same pedestrian through cameras in different visual fields, and it is of great significance to study the public secuity for administrative agencies and judicial organs. The pedestrian re-recognition based on deep learning relies on the number of samples because of the small dataset. A multi-scale frame rate video pedestrian recognition method is designed to generate inter-frame information through adaptive separable convolutional interpolation frame technology. The characteristics of the changes between the target sample and the movement and the frame rate scale change of the input during training, Improve the ASTPN network's robustness to the size of the pace and the speed of the cycle. Experimental results show that the proposed method can improve the recognition rate of public datasets to a certain extent. Experiments were conducted on PRID2011 and iLIDS-VID datasets. RANK1 reached 78% and 64% respectively.

      Keyword:Person re-identification;Deep Learning;Video Frame Interpolation

      行人再識別任務是指在無重疊多視域攝像機下識別和匹配相同行人的任務。任務場景廣泛應用在街頭、商場、車站等人員密集的場所,預防突發(fā)情況的發(fā)生,對維護社會穩(wěn)定、保障公民利益有著重大的意義。但是在實際應用場景中,不同視域下攝像機捕捉到的行人,由于存在攝像機屬性、場景光照、行人姿態(tài)和角度的差異,干擾目標的外觀特征的正常表示,使得行人再識別的研究依舊面臨著很大的挑戰(zhàn)。深度學習方法在計算機視覺領(lǐng)域上的成功,也帶動了行人再識別課題的發(fā)展,一些基于深度學習的行人再識別方法也相繼提出。文獻[1]提出用孿生網(wǎng)絡(luò)(Siamese Network)來解決行人再識別的任務,孿生網(wǎng)絡(luò)結(jié)構(gòu)是一個雙流網(wǎng)絡(luò),利用監(jiān)督信息和對比損失函數(shù)來訓練和識別相同行人對。文獻[2]通過對行人圖像進行分割,對各分割區(qū)域利用LSTM順序的提取特征的時空關(guān)系,來提高目標深度特征的區(qū)分性。文獻[3]提出在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的每個卷積層后加入一個門選通函數(shù),用來獲得目標的有效細節(jié)。文獻[4]用CNN提取目標特征,并將視頻序列送入到循環(huán)卷積網(wǎng)絡(luò)(Recurrent Neural Network,RNN)中,學習到行人運動時間序列上的特征,最后將其整合,作為行人視頻的特征表達信息。文獻[5]與[4]結(jié)構(gòu)類似,采用了加了門控的RNN,并且設(shè)計了新的損失函數(shù),提高了模型的收斂效率。

      訓練樣本匱乏是行人再識別領(lǐng)域遇到的重要問題之一。較小的數(shù)據(jù)集讓依賴于數(shù)據(jù)規(guī)模的來描述高維特征的深度方法來說,容易造成模型泛化能力降低,影響高維特征的正確表達,降低識別率。因此一些基于樣本增加的行人再識別方法被提出,文獻[7]將生成對抗網(wǎng)絡(luò)應用于行人再識別方向,通過生成對抗網(wǎng)絡(luò)生成符合行人特征分布的圖像,提高了匹配效果。文獻[8]在生成對抗網(wǎng)絡(luò)中加入了條件信息,可以生成帶監(jiān)督信息的行人圖片。但是生成對抗網(wǎng)絡(luò)生成的圖片成像質(zhì)量較低,會使網(wǎng)絡(luò)無法獲取到正確的外觀特征,一定程度上影響了網(wǎng)絡(luò)的識別。因此本文提出了多尺度幀率的視頻行人再識別方法,增加幀與幀之間的強監(jiān)督樣本,并利用多尺度的幀率對網(wǎng)絡(luò)進行訓練,使網(wǎng)絡(luò)適應不同行人步伐變化,提高網(wǎng)絡(luò)泛化能力。在PRID2011和iLIDS-VID視頻數(shù)據(jù)集上進行實驗,行人匹配效率得到了提升。

      本文余下的章節(jié)安排如下。第一節(jié)介紹多尺度幀率的視頻行人再識別方法;第二節(jié)介紹本文方法在視頻數(shù)據(jù)集上的實驗;第三節(jié)總結(jié)全文和展望。

      1 基于多尺度幀率的視頻行人再識別

      1.1 自適應可分離卷積插幀算法

      視頻幀插值是計算機視覺和視頻處理領(lǐng)域的一個重要的研究方向,根據(jù)視頻中前一幀圖像[I1]和后一幀圖像[I2],來預算和估計中間幀[I]的生成。早前,傳統(tǒng)的幀插值方法[9-11]主要是利用光流算法,通過視頻生成前一幀和后一幀之間的光流信息,用來插入由光流信息的引導的中間幀的過程,但是生成圖像的好壞往往依賴于光流的質(zhì)量。與基于光流的方法不同,Meyer等人[12]開發(fā)了一種基于相位的插幀值方法,利用單個像素相移中的運動情況修改生成中間幀圖像,算法用來生成中間幀圖像相較于基于光流的方法取得了清晰的結(jié)果,但是當視頻具有較大時間的變化時,算法會無法保留視頻中的高頻細節(jié)。Niklaus等人[13]采用CNN構(gòu)成Encoder-Decoder框架,最終訓練出兩個41×41的卷積內(nèi)核,通過移位卷積生成中間幀的多個像素,但處理1080p的視頻時,內(nèi)存消耗高達26GB。

      Simon Niklaus等人[14]基于文獻[13]結(jié)構(gòu)的基礎(chǔ)上,設(shè)計可分離的一維卷積內(nèi)核來近似二維卷積內(nèi)核來改進算法,減少了內(nèi)存的消耗,算法結(jié)構(gòu)如圖1所示。

      如圖所示,輸入前一幀[I1]和后一幀[I2],經(jīng)過特征提取模塊和上采樣模塊,得到特征輸出。其中,特征提取模塊由6個由卷積層和平均池化層組成的單元所構(gòu)成,上采樣模塊使用雙線性插值方法。特征輸出擴展分到4個子網(wǎng)絡(luò)。訓練過程中,每個子網(wǎng)絡(luò)可以分別學習4個1維卷積核,最后將4個1維卷積分別與輸入圖像[I1]、[I2]相卷疊加得到最后的中間幀[I]。算法表示為式(1)。

      將插幀算法生成的圖片和生成對抗網(wǎng)絡(luò)生成的圖片比較,如圖3所示,自適應可分離卷積插幀算法生成的畫面更加清晰,邊緣過度也更加自然。

      1.2 基于多尺度幀率的視頻行人再識別

      文獻[6]提出了添加注意力的時空網(wǎng)絡(luò)(ASTPN)的行人再識別結(jié)構(gòu),結(jié)構(gòu)如圖4所示。

      網(wǎng)絡(luò)結(jié)構(gòu)采用Siamese Network的框架,通過CNN來提取行人視頻幀與幀圖像上的特征,再將每幀的圖像特征通過空間金字塔池化層(Spatial Pyramid Pooling Layer,SPP)。之后得到的多尺度空間特征信息作為圖像表示特征通過RNN提取視頻幀時間信息。最后,由RNN產(chǎn)生的所有時間特征通過注意力時間池化層(Attentive Temporal Pooling Layer,ATP)匯集來組合形成序列級表示,并通過歐式距離進行度量。在SPP中,由于有多個尺度的空間塊來生成多個尺度的空間表示,因此可以使提取到的特征包含了行人位置信息和多尺度空間信息,能夠關(guān)注到區(qū)域中有價值的信息。在ATP中,查詢集(Probe)和行人圖像集(Gallery)的輸入通過CNN,SPP和RNN分別輸出矩陣P和G,網(wǎng)絡(luò)中引用參數(shù)矩陣U來計算時間維度中的注意力矩陣A,表示為公式5。最后分別通過列/行方式的最大池化操作和Softmax函數(shù),分別獲得具有對時間序列注意的向量[vp]和[vg],[vp]表示Probe的特征向量,[vg]表示Gallery的特征向量。最后將[vp]和[vg]進行距離上的度量,實驗取得了很好的算法效果。

      [A=tanh(PUGT)] (5)

      在基于視頻的行人再識別研究中,由于相較于基于圖像的行人再識別中常用的行人目標的外觀特征之外,行人行走的步伐大小、周期、姿態(tài)也可作為行人的重要特征,讓網(wǎng)絡(luò)進行有效的區(qū)分。如圖5所示,ID 1中所拍攝到的行人行走周期較快,步伐較??;而ID 2中的行人周期較慢,步伐較大。因此在ASTPN的輸入中,我們將按單一幀率的輸入改成多尺度幀率的輸入。在添加幀間圖片的數(shù)據(jù)集中分別選取1x,2x,3x的行人視頻序列作為ASTPN網(wǎng)絡(luò)的輸入,分別表示為圖6中的序列1,序列2和序列3。

      1.3 本文算法的具體步驟

      步驟1.輸入視頻行人再識別的數(shù)據(jù)集,利用自適應可分離卷積插幀算法對數(shù)據(jù)集進行預處理,生成視頻幀與幀之間的中間幀,擴大數(shù)據(jù)集的大小。

      步驟2.利用步驟1擴充的行人再識別數(shù)據(jù)集,將數(shù)據(jù)集輸入不同尺度的幀率視頻,利用ASTPN網(wǎng)絡(luò)訓練測試,獲取實驗結(jié)果。

      2 實驗測試與結(jié)果

      本節(jié)介紹了行人再識別研究中算法性能評估方法和實驗中使用的視頻行人再識別數(shù)據(jù)集,并且通過本文算法在PRID2011和iLIDS-VID上實驗,并與已有的行人再識別算法實驗性能進行了比較。文中的實驗通過Torch和TensorFlow框架實現(xiàn),硬件采用搭載i5-4590(3.30GHz)和NVIDIA GTX-980TI(4GB)的臺式電腦。

      2.1 測試數(shù)據(jù)和算法性能的評測準則

      實驗在PRID2011和iLIDS-VID行人視頻數(shù)據(jù)集上進行實驗驗證,采用累積匹配特征曲線(CMC)[17]來評價行人再識別算法的性能,CMC曲線指的是在給定的查詢集和行人圖像集中,找到在行人圖像庫相似度排序前n個圖像中指定行人的概率。訓練和測試如文獻[6]所述,行人視頻數(shù)據(jù)集將分為訓練集和測試集。當網(wǎng)絡(luò)訓練時,訓練集中的Probe和Gallery將會選取16幀圖像輸入進網(wǎng)絡(luò)模型;而在測試集中攝像機1將作為Probe,攝像機2將作為Gallery。實驗中,算法重復驗證10次,取平均值作為實驗結(jié)果。

      2.2 實驗在不同數(shù)據(jù)集上的實驗結(jié)果

      2.2.1 PRID2011數(shù)據(jù)集

      PRID2011行人視頻數(shù)據(jù)集[15]總共包含了24541張圖片,分別由兩臺不同視域的攝像機捕捉了總計934個行人,其中有385個行人視頻序列來自Cam A,有749個行人視頻序列來自Cam B,每個行人序列的長度在5到675個圖像幀不等,圖片像素尺寸為128×64。

      表1給出了本文方法針對PRID2011數(shù)據(jù)集相對于其他算法CMC的對比,可以看出本文改進方法相較于ASTPN和其他基于視頻的行人再識別方法來說,有效的提升CMC中Rank1的識別率,對Rank5的識別率也有一定提升。對比ASTPN算法,加入了更多樣本和多尺度的幀率會讓Rank1提升了2%。

      2.2.2 iLIDS-VID數(shù)據(jù)集

      iLIDS-VID數(shù)據(jù)集[16]包含了42495張圖片,包含了300個不同的行人的600個圖像視頻序列,其中每個行人視頻序列的長度在23到192個圖像幀之間。相較于PRID2011數(shù)據(jù)集,iLIDS-VID數(shù)據(jù)集中場景和遮擋等問題更加復雜,給研究人員帶來了很大的挑戰(zhàn)。

      表2可知,本文方法對iLIDS-VID數(shù)據(jù)集在CMC上同樣有所提高,將Rank1提高到64%。相較于ASTPN提高2%,Rank5也提升了2%。

      3 結(jié)論

      目前,行人再識別的優(yōu)化目標主要是提取對行人更具鑒別力的魯棒特征和設(shè)計網(wǎng)絡(luò)模型以提高分類能力。本文提出多尺度幀率的視頻行人再識別方法,方法首先利用自適應可分離卷積插幀算法對視頻序列插圖像幀,插入的圖像增加了行人的姿勢信息和步態(tài)信息,擴大了行人再識別視頻數(shù)據(jù)集。同時,輸入不同尺度幀率的視頻序列使網(wǎng)絡(luò)對行人行走周期、步伐大小的變化具有更好的魯棒性,提高了網(wǎng)絡(luò)的泛化性。方法在數(shù)據(jù)集上進行試驗取得了較好的實驗結(jié)果。針對目前行人再識別數(shù)據(jù)集中的遮擋干擾行人目標有效特征的表達,準備利用生成對抗網(wǎng)絡(luò)來進行圖像去遮擋任務,用來提高算法識別率。

      參考文獻:

      [1] Yi D, Lei Z, Liao S, et al. Deep Metric Learning for Person Re-identification[C]// International Conference on Pattern Recognition. IEEE, 2014:34-39.

      [2] Varior R R, Shuai B, Lu J, et al. A Siamese Long Short-Term Memory Architecture for Human Re-identification[C]// European Conference on Computer Vision. Springer, Cham, 2016:135-153.

      [3] Varior R R, Haloi M, Wang G. Gated Siamese Convolutional Neural Network Architecture for Human Re-identification[C]// European Conference on Computer Vision. Springer, Cham, 2016:791-808.

      [4] Mclaughlin N, Rincon J M D, Miller P. Recurrent Convolutional Network for Video-Based Person Re-identification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2016:1325-1334.

      [5] Wu L, Shen C, Hengel A V D. Deep Recurrent Convolutional Networks for Video-based Person Re-identification: An End-to-End Approach[J]. 2016.

      [6] Xu S, Cheng Y, Gu K, et al. Jointly Attentive Spatial-Temporal Pooling Networks for Video-Based Person Re-identification[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2017:4743-4752.

      [7] Zheng Z, Zheng L, Yang Y. Unlabeled samples generated by gan improve the person re-identification baseline in vitro[J]. arXiv preprint arXiv:1701.07717, 2017.

      [8] Zhong Z, Zheng L, Zheng Z, et al. Camera Style Adaptation for Person Re-identification[J]. arXiv preprint arXiv:1711.10295, 2017.

      [9] S. Baker, D. Scharstein, J. P. Lewis, S. Roth, M. J. Black, and R. Szeliski. A database and evaluation methodology for optical flow. International Journal of Computer Vision, 92(1):1– 31, 2011. 1, 2, 5, 6

      [10] L. Xu, J. Jia, and Y. Matsushita. Motion detail preserving optical flow estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(9):1744–1757, 2012. 5

      [11] Z. Yu, H. Li, Z. Wang, Z. Hu, and C. W. Chen. Multi-level video frame interpolation: Exploiting the interaction among different levels. IEEE Trans. Circuits Syst. Video Techn., 23(7):1235–1248, 2013. 2

      [12] S. Meyer, O. Wang, H. Zimmer, M. Grosse, and A. SorkineHornung. Phase-based frame interpolation for video. In IEEE Conference on Computer Vision and Pattern Recognition, pages 1410–1418, 2015. 2, 5

      [13] Niklaus S, Mai L, Liu F. Video Frame Interpolation via Adaptive Convolution[J]. 2017:261-270.

      [14] Niklaus S, Long M, Liu F. Video Frame Interpolation via Adaptive Separable Convolution[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2017:261-270.

      [15] Hirzer M, Beleznai C, Roth P M, et al. Person re-identification by descriptive and discriminative classification[C]// Scandinavian Conference on Image Analysis. Springer-Verlag, 2011:91-102.

      [16] Wang T,Gong S,Zhu X, et al.Person Re-Identification by Discriminative Selection in Video Ranking[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,38(12):2501-2514.

      [17] Gray D, Brennan S, Tao H. Evaluating appearance models for recognition, reacquisition, and tracking[C].Proc. IEEE International Workshop on Performance Evaluation for Tracking and Surveillance (PETS),2007:1-7.

      猜你喜歡
      深度學習
      從合坐走向合學:淺議新學習模式的構(gòu)建
      搭建深度學習的三級階梯
      有體驗的學習才是有意義的學習
      利用網(wǎng)絡(luò)技術(shù)促進學生深度學習的幾大策略
      MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應用展望
      構(gòu)建“單元整合、主題牽引”詩歌鑒賞“深度學習”課堂的策略
      沈阳市| 齐河县| 吉木乃县| 化州市| 伊宁市| 揭东县| 高碑店市| 瓮安县| 桃源县| 金门县| 南昌市| 阿荣旗| 扶绥县| 商南县| 合肥市| 盘山县| 石首市| 东兰县| 揭东县| 固阳县| 萝北县| 青岛市| 通道| 青海省| 澄江县| 双流县| 天峨县| 西贡区| 安义县| 南投县| 张北县| 申扎县| 哈尔滨市| 梅河口市| 忻州市| 榆林市| 西乡县| 岫岩| 原阳县| 前郭尔| 龙陵县|