一種用于視頻濃縮的圖像匹配算法

2018-02-12 12:24馬思騏袁健

軟件導(dǎo)刊 2018年12期

馬思騏袁健

摘要：為了保證公共安全，身邊的攝像頭越來越多，在錄像監(jiān)控視頻中提取有效信息也變得日益困難。針對該問題，提出一種新的基于無監(jiān)督學(xué)習(xí)的圖像匹配算法。該算法無需像以往算法一樣，需要大量人工標(biāo)注的數(shù)據(jù)，而是通過觀看視頻即可完成訓(xùn)練，從而節(jié)約了大量時間成本。利用圖像匹配算法，可以將視頻中無效與相似內(nèi)容進行濃縮，以提煉出有效內(nèi)容。該算法在MPI?Sintel與KITTI集上進行了測試，APE分別為4.695與5.838，Accuracy@30分別為0.993與0.967，達到了較為理想的效果。

關(guān)鍵詞：深度學(xué)習(xí);圖像匹配;無監(jiān)督學(xué)習(xí);視頻濃縮

DOIDOI：10.11907/rjdk.181444

中圖分類號：TP312

文獻標(biāo)識碼：A文章編號文章編號：1672?7800（2018）012?0096?04

An Image Matching Algorithm for Video Synopsis

MA Si?qi，YUAN Jian

（School of Optical?Electrical and Computer Engineering，?The University of Shanghai for Science and Technology， Shanghai 200082， China）

Abstract：To ensure public safety， there are more and more cameras around us. Along with that， there are more and more long?term video surveillance. It is increasingly difficult to extract effective information in these videos. To solve this problem， this paper uses a new image matching algorithm based on unsupervised learning. It does not need the same amounts of manually labeled data as the pre?vious algorithms. It can complete training by simply watching the video and save a lot of time and cost. Then?through the image matching algorithm， invalid and similar content in the video can be condensed to extract effective content. Through experiments， the algorithm of this paper was tested in the MPI?Sintel and KITTI sets， the APE are 4.695 and 5.838 and the Accuracy@30 are 0.993 and 0.967. Therefore good results are achieved.

Key Words：deep learning;image matching;unsupervised learning;video synopsis

0?引言

近年來，在一些公共區(qū)域發(fā)生了人員密集踩踏、暴力恐怖襲擊等眾多惡性事件，導(dǎo)致大量人身傷亡，在社會上造成了極大影響。因此，如今很多公共區(qū)域都安裝了監(jiān)控攝像頭，攝像頭將拍攝的視頻流傳輸?shù)椒?wù)器，然后在控制中心依靠人工實時查看以發(fā)現(xiàn)險情，但該方法效率低、成本高，需要耗費大量人力成本，且肉眼監(jiān)測的情況極易出錯，無法實現(xiàn)對公共區(qū)域全范圍的實時監(jiān)測。因此，迫切需要一種圖像匹配算法去除長時間視頻中無用信息的空白幀，以加快線索搜索速度。為了得到較好效果，采用深度學(xué)習(xí)的智能檢測系統(tǒng)需要大量數(shù)據(jù)進行訓(xùn)練，因而需要大量人工標(biāo)注，從而使算法開發(fā)成本非常高。

我國對圖像匹配算法的研究雖然起步較晚，但在近年來獲得了研究者的重點關(guān)注。王小睿等[1]提出并實現(xiàn)了一種自動圖像配準(zhǔn)方法，用于圖像的高精度配準(zhǔn)，但實際上其只是一種使用互相關(guān)系數(shù)作為相似性測度的半自動圖像配準(zhǔn)方法;郭海濤等[2]提出一種將遺傳算法（Genetic Algorithm，簡稱GA）用于圖像配準(zhǔn)的算法;熊興華等[3]提出將遺傳算法與最小二乘法相結(jié)合，用于圖像的子像素級配準(zhǔn);李智等[4]提出基于輪廓相似性測度的圖像配準(zhǔn)方法，可適用于輪廓特征豐富的圖像配準(zhǔn)。由此可見，圖像匹配技術(shù)經(jīng)過多年研究，已取得了大量研究成果，但由于圖像匹配效果受多方面因素影響，相關(guān)技術(shù)有待進一步提升。

1?相關(guān)工作

本文利用現(xiàn)實世界視頻序列中自然包含的時間相關(guān)性訓(xùn)練深度卷積網(wǎng)絡(luò)，不需要手工標(biāo)注即可完成幀插值，然后使用學(xué)習(xí)的CNN為每個輸出像素計算靈敏度圖。靈敏度圖即梯度w.r.t.輸入，指示每個輸入像素對特定輸出像素的影響。將具有最大影響的兩個輸入像素（每個輸入幀一個）視為對應(yīng)圖像（即匹配），雖然是間接的，但對于由此產(chǎn)生的模型，通過簡單地觀看視頻即可完成對應(yīng)的幀匹配。

本文算法的主要優(yōu)點在于可以利用普通的視頻序列訓(xùn)練用于幀插值的深度卷積網(wǎng)絡(luò)，而不需要任何人為的數(shù)據(jù)標(biāo)注。本文訓(xùn)練數(shù)據(jù)由3個圖像給出，每個圖像由2個輸入圖像與1個輸出圖像組成，表示標(biāo)注的內(nèi)插幀。標(biāo)注圖像的正確示例為：當(dāng)插入到輸入圖像對之間時，形成時間相關(guān)性的幀序列圖像。這種時間相關(guān)性自然包含在正則視頻序列中，從而可以簡單地使用來自幾乎任意視頻流的連續(xù)圖像三元組進行網(wǎng)絡(luò)訓(xùn)練。每個三元組的第一幀與第三幀作為網(wǎng)絡(luò)輸入，第二幀作為標(biāo)注的內(nèi)插幀。最重要的是，在網(wǎng)絡(luò)反向傳播過程中得到了幀—幀對應(yīng)關(guān)系，因此其不需要人工設(shè)計模型與繁鎖的手工標(biāo)注，而是通過簡單地觀看視頻即可學(xué)習(xí)圖像匹配方法。

1.1?神經(jīng)網(wǎng)絡(luò)匹配

在本文中，通過應(yīng)用與Simonyan等[20]使用的類似技術(shù)進行反向傳播，對于輸出圖像中的每個像素，都計算其輸入像素的梯度，從而得到在輸入像素影響下，輸出像素有多少受到了反向傳播影響，并影響了網(wǎng)絡(luò)輸入處的映射敏感性。

I?2=F（I?1，I?3）表示一個非線性函數(shù)（即訓(xùn)練的神經(jīng)網(wǎng)絡(luò)），描述了從輸入圖像I?1和I?3到差值圖像I?2的映射，I?2幾乎在輸入幀的正中間?？紤]到函數(shù)是一個向量映射，可以被分成h×w?的非線性子函數(shù)，每隔一幀都可以在輸入圖像中產(chǎn)生對應(yīng)像素。

為了產(chǎn)生一個可反映反向傳播中映射敏感性的圖，本文針對每個輸入圖像計算Jacobian矩陣。Jacobian矩陣如下：

以上公式描述了一個?h×w矩陣如何在輸出中對每一個h×w像素產(chǎn)生映射結(jié)果。本文定義了一個輸出點（i，j）的絕對梯度，以對應(yīng)每一個輸出圖像，然后衡量每個具體的輸入?1和?3?，如公式（3）所示。

該方式通過計算其絕對值代替每個矩陣的輸入，為了導(dǎo)出每個對應(yīng)幀內(nèi)容的坐標(biāo)，以該方式產(chǎn)生的梯度圖可以更好地表示靈敏度或影響圖。

即使是無監(jiān)督學(xué)習(xí)，在本文中也選擇了最簡單的方法。本文選取在?Gi，j?I?1（?1，?3）和Gi，j?I?3（?1，?3）中各自的最大輸入，并找到了Cij?I?1和Cij?I?3?。通過計算輸入圖像中每個點的梯度圖，然后提取每次結(jié)果中最具有價值的點，得到：

所有對應(yīng)點集合?S通過結(jié)合從Cij?I?1和Cij?I?3?提取的相同索引元素，最終表現(xiàn)為：

1.2?用于幀插值的深度神經(jīng)網(wǎng)絡(luò)

如圖1所示，其包含了卷積部分與解卷積部分。與Hinton & Salakhutdinov [15]提出的自動編碼結(jié)構(gòu)類似，這兩部分分別用于“編碼”與“解碼”。卷積部分基本模塊如下：

INPUT–>[CONV->PRELU]*3->POOL->OUTPUT

本文采用參數(shù)整流線性單位[14]，根據(jù)VGG?Net的建議，將所有卷積濾波器的接收域大小設(shè)置為3，其中stride和padding都為1，然后將[CONV->PRELU]復(fù)制3遍，以更好地模擬非線性特征。

解卷積部分包括多個解卷積模塊，每個模塊都包括一個卷積變換層與兩個卷積層。前者有4個接收域，stride為1，padding為1。解卷積模塊如下：

INPUT->[CONVT-> PRELU] -> [CONV->PRELU]*2 -> OUTPUT

為了在幀插值里保持圖像細節(jié)，在本文中復(fù)制了卷積模塊2、3、4的輸出特征，然后將其連接起來作為解卷積模塊4、3、2的額外輸入。由于本文中的網(wǎng)絡(luò)是完全卷積的，允許輸入不同分辨率的圖像，這是一個很大優(yōu)勢，因為不同數(shù)據(jù)集可能會用到不同寬高比，網(wǎng)絡(luò)中每個塊的輸出blob大小如表1所示。需要注意的是，實驗將兩個RGB圖像疊加到一個輸入斑點中，因此深度為6。網(wǎng)絡(luò)輸出為RGB圖像，因此深度為3。Sintel的數(shù)據(jù)很容易獲得，唯一區(qū)別是輸入圖像縮放到256×128而不是384×128。

2?實驗

2.1?神經(jīng)網(wǎng)絡(luò)訓(xùn)練

訓(xùn)練數(shù)據(jù)的數(shù)量與質(zhì)量對于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練至關(guān)重要，但本文可以簡單地使用大量真實世界的視頻。在這項工作中，本文專注于使用KITTI RAW視頻[11]與Sintel視頻進行訓(xùn)練，結(jié)果顯示該神經(jīng)網(wǎng)絡(luò)表現(xiàn)非常好。該網(wǎng)絡(luò)首先訓(xùn)練KITTI RAW視頻序列，該數(shù)據(jù)集包含56個圖像序列，共16 951幀。對于每個序列，本文將每3個連續(xù)幀（前后兩個方向）作為訓(xùn)練三元組，其中第1個和第3個圖像作為網(wǎng)絡(luò)輸入，第2個圖像作為相應(yīng)輸出，然后通過垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)和兩者的組合進行圖像增強。

樣本三聯(lián)體的總數(shù)是133 921，然后從原始Sintel電影中選擇案例對網(wǎng)絡(luò)進行微調(diào)。實驗過程中，從電影中手動收集了總共5 670幀的63個視頻剪輯，對其進行分組并增加數(shù)據(jù)后，最終得到44 352個樣本三元組。與以相對均勻速度記錄的KITTI序列相比，Sintel序列在本文工作環(huán)境中代表較難的訓(xùn)練實例，因為其包含了大量快速與人為渲染的運動，捕捉幀速率僅為24FPS。Sintel樣本的重要部分因此不包含所需的時間相關(guān)性。

2.2?細節(jié)訓(xùn)練

實驗在具有兩個K40c GPU的機器上使用Caffe[16]進行訓(xùn)練。網(wǎng)絡(luò)權(quán)重采用Xavier的方法進行初始化[12]，并由Adam解算器[14]進行優(yōu)化，固定動量為0.9。初始學(xué)習(xí)速率設(shè)置為1e-3，然后在損失函數(shù)停止下降時進行手動調(diào)整。對于KITTI RAW數(shù)據(jù)集的訓(xùn)練，將圖像縮放為384×128;對于Sintel數(shù)據(jù)集的訓(xùn)練，將圖像縮放為256×128，批量大小為16。本文對KITTI RAW進行了大約20個時期的訓(xùn)練，然后在Sintel電影圖像上對其微調(diào)了15個時期。訓(xùn)練期間未觀察到過度訓(xùn)練，并在5天后終止訓(xùn)練。

2.3?算法損失

文獻[13]、[21]中提到，在輸出幀與訓(xùn)練樣例之間最小化L2損失，可能導(dǎo)致不切實際與模糊的預(yù)測。本文在整個實驗中未能證實這一點，但發(fā)現(xiàn)通常用于魯棒光流計算[20]的Charbonnier損耗

可以對L2損耗作適當(dāng)改進，因此繼續(xù)采用其進行網(wǎng)絡(luò)訓(xùn)練，并設(shè)置ε?集為0.1。

2.4?圖像匹配表現(xiàn)

本文將產(chǎn)生的匹配與幾種經(jīng)驗設(shè)計方法進行比較（本文算法簡稱為ABBY），包括經(jīng)典的Kanade?Lucas?Tomasi特征跟蹤器[5]、HoG描述符匹配[9]（其被廣泛用于增強密集光流計算）以及最近的DeepMatching方法[22]，其依賴于多層卷積體系結(jié)構(gòu)，且性能先進。比較不同匹配算法需要從多個角度考慮，因為其通常為圖像不同部分產(chǎn)生不同數(shù)量的匹配。為了公平比較，本文調(diào)整了每個算法參數(shù)，使算法在匹配輸入圖像上盡可能均勻分布。對于DeepMatching，本文使用默認(rèn)參數(shù);對于ABBY，本文從4個像素寬度均勻網(wǎng)格的每個角中提取對應(yīng)關(guān)系;對于KLT，本文將minEigThreshold設(shè)置為1e-9，以生成盡可能多的匹配;對于HoG，再次將像素采樣網(wǎng)格寬度設(shè)置為4，然后根據(jù)合適的度量值對匹配進行排序，并為每個算法選擇相同數(shù)量的最佳匹配。通過這種方式，4種算法產(chǎn)生相同數(shù)量的匹配，且每個輸入圖像具有相似的覆蓋范圍。

本文在KITTI[11]與MPI?Sintel[10]訓(xùn)練集中提取有效的標(biāo)注數(shù)據(jù)進行比較，并使用圖像分辨率相同的圖像執(zhí)行所有實驗。在KITTI上圖像被縮放為384×128，MPI?Sintel圖像縮放為256×128。本文使用KITTI RAW序列訓(xùn)練的網(wǎng)絡(luò)進行KITTI Flow 2012訓(xùn)練集的匹配實驗，然后使用Sintel影片剪輯上的微調(diào)網(wǎng)絡(luò)進行MPI?Sintel Flow訓(xùn)練集實驗。這4種算法是根據(jù)平均點誤差（APE）與精度@ T進行評估的，后者被定義為與第一張圖像的“正確”匹配相對于匹配總數(shù)的比例[18]。如果在第二張圖像中的像素匹配比T像素更接近標(biāo)注值，則匹配正確。

在KITTI 2012與MPI?Sintel培訓(xùn)集上進行匹配性能測試結(jié)果如表2、表3所示。其中DeepM表示DeepMatching，采用指標(biāo)為：平均點誤差（APE）（越低越好），精度@ T（越高越好）。

如表2、表3所示，DeepMatching根據(jù)所有度量標(biāo)準(zhǔn)以及MPI?Sintel與KITTI集合生成最高質(zhì)量的匹配結(jié)果。值得注意的是，本文算法在KITTI上的DeepMatching性能非常接近，在精度@10與精度@20方面的性能優(yōu)于KLT跟蹤和HoG匹配，但在MPISintel上的表現(xiàn)有所下降。盡管APE測量結(jié)果表明其性能優(yōu)于HoG和KLT，但本文算法在MPI?Sintel的整體性能上仍然具有競爭力。

3?實驗結(jié)果與分析

本文研究表明，目前的工作使人工神經(jīng)網(wǎng)絡(luò)不需要大量手工標(biāo)注數(shù)據(jù)，即可從普通視頻中學(xué)習(xí)圖像匹配。盡管本文算法目前在實際應(yīng)用場景中并不能提供所需的計算效率，但其可為相關(guān)問題提供更簡單的解決方案。相信該方法未來會得到更廣泛的應(yīng)用，并且在計算效率與可靠性方面更加符合現(xiàn)實需求。

參考文獻：

[1]?王小睿，吳信才.遙感多圖像的自動配準(zhǔn)技術(shù)[J].中國圖形圖像學(xué)報，1997，10（2）：735?738.

[2]?郭海濤，劉智，張保明.基于遺傳算法的快速影像匹配技術(shù)的研究[J].測繪學(xué)院報，2001，18（S1）：20?22.

[3]?熊興華，錢曾波，王任享.遺傳算法與最小二乘法相結(jié)合的遙感圖像子像素匹配[J].測繪學(xué)報，2001，30（1）：54?59.

[4]?李智，張雅聲.基于輪廓特征的圖像配準(zhǔn)研究[J].指揮技術(shù)學(xué)院報，1998，9（3）：101?106.

[5]?BIRCHFIELD S. Derivation of Kanade?Lucas?Tomasi tracking equation[J]. Unpublished Notes， 1997，44（5）：1811?1843.

[6]?SCHAFER R， WIEGAND T，?SCHWARZ H.The emerging H.264/AVC standard[J].EBU Technique Review， 2003.

[7]?王嵩，薛全，張穎，等.H.264視頻編碼新標(biāo)準(zhǔn)及性能分析[J].電視技術(shù)，2003（6）：25?27.

[8]?YU A， LEE R， FLYNN M. Early detection of all?zero coefficients in H.263[C].Picture Coding Symposium，1997.

[9]?BROX T， MALIK J. Large displacement optical flow：descriptor matching in variational motion estimation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2011，33（3）：500?513.

[10]?BUTLER D J， WULFF J， STANLEY G B， et al. A naturalistic open source movie for optical flow evaluation[M].Computer Vision– ECCV 2012. Springer Berlin Heidelberg， 2012：611?625.

[11]?GEIGER A， LENZ P， STILLER C， et al. Vision meets robotics： the KITTI dataset[J]. International Journal of Robotics Research， 2013，32（11）：1231?1237.

[12]?GLOROT X， BENGIO Y. Understanding the difficulty of training deep feedforward neuralnetworks[J]. Journal of Machine Learning Research， 2010，9：249?256.

[13]?GOROSHIN R， MATHIEU M， LECUN Y. Learning to linearize under uncertainty[J]. Computer Science， 2015.

[14]?HE K， ZHANG X， REN S， et al. Delving deep into rectifiers： surpassing human?level performance on imagenet classification[C]. IEEE International Conference on Computer Vision，2015：1026?1034.

[15]?HINTON G E， SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks.[J]. Science， 2006，313：504?507.

[16]?JIA Y， SHELHAMER E， DONAHUE J，et al. Caffe： convolutional architecture for fast feature embedding[DB/OL].http：//www.icsi.berkeley.edu/pubs/vision/caffe14.pdf.

[17]?KINGMA D， BA J. Adam： a method for stochastic optimization[C]. ICLR， 2015：1?15.

[18]?REVAUD J， WEINZAEPFEL P， HARCHAOUI Z， et al.Deep convolutional matching[DB/OL]. http：//cn.arxiv.org/pdf/1506.07656.

[19]?SIMONYAN K， VEDALDI A， ZISSERMAN A. Deep inside convolutional networks： visualising image classification models and saliency maps[DB/OL]. http：//www.robots.ox.ac.uk/～vgg/publications/2014/Simonyan14a/simonyan14a.pdf.

[20]?SUN D， ROTH S， BLACK M J. A quantitative analysis of current practices in optical flow estimation and the principles behind them[M].?Holand： Kluwer Academic Publishers， 2014.

[21]?WANG X， GUPTA A. Unsupervised learning of visual representations using videos[C].IEEE International Conference on Computer Vision， 2015：2794?2802.

[22]?WEINZAEPFEL P， REVAUD J， HARCHAOUI Z， et al. Deepflow： large displacement optical flow with deep matching[C].IEEE International Conference on Computer Vision， 2014：1385?139.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

一種用于視頻濃縮的圖像匹配算法