左國(guó)才 李智勇 吳小平 蘇秀芝
摘 要: 針對(duì)光照變化、目標(biāo)旋轉(zhuǎn)、背景雜亂等復(fù)雜條件下,核相關(guān)濾波KCF算法出現(xiàn)目標(biāo)跟蹤漂移或者失敗的問(wèn)題,本文利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)跟蹤目標(biāo)出現(xiàn)光照、旋轉(zhuǎn)、背景雜亂等復(fù)雜變化極具魯棒性的特點(diǎn),提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的魯棒視覺(jué)跟蹤算法CKCF。CKCF算法在考慮大數(shù)據(jù)安全和隱私保護(hù)技術(shù)的前提下,利用海量的圖片數(shù)據(jù)集訓(xùn)練VGG模型提取目標(biāo)深度特征,并融入改進(jìn)后的KCF跟蹤算法中,實(shí)驗(yàn)結(jié)果表明,與KCF算法相比較,該算法實(shí)現(xiàn)了更加魯棒的跟蹤效果,解決了KCF跟蹤算法在光照變化、目標(biāo)旋轉(zhuǎn)、背景雜亂等復(fù)雜條件下目標(biāo)跟蹤漂移或者失敗的問(wèn)題。
關(guān)鍵詞: 機(jī)器視覺(jué);深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);大數(shù)據(jù)安全技術(shù)
Abstract:According to the problem of target tracking drift or failure for nuclear related filter KCF algorithm under the complicated conditions such as the illumination changes background clutter target rotation with the help of Robust characteristics of Convolutional Neural Network (CNN) for light rotation background clutter and other complex changes emerged in tracking target the paper proposes the CKCF robust vision tracking algorithm based on Convolutional Neural Network. Considering data security and privacy protection technology CKCF algorithm uses the picture data set to train VGG model for target feature deep extraction which could be integrated into the improved KCF tracking algorithm. The experimental results show that compared with the KCF algorithm the algorithm has more robust tracking effect and solves the problem of target tracking drift or failure for nuclear related filter KCF algorithm under the complicated conditions such as the illumination changes background clutter target rotation.
Key words: machine vision;deep learning;Convolutional Neural Network;large data security technology
引言
視覺(jué)跟蹤是計(jì)算機(jī)視覺(jué)研究的熱點(diǎn)分支,已推廣應(yīng)用于視頻監(jiān)控、智能交通、無(wú)人機(jī)等領(lǐng)域[1]。近年來(lái),隨著研究的深入,跟蹤性能得到了明顯改善。但是在跟蹤目標(biāo)受到光照變化、目標(biāo)旋轉(zhuǎn)、背景雜亂等復(fù)雜情況的影響下,要實(shí)現(xiàn)魯棒跟蹤仍然面臨著巨大的挑戰(zhàn)。
近年來(lái),深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN )廣泛應(yīng)用于目標(biāo)檢測(cè)、圖像分類(lèi)、語(yǔ)義分割等研究發(fā)展中[1] 。相比傳統(tǒng)的手工特征,CNN能夠提取目標(biāo)的深層特征,對(duì)于復(fù)雜場(chǎng)景中目標(biāo)跟蹤具有較強(qiáng)的魯棒性,并在目標(biāo)跟蹤方面呈現(xiàn)出可觀的技術(shù)潛能和開(kāi)發(fā)優(yōu)勢(shì)。文獻(xiàn)[2]基于CNN對(duì)當(dāng)前幀和上一幀進(jìn)行采樣,獲取目標(biāo)和背景的空間、時(shí)間特征。文獻(xiàn)[3]采用RCNN深度模型,利用CNN模型提取的目標(biāo)特征來(lái)區(qū)分出背景及跟蹤對(duì)象。文獻(xiàn)[4]采用CNN兩個(gè)卷積層、兩個(gè)降采樣層,在全連接層進(jìn)行綜合,得到特征向量。文獻(xiàn)[5]基于VGG-NET 深度模型,將輸入的目標(biāo)圖片按不同的層次提取特征,用來(lái)估計(jì)目標(biāo)的位置。文獻(xiàn)[6]應(yīng)用的深度模型分為共享層和特定層,其中,共享層采用VGG-NET,截取3個(gè)卷積層和2個(gè)全連接層;特定層由若干域組成,包含了目標(biāo)正樣本和負(fù)樣本。文獻(xiàn)[7]使用VGG-NET模型提取高級(jí)語(yǔ)義的目標(biāo)類(lèi)別特征,通過(guò)選擇網(wǎng)絡(luò)(sel- NET)對(duì)輸入的特征圖進(jìn)行選擇,除去不相干的噪聲特征圖。卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用使得目標(biāo)跟蹤的判別力和魯棒性在效果上達(dá)到了更佳。上述文獻(xiàn)基于CNN采用不同的模型、策略,設(shè)計(jì)提出有效的跟蹤算法,取得了魯棒跟蹤結(jié)果。
與基于CNN的跟蹤算法相比,基于相關(guān)濾波的跟蹤算法在跟蹤速度上表現(xiàn)出優(yōu)異性能。文獻(xiàn)[8]提出誤差最小平方和濾波器(MOSSE )跟蹤算法,取得600 Frame/s的跟蹤速度;文獻(xiàn)[9-10] 提出循環(huán)結(jié)構(gòu)相關(guān)濾波跟蹤器(CSK )、核相關(guān)濾波跟蹤器( KCF )跟蹤算法,其跟蹤速度則達(dá)到了100 Frame/s以上。受其啟發(fā),本文將卷積神經(jīng)網(wǎng)絡(luò)CNN與核相關(guān)濾波跟蹤算法KCF相結(jié)合,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的核相關(guān)濾波跟蹤算法C-KCF。實(shí)驗(yàn)結(jié)果表明,與KCF算法相比,本文的C-KCF算法具有更好的跟蹤性能,解決了KCF算法在跟蹤過(guò)程中因光照變化、目標(biāo)旋轉(zhuǎn)、背景雜亂而出現(xiàn)跟蹤漂移或失敗的問(wèn)題。
1 相關(guān)理論
1.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是一種典型的深度學(xué)習(xí)架構(gòu),從大量數(shù)據(jù)中主動(dòng)學(xué)習(xí)目標(biāo)特征,具有平移不變性、光照不變性以及對(duì)遮擋的魯棒性等重要特征,并在圖像分類(lèi)、人臉識(shí)別、物體檢測(cè)等領(lǐng)域發(fā)揮了重要作用[11]。視覺(jué)跟蹤是提取目標(biāo)特征,確定目標(biāo)在圖像(視頻幀)中的位置,完成跟蹤任務(wù)。較強(qiáng)的目標(biāo)特征表達(dá)能夠提高目標(biāo)跟蹤的準(zhǔn)確性和魯棒性,而深度學(xué)習(xí)架構(gòu)完全滿足這種性能需求。在圖像和視覺(jué)領(lǐng)域,AlexNet[3] 、VGG-Net[4]、ResNet [5]是應(yīng)用較為成功的一個(gè)深度模型,且已取得顯著成效。
作為一個(gè)多層感知器,CNN中的每個(gè)卷積層都可以得到目標(biāo)圖像的不同特征表達(dá)。本文采用VGG-Net-19深層卷積網(wǎng)絡(luò)進(jìn)行特征提取,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。VGG-Net-19主要由5組卷積層、2個(gè)全連接特征層和1個(gè)分類(lèi)層組成。通過(guò)在ImageNet上進(jìn)行預(yù)訓(xùn)練,VGG-Net-19中的不同卷積層可以得到不同的特征表達(dá)。在較低卷積層,可以詳細(xì)描述細(xì)節(jié)特征;在較高卷積層,可以提取目標(biāo)高級(jí)語(yǔ)義信息。
1.2 核相關(guān)濾波
2 基于CNN改進(jìn)KCF目標(biāo)跟蹤算法
對(duì)序列圖像逐幀進(jìn)行采樣,利用CNN提取樣本的深層特征,融入改進(jìn)后的KCF算法進(jìn)行目標(biāo)跟蹤,在跟蹤過(guò)程中在線更新CNN模型的參數(shù)。
2.1 訓(xùn)練數(shù)據(jù)安全及隱私保護(hù)
CKCF算法在考慮大數(shù)據(jù)安全和隱私保護(hù)技術(shù)的前提下,采用20 000張圖片數(shù)據(jù)集訓(xùn)練VGG模型提取目標(biāo)深度特征。為了圖片數(shù)據(jù)的安全和隱私保護(hù),采用一種同態(tài)加密域圖像可逆水印算法[13],算法設(shè)計(jì)概述如下:
(1)利用Paillier加密算法對(duì)訓(xùn)練目標(biāo)圖像進(jìn)行相關(guān)加密操作,使得目標(biāo)圖像密文數(shù)據(jù)具有同態(tài)運(yùn)算的相關(guān)特性。
(2)利用同態(tài)特性在加密域中直接進(jìn)行K層小波變換,將水印嵌入到K層高頻子帶中,實(shí)現(xiàn)同態(tài)加密域中的圖像可逆水印。
2.2 特征提取與定位
利用海量的圖片數(shù)據(jù)集訓(xùn)練VGG模型提取目標(biāo)深度特征,在目標(biāo)跟蹤時(shí)設(shè)計(jì)提供了參數(shù)在線更新,以適應(yīng)目標(biāo)尺度大小、變形、光照等復(fù)雜變化。根據(jù)CNN卷積特征圖,利用VGG-Net[4]對(duì)目標(biāo)外觀進(jìn)行編碼。設(shè)C為特征圖,Vi是采用特征映射,第i個(gè)位置的特征向量,研究推得數(shù)學(xué)公式如下:
在跟蹤過(guò)程中,利用訓(xùn)練好的VGG-Net-19卷積神經(jīng)網(wǎng)絡(luò)模型[4]提取目標(biāo)深層特征,利用改進(jìn)后的基于核相關(guān)的快速跟蹤方法KCF進(jìn)行目標(biāo)跟蹤。因此,給定跟蹤目標(biāo)的感興趣區(qū)域(ROI),利用VGG-Net-19得到其在第l層的卷積特征圖cl∈RM×N×D,利用(4)式可以得到其在第l層上的相關(guān)響應(yīng)圖的數(shù)學(xué)表述如下:
2.3 目標(biāo)跟蹤算法
利用訓(xùn)練好的VGG-Net-19模型進(jìn)行特征提取,融入改進(jìn)后的KCF算法中實(shí)現(xiàn)魯棒跟蹤。算法的執(zhí)行步驟可分述如下:
輸入 給定目標(biāo)初始位置p0,VGG-NET-19模型,序列圖像
輸出 目標(biāo)深度特征向量,目標(biāo)跟蹤模型
(1)以P(xt-1,yt-1)位置為中心,選擇出第t幀圖像感興趣的目標(biāo)圖像ROI,使用式(1)和式(5)經(jīng)過(guò)運(yùn)算后可求得提取的特征。
(2)以新的位點(diǎn)Pt(xt,yt)為中心選出目標(biāo)圖像ROI,提取卷積特征。
(3)將提取到的特征融入到改進(jìn)后的KCF算法中,使用公式(4)計(jì)算最大響應(yīng)值,確定目標(biāo)狀態(tài)。
(4)選擇置信度高的跟蹤結(jié)果更新模型。
這里,關(guān)于提取卷積層目標(biāo)特征,研發(fā)可得如下代碼:
size_wind = size(cos_window);
img_obj= single(im);
[JP5]img_obj= imResample(img net.meta.normalization. imageSize(1:2));
norm_avg=net.meta.normalization. norm_avgImage;
if numel(norm_avg)==3
norm_avg=reshape(norm_avg,1,1,3);
end
img_obj= bsxfun(@minus img norm_avg);
re_cnn= vl_simplenn(net,img);
fea_cnn = cell(length(layers) 1);
for ii = 1:length(layers)
x = res(layers(ii)).x;
x = imResample(x size_wind(1:2));
if ~isempty(cos_window)
x = bsxfun(@times x cos_window);
end
fea_cnn{ii}=x;
end
end
3 測(cè)試序列及實(shí)驗(yàn)結(jié)果分析
選用基準(zhǔn)公開(kāi)的Visual Tracker Benchmark OTB50數(shù)據(jù)集中的視頻序列作為實(shí)驗(yàn)對(duì)象,利用Matlab2017軟件進(jìn)行仿真實(shí)驗(yàn),使用深度學(xué)習(xí)框架Matconvnet工具箱。操作系統(tǒng)為Windows7,64位,CPU為2.6 G,內(nèi)存為4 GB,算法的平均處理速度約為2 Frame/s 。
為了驗(yàn)證本算法的魯棒性,研究選取了具有挑戰(zhàn)性的視頻序列進(jìn)行跟蹤,獲選的視頻序列中包含了背景雜亂、旋轉(zhuǎn)、外觀變換、光照變化等情況。表1即給出了研究中的部分實(shí)驗(yàn)結(jié)果。
本文采用跟蹤成功率和跟蹤精度兩個(gè)評(píng)價(jià)指標(biāo)來(lái)進(jìn)行定量分析。對(duì)于6組光照、旋轉(zhuǎn)、雜亂等變化的視頻序列,本文算法的跟蹤成功率和精度值要高于KCF算法,這就驗(yàn)證說(shuō)明了復(fù)雜環(huán)境下,本文算法的穩(wěn)健性要優(yōu)于KCF算法。算法運(yùn)行結(jié)果如圖2所示。
算法利用VGG-Net-19中的卷積層Conv5-4、Conv4-4、Conv3-4、Conv2-2進(jìn)行不同組合,不同特征組合下的跟蹤性能分析,則如圖3所示。
4 結(jié)束語(yǔ)
針對(duì)大數(shù)據(jù)安全及視覺(jué)跟蹤中KCF算法的穩(wěn)健跟蹤問(wèn)題,提出了一種基于CNN與KCF的目標(biāo)跟蹤算法CKCF。該算法在考慮圖像數(shù)據(jù)安全和隱私保護(hù)的前提下,采用海量圖像數(shù)據(jù)訓(xùn)練數(shù)據(jù)模型,利用CNN對(duì)跟蹤目標(biāo)出現(xiàn)光照、旋轉(zhuǎn)、遮擋等復(fù)雜變化極具魯棒性的特點(diǎn),來(lái)提取目標(biāo)深度特征,較好地解決了KCF跟蹤算法在光照變化、目標(biāo)旋轉(zhuǎn)、目標(biāo)遮擋等復(fù)雜條件下的穩(wěn)健跟蹤問(wèn)題。
參考文獻(xiàn)
[1] SIMONYAN K ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv preprint arXiv:1409.1556 2015.
[2] FAN Jialue XU Wei WU Ying et al. Human tracking using convolutional neural networks[J]. IEEE Transactions on Neural Networks,2010,21(10):1610-1623.
[3] HONG S,YOU T,KWAK S,et al. Online tracking by learning discriminative saliency map with convolutional neural network [J]. arXiv preprint arXiv:1502.06796 2015.
[4] LI Hanxi LI Yi PORIKLI F. Robust online visual tracking with a single convolutional neural network [M]//CREMERS D REID I SAITO H et al. Computer Vision —ACCV 2014. ACCV 2014. Lecture Notes in Computer Science. Cham:Springer,2014,9007:194-209.
[5] MA Chao HUANG Jiabin,YANG Xiaokang,et al. Hierarchical convolutional features for visual tracking[C]//Proceedings of the IEEE International Conference on Computer Vision.Washington DC USA:IEEE 2015:3074-3082.
[6] NAM H,HAN B. Learning multi-domain convolutional neural networks for visual tracking[J]. arXiv preprint arXiv:1510.07945,2016.
[7] WANG Lijun,OUYANG Wanli,WANG Xiaogang,et al. Visual tracking with fully convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago,Chile:IEEE,2015:3119-3127.
[8] BOLME D S BEVERIDGE J R DRAPER B A,et al. Visual object tracking using adaptive correlation filters[C]//IEEE Conference on Computer Vision and Pattern Recognition. San Francisco CA USA:IEEE,2010:2544-2550.
[9] HENRIQUES J F CASEIRO R MARTINS P,et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]//European Conference on Computer Vision. Florence Italy:Springer,2012:702-715.
[10]HENRIQUES J F CASEIRO R MARTINS P,et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence,2015,37(3):583-596.
[11]LECUN Y BENGIO Y HINTON G. Deep learning[J]. Nature,2015,521(7553):436-444.
[12]SHEN Qiu,YAN Xiaole,LIU Linfeng,et al. Multi-scale correlation filtering tracker based on adaptive feature selection[J]. Acta Optica Sinica,2017,37(5):0515001.
[13]項(xiàng)世軍,羅欣榮,石書(shū)協(xié). 一種同態(tài)加密域圖像可逆水印算法[J]. 計(jì)算機(jī)學(xué)報(bào),2016,39(3):571-581.