視頻中目標(biāo)檢測(cè)算法研究

2017-01-20 09:38:03張明軍俞文靜袁志黃志金

軟件 2016年4期

張明軍　俞文靜　袁志　黃志金

摘要：由于其實(shí)用價(jià)值和理論價(jià)值，目標(biāo)檢測(cè)是智能視頻監(jiān)控技術(shù)研究的重點(diǎn)，也是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)研究熱點(diǎn)，引起了研究者廣泛關(guān)注。本文根據(jù)視頻圖像背景和前景目標(biāo)的動(dòng)或靜的情況進(jìn)行分類，將目標(biāo)檢測(cè)問題分為基于背景建模的目標(biāo)檢測(cè)和基于目標(biāo)建模的目標(biāo)檢測(cè)兩類。對(duì)于每類問題，分別全面綜述了該問題的發(fā)展、常用算法模型及當(dāng)前的研究成果等，然后討論了對(duì)各類算法模型的評(píng)測(cè)指標(biāo)、評(píng)測(cè)數(shù)據(jù)集和評(píng)測(cè)結(jié)果，最后總結(jié)了當(dāng)前這兩類目標(biāo)檢測(cè)方法存在的不足以及給出了對(duì)未來(lái)發(fā)展的思考和展望。

關(guān)鍵詞：目標(biāo)檢測(cè)；背景建模；目標(biāo)建模；智能視頻監(jiān)控

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A DOI：10.3969/j.issn.1003-6970.2016.04.011

0 前言

視頻監(jiān)控是當(dāng)前社會(huì)安防領(lǐng)域的重要組成部分，隨著監(jiān)控?cái)z像頭的快速增加，海量的監(jiān)控視頻數(shù)據(jù)的處理便成了一個(gè)重大問題。隨著計(jì)算機(jī)視覺和人工智能的發(fā)展，智能視頻監(jiān)控技術(shù)應(yīng)運(yùn)而生，就是為了解決海量視頻分析和處理的問題，并隨著社會(huì)對(duì)安全的重視，該技術(shù)也成了當(dāng)前的研究熱點(diǎn)。目標(biāo)檢測(cè)是從視頻或者圖像中提取出運(yùn)動(dòng)前景或感興趣目標(biāo)，也就是確定當(dāng)前時(shí)刻目標(biāo)在當(dāng)前幀的位置和所占大小。因此目標(biāo)檢測(cè)是智能視頻監(jiān)控技術(shù)的基礎(chǔ)，其性能的好壞直接影響了后續(xù)目標(biāo)跟蹤、目標(biāo)分類與目標(biāo)識(shí)別等算法的性能。本文將對(duì)目標(biāo)檢測(cè)的常見模型和方法進(jìn)行分析和總結(jié)。

1 目標(biāo)檢測(cè)問題的分類

從對(duì)象處理的過(guò)程來(lái)看，主要是從圖像的背景和前景目標(biāo)進(jìn)行處理，按照?qǐng)D像背景和前景目標(biāo)的不同情況可以將目標(biāo)檢測(cè)分為幾類子問題，如圖1所示。解決這幾類問題的方法可以總結(jié)為2大類，分別是基于背景建模的方法和基于目標(biāo)建模的方法?；谝曨l的序列圖像中，人們對(duì)其中運(yùn)動(dòng)的物體會(huì)更感興趣，往往也包含主要信息，因此基于視頻的目標(biāo)檢測(cè)主要是運(yùn)動(dòng)目標(biāo)檢測(cè)，而這一類目標(biāo)檢測(cè)則主要使用基于背景建模的方法?；诒尘敖５姆椒ú坏竽繕?biāo)要保持運(yùn)動(dòng)，并且要求背景盡可能保持不變（背景靜止），當(dāng)背景發(fā)生變化時(shí)，則讓背景誤檢為目標(biāo)，小幅度的背景變化尚可通過(guò)方法的改進(jìn)加以修正，但大幅度的背景變化則讓該方法無(wú)能為力，基于目標(biāo)建模的方法卻能解決這個(gè)問題?；谀繕?biāo)建模的方法不受應(yīng)用場(chǎng)景的限制，不但可以對(duì)靜態(tài)場(chǎng)景視頻進(jìn)行目標(biāo)檢測(cè)，也可以檢測(cè)單幅靜態(tài)圖像或動(dòng)態(tài)場(chǎng)景視頻中的目標(biāo)。

基于背景建模和目標(biāo)建模的方法之間的比較如表1所示。

2 基于背景建模的目標(biāo)檢測(cè)

2.1 幀間差分法

幀間差分法（Frame difference method）主要考慮相鄰視頻幀之間背景相對(duì)固定，而運(yùn)動(dòng)目標(biāo)則有位置變化，那么相鄰幀進(jìn)行相減，背景部分差值接近于0（理想狀態(tài)為0），而運(yùn)動(dòng)區(qū)域的差值則較大。設(shè)定一個(gè)閾值對(duì)背景進(jìn)行過(guò)濾，則提取到運(yùn)動(dòng)目標(biāo)。其數(shù)學(xué)模型如下：

（1）

（2）其中，I_t（x，y）I_t（x，y）表示t時(shí)刻像素點(diǎn)（x，y）的灰度值，I_t-1（x，y）表示t-1時(shí)刻像素點(diǎn)（x，y）的灰度值，D_t（x，y））為提取的運(yùn)動(dòng)目標(biāo)的二值圖像，T為閾值。

二幀幀間差分法計(jì)算量小、實(shí)時(shí)性強(qiáng)，但檢測(cè)的目標(biāo)不完整，存在“空洞”，位置不夠精確，在運(yùn)動(dòng)方向上目標(biāo)被拉伸。為了改進(jìn)二幀幀間差分法的不足，提出了三幀幀間差分法，其主要思想是對(duì)前后兩次差分圖像進(jìn)行“與”操作。

2.2 背景減除法

背景減除法（Background subtraction method）是用當(dāng)前幀與背景圖像或背景模型進(jìn)行差分，對(duì)結(jié)果進(jìn)行處理后得到運(yùn)動(dòng)目標(biāo)區(qū)域。其數(shù)學(xué)模型如下：

（3）

（4）其中I_t（x，y）為視頻圖像序列中t時(shí)刻的圖像，B_t（x，y）為t時(shí)刻的背景圖像。式（4）為背景圖像的更新，其中α為背景更新率。對(duì)△I_t（x，y）進(jìn)行閾值處理，可以得到運(yùn)動(dòng)目標(biāo)區(qū)域的二值圖像D_t（x，y），同式（2）。

由上可知，只要背景不變化，背景減除法的目標(biāo)檢測(cè)效果很好。但是，由于背景可能存在光照變化、背景擾動(dòng)以及由于攝像機(jī)抖動(dòng)導(dǎo)致的小幅度運(yùn)動(dòng)等影響，背景都會(huì)隨著時(shí)間而發(fā)生變化，所以怎樣定義背景和更新背景是該方法的難點(diǎn)和關(guān)鍵。研究者們提出了大量背景建模方法，如中值濾波、均值濾波、線性濾波、基于碼本的模型、非參數(shù)模型、隱馬爾科夫模型、Vibe方法、混合高斯模型（Gaussian Mixture Model，GMM）等。其中，GMM是目前普遍應(yīng)用的一種背景建模方法。為了改善一些復(fù)雜場(chǎng)景的目標(biāo)檢測(cè)效果，如去除“鬼影”和“陰影”等，研究者們對(duì)原有背景建模算法進(jìn)行兩個(gè)方面的改進(jìn)：一是對(duì)算法模型進(jìn)行改進(jìn)，以及多種算法結(jié)合并利用各自優(yōu)勢(shì)進(jìn)行優(yōu)化；二是利用算法提取目標(biāo)之后再對(duì)分割目標(biāo)結(jié)果進(jìn)行優(yōu)化。

3 基于目標(biāo)建模的目標(biāo)檢測(cè)

3.1 滑動(dòng)窗口策略的一般框架

基于目標(biāo)建模的目標(biāo)檢測(cè)一般采用滑動(dòng)窗口的策略，即通過(guò)訓(xùn)練好的模板在在圖像多個(gè)尺度上進(jìn)行滑動(dòng)窗口掃描，判斷各窗口是目標(biāo)還是背景從而獲取目標(biāo)。與背景建模的目標(biāo)檢測(cè)不同的是，該方法不能提取目標(biāo)輪廓，而是一個(gè)包圍目標(biāo)的框?；诨瑒?dòng)窗口的目標(biāo)檢測(cè)的一般框架如圖2所示。其中，特征抽取關(guān)系到目標(biāo)檢測(cè)的可靠性和精度，而建立高效、準(zhǔn)確、魯棒的目標(biāo)表達(dá)模型及分類器則是窗口滑動(dòng)策略的關(guān)鍵問題。

根據(jù)建模方法不同，基于滑動(dòng)窗口的目標(biāo)檢測(cè)主要分為全局剛性模板目標(biāo)檢測(cè)模型、基于部件的目標(biāo)檢測(cè)模型、基于視覺詞包的目標(biāo)檢測(cè)模型和深度學(xué)習(xí)模型等。

3.2 全局剛性模板目標(biāo)檢測(cè)模型

通過(guò)固定的窗口大小和特征對(duì)目標(biāo)進(jìn)行全局匹配，因此目標(biāo)需要?jiǎng)傂圆蛔儯瑢?duì)形變目標(biāo)則不能很好的進(jìn)行檢測(cè)。典型的算法模型為Dalai和Triggs提出的HOG（HistogramsofOrientedGradients）模型。HOG是梯度方向直方圖特征，其核心思想是局部目標(biāo)的外形能夠被光強(qiáng)梯度或邊緣方向密度分布所描述，通過(guò)將圖像劃分成小的連接單元（Cell），在每個(gè)Cell內(nèi)部進(jìn)行梯度方向統(tǒng)計(jì)得到直方圖描述。HOG整體檢測(cè)框架依然是以滑動(dòng)窗口策略為基礎(chǔ)，并且使用線性分類器進(jìn)行分類。

3.3 基于部件的目標(biāo)檢測(cè)模型

基于部件的目標(biāo)檢測(cè)模型（Part-Based Model，PBM）主要研究如何利用部件獲得目標(biāo)的局部判別特征，能夠解決遮擋目標(biāo)和多姿態(tài)目標(biāo)等問題。該方法最早提出的模型是圖結(jié)構(gòu)（Pictorial Structure），它使用一系列部件以及部件間的位置關(guān)系來(lái)表示目標(biāo)。此后，在此基礎(chǔ)上先后提出了星座模型（ConstellationModel）、部件拼接模型（Patchwork of PartsModel）以及可形變部件模型（Deformable PartBased Model，DPBM）等。其中，DPBM在當(dāng)前的目標(biāo)檢測(cè)中具有重要的地位。DPBM主要由一個(gè)使用粗糙特征的全局模板和若干高分辨率（精細(xì)特征）的部件模板構(gòu)成，還提出了隱支持向量機(jī)模型（Latent variable SVM），通過(guò)隱變量來(lái)建模物體部件的空間配置，并使用判別式方法進(jìn)行訓(xùn)練優(yōu)化。

3.4 基于視覺詞包的目標(biāo)檢測(cè)模型

視覺詞包（Bag-Of-Visual Words，BOVW）是一種圖像的中層特征描述，可以看作是對(duì)圖像低層視覺特征的聚合，通過(guò)利用圖像中包含的視覺單詞的統(tǒng)計(jì)或分布來(lái)表達(dá)圖像場(chǎng)景內(nèi)容。BOVW是由Csurka等人于2004年首次將用于文本分類的詞包模型用于圖像物體分類而產(chǎn)生，由此出現(xiàn)了大量視覺詞包模型的研究，文獻(xiàn)對(duì)此進(jìn)行了梳理和總結(jié)?；谝曈X詞包的目標(biāo)檢測(cè)則主要是通過(guò)訓(xùn)練庫(kù)中的目標(biāo)構(gòu)建一個(gè)視覺詞包，然后對(duì)于給定的圖像抽取其局部特征，在視覺詞包上投票得到該圖像基于視覺詞包的特征表達(dá)，最后采用窗口滑動(dòng)策略以及SVM分類來(lái)檢測(cè)目標(biāo)。文獻(xiàn)提出基于詞包模型和顏色特征組合的食品區(qū)域檢測(cè)算法，文獻(xiàn)利用稀疏編碼的算法構(gòu)建視覺詞包來(lái)定位高分辨率遙感圖像中的飛機(jī)目標(biāo)。

3.5 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型

深度學(xué)習(xí)（Deep Learning）是近幾年的研究熱點(diǎn)，它通過(guò)多層神經(jīng)網(wǎng)絡(luò)來(lái)抽象對(duì)數(shù)據(jù)的特征表達(dá)。一個(gè)典型的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法包括從輸入圖像上提取區(qū)域塊，用卷積神經(jīng)網(wǎng)絡(luò)計(jì)算每個(gè)區(qū)域塊的特征，最后用線性SVM分類器對(duì)每個(gè)區(qū)域塊進(jìn)行分類等步驟。文獻(xiàn)提出了基于R-CNN（Regions with Convolutional Neural Network）框架的目標(biāo)檢測(cè)方法，文獻(xiàn)從利用貝葉斯優(yōu)化的搜索算法以及懲罰CNN的不準(zhǔn)確訓(xùn)練兩個(gè)方面改進(jìn)了基于深度CNN的目標(biāo)檢測(cè)方法。

4 算法性能評(píng)測(cè)

4.1 算法評(píng)測(cè)指標(biāo)

目標(biāo)檢測(cè)算法評(píng)測(cè)通常采用查全率（Recall，R）和查準(zhǔn)率（Precision，P）來(lái)評(píng)價(jià)算法的有效性。定義TP（True Positives）為正確檢測(cè)數(shù)，F(xiàn)P（FalsePositives）為誤檢數(shù)，F(xiàn)N（False Negatives）為漏檢數(shù)，則查全率和查準(zhǔn)率如式（5）、（6）計(jì)算。

（5）

（6）

在算法評(píng)測(cè)上總是期望P值和R值越大越好，然而這兩個(gè)值往往會(huì)出現(xiàn)矛盾，因此就需要綜合考慮這兩個(gè)值，最常見的方法就是F-Measure。F-Measure是P和R的加權(quán)調(diào)和平均，如式（7）所示。

（7）當(dāng)α=1時(shí)，則有式（8），即常見的F1。

（8）可知F1綜合了P和R的結(jié)果，當(dāng)F1較高時(shí)則能說(shuō)明目標(biāo)檢測(cè)方法比較有效。此外，還有一種綜合P和R的評(píng)測(cè)指標(biāo)，即平均查準(zhǔn)率（Average Precision，AP）。在R曲線上進(jìn)行均勻采樣得到相應(yīng)的P值，將這些采樣得到的P值的求平均值作為AP值。

4.2 背景建模的目標(biāo)檢測(cè)算法評(píng)測(cè)

眾多學(xué)者對(duì)背景建模的各種算法都進(jìn)行了大量評(píng)測(cè)，最具代表性的評(píng)測(cè)則是Brutzer等人進(jìn)行的。他們?yōu)榱嗽u(píng)測(cè)已有的背景建模方法在不同場(chǎng)景下的性能，人工合成了SABS（StuttgartArtificialBackgroundSubtraction）數(shù)據(jù)集，該數(shù)據(jù)集模擬了多種復(fù)雜場(chǎng)景，如動(dòng)態(tài)背景、光線突變、噪聲干擾、低照度等。他們選取了9種有名的背景建模算法，并在此數(shù)據(jù)集上進(jìn)行了性能評(píng)測(cè)，結(jié)果如表2所示。表中性能指標(biāo)為F-Measure值。

對(duì)表2中9種算法的平均性能進(jìn)行統(tǒng)計(jì)如圖3所示，可知不同復(fù)雜背景對(duì)目標(biāo)檢測(cè)的影響較大，隨著場(chǎng)景復(fù)雜度的提升，算法性能下降較快。其中，光線變化、噪聲干擾對(duì)背景建模的運(yùn)動(dòng)目標(biāo)檢測(cè)影響較大，而目標(biāo)與背景表觀相似或目標(biāo)偽裝、視頻編碼則對(duì)運(yùn)動(dòng)目標(biāo)檢測(cè)影響較小。

4.3 目標(biāo)建模的目標(biāo)檢測(cè)算法評(píng)測(cè)

PASCAL VOC數(shù)據(jù)集是目標(biāo)檢測(cè)領(lǐng)域目前公認(rèn)的評(píng)測(cè)數(shù)據(jù)庫(kù)之一，該數(shù)據(jù)集的提出也相應(yīng)的對(duì)目標(biāo)檢測(cè)算法提出了巨大挑戰(zhàn)，促進(jìn)了目標(biāo)檢測(cè)算法的快速發(fā)展。從2007年開始，PASCAL VOC數(shù)據(jù)集類別數(shù)目固定為包括飛機(jī)（airplane）、自行車（bicycle）、鳥（bird）等20類，以后每年只增加部分樣本。PASCALVOC并組織了年度競(jìng)賽，吸引了大量研究者使用該數(shù)據(jù)集評(píng)測(cè)所提出的算法。我們選取了4種目標(biāo)檢測(cè)算法在PASCAL VOC 2007數(shù)據(jù)集上的評(píng)測(cè)結(jié)果如表3所示。表中性能指標(biāo)為AP值，mAP（meanAP）為AP均值。

隨著大數(shù)據(jù)和硬件技術(shù)的快速發(fā)展，也使得在更大規(guī)模的數(shù)據(jù)庫(kù)上進(jìn)行研究和評(píng)測(cè)成為必然。ImageNet便是一種大規(guī)模圖像數(shù)據(jù)庫(kù)，全庫(kù)截至2013年共有1400萬(wàn)張圖像，2.2萬(wàn)個(gè)類別，平均每類包含1000張圖像。除此之外，ImageNet還構(gòu)建了一個(gè)包含1000類物體120萬(wàn)圖像的子集，并以此作為ImageNet競(jìng)賽的數(shù)據(jù)平臺(tái)，也逐漸成為計(jì)算機(jī)視覺相關(guān)算法評(píng)測(cè)的標(biāo)準(zhǔn)數(shù)據(jù)集。

5 總結(jié)及展望

基于視頻的兩類目標(biāo)檢測(cè)方法可以解決目標(biāo)檢測(cè)的不同子問題，正常情況下優(yōu)勢(shì)明顯，但在特殊場(chǎng)景下也存在一些不足，如基于背景建模的目標(biāo)檢測(cè)方法從復(fù)雜背景中提取前景目標(biāo)則存在較大挑戰(zhàn)，基于目標(biāo)建模的目標(biāo)檢測(cè)針對(duì)不同的目標(biāo)或場(chǎng)景則需要訓(xùn)練不同的分類器，目標(biāo)檢測(cè)耗時(shí)，難以滿足實(shí)時(shí)性等。這是因?yàn)檫@兩類目標(biāo)檢測(cè)算法都是對(duì)中低層特征進(jìn)行處理，容易受場(chǎng)景噪聲、目標(biāo)和場(chǎng)景的狀態(tài)多變、目標(biāo)類型多樣等影響。因此，研究者們依然在進(jìn)行大量研究來(lái)提高算法的效率、精度和魯棒性，其研究的方向及發(fā)展趨勢(shì)主要表現(xiàn)在以下幾個(gè)方面：

（1）研究結(jié)合場(chǎng)景信息和目標(biāo)狀態(tài)的分析方法，突破中低層特征的局限，構(gòu)建特征提取新算子，提高算法的實(shí)用性。

（2）研究時(shí)域、空域、頻域信息，以及不同尺度空間特征信息的結(jié)合，綜合各種互補(bǔ)的信息，提高目標(biāo)檢測(cè)的準(zhǔn)確性。

（3）研究深度學(xué)習(xí)在目標(biāo)檢測(cè)中存在的一些困難，如解釋性差、模型復(fù)雜、計(jì)算強(qiáng)度高等問題。深度學(xué)習(xí)無(wú)疑存在一些挑戰(zhàn)，但其天然的強(qiáng)大數(shù)據(jù)表達(dá)能力，無(wú)疑將會(huì)在大數(shù)據(jù)量的視頻中的目標(biāo)檢測(cè)及其它視覺研究產(chǎn)生重要影響，也會(huì)將目標(biāo)檢測(cè)等推向新的高度。