基于特征融合和尺度自適應的核相關濾波算法研究

2022-03-12 06:00:34譚功全

四川輕化工大學學報(自然科學版) 2022年1期

趙亮，譚功全，周晴，楊鍇

（1.四川輕化工大學自動化與信息工程學院，四川宜賓 644000；2.人工智能四川省重點實驗室，四川宜賓 644000）

引言

目標跟蹤在計算機視覺領域中具有重大研究價值［1］，實時的目標跟蹤在行人檢測、自動駕駛、視頻監(jiān)控等領域得到廣泛的應用［2-3］。但在現(xiàn)實場景中，目標由于遮擋、光照變化、運動模糊等因素導致跟蹤效果不好，目標丟失等問題［4］也經(jīng)常發(fā)生。因此，提高跟蹤成功率與準確度成為跟蹤領域中的研究重點［5］。

相關濾波算法由于其速度快，精度較高，成為目前運用廣泛的跟蹤算法［6］。Bolme 等［7］提出的MOSSE（Minimum Output Sum of Square Error）算法是最初應用到核相關濾波的算法，跟蹤速度達到669 fps，但由于只能利用第一幀中的有限信息進行學習，導致訓練樣本很少，因此很容易產生漂移現(xiàn)象［8］，并且會讓跟蹤器不可恢復。因為其速度快，可移植性強，進而CSK（Circulant Structure of Tracking with Kernels）算法在MOSSE 算法的基礎上加入正則項，防止濾波器過擬合［9］。之后Henriques 等［10］提出的KCF（Kernelized Correlation Filter）算法使用HOG特征，并且引入循環(huán)矩陣和核函數(shù)，使得相關濾波算法在保持高幀率的情況下跟蹤精度也有了極大提升。但由于算法使用單一的特征，而且缺少尺度更新機制，導致跟蹤魯棒性差。與此同時，Danelljan 等［11］也提出了使用顏色特征的CN（Color Name）算法。

2014 年，Li［12］提出將HOG 特征與CN 特征串聯(lián)融合的SAMF（Scale Adaptive and Multiple Feature）算法，在進行目標定位的同時求解最佳目標尺寸。該算法的多尺度方法是使用尺度池的方式，將平移濾波器在多尺度縮放的圖像塊上進行目標檢測，然后計算檢測的響應值，并取得響應最大的平移位置及所在尺度，最后，在7 個尺寸上得到7 層響應，取最大響應作為最佳尺寸。Daneljan 等［13］提出的DSST（Discriminative Scale Space Tracker）算法同樣也加入了尺度變化，通過引入一維濾波器完成目標的尺度估計。此算法僅使用了HOG 特征，在使用位置濾波器檢測響應值最大的位置的同時，又訓練了檢測最佳尺度的尺度濾波器。該尺度濾波器取33個尺度，并計算這些尺度和原圖片的響應值，在響應最大處取得最佳尺度。近幾年基于深度學習的跟蹤方法也層出不窮，例如基于孿生網(wǎng)絡的SiamFC算法［14］、采用RPN 網(wǎng)絡對目標尺度回歸的SiamRPN算法［15］以及增加分割功能的SiamMask算法［16］。

在核相關濾波的框架基礎上，本文研究了不同特征的變化規(guī)律，以及被跟蹤目標所發(fā)生的尺度變化，提出一種自適應目標尺度更新方式。并且在特征提取上進行HOG 特征與CN 特征自適應融合，從而改進跟蹤算法。

1 KCF目標跟蹤算法原理

線性嶺回歸的目標函數(shù)可表示為：

式中：函數(shù)f為分類函數(shù)，xi為樣本，yi為樣本標簽，λ為正則化參數(shù)，防止過擬合現(xiàn)象，w為濾波器系數(shù)。嶺回歸具有閉解式如下：

式中：I為單位矩陣，X為循環(huán)矩陣，y為樣本標簽矩陣，式（2）在復數(shù)域中為：

式中：XH為X的共軛轉置。

假設有一個一維數(shù)組x=[x1,x2,…,xn],通過構造循環(huán)矩陣對x進行循環(huán)移位，使負樣本的數(shù)量增加，循環(huán)移位算子P為置換矩陣：

其中：u為向量x的元素向右平移的單位數(shù)。當進行了n次移位后就得到最終樣本矩陣X，由式(5)得到的集合可計算出最終樣本：

所有的循環(huán)矩陣在傅氏空間中可使用離散傅里葉矩陣進行對角化得到：

式中：α為w的對偶空間變量，k為核函數(shù)，z為檢測樣本集。對核函數(shù)使用循環(huán)技巧，可得到嶺回歸方程的解為：

該算法只需要進行簡單的點乘、傅里葉與反傅里葉變換，因此運算速度大大提高。通過以上步驟可獲得濾波器模板，在下一幀的此區(qū)域附近通過循環(huán)移位得到的樣本集z，濾波器與z相關響應的傅里葉變換可得到：

跟蹤過程中由于目標外觀發(fā)生變化，長時間的跟蹤會使效果變差，進而引入了模板更新機制，主要是采用線性內插法更新分類器的α^ 與目標特征向量x^：

筆者認為，醫(yī)院建筑設計中最核心的問題是如何最大限度滿足使用者的需求，并處理好該建筑與自然之間的關系。指導建筑設計，著名建筑師章斌歡女士曾指出：新世紀的建筑，無論是整體規(guī)劃還是單體建筑的外部設計或內部功能，無論是從物質上還是從精神上“以人為中心”-“以人為本”的設計思想已是無可爭論的。因此，建筑設計師不應只是以建筑物的功能為設計的出發(fā)點，而應該在設計的過程中充分考慮使用者的需求、使用者的主觀感受以及建筑本身與自然之間的和諧關系等等。

式中：t為視頻的幀數(shù)，β為線性內插因子，能長時間跟蹤目標。但由于KCF 算法中只有單一的HOG 特征，導致跟蹤中存在魯棒性差、尺度不更新等問題。

2 本文算法

2.1 特征融合

目標跟蹤的重要一步為特征提取，一種合適的特征提取方式可以很大程度地提高跟蹤效果。傳統(tǒng)的算法大多應用的是單一特征［17］。但是任何單一的特征都有其側重點，如HOG 特征是在圖像的局部方格單元上操作，所以它對圖像幾何的和光學的形變都能保持很好的不變性。但是由于梯度的性質，使其對噪點比較敏感。而顏色特征作為一種全局特征，可以很好地描述圖像區(qū)域內對應景物的表面性質，且不受目標大小和形狀的影響，使其具有旋轉不變性［18］，但是強烈的光照變化會使目標丟失。因此，兩種特征可以達到很高程度的融合［19］，將二者結合起來，會使其達到特征的優(yōu)缺點互補的目的。

近幾年優(yōu)秀的目標跟蹤算法大多采用特征融合的方式［20］。在理論上，融合的特征越多，跟蹤效果越好，但是相應的，速度會越來越慢，而且融合的特征越多，會更大幾率導致提取的特征冗余。因此，大多數(shù)算法融合的特征不超過3 種［21］。本文嘗試采用梯度和顏色特征相融合，重點解決目標運動模糊和光照變化產生的影響。

首先，通過前一幀提取的目標特征和所訓練的濾波器進行匹配，根據(jù)匹配得到的響應分數(shù)，得到的最大響應分數(shù)即為目標位置。并且得到的最大響應分數(shù)，取決于當前幀的CN 特征和HOG 特征所占用的特征比重。因此，為了得到兩種特征最優(yōu)的比重，對候選樣本進行建模，得到特征模型RCNt和RHOGt，采用式（13）可以得到第t幀HOG 特征和CN 特征值之比μ為：

式中：RCNt與RHOGt分別為第t幀CN特征值和HOG特征值。將式（13）中得到的權重進行特征模型融合，可求得：

由式（14）計算得到的特征模型與濾波器進行匹配，然后算出最大響應值，進而確定目標位置。

特征自適應融合的方法，在光照變化等條件下，對HOG 特征的使用效果更好，則提高HOG 特征的權重。相反，在目標發(fā)生運動模糊的情況下，則使用CN 特征的效果更好。因此，使用兩者自適應融合能提高對目標的特征判別能力。

2.2 尺度自適應

首先，通過特征點檢測的方式得到特征點的位置和尺度，并在當前幀的目標處采用BRISK 特征采樣。匹配當前幀和下一幀的兩個BRISK 特征，采用漢明距離計算它們之間的匹配度，若小于閾值，代表匹配不成功。反之，若兩幀之間的匹配度大于閾值，則使用RANSAC 方法去除匹配點并計算仿射變換矩陣Pi且與下一幀目標進行比較，判斷尺度變化。設當前幀特征點位置為[xi yi]T，下一幀特征點位置為[xi+1yi+1]T，則可得到：

其中：bx和by分別表示目標在橫、縱坐標上的移位，cx和cy分別表示目標在橫、縱坐標上的縮放值。

圖1 所示為dog 視頻兩幀之間BRISK 特征的尺度對比圖。圖1中采集到小狗的特征進行兩幀之間的匹配，匹配效果明顯，可以由匹配結果看出目標在變小。

圖1 dog視頻兩幀之間BRISK特征尺度對比

3 實驗與分析

為了驗證本文算法效果，本文在OTB2013 數(shù)據(jù)集上的不同屬性集下，和另外兩種對于KCF 算法改進的SAMF算法和DSST算法進行了實驗對比。

3.1 實驗驗證

實驗仿真軟件為Windows10 系統(tǒng)下的MATLAB2018b，實驗用到的計算機配置為AMD Ryzen 5 4600H with Radeon Graphics 3GHz 的處理器，運行內存為16 GB。

針對傳統(tǒng)KCF 算法存在的光照變化(Illumination Variation)、運動模糊(Motion Blur)、發(fā)生遮擋(Occlusion)等情況，加入顏色特征與尺度變化進行改進，得到部分算法對比的精度與成功率。

圖2 所示為光照變化情況下的測試結果。圖2中可見，在光照變化的條件下，僅加入HOG 特征的DSST 算法，要比同時加入兩種特征的SAMF 算法效果好。KCF_ours 由于采用自適應特征融合的方式，在光照變化下，CN 特征所占的權重會減小，HOG 特征增大，因此在準確率和成功率上分別比SAMF 算法提高了2.8%和0.6%。相較于KCF 算法在精度和成功率上分別提升3.1%和17.2%。

圖2 光照變化屬性視頻序列下準確率和成功率

圖3所示為在目標運動模糊的情況下的測試結果。圖3中可見，雙特征融合的SAMF與KCF_ous算法的優(yōu)勢就凸顯出來。但KCF_ours 算法應用的BRISK的尺度自適應特征，要比SAMF算法的7個尺度池特征在運行速度上更快，當目標快速運動導致模糊情況下的效果更好。在準確率與成功率上分別比KCF 算法提高了10.4%和10.8%。而DSST 算法采用33個精細的尺度特征，反而比KCF算法在準確率與成功率上分別下降了9.5%和7.9%。

圖3 運動模糊屬性視頻序列下的準確率和成功率

圖4所示為在遮擋屬性視頻序列下的準確率圖和成功率圖。在目標發(fā)生遮擋情況下使用BRISK的尺度自適應特征要比SAMF 算法的尺度池方法效果更好，即便在半遮擋的情況下也會識別到目標位置。其準確率和成功率分別比KCF 算法提高20.8%和32.5%。

圖4 遮擋屬性視頻序列下準確率和成功率

圖5所示為所有視頻序列下的測試結果。本文算法在準確率上比SAMF 算法略有提高，在成功率上稍有下降。但跟蹤速度幾乎為SAMF 算法的兩倍，且相比于KCF 算法在準確率和成功率上分別提升了9.3%和17.7%。

根據(jù)實驗中每種算法處理數(shù)據(jù)集的平均速度，得到4種算法的平均跟蹤速度，見表1。KCF算法只采用了HOG特征，平均速度達到246.23 fps，DSST算法在此基礎上增添了尺度特征，速度達到51.32 fps。SAMF 算法既增添了尺度特征，又加入了特征融合，效果很好但是速度偏慢。KCF_ours 算法采用自適應特征融合和BRISK 尺度特征，因此跟蹤效果更好，跟蹤速度相對SAMF 算法也更快，達到45.88 fps。

表1 4種算法的跟蹤速度

3.2 定性分析

圖6 所示為算法跟蹤示例，其中紅色、綠色、黃色和藍色的跟蹤框分別代表KCF 算法、SAMF 算法、DSST 算法和本文提出的算法。由圖6 可見，第一行圖片為OTB2013 數(shù)據(jù)集的CarScale 圖像序列，圖像序列中主要涉及了尺度變化，KCF 算法由于沒有尺度特征，以至于在小車尺度變大時跟蹤框還維持初始大小。SAMF算法的尺度特征為7個尺度池，如果參數(shù)設置得緊密，在目標發(fā)生快速的尺度變化時，跟蹤框無法及時擴大。DSST 算法應用33 個尺度來判斷每幀的變化，所以只有本文算法與DSST 算法跟蹤效果較好。第二行為Soccer 圖像序列，其中主要涉及遮擋和輕微的運動模糊，在第277幀，KCF 算法由于目標運動模糊導致跟蹤丟失。同樣DSST 算法和SAMF 算法在目標發(fā)生遮擋的情況下跟蹤丟失，但SAMF 算法由于目標特征變化太快，尺度池的尺度變化更明顯，導致跟蹤框不斷擴大。只有本文算法的尺度特征跟蹤效果良好。第三行為Singer圖片序列，其中主要涉及光照和逐漸變小的尺度變化。KCF 算法在目標尺度變小后就逐漸跟蹤丟失，在177 幀，由于強烈的光照變化，SAMF 算法明顯比DSST算法和本文算法的跟蹤框變大，只有本文算法和沒有加入顏色特征的DSST 算法效果較好。因此，本文算法在目標發(fā)生光照變化、尺度變化和目標遮擋等情況下都始終能穩(wěn)定地跟蹤目標。

圖6 跟蹤示例

4 結束語

在KCF 算法的基礎上，通過研究KCF 算法的不足，進行特征融合和尺度自適應的改進方面提出一種新的算法。首先在HOG特征的基礎上加入CN特征，進行特征融合，之后通過BRISK 特征匹配方式判斷目標的尺度變化。實驗表明，本文算法提高了目標存在光照變化、運動模糊、遮擋等情況下的成功率與精度，跟蹤性能較好，并且跟蹤速度達到45.88 fps，滿足實時跟蹤性能。