趙 亮,譚功全,周 晴,楊 鍇
(1.四川輕化工大學自動化與信息工程學院,四川 宜賓 644000;2.人工智能四川省重點實驗室,四川 宜賓 644000)
目標跟蹤在計算機視覺領域中具有重大研究價值[1],實時的目標跟蹤在行人檢測、自動駕駛、視頻監(jiān)控等領域得到廣泛的應用[2-3]。但在現(xiàn)實場景中,目標由于遮擋、光照變化、運動模糊等因素導致跟蹤效果不好,目標丟失等問題[4]也經(jīng)常發(fā)生。因此,提高跟蹤成功率與準確度成為跟蹤領域中的研究重點[5]。
相關濾波算法由于其速度快,精度較高,成為目前運用廣泛的跟蹤算法[6]。Bolme 等[7]提出的MOSSE(Minimum Output Sum of Square Error)算法是最初應用到核相關濾波的算法,跟蹤速度達到669 fps,但由于只能利用第一幀中的有限信息進行學習,導致訓練樣本很少,因此很容易產生漂移現(xiàn)象[8],并且會讓跟蹤器不可恢復。因為其速度快,可移植性強,進而CSK(Circulant Structure of Tracking with Kernels)算法在MOSSE 算法的基礎上加入正則項,防止濾波器過擬合[9]。之后Henriques 等[10]提出的KCF(Kernelized Correlation Filter)算法使用HOG特征,并且引入循環(huán)矩陣和核函數(shù),使得相關濾波算法在保持高幀率的情況下跟蹤精度也有了極大提升。但由于算法使用單一的特征,而且缺少尺度更新機制,導致跟蹤魯棒性差。與此同時,Danelljan 等[11]也提出了使用顏色特征的CN(Color Name)算法。
2014 年,Li[12]提出將HOG 特征與CN 特征串聯(lián)融合的SAMF(Scale Adaptive and Multiple Feature)算法,在進行目標定位的同時求解最佳目標尺寸。該算法的多尺度方法是使用尺度池的方式,將平移濾波器在多尺度縮放的圖像塊上進行目標檢測,然后計算檢測的響應值,并取得響應最大的平移位置及所在尺度,最后,在7 個尺寸上得到7 層響應,取最 大 響 應 作 為 最 佳 尺 寸。Daneljan 等[13]提 出 的DSST(Discriminative Scale Space Tracker)算法同樣也加入了尺度變化,通過引入一維濾波器完成目標的尺度估計。此算法僅使用了HOG 特征,在使用位置濾波器檢測響應值最大的位置的同時,又訓練了檢測最佳尺度的尺度濾波器。該尺度濾波器取33個尺度,并計算這些尺度和原圖片的響應值,在響應最大處取得最佳尺度。近幾年基于深度學習的跟蹤方法也層出不窮,例如基于孿生網(wǎng)絡的SiamFC算法[14]、采用RPN 網(wǎng)絡對目標尺度回歸的SiamRPN算法[15]以及增加分割功能的SiamMask算法[16]。
在核相關濾波的框架基礎上,本文研究了不同特征的變化規(guī)律,以及被跟蹤目標所發(fā)生的尺度變化,提出一種自適應目標尺度更新方式。并且在特征提取上進行HOG 特征與CN 特征自適應融合,從而改進跟蹤算法。
線性嶺回歸的目標函數(shù)可表示為:
式中:函數(shù)f為分類函數(shù),xi為樣本,yi為樣本標簽,λ為正則化參數(shù),防止過擬合現(xiàn)象,w為濾波器系數(shù)。嶺回歸具有閉解式如下:
式中:I為單位矩陣,X為循環(huán)矩陣,y為樣本標簽矩陣,式(2)在復數(shù)域中為:
式中:XH為X的共軛轉置。
假設有一個一維數(shù)組x=[x1,x2,…,xn],通過構造循環(huán)矩陣對x進行循環(huán)移位,使負樣本的數(shù)量增加,循環(huán)移位算子P為置換矩陣:
其中:u為向量x的元素向右平移的單位數(shù)。當進行了n次移位后就得到最終樣本矩陣X,由式(5)得到的集合可計算出最終樣本:
所有的循環(huán)矩陣在傅氏空間中可使用離散傅里葉矩陣進行對角化得到:
式中:α為w的對偶空間變量,k為核函數(shù),z為檢測樣本集。對核函數(shù)使用循環(huán)技巧,可得到嶺回歸方程的解為:
該算法只需要進行簡單的點乘、傅里葉與反傅里葉變換,因此運算速度大大提高。通過以上步驟可獲得濾波器模板,在下一幀的此區(qū)域附近通過循環(huán)移位得到的樣本集z,濾波器與z相關響應的傅里葉變換可得到:
跟蹤過程中由于目標外觀發(fā)生變化,長時間的跟蹤會使效果變差,進而引入了模板更新機制,主要是采用線性內插法更新分類器的α^ 與目標特征向量x^:
筆者認為,醫(yī)院建筑設計中最核心的問題是如何最大限度滿足使用者的需求,并處理好該建筑與自然之間的關系。指導建筑設計,著名建筑師章斌歡女士曾指出:新世紀的建筑,無論是整體規(guī)劃還是單體建筑的外部設計或內部功能,無論是從物質上還是從精神上“以人為中心”-“以人為本”的設計思想已是無可爭論的。因此,建筑設計師不應只是以建筑物的功能為設計的出發(fā)點,而應該在設計的過程中充分考慮使用者的需求、使用者的主觀感受以及建筑本身與自然之間的和諧關系等等。
式中:t為視頻的幀數(shù),β為線性內插因子,能長時間跟蹤目標。但由于KCF 算法中只有單一的HOG 特征,導致跟蹤中存在魯棒性差、尺度不更新等問題。
目標跟蹤的重要一步為特征提取,一種合適的特征提取方式可以很大程度地提高跟蹤效果。傳統(tǒng)的算法大多應用的是單一特征[17]。但是任何單一的特征都有其側重點,如HOG 特征是在圖像的局部方格單元上操作,所以它對圖像幾何的和光學的形變都能保持很好的不變性。但是由于梯度的性質,使其對噪點比較敏感。而顏色特征作為一種全局特征,可以很好地描述圖像區(qū)域內對應景物的表面性質,且不受目標大小和形狀的影響,使其具有旋轉不變性[18],但是強烈的光照變化會使目標丟失。因此,兩種特征可以達到很高程度的融合[19],將二者結合起來,會使其達到特征的優(yōu)缺點互補的目的。
近幾年優(yōu)秀的目標跟蹤算法大多采用特征融合的方式[20]。在理論上,融合的特征越多,跟蹤效果越好,但是相應的,速度會越來越慢,而且融合的特征越多,會更大幾率導致提取的特征冗余。因此,大多數(shù)算法融合的特征不超過3 種[21]。本文嘗試采用梯度和顏色特征相融合,重點解決目標運動模糊和光照變化產生的影響。
首先,通過前一幀提取的目標特征和所訓練的濾波器進行匹配,根據(jù)匹配得到的響應分數(shù),得到的最大響應分數(shù)即為目標位置。并且得到的最大響應分數(shù),取決于當前幀的CN 特征和HOG 特征所占用的特征比重。因此,為了得到兩種特征最優(yōu)的比重,對候選樣本進行建模,得到特征模型RCNt和RHOGt,采用式(13)可以得到第t幀HOG 特征和CN 特征值之比μ為:
式中:RCNt與RHOGt分別為第t幀CN特征值和HOG特征值。將式(13)中得到的權重進行特征模型融合,可求得:
由式(14)計算得到的特征模型與濾波器進行匹配,然后算出最大響應值,進而確定目標位置。
特征自適應融合的方法,在光照變化等條件下,對HOG 特征的使用效果更好,則提高HOG 特征的權重。相反,在目標發(fā)生運動模糊的情況下,則使用CN 特征的效果更好。因此,使用兩者自適應融合能提高對目標的特征判別能力。
首先,通過特征點檢測的方式得到特征點的位置和尺度,并在當前幀的目標處采用BRISK 特征采樣。匹配當前幀和下一幀的兩個BRISK 特征,采用漢明距離計算它們之間的匹配度,若小于閾值,代表匹配不成功。反之,若兩幀之間的匹配度大于閾值,則使用RANSAC 方法去除匹配點并計算仿射變換矩陣Pi且與下一幀目標進行比較,判斷尺度變化。設當前幀特征點位置為[xi yi]T,下一幀特征點位置為[xi+1yi+1]T,則可得到:
其中:bx和by分別表示目標在橫、縱坐標上的移位,cx和cy分別表示目標在橫、縱坐標上的縮放值。
圖1 所示為dog 視頻兩幀之間BRISK 特征的尺度對比圖。圖1中采集到小狗的特征進行兩幀之間的匹配,匹配效果明顯,可以由匹配結果看出目標在變小。
圖1 dog視頻兩幀之間BRISK特征尺度對比
為了驗證本文算法效果,本文在OTB2013 數(shù)據(jù)集上的不同屬性集下,和另外兩種對于KCF 算法改進的SAMF算法和DSST算法進行了實驗對比。
實驗仿真軟件為Windows10 系統(tǒng)下的MATLAB2018b,實驗用到的計算機配置為AMD Ryzen 5 4600H with Radeon Graphics 3GHz 的處理器,運行內存為16 GB。
針對傳統(tǒng)KCF 算法存在的光照變化(Illumination Variation)、運動模糊(Motion Blur)、發(fā)生遮擋(Occlusion)等情況,加入顏色特征與尺度變化進行改進,得到部分算法對比的精度與成功率。
圖2 所示為光照變化情況下的測試結果。圖2中可見,在光照變化的條件下,僅加入HOG 特征的DSST 算法,要比同時加入兩種特征的SAMF 算法效果好。KCF_ours 由于采用自適應特征融合的方式,在光照變化下,CN 特征所占的權重會減小,HOG 特征增大,因此在準確率和成功率上分別比SAMF 算法提高了2.8%和0.6%。相較于KCF 算法在精度和成功率上分別提升3.1%和17.2%。
圖2 光照變化屬性視頻序列下準確率和成功率
圖3所示為在目標運動模糊的情況下的測試結果。圖3中可見,雙特征融合的SAMF與KCF_ous算法的優(yōu)勢就凸顯出來。但KCF_ours 算法應用的BRISK的尺度自適應特征,要比SAMF算法的7個尺度池特征在運行速度上更快,當目標快速運動導致模糊情況下的效果更好。在準確率與成功率上分別比KCF 算法提高了10.4%和10.8%。而DSST 算法采用33個精細的尺度特征,反而比KCF算法在準確率與成功率上分別下降了9.5%和7.9%。
圖3 運動模糊屬性視頻序列下的準確率和成功率
圖4所示為在遮擋屬性視頻序列下的準確率圖和成功率圖。在目標發(fā)生遮擋情況下使用BRISK的尺度自適應特征要比SAMF 算法的尺度池方法效果更好,即便在半遮擋的情況下也會識別到目標位置。其準確率和成功率分別比KCF 算法提高20.8%和32.5%。
圖4 遮擋屬性視頻序列下準確率和成功率
圖5所示為所有視頻序列下的測試結果。本文算法在準確率上比SAMF 算法略有提高,在成功率上稍有下降。但跟蹤速度幾乎為SAMF 算法的兩倍,且相比于KCF 算法在準確率和成功率上分別提升了9.3%和17.7%。
根據(jù)實驗中每種算法處理數(shù)據(jù)集的平均速度,得到4種算法的平均跟蹤速度,見表1。KCF算法只采用了HOG特征,平均速度達到246.23 fps,DSST算法在此基礎上增添了尺度特征,速度達到51.32 fps。SAMF 算法既增添了尺度特征,又加入了特征融合,效果很好但是速度偏慢。KCF_ours 算法采用自適應特征融合和BRISK 尺度特征,因此跟蹤效果更好,跟蹤速度相對SAMF 算法也更快,達到45.88 fps。
表1 4種算法的跟蹤速度
圖6 所示為算法跟蹤示例,其中紅色、綠色、黃色和藍色的跟蹤框分別代表KCF 算法、SAMF 算法、DSST 算法和本文提出的算法。由圖6 可見,第一行圖片為OTB2013 數(shù)據(jù)集的CarScale 圖像序列,圖像序列中主要涉及了尺度變化,KCF 算法由于沒有尺度特征,以至于在小車尺度變大時跟蹤框還維持初始大小。SAMF算法的尺度特征為7個尺度池,如果參數(shù)設置得緊密,在目標發(fā)生快速的尺度變化時,跟蹤框無法及時擴大。DSST 算法應用33 個尺度來判斷每幀的變化,所以只有本文算法與DSST 算法跟蹤效果較好。第二行為Soccer 圖像序列,其中主要涉及遮擋和輕微的運動模糊,在第277幀,KCF 算法由于目標運動模糊導致跟蹤丟失。同樣DSST 算法和SAMF 算法在目標發(fā)生遮擋的情況下跟蹤丟失,但SAMF 算法由于目標特征變化太快,尺度池的尺度變化更明顯,導致跟蹤框不斷擴大。只有本文算法的尺度特征跟蹤效果良好。第三行為Singer圖片序列,其中主要涉及光照和逐漸變小的尺度變化。KCF 算法在目標尺度變小后就逐漸跟蹤丟失,在177 幀,由于強烈的光照變化,SAMF 算法明顯比DSST算法和本文算法的跟蹤框變大,只有本文算法和沒有加入顏色特征的DSST 算法效果較好。因此,本文算法在目標發(fā)生光照變化、尺度變化和目標遮擋等情況下都始終能穩(wěn)定地跟蹤目標。
圖6 跟蹤示例
在KCF 算法的基礎上,通過研究KCF 算法的不足,進行特征融合和尺度自適應的改進方面提出一種新的算法。首先在HOG特征的基礎上加入CN特征,進行特征融合,之后通過BRISK 特征匹配方式判斷目標的尺度變化。實驗表明,本文算法提高了目標存在光照變化、運動模糊、遮擋等情況下的成功率與精度,跟蹤性能較好,并且跟蹤速度達到45.88 fps,滿足實時跟蹤性能。