孫紫君, 黃福珍
(上海電力學(xué)院 自動(dòng)化工程學(xué)院, 上海 200090)
計(jì)算機(jī)視覺(jué)是所有從二維圖片中獲得情景信息的計(jì)算機(jī)處理方法的總稱[1]。目標(biāo)跟蹤是國(guó)內(nèi)外計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)[2-3],在機(jī)器人、視頻監(jiān)控、人機(jī)交互和無(wú)人駕駛等領(lǐng)域應(yīng)用廣泛。通常目標(biāo)在視頻或圖像序列中存在著外觀變形、尺度變化、光照變化、快速旋轉(zhuǎn)運(yùn)動(dòng)、背景相似干擾和視野丟失等現(xiàn)象[4-5]。這些現(xiàn)象的存在,使得目標(biāo)跟蹤具有一定的難度。研究人員針對(duì)不同的問(wèn)題提出了不同的解決方法。這些方法可以分為兩大類:一是生成類方法,二是判別類方法。生成類方法是在前一視頻幀的目標(biāo)區(qū)域建模,在當(dāng)前幀尋找與模型最相似的區(qū)域;判別類方法是在前一視頻幀的目標(biāo)區(qū)域和背景區(qū)域中提取正負(fù)樣本進(jìn)行訓(xùn)練,從而得到一個(gè)目標(biāo)分類器,利用訓(xùn)練好的目標(biāo)分類器找到待檢測(cè)目標(biāo)的位置。
基于相關(guān)濾波(Correlation Filtering,CF)的跟蹤方法屬于判別類方法[6]。CF方法的跟蹤性能良好,計(jì)算效率極高,能夠跟蹤較復(fù)雜的目標(biāo),是目標(biāo)跟蹤領(lǐng)域的研究熱點(diǎn)之一。在跟蹤過(guò)程中,CF方法通過(guò)前一幀的訓(xùn)練數(shù)據(jù)集訓(xùn)練分類器,利用訓(xùn)練好的分類器跟蹤當(dāng)前幀的目標(biāo),同時(shí)更新分類器。HENRIQUES J F等人[7-8]將核函數(shù)引入誤差最小平方和濾波(Minimum Output Sum of Squared Error,MOSSE)算法,提出了基于循環(huán)結(jié)構(gòu)核(Circulant Structure Kernels,CSK)算法,并在該算法的基礎(chǔ)上改進(jìn)得到了核相關(guān)濾波(Kernelized Correlation Filters,KCF)算法。KCF算法加入了多通道方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征,提高了跟蹤器的跟蹤精度。但當(dāng)跟蹤的目標(biāo)外觀發(fā)生變化時(shí),僅利用圖像的單一特征進(jìn)行跟蹤會(huì)產(chǎn)生模型誤差,從而影響目標(biāo)跟蹤的穩(wěn)健性。
針對(duì)上述問(wèn)題,本文在KCF算法的基礎(chǔ)上,提出了一種多特征融合的核相關(guān)濾波跟蹤方法。從特征融合入手,將優(yōu)缺點(diǎn)可以互補(bǔ)的特征進(jìn)行融合,同時(shí)在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以驗(yàn)證改進(jìn)算法的跟蹤性能。
KCF算法是利用循環(huán)矩陣構(gòu)造訓(xùn)練樣本。假設(shè)基礎(chǔ)樣本x是一組1×n維的向量[x1,x2,x3,…,xn],通過(guò)循環(huán)移位可以得到樣本矩陣X,表示為
(1)
其中矩陣X的第一行為向量x,其他各行是向量x向右移動(dòng)1,2,3,…n-1位得到的樣本。文獻(xiàn)[7]表明,所有的循環(huán)矩陣都能夠在傅里葉域使用離散傅里葉矩陣進(jìn)行對(duì)角化,即
(2)
式中:F——離散傅里葉矩陣;
FH——F的復(fù)共軛的轉(zhuǎn)置;
∧——離散傅里葉變換。
樣本訓(xùn)練是為了找到一個(gè)函數(shù)f(xi)=wTxi,讓樣本xi與其對(duì)應(yīng)的yi的均方誤差最小。
(3)
式中的λ是正則化參數(shù),其作用是提高分類器的泛化能力,防止過(guò)度擬合。
由線性最小二乘法解得
w=(XHX+λI)-1XHy
(4)
利用循環(huán)矩陣的特性,將式(2)代入式(4)中,再進(jìn)行離散傅里葉變換,可得
(5)
α=(K+λI)-1y
(6)
(7)
對(duì)于待檢測(cè)樣本z,其對(duì)應(yīng)的回歸值為
(8)
當(dāng)待檢測(cè)樣本z數(shù)量較多時(shí),采用循環(huán)矩陣構(gòu)造檢測(cè)樣本。定義訓(xùn)練樣本和檢測(cè)樣本的核矩陣為
KZ=C(kxz)
(9)
結(jié)合式(8)和式(9)可得
f(z)=(KZ)Tα
(10)
為了提高計(jì)算速度,將式(10)轉(zhuǎn)化到傅里葉域計(jì)算,此時(shí)目標(biāo)函數(shù)可以表示為
(11)
跟蹤目標(biāo)對(duì)應(yīng)的位置,就是目標(biāo)函數(shù)的最大響應(yīng)值,詳細(xì)的算法計(jì)算過(guò)程可以參考文獻(xiàn)[8]。
在跟蹤算法中,特征表達(dá)的是否有效直接決定跟蹤結(jié)果的好壞。為了平衡特征表達(dá)能力和計(jì)算復(fù)雜度,在KCF算法的基礎(chǔ)上提出了融合具有相互互補(bǔ)性的特征。在不同的跟蹤場(chǎng)景中,不同的特征對(duì)目標(biāo)的描述各有側(cè)重,本文主要介紹灰度特征、HOG特征和局部二值模式(Local Binary Patterns,LBP)特征。
2.1.1 灰度特征
灰度(Gray)特征是跟蹤算法中使用較早的一種特征,例如在MOSSE算法和CSK算法中均采用了灰度特征進(jìn)行目標(biāo)描述?;叶忍卣魇窍葘⒃紙D像轉(zhuǎn)化為灰度圖,然后對(duì)灰度值進(jìn)行歸一化,使得光照變化對(duì)該特征的影響減弱?;叶忍卣魅鐖D1所示。
圖1 灰度特征示意
2.1.2 HOG特征
HOG特征的主要思想是,在圖像中計(jì)算圖像的梯度或邊沿方向的分布情況來(lái)反映部分圖像目標(biāo)的表示和形狀[9]。HOG特征通過(guò)計(jì)算每個(gè)像素點(diǎn)的梯度(包括大小和方向兩個(gè)方面),將輸入圖像劃分為若干大小的單元格,再將單元格中的梯度方向劃分成不同的方向。單元格中的每個(gè)像素在不同的梯度方向上的加權(quán)投影,最終形成梯度直方圖,幾個(gè)相鄰的單元格就形成了一個(gè)塊。其詳細(xì)的特征提取過(guò)程可參考文獻(xiàn)[10]。輸入圖像和單元格為4×4的HOG特征可視化結(jié)果如圖2所示。
圖2 HOG特征可視化結(jié)果示意
2.1.3 LBP特征
LBP算子是在一個(gè)3×3的窗口內(nèi),將窗口內(nèi)的中心像素點(diǎn)灰度值設(shè)為閾值,并將其周圍8個(gè)鄰域內(nèi)的各像素點(diǎn)的灰度值與中心像素點(diǎn)的灰度值進(jìn)行比較。若灰度值大于中心點(diǎn)的灰度值,則在該位置標(biāo)記為“1”,否則標(biāo)記為“0”。最終將二值化后的結(jié)果按照一定的順序組成一個(gè)8位二進(jìn)制數(shù),即該數(shù)表示的就是該點(diǎn)的LBP值。其詳細(xì)的特征提取過(guò)程可參考文獻(xiàn)[11]。LBP算子的特征可視化結(jié)果如圖3所示。
圖3 LBP算子可視化結(jié)果示意
灰度特征只有一維,便于與其他特征融合;同時(shí)它計(jì)算簡(jiǎn)單、復(fù)雜度較低,可以最大程度地描述目標(biāo)本身的狀態(tài)。當(dāng)圖像目標(biāo)尺寸較小或圖像的分辨率較低時(shí),計(jì)算過(guò)程復(fù)雜的特征描述子并不能夠完全描述目標(biāo),這時(shí)采用灰度特征可以改善跟蹤效果。
HOG特征屬于局部形狀特征,對(duì)光照影響和幾何形變不敏感,計(jì)算復(fù)雜度也較低,符合實(shí)時(shí)目標(biāo)跟蹤的要求。當(dāng)跟蹤場(chǎng)景中有形變、光照變化以及局部遮擋發(fā)生時(shí),利用HOG特征跟蹤目標(biāo)效果良好。在目標(biāo)和背景顏色相近、目標(biāo)邊緣或者背景有噪聲的場(chǎng)景中,HOG特征和灰度特征無(wú)法有效地描述目標(biāo),此時(shí)則可以利用紋理特征對(duì)跟蹤目標(biāo)進(jìn)行補(bǔ)充描述。LBP特征的描述方法與HOG特征相似,易與HOG特征融合。
多特征融合需要融合的特征對(duì)目標(biāo)的描述有互補(bǔ)性,還要有相似的計(jì)算過(guò)程。由上述介紹可知,3種特征在不同的場(chǎng)景中對(duì)目標(biāo)的跟蹤各有優(yōu)劣,三者之間存在一定的互補(bǔ)性且將這3種特征進(jìn)行融合是可行的。
針對(duì)HOG特征,本文采用的是快速Felzenszwalb’s HOG特征[12]。該特征將梯度方向分為9個(gè),利用9個(gè)方向通道的直方圖計(jì)算HOG特征。其中,有2×9維方向通道的對(duì)比度敏感,有1×9維的方向通道的對(duì)比度不敏感,還有1×4維的紋理通道。因此,本文采用的HOG特征的總維數(shù)是18+9+4=31維。
針對(duì)LBP特征,本文采用的是LBP算子的等價(jià)模式。對(duì)于標(biāo)準(zhǔn)LBP特征,將其二進(jìn)制數(shù)串記為首尾循環(huán),若其中從0到1或者從1到0跳變次數(shù)小于等于兩個(gè),則稱該局部二進(jìn)制模式為等價(jià)模式[13]。利用等價(jià)模式,LBP算子就可以從原始的256種減少到58種,其特征維數(shù)就可以降為58維。
通常,按照融合系統(tǒng)中數(shù)據(jù)抽象的層次,圖像融合可以劃分為像素級(jí)融合﹑特征級(jí)融合和決策級(jí)融合3個(gè)級(jí)別[14]。文獻(xiàn)[15]指出,采用特征級(jí)圖像融合方法描述所識(shí)別的性能要優(yōu)于像素級(jí)圖像融合和決策級(jí)圖像融合。特征融合的方法一般有串聯(lián)融合和并聯(lián)融合兩種。串聯(lián)融合后形成新的特征矩陣,此時(shí)特征矩陣的維數(shù)為特征向量維數(shù)相加;并聯(lián)融合后形成的新特征矩陣維數(shù)為特征向量中維數(shù)的最大值。當(dāng)需要融合的特征向量維數(shù)較多時(shí),串聯(lián)融合會(huì)使融合后的新特征向量維數(shù)也較多,會(huì)加大需計(jì)算的特征通道數(shù),進(jìn)而影響算法的跟蹤速度。并聯(lián)融合不會(huì)增加需計(jì)算的特征通道數(shù),但要求融合的特征向量之間具有相似的特征維數(shù),從待融合特征本身而言,待融合的特征還需有相似的表達(dá)方式和歸一化的表達(dá)空間。
在3種待融合特征中,HOG特征和LBP特征具有相似的特征表達(dá)方式。HOG特征(31維)和LBP特征(58維)特征維數(shù)相似,若這兩者之間采用串聯(lián)融合,算法需計(jì)算的特征通道就會(huì)增加,所以串聯(lián)融合不適用于這兩種特征的融合,應(yīng)采用并聯(lián)融合?;叶忍卣髦挥幸痪S,采用串聯(lián)融合不會(huì)給其他特征造成特征維數(shù)的負(fù)擔(dān)。相比于其他融合方式,串聯(lián)融合和并聯(lián)融合較為常見(jiàn)且易于編程實(shí)現(xiàn)。本文先將HOG特征(31維)和LBP特征(58維)并聯(lián)融合,再串聯(lián)融合灰度特征,融合后的特征為HLG(HOG+LBP+Gray)特征(59維)。特征層融合的方法如圖4所示。
圖4 特征層融合法
改進(jìn)的KCF算法首先從輸入的視頻幀中讀取候選圖像塊,將融合好的HLG特征進(jìn)行特征提取,然后訓(xùn)練分類器,通過(guò)訓(xùn)練好的分類器檢測(cè)出目標(biāo)的位置,最后更新跟蹤模型的參數(shù)。改進(jìn)的KCF算法流程如圖5所示。
圖5 KCF算法流程示意
改進(jìn)算法的詳細(xì)步驟如下。
步驟1 參數(shù)初始化。從數(shù)據(jù)集中讀入第一幀和跟蹤目標(biāo)的初始位置pos,創(chuàng)建跟蹤目標(biāo)框并將跟蹤框的大小擴(kuò)大為2.5倍,大小記為M×N,同時(shí)對(duì)跟蹤框進(jìn)行余弦加權(quán)。
步驟4 樣本檢測(cè)。先提取下一幀圖像的HLG特征,再通過(guò)步驟3中更新的model_xf計(jì)算檢測(cè)核相關(guān)矩陣,model_alphaf計(jì)算響應(yīng)值。找到響應(yīng)值中最大的值,即為跟蹤的目標(biāo)位置。重復(fù)步驟2到步驟4,直到所有的圖像序列加載完成。
本實(shí)驗(yàn)的數(shù)據(jù)集采用的是文獻(xiàn)[4]提出的OTB(Object Tracking Benchmark)數(shù)據(jù)集。OTB數(shù)據(jù)集中的視頻序列包含了光照變化、尺度變化、遮擋、目標(biāo)變形、目標(biāo)運(yùn)動(dòng)模糊、目標(biāo)快速移動(dòng)、目標(biāo)平面內(nèi)旋轉(zhuǎn)、目標(biāo)超平面旋轉(zhuǎn)、目標(biāo)離開視野、背景雜亂和低分辨率等不同的運(yùn)動(dòng)場(chǎng)景。通過(guò)灰度特征、LBP特征、HOG特征和新合成的HLG特征,選取數(shù)據(jù)集中較為典型的Basketball,Skating1,Shaking,Tiger2,Couple,Freeman4序列進(jìn)行了跟蹤。利用灰度特征跟蹤目標(biāo)的實(shí)驗(yàn)結(jié)果如圖6所示。LBP特征跟蹤目標(biāo)的實(shí)驗(yàn)結(jié)果如圖7所示。HOG特征和HLG特征跟蹤目標(biāo)的實(shí)驗(yàn)結(jié)果如圖8所示。
由圖6可以看出,圖6(a)中跟蹤框出現(xiàn)漂移現(xiàn)象;圖6(b)中由于目標(biāo)和背景太過(guò)接近,跟蹤框無(wú)法確定目標(biāo)的準(zhǔn)確位置;圖6(c)和圖6(d)中出現(xiàn)了目標(biāo)丟失的情況;圖6(e)中的跟蹤較好;圖6(f)中出現(xiàn)了短暫的目標(biāo)丟失,但最終仍能實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤。由圖6(e)和圖6(f)可以看出,灰度特征在跟蹤目標(biāo)較小、目標(biāo)在平面內(nèi)快速移動(dòng)的場(chǎng)景中跟蹤效果較好。
由圖7可以看出,圖7(a)和圖7(b)、圖7(e)和圖7(f)序列中都出現(xiàn)了目標(biāo)丟失的情況,跟蹤效果不佳,但在圖7(c)和圖7(d)序列中的跟蹤效果較佳,在目標(biāo)跟蹤的過(guò)程中沒(méi)有出現(xiàn)目標(biāo)丟失和跟蹤框的漂移??梢?jiàn)LBP特征在背景復(fù)雜、光照變化強(qiáng)烈、有部分遮擋的場(chǎng)景中可以很好地跟蹤到目標(biāo)。
圖8 HOG特征和HLG特征實(shí)驗(yàn)結(jié)果
圖8中每組序列的上面一行是HOG特征的跟蹤效果,下面一行是新合成的HLG特征的跟蹤效果。由于原算法采用的是HOG特征,故將HOG特征和HLG特征的跟蹤效果進(jìn)行對(duì)比。由圖8可以看出,HLG特征的跟蹤效果要優(yōu)于HOG特征的跟蹤效果。由圖6和由圖7可以看出,LBP特征和灰度特征均不能很好地實(shí)現(xiàn)實(shí)時(shí)跟蹤,都存在一定的缺陷。由此可知,相較于單一的特征,融合后的特征能夠適應(yīng)在更多的場(chǎng)景中進(jìn)行跟蹤,且跟蹤效果較好,彌補(bǔ)了原算法僅使用單一特征跟蹤目標(biāo)的缺陷。
跟蹤效果的好壞與跟蹤準(zhǔn)確度有很大的關(guān)系。本實(shí)驗(yàn)采用跟蹤準(zhǔn)確度作為定量分析指標(biāo)。在跟蹤過(guò)程中,準(zhǔn)確度定義為跟蹤框中心距離目標(biāo)真實(shí)位置中心在一定閾值范圍以內(nèi)的幀數(shù)占視頻序列總幀數(shù)的比例[16]。圖9為改進(jìn)算法和KCF算法在OTB數(shù)據(jù)集上進(jìn)行跟蹤測(cè)試時(shí)的跟蹤性能示意。
圖9 算法跟蹤準(zhǔn)確度比較
由圖9可以看出,本文所提算法在KCF算法的基礎(chǔ)上,較好地提高了跟蹤目標(biāo)的準(zhǔn)確度。當(dāng)閾值為20像素時(shí),原算法準(zhǔn)確度是0.609,本文算法準(zhǔn)確度是0.649,其準(zhǔn)確度較原算法提高了4%,表明在跟蹤過(guò)程中,本文算法完全可以在滿足跟蹤實(shí)時(shí)性的同時(shí)具有一定的跟蹤精度。
本文提出的多特征融合的核相關(guān)濾波跟蹤算法,較好地克服了目標(biāo)尺度變化、光照變化、目標(biāo)形變等挑戰(zhàn)屬性;利用融合后的特征表達(dá),在具有挑戰(zhàn)性的場(chǎng)景中對(duì)目標(biāo)進(jìn)行跟蹤,獲得了較好的跟蹤效果。由于本文所提算法計(jì)算速度快、編程簡(jiǎn)單、易于實(shí)現(xiàn),所以能夠適用于更多場(chǎng)景中對(duì)目標(biāo)的實(shí)時(shí)跟蹤。本文算法的不足之處是目標(biāo)尺度無(wú)法實(shí)現(xiàn)自適應(yīng)的變化,今后可以從目標(biāo)尺度自適應(yīng)的方向進(jìn)行改進(jìn),以增加目標(biāo)跟蹤的準(zhǔn)確率。
上海電力大學(xué)學(xué)報(bào)2019年5期