丁正彤 徐磊 張研 李飄揚(yáng) 李陽(yáng)陽(yáng) 羅斌 涂錚錚
摘要 RGB-T目標(biāo)跟蹤是基于RGB目標(biāo)跟蹤問(wèn)題發(fā)展而來(lái)的.為了提高復(fù)雜環(huán)境下的目標(biāo)跟蹤性能,學(xué)者們提出結(jié)合可見光和熱紅外的信息來(lái)克服單一成像受限的問(wèn)題.本文首先介紹了RGB-T目標(biāo)跟蹤的研究背景,并指出該任務(wù)所面臨的挑戰(zhàn),然后歸納并介紹了目前已有的RGB-T目標(biāo)跟蹤的幾類方法,包括傳統(tǒng)方法和深度學(xué)習(xí)方法.最后,本文對(duì)現(xiàn)有的RGB-T數(shù)據(jù)集、評(píng)價(jià)指標(biāo)進(jìn)行了分析和對(duì)比,并指出RGB-T跟蹤中值得研究的方面.
關(guān)鍵詞 可見光-熱紅外;多模態(tài);目標(biāo)跟蹤
中圖分類號(hào)TP391
文獻(xiàn)標(biāo)志碼A
0 引言
視覺目標(biāo)跟蹤,旨在從連續(xù)視頻幀中估計(jì)出目標(biāo)在每一幀中的位置和尺度信息,是計(jì)算機(jī)視覺中的一個(gè)熱點(diǎn)問(wèn)題,在視頻監(jiān)控、自動(dòng)駕駛和機(jī)器人感知等方面有著廣泛的應(yīng)用.盡管目標(biāo)跟蹤取得了許多重要突破[1-8],但現(xiàn)階段的目標(biāo)跟蹤仍然面臨許多挑戰(zhàn)性問(wèn)題,尤其是在各種復(fù)雜的環(huán)境條件下(如低光照、雨天、煙霧等),可見光圖像的成像質(zhì)量受到顯著影響,使得跟蹤目標(biāo)物體是非常困難的.
熱紅外成像主要的優(yōu)勢(shì)體現(xiàn)在:它可以捕捉到目標(biāo)所發(fā)出的熱輻射,對(duì)光照變化不敏感,可以實(shí)現(xiàn)在零光照條件下跟蹤目標(biāo);它還具有很強(qiáng)的穿透煙霧的能力,使得RGB-T(RGB-Thermal,可見光-熱紅外)目標(biāo)跟蹤比傳統(tǒng)目標(biāo)跟蹤具有更強(qiáng)的潛在應(yīng)用價(jià)值.
因此,結(jié)合可見光和熱紅外信息可以有效地提高目標(biāo)跟蹤性能,較好地實(shí)現(xiàn)全天時(shí)全天候的目標(biāo)跟蹤.圖1是低光照(左)和強(qiáng)光照(右)情況下的可見光圖像,目標(biāo)在其中并不明顯,但在圖2相對(duì)應(yīng)的熱紅外圖像中目標(biāo)輪廓清晰.圖3呈現(xiàn)的兩個(gè)熱紅外圖像產(chǎn)生了熱交叉現(xiàn)象,目標(biāo)和背景極難區(qū)分,但目標(biāo)在圖4相對(duì)應(yīng)的可見光圖像中較為明顯[9].可見,可見光和熱紅外信息相互補(bǔ)充,有助于復(fù)雜環(huán)境條件下的視覺跟蹤.
最近幾年,隨著熱紅外傳感器的普及,RGB-T跟蹤在計(jì)算機(jī)視覺領(lǐng)域引起了越來(lái)越多的關(guān)注.由于RBG-T目標(biāo)跟蹤相對(duì)于單模態(tài)目標(biāo)跟蹤起步較晚,至今鮮見關(guān)于RGB-T目標(biāo)跟蹤進(jìn)展的文獻(xiàn)綜述.本文將對(duì)該領(lǐng)域前后發(fā)展進(jìn)行一個(gè)較為全面的綜述.首先介紹RGB-T目標(biāo)跟蹤面臨的挑戰(zhàn),然后回顧傳統(tǒng)的RGB-T目標(biāo)跟蹤算法,主要包括基于人工設(shè)計(jì)特征和傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)的RGB-T目標(biāo)跟蹤算法,再介紹近幾年出現(xiàn)的基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤方法,最后對(duì)已有的多個(gè)RGB-T數(shù)據(jù)集、評(píng)價(jià)指標(biāo)進(jìn)行分析和對(duì)比.
1 RGB-T目標(biāo)跟蹤的挑戰(zhàn)
一些早期的研究[10-11]表明將可見光和熱紅外數(shù)據(jù)結(jié)合起來(lái),可以有效地提高跟蹤性能.相對(duì)于傳統(tǒng)的單模態(tài)目標(biāo)跟蹤,借助紅外信息構(gòu)建的多模態(tài)目標(biāo)跟蹤,其跟蹤效果得到進(jìn)一步提升,但在面對(duì)更復(fù)雜場(chǎng)景的情況下,RGB-T目標(biāo)跟蹤不僅遇到傳統(tǒng)的目標(biāo)跟蹤所面臨的挑戰(zhàn),而且也遇到新的挑戰(zhàn).
1.1 傳統(tǒng)的目標(biāo)跟蹤的挑戰(zhàn)舉例
1)目標(biāo)的形變與快速運(yùn)動(dòng):當(dāng)跟蹤的目標(biāo)發(fā)生較大的形變或尺度變化劇烈時(shí),跟蹤框不能及時(shí)適應(yīng)變化,將會(huì)引入過(guò)多的背景信息污染模型,從而導(dǎo)致跟蹤目標(biāo)的丟失.另外對(duì)于快速運(yùn)動(dòng)的物體,由于相鄰兩幀的目標(biāo)移動(dòng)跨度較大,超出了候選區(qū)域,也將導(dǎo)致跟蹤失敗.
2)遮擋:目標(biāo)被遮擋可以分為部分遮擋和完全遮擋.如果目標(biāo)是部分被遮擋,在遇到遮擋物的第一幀,邊界框會(huì)將遮擋物的信息包含在內(nèi),導(dǎo)致后續(xù)跟蹤過(guò)程中的目標(biāo)被錯(cuò)誤判別;如果是完全遮擋,邊界框找不到目標(biāo),會(huì)直接導(dǎo)致跟蹤失敗.如圖5所示,紅色框內(nèi)跟蹤目標(biāo)人物在第2張圖中部分被樹葉遮擋,導(dǎo)致跟蹤框內(nèi)可能包含樹葉信息,而在第3張圖中則是完全被樹葉遮擋,候選框內(nèi)不能找到目標(biāo)特征,導(dǎo)致目標(biāo)丟失.
1.2 RGB-T目標(biāo)跟蹤的新挑戰(zhàn)
1)RGB-T融合:如何將RGB和熱紅外兩個(gè)模態(tài)進(jìn)行有效的融合是RGB-T目標(biāo)跟蹤面臨的挑戰(zhàn)之一.如果兩個(gè)模態(tài)中的一個(gè)模態(tài)成像不佳,則直接融合兩個(gè)模態(tài)將會(huì)引入噪聲,進(jìn)而影響跟蹤性能,所以兩個(gè)模態(tài)的融合策略直接影響RGB-T跟蹤性能.
2)特征表示:與傳統(tǒng)目標(biāo)跟蹤相比,RGB-T目標(biāo)跟蹤的目標(biāo)特征由RGB與T特征共同描述,更魯棒的RGB-T特征表示必然可以提升跟蹤的性能,這一點(diǎn)也得到了越來(lái)越多的關(guān)注.
3)成像受限:在零光照、光線強(qiáng)烈變化、霧霾等情況下,可見光譜成像受限;當(dāng)目標(biāo)與周邊背景物體的溫度差異較小時(shí),則會(huì)有熱交叉現(xiàn)象發(fā)生,熱紅外成像受限.
2 傳統(tǒng)方法
RGB-T目標(biāo)跟蹤的傳統(tǒng)方法多為在線目標(biāo)跟蹤,旨在利用簡(jiǎn)單有效的人工設(shè)計(jì)視覺特征,結(jié)合淺層外觀模型,利用匹配或分類算法進(jìn)行快速有效的目標(biāo)跟蹤.由于稀疏表示在抑制噪聲、減少誤差方面表現(xiàn)較好,故稀疏表示理論也被用于解決RGB-T目標(biāo)跟蹤問(wèn)題[12-16],并且取得了較好的效果.但稀疏表示模型計(jì)算復(fù)雜度較高,難以實(shí)時(shí)處理.隨著相關(guān)濾波理論在單模態(tài)跟蹤中取得了較為魯棒的效果[17-19],Zhai等[20]在RGB-T目標(biāo)跟蹤中引入交叉模態(tài)相關(guān)濾波器,更有效地進(jìn)行可見光和紅外模態(tài)的融合.為了改善RGB-T目標(biāo)跟蹤中的模型漂移現(xiàn)象,研究者在RGB-T目標(biāo)跟蹤中引入圖的理論[21-23],自適應(yīng)地使用可見光和紅外圖像信息來(lái)學(xué)習(xí)模態(tài)權(quán)重.下面將從以下3個(gè)方面詳細(xì)對(duì)RGB-T跟蹤的傳統(tǒng)方法進(jìn)行闡述.
2.1 基于稀疏表示的RGB-T目標(biāo)跟蹤
近年來(lái),使用稀疏表示的目標(biāo)跟蹤[11,24-25]能夠較好地抑制噪聲和減少誤差.受此啟發(fā),Wu等[12]將RGB和T信息結(jié)合起來(lái),稀疏地表示目標(biāo)模板空間中的每個(gè)樣本;Liu等[13]使用RGB和T信息計(jì)算出聯(lián)合稀疏表示系數(shù)的最小操作來(lái)融合跟蹤結(jié)果.在這些方法中,RGB模態(tài)和T模態(tài)貢獻(xiàn)相同,故在處理干擾或者故障時(shí)可能會(huì)限制跟蹤性能.
為了改善上述情況,Li等[14]引入反映其跟蹤預(yù)測(cè)可靠性的模態(tài)權(quán)值,為每種模態(tài)引入模態(tài)權(quán)值來(lái)表示該模態(tài)的可靠性,實(shí)現(xiàn)不同模態(tài)的自適應(yīng)融合.具體來(lái)說(shuō),在貝葉斯濾波技術(shù)的框架下,一種基于協(xié)同稀疏表示的自適應(yīng)融合方法被提出.這種方法在每個(gè)模態(tài)中引入權(quán)值描述模態(tài)的可靠性,找到一種自適應(yīng)的目標(biāo)跟蹤的協(xié)作稀疏表示方法,可以自適應(yīng)地融合可見光信息和紅外信息,進(jìn)而實(shí)現(xiàn)全天候地對(duì)目標(biāo)進(jìn)行魯棒跟蹤,當(dāng)目標(biāo)在一種模態(tài)中處于不穩(wěn)定或者故障時(shí),通過(guò)賦予不可靠模態(tài)信息低權(quán)值,利用可靠的模態(tài)進(jìn)行信息補(bǔ)充用于跟蹤[10],通過(guò)在線方式聯(lián)合優(yōu)化稀疏碼、不同模態(tài)下的權(quán)值和最大似然判別法[26]對(duì)稀疏碼進(jìn)行有效的優(yōu)化,并利用封閉形式解法進(jìn)行求解,能夠避免在目標(biāo)跟蹤中產(chǎn)生的模型漂移.該方法可增強(qiáng)跟蹤魯棒性,并防止之前視頻幀的可見光和紅外信息的累積產(chǎn)生的外觀污染問(wèn)題的發(fā)生.
此外,由于每個(gè)模態(tài)中目標(biāo)外觀的較大變化或背景干擾會(huì)給采集的樣本帶來(lái)一些噪聲,進(jìn)而影響分類器的學(xué)習(xí),并且視覺和運(yùn)動(dòng)特征在不同模態(tài)中差異較大.Lan等[16]針對(duì)RGB-T目標(biāo)跟蹤,提出了一種新穎的判別學(xué)習(xí)模型,可以消除由于較大變化產(chǎn)生的異常樣本,并學(xué)習(xí)來(lái)自不同模態(tài)的具有判別一致性的特征,而且可以協(xié)作完成模態(tài)可靠性度量及目標(biāo)與背景的分離,取得了較好的效果.
2.2 基于相關(guān)濾波的RGB-T目標(biāo)跟蹤
大多數(shù)現(xiàn)有單模態(tài)方法采用基于貝葉斯濾波框架的稀疏表示去跟蹤目標(biāo),這些跟蹤器在加入紅外信息這個(gè)模態(tài)后可能會(huì)受到如下限制:一是對(duì)可見光和紅外信息的聯(lián)合稀疏約束使得模態(tài)一致性太強(qiáng)而無(wú)法實(shí)現(xiàn)有效融合;二是為了達(dá)到有效跟蹤的目的,貝葉斯濾波算法需對(duì)大量待選樣本進(jìn)行采樣.因此稀疏表示模型的優(yōu)化的計(jì)算復(fù)雜度高,耗費(fèi)時(shí)間.Zhai等[20]利用低秩約束,提出交叉模態(tài)相關(guān)濾波器以獲得可見光和熱紅外兩個(gè)模態(tài)之間的相互依賴性,實(shí)現(xiàn)多種模態(tài)的協(xié)同融合,使所學(xué)習(xí)的濾波器可以包含來(lái)自不同數(shù)據(jù)源的有用信息,從而獲得魯棒的跟蹤結(jié)果.并對(duì)交叉模態(tài)相關(guān)濾波器利用交替方向乘法器(ADMM)優(yōu)化算法[27]求解,從而實(shí)現(xiàn)了超實(shí)時(shí)的跟蹤效果.在利用交叉模態(tài)相關(guān)濾波器進(jìn)行跟蹤時(shí),最快達(dá)到227幀/s的速度.
在一些特殊情況下,RGB圖像和熱紅外圖像之間的融合可能是無(wú)效的.如果簡(jiǎn)單地采用協(xié)同稀疏表示的方法在貝葉斯濾波框架下解決,也存在著耗時(shí)的問(wèn)題,無(wú)法達(dá)到目標(biāo)跟蹤要求的實(shí)時(shí)跟蹤的目的.為了解決以上問(wèn)題,Wang等[28]提出了基于相關(guān)濾波器的多光譜方法來(lái)進(jìn)行有效的目標(biāo)跟蹤.該方法考慮到了不同光譜信息的協(xié)同性和異質(zhì)性,通過(guò)在相關(guān)濾波器中加入軟一致性來(lái)部署多光譜間信息,以實(shí)現(xiàn)更有效的融合.同時(shí)采用快速傅里葉變化(FFT)來(lái)大大減少計(jì)算的時(shí)間,改進(jìn)后的方案在進(jìn)行目標(biāo)跟蹤時(shí)以超50幀/s的運(yùn)行速度展現(xiàn)出良好的跟蹤效果.
2.3 基于圖的RGB-T目標(biāo)跟蹤
由于目標(biāo)跟蹤需要對(duì)每一幀圖像進(jìn)行識(shí)別,每幀中目標(biāo)的包圍框都可能不同,這些框一般由RGB與熱紅外特征共同描述.由于背景信息的存在,可能導(dǎo)致模型漂移現(xiàn)象的出現(xiàn).為了解決該問(wèn)題,Li等[21]提出了一種加權(quán)稀疏表示正則化圖,以自適應(yīng)地使用RGB和紅外數(shù)據(jù)來(lái)學(xué)習(xí)權(quán)重.其圖像塊作為圖節(jié)點(diǎn),并以塊特征矩陣作為輸入進(jìn)行聯(lián)合的稀疏表示[13,15].為了處理各個(gè)源的偶然擾動(dòng)和故障,給每種模態(tài)分配權(quán)重以表示可靠性,使得跟蹤器可以自適應(yīng)地融合不同模態(tài)的數(shù)據(jù),并學(xué)習(xí)得到更有意義的圖親和矩陣.值得注意的是,通過(guò)設(shè)計(jì)的高效的ADMM(交替方向乘器)算法[27]來(lái)聯(lián)合優(yōu)化模態(tài)權(quán)重、稀疏表示和圖(包括結(jié)構(gòu)、邊緣權(quán)重和節(jié)點(diǎn)權(quán)重).
由于初始化過(guò)程中不正確的圖像塊權(quán)重會(huì)影響目標(biāo)跟蹤的正確性,Li等[22]隨后提出了一種新的兩階段模態(tài)圖正則化流形排序算法,以學(xué)習(xí)一種更魯棒的RGB-T跟蹤對(duì)象表示方法.首先給定對(duì)象邊界框,將其劃分為一組不重疊的圖片,這些圖片用RGB和熱紅外特征共同描述.然后,給每個(gè)塊分配一個(gè)權(quán)重,抑制表示中的背景信息,并將這些權(quán)重融合,以得到魯棒的目標(biāo)表示.該方法以一種聯(lián)合的方式建立塊權(quán)重和模態(tài)權(quán)重的模型,并對(duì)它們進(jìn)行有效的優(yōu)化.為了提高塊權(quán)重的魯棒性,采用了兩階段排序策略.第一階段,根據(jù)初始種子計(jì)算塊權(quán)重;第二階段,以第一階段的計(jì)算結(jié)果為基礎(chǔ)進(jìn)行權(quán)重計(jì)算.最后,應(yīng)用結(jié)構(gòu)化支持向量機(jī)對(duì)目標(biāo)位置進(jìn)行預(yù)測(cè).
由于使用低秩和稀疏表示來(lái)學(xué)習(xí)具有全局性的動(dòng)態(tài)圖[29]沒有考慮局部信息,可能會(huì)限制性能,例如相鄰節(jié)點(diǎn)往往較為相似.為解決此問(wèn)題,研究者提出了一種新穎的通用方法[23]來(lái)學(xué)習(xí)局部和全局多圖描述符,以抑制 RGB-T 跟蹤的背景信息干擾.該描述符可自動(dòng)探索具有全局和局部線索的多模態(tài)圖像塊之間的內(nèi)在關(guān)系,其依賴于一種新穎的圖學(xué)習(xí)算法,主要是用多幅圖表示對(duì)象,并用一組多模態(tài)圖像塊作為節(jié)點(diǎn),以增強(qiáng)對(duì)對(duì)象形變和部分遮擋的魯棒性;將局部相鄰信息強(qiáng)加到表示系數(shù)中,這使得學(xué)習(xí)到的圖親和矩陣也可以使用局部空間線索進(jìn)行編碼,并利用學(xué)習(xí)到的圖親和矩陣計(jì)算圖節(jié)點(diǎn)權(quán)重,將多圖信息與相應(yīng)的圖節(jié)點(diǎn)權(quán)重相結(jié)合,形成魯棒的目標(biāo)描述符,最后采用結(jié)構(gòu)化支持向量機(jī)獲得最優(yōu)解作為跟蹤結(jié)果.
3 基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤
近年來(lái),由于神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,視覺跟蹤取得了新的突破.目前基于深度網(wǎng)絡(luò)的RGB-T跟蹤模型大致可以為三類:第一類是以密集特征聚合與剪枝網(wǎng)絡(luò)(DAPNet)[30]、質(zhì)量感知特征聚合網(wǎng)絡(luò)(FANet)[31]和雙流卷積神經(jīng)網(wǎng)絡(luò)(Two-Stream CNN)[32]為代表的多模態(tài)特征融合,利用深度網(wǎng)絡(luò)自適應(yīng)地融合可見光和熱紅外模態(tài)的特征,利用模態(tài)間的互補(bǔ)優(yōu)勢(shì),獲得更加魯棒的特征,提高跟蹤性能;第二類以多適配器卷積網(wǎng)絡(luò)(MANet)[33]為例,發(fā)掘模態(tài)共享特征、模態(tài)特定特征的潛在價(jià)值以及實(shí)例感知信息,提高特征融合的質(zhì)量;第三類是基于注意力機(jī)制的RGB-T跟蹤,例如雙重注意力模型(DUALATTENTION)[34].
3.1 基于多模態(tài)特征融合的RGB-T跟蹤
在早期的特征融合研究中,Li等[32]提出了一種新的卷積神經(jīng)網(wǎng)絡(luò)(ConvNet)結(jié)構(gòu),包括一個(gè)通用子網(wǎng)絡(luò)(Two-Stream CNN)和一個(gè)融合子網(wǎng)絡(luò)(FusionNet).通用子網(wǎng)絡(luò)用來(lái)提取豐富的語(yǔ)義信息以有力地表示目標(biāo)對(duì)象,而融合子網(wǎng)絡(luò)用來(lái)自適應(yīng)地融合多種模態(tài)的信息.具體地說(shuō),用Two-Stream CNN來(lái)提取不同模態(tài)的特定特征,其中一個(gè)CNN用于處理RGB流,另一個(gè)CNN用于處理熱紅外流.由于多模態(tài)特征通常包含一些冗余噪聲,這會(huì)在一定程度上影響RGB-T跟蹤的性能.FusionNet從Two-Stream CNN的輸出中選擇有區(qū)分性的特征,以減輕冗余信息的影響,從而在提高精度的同時(shí)顯著提高效率.
近來(lái),為了有效地融合可見光和熱紅外信息,提高RGB-T跟蹤的性能,Zhu等[30]提出了一種密集特征聚合與剪枝網(wǎng)絡(luò)(DAPNet).密集特征聚合與剪枝網(wǎng)絡(luò)(DAPNet)由兩個(gè)主要模塊組成,一個(gè)是密集特征聚合,為目標(biāo)對(duì)象提供豐富的RGB-T特征表示;另一個(gè)是特征剪枝,從聚合的RGB-T特征中除去噪聲或冗余的特征,選擇最具區(qū)分性的特征.
在密集的特征聚合模塊,將所有層的特征遞歸地集成到同一個(gè)特征空間中,充分地利用了淺層特征和深層特征,獲得更魯棒的特征表示,實(shí)現(xiàn)更好的跟蹤性能.但是聚合的RGB-T特征存在噪聲和冗余,這些冗余的特征會(huì)干擾目標(biāo)的定位.也就是說(shuō),只有少數(shù)通道是有益的,并且其中很大一部分通道在描述某個(gè)目標(biāo)時(shí)包含冗余和不相關(guān)的信息.為了解決這個(gè)問(wèn)題,Zhu等[30]提出了一種協(xié)同特征剪枝方法來(lái)去除噪聲和冗余的特征.特征剪枝模塊包括兩個(gè)步驟,即通道評(píng)分和通道選擇.通過(guò)這種特征剪枝方法,在每次訓(xùn)練的迭代中停用一些特征通道,從而得到一個(gè)更可靠的卷積特征表示.訓(xùn)練完成后,在線跟蹤過(guò)程中特征聚合網(wǎng)絡(luò)的參數(shù)將保持不變,而特征剪枝模塊將被丟棄.DAPNet對(duì)由于形變、快速移動(dòng)、背景雜波和每個(gè)模態(tài)的遮擋而導(dǎo)致的顯著外觀變化的挑戰(zhàn)有較魯棒的跟蹤效果.
Zhu等[31]提出過(guò)一種新的RGB-T融合架構(gòu)——質(zhì)量感知特征聚合網(wǎng)絡(luò)(FANet).該網(wǎng)絡(luò)由兩個(gè)子網(wǎng)組成:分層特征聚合子網(wǎng)絡(luò)和多模態(tài)信息聚合子網(wǎng)絡(luò).分層特征聚合子網(wǎng)以自適應(yīng)方式集成層次化和多分辨率的深層特征.在分層特征聚合子網(wǎng)中,Zhu等[31]還提出了一種新的特征聚合方法——密集特征聚合.淺層特征可對(duì)目標(biāo)位置等空間細(xì)節(jié)進(jìn)行編碼,有助于實(shí)現(xiàn)精確的目標(biāo)定位,而深層特征能更有效地捕獲目標(biāo)的語(yǔ)義特征.在每個(gè)模態(tài)中,首先將層次化的多分辨率特征聚合到相同分辨率的統(tǒng)一空間中,智能地學(xué)習(xí)不同層的權(quán)重,自適應(yīng)地融合它們,以突出顯示更多具有判別性的特征,并能夠抑制噪聲,多模態(tài)信息聚合子網(wǎng)則使用聚合的特征來(lái)預(yù)測(cè)模態(tài)整體權(quán)重,根據(jù)預(yù)測(cè)的可靠性程度協(xié)同集成所有模態(tài),然后將模態(tài)權(quán)值與相應(yīng)的聚合特征結(jié)合起來(lái)產(chǎn)生一個(gè)可靠的目標(biāo)表示,顯著提高了RGB-T目標(biāo)跟蹤性能.
3.2 基于多適配器的RGB-T跟蹤
在多適配器卷積網(wǎng)絡(luò)(MANet)之前的RGB-T追蹤工作通常引入模態(tài)權(quán)重來(lái)實(shí)現(xiàn)自適應(yīng)融合或?qū)W習(xí)不同模態(tài)的魯棒特征表示,從而專注于特定的信息集成.雖然可以有效地利用特定模態(tài)的性質(zhì),但是它們忽略了模態(tài)共享特征的潛在價(jià)值以及實(shí)例感知信息,而這些對(duì)于RGB-T跟蹤中不同模態(tài)的有效融合是很重要的.
Li等[33]提出了多適配器卷積網(wǎng)絡(luò)(MANet),用于RGB-T跟蹤的端到端訓(xùn)練的深度框架,包括模態(tài)共享、模態(tài)特定和實(shí)例感知的特征學(xué)習(xí).MANet包含三種適配器,包括通用適配器(Generality-Adapter)、模態(tài)適配器(Modality-Adapter)、實(shí)例適配器(Instance-Adapter).通用適配器用來(lái)提取不同模態(tài)的共享對(duì)象表示,在有效性和網(wǎng)絡(luò)效率之間進(jìn)行了良好協(xié)調(diào);模態(tài)適配器基于通用適配器,可以有效地提取特定模態(tài)的特征表示,充分利用RGB和熱紅外模態(tài)的互補(bǔ)優(yōu)勢(shì);實(shí)例適配器用來(lái)對(duì)特定對(duì)象的外觀特性和時(shí)間變化進(jìn)行建模,以解決跟蹤過(guò)程中實(shí)例對(duì)象出現(xiàn)變化或環(huán)境變化而導(dǎo)致跟蹤模型無(wú)法跟蹤的問(wèn)題.此外,通用適配器和模態(tài)適配器以并行結(jié)構(gòu)方式結(jié)合以降低目標(biāo)跟蹤過(guò)程的計(jì)算復(fù)雜度.
3.3 基于注意力機(jī)制的RGB-T跟蹤
視覺注意力在RGB-T跟蹤中有著巨大的潛力,有助于分類器的學(xué)習(xí).與前面的特征表示學(xué)習(xí)和自適應(yīng)模態(tài)加權(quán)融合不同,Yang等[34]另辟蹊徑,提出了雙視覺注意力機(jī)制(局部注意力和全局注意力)以實(shí)現(xiàn)魯棒的RGB-T跟蹤.通過(guò)利用RGB和熱紅外數(shù)據(jù)的共同視覺注意來(lái)訓(xùn)練深度分類器,從而實(shí)現(xiàn)局部注意力.而全局注意力是一個(gè)多模態(tài)目標(biāo)驅(qū)動(dòng)的注意力估計(jì)網(wǎng)絡(luò),它可以為分類器提供全局預(yù)測(cè)以及從先前跟蹤結(jié)果中得到局部預(yù)測(cè).
局部注意力的訓(xùn)練過(guò)程包括前向傳播和反向傳播兩步.在前向傳播的步驟中,將成對(duì)的RGB和熱紅外圖像送入深度檢測(cè)跟蹤網(wǎng)絡(luò),并估計(jì)相應(yīng)的分類得分;在反向傳播的過(guò)程中,取這個(gè)分類分?jǐn)?shù)相對(duì)于輸入成對(duì)的RGB-T樣本的偏導(dǎo)數(shù),從最后一個(gè)全連接層朝向第一卷積層進(jìn)行網(wǎng)絡(luò)更新.將第一層的偏導(dǎo)數(shù)輸出作為RGB和熱紅外輸入的共同注意圖,在訓(xùn)練過(guò)程中,通過(guò)在損失函數(shù)中加入此注意圖作為正則化項(xiàng),使分類器更加關(guān)注目標(biāo)區(qū)域.
盡管前面提出的RGB-T跟蹤器已經(jīng)可以實(shí)現(xiàn)良好的性能,但是它仍然遵循檢測(cè)跟蹤框架下的局部搜索策略.由于前一幀的跟蹤結(jié)果也許已經(jīng)失敗,局部搜索策略將不能發(fā)揮作用.而將目標(biāo)驅(qū)動(dòng)注意力估計(jì)網(wǎng)絡(luò)和RGB-T全局注意力網(wǎng)絡(luò)結(jié)合,可以改善局部搜索策略所不能解決的該問(wèn)題.高質(zhì)量的全局候選框可以從注意力區(qū)域中提取,并與局部候選框一起輸入到分類器,得到有效的分類結(jié)果.因此,局部和全局注意力圖的互補(bǔ)進(jìn)一步提高了RGB-T目標(biāo)跟蹤器的魯棒性和準(zhǔn)確性.所以該雙注意力機(jī)制(局部注意力和全局注意力)的思想在未來(lái)的目標(biāo)跟蹤中極具潛力.
4 可見光-紅外數(shù)據(jù)集
4.1 數(shù)據(jù)集
目前的基于深度學(xué)習(xí)的RGB-T目標(biāo)跟蹤,都依賴于大型數(shù)據(jù)集來(lái)訓(xùn)練模型并評(píng)估其性能,被設(shè)計(jì)用于RGB-T目標(biāo)跟蹤的視頻基準(zhǔn)數(shù)據(jù)集主要有LITIV[35]、GTOT[14]、RGBT210[21]、RGBT234[9]、VOT2019[36]以及相關(guān)測(cè)試平臺(tái)的數(shù)據(jù)集.
LITIV[35]數(shù)據(jù)集由熱紅外和可見光攝像機(jī)以30幀/s的速度、不同變焦設(shè)置和不同拍攝位置及不同跟蹤場(chǎng)景的視頻組成.圖像大小為320×240像素.
GTOT[14]數(shù)據(jù)集包括50個(gè)視頻對(duì),每個(gè)視頻對(duì)由一個(gè)可見光視頻和一個(gè)熱紅外視頻組成,具有50個(gè)不同場(chǎng)景,如辦公區(qū)、公共道路、水池等.每個(gè)可見光視頻都與一個(gè)熱紅外視頻配對(duì).該數(shù)據(jù)集包含非剛性、移動(dòng)模糊、小物體、照明條件、熱交叉、比例變化、遮擋時(shí)長(zhǎng)與面積等挑戰(zhàn).
RGBT210[21]數(shù)據(jù)集包含大量高精度視頻幀(總幀數(shù)約210 000幀).不同模態(tài)之間對(duì)齊更加準(zhǔn)確,不需要預(yù)處理和后處理.該數(shù)據(jù)集包括對(duì)無(wú)遮擋、部分遮擋和嚴(yán)重遮擋的注釋,可用于不同算法的遮擋敏感性評(píng)估.
RGBT234[9]數(shù)據(jù)集是基于RGBT210 數(shù)據(jù)集擴(kuò)展的大規(guī)模 RGBT 跟蹤數(shù)據(jù)集.它包含總共 234 對(duì)高對(duì)齊的 RGB 和熱紅外視頻序列,具有大約 200 000 幀,最長(zhǎng)的視頻序列達(dá)到8 000 幀.但是此數(shù)據(jù)集中目標(biāo)對(duì)象的外觀隨著時(shí)間的推移而顯著變化,這是由遮擋、運(yùn)動(dòng)模糊、相機(jī)移動(dòng)和照明挑戰(zhàn)引起的,對(duì)于評(píng)估不同的跟蹤器具有足夠的挑戰(zhàn)性.
VOT是當(dāng)下比較流行的跟蹤算法的測(cè)試平臺(tái),包括數(shù)據(jù)集、評(píng)價(jià)標(biāo)準(zhǔn)與評(píng)價(jià)系統(tǒng),且每一年都會(huì)更新.目前VOT2019[36]已經(jīng)發(fā)布,可用于RGB-T目標(biāo)跟蹤.VOT-RGBT2019包含60個(gè)視頻序列以及6個(gè)挑戰(zhàn),包括相機(jī)移動(dòng)、光照變化、目標(biāo)尺寸變化、目標(biāo)動(dòng)作變化、非退化6個(gè)屬性.
表1列出了RGB-T目標(biāo)跟蹤領(lǐng)域的主要視頻基準(zhǔn)數(shù)據(jù)集(LITIV[35]、GTOT[14]、RGBT210[21]和RGBT234[9]).
4.2 評(píng)價(jià)標(biāo)準(zhǔn)
為了評(píng)估性能,本節(jié)重點(diǎn)介紹6種廣泛使用的跟蹤效果評(píng)估指標(biāo):精確率(PR)、成功率(SR)、準(zhǔn)確度(Accuracy)、魯棒性(Robustness)、PR曲線(PR curves)和F值(F-measure).
1)精確率(PR).精確率(PR)是輸出位置在給定的真值閾值距離內(nèi)的幀的百分比.在某些場(chǎng)景下,也可以使用最大精確率(MPR)作為評(píng)價(jià)指標(biāo).
2)成功率(SR).成功率(SR)是輸出邊界框與真值邊界框之間的重疊率大于閾值的幀的百分比.通過(guò)改變閾值,可以獲得 SR 圖.
3)準(zhǔn)確度(Accuracy).準(zhǔn)確度為對(duì)于給定的測(cè)試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)之比.
4)魯棒性(Robustness).魯棒性用來(lái)度量模型受數(shù)據(jù)擾動(dòng)、噪聲以及離群點(diǎn)的影響程度.
5)PR曲線(PR curves).即以召回率(Recall)為橫坐標(biāo),精確率為縱坐標(biāo)繪制而成的曲線,通過(guò)調(diào)節(jié)分類閾值,可以得到不同的召回率和精確率,從而得PR曲線.
6)F值(F-measure).F值是精確率(PR)和召回率(Recall)的加權(quán)調(diào)和平均,精確率和召回率沒有絕對(duì)聯(lián)系,但在數(shù)據(jù)集合規(guī)模變大時(shí),二者會(huì)互相制約,F(xiàn)值就可以在維持二者權(quán)重相同時(shí),綜合二者特性,得出分類模型的優(yōu)劣.
5 結(jié)束語(yǔ)
在目標(biāo)跟蹤過(guò)程中,外部環(huán)境因素很容易對(duì)跟蹤的效果產(chǎn)生影響,而有效地利用可見光和熱紅外的互補(bǔ)優(yōu)勢(shì),可以實(shí)現(xiàn)全天候的魯棒的視覺跟蹤,因此RGB-T目標(biāo)跟蹤近些年成為計(jì)算機(jī)視覺中的一個(gè)新的研究分支.本文從傳統(tǒng)方法和深度學(xué)習(xí)方法兩方面對(duì)RGB-T目標(biāo)跟蹤方面的相關(guān)研究進(jìn)行闡述.傳統(tǒng)方法分為基于稀疏表示的、基于相關(guān)濾波的、基于圖模型的方法,深度學(xué)習(xí)方法分為基于多模態(tài)特征融合的、基于多適配器的、基于注意力機(jī)制的深度學(xué)習(xí)網(wǎng)絡(luò).
RGB-T目標(biāo)跟蹤有著巨大的研究?jī)r(jià)值,可以考慮探索更深度的模態(tài)融合機(jī)制,將RGB和熱紅外這兩種模態(tài)進(jìn)行更有效的融合,這也是當(dāng)前研究面臨的難題之一,比如設(shè)計(jì)新型融合結(jié)構(gòu)、進(jìn)行多模交互學(xué)習(xí)等.同時(shí),可以對(duì)目標(biāo)對(duì)象進(jìn)行更有效的表示,如提取出目標(biāo)的掩模輪廓、關(guān)鍵點(diǎn)、概率分布等有效特征.此外RGB-T目標(biāo)跟蹤中的分類器也有待增強(qiáng).這些都是未來(lái)值得研究的方向.
參考文獻(xiàn)
References
[1]Grabner H,Grabner M,Bischof H.Real-time tracking via on-line boosting[C]∥Proceedings of the 2006 British Machine Vision,2006:47-56
[2]Grabner H,Leistner C,Bischof H.Semi-supervised on-line boosting for robust tracking[C]∥European Conference on Computer Vision,2008:234-247
[3]Avidan S.Ensemble tracking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(2):261-271
[4]Babenko B,Yang M H,Belongie S.Robust object tracking with online multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8):1619-1632
[5]Kalal Z,Mikolajczyk K,Matas J.Tracking-learning-detection[J].IEEE Transactions on Software Engineering,2011,34(7):1409-1422
[6]Hare S,Golodetz S,Saffari A,et al.Struck:structured output tracking with kernels[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,38(10):2096-2109
[7]Li X,Shen C H,Dick A,et al.Learning compact binary codes for visual tracking[C]∥IEEE Conference on Computer Vision & Pattern Recognition,2013:2419-2426
[8]Zhang J M,Ma S G,Sclaroff S.MEEM:robust tracking via multiple experts using entropy minimization[C]∥European Conference on Computer Vision,2014:188-203
[9]Li C L,Liang X Y,Lu Y J,et al.RGB-T object tracking:benchmark and baseline[J].Pattern Recognition,2018,96:106977
[10]OConaire C,OConnor N E,Smeaton A.Thermo-visual feature fusion for object tracking using multiple spatiogram trackers[J].Machine Vision and Applications,2008,19(5/6):483-494
[11]OConaire C,OConnor N E,Cooke E,et al.Comparison of fusion methods for thermo-visual surveillance tracking[C]∥2006 9th International Conference on Information Fusion,2006:1-7
[12]Wu Y,Blasch E,Chen G S,et al.Multiple source data fusion via sparse representation for robust visual tracking[C]∥14th International Conference on Information Fusion,2011:1-8
[13]Liu H P,Sun F C.Fusion tracking in color and infrared images using joint sparse representation[J].Science China:Information Sciences,2012(3):104-113
[14]Li C L,Cheng H,Hu S Y,et al.Learning collaborative sparse representation for grayscale-thermal tracking[J].IEEE Transactions on Image Processing,2016,25(12):5743 - 5756
[15]Lan X Y,Ma A J,Yuen P C.Multi-cue visual tracking using robust feature-level fusion based on joint sparse representation[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2014:1194-1201
[16]Lan X Y,Ye M,Zhang S P,et al.Robust collaborative discriminative learning for RGB-infrared tracking[C]∥32nd AAAI Conference on Artificial Intelligence,2018:7008-7015
[17]Bolme D S,Beveridge J R,Draper B A,et al.Visual object tracking using adaptive correlation filters[C]∥The 23rd IEEE Conference on Computer Vision and Pattern Recognition,2010,DOI:10.1109/CVPR.2010.5539960
[18]Henriques J F,Caseiro R,Martins P,et al.High-speed tracking with kernelized correlation filters[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596
[19]Bai B,Zhong B N,Ouyang G,et al.Kernel correlation filters for visual tracking with adaptive fusion of heterogeneous cues[J].Neurocomputing,2018,286:109-120
[20]Zhai S Y,Shao P P,Liang X Y,et al.Fast RGB-T tracking via cross-modal correlation filters[J].Neurocomputing,2019,334:172-181
[21]Li C L,Zhao N,Lu Y J,et al.Weighted sparse representation regularized graph learning for RGB-T object tracking[C]∥Proceedings of the 25th ACM International Conference on Multimedia,2017:1856-1864
[22]Li C L,Zhu C L,Zheng S F,et al.Two-stage modality-graphs regularized manifold ranking for RGB-T tracking[J].Signal Processing:Image Communication,2018,68:207-217
[23]Li C L,Zhu C L,Zhang J,et al.Learning local-global multi-graph descriptors for RGB-T object tracking[J].IEEE Transactions on Circuits and Systems for Video Technology,2018,29(10):2913 - 2926
[24]Li C L,Sun X,Wang X,et al.Grayscale-thermal object tracking via multitask Laplacian sparse representation[J].IEEE Transactions on Systems,Man,and Cybernetics:Systems,2017,47(4):673-681
[25]Gade R,Moeslund T B.Thermal cameras and applications:a survey[J].Machine Vision and Applications,2014,25(1):245-262
[26]Parikh N,Boyd S.Proximal algorithms[J].Foundations and Trendsin Optimization,2014,1(3):127-239
[27]Boyd S,Parikh N,Chu E,et al.Distributed optimization and statistical learning via the alternating direction method of multipliers[J].Foundations and Trendsin Machine Learning,2011,3(1):1-122
[28]Wang Y L,Li C L,Tang J.Learning soft-consistent correlation filters for RGB-T object tracking[C]∥Chinese Conference on Pattern Recognition and Computer Vision (PRCV),2018:295-306
[29]Li C L,Lin L,Zuo W M,et al.Learning patch-based dynamic graph for visual tracking[C]∥Thirty-First AAAI Conference on Artificial Intelligence,2017:4126-4132
[30]Zhu Y B,Li C L,Luo B,et al.Dense feature aggregation and pruning for RGBT tracking[C]∥Proceedings of the 27th ACM International Conference on Multimedia,2019:465-472
[31]Zhu Y B,Li C L,Lu Y,et al.FANet:quality-aware feature aggregation network for RGB-T tracking[J].arXiv Preprint,2018,arXiv:1811.09855
[32]Li C L,Wu X H,Zhao N,et al.Fusing two-stream convolutional neural networks for RGB-T object tracking[J].Neurocomputing,2018,281:78-85
[33]Li C L,Lu A D,Zheng A H,et al.Multi-adapter RGBT tracking[J].arXiv Preprint,2019,arXiv:1907.07485
[34]Yang R,Zhu Y B,Wang X,et al.Learning target-oriented dual attention for robust RGB-T tracking[C]∥2019 IEEE International Conference on Image Processing (ICIP),2019,DOI:10.1109/ICIP.2019.8803528
[35]Torabi A,Massé G,Bilodeau G A.An iterative integrated framework for thermal-visible image registration,sensor fusion,and people tracking for video surveillance applications[J].Computer Vision and Image Understanding,2012,116(2):210-221
[36]Kristan M,Matas J,Leonardis A,et al.The seventh visual object tracking VOT2019 challenge results[C]∥Proceedings of the IEEE International Conference on Computer Vision Workshop,2019
Abstract RGB-Thermal object tracking has developed due to its strongly complementary benefits of thermal information to visible data.In this paper,we introduce the research background of RGB-T object tracking and the challenges in this task;then summarize and introduce the existing methods of RGB-T object tracking,including traditional methods and deep learning methods.Finally,we analyze and compare the existing RGB-T datasets and evaluation criteria,and point out the aspects worthy of study in RGB-T object tracking.
Key words RGB-Thermal;multimodality;object tracking