(華北電力大學(xué)控制與計算機(jī)工程學(xué)院 北京 昌平 102200)
視覺跟蹤技術(shù)是計算機(jī)視覺研究領(lǐng)域的一個重要的研究方向,并且在現(xiàn)實生活中有著很重要的應(yīng)用,比如正在發(fā)展中的自動駕駛、導(dǎo)航、監(jiān)控等等。在進(jìn)行視覺跟蹤的時候,根據(jù)第一幀中的目標(biāo)圖片,實現(xiàn)識別后續(xù)視頻幀中的所跟蹤的目標(biāo)。在跟蹤過程中,由于背景變化、運動模糊、部分遮擋、光照變化、形態(tài)變化等諸多因素,使得開發(fā)一款實時并且跟蹤效果準(zhǔn)確的跟蹤器成為一項巨大的挑戰(zhàn)。
傳統(tǒng)的視覺跟蹤方法需要人為的設(shè)置需要提取的特征種類,實驗結(jié)果表明這類跟蹤算法的魯棒性并不能滿足視覺跟蹤的需求。而深度學(xué)習(xí)可以通過多層非線性變換自動提取豐富特征,并且在計算機(jī)視覺、語音識別和自然語言處理方面取得豐碩成果。受這些突破的影響,在過去的幾年里,很多學(xué)者將深度學(xué)習(xí)應(yīng)用于視覺跟蹤領(lǐng)域,并且取得一個又一個里程碑。
本文中我們主要分析目前為止,在基于深度學(xué)習(xí)視覺跟蹤中用到的相關(guān)技術(shù),主要從基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的視覺跟蹤、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的視覺跟蹤和基于強(qiáng)化學(xué)習(xí)(RL)的視覺跟蹤三個方面進(jìn)行分析。我們分別分析基于這三類跟蹤器的原理,最后對基于深度學(xué)習(xí)的跟蹤算法進(jìn)行總結(jié)。
(一)基于CNN的卷積神經(jīng)網(wǎng)絡(luò)
基于CNN的模型適用于提取圖片的豐富特征,實驗證明該模型具有強(qiáng)大的圖片特征提取能力和圖片分類能力,它的出現(xiàn)推動了視覺跟蹤算法的發(fā)展。與傳統(tǒng)的視覺跟蹤算法相似,基于CNN的跟蹤算法分為生成模型和判別模型的跟蹤算法。生成模型的跟蹤算法在搜索區(qū)域通過搜索與模板最佳匹配區(qū)域來計算目標(biāo)的預(yù)測位置?;诜诸惸P偷母櫵惴ㄊ且粋€二分類算法,通過模型計算搜索區(qū)域是否為目標(biāo),以此將被跟蹤目標(biāo)與周圍的背景圖片有效的分開實現(xiàn)目標(biāo)跟蹤。
基于判別模型的跟蹤算法會有一個二分類函數(shù),二分類函數(shù)基于從第一幀圖片中采集的正負(fù)樣本或者基于后續(xù)跟蹤過程中采集的正負(fù)樣本集訓(xùn)練得到,用于判斷跟蹤過程中搜索區(qū)域是否為跟蹤目標(biāo)。在[1]中Ma等根據(jù)VGGNet模型中不同卷積層中魯棒性和空間分辨力的不同的特點,用三個不同的卷積層(Conv3-4,Conv4-4和Conv5-4)的特征向量構(gòu)造了三個二分類函數(shù)實現(xiàn)跟蹤。
基于生成模型的跟蹤器使用卷積神經(jīng)網(wǎng)絡(luò)來生成一個模板匹配函數(shù),通過該函數(shù)計算模板與搜索區(qū)域的匹配值。比如Tao等人在[2]提出了一種暹羅網(wǎng)絡(luò)模型來匹配對象模板和候選對象以進(jìn)行視覺跟蹤,其中可以基于最高匹配分?jǐn)?shù)來確定最佳狀態(tài)。Bertinetto等在[3]開發(fā)了一個全連接的暹羅網(wǎng)絡(luò),以卷積的方式匹配對象模板和當(dāng)前搜索區(qū)域。
(二)基于RNN的神經(jīng)網(wǎng)絡(luò)的視覺跟蹤
循環(huán)神經(jīng)網(wǎng)絡(luò)模型適用于輸入時連續(xù)的序列,其神經(jīng)元的輸出可以在下一次直接應(yīng)用于其自身。在手寫識別或語音識別方面的一些研究工作的推動下,人們進(jìn)行了一些嘗試來利用視覺跟蹤中的空間配置之間的語義信息以及幀之間的時間關(guān)聯(lián)。
崔等人在[4]提出了一種基于RNN的視覺跟蹤方法主要解決遮擋等問題,該算法的思想與SRDCF等思想類似。作者將候選區(qū)域進(jìn)行網(wǎng)格劃分,每個網(wǎng)格區(qū)域使用的RNN模型是從四個不同方向進(jìn)行運算輸出結(jié)果為置信度圖,然后用置信度圖初始化SRDCF的損失函數(shù)的懲罰項,這使得外觀模型對于部分遮擋具有魯棒性。寧等人[5]研究時域中的長短期記憶(LSTM)的回歸能力,并提出將卷積網(wǎng)絡(luò)產(chǎn)生的高級視覺特征與區(qū)域信息連接起來。
(三)基于強(qiáng)化學(xué)習(xí)的視覺跟蹤
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個領(lǐng)域,它是一種決策學(xué)習(xí)過程,通過對一個決策做出獎勵或者懲罰,進(jìn)而促進(jìn)其行為沿著我們期望的方向進(jìn)行的一種學(xué)習(xí)方式。強(qiáng)化學(xué)習(xí)在很多領(lǐng)域取得不錯的結(jié)果,尤其是游戲領(lǐng)域,很多款游戲甚至超過人類水平,比如谷歌旗下人工智能研究部門DeepMind發(fā)布的新版AlphaGo。
近幾年很多學(xué)者也嘗試將強(qiáng)化學(xué)習(xí)用在視覺跟蹤領(lǐng)域,并取得一定成果。比如Yun等人在[6]通過使用強(qiáng)化學(xué)習(xí)產(chǎn)生一系列動作在新的一幀中尋找目標(biāo)的位置和大小來實現(xiàn)跟蹤,相比如傳統(tǒng)的深度學(xué)習(xí)的跟蹤器,該算法滿足跟蹤中需要的準(zhǔn)確定位、適應(yīng)目標(biāo)尺度變化,并且實現(xiàn)了輕量級計算,在GPU上甚至可以達(dá)到實時性。Chen等人在[7]中提出用強(qiáng)化學(xué)習(xí)去探索連續(xù)的跟蹤動作結(jié)果,與[6]相比不同之處在于不是多經(jīng)過多次移動來定位跟蹤目標(biāo)的位置,而是直接一次計算出來,使得跟蹤器移的邊界直接移動到目標(biāo)對象的位置。
由于跟蹤過程中目標(biāo)的形變、遮擋等諸多因素的影響,以及實時性需求,目標(biāo)跟蹤問題一直是計算機(jī)視覺領(lǐng)域的一個具有挑戰(zhàn)性的研究問題。雖然深度學(xué)習(xí)強(qiáng)大的特征提取能力促使目標(biāo)跟蹤取得一系列重大進(jìn)展,但是我認(rèn)為基于深度學(xué)習(xí)的目標(biāo)跟蹤仍然面臨以下以下幾個方面的挑戰(zhàn):1.訓(xùn)練樣本少:在初始化網(wǎng)絡(luò)的時候正樣本單一,都是基于第一幀圖片中的目標(biāo)得到的;負(fù)樣本截取的第一幀的背景圖片,與正樣本區(qū)分度比較大。這樣的樣本用來訓(xùn)練網(wǎng)絡(luò)使得網(wǎng)絡(luò)容易過擬合。2.在線網(wǎng)絡(luò)調(diào)整容易促使網(wǎng)絡(luò)退化:通常在跟蹤過程中收集正負(fù)樣本更新跟蹤器,但是如果收集到的樣本中存在錯誤樣本,比如發(fā)生遮擋、漂移的時的樣本集,會促使網(wǎng)絡(luò)退化。3.實時性差:基于深度學(xué)習(xí)的跟蹤網(wǎng)絡(luò)計算量大,實時性有時候比較差。