基于孿生網(wǎng)絡的目標跟蹤算法研究進展

2022-10-19 05:07:28梁啟花胡現(xiàn)韜鐘必能李先賢

廣西師范大學學報(自然科學版) 2022年5期

梁啟花, 胡現(xiàn)韜, 鐘必能*, 于楓,2, 李先賢

(1.廣西多源信息挖掘與安全重點實驗室(廣西師范大學), 廣西桂林 541004;2.東南大學計算機網(wǎng)絡和信息集成教育部重點實驗室, 江蘇南京 211189)

視覺目標跟蹤以其重要的理論價值、廣泛的實用價值以及多學科交叉性一直吸引著學術(shù)界和工業(yè)界的極大關注，并在智能視頻監(jiān)控、公共交通、人機交互、自動駕駛、無人機、軍事目標定位等領域有著重要的應用[1-4]。在目標跟蹤場景中，首先，跟蹤器將視頻序列的第一幀目標信息作為模板，即模板幀,部分在線更新的孿生跟蹤器會對模板幀進行有條件的更新[5]，在獲取模板幀后，將后續(xù)視頻幀作為序列圖像流進行目標跟蹤。其中，根據(jù)測試目的以及應用場景的不同，可將跟蹤過程劃分為短時目標跟蹤和長時目標跟蹤。

在短時目標跟蹤場景中，其基準數(shù)據(jù)集[6-10]多具有序列短、目標變化較小等特點，針對環(huán)境噪聲、場景模糊、動態(tài)變化等擾動挑戰(zhàn)，借助抑制背景、干擾物等噪聲的方法，實現(xiàn)高判別性跟蹤器。此外，跟蹤目標在持續(xù)運動過程中由于旋轉(zhuǎn)、受壓等姿態(tài)變化，不可避免地導致外觀上的改變，這種源于目標內(nèi)在因素的外觀變化能夠直接影響對物體表觀的刻畫和邊界框的預測，邊界框預測的準確性對于后續(xù)模型能否有效更新起了很大作用。

在長時目標跟蹤場景中，其基準數(shù)集[11-14]多以較長序列為主，目標會出現(xiàn)暫時消失、隔幀出現(xiàn)等情況，造成目標表觀變化顯著和背景多樣性、復雜性。通常情況下，長時間跟蹤場景中，目標易發(fā)生遮擋，其中會出現(xiàn)完全遮擋、部分遮擋等情況；在以時間維度度量場景中，光照等環(huán)境噪聲干擾容易變化，造成目標表征不明顯、環(huán)境復雜度變高等挑戰(zhàn)。此外，由于目標特征變化明顯，形成相似目標物體干擾，對跟蹤器的魯棒性和準確性帶來了巨大挑戰(zhàn)。

無論是短時目標跟蹤場景，還是長時目標跟蹤場景，目標尺度和寬高比的變化都給目標跟蹤算法帶來了巨大挑戰(zhàn)。以往的目標跟蹤算法通常采用基于多尺度搜索的方法或基于錨框的方法，對目標尺度和寬高比變化進行處理，但效果不佳。為了準確估計目標的尺度和寬高比，同時避免錨框相關超參數(shù)的手工設計，近年來基于無錨框的尺度處理方法，已經(jīng)吸引越來越多目標跟蹤領域?qū)W者的關注。與此同時，Transformer模型因其較好的全局建模能力，在視覺領域中取得了巨大成功，有一部分學者將其引入目標跟蹤領域，極大地推動了目標跟蹤領域的發(fā)展，然而也給目標跟蹤研究帶來一些問題。例如：Transformer模型計算量過大，是否能夠?qū)δＰ瓦M行輕量化；能否有效融合視覺和語言等多模態(tài)信息。在長時跟蹤領域，往往存在目標消失后重現(xiàn)的問題，這也是長時跟蹤難以解決的痛點。如表1所示，根據(jù)上述目標跟蹤算法的特性，可以將上述基于孿生網(wǎng)絡的目標跟蹤算法劃分為如下6類模型：無錨框(anchor-free)跟蹤框架、孿生網(wǎng)絡關系器、基于Transformer的孿生跟蹤器、輕量化單目標跟蹤模型、基于自然語言的跟蹤模型和基于檢測—跟蹤長時目標跟蹤算法。接下來，本文將對這6個方面的相關工作展開論述，最后，對目標跟蹤領域的未來發(fā)展方向進行討論和展望。

表1 基于孿生網(wǎng)絡的目標跟蹤算法特性和分類示例

1 無錨框跟蹤框架

近年來，很多跟蹤器[15-16,25-26]采用基于無錨框的方式來進行目標估計。在無錨框的方式出現(xiàn)之前，很多跟蹤器是基于多尺度搜索[27-29]和基于錨框[30-32]的，如圖1所示。

圖1 估算目標尺度或?qū)捀弑鹊姆椒‵ig.1 Method for estimating target scale or aspect ratio

基于多尺度搜索的方法依賴于分類組件，雖然速度上有一定優(yōu)勢，但是不能準確估計目標的尺度和寬高比。而基于錨框的方法，雖然相比采用多尺度搜索的方法，準確度有了明顯的提升，但其需要基于先驗知識仔細設計錨框，引入了相關的超參數(shù)，增加了計算。為了準確估計目標的尺度和寬高比，同時避免錨框相關超參數(shù)的手工設計，一些學者將無錨框的方法引入目標跟蹤[15-16,25]。SiamFC++[16]分析了之前基于孿生網(wǎng)絡的目標跟蹤器的不足，將跟蹤任務拆分為分類和回歸2個子任務；為了增強跟蹤器的分類能力和減少回歸分支對先驗知識的依賴，SiamFC++增加質(zhì)量評估分支輔助分類和采用無錨框的方式估計目標狀態(tài)。SiamCAR[25]和SiamFC++相似，用無錨框的方式進行跟蹤，增加了一個中心點分支輔助分類。Ocean[26]是另一個基于無錨的跟蹤器，它通過學習對象感知特征以輔助分類并使用在線學習方法更新模型，但是，其對象感知特征和用于分類的特征是從不同位置采樣的，不同的采樣位置可能會導致其對象感知和分類特征之間的不一致。

準確估計目標的尺度和寬高比仍然是目標跟蹤領域的挑戰(zhàn)性問題之一，并且由于遮擋、光照變化、相似物干擾、背景混雜等因素的存在而進一步復雜化。Chen等[15]通過利用全卷積網(wǎng)絡的強大能力，設計了一個簡單而有效的目標跟蹤算法，稱為孿生邊框自適應網(wǎng)絡(siamese box adaptive network，SiamBAN)，用以解決準確估計目標的尺度和寬高比這個挑戰(zhàn)性問題。如圖2，SiamBAN由一個孿生網(wǎng)絡骨干和多個邊框自適應頭組成，可以在訓練過程中進行端到端優(yōu)化。孿生邊框自適應網(wǎng)絡直接以逐像素的方式對目標進行分類，并預測其邊框，從而將跟蹤任務轉(zhuǎn)換為分類和回歸問題。無先驗框的設計避免了與候選框相關的超參數(shù)，從而使SiamBAN更加靈活和通用。

圖2 SiamBAN結(jié)構(gòu)[15]Fig.2 SiamBAN structure diagram[15]

SiamFC++[16]、SiamCAR[25]、Ocean[26]在GOT-10k[10]上的性能對比結(jié)果如表2所示。GOT-10k[10]是最近發(fā)布的大型高多樣性基準數(shù)據(jù)集，用于野外通用目標跟蹤。它包含超過10 000個真實世界運動物體的視頻片段。其協(xié)議確保了深度跟蹤器的公平比較，即所有方法都使用數(shù)據(jù)集提供的相同訓練數(shù)據(jù)。訓練數(shù)據(jù)集和測試數(shù)據(jù)集中的類是零重疊的。研究人員需要在給定的訓練數(shù)據(jù)集上訓練他們的模型，并在給定的測試數(shù)據(jù)集上測試它們。上傳跟蹤結(jié)果后，官方網(wǎng)站會自動進行分析，提供的評估指標包括成功圖、平均重疊(AO)和成功率(SR)。AO表示所有估計邊界框和地面真值框之間的平均重疊。SR0.5表示重疊超過0.5的成功跟蹤幀的速率。從表2中我們不難發(fā)現(xiàn)，基于在線更新機制的跟蹤器(如Ocean)比不更新模板幀的跟蹤器(如SiamCAR)有更好的性能。

表2 SiamFC++、SiamCAR、Ocean在GOT-10k上的性能對比

2 孿生網(wǎng)絡關系器

基于孿生網(wǎng)絡的跟蹤器通常會保留一些先驗信息[33]，并把跟蹤任務看成是一個相似性學習的問題，獲得目標模板和候選幀之間的匹配函數(shù)[34]，且在準確性和實時性上均有著非常優(yōu)異的性能。其中，跟蹤器在跟蹤階段易受到背景干擾物等噪聲的影響，這極大限制了魯棒性。由此，發(fā)現(xiàn)導致這種現(xiàn)象的原因是模型的判別能力不夠。最近，現(xiàn)有的工作通過利用在線更新機制，設計適應性更新策略引入跟蹤器模型當中，以增強模型判別力[17，28，35]。CFNet[28]把相關濾波器翻譯成一個可以微分的網(wǎng)絡層來在線更新模型；DSiam[27]采用了一個快速轉(zhuǎn)換模塊來實現(xiàn)在線學習；UpdateNet[35]試圖在跟蹤時去估計目標的模板圖來應對目標的表觀變化。然而，在線更新策略需要繁重的計算并且更新時累計的誤差會最終導致跟蹤失敗。DiMP[18]通過在線收集樣本，利用元學習的方法訓練一個在線分類器來對目標進行分類。除此之外，SPM[32]嘗試使用“由粗到細”思想進行兩階段的跟蹤來對干擾物進行篩選；DaSiamRPN[36]通過增加隨機訓練負樣本的方式來提高跟蹤器對相似干擾物的判別力。少樣本學習期望在給定少量帶有標簽的樣本情況下能識別出新的類別[37]。在訓練的時候，通常只有很少甚至只有一個樣本的數(shù)據(jù)能夠獲取，因此，如何克服這種情況以確保模型的泛化能力成為一個具有挑戰(zhàn)性的任務[38]。少樣本學習的主流方法有以下幾種：用循環(huán)神經(jīng)網(wǎng)絡(RNN)優(yōu)化[39]、基于在線微調(diào)的方法[40]、訓練學習一個有效的度量[41-42]。目前，一個流行的趨勢是設計一個通用的策略使得能夠在每個任務中去指導有監(jiān)督學習，這被叫做元學習。在大量任務中學習的這些元知識是可以遷移的，這樣訓練出來的網(wǎng)絡就能夠處理不同的任務。最近，隨著基于快速學習初始化模型參數(shù)MAML[40]的提出，Huang等[43]和Wang等[44]借鑒了這個技術(shù)，并在他們的跟蹤任務中用其讓模型快速自適應?？偟膩碚f，元學習的方法研究可以促進目標跟蹤在不同場景下的適應能力[34]。

近些年，通過對孿生網(wǎng)絡跟蹤器進行分析發(fā)現(xiàn)，其容易受到干擾物的影響，并且大部分基于孿生網(wǎng)絡的跟蹤器會利用分類分支和回歸分支去定位目標，而這2個分支是相互獨立進行優(yōu)化的，這會引起在跟蹤階段的不匹配現(xiàn)象，即分類置信分數(shù)最高的定位框和目標的IoU值不一定是最大的。Cheng等[45]提出孿生關系網(wǎng)絡框架來解決跟蹤過程有效地分辨和抑制干擾物等擾動挑戰(zhàn)，網(wǎng)絡結(jié)構(gòu)如圖3所示。其中，關系檢測器模塊如圖4所示，通過衡量預選建議框和跟蹤目標之間的關系，對背景干擾物進行分辨和過濾。此外，設計基于少樣本學習的對比訓練策略來進一步提高模型判別力，這個策略使得模型不僅能夠匹配相同的目標，而且還能夠區(qū)分不同的目標，如圖5所示。同時，為了緩解分支的不匹配現(xiàn)象并得到更加精確的跟蹤結(jié)果，設計精調(diào)模塊利用關系檢測器的輸出達到分類分支和回歸分支的相互關聯(lián)。

圖3 孿生關系網(wǎng)絡跟蹤流程[45]Fig.3 Siamese network tracking flow char[45]

圖4 關系檢測器的結(jié)構(gòu)[45]Fig.4 Structure diagram of relationship detector[45]

圖5 對比訓練策略示意Fig.5 Schematic diagram of comparative training strategy

OTB-100[46]是一個被廣泛用于評估視覺跟蹤算法性能的視覺跟蹤基準數(shù)據(jù)集。該數(shù)據(jù)集總共包含100個序列，每個序列都逐幀注釋，帶有邊界框和11個挑戰(zhàn)屬性。其中AUC表示預測框與真實框之間計算 IoU，當大于某個閾值時，認定跟蹤成功。如果閾值從0到1不斷變化，就能畫出每個閾值下跟蹤成功率，計算曲線與x、y軸的面積，得到AUC。用真實框中目標的位置初始化第一幀，然后運行跟蹤算法得到平均精度和成功率。這種方法被稱為one-pass evaluation (OPE)。CFNet[28]、SPM[32]在OTB-100[46]測試集上的性能對比結(jié)果如表3所示。由表3可知，SPM由于采用了干擾物篩選等處理策略，能夠取得較好的跟蹤結(jié)果。

表3 CFNet、SPM在OTB-100測試集上的性能對比

3 基于Transformer的孿生跟蹤器

Transformer在2017年由Vaswani等[47]提出，它不同于以往深度學習任務經(jīng)常使用的CNN和RNN方法，而是通過引入注意力的思想來處理自然語言任務。因其出眾的性能和符合人體的感知機制[48-49]，近幾年來被眾多研究者引入計算機視覺領域中，諸如圖像分類[50]、圖像分割、目標跟蹤等視覺任務。

Transformer的核心是多頭注意力機制，如圖6所示，有查詢(query, q)、鍵(key, k)和值(value, v)3個輸入，通常使用縮放點積方法來計算它們的注意力矩陣，即相似度矩陣，公式表示為

式中：d代表輸入k的維度；Pq、Pk代表q和k對應的位置編碼。為了探索更強有力的長距離依賴能力，Transformer將q、k和v向量劃分為多個子特征向量，并使用多頭注意力機制計算它們的注意力矩陣以從v特征向量中傳播相關信息，其公式表示如下：

MultiHead(q,k,v)=Concat(h1,…,hN)Wo，

圖6 多頭注意力示意Fig..6 Multi-head attention diagram

最近，一些工作將Transformer引進到單目標跟蹤領域中，它們采用編碼器—解碼器的范式來設計Transformer網(wǎng)絡結(jié)構(gòu)并將其結(jié)合到以往的跟蹤框架上，展現(xiàn)出非凡的跟蹤性能。具體地，Chen等[19]提出TransT，設計了一個帶有自身上下文增強(ego-context augment, ECA)和交叉特征增強(cross-feature augment, CFA)模塊的Transformer特征融合網(wǎng)絡，它可以避免傳統(tǒng)的跨相關操作陷入局部最優(yōu)解和丟失部分語義信息的問題。Yan等[20]提出STARK，直接把目標跟蹤看做是一個邊界框預測問題，對此設計了一個基于Transformer的跟蹤器，它通過自注意力和交叉注意力模塊對模板幀和搜索幀之間的時空特征進行全局建模。Wang等[51]提出TrDiMP，利用一個Transformer結(jié)構(gòu)對多個模板特征進行關系建模，同時傳播跟蹤線索到當前幀以執(zhí)行跟蹤任務。另外，Zhao等[52]提出TrTr，把Transformer的編碼器和解碼器分離到2個分支上，同時對模板和搜索特征進行編碼以進行目標跟蹤。以上這些跟蹤器通過嘗試建立長時序依賴來感知上下文信息的方法取得了很大的性能提升，展示出Transformer強大的全局建模能力。

然而，當前對Transformer的探索還處于一個初期階段，仍存在很多可探索的地方，諸如減少計算復雜度、基于Transformer來重新思考整體的跟蹤架構(gòu)等。另外，在計算資源受限的平臺運行傳統(tǒng)卷積骨干網(wǎng)絡(ResNet)的計算成本仍然較高，因此未來研究移動平臺的高效骨干網(wǎng)絡、基于輕量化的Transformer跟蹤器、基于純Transformer架構(gòu)的跟蹤器等都可能是有趣的方向。TransT[19]與STARK[20]在GOT-10k[10]測試集上的性能對比結(jié)果如表4所示。從表中可以分析得出在短時跟蹤時，TransT的跨注意力和自注意力模塊更高效。

表4 TransT與STARK在GOT-10k上的性能對比

4 輕量化單目標跟蹤模型

當前學術(shù)界更加注重單目標跟蹤模型的魯棒性和正確率，但是在工業(yè)界，模型輕量化是一個至關重要的標準，這個標準決定著單目標跟蹤模型是否能夠部署到邊緣設備上。然而單目標跟蹤的模型越來越大，傾向于使用更深和更復雜的模塊，很少有考慮到效率及模型大小問題，且伴隨著Transformer的引入使模型參數(shù)大大增加。這些原因?qū)е聠文繕烁櫮Ｐ蜔o法部署在邊緣設備進行實時單目標跟蹤任務，即無法工業(yè)化。因此，研究輕量化且具有高準確率的單目標跟蹤模型勢在必行。

LightTrack[21]、E.T.Track[22]、FEAR[53]是目前性能較為強大的3種單目標跟蹤模型，同時具有高速度、高性能和低模型大小的特點。LightTrack使用神經(jīng)結(jié)構(gòu)搜索來設計更輕量、高效的對象跟蹤器，它的性能優(yōu)于SiamRPN++[31]和Ocean[26]等先進跟蹤器，并且模型更加小，能夠部署在移動芯片上。E.T.Track是目前唯一基于Transformer的實時目標跟蹤器，它利用Exemplar Transformer實現(xiàn)的實時目標跟蹤模型，在CPU上能達到47 frame/s的速度，比其他基于Transformer的模型有更快的速度，相較于TransT快9倍，較STARK快6倍。FEAR是一種新穎、快速、高效、準確并且強大的視覺跟蹤器，其中優(yōu)化版FEAR-XS的跟蹤速度比當前流行的SiamRPN++快10倍以上，且能夠接近最先進的結(jié)果。FEAR-XS跟蹤器的模型大小比LightTrack小了2.4倍，速度卻是LightTrack的4.3倍，且具有更高的精度。

近來，發(fā)表的輕量級目標跟蹤器仍然和SOTA有不小的差距，它們的準確率和魯棒性仍然有許多值得改進的地方。不同版本的LightTrack[21]在GOT-10k測試集的性能對比結(jié)果如表5所示。從表中可以看出，更大的參數(shù)和模型確實能夠一定程度上提升跟蹤器的性能。但是如何在保留性能的情況下降低模型的計算量和參數(shù)是輕量化不得不考慮的問題。

表5 不同版本的LightTrack在GOT-10k上的性能對比

5 基于自然語言的跟蹤器

僅僅依靠視覺中的表觀特征信息進行跟蹤很容易受到外部世界及其自身狀態(tài)的影響，進而導致在跟蹤領域出現(xiàn)許多難以解決的痛點。如圖7所示，根據(jù)人的常識，在跟蹤某個任意目標時，視覺和語言是缺一不可的聯(lián)合表達和相互補充的通道。在人類的認知中，在目光鎖定任意目標時，都是先從“是什么”開始，用“什么樣子”進行輔助。

圖7 自然語言的作用和優(yōu)勢Fig.7 Functions and advantages of natural language

在近十年里，出現(xiàn)了很多將自然語言和跟蹤相結(jié)合的研究工作，通常自然語言被用來提高跟蹤器的性能。使用文本為視覺提供更穩(wěn)定和更準確的高級語義信息。通過兩者的互補，消除表觀特征變化引起的歧義和不確定性。Li等[54]通過自然語言定義了跟蹤的3種不同形式，即只使用自然語言、使用依賴基于自然語言的視覺目標規(guī)范以及利用其聯(lián)合能力。Wang等[55]將自然語言作為監(jiān)督信息，以穩(wěn)健地學習特征表示和分類器。Feng等[56]使用貝葉斯公式，在檢測跟蹤框架中通過自然語言形式化跟蹤。Wang等[57]基于自然語言進行跟蹤，使用高級語義信息指導對象跟蹤，巧妙地將局部和全局搜索聯(lián)系在一起。Feng等[23]將自然語言引入孿生網(wǎng)絡，為目標跟蹤提供了一類新的基線。但在上述工作中，自然語言的信息和視覺特征只是做了簡單的交互，并沒有完全利用到自然語言的優(yōu)勢。如果可以在關注本身模態(tài)的前提下，對不同模態(tài)之間的關系進行建模，或許能夠獲得更好的跟蹤效果。

TNL2K[54]與Wang等[55]在OTB-Lang[54]測試集的性能對比結(jié)果如表6所示。Prec為衡量目標跟蹤算法的精度指標，其根據(jù)目標跟蹤算法估計的目標位置的中心點與人工標注真實框的目標中心點，計算這兩者的距離小于給定閾值的視頻幀的百分比得到。從表6中實驗結(jié)果可以看出，基于視覺和語言融合的跟蹤算法已經(jīng)初步驗證了其性能。但是如何進一步有效地將自然語言與跟蹤領域結(jié)合，從而處理僅僅依靠視覺信息沒法處理的難題，依然值得進一步深入研究。

表6 TNL2K與文獻[55]在OTB-Lang上的性能對比

6 基于檢測—跟蹤的長時目標跟蹤算法

得益于長時目標跟蹤算法的實用性，大尺度長時跟蹤算法成為視覺目標跟蹤中新的熱點問題。長時與短時跟蹤器的主要區(qū)別是，長時跟蹤器需要具備處理目標頻繁消失和重現(xiàn)的問題。一般來說，長時跟蹤序列[12]會持續(xù)長達數(shù)百至上千幀，并且通常包含表觀變化、長時間消失和類別內(nèi)干擾物等困難場景。因此，長時跟蹤器必須具備高效重檢測目標以及區(qū)分目標和相似物的能力。

高效實用的長時跟蹤算法通常包含3個關鍵的屬性:高效的模型設計、強大的全局重檢測策略以及魯棒的干擾物感知機制。然而，目前的長時跟蹤器沒有很好地考慮這些因素，因此存在耗時過大以及干擾物導致的漂移問題。為了解決這些問題，DMTrack[64]提出一個兩任務的跟蹤框架，如圖8所示，通過使用單樣本檢測(one-shot detection)和重識別(Re-identity)這2個核心模塊來獲得一個基于動態(tài)卷積核和多目標跟蹤的干擾物感知多目標跟蹤算法。為了實現(xiàn)精確以及快速的全局檢測，DMTrack構(gòu)建了一個基于動態(tài)卷積生成的高效小樣本檢測—跟蹤模型，在此模型的基礎上，引入重識別模型，用于提供一個更加統(tǒng)一和靈活的方法將目標信息結(jié)合到跟蹤框架中。與此同時，為了增強跟蹤器對干擾物的區(qū)別能力，該工作受到多目標跟蹤方法的啟發(fā)，為所有潛在的干擾物維護跟蹤列表，從而顯式地區(qū)分目標和其他相似物體?？傮w來說，得益于高召回的檢測模型以及顯式的目標關聯(lián)，該跟蹤器取得可靠高效的長時跟蹤性能。當然，基于檢測—跟蹤的方法，受限于檢測速度和精度，訓練負擔大，提升跟蹤過程的速度以及選擇更合適的訓練方式，是長時跟蹤領域需要考慮的問題。

圖8 基于MOT的長時檢測—跟蹤算法[64]Fig.8 Long term detection and tracking algorithm based on MOT[64]

SPLT[62]、DMTrack[64]在VOT-2019-LT的性能對比結(jié)果如表7所示。VOT-2019-LT是2019年VOT比賽長時賽道。F-Score 一種平衡召回率和準確率的評價指標。從表中可以看出，DMTrack使用重識別的核心模塊進行顯式的多目標跟蹤，取得了較好的長時目標跟蹤性能。

表7 SPLT、DMTrack在VOT-2019-LT上的性能對比

7 總結(jié)與展望

過去幾年中，出現(xiàn)了大量基于深度學習的目標跟蹤算法研究工作，同時在跟蹤器的實時性、魯棒性和準確性方面也取得了令人欣喜的效果。但是，該領域當面對真實場景更加復雜的應用場景時，仍然存在大量問題亟待解決。這里，我們重點討論以下3個問題與其未來發(fā)展方向。

1)泛化能力。當前的跟蹤器非常依賴大量有標注的訓練數(shù)據(jù)，獲取數(shù)據(jù)成本很高，并且特定場景存在數(shù)據(jù)量較小、復雜度較低和多樣性不足等問題。由此，提升模型的泛化能力，借助少樣本學習和自監(jiān)督學習能夠有效改善。首先，少樣本學習能夠解決訓練樣本數(shù)量少導致模型泛化能力不夠的問題，自監(jiān)督學習能夠有效解決訓練數(shù)據(jù)缺少標注的問題。通過借助訓練數(shù)據(jù)提升模型泛化能力，能夠適應性地應用于復雜場景當中，對目標跟蹤領域而言能夠提升整體的發(fā)展水平。

2)跟蹤精細化。從多尺度搜索的方法到基于錨框和基于無錨框的目標跟蹤器，算法模型設計趨于精細化?；阱^框的方法可以處理目標尺度和寬高比的變化，但是此方法對錨框的數(shù)量、大小和寬高比很敏感。同時，基于無錨框的方法直接對對象進行分類并回歸其邊框，簡單而有效。但這些方法在預測的邊框和卷積特征之間存在對齊問題，限制了這些跟蹤器的性能。如果能解決預測的邊框和特征之間的對齊問題，相信對跟蹤器的性能會有明顯提升。

3)模型架構(gòu)。基于經(jīng)驗設計的神經(jīng)網(wǎng)絡架構(gòu)逐漸被基于神經(jīng)網(wǎng)絡結(jié)構(gòu)搜索的結(jié)構(gòu)所替代，在檢測任務中，已有不少工作集中于骨干網(wǎng)絡[65]、特征提取網(wǎng)絡[66]和檢測頭[67]的搜索。在跟蹤任務中，其實也存在大量經(jīng)驗設計的網(wǎng)絡，特別是模板分支與搜索分支融合的部分是通過大量實驗得出的(包括卷積類型、通道數(shù)、融合操作和融合點個數(shù))，通過神經(jīng)網(wǎng)絡架構(gòu)搜索的方式將獲得性能更好的結(jié)構(gòu)，但目前在搜索空間定義、訓練指標定義、訓練收斂等問題上仍需要研究人員的不懈努力。