• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤研究綜述

      2022-03-13 23:23:52韓明王景芹王敬濤孟軍英劉教民
      關(guān)鍵詞:目標(biāo)跟蹤特征提取深度學(xué)習(xí)

      韓明 王景芹 王敬濤 孟軍英 劉教民

      摘 要:近年來(lái),基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法由于在跟蹤精度和跟蹤效率之間能夠?qū)崿F(xiàn)良好的平衡而備受關(guān)注。通過(guò)對(duì)基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法的文獻(xiàn)進(jìn)行歸納,對(duì)現(xiàn)有孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法進(jìn)行了全面總結(jié),對(duì)孿生網(wǎng)絡(luò)的2個(gè)分支結(jié)構(gòu)進(jìn)行了討論。首先,介紹了基于孿生網(wǎng)絡(luò)目標(biāo)跟蹤的基本架構(gòu),重點(diǎn)分析了孿生網(wǎng)絡(luò)中主干網(wǎng)絡(luò)的優(yōu)化,以及主干網(wǎng)絡(luò)的目標(biāo)特征提取問(wèn)題。其次,對(duì)目標(biāo)跟蹤過(guò)程中的分類(lèi)和回歸2個(gè)任務(wù)展開(kāi)討論,將其分為有錨框和無(wú)錨框2大類(lèi)來(lái)進(jìn)行分析研究,通過(guò)實(shí)驗(yàn)對(duì)比,分析了算法的優(yōu)缺點(diǎn)及其目標(biāo)跟蹤性能。最后,提出未來(lái)的研究重點(diǎn):1)探索背景信息訓(xùn)練,實(shí)現(xiàn)場(chǎng)景中背景信息傳播,充分利用背景信息實(shí)現(xiàn)目標(biāo)定位。2)目標(biāo)跟蹤過(guò)程中,目標(biāo)特征信息的更加豐富化和目標(biāo)跟蹤框的自適應(yīng)變化。3)從幀與幀之間全局信息傳播,到目標(biāo)局部信息傳播的研究,為準(zhǔn)確定位跟蹤目標(biāo)提供支撐。

      關(guān)鍵詞:計(jì)算機(jī)圖象處理;目標(biāo)跟蹤;孿生網(wǎng)絡(luò);深度學(xué)習(xí);特征提取

      中圖分類(lèi)號(hào):TN520?? 文獻(xiàn)標(biāo)識(shí)碼:A

      DOI:10.7535/hbkd.2022yx01004

      收稿日期:2021-08-04;修回日期:2021-12-20;責(zé)任編輯:王淑霞

      基金項(xiàng)目:河北省高等學(xué)??茖W(xué)技術(shù)研究重點(diǎn)項(xiàng)目(ZD2020405);河北省“三三三人才工程”資助項(xiàng)目(A202101102);石家莊市科學(xué)技術(shù)研究與發(fā)展計(jì)劃項(xiàng)目(201130181A)

      第一作者簡(jiǎn)介:韓 明(1984—),男,河北行唐人,副教授,博士,主要從事計(jì)算機(jī)視覺(jué)、圖像處理方面的研究。

      通訊作者:王景芹教授。E-mail:jqwang@hebut.edu.cn

      Comprehensive survey on target tracking based on Siamese network

      HAN Ming1,2,WANG Jingqin2,WANG Jingtao1,MENG Junying1,LIU Jiaomin2

      (1.School of Computer Science and Engineering,Shijiazhuang University,Shijiazhuang,Hebei 050035,China;2.State Key Laboratory of Reliability and Intelligence of Electrical Equipment,Hebei University of Technology,Tianjin 300130,China)

      Abstract:In recent years,the target tracking algorithm based on Siamese network has attracted much attention because it can achieve a good balance between tracking accuracy and tracking efficiency.Through the intensive study of the literature of target tracking algorithm based on Siamese network,the existing target tracking algorithm based on Siamese network was comprehensively summarized.Firstly,the basic framework of target tracking was introduced based on Siamese network,and the optimized backbone network in Siamese network and its target feature extraction were analyzed.Secondly,the classification and regression tasks in the process of target tracking were discussed,which were divided into two categories of anchor frame and anchor-free frame.The advantages and disadvantages of the algorithm as well as the target tracking performance were analyzed through experimental comparison.Finally,the focus of future research is proposed as following:1) Explore the training of background information,realize the dissemination of background information in the scene,and make full use of background information to achieve target positioning.2) In the process of target tracking,the target feature information is enriched and the target tracking frame is changed adaptively.3) Research from the global information transmission between frames to the target local information transmission provides support for the accurate target positioning and tracking.

      Keywords:

      computer image processing;target tracking;Siamese network;deep learning;feature extraction

      視覺(jué)目標(biāo)跟蹤是人機(jī)交互、視覺(jué)分析和輔助驅(qū)動(dòng)系統(tǒng)應(yīng)用中最基本的問(wèn)題,也是計(jì)算機(jī)視覺(jué)中一項(xiàng)基本又具挑戰(zhàn)性的任務(wù)。近年來(lái),目標(biāo)跟蹤取得了一定的研究成果,尤其是隨著深度學(xué)習(xí)的研究,利用大量已知數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練,捕捉目標(biāo)深度語(yǔ)義特征,實(shí)現(xiàn)對(duì)目標(biāo)外觀(guān)表征的同時(shí),增加對(duì)語(yǔ)義特征的表征,從而助力目標(biāo)跟蹤[1-2]。結(jié)合深度學(xué)習(xí)目標(biāo)跟蹤算法吸引了大量學(xué)者進(jìn)行不斷的研究和探索。但是在目標(biāo)跟蹤過(guò)程中,隨著目標(biāo)運(yùn)動(dòng)和背景變化,跟蹤過(guò)程中出現(xiàn)的目標(biāo)被遮擋、劇烈變形、光照變化、背景相似物干擾等復(fù)雜情況,導(dǎo)致目標(biāo)跟蹤精度和實(shí)時(shí)性面臨巨大挑戰(zhàn)。

      卷積神經(jīng)網(wǎng)絡(luò)(CNN)在處理各種各樣的視覺(jué)問(wèn)題中具有非常優(yōu)秀的表現(xiàn),尤其是在特征提取方面[3-5]。因此一些目標(biāo)跟蹤算法將其嵌入到跟蹤框架中,其中SiamFC[6]就是典型代表。SiamFC[6]通過(guò)計(jì)算響應(yīng)圖的最大值位置推斷目標(biāo)的位置,將基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤問(wèn)題轉(zhuǎn)化成一個(gè)相似度匹配問(wèn)題,在超大規(guī)模數(shù)據(jù)集上離線(xiàn)學(xué)習(xí)目標(biāo)特征,并將初始幀作為目標(biāo)跟蹤模板,通過(guò)輸入模板圖像和搜索圖像,提取搜索圖像特征,之后與模板特征作相似度匹配,得到得分響應(yīng)圖,然后根據(jù)得分值最大的原則確定目標(biāo)跟蹤的位置。

      近年來(lái),基于孿生網(wǎng)絡(luò)架構(gòu)的目標(biāo)跟蹤器因目標(biāo)跟蹤性能高,以及在跟蹤精度和跟蹤效率之間能夠?qū)崿F(xiàn)良好的平衡而受到高度關(guān)注。基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤器一般分為2個(gè)分支:第1個(gè)分支[7-9]通過(guò)細(xì)化Siamese網(wǎng)絡(luò)的模板子網(wǎng)和實(shí)例子網(wǎng),增強(qiáng)了Siamese網(wǎng)絡(luò)的表示能力,這些算法努力實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象的定位,但忽略了對(duì)對(duì)象大小的估計(jì);第2個(gè)分支[10-12]將視覺(jué)跟蹤問(wèn)題視為分類(lèi)任務(wù)和回歸任務(wù)的結(jié)合,分類(lèi)任務(wù)將響應(yīng)圖上的特征點(diǎn)分類(lèi)為目標(biāo)和背景,回歸任務(wù)是通過(guò)回歸估計(jì)目標(biāo)的準(zhǔn)確狀態(tài)。第2個(gè)分支的典型代表是SiamRPN[13],它借鑒了經(jīng)典目標(biāo)檢測(cè)算法Faster R-CNN[14]的區(qū)域提議網(wǎng)絡(luò),將跟蹤問(wèn)題轉(zhuǎn)化到區(qū)域提議網(wǎng)絡(luò)中,該網(wǎng)絡(luò)用于估計(jì)新幀內(nèi)目標(biāo)的位置和形狀,從而避免了多尺度測(cè)試,大大提高了目標(biāo)的跟蹤速度。TAO等[15]提出了SINT(siamese instance search tracker)來(lái)訓(xùn)練一個(gè)孿生網(wǎng)絡(luò)識(shí)別與初始對(duì)象匹配的候選區(qū)域的圖像位置;SiamFC[6]采用互相關(guān)操作融合輸入特征;VALMADRE等[16]首先將相關(guān)濾波器解釋為全卷積連體網(wǎng)絡(luò)中的可微層;CAO等[17]提出了一個(gè)動(dòng)態(tài)加權(quán)模塊,使離線(xiàn)訓(xùn)練的Siamese網(wǎng)絡(luò)具有更強(qiáng)的適應(yīng)性;SiamRPN++[18]在SiamRPN[13]的基礎(chǔ)上通過(guò)引入更深層次的神經(jīng)網(wǎng)絡(luò)進(jìn)一步提高其性能;ZHU等[19]提出了一種有效的采樣策略來(lái)控制訓(xùn)練數(shù)據(jù)的分布,學(xué)習(xí)到一個(gè)更有區(qū)別性的模型。HE等[20]提出了一個(gè)雙卷積Siamese網(wǎng)絡(luò),一個(gè)分支用于學(xué)習(xí)外觀(guān)特征;另一個(gè)分支用于學(xué)習(xí)語(yǔ)義特征;SiamMask[21]擴(kuò)展了SiamRPN[13],增加了一個(gè)分支和損失函數(shù),用于二值分割任務(wù),統(tǒng)一了視覺(jué)目標(biāo)跟蹤和分割。

      基于深度學(xué)習(xí)的目標(biāo)跟蹤算法的綜述研究主要集中在相關(guān)性濾波和神經(jīng)網(wǎng)絡(luò)的分類(lèi)綜述研究中,文獻(xiàn)[22]基于孿生網(wǎng)絡(luò)的研究進(jìn)行綜述,內(nèi)容包括相關(guān)濾波算法的和孿生網(wǎng)絡(luò)相關(guān)的目標(biāo)跟蹤2大部分,主要對(duì)基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤中的典型算法進(jìn)行了綜述。本文基于孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法的發(fā)展,根據(jù)孿生網(wǎng)絡(luò)的2個(gè)分支結(jié)構(gòu)進(jìn)行綜述討論,一方面是Siamese主干網(wǎng)絡(luò)的優(yōu)化及目標(biāo)特征的提取,另一方面是孿生網(wǎng)絡(luò)目標(biāo)跟蹤中的分類(lèi)任務(wù)和回歸任務(wù),總結(jié)為有錨框和無(wú)錨框2大類(lèi),根據(jù)討論與分析,對(duì)未來(lái)孿生網(wǎng)絡(luò)目標(biāo)跟蹤的研究方向進(jìn)行思考。

      1 孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法的基本結(jié)構(gòu)

      以SiamFC[6]為代表的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法通過(guò)端到端的網(wǎng)絡(luò)學(xué)習(xí),計(jì)算對(duì)比第一幀模板圖像與后續(xù)幀搜索圖像的特征相似度,從而得到相似度得分,得分越高說(shuō)明2個(gè)圖像的相似度越大,孿生網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,孿生網(wǎng)絡(luò)由模板和搜索2個(gè)分支組成,模板分支將第一幀圖像作為輸入,用于學(xué)習(xí)目的特征表示;搜索分支將當(dāng)前幀作為圖像輸入,2個(gè)分支共享網(wǎng)絡(luò)參數(shù)。

      由圖1可知,孿生網(wǎng)絡(luò)對(duì)模板圖像和搜索圖像分別經(jīng)過(guò)各自分支進(jìn)行訓(xùn)練,并且這2個(gè)分支使用的主干網(wǎng)絡(luò)完全一致。互相關(guān)函數(shù)fX,Z作為相似度計(jì)算函數(shù),計(jì)算經(jīng)過(guò)φ之后,進(jìn)行特征提取得到特征圖相似性,公式如下:

      fX,Z=φX*φZ(yǔ)+b,(1)

      式中:φX、φZ(yǔ)分別表示模板圖像Z和搜索圖像X經(jīng)過(guò)特征提取網(wǎng)絡(luò)之后得到的特征圖;*為卷積運(yùn)算;b表示偏移量。

      該算法中使用了最簡(jiǎn)單的AlexNet[23]作為主干網(wǎng)絡(luò),前5層為卷積層,后3層為全連接層,最后將數(shù)據(jù)輸出到Softmax。

      2 Siamese主干網(wǎng)絡(luò)優(yōu)化及圖像特征提取

      2.1 Siamese主干網(wǎng)絡(luò)優(yōu)化及應(yīng)用

      近幾年,基于A(yíng)lexNet[23]作為主干網(wǎng)絡(luò)的孿生網(wǎng)絡(luò)跟蹤器[6-7,13,15,24-26]在運(yùn)行速度和跟蹤準(zhǔn)確性上都備受關(guān)注。但是輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)Alexnet對(duì)于復(fù)雜環(huán)境下的目標(biāo)跟蹤效果較差,尤其是在處理復(fù)雜環(huán)境問(wèn)題(旋轉(zhuǎn)、光照變化、變形、背景相似等)時(shí),容易出現(xiàn)跟蹤漂移和跟蹤丟失的問(wèn)題。隨著對(duì)深度神經(jīng)網(wǎng)絡(luò)特征嵌入更廣、更深層、更有效的研究,一些學(xué)者用更深更寬的網(wǎng)絡(luò)取代前景網(wǎng)絡(luò),如VGG[27],Inception[28]和ResNet[29]。通過(guò)對(duì)比發(fā)現(xiàn),用更深更寬的網(wǎng)絡(luò)取代淺層主干網(wǎng)絡(luò),并沒(méi)有得到預(yù)期效果,而是出現(xiàn)了因?yàn)榫W(wǎng)絡(luò)深度和寬度的增加導(dǎo)致性能下降的情況。因此近幾年出現(xiàn)了多種主干網(wǎng)絡(luò)優(yōu)化算法。

      更深更寬網(wǎng)絡(luò)未能取得更好的跟蹤效果,主要原因是網(wǎng)絡(luò)的架構(gòu)主要是為圖像分類(lèi)的任務(wù)而設(shè)計(jì)的,而不是主要面向目標(biāo)跟蹤,因此在跟蹤任務(wù)中對(duì)目標(biāo)的定位精確度不高。通過(guò)對(duì)Siamese網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析,發(fā)現(xiàn)神經(jīng)元感受野的大小、網(wǎng)絡(luò)步幅和特征填充是影響跟蹤精度的3個(gè)重要因素。其中感受野決定了用于計(jì)算機(jī)特征的圖像區(qū)域,較大的感受野能夠提供較大的圖像上下文,而較小的感受野可能導(dǎo)致無(wú)法捕捉目標(biāo)物體的結(jié)構(gòu)。網(wǎng)絡(luò)的步幅會(huì)影響定位精度,尤其是對(duì)于小尺寸的跟蹤目標(biāo)。同時(shí),網(wǎng)絡(luò)的步幅控制輸出特征映射的大小,從而影響特征的可辨別度和檢測(cè)精度。此外,對(duì)于完全卷積的結(jié)構(gòu),卷積的特征填充在模型訓(xùn)練中產(chǎn)生了潛在的位置偏差,當(dāng)目標(biāo)移動(dòng)到搜索范圍邊界附近時(shí),很難做出準(zhǔn)確的預(yù)測(cè)。ZHANG等[30]為了實(shí)現(xiàn)對(duì)更廣更深網(wǎng)絡(luò)的應(yīng)用,首先,基于“瓶頸”殘差塊,提出了一組內(nèi)部裁剪殘差(CIR)單元。CIR單元裁剪出塊內(nèi)受填充影響的特征,從而避免卷積濾波器學(xué)習(xí)位置偏差。然后,通過(guò)CIR單元的堆疊,設(shè)計(jì)了更深網(wǎng)絡(luò)和更寬網(wǎng)絡(luò)2種網(wǎng)絡(luò)架構(gòu)。通過(guò)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),基于“殘差塊”的主干網(wǎng)絡(luò)跟蹤器在跟蹤性能上有較大提升。

      為了提升特征提取能力,才華等[31]通過(guò)分析殘差網(wǎng)絡(luò)的特點(diǎn),將深層網(wǎng)絡(luò)ResNet50[32]作為主干網(wǎng)絡(luò),但是在使用時(shí)對(duì)ResNet50進(jìn)行修改優(yōu)化處理,使其擺脫由于網(wǎng)絡(luò)深度或?qū)挾仍黾釉斐尚阅艽蠓陆档膯?wèn)題。首先,為了實(shí)現(xiàn)更多特征的保留減少步長(zhǎng);然后,通過(guò)應(yīng)用擴(kuò)張卷積增加其感受野。網(wǎng)絡(luò)設(shè)計(jì)中對(duì)淺層特征和深層特征進(jìn)行了融合處理,為了增加感受野,將Conv4中的步長(zhǎng)設(shè)置為1,擴(kuò)張率設(shè)置為2,Conv5的步長(zhǎng)設(shè)置為1,擴(kuò)張率設(shè)置為4。該算法將修改后的ResNet50作為主干網(wǎng)絡(luò)充分利用了殘差網(wǎng)絡(luò)的優(yōu)勢(shì),使其除能夠獲取顏色、形狀等底層特征外,還能夠利用后邊的層獲取特征豐富的語(yǔ)義信息,通過(guò)深度互相關(guān),實(shí)現(xiàn)更有效的信息關(guān)聯(lián),使其具有更少的參數(shù),從而減少超參數(shù)優(yōu)化。

      為了使提取特征更加豐富,SiamRPN++[18]將MobileNet作為主干網(wǎng)絡(luò),其處理速度相對(duì)較高,速度高于70幀/s。楊梅等[33]將一種參數(shù)較少、復(fù)雜度較小輕量級(jí)網(wǎng)絡(luò)MobileNetV3作為主干網(wǎng)絡(luò)對(duì)目標(biāo)進(jìn)行特征提取,并進(jìn)行了3方面的改進(jìn):1)為了保留深層特征圖中足夠多的信息,刪除了2個(gè)步長(zhǎng)為2的卷積層,將網(wǎng)絡(luò)的總步長(zhǎng)由32改為8;2)為了減少padding造成的最大響應(yīng)點(diǎn)的偏移影響,用3×3的卷積核替換原來(lái)5×5的卷積核,并利用剪裁操作去除最外層特征;3)為了得到更多的特征信息,將網(wǎng)絡(luò)中bneck的3×3卷積步長(zhǎng)改為1,并使用1×1的卷積核調(diào)節(jié)網(wǎng)絡(luò)通道數(shù)。在該算法中FPS達(dá)到了67幀/s,F(xiàn)PS降低的主要原因是由于增加了注意力模塊,在OTB50數(shù)據(jù)集實(shí)驗(yàn)中,精度達(dá)到了0.773,成功率達(dá)到了0.566,相對(duì)于SiamFC分別提升了7.5%和5.3%。該方法針對(duì)目標(biāo)變形、尺度變化、快速運(yùn)動(dòng)、背景干擾、低分辨率等問(wèn)題,在精確度和成功率上都相對(duì)提高,但是網(wǎng)絡(luò)訓(xùn)練好之后一直依賴(lài)于第一幀的目標(biāo)模板,當(dāng)出現(xiàn)目標(biāo)遮擋、背景與目標(biāo)相似時(shí)容易跟蹤丟失,使得算法整體性能下降。

      淺層網(wǎng)絡(luò)的典型代表SiamFC算法和深層網(wǎng)絡(luò)典型代表算法SiamRPN,SiamRPN++等的工作原理以及優(yōu)缺點(diǎn)的對(duì)比如表1所示。

      隨著對(duì)主干網(wǎng)絡(luò)的不同優(yōu)化,孿生網(wǎng)絡(luò)架構(gòu)更加合理,在運(yùn)行速度、成功率和重疊率上均有不同程度的提升。深層次主干網(wǎng)絡(luò)的應(yīng)用使得網(wǎng)絡(luò)在提取更深層次目標(biāo)特征信息上更加完善,提取的特征信息更加全面,在進(jìn)行目標(biāo)跟蹤時(shí)充分利用目標(biāo)淺層特征和深層特征,不僅充分利用了目標(biāo)的外觀(guān)信息,同時(shí)結(jié)合目標(biāo)的語(yǔ)義信息,使得目標(biāo)跟蹤過(guò)程更加準(zhǔn)確。

      2.2 Siamese網(wǎng)絡(luò)的圖像特征提取

      對(duì)主干網(wǎng)絡(luò)進(jìn)行不同的優(yōu)化操作,無(wú)論是淺層網(wǎng)絡(luò)還是深層網(wǎng)絡(luò)的優(yōu)化,目的是更加準(zhǔn)確、高效地提取目標(biāo)特征,使特征表達(dá)更加全面,信息更加豐富。傳統(tǒng)的基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法采用卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)圖像的特征,在提取圖像特征時(shí)對(duì)于每個(gè)通道內(nèi)的圖像特征平等對(duì)待,從而導(dǎo)致圖像不同通道內(nèi)的不同信息表達(dá)不準(zhǔn)確,對(duì)目標(biāo)跟蹤有利的特征得不到增強(qiáng),冗余特征得不到抑制。同時(shí),對(duì)于目標(biāo)跟蹤過(guò)程而言,每一幀圖像中都包含有目標(biāo)信息和背景信息,而傳統(tǒng)算法中則沒(méi)有考慮二者在目標(biāo)跟蹤中的不同作用。

      目標(biāo)跟蹤過(guò)程中總會(huì)面臨長(zhǎng)程跟蹤和目標(biāo)遮擋導(dǎo)致消失問(wèn)題,當(dāng)目標(biāo)出現(xiàn)遮擋或者是需要長(zhǎng)程跟蹤時(shí),對(duì)整體跟蹤網(wǎng)絡(luò)架構(gòu)的要求更加嚴(yán)格和高效。為了解決這一問(wèn)題,SiamRPN[13],SiamRPN++[18]和DaSiamRPN[19]都做了相關(guān)工作,將搜索策略從局部擴(kuò)展到全局來(lái)檢測(cè)目標(biāo)是否跟蹤丟失。QIN等[34]設(shè)計(jì)的模板更新方法旨在解決跟蹤過(guò)程中由于遮擋造成的目標(biāo)丟失問(wèn)題。目前解決目標(biāo)遮擋問(wèn)題大致可分為2種解決辦法:其一,在進(jìn)行網(wǎng)絡(luò)離線(xiàn)訓(xùn)練時(shí)增加遮擋情況下的訓(xùn)練,提高跟蹤時(shí)的準(zhǔn)確性,但是訓(xùn)練數(shù)據(jù)的情況覆蓋不全,使得訓(xùn)練結(jié)果不一定適合于所有的場(chǎng)合;其二,通過(guò)匹配樣本與目標(biāo)模板的特征,尤其是深度語(yǔ)義特征,通過(guò)對(duì)比整體深度特征與目標(biāo)模板的相似性進(jìn)行判斷,但是在這個(gè)過(guò)程中由于需要匹配整個(gè)圖像,導(dǎo)致準(zhǔn)確性降低,時(shí)間復(fù)雜度增加,實(shí)時(shí)性降低。針對(duì)這些問(wèn)題,注意力機(jī)制在時(shí)空2個(gè)領(lǐng)域都表現(xiàn)出了優(yōu)勢(shì)。

      2.2.1 基于注意力機(jī)制的圖像特征提取

      注意力機(jī)制(attention mechanism,AM)[35]在計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)的目標(biāo)檢測(cè)、圖像分類(lèi)等任務(wù)中都得到了不同程度的應(yīng)用,通過(guò)注意力機(jī)制實(shí)現(xiàn)對(duì)圖像中有效信息的聚焦關(guān)注。為了使目標(biāo)跟蹤算法更多地關(guān)注空間位置和通道位置上對(duì)目標(biāo)跟蹤有利的特征,WANG等[36]提出了殘差注意力機(jī)制網(wǎng)絡(luò),在編碼解碼模式下使用注意力模塊,重新定義特征圖,網(wǎng)絡(luò)不僅性能更好,而且對(duì)噪聲更魯棒。該算法充分利用殘差注意力機(jī)制強(qiáng)化圖像的關(guān)鍵特征,對(duì)于目標(biāo)遮擋、目標(biāo)與背景相似、光照變化等復(fù)雜環(huán)境下的目標(biāo)跟蹤具有較強(qiáng)的適應(yīng)能力,但是隨著網(wǎng)絡(luò)注意力模塊的應(yīng)用,算法的實(shí)時(shí)性還有待提升。HU等[37]引入了一個(gè)緊湊的模塊來(lái)發(fā)展通道之間的關(guān)系,利用平均池化層的特征來(lái)計(jì)算通道之間的注意力。

      不少研究者將注意力機(jī)制引入到孿生網(wǎng)絡(luò)目標(biāo)跟蹤中。首先,對(duì)于通道注意力模塊,通過(guò)對(duì)圖像的不同通道賦予不同的權(quán)重,讓圖像特征的外觀(guān)語(yǔ)義更加立體化,在目標(biāo)跟蹤中更加關(guān)注前景目標(biāo)的通道內(nèi)特征;其次,對(duì)于空間注意力模塊而言,通過(guò)對(duì)特征圖上不同空間位置分配不同的權(quán)重,增加前景目標(biāo)的空間位置權(quán)重,進(jìn)而突出前景目標(biāo)。文獻(xiàn)[38—39]均以殘差網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),都是在主干網(wǎng)絡(luò)之后增加了高效通道注意力模塊,增大對(duì)首幀信息的利用率,通道注意力模塊對(duì)輸入的特征在每個(gè)通道中都進(jìn)行全局平均池化和最大池化運(yùn)算,文獻(xiàn)[38]在不減少通道數(shù)的前提下,進(jìn)行跨通道交互學(xué)習(xí),進(jìn)而豐富目標(biāo)特征信息,進(jìn)一步削弱其他干擾特征,有效解決目標(biāo)跟蹤過(guò)程中劇烈形變和旋轉(zhuǎn)等情況。但是文獻(xiàn)[39]為了提升模型對(duì)通道的建模速度,將通道依賴(lài)關(guān)系限定在相鄰的K(K<9)個(gè)通道內(nèi)。

      以上研究在通道注意力使用過(guò)程中,關(guān)注了每個(gè)通道的特征表達(dá),但卻忽略了每個(gè)特征點(diǎn)對(duì)于整體特征的重要性。宋鵬等[40]提出了整體特征通道識(shí)別的自適應(yīng)孿生網(wǎng)絡(luò)跟蹤算法,以ResNet22作為主干網(wǎng)絡(luò),在Conv3階段的第4個(gè)卷積層加入高效通道注意力機(jī)制,在提取特征之后利用整體特征識(shí)別功能計(jì)算全局信息,獲取整體特征中各個(gè)通道之間的依賴(lài)關(guān)系。整體特征通道識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

      由圖2可知,通過(guò)整體感知模塊和特征轉(zhuǎn)換模塊之后逐像素相加,實(shí)現(xiàn)了將整體特征與通道特征的聚合,從而提取出更為豐富的語(yǔ)義特征,提高跟蹤精度。

      在相同的測(cè)試環(huán)境下,從實(shí)驗(yàn)效果來(lái)看文獻(xiàn)[38-39]在OTB50測(cè)試集上的跟蹤精度高于文獻(xiàn)[40],在VOT2016和VOT2018測(cè)試集上的EAO(expected average overlap),文獻(xiàn)[38-39]相對(duì)于文獻(xiàn)[40]的0.348 2和0.261 0都要高,其中文獻(xiàn)[38]達(dá)到了0.448和0.405。造成文獻(xiàn)[40]測(cè)試數(shù)據(jù)低的原因,主要是使用了簡(jiǎn)化的自注意力機(jī)制,造成了部分精度的損失。

      為了提高模型對(duì)于關(guān)鍵特征的關(guān)注度,增大前景貢獻(xiàn),抑制背景特征,充分利用空間信息,不少學(xué)者將通道注意力與空間注意力相結(jié)合,提出時(shí)空注意力網(wǎng)絡(luò)或聯(lián)合注意力網(wǎng)絡(luò),從而增強(qiáng)卷積網(wǎng)絡(luò)對(duì)正樣本的辨別能力。文獻(xiàn)[41-43]設(shè)計(jì)全局聯(lián)合注意力機(jī)制,對(duì)提取的特征作進(jìn)一步操作,增強(qiáng)網(wǎng)絡(luò)的辨別能力。其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,該網(wǎng)絡(luò)基于空間和通道聯(lián)合注意力機(jī)制提高特征的判別能力。通過(guò)實(shí)驗(yàn)對(duì)比可知,該算法在OTB實(shí)驗(yàn)數(shù)據(jù)集上取得了較好的效果,尤其是當(dāng)背景中出現(xiàn)相似物干擾和目標(biāo)快速運(yùn)動(dòng)時(shí)具有較好的魯棒性,但是當(dāng)目標(biāo)出現(xiàn)長(zhǎng)時(shí)間遮擋時(shí),這類(lèi)算法需要再次長(zhǎng)時(shí)間適應(yīng),性能下降,那么就需要在后續(xù)的研究中對(duì)長(zhǎng)時(shí)間遮擋時(shí)的時(shí)空序列的圖像連續(xù)性進(jìn)行研究。

      其中通道聯(lián)合注意力機(jī)制與文獻(xiàn)[38—39]相似,在此基礎(chǔ)上增加了空間注意力模塊,空間注意力模塊通過(guò)建立不同特征圖之間的空間信息關(guān)系來(lái)增強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力。其中空間注意力模塊首先通過(guò)1×1×256的卷積核對(duì)圖像特征進(jìn)行降維處理,然后將降維處理之后的特征圖經(jīng)過(guò)Sigmoid函數(shù)進(jìn)行歸一化處理,從而得到特征圖中每一個(gè)空間位置的權(quán)重,最后通過(guò)每個(gè)位置的權(quán)重與特征圖φ(z)相乘得到響應(yīng)圖,響應(yīng)圖中最大值的位置即為目標(biāo)跟蹤位置??臻g注意力模塊工作原理如圖4所示。

      為了使圖像特征更好地進(jìn)入網(wǎng)絡(luò),文獻(xiàn)[44]利用Mish函數(shù)代替了ReLU激活函數(shù),提高準(zhǔn)確性和模型的泛化能力。

      2.2.2 不同對(duì)比算法試驗(yàn)驗(yàn)證

      為了驗(yàn)證不同算法的性能優(yōu)劣,本文進(jìn)行了對(duì)比試驗(yàn),主要從跟蹤精確度、魯棒性和EAO 3個(gè)方面進(jìn)行評(píng)價(jià),實(shí)驗(yàn)環(huán)境為Intel(R) Xeon(R) CPU E5-2660 V2 @3.50G Hz×40,2個(gè)顯卡NVIDIA GTX 1080Ti GPUs共計(jì)內(nèi)存16 GB。在上述實(shí)驗(yàn)環(huán)境下,將文獻(xiàn)[38-43]在VOT2016和VOT2018數(shù)據(jù)集上進(jìn)行試驗(yàn)對(duì)比,結(jié)果如表2所示。

      由表2可知,在VOT2016數(shù)據(jù)集的測(cè)試上,文獻(xiàn)[43]的跟蹤精度結(jié)果優(yōu)于其他算法,文獻(xiàn)[38]魯棒性效果最好,文獻(xiàn)[43]次之。從VOT2018上的跟蹤效果來(lái)看,文獻(xiàn)[43]的跟蹤精度依然較高,魯棒性與文獻(xiàn)[39]持平,從EAO的表達(dá)效果來(lái)看2個(gè)數(shù)據(jù)集中文獻(xiàn)[43]均最優(yōu)。

      雖然研究者將目標(biāo)特征通過(guò)主干網(wǎng)絡(luò)進(jìn)行了多信息化的提取,使得圖像特征表達(dá)更加清晰。通過(guò)通道特征的表達(dá)使得圖像特征的外觀(guān)語(yǔ)義更加立體化,通過(guò)空間特征的表達(dá)使得圖像的空間位置更加準(zhǔn)確。將二者進(jìn)行聯(lián)合可使目標(biāo)的深度特征提取信息更加豐富,從而進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的判別能力。但是隨著網(wǎng)絡(luò)深度的增加,算法的復(fù)雜度越來(lái)越大,這對(duì)前期網(wǎng)絡(luò)訓(xùn)練和后期實(shí)時(shí)跟蹤都將產(chǎn)生負(fù)面影響,因此需要在前期增加更多、更詳細(xì)、更有效的圖像標(biāo)簽,利用這些先驗(yàn)信息提高訓(xùn)練的精度,同時(shí)在特征提取時(shí)還應(yīng)研究更加輕型的網(wǎng)絡(luò)結(jié)構(gòu)和算法,進(jìn)一步降低算法的時(shí)間復(fù)雜度,在實(shí)現(xiàn)目標(biāo)特征豐富化表示的同時(shí),實(shí)現(xiàn)目標(biāo)的高效跟蹤。

      2.3 孿生網(wǎng)絡(luò)的最新優(yōu)化應(yīng)用

      近幾年孿生網(wǎng)絡(luò)的發(fā)展取得了長(zhǎng)足進(jìn)步,網(wǎng)絡(luò)結(jié)構(gòu)越來(lái)越優(yōu)化,尤其是特征提取越來(lái)越側(cè)重于突出前景目標(biāo),以有利于目標(biāo)的準(zhǔn)確定位跟蹤。但是當(dāng)出現(xiàn)復(fù)雜環(huán)境變化,例如光照變化、背景相似物干擾、目標(biāo)形變、目標(biāo)遮擋等情況時(shí),如何設(shè)計(jì)出高精度、高魯棒性和實(shí)時(shí)性的目標(biāo)跟蹤算法仍然具有很大的困難。如何提高復(fù)雜場(chǎng)景下的目標(biāo)跟蹤,實(shí)現(xiàn)端到端的跟蹤效果還需要進(jìn)行不斷優(yōu)化。一些學(xué)者對(duì)孿生網(wǎng)絡(luò)的結(jié)構(gòu)作優(yōu)化處理,使跟蹤過(guò)程精確度更高,魯棒性更強(qiáng),主要表現(xiàn)在從時(shí)空信息、上下文信息等多個(gè)角度綜述孿生網(wǎng)絡(luò)的最新優(yōu)化應(yīng)用,同時(shí)對(duì)目標(biāo)跟蹤過(guò)程的模板動(dòng)態(tài)更新問(wèn)題進(jìn)行了研究。

      2.3.1 多角度孿生網(wǎng)絡(luò)最新目標(biāo)跟蹤應(yīng)用

      多角度孿生網(wǎng)絡(luò)目標(biāo)跟蹤研究,不再集中于目標(biāo)特征提取的某些或者某幾個(gè)方面,而是針對(duì)時(shí)空性和上下文信息,針對(duì)基于孿生網(wǎng)絡(luò)目標(biāo)跟蹤過(guò)程中目標(biāo)遮擋,或者是光照劇烈變化等情況下出現(xiàn)目標(biāo)時(shí)空連貫信息缺失,最終導(dǎo)致目標(biāo)跟蹤失敗的問(wèn)題,而目前大多數(shù)研究沒(méi)有考慮時(shí)空信息和上下文信息。GCT(graph convolutional tracking)[45-46]采用圖卷積跟蹤方法,該方法綜合考慮了歷史目標(biāo)樣本的時(shí)空結(jié)構(gòu)及其對(duì)應(yīng)的上下文信息,圖卷積跟蹤(GCT)主要利用時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(GCN)實(shí)現(xiàn)歷史目標(biāo)結(jié)構(gòu)化表示,并設(shè)計(jì)了一個(gè)上下文的GCN,利用當(dāng)前框架的上下文學(xué)習(xí)自適應(yīng)特征進(jìn)行目標(biāo)定位。首先,該算法通過(guò)圖結(jié)構(gòu)把前T幀視頻的時(shí)空信息連接為一個(gè)整體,通過(guò)將每一幀中的候選區(qū)域分為M個(gè)部分,然后將M個(gè)部分組成一個(gè)團(tuán),其中每一個(gè)團(tuán)代表一個(gè)空間信息,然后將不同幀的團(tuán)連接在一起構(gòu)成時(shí)空信息。其次,通過(guò)圖卷積計(jì)算每個(gè)節(jié)點(diǎn)的結(jié)果,并再次經(jīng)過(guò)上下文的圖卷積將輸出結(jié)果做一次softmax操作,然后輸出模板特征。最終圖卷積網(wǎng)絡(luò)在統(tǒng)一框架下,實(shí)現(xiàn)目標(biāo)的時(shí)空外觀(guān)建模以及上下文感知的自適應(yīng)學(xué)習(xí),最終實(shí)現(xiàn)目標(biāo)的準(zhǔn)確定位。

      YU等[47]在2020年的CVPR會(huì)議上提出了可變形孿生注意力網(wǎng)絡(luò)SiamAttn,該可變形注意力機(jī)制可提高網(wǎng)絡(luò)對(duì)目標(biāo)特征的表達(dá)能力,在目標(biāo)外觀(guān)劇烈變化、相似物干擾等復(fù)雜環(huán)境下具有更強(qiáng)的魯棒性以及更好的區(qū)分前景與背景能力。該網(wǎng)絡(luò)與2.2節(jié)的注意力機(jī)制不同,該注意力機(jī)制設(shè)計(jì)了可變形的自注意力特征和互注意力特征,其中自注意力特征包含空間特征和通道特征,可在空間域?qū)W習(xí)豐富的上下文信息,在通道域進(jìn)行有選擇的權(quán)重賦值,增強(qiáng)通道特征之間的相互依賴(lài)性;互注意力特征則負(fù)責(zé)聚合搜索區(qū)域和模板區(qū)域之間的相似特征信息,進(jìn)一步提高特征的區(qū)分能力。

      SiamAttn[47]網(wǎng)絡(luò)首先經(jīng)過(guò)可變注意力機(jī)制提取特征,然后利用SiamRPN[13]提取候選區(qū)域,得出候選區(qū)域得分最高的區(qū)域,然后經(jīng)過(guò)區(qū)域修正模塊,對(duì)預(yù)測(cè)結(jié)果進(jìn)行進(jìn)一步修正,同時(shí)生成包含跟蹤目標(biāo)的目標(biāo)框和掩膜,實(shí)現(xiàn)準(zhǔn)確跟蹤,整體網(wǎng)絡(luò)架構(gòu)如圖5所示。

      通過(guò)對(duì)比實(shí)驗(yàn)可以發(fā)現(xiàn),SiamAttn算法在VOT這種帶旋轉(zhuǎn)跟蹤框的數(shù)據(jù)集上可以更好地定位目標(biāo),相較于其他算法其定位效果有更為明顯的提升。該算法通過(guò)自注意力和互注意力相結(jié)合,提高模型目標(biāo)區(qū)分能力,與其他跟蹤器的區(qū)別在于該方法提供了一種自適應(yīng)的隱式模型特征更新方法,將卷積層和池化層替換為可變形的卷積層和可變形的池化層,用來(lái)增加每個(gè)像素點(diǎn)的感受野,從而更加準(zhǔn)確、有效地提取目標(biāo)特征。

      基于Siamese網(wǎng)絡(luò)的跟蹤器將視覺(jué)跟蹤任務(wù)定義為相似性匹配問(wèn)題。幾乎所有流行的Siamese跟蹤器都是通過(guò)目標(biāo)分支和搜索分支之間的卷積特征互相關(guān)聯(lián)來(lái)實(shí)現(xiàn)相似性學(xué)習(xí)的。但是,由于需要預(yù)先確定目標(biāo)特征區(qū)域的大小,這些互相關(guān)方法要么保留了大量不利的背景信息,要么丟失了大量的前景信息。此外,目標(biāo)與搜索區(qū)域的全局匹配也在很大程度上忽略了目標(biāo)結(jié)構(gòu)和部分層次信息。GUO等[48]設(shè)計(jì)了一個(gè)部分到部分的信息嵌入網(wǎng)絡(luò),提出了一個(gè)目標(biāo)感知孿生圖注意網(wǎng)絡(luò)。通過(guò)證明發(fā)現(xiàn)模板和搜索區(qū)域之間的信息嵌入可以用完全二分圖來(lái)建模,該圖通過(guò)圖的注意力機(jī)制來(lái)編碼模板節(jié)點(diǎn)和搜索節(jié)點(diǎn)之間的關(guān)系。通過(guò)學(xué)習(xí)注意力得分,每個(gè)搜索節(jié)點(diǎn)可以有效地從模板中聚合目標(biāo)信息。然后,所有搜索節(jié)點(diǎn)生成一個(gè)響應(yīng)圖,該響應(yīng)圖包含豐富的后續(xù)解碼任務(wù)的信息,在此基礎(chǔ)上,提出了一種圖注意模塊(GAM)來(lái)實(shí)現(xiàn)部分到部分的信息傳播,而不是在模板和搜索區(qū)域之間進(jìn)行全局信息傳播。這種局部與局部相似度匹配方法可以大大降低目標(biāo)形狀和姿態(tài)變化的影響。此外,該算法沒(méi)有使用預(yù)先確定的區(qū)域裁剪,而是研究了一種目標(biāo)感知的模板計(jì)算機(jī)制,以適應(yīng)不同對(duì)象的大小和長(zhǎng)徑比變化。該算法通過(guò)引入GAM,實(shí)現(xiàn)了面向?qū)ο蟮男畔⑶度氩呗?,提出了一種新的跟蹤框架,即孿生網(wǎng)絡(luò)圖注意跟蹤(SiamGAT)網(wǎng)絡(luò)。

      2.3.2 跟蹤模板更新

      目標(biāo)跟蹤過(guò)程中單純利用第一幀圖像作為模板進(jìn)行目標(biāo)跟蹤,容易因目標(biāo)遮擋、劇烈光照變化和相似背景等問(wèn)題出現(xiàn)跟蹤漂移。為解決整個(gè)跟蹤過(guò)程中僅使用第一幀圖像作為模板的單一問(wèn)題,QIN等[34]采用高置信度的多模板更新機(jī)制來(lái)確定模板是否需要更新。

      為了防止干擾物和背景特征被添加到模板中,將峰值的得分與相關(guān)能量相對(duì)應(yīng),以保證模板的有效性。利用平均峰值相關(guān)能量APCE能夠反映遮擋程度,可通過(guò)以下計(jì)算得到:

      Fmax=max(R),(2)

      Fmin=min(R),(3)

      APCE=|Fmax-Fmin|2mean∑w,hFw,h-Fmin2,(4)

      式中:Fmax,F(xiàn)min和Fw,h分別表示響應(yīng)圖最大值、最小值和坐標(biāo)(w,h)處對(duì)應(yīng)的響應(yīng)值;R表示響應(yīng)圖;mean()表示均值函數(shù)。在上述公式中分子代表峰值,分母代表響應(yīng)圖的波動(dòng)。峰值和波動(dòng)可以反映對(duì)跟蹤結(jié)果的置信程度。當(dāng)目標(biāo)不被遮擋時(shí),APCE變大,反映圖上只有一個(gè)尖峰;相反,如果目標(biāo)被遮擋或缺失,APCE顯著降低。

      將APCE計(jì)算為多個(gè)響應(yīng)映射的和,并判斷是否超過(guò)了閾值,如果APCE大于閾值,則表明結(jié)果是可靠的,可以進(jìn)行模板更新:

      RT=η×RT+(1-η)×RX,(5)

      式中:η表示更新率;RT表示模板圖像特征;RX表示高置信度的搜索圖像特征。

      3 分類(lèi)與邊框回歸任務(wù)

      SiamRPN算法引入?yún)^(qū)域推薦網(wǎng)絡(luò),將目標(biāo)跟蹤過(guò)程中的目標(biāo)相似度匹配問(wèn)題轉(zhuǎn)化為分類(lèi)和回歸問(wèn)題。RPN網(wǎng)絡(luò)分為相似度匹配部分和監(jiān)督部分,其中監(jiān)督部分一個(gè)分支用于前景和背景的分類(lèi),另外一個(gè)分支用于邊框回歸。

      3.1 基于有錨框的分類(lèi)與邊框回歸目標(biāo)跟蹤

      SiamRPN[13]采用滑動(dòng)窗口算法產(chǎn)生大量的錨框,從而生成候選區(qū)域,通過(guò)對(duì)anchor網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最終計(jì)算出分類(lèi)分支的類(lèi)別預(yù)測(cè)結(jié)果,計(jì)算出每個(gè)anchor屬于背景和前景的概率。在訓(xùn)練過(guò)程中,在響應(yīng)得分圖的每個(gè)像素點(diǎn)的位置上都生成5個(gè)anchor,5個(gè)anchor的寬高比分別為[3,2,1,1/2,1/3],由于最后網(wǎng)絡(luò)的輸出特征圖尺寸為17×17,則共設(shè)置1 445(17×17×5)個(gè)anchor,但是這些anchor的中心點(diǎn)對(duì)應(yīng)搜索圖像中的位置并不是整個(gè)搜索圖像,只是搜索圖像中心128×128的區(qū)域。SiamRPN不需要進(jìn)行尺度估計(jì),而是根據(jù)生成的錨框以及網(wǎng)絡(luò)特征,直接預(yù)測(cè)目標(biāo)的中心位置,分別使用分類(lèi)任務(wù)和回歸任務(wù),可能導(dǎo)致預(yù)測(cè)目標(biāo)的中心位置出現(xiàn)不匹配的現(xiàn)象,最終使得跟蹤結(jié)果性能降低。

      SiamRPN++[18]和DaSiamRPN[19]網(wǎng)絡(luò)同SiamRPN[13]相似,基于RPN的孿生網(wǎng)絡(luò)目標(biāo)跟蹤器主要依賴(lài)于密集的錨框策略,實(shí)現(xiàn)劇烈形變目標(biāo)的高準(zhǔn)確定位,但是多錨框的設(shè)置使得分類(lèi)和回歸任務(wù)的復(fù)雜程度增加,同時(shí)大量的冗余錨框降低了跟蹤器的跟蹤效率,從而影響跟蹤的速度和精度。

      為了解決大量錨框冗余造成的跟蹤速度和精度降低的問(wèn)題,文獻(xiàn)[49]通過(guò)思考anchor的生成問(wèn)題,將導(dǎo)向錨框網(wǎng)絡(luò)中關(guān)于錨框的解決方法引入目標(biāo)檢測(cè),通過(guò)2個(gè)條件概率分布實(shí)現(xiàn)anchor的生成,公式如下:

      p(x,y,w,hI)=p(x,yI)p(w,hx,y,I),(6)

      式中:(x,y,w,h)表示圖像I的中心坐標(biāo)和寬高;px,yI和pw,hx,y,I分布分別為給定圖像特征之后anchor中心點(diǎn)的概率分布和給定圖像特征和中心點(diǎn)之后的形狀概率分布。

      借鑒文獻(xiàn)[49]的導(dǎo)向錨框算法,文獻(xiàn)[50]將導(dǎo)向錨框RPN網(wǎng)絡(luò)結(jié)合孿生網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)跟蹤。將SiamRPN中沒(méi)有考慮的語(yǔ)義信息增加到網(wǎng)絡(luò)中,利用孿生網(wǎng)絡(luò)提取的語(yǔ)義特征對(duì)模板幀進(jìn)行錨框預(yù)測(cè)。孿生導(dǎo)向錨框RPN網(wǎng)絡(luò)如圖6所示。

      在導(dǎo)向錨框網(wǎng)絡(luò)中利用位置預(yù)測(cè)模塊預(yù)測(cè)區(qū)域的中心點(diǎn),從而生成錨框,通過(guò)設(shè)定相應(yīng)閾值確定前景目標(biāo)可能出現(xiàn)的位置,從而過(guò)濾掉大量的區(qū)域;另外,利用形狀預(yù)測(cè)模塊,通過(guò)預(yù)測(cè)模塊得到錨框中心點(diǎn)學(xué)習(xí)的最佳高度和寬度,實(shí)現(xiàn)對(duì)目標(biāo)的更好捕捉。同時(shí)該算法通過(guò)特征自適應(yīng)模塊動(dòng)態(tài)獲取特征,利用特征調(diào)整實(shí)現(xiàn)錨框大小的自適應(yīng)調(diào)整。

      李明杰等[51]將孿生區(qū)域提議網(wǎng)絡(luò)(RPN)與錨框掩碼相結(jié)合,將3D卷積操作與FCN[6]網(wǎng)絡(luò)引入到固定卷積操作范圍的錨框掩碼機(jī)制。首先,在FCN網(wǎng)絡(luò)上利用3D卷積學(xué)習(xí)連續(xù)3幀圖像的IOU熱度圖的時(shí)空信息;然后,在FCN網(wǎng)絡(luò)進(jìn)行全卷積操作,預(yù)測(cè)下一幀圖像的錨框掩碼圖片。相較于SiamRPN[13]中的每個(gè)錨點(diǎn)對(duì)應(yīng)生成K個(gè)錨框,該算法的錨框掩碼生成原理如圖7所示,先利用先驗(yàn)知識(shí),將圖像特征圖與生成的錨框掩碼進(jìn)行點(diǎn)乘運(yùn)算,得到一個(gè)稀疏矩陣。由圖7可知,通過(guò)錨框卷積運(yùn)算之后得分框和回歸框都會(huì)出現(xiàn)大量的0,根據(jù)0的數(shù)量濾掉無(wú)效錨框,實(shí)現(xiàn)真實(shí)目標(biāo)錨框的預(yù)測(cè)。

      基于anchor的孿生網(wǎng)絡(luò)首先需要借助初始人工設(shè)定的錨框,在目標(biāo)跟蹤過(guò)程中需要不斷進(jìn)行多次迭代,使目標(biāo)跟蹤框越來(lái)越接近真實(shí)目標(biāo)?;阱^框的方法通過(guò)多次迭代實(shí)現(xiàn)了目標(biāo)跟蹤框的逐漸修正,使得跟蹤更加準(zhǔn)確,該方法大多通過(guò)滑動(dòng)窗口的方法實(shí)現(xiàn),導(dǎo)致產(chǎn)生大量錨框,使得算法的整體計(jì)算復(fù)雜度增加,實(shí)時(shí)性下降。為了提高算法性能,Siammask[21]采用錨框掩碼進(jìn)行目標(biāo)位置的預(yù)測(cè),該算法對(duì)于高幀率視頻以及沒(méi)有出現(xiàn)目標(biāo)遮擋和目標(biāo)消失的情況,網(wǎng)絡(luò)性能較高,魯棒性高,但是在遮擋等情況時(shí)性能變差。因此,為了進(jìn)一步提高對(duì)目標(biāo)的跟蹤性能和跟蹤效率,一些研究人員提出了anchor-free網(wǎng)絡(luò)。

      3.2 基于無(wú)錨框的分類(lèi)與邊框回歸目標(biāo)跟蹤

      目前主流的基于孿生網(wǎng)絡(luò)的深度學(xué)習(xí)模型SiamRPN[13],SiamRPN++[18],DaSiamRPN[19],SSD(single shot multibox detector)[52]等依賴(lài)于一組預(yù)定義的錨框,實(shí)現(xiàn)高效的目標(biāo)跟蹤。但是基于錨框的檢測(cè)器具有明顯缺點(diǎn):一方面,需要預(yù)定義一組具有較大參數(shù)和固定超參數(shù)的錨框,使得檢測(cè)性能對(duì)與錨框相關(guān)的超參數(shù)過(guò)于敏感;另一方面,為了解決目標(biāo)跟蹤過(guò)程中目標(biāo)的尺度和劇烈形變問(wèn)題,需要設(shè)置大量錨框,導(dǎo)致正負(fù)樣本嚴(yán)重不平衡,同時(shí)增加了算法的復(fù)雜度。為了解決上述問(wèn)題,有學(xué)者提出了anchor-free的目標(biāo)跟蹤算法。

      張睿等[53]采用anchor-free機(jī)制,設(shè)計(jì)了無(wú)錨框網(wǎng)絡(luò),包括回歸分支和分類(lèi)分支。在回歸分支中利用像素點(diǎn)的位置回歸方法直接預(yù)測(cè)采樣點(diǎn)到目標(biāo)區(qū)域邊界的4個(gè)距離值,相對(duì)于錨框機(jī)制而言,可以有效減少人為設(shè)定的超參數(shù)的數(shù)量,同時(shí)增加正樣本數(shù)。在分類(lèi)分支中引入了中心度分支,中心度C(i,j)為

      C(i,j)=Tk*(i,j)min(l*,r*)max(l*,r*)×min(t*,b*)max(t*,t*),(7)

      式中,定義k*(i,j)=(l*,t*,r*,b*)表示中心度得分圖中任意位置(i,j)所對(duì)應(yīng)的采樣點(diǎn)(x,y)到目標(biāo)真實(shí)邊界區(qū)域的4個(gè)距離。

      其中

      Tk*(i,j)=1, k*(i,j)(n)>0, n=0,1,2,3,0, other。(8)

      式(8)表示采樣點(diǎn)(x,y)是否在目標(biāo)區(qū)域內(nèi),由式(8)可知,如果在目標(biāo)區(qū)域內(nèi)取值為1,否則為0。

      將式(8)代入式(7),當(dāng)采樣點(diǎn)落在目標(biāo)區(qū)域外部時(shí),式(7)表示的中心度值為0,對(duì)于落入目標(biāo)區(qū)域內(nèi)部的采樣點(diǎn)而言,距離目標(biāo)中心越近中心度值越高,相反,則越低。最后將相同位置的分類(lèi)結(jié)果與中心度結(jié)果進(jìn)行相乘運(yùn)算,實(shí)現(xiàn)對(duì)邊緣點(diǎn)的有效抑制。

      FCAF[54]和文獻(xiàn)[55]提出了端到端離線(xiàn)訓(xùn)練的FCAF模型,采用深度網(wǎng)絡(luò)ResNet50提供更深層次的特征表示,同時(shí)引入多特征融合模塊,將低級(jí)細(xì)節(jié)信息和高級(jí)的語(yǔ)義信息進(jìn)行有效融合,提高目標(biāo)的定位性能,用anchor-free 提議網(wǎng)絡(luò)代替候選提議網(wǎng)絡(luò)(region proposal network),AFPN(anchor-free proposal network)網(wǎng)絡(luò)由相關(guān)段和監(jiān)督段組成,其中,相關(guān)段通過(guò)深度方向互相關(guān)實(shí)現(xiàn),監(jiān)督段由分類(lèi)分支和回歸分支2個(gè)分支組成。另外,為了抑制低質(zhì)量邊界框的預(yù)測(cè),SiamCAR[56]對(duì)像素級(jí)進(jìn)行分類(lèi)。SiamCAR算法由2個(gè)簡(jiǎn)單的子網(wǎng)絡(luò)組成,一個(gè)用于特征提取的孿生子網(wǎng)絡(luò),一個(gè)用于邊框預(yù)測(cè)的分類(lèi)回歸子網(wǎng)絡(luò),主干網(wǎng)絡(luò)采用ResNet50。 該算法與現(xiàn)有的基于區(qū)域建議的跟蹤器(如SiamRPN[13],SiamRPN++[18]和SPM[22])不同,其提出的框架是anchor-free網(wǎng)絡(luò)。SiamCAR算法通過(guò)anchor-free策略,將網(wǎng)絡(luò)的回歸輸出變成了特征圖映射在搜索區(qū)域上的點(diǎn)與選定的目標(biāo)區(qū)域邊界(樣本標(biāo)注gt,ground-truth)4條邊的距離。通過(guò)觀(guān)察分類(lèi)得分圖和中心度得分圖,決定最佳目標(biāo)中心點(diǎn),然后提取最佳目標(biāo)中心點(diǎn)與gt框4條邊的距離,得到預(yù)測(cè)框,從而實(shí)現(xiàn)跟蹤。但是,SiamCAR算法將預(yù)測(cè)的位置映射到原始圖像可能會(huì)導(dǎo)致偏差,從而導(dǎo)致跟蹤過(guò)程中出現(xiàn)漂移。

      為了解決上述問(wèn)題,在獲得目標(biāo)區(qū)域內(nèi)多個(gè)相鄰像素的預(yù)測(cè)結(jié)果后,對(duì)多個(gè)相鄰點(diǎn)的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)平均,得到最終目標(biāo)框,但其帶來(lái)的后果是增加了計(jì)算過(guò)程的復(fù)雜度。雖然anchor-free方法可以簡(jiǎn)化基于錨的跟蹤器的區(qū)域候選模塊,但是基于語(yǔ)義分割的網(wǎng)絡(luò)輸出仍然需要后續(xù)進(jìn)行處理。

      為了提高無(wú)錨框全卷積孿生網(wǎng)絡(luò)跟蹤器的跟蹤性能,譚建豪等[57]在訓(xùn)練過(guò)程中引入了相似語(yǔ)義干擾物,同時(shí)融合高中低3層特征,提高跟蹤器的魯棒性,在無(wú)錨框使用上與FCAF[54]和文獻(xiàn)[55]類(lèi)似,基于像素直接進(jìn)行預(yù)測(cè)回歸,在每個(gè)位置僅僅預(yù)測(cè)一次目標(biāo)的狀態(tài)信息,不再進(jìn)行錨框相關(guān)的編碼過(guò)程,減少算法復(fù)雜度。為了提高目標(biāo)跟蹤的準(zhǔn)確性,YUAN等[58]提出了多模板更新的無(wú)錨孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法,采用一種基于多層特征的雙融合方法將多個(gè)預(yù)測(cè)結(jié)果分別進(jìn)行組合,將低級(jí)特征映射與高級(jí)特征映射連接起來(lái),充分利用空間信息和語(yǔ)義信息。為了使結(jié)果盡可能穩(wěn)定,將多個(gè)預(yù)測(cè)結(jié)果相結(jié)合得到最終結(jié)果。針對(duì)模板更新問(wèn)題,采用了一種高置信度的多模板更新機(jī)制。用平均峰值相關(guān)能量來(lái)決定模板是否需要更新,采用模板更新機(jī)制實(shí)現(xiàn)目標(biāo)跟蹤模板的準(zhǔn)確更新,同時(shí)算法中使用無(wú)錨框網(wǎng)絡(luò)實(shí)現(xiàn)逐像素目標(biāo)跟蹤,直接計(jì)算對(duì)象類(lèi)別和邊界框。一個(gè)完全卷積的單級(jí)目標(biāo)檢測(cè)器(FCOS)[59]消除了預(yù)先定義的錨框集,同F(xiàn)CAF[54]類(lèi)似以逐像素預(yù)測(cè)的方式解決目標(biāo)檢測(cè),完全避開(kāi)了與錨框有關(guān)的大參數(shù)和復(fù)雜計(jì)算。CenterNet[60]使用三元組檢測(cè)每個(gè)對(duì)象,包括一個(gè)中心關(guān)鍵點(diǎn)和2個(gè)角落。這些無(wú)錨框方法可以達(dá)到與基于有錨框方法的精確度相似,但是速度更快。

      無(wú)錨框網(wǎng)絡(luò)計(jì)算方法[53-57]網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示,整個(gè)網(wǎng)絡(luò)可以分為2個(gè)分支:分類(lèi)分支對(duì)每個(gè)點(diǎn)進(jìn)行分類(lèi),回歸分支對(duì)該點(diǎn)的目標(biāo)包圍框進(jìn)行回歸。對(duì)于每個(gè)響應(yīng)圖,分類(lèi)網(wǎng)絡(luò)輸出一個(gè)分類(lèi)特征圖和它的2個(gè)維度,分別表示對(duì)應(yīng)點(diǎn)的前景和背景分?jǐn)?shù)?;貧w分支輸出一個(gè)回歸特征圖,并在對(duì)應(yīng)點(diǎn)上編碼預(yù)測(cè)邊界框的位置。無(wú)錨預(yù)測(cè)操作完全消除了有錨邊界框相關(guān)的復(fù)雜計(jì)算和復(fù)雜的調(diào)參問(wèn)題。

      3.3 有錨框與無(wú)錨框網(wǎng)絡(luò)對(duì)比

      無(wú)論是有錨框還是無(wú)錨框的網(wǎng)絡(luò)結(jié)構(gòu)都將孿生網(wǎng)絡(luò)的跟蹤任務(wù)分為了分類(lèi)和回歸2個(gè)部分,分類(lèi)任務(wù)通過(guò)對(duì)每個(gè)像素點(diǎn)進(jìn)行分類(lèi)實(shí)現(xiàn)前景和背景的分類(lèi),回歸任務(wù)通過(guò)對(duì)目標(biāo)位置的回歸實(shí)現(xiàn)跟蹤框的回歸,生成回歸特征圖。通過(guò)分類(lèi)和回歸任務(wù)實(shí)現(xiàn)對(duì)目標(biāo)中心位置和尺度的預(yù)測(cè),實(shí)現(xiàn)目標(biāo)的準(zhǔn)確有效跟蹤。但是這些算法在使用分類(lèi)和回歸任務(wù)時(shí)是分別進(jìn)行使用的,二者之間的任務(wù)沒(méi)有很好地進(jìn)行聯(lián)系使用,導(dǎo)致部分模型在預(yù)測(cè)目標(biāo)前景和背景的分類(lèi)結(jié)果與邊框的回歸預(yù)測(cè)結(jié)果不符合,在跟蹤過(guò)程中不能得到最優(yōu)結(jié)果。

      基于上述分析,如何將分類(lèi)任務(wù)的最高得分與邊框預(yù)測(cè)的最佳位置相匹配實(shí)現(xiàn)最優(yōu)跟蹤,是目前需要研究的問(wèn)題。通過(guò)分析發(fā)現(xiàn),分類(lèi)損失函數(shù)主要目的是提高正樣本IOU的精度,回歸損失函數(shù)主要是提升邊框回歸的定位精度。因此,如何增強(qiáng)分類(lèi)任務(wù)與邊框回歸任務(wù)的聯(lián)系成為研究重點(diǎn)。從損失函數(shù)的角度出發(fā),需要對(duì)分類(lèi)損失函數(shù)和回歸損失函數(shù)進(jìn)行改進(jìn)研究,實(shí)現(xiàn)分類(lèi)損失函數(shù)與回歸損失函數(shù)的聯(lián)合使用,從而實(shí)現(xiàn)分類(lèi)的最高得分即是跟蹤邊框的最佳回歸位置,實(shí)現(xiàn)二者的關(guān)聯(lián)匹配。

      有錨框網(wǎng)絡(luò)和無(wú)錨框網(wǎng)絡(luò)的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法的工作機(jī)制以及優(yōu)缺點(diǎn)對(duì)比如表3所示。

      4 研究展望

      基于孿生網(wǎng)絡(luò)的跟蹤算法在發(fā)展過(guò)程中越來(lái)越注重算法的實(shí)時(shí)性和準(zhǔn)確性,尤其是針對(duì)復(fù)雜環(huán)境下目標(biāo)跟蹤的研究。各類(lèi)算法都在不斷地對(duì)實(shí)時(shí)性和準(zhǔn)確性進(jìn)行完善和優(yōu)化,孿生網(wǎng)絡(luò)架構(gòu)的優(yōu)勢(shì)逐漸顯現(xiàn),未來(lái)基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法研究將從以下幾個(gè)方面展開(kāi)。

      1)背景信息的訓(xùn)練。目前大多數(shù)基于孿生網(wǎng)絡(luò)的跟蹤算法均未考慮背景信息,在目標(biāo)訓(xùn)練過(guò)程中,只考慮目標(biāo)的外觀(guān)信息,但是當(dāng)背景中出現(xiàn)相似性物體干擾時(shí),對(duì)背景信息的訓(xùn)練顯得尤為重要。因此,如何實(shí)現(xiàn)對(duì)背景信息的訓(xùn)練,并實(shí)現(xiàn)有價(jià)值的信息在場(chǎng)景中進(jìn)行傳播,充分利用目標(biāo)外觀(guān)模型和場(chǎng)景信息特征實(shí)現(xiàn)對(duì)目標(biāo)的準(zhǔn)確定位是值得深入研究的問(wèn)題。

      2)目標(biāo)富含更多自身語(yǔ)義信息的特征提取。目前大多數(shù)算法將目標(biāo)特征作為一個(gè)整體與搜索區(qū)域進(jìn)行相似性計(jì)算。但是,在跟蹤目標(biāo)過(guò)程中往往會(huì)產(chǎn)生較大的旋轉(zhuǎn)、位姿變化和嚴(yán)重遮擋,對(duì)變化目標(biāo)進(jìn)行全局匹配的魯棒性不強(qiáng)。因此,在目標(biāo)跟蹤過(guò)程中,實(shí)現(xiàn)更多自身語(yǔ)義信息的嵌入,使目標(biāo)特征更加突出,研究目標(biāo)跟蹤過(guò)程中目標(biāo)的大小和寬高比的變化,逐步實(shí)現(xiàn)跟蹤框的自適應(yīng)性,是一項(xiàng)重要的研究?jī)?nèi)容。

      3)幀與幀之間的信息傳播。孿生網(wǎng)絡(luò)中的模板區(qū)域和搜索區(qū)域之間的信息嵌入是一個(gè)全局信息傳播過(guò)程,其中模板向搜索區(qū)域傳遞的信息是有限的,信息壓縮過(guò)多,最終會(huì)導(dǎo)致部分信息出現(xiàn)丟失,因此,需要考慮目標(biāo)跟蹤過(guò)程中幀與幀之間目標(biāo)部分的信息傳播,因?yàn)樵诟欉^(guò)程中目標(biāo)的部分特征相對(duì)于形狀和姿態(tài)的變化往往是不變的,更具有魯棒性,對(duì)于目標(biāo)的跟蹤定位會(huì)更加準(zhǔn)確。幀與幀之間目標(biāo)局部信息的傳播將成為準(zhǔn)確跟蹤定位的重要研究?jī)?nèi)容。

      4)跟蹤模型的通用性。在目標(biāo)跟蹤的多種實(shí)際場(chǎng)景中,通過(guò)大量數(shù)據(jù)集進(jìn)行訓(xùn)練,或者是通過(guò)特定數(shù)據(jù)集進(jìn)行離線(xiàn)訓(xùn)練,實(shí)現(xiàn)快速、準(zhǔn)確的學(xué)習(xí)到目標(biāo)的特征表示,從而實(shí)現(xiàn)準(zhǔn)確、快速定位跟蹤目標(biāo),以及利用跟蹤模型實(shí)現(xiàn)通用特征的提取等方面都值得深入研究。

      參考文獻(xiàn)/References:

      [1] XIAO T,LI H S,OUYANG W L,et al.Learning deep feature representations with domain guided dropout for person re-identification[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR):IEEE,2016:1249-1258.

      [2] LIU Q K,CHU Q,LIU B,et al.GSM:Graph similarity model for multi-object tracking[C]//Proceedings of the Twenty-Ninth Interna-tional Joint Conference on Artificial Intelligence.[S.l.]:[s.n.],2020:530-536.

      [3] KRISTAN M,MATAS J,LEONARDIS A,et al.The visual object tracking VOT2015 challenge results[C]//2015 IEEE International Conference on Computer Vision Workshop (ICCVW).[S.l.]:IEEE,2015:564-586.

      [4] TOSHEV A,SZEGEDY C.DeepPose:Human pose estimation via deep neural networks[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2014:1653-1660.

      [5] LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2015:3431-3440.

      [6] BERTINETTO L,VALMADRE J,HENRIQUES J F,et al.Fully-convolutional Siamese networks for object tracking[C]//Computer Vision-ECCV 2016 Workshops.Cham:Springer International Publishing,2016:850-865.

      [7] KUAI Y L,WEN G J,LI D D.Masked and dynamic Siamese network for robust visual tracking[J].Information Sciences,2019,503:169-182.

      [8] LI Xin,MA Chao,WU Baoyuan,et al.Target-aware deep tracking[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2019:1369-1378.

      [9] LI Peixia,CHEN Boyu,OUYANG Wanli,et al.GradNet:Gradient-guided network for visual object tracking[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).[S.l.]:IEEE,2019:6161-6170.

      [10]侯志強(qiáng),陳立琳,余旺盛,等.基于雙模板Siamese網(wǎng)絡(luò)的魯棒視覺(jué)跟蹤算法[J].電子與信息學(xué)報(bào),2019,41(9):2247-2255.

      HOU Zhiqiang,CHEN Lilin,YU Wangsheng,et al.Robust visual tracking algorithm based on Siamese network with dual templates[J].Journal of Electronics & Information Technology,2019,41(9):2247-2255.

      [11]FAN Heng,LING Haibin.Siamese cascaded region proposal networks for real-time visual tracking[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2019:7944-7953.

      [12]沈雁,王環(huán),戴瑜興.基于改進(jìn)深度孿生網(wǎng)絡(luò)的分類(lèi)器及其應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(10):19-25.

      SHEN Yan,WANG Huan,DAI Yuxing.Deep siamese network-based classifier and its application[J].Computer Engineering and Applications,2018,54(10):19-25.

      [13]LI Bo,YAN Junjie,WU Wei,et al.High performance visual tracking with Siamese region proposal network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2018:8971-8980.

      [14]REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.

      [15]TAO R,GAVVES E,SMEULDERS A W M.Siamese instance search for tracking[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2016:1420-1429.

      [16]VALMADRE J,BERTINETTO L,HENRIQUESJ,et al.End-to-end representation learning for correlation filter based tracking[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2017:5000-5008.

      [17]CAO Y,JI H B,ZHANG W B,et al.Visual tracking via dynamic weighting with pyramid-redetection based Siamese networks[J].Journal of Visual Communication and Image Representation,2019(65).DOI:10.1016/j.jvcir.2019.102635.

      [18]LI B,WU W,WANG Q,et al.SiamRPN++:Evolution of siamese visual tracking with very deep networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2019:4277-4286.

      [19]ZHU Zheng,WANG Qiang,Li Bo,et al.Distractor-aware siamese networks for visual object tracking[C]// European Conference on Computer Vision,Munich.[S.l.]:ECCV,2018:101-117.

      [20]HE A F,LUO C,TIAN X M,et al.A twofold Siamese network for real-time object tracking[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2018:4834-4843.

      [21]WANG Q,ZHANG L,BERTINETTO L,et al.Fast online object tracking and segmentation:A unifying approach[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2019:1328-1338.

      [22]陳云芳,吳懿,張偉.基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的目標(biāo)跟蹤算法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(6):10-18.

      CHEN Yunfang,WU Yi,ZHANG Wei.Survey of target tracking algorithm based on siamese network structure[J].Computer Engineering and Applications,2020,56(6):10-18.

      [23]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems.[S.l.]:Curran Associates Inc,2012:1097-1105.

      [24]DONG X P,SHEN J B.Triplet loss in Siamese network for object tracking[C]//Computer Vision-ECCV.Cham:Springer International Publishing,2018:472-488.

      [25]GUO Q,F(xiàn)ENG W,ZHOU C,et al.Learning dynamic Siamese network for visual object tracking[C]//2017 IEEE International Conference on Computer Vision (ICCV).[S.l.]:IEEE,2017:1781-1789.

      [26]ZHANG Yunhua,WANG Lijun,QI Jinqing,et al.Tructured Siamese network for real-time visual tracking[C]// European Conference on Computer Vision.Amsterdam.[S.l.]:ECCV,2018,351-366.

      [27]KAREN S ANDREW Z.Very deep convolutional networks for large-scale image recognition[C]// International Conference on Learning Representations.San Diego:ICLR,2015:1-14.

      [28]SZEGEDY C,LIU W,JIA YQ,et al.Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:1-9.

      [29]HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Amsterdam:IEEE,2016:770-778.

      [30]ZHANG Z P,PENG H W.Deeper and wider Siamese networks for real-time visual tracking[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:4586-4595.

      [31]才華,王學(xué)偉,朱新麗,等.基于動(dòng)態(tài)模板更新S的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法[J/OL].吉林大學(xué)學(xué)報(bào)(工學(xué)版).[2021-03-18].DOI:10.13229/j.cnki.jdxbgxb20200962.

      CAI Hua,WANG Xuewei,ZHU Xinli,et al.Siamese network target tracking algorithm based on dynamic template updating[J/OL].Journal of Jilin University(Engineering and Technology Edition).[2021-03-18].DOI:10.13229/j.cnki.jdxbgxb20200962.

      [32]馬素剛,趙祥模,侯志強(qiáng),等.一種基于ResNet網(wǎng)絡(luò)特征的視覺(jué)目標(biāo)跟蹤算法[J].北京郵電大學(xué)學(xué)報(bào),2020,43(2):129-134.

      MA Sugang,ZHAO Xiangmo,HOU Zhiqiang,et al.A visual object tracking algorithm based on features extracted by deep residual network[J].Journal of Beijing University of Posts and Telecommunications,2020,43(2):129-134.

      [33]楊梅,賈旭,殷浩東,等.基于聯(lián)合注意力孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法[J].儀器儀表學(xué)報(bào),2021,42(1):127-136.

      YANG Mei,JIA Xu,YIN Haodong,et al.Object tracking algorithm based on Siamese network with combined attention[J].Chinese Journal of Scientific Instrument,2021,42(1):127-136.

      [34]QIN X F,ZHANG Y P,CHANG H,et al.ACSiamRPN:Adaptive context sampling for visual object tracking[J].Electronics,2020,9(9):1528.

      [35]WANG Q,TENG Z,XING J L,et al.Learning attentions:Residual attentional Siamese network for high performance online visual tracking[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:4854-4863.

      [36]WANG F,JIANG M Q,QIANC,et al.Residual attention network for image classification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Hawaii:IEEE,2017:6450-6458.

      [37]HU J,SHEN L,SUN G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.

      [38]柏羅,張宏立,王聰.基于高效注意力和上下文感知的目標(biāo)跟蹤算法[J/OL].北京航空航天大學(xué)學(xué)報(bào).[2021-03-10].https://kns.cnki.net/kcms/detail/detail.aspx?FileName=BJHK20210308000&DbName=CAPJ2021.

      BAI Luo,ZHANG Hongli,WANG Cong.Target tracking algorithm based on efficient attention and context awareness[J/OL].Journal of Beijing University of Aeronautics and Astronautics.[2021-03-10].https://kns.cnki.net/kcms/detail/detail.aspx?FileName=BJHK-20210308000&DbName=CAPJ2021.

      [39]邵江南,葛洪偉.融合殘差連接與通道注意力機(jī)制的Siamese目標(biāo)跟蹤算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2021,33(2):260-269.

      SHAO Jiangnan,GE Hongwei.Siamese object tracking algorithm combining residual connection and channel attention mechanism[J].Journal of Computer-Aided Design & Computer Graphics,2021,33(2):260-269.

      [40]宋鵬,楊德東,李暢,等.整體特征通道識(shí)別的自適應(yīng)孿生網(wǎng)絡(luò)跟蹤算法[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2021,55(5):966-975.

      SONG Peng,YANG Dedong,LI CHANG,et al.An adaptive Siamese network tracking algorithm based on global feature channel recognition[J].Journal of Zhejiang University (Engineering Science),2021,55(5):966-975.

      [41]齊天卉,張輝,李嘉鋒,等.基于多注意力圖的孿生網(wǎng)絡(luò)視覺(jué)目標(biāo)跟蹤[J].信號(hào)處理,2020,36(9):1557-1566.

      QI Tianhui,ZHANG Hui,LI Jiafeng,et al.Siamese network with multi-attention map for visual object tracking[J].Journal of Signal Processing,2020,36(9):1557-1566.

      [42]程旭,崔一平,宋晨,等.基于時(shí)空注意力機(jī)制的目標(biāo)跟蹤算法[J].計(jì)算機(jī)科學(xué),2021,48(4):123-129.

      CHENG Xu,CUI Yiping,SONG Chen,et al.Object tracking algorithm based on temporal-spatial attention mechanism[J].Computer Science,2021,48(4):123-129.

      [43]ZHANG D L,LV J G,CHENG Z,et al.Siamese network combined with attention mechanism for object tracking[C]//The International Archives of the Photogrammetry,Remote Sensing and Spatial Information Sciences.[S.l]:[s.n.],2020:1315-1322.

      [44]ZHANG F B,WANG X F.Object tracking in Siamese network with attention mechanism and mish function[J].Academic Journal of Computing & Information Science,2021,4(1):75-81.

      [45]GAO J Y,ZHANG T Z,XU C S.Graph convolutional tracking[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:4644-4654.

      [46]YAN S J,XIONG Y J,LIN D H.Spatial temporal graph convolutional networks for skeleton-based action recognition[C].The 32nd AAAI Conference on Artificial Intelligence.USA:Artificial Inteligence,2018:7444-7452.

      [47]YU Y C,XIONG Y L,HUANG W L,et al.Deformable Siamese attention networks for visual object tracking[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2020:6727-6736.

      [48]GUO D Y,SHAO Y Y,CUI Y,et al.Graph attention tracking[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2021:9538-9547.

      [49]WANG J Q,CHEN K,YANG S,et al.Region proposal by guided anchoring[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2019:2960-2969.

      [50]尚欣茹,溫堯樂(lè),奚雪峰,等.孿生導(dǎo)向錨框RPN網(wǎng)絡(luò)實(shí)時(shí)目標(biāo)跟蹤[J].中國(guó)圖象圖形學(xué)報(bào),2021,26(2):415-424.

      SHANG Xinru,WEN Yaole,XI Xuefeng,et al.Target tracking system based on the Siamese guided anchor region proposal network[J].Journal of Image and Graphics,2021,26(2):415-424.

      [51]李明杰,馮有前,尹忠海,等.一種用于單目標(biāo)跟蹤的錨框掩碼孿生RPN模型[J].計(jì)算機(jī)工程,2019,45(9):216-221.

      LI Mingjie,F(xiàn)ENG Youqian,YIN Zhonghai,et al.An anchor mask siamese RPN model for single target tracking[J].Computer Engineering,2019,45(9):216-221.

      [52]LIU W,ANGUELOV D,ERHAND,et al.SSD:Single shot multibox detector[C]// Computer Vision-ECCV 2016.Las Vegas:Springer International Publishing,2016:21-37.

      [53]張睿,宋荊洲,李思昊.基于無(wú)錨點(diǎn)機(jī)制與在線(xiàn)更新的目標(biāo)跟蹤算法[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(20):210-220.

      ZHANG Rui,SONG Jingzhou,LI Sihao.Object tracking with anchor-free and online updating[J].Computer Engineering and Applications,2021,57(20):210-220.

      [54]HAN G,DU H,LIU J X,et al.Fully conventional anchor-free Siamese networks for object tracking[J].IEEE Access,2019,7:123934-123943.

      [55]杜花.基于全卷積無(wú)錨框?qū)\生網(wǎng)絡(luò)的目標(biāo)跟蹤算法研究[D].南京:南京郵電大學(xué),2020.

      DU Hua.Research on Object Tracking with Fully Conventional Anchor-free Siamese Network[D].Nanjing:Nanjing University of Posts and Telecommunications,2020.

      [56]GUO Dongyan,WANG Jun,CUI Ying,et al.SiamCAR:siamese fully convolutional classification and regression for visual tracking[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2020:6268-6276.

      [57]譚建豪,鄭英帥,王耀南,等.基于中心點(diǎn)搜索的無(wú)錨框全卷積孿生跟蹤器[J].自動(dòng)化學(xué)報(bào),2021,47(4):801-812.

      TAN Jianhao,ZHENG Yingshuai,WANG Yaonan,et al.AFST:Anchor-free fully convolutional Siamese tracker with searching center point[J].Acta Automatica Sinica,2021,47(4):801-812.

      [58]YUAN T T,YANG W Z,LI Q,et al.An anchor-free Siamese network with multi-template update for object tracking[J].Electronics,2021,10(9):1067.

      [59]TIAN Z,SHEN C H,CHENH,et al.FCOS:Fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Long Beach:IEEE,2019:9626-9635.

      [60]ZHOU Xingyi,WANG Dequan,PHILIPP K.Objects as Points[C]// IEEE Conference on Computer Vision and Pattern Recognition.Long Beach:CVPR,2019:1-12.

      3475501908271

      猜你喜歡
      目標(biāo)跟蹤特征提取深度學(xué)習(xí)
      基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
      電子制作(2019年15期)2019-08-27 01:12:00
      多視角目標(biāo)檢測(cè)與跟蹤技術(shù)的研究與實(shí)現(xiàn)
      一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
      基于改進(jìn)連續(xù)自適應(yīng)均值漂移的視頻目標(biāo)跟蹤算法
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      空管自動(dòng)化系統(tǒng)中航跡濾波算法的應(yīng)用與改進(jìn)
      科技視界(2016年5期)2016-02-22 12:25:31
      基于車(chē)牌識(shí)別的機(jī)混車(chē)道視頻測(cè)速算法
      乌兰察布市| 贡嘎县| 城市| 邻水| 华坪县| 景谷| 伽师县| 承德县| 黎川县| 临邑县| 嘉善县| 剑川县| 环江| 正宁县| 腾冲县| 甘泉县| 古交市| 五原县| 丰台区| 宜兰市| 贵港市| 鄢陵县| 巢湖市| 获嘉县| 潜山县| 南宫市| 台北县| 仪征市| 北川| 双牌县| 铜山县| 永靖县| 上林县| 安平县| 安龙县| 石家庄市| 新郑市| 循化| 杭锦旗| 宾川县| 铁力市|