• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      輕量化Transformer目標(biāo)跟蹤數(shù)據(jù)標(biāo)注算法

      2023-10-24 13:58:12趙潔袁永勝張鵬宇王棟
      中國圖象圖形學(xué)報(bào) 2023年10期
      關(guān)鍵詞:前向特征評(píng)估

      趙潔,袁永勝,張鵬宇,王棟

      大連理工大學(xué)信息與通信工程學(xué)院,大連 116024

      0 引言

      單目標(biāo)視覺跟蹤作為計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)研究之一,近年來已有了顯著的進(jìn)展(孟琭和楊旭,2019)?,F(xiàn)有的各類型跟蹤算法(王蒙蒙 等,2022)已在各個(gè)跟蹤數(shù)據(jù)集上展現(xiàn)出魯棒的跟蹤性能,例如基于孿生網(wǎng)絡(luò)的生成式方法SiamRPN++(Siamese region proposal network++)(Li 等,2019)、Ocean(object-aware anchor-free network)(Zhang 等,2020),辨別式跟蹤方法BTCF(background-temporal-aware correlation filter)(朱建章 等,2019)、ATOM(accurate tracking by overlap maximization)(Danelljan 等,2019)、DiMP(discriminative model prediction)(Bhat等,2019),以及最新的基于Transformer 模型的方法TransT(Transformer tracking)(Chen 等,2021)、Mix-Former(mixed Transformer)(Cui 等,2022)。這些跟蹤算法多是基于深度模型,需要大規(guī)模的有精確目標(biāo)框標(biāo)注的視頻數(shù)據(jù)用于訓(xùn)練以保證模型的高性能跟蹤。然而,人工逐幀標(biāo)注目標(biāo)框會(huì)耗費(fèi)大量的人力資源和時(shí)間成本,現(xiàn)有的可用于跟蹤模型訓(xùn)練的大規(guī)模視頻數(shù)據(jù)集仍然存在很大的缺口,這成為跟蹤性能進(jìn)一步提升的瓶頸之一。因此如何高效地生成高質(zhì)量的大規(guī)模視頻數(shù)據(jù)標(biāo)注成為該領(lǐng)域亟需解決的問題。

      現(xiàn)有的大規(guī)模跟蹤數(shù)據(jù)集中,LaSOT(largescale single object tracking)(Fan 等,2019)、GOT-10k(generic object tracking benchmark)(Huang 等,2021)和TrackingNet(large-scale tracking dataset)(Müller等,2018)最常用于跟蹤算法中的模型訓(xùn)練。其中,LaSOT 和GOT-10k 均使用逐幀人工標(biāo)注。LaSOT 包含1 400 個(gè)長序列,共70 類,超過3.5 M 視頻幀中的目標(biāo)框由人工標(biāo)注。GOT-10k 包含10 000 個(gè)短視頻序列,共有超過1.5 M的人工標(biāo)注目標(biāo)框。而TrackingNet 雖然包含超過30 000 個(gè)序列,但其使用稀疏人工標(biāo)注,即每秒標(biāo)注一幀,其他幀的目標(biāo)框通過跟蹤器STAPLECA(Mueller等,2017)生成。由于沒有跟蹤結(jié)果的質(zhì)量篩選機(jī)制,該數(shù)據(jù)集存在標(biāo)注質(zhì)量不可靠的局限性,一定程度上影響跟蹤模型的訓(xùn)練性能。由于人工標(biāo)注的昂貴成本,目前能夠用于跟蹤模型訓(xùn)練的高質(zhì)量大規(guī)模視頻數(shù)據(jù)集仍不能滿足魯棒性跟蹤算法的需求。

      為減輕視頻標(biāo)注的人力和時(shí)間成本,目前已有若干方法嘗試實(shí)現(xiàn)視頻的自動(dòng)目標(biāo)框標(biāo)注?,F(xiàn)有方案的基本思路通常是先稀疏標(biāo)注視頻序列的若干關(guān)鍵幀,再通過插值的方式去自動(dòng)補(bǔ)全其他幀的目標(biāo)框標(biāo)注。其中,插值方式主要分為3 類。1)基于幾何信息的線性插值,例如LabelMe(Yuen 等,2009)。該類方法假定目標(biāo)運(yùn)動(dòng)模式單一,僅依據(jù)目標(biāo)的幾何線索來獲取其他幀的目標(biāo)標(biāo)注;2)基于視覺信息的復(fù)雜插值,例如,VATIC(video annotation tool from Irvine,California)(Vondrick 等,2010)通過提取目標(biāo)實(shí)體的視覺特征,利用更復(fù)雜的動(dòng)態(tài)插值方式生成目標(biāo)標(biāo)注;3)基于現(xiàn)有跟蹤算法的插值,例如,TrackingNet 每隔1 s 標(biāo)注1 幀,并利用跟蹤器STAPLECA獲得每一段子序列的前向反向跟蹤結(jié)果,最終通過簡單的基于時(shí)序的權(quán)重結(jié)合前向和反向的軌跡,獲得最終的視頻目標(biāo)標(biāo)注。此外,根據(jù)關(guān)鍵幀的獲取方式,現(xiàn)有的視頻標(biāo)注方法可以分為兩類,一類是采用固定的幀率進(jìn)行人工稀疏標(biāo)注,例如LabelMe,TrackingNet 等;另一類則通過算法去預(yù)測(cè)序列的關(guān)鍵幀,從而達(dá)到更好的插值效果。例如,Vondrick 和Ramanan(2011)提出了基于主動(dòng)學(xué)習(xí)的視頻標(biāo)注方法,該方法通過迭代動(dòng)態(tài)決定需要由人工標(biāo)注的幀。而Kuznetsova 等人(2021)設(shè)計(jì)了一個(gè)排序模型,預(yù)測(cè)剩余幀的重要程度,分?jǐn)?shù)越高則表示標(biāo)注該幀將會(huì)帶來更高的插值性能增益。

      盡管不同的插值方式和關(guān)鍵幀的捕獲方案會(huì)在一定程度上提高視頻標(biāo)注的質(zhì)量和效率,但上述方法均未考慮標(biāo)注的校正問題。當(dāng)面對(duì)復(fù)雜的跟蹤場景時(shí),例如目標(biāo)運(yùn)動(dòng)模式復(fù)雜、存在干擾物、背景復(fù)雜或目標(biāo)受到局部遮擋等,現(xiàn)有的跟蹤器及其他插值方式均有可能導(dǎo)致標(biāo)注結(jié)果不可靠。設(shè)計(jì)有效的標(biāo)注質(zhì)量評(píng)估模塊,并對(duì)自動(dòng)生成的標(biāo)注進(jìn)行人工校正,將進(jìn)一步提升自動(dòng)標(biāo)注的準(zhǔn)確性和可靠性。針對(duì)這一問題,VASR(video annotation via selection and refinement)(Dai 等,2021)提出了一個(gè)全新的基于選擇和細(xì)化的自動(dòng)標(biāo)注流程,其中選擇模塊用于對(duì)前向和反向的跟蹤結(jié)果進(jìn)行質(zhì)量評(píng)估,根據(jù)跟蹤結(jié)果的分?jǐn)?shù)選擇最終的目標(biāo)標(biāo)注,并篩選出跟蹤錯(cuò)誤的幀進(jìn)行人工校正。細(xì)化模塊則引入了幾何參數(shù)預(yù)測(cè)模型來生成更準(zhǔn)確的目標(biāo)框標(biāo)注。該方法雖然能夠有效提升標(biāo)注質(zhì)量,但存在以下不足。首先,該方法的模型訓(xùn)練與執(zhí)行前向反向跟蹤的跟蹤方法強(qiáng)綁定,并依賴現(xiàn)有的方法Alpha-Refine(Yan 等,2021b)生成目標(biāo)分割掩碼,標(biāo)注生成過程復(fù)雜且沒有通用性;其次,該工作選擇基于在線更新的速度較低的跟蹤算法DiMP進(jìn)行插值,并且需要額外生成目標(biāo)分割掩碼,導(dǎo)致生成標(biāo)注的過程效率較低,對(duì)于LaSOT量級(jí)的數(shù)據(jù)集,需要約兩周時(shí)間。

      針對(duì)上述不足,本文提出一個(gè)泛化性強(qiáng)的輕量化視頻自動(dòng)標(biāo)注方法,并引入Transformer 模型融合基于視覺和運(yùn)動(dòng)的時(shí)序信息,實(shí)現(xiàn)對(duì)初始的前向反向跟蹤結(jié)果的質(zhì)量評(píng)估,并進(jìn)一步優(yōu)化目標(biāo)框標(biāo)注。本文提出的方法在訓(xùn)練階段與具體的跟蹤算法進(jìn)行解耦,能夠充分利用現(xiàn)有的輕量化跟蹤器,例如STARK-Lightning(spatial-temporal Transformer)(Yan等,2021a)、HCAT(hierarchical cross-attention Transformer)(Chen 等,2022)等,實(shí)現(xiàn)簡單且高效的視頻自動(dòng)標(biāo)注。

      本文主要貢獻(xiàn)如下:1)設(shè)計(jì)了一個(gè)基于Transformer 模型的輕量化視頻標(biāo)注模型TLNet(Transformer-based label network),該模型包含質(zhì)量評(píng)估子網(wǎng)絡(luò)和回歸子網(wǎng)絡(luò),通過Transformer 模型來融合時(shí)序的視覺和目標(biāo)運(yùn)動(dòng)信息,結(jié)合前反向的跟蹤結(jié)果,對(duì)每一幀進(jìn)行標(biāo)注質(zhì)量評(píng)估,并進(jìn)一步優(yōu)化標(biāo)注目標(biāo)框。該模型與具體跟蹤算法解耦,具有強(qiáng)泛化性。2)提出一個(gè)簡單高效的視頻標(biāo)注算法,能夠應(yīng)用現(xiàn)有的任意跟蹤器,包括高速的輕量化跟蹤器,對(duì)稀疏標(biāo)注序列的其他幀進(jìn)行插值標(biāo)注,使用TLNet 評(píng)估每一幀的標(biāo)注質(zhì)量,篩選出低質(zhì)量幀進(jìn)行人工標(biāo)注,并自動(dòng)優(yōu)化剩余幀的目標(biāo)框,保證了標(biāo)注的質(zhì)量和效率。3)在LaSOT 和TrackingNet 數(shù)據(jù)集上生成自動(dòng)標(biāo)注,驗(yàn)證了TLNet 自動(dòng)標(biāo)注算法的有效性和高效性。與人工逐幀標(biāo)注相比,TLNet 生成的自動(dòng)標(biāo)注在LaSOT數(shù)據(jù)集上節(jié)省超過91%的人力成本,并使最終標(biāo)注的平均重疊率(mean intersection over union,mIoU)達(dá)到0.871,完整的自動(dòng)標(biāo)注過程僅需約43 h。4)在TrackingNet數(shù)據(jù)集上自動(dòng)生成標(biāo)注,并重新訓(xùn)練了3 種跟蹤算法,在3 個(gè)跟蹤數(shù)據(jù)集上進(jìn)行性能測(cè)試與評(píng)估。實(shí)驗(yàn)表明,相較于TrackingNet 的原始標(biāo)注,使用本文自動(dòng)生成的標(biāo)注能夠訓(xùn)練出更加魯棒的跟蹤模型。

      1 相關(guān)技術(shù)

      1.1 Transformer模型

      Transformer 模型(Vaswani 等,2017)由于其強(qiáng)大的捕獲全局語義信息的能力,廣泛應(yīng)用于序列任務(wù),例如自然語言處理(Devlin 等,2019)。近年來,Transformer 模型逐漸被挖掘出處理視覺信息的強(qiáng)大能力,取代卷積神經(jīng)網(wǎng)絡(luò),應(yīng)用于計(jì)算機(jī)視覺的各個(gè)領(lǐng)域,例如圖像分類(Dosovitskiy 等,2021)、目標(biāo)檢測(cè)(Carion 等,2020)、視覺跟蹤(Chen 等,2021)。該模型包含編碼器和解碼器,圖1 展示了編碼器和解碼器共有的基本單元結(jié)構(gòu),主要由多頭注意力模塊(multi-head attention)和前饋神經(jīng)網(wǎng)絡(luò)(feedforward network)兩個(gè)組件構(gòu)成。每個(gè)組件的輸出均采用了殘差連接(He 等,2016)和層標(biāo)準(zhǔn)化(Ba等,2016)來保證模型的收斂。多頭注意力模塊(Attention)的核心操作為

      圖1 Transformer模型基本單元結(jié)構(gòu)Fig.1 Architecture of Transformer model

      式中,對(duì)于輸入的維度為dk的向量Q、K 和V 分布表示query、key、value,計(jì)算K 和Q 的相似性權(quán)重并加權(quán)至V。前饋神經(jīng)網(wǎng)絡(luò)則由兩層線性層和非線性激活函數(shù)(rectified linear unit,ReLU)構(gòu)成。此外,引入位置編碼用于捕捉序列的位置信息。

      最常見的基于Transformer模型的圖像處理方式是將圖像分割為若干圖像塊并按照空間位置排序,每一個(gè)圖像塊作為一個(gè)詞向量(token)輸入Transformer 模型,通過融合各圖像塊提取圖像特征,用于下游任務(wù)。與分割圖像塊方式不同的是,本文嘗試充分利用Transformer 模型處理序列信息的能力,將每一個(gè)視頻幀的目標(biāo)作為一個(gè)整體,結(jié)合其視覺特征和運(yùn)動(dòng)特征并作為一個(gè)詞向量,引入Transformer模型來挖掘連續(xù)T幀的目標(biāo)特征,學(xué)習(xí)目標(biāo)的外觀變化與運(yùn)動(dòng)模式。

      1.2 像素級(jí)互相關(guān)操作

      互相關(guān)操作(cross-correlation)廣泛應(yīng)用于視覺跟蹤領(lǐng)域,尤其是基于孿生網(wǎng)絡(luò)的跟蹤算法,例如SiamFC(fully-convolutional Siamese network)(Bertinetto 等,2016),SiamRPN(Siamese region proposal network)(Li 等,2018),SiamFC++(fully-convolutional Siamese network++)(Xu等,2020)等。對(duì)初始幀的模板特征Z∈與當(dāng)前幀的搜索區(qū)域特征X∈執(zhí)行互相關(guān)操作,度量兩特征的相似性,并輸出對(duì)應(yīng)響應(yīng)圖,其中高響應(yīng)值處表示搜索區(qū)域中的前景,反之則為背景。C、H、W分別表示對(duì)應(yīng)特征向量的通道數(shù)、高度和寬度。在本文中,各幀目標(biāo)的視覺信息將由各幀的搜索區(qū)域與模板圖像的互相關(guān)響應(yīng)圖表示。之后該響應(yīng)圖與目標(biāo)運(yùn)動(dòng)信息結(jié)合,共同表示單幀的目標(biāo)特征。

      受Alpha-Refine(Yan 等,2021b)啟發(fā),為最大程度保留空間信息,實(shí)現(xiàn)后續(xù)精確的目標(biāo)框預(yù)測(cè),本文采用像素級(jí)互相關(guān)操作(pixel-wise correlation)(Wang等,2019)。首先將模板特征Z分解為HzWz個(gè)特征向量Zj∈RC×1×1,將其作為卷積核分別與搜索區(qū)域特征X 執(zhí)行互相關(guān)操作,最終獲得響應(yīng)圖M∈,該過程可表示為

      2 視頻自動(dòng)標(biāo)注算法

      2.1 視頻標(biāo)注生成策略

      現(xiàn)有的視頻標(biāo)注算法通常通過稀疏標(biāo)注關(guān)鍵幀并插值的方式實(shí)現(xiàn)視頻逐幀標(biāo)注。由于缺少對(duì)標(biāo)注質(zhì)量的評(píng)估校正模塊,生成的視頻標(biāo)注往往可靠性低。此外,通過與人工交互迭代的方式確認(rèn)關(guān)鍵幀會(huì)使標(biāo)注過程更加煩瑣和冗余。為解決上述問題,受VASR 方法啟發(fā),本文提出了一個(gè)簡單高效的視頻標(biāo)注算法,通過引入本文設(shè)計(jì)的端到端的基于Transformer的輕量化視頻標(biāo)注模型TLNet,對(duì)初始的目標(biāo)標(biāo)注進(jìn)行質(zhì)量評(píng)估和優(yōu)化。相較于現(xiàn)有的視頻標(biāo)注算法,該算法主要有以下優(yōu)勢(shì)。首先,減少了標(biāo)注過程中人工的參與,簡化了標(biāo)注流程;其次,強(qiáng)泛化性的輕量模型設(shè)計(jì)和輕量化跟蹤器的選擇,提升了視頻標(biāo)注的效率;此外,引入質(zhì)量評(píng)估模塊,保證了最終生成標(biāo)注的可靠性。

      本文提出的視頻標(biāo)注算法的具體流程圖如圖2所示。首先,以固定的幀率(本文采用30 幀)進(jìn)行人工稀疏標(biāo)注。序列將被切分為若干片段,每一個(gè)片段的首尾幀包含人工精確標(biāo)注;之后選擇任意跟蹤器對(duì)每一個(gè)片段執(zhí)行前向和反向跟蹤,生成前向和反向跟蹤結(jié)果,并作為剩余未標(biāo)注幀的初始標(biāo)注;本文提出的TLNet 將根據(jù)包含目標(biāo)視覺和運(yùn)動(dòng)模式的序列信息,對(duì)每一幀的跟蹤狀態(tài)進(jìn)行質(zhì)量評(píng)估,根據(jù)質(zhì)量分?jǐn)?shù)篩選出跟蹤失敗的幀;失敗幀將反饋給標(biāo)注者進(jìn)行人工標(biāo)注,而其他可靠幀將通過TLNet 進(jìn)行進(jìn)一步優(yōu)化,基于前向反向的初始標(biāo)注,生成更加精確的目標(biāo)框標(biāo)注。通過整合人工標(biāo)注和優(yōu)化后的自動(dòng)標(biāo)注,最終得到可靠的逐幀視頻標(biāo)注。

      圖2 視頻標(biāo)注流程圖Fig.2 Procedure of generating video annotations

      值得注意的是,本文設(shè)計(jì)的TLNet 模型不依賴具體的跟蹤器,泛化性強(qiáng),可選擇任意輕量化跟蹤器高效率地生成前向反向初始標(biāo)注;其次,本文的質(zhì)量評(píng)估模塊是幀級(jí)別,而非目標(biāo)框級(jí)別,即本文針對(duì)當(dāng)前幀的初始前向反向跟蹤結(jié)果,并綜合考慮前后幀的目標(biāo)視覺與運(yùn)動(dòng)時(shí)序信息,給出當(dāng)前幀整體的跟蹤狀態(tài)質(zhì)量評(píng)估,而不是分別對(duì)前向和反向跟蹤結(jié)果進(jìn)行質(zhì)量評(píng)估。該方案能夠篩選出序列中挑戰(zhàn)難度大的幀(即易跟蹤失敗的幀),執(zhí)行人工標(biāo)注,從而保障了標(biāo)注的可靠性。

      2.2 網(wǎng)絡(luò)模型

      本文設(shè)計(jì)的視頻標(biāo)注模型TLNet 框架如圖3 所示。該模型通過一個(gè)Transformer時(shí)序網(wǎng)絡(luò)融合來自前向跟蹤和反向跟蹤的目標(biāo)視覺與運(yùn)動(dòng)模式的序列信息,回歸分支和質(zhì)量評(píng)估分支將分別處理融合后的特征,給出精確的目標(biāo)框預(yù)測(cè)及每一幀跟蹤狀態(tài)的質(zhì)量分?jǐn)?shù)。TLNet可分為3個(gè)模塊,分別是目標(biāo)多維度特征提取模塊,Transformer 時(shí)序特征融合模塊和預(yù)測(cè)分支。

      圖3 視頻標(biāo)注模型TLNet框架圖Fig.3 Framework of the proposed video annotation model TLNet

      2.2.1 目標(biāo)多維度特征提取

      輸入單幀模板圖像、連續(xù)多幀的前向和反向搜索區(qū)域圖像和對(duì)應(yīng)的前向反向跟蹤結(jié)果,該模塊負(fù)責(zé)提取出連續(xù)多幀的目標(biāo)的多維度特征,即視覺特征和運(yùn)動(dòng)特征。

      對(duì)于視覺特征,本文通過執(zhí)行模板與搜索區(qū)域的像素級(jí)互相關(guān)操作,生成目標(biāo)的響應(yīng)圖,并將其作為目標(biāo)的視覺特征。具體來講,模板圖像和前向反向搜索區(qū)域圖像將分別通過骨干網(wǎng)絡(luò)提取出模板特征Z、連續(xù)T幀的前向搜索區(qū)域特征和反向搜索區(qū)域特征Z分別與Xf和Xb執(zhí)行式(2)所示的像素級(jí)互相關(guān)操作,生成對(duì)應(yīng)的前向反向響應(yīng)圖Mf和Mb。通過像素級(jí)互相關(guān)操作,響應(yīng)圖記錄了各搜索區(qū)域中目標(biāo)與模板的視覺匹配度,可反映目標(biāo)的外觀變化。為挖掘響應(yīng)圖中的重要視覺信息,并減少計(jì)算量,實(shí)現(xiàn)輕量化設(shè)計(jì),響應(yīng)圖將輸入響應(yīng)圖網(wǎng)絡(luò)(response map network,MapNet),并輸出對(duì)應(yīng)的序列前向和反向視覺特征向量,表示為其 中dv表示視覺特征向量的維度。MapNet 由3 層卷積核大小為3 的卷積層組成,每個(gè)卷積層后連接一個(gè)ReLU激活層和池化層。

      對(duì)于運(yùn)動(dòng)特征,本文將序列的前向反向跟蹤結(jié)果,即連續(xù)T幀的目標(biāo)框坐標(biāo)進(jìn)行歸一化,并輸入運(yùn)動(dòng)線性層提取對(duì)應(yīng)的前向反向運(yùn)動(dòng)特征向量,表示為,其中dm表示運(yùn)動(dòng)特征向量的維度。該運(yùn)動(dòng)特征向量記錄了目標(biāo)的運(yùn)動(dòng)模式和幾何變化。

      2.2.2 Transformer時(shí)序特征融合

      Transformer 在視覺任務(wù)中往往切割圖像塊并將其作為一個(gè)詞向量,通過融合不同圖像塊特征提取出具有辨別性的圖像特征。與此不同的是,本文引入序列維度,將單幀圖像的特征作為一個(gè)整體,挖掘不同幀圖像之間的融合特征。即本文通過Transformer 模型來實(shí)現(xiàn)序列特征及前向反向特征的融合。該模型參照TransT 結(jié)構(gòu)設(shè)計(jì),由自注意力模塊(self-attention,SA)和交叉注意力模塊(crossattention,CA)組成。兩個(gè)模塊的結(jié)構(gòu)圖如圖4所示。其中SA通過計(jì)算自注意力,在時(shí)序維度上分別融合各自的特征,而CA 則通過計(jì)算交叉注意力來融合前向和反向的特征,最終生成雙向時(shí)序融合特征。注意力計(jì)算方式如式(1)所示。兩個(gè)SA模塊和兩個(gè)CA 模塊共同構(gòu)成一個(gè)融合單元(圖3 中虛線框),該融合單元重復(fù)執(zhí)行N次,并在最后接入一個(gè)CA模塊來融合兩個(gè)分支的特征,解碼出最終的融合特征,該特征融合了時(shí)序和方向兩個(gè)維度上的目標(biāo)信息。

      圖4 SA模塊和CA模塊結(jié)構(gòu)圖Fig.4 Architecture of the SA module and CA module

      為了在特征融合過程中保持序列的順序性,對(duì)每一幀定義位置編碼并添加至對(duì)應(yīng)目標(biāo)特征向量中。位置編碼(positional encoding,PE)定義為

      式中,dmodel表示向量維度,pos表示位置。

      2.2.3 預(yù)測(cè)分支

      Transformer 時(shí)序網(wǎng)絡(luò)生成的融合特征將分別輸入質(zhì)量評(píng)估和回歸分支中。前者輸出每一幀跟蹤狀態(tài)的質(zhì)量分?jǐn)?shù),而后者則結(jié)合時(shí)序的前向和反向跟蹤結(jié)果,輸出更準(zhǔn)確的目標(biāo)框坐標(biāo)。兩個(gè)分支均由3 個(gè)全連接層實(shí)現(xiàn),除最后一層外,其余每個(gè)全連接層后連接一個(gè)ReLU 層。其中質(zhì)量評(píng)估分支為每幀輸出1 維向量,表示質(zhì)量分?jǐn)?shù);而回歸分支輸出4 維向量,分別表示預(yù)測(cè)目標(biāo)左上角和右下角坐標(biāo)。

      將質(zhì)量評(píng)估分支和回歸分支設(shè)計(jì)為兩個(gè)獨(dú)立的子網(wǎng)絡(luò),即各自訓(xùn)練獨(dú)立的任務(wù),并最終生成獨(dú)立的模型參數(shù),多維度特征提取模塊和Transformer 時(shí)序網(wǎng)絡(luò)的參數(shù)不共享。通過實(shí)驗(yàn)驗(yàn)證了與共同訓(xùn)練兩個(gè)子任務(wù)并共享特征提取及特征融合階段的模型參數(shù)相比,分離兩個(gè)子網(wǎng)絡(luò)并分別訓(xùn)練會(huì)帶來更高的性能收益。因此本文采用后者。猜測(cè)導(dǎo)致這一現(xiàn)象的原因是兩個(gè)任務(wù)側(cè)重點(diǎn)不同,因此需要從不同角度提取并融合特征。其中,質(zhì)量評(píng)估分支的目的是評(píng)估當(dāng)前幀的跟蹤狀態(tài)是否可靠,進(jìn)而篩選出跟蹤失敗的幀,因此視覺特征將占據(jù)主導(dǎo)作用,運(yùn)動(dòng)特征則作為輔助用來檢測(cè)運(yùn)動(dòng)模式是否異常。而回歸分支則需要依賴前向和反向的運(yùn)動(dòng)特征回歸出更準(zhǔn)確的目標(biāo)框,視覺特征在其中主要起到權(quán)重分配的作用。

      2.3 損失函數(shù)

      2.3.1 質(zhì)量評(píng)估子網(wǎng)絡(luò)

      對(duì)于當(dāng)前幀的跟蹤狀態(tài)質(zhì)量評(píng)估將基于前向與反向跟蹤結(jié)果與真值目標(biāo)框的重疊率IoU。參照VASR方法,定義單個(gè)跟蹤結(jié)果的質(zhì)量分?jǐn)?shù)為

      式中,α和β為控制參數(shù),其設(shè)置與VASR 相同,分別為50和2。相較于IoU,非線性函數(shù)f(IoU)將分?jǐn)?shù)區(qū)間從[0,1]擴(kuò)展至(-1,1),能更辨別性地表示不同跟蹤結(jié)果的質(zhì)量。由于本文嘗試根據(jù)前向(forward)和反向(backward)的跟蹤結(jié)果去評(píng)估單幀的跟蹤狀態(tài)質(zhì)量,并基于此篩選出挑戰(zhàn)難度大的難跟蹤幀,因此對(duì)于前向和反向跟蹤都失敗的幀,被賦予低質(zhì)量分?jǐn)?shù);而對(duì)于單向(前向或反向)跟蹤失敗的幀,由于仍存在可靠的單向跟蹤結(jié)果,后續(xù)仍可根據(jù)回歸子網(wǎng)絡(luò)回歸出精確目標(biāo)框,因此基于跟蹤成功的單向結(jié)果,仍被賦予較高分?jǐn)?shù)。本文定義單幀的質(zhì)量分?jǐn)?shù)為前向和反向質(zhì)量分?jǐn)?shù)的最大值,該分?jǐn)?shù)能夠有效度量單幀的跟蹤狀態(tài),低分?jǐn)?shù)則表明該幀的前反向跟蹤都會(huì)失敗,為高難度幀,需要由人工標(biāo)注。具體為

      式中,下角f、b分別表示forward和backward。

      輸入T幀的序列數(shù)據(jù),質(zhì)量評(píng)估子網(wǎng)絡(luò)會(huì)預(yù)測(cè)對(duì)應(yīng)幀的質(zhì)量分?jǐn)?shù){gi}i=1,2,…,T,該網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)采用均方誤差損失,定義為

      2.3.2 回歸子網(wǎng)絡(luò)

      結(jié)合gIoU(generalized intersection over union)損失LgIoU(Rezatofighi 等,2019)和L1損失來訓(xùn)練回歸子網(wǎng)絡(luò)?;貧w分支損失函數(shù)定義為

      式中,bi和分別表示預(yù)測(cè)的目標(biāo)框和真值目標(biāo)框。λ1和λ2為兩個(gè)超參數(shù),分別設(shè)置為2.0和5.0。

      3 實(shí)驗(yàn)與分析

      3.1 實(shí)現(xiàn)細(xì)節(jié)與評(píng)估指標(biāo)

      3.1.1 模型設(shè)計(jì)

      為高效地生成視頻標(biāo)注,本文將TLNet 設(shè)計(jì)為輕量化模型。具體來說,骨干網(wǎng)絡(luò)采用ResNet18(residual network)(He 等,2016),其中,第4 階段下采樣層的卷積步長更改為1,并輸出第4階段的特征圖 。模板及雙向搜索區(qū)域特征圖∈RC×H×W,其中,H,W=H0,W0為輸入圖像的尺寸,C=256。通過互相關(guān)操作及Map-Net 生成的視覺特征向量維度dv=64,通過運(yùn)動(dòng)線性層提取的運(yùn)動(dòng)特征向量維度dm=16,結(jié)合兩特征向量,最終得到維度為64 的,并輸入Transformer 時(shí)序網(wǎng)絡(luò)。對(duì)于Transformer 時(shí)序網(wǎng)絡(luò),本文設(shè)置多頭注意力機(jī)制的頭(head)數(shù)目為2,前饋神經(jīng)網(wǎng)絡(luò)維度為256,融合單元的層數(shù)N=4。

      3.1.2 訓(xùn)練設(shè)置

      TLNet 在大規(guī)模跟蹤數(shù)據(jù)集LaSOT 和GOT-10k的訓(xùn)練集上訓(xùn)練,并生成LaSOT 和TrackingNet 訓(xùn)練數(shù)據(jù)集的標(biāo)注。對(duì)于TrackingNet 數(shù)據(jù)集,使用LaSOT 和GOT-10k 所有序列進(jìn)行訓(xùn)練;而對(duì)于LaSOT 數(shù)據(jù)集,為保證實(shí)驗(yàn)公平性,將LaSOT 訓(xùn)練集隨機(jī)分割為2 個(gè)子集,使用一個(gè)子集和GOT-10k 訓(xùn)練模型,并生成另一個(gè)子集的數(shù)據(jù)集標(biāo)注。本文采用稀疏度為30 的人工標(biāo)注(即數(shù)據(jù)集官方標(biāo)注),并選用輕量化跟蹤器HCAT 生成每個(gè)片段的前向反向跟蹤結(jié)果。訓(xùn)練過程中,隨機(jī)選擇一個(gè)序列中人工標(biāo)注的幀裁剪模板圖像,并隨機(jī)選擇連續(xù)T幀,基于前向和反向跟蹤結(jié)果裁剪對(duì)應(yīng)的搜索區(qū)域圖像,其中序列長度T=20。為展現(xiàn)更多搜索區(qū)域中目標(biāo)的細(xì)節(jié),實(shí)現(xiàn)精確的目標(biāo)框預(yù)測(cè),模板圖像和搜索圖像均采用2 倍目標(biāo)框范圍進(jìn)行裁剪,并縮放至統(tǒng)一大小,H0=W0=128。

      本文算法使用深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn),并使用單個(gè)NVIDIA GTX2080Ti GPU 進(jìn)行訓(xùn)練和測(cè)試。采用AdamW(Loshchilov 和Hutter,2019)優(yōu)化器進(jìn)行模型訓(xùn)練,初始學(xué)習(xí)率為10-4,每訓(xùn)練20 次降低10 倍,共迭代訓(xùn)練70 次。批大?。╞atch size)設(shè)置為16。

      3.1.3 評(píng)估指標(biāo)

      由于LaSOT數(shù)據(jù)集的官方標(biāo)注為人工逐幀精確標(biāo)注,而TrackingNet 則為跟蹤器插值方式生成的標(biāo)注,存在噪聲。因此本文設(shè)計(jì)兩個(gè)標(biāo)準(zhǔn)分別評(píng)估兩個(gè)數(shù)據(jù)集上生成的標(biāo)注質(zhì)量。

      對(duì)于LaSOT 數(shù)據(jù)集,本文采用與真值目標(biāo)框的平均重疊率mIoU 來評(píng)估數(shù)據(jù)集標(biāo)注質(zhì)量。此外,對(duì)于質(zhì)量評(píng)估子網(wǎng)絡(luò),采用準(zhǔn)確率(accurancy,Acc)、召回率Recall和特異度(true negative rate,TNR)來評(píng)估預(yù)測(cè)質(zhì)量分?jǐn)?shù)。Acc 表示正確分類的幀數(shù)占總幀數(shù)的比例,Recall表示跟蹤成功的幀數(shù)中正確識(shí)別的比例,TNR表示跟蹤失敗的幀數(shù)中被識(shí)別出來的比例。

      由于TrackingNet 數(shù)據(jù)集的官方標(biāo)注存在噪聲,導(dǎo)致上述評(píng)價(jià)標(biāo)準(zhǔn)不可靠,因此本文采用跟蹤指標(biāo)評(píng)估TrackingNet 數(shù)據(jù)集上生成的標(biāo)注質(zhì)量。即使用TrackingNet 官方標(biāo)注和本文自動(dòng)生成的標(biāo)注分別重訓(xùn)現(xiàn)有的跟蹤算法,并在不同的跟蹤數(shù)據(jù)集上測(cè)試訓(xùn)練出的模型性能。本文選擇3 個(gè)不同的跟蹤算法進(jìn)行重訓(xùn),分別是ATOM(Danelljan 等,2019)、DiMP50(Bhat 等,2019)和PrDiMP50(probabilistic regression DiMP)(Danelljan 等,2020),并分別在LaSOT、TrackingNet 和GOT-10k 數(shù)據(jù)集上進(jìn)行測(cè)試與評(píng)估。

      3.2 LaSOT數(shù)據(jù)集標(biāo)注評(píng)估

      本文以輕量化跟蹤算法HCAT 為例,生成LaSOT 訓(xùn)練數(shù)據(jù)集的標(biāo)注。標(biāo)注過程共分為3 個(gè)階段,首先對(duì)稀疏標(biāo)注(每隔30 幀標(biāo)注,共3.3%標(biāo)注幀)分割的每個(gè)片段執(zhí)行前向和反向跟蹤,生成初始的標(biāo)注結(jié)果;然后通過本文質(zhì)量評(píng)估子網(wǎng)絡(luò)評(píng)估每一幀的標(biāo)注質(zhì)量,并通過閾值篩選出跟蹤失敗幀,進(jìn)行人工標(biāo)注;最后執(zhí)行本文回歸子網(wǎng)絡(luò),對(duì)目標(biāo)框進(jìn)行優(yōu)化,生成最終的數(shù)據(jù)集標(biāo)注。表1展示了各階段生成的標(biāo)注的質(zhì)量評(píng)估結(jié)果。其中,mIoU 表示與真值目標(biāo)框的平均重疊率,Rate<0.3、Rate<0.5和Rate>0.7分別表示重疊率低于0.3、低于0.5 和高于0.7 的幀數(shù)占總幀數(shù)的比例。由前向反向跟蹤生成的初始標(biāo)注的平均重疊率為0.824。在經(jīng)過質(zhì)量篩選(其中,5.4%的幀被判定為跟蹤失敗,并進(jìn)行人工標(biāo)注)后,mIoU 提升4%,重疊率低于0.3 和0.5 的幀分別下降至1.41%和2.52%。經(jīng)過目標(biāo)框優(yōu)化后,最終的數(shù)據(jù)集標(biāo)注的mIoU 提升至0.871,重疊率高于0.7 的幀數(shù)提升至92.9%。由此可見,本文提出的標(biāo)注算法能節(jié)省91.3%(3.3%稀疏標(biāo)注和5.4%篩選跟蹤失敗幀)的人工標(biāo)注,并相較于跟蹤算法插值的方式,使平均重疊率提升4.7%。

      表1 LaSOT數(shù)據(jù)集的各階段標(biāo)注質(zhì)量評(píng)估Table 1 Quality measurement of generated annotations from different steps on LaSOT dataset

      為展示本文的質(zhì)量評(píng)估網(wǎng)絡(luò)能夠有效篩選出挑戰(zhàn)難度大的跟蹤失敗幀(即雙向均跟蹤失?。x每一幀是否被跟蹤成功的真值標(biāo)簽為

      即當(dāng)該幀的前向或反向跟蹤結(jié)果與真值目標(biāo)框的重疊率大于0.5 時(shí),認(rèn)為該幀能夠被現(xiàn)有跟蹤算法成功跟蹤,屬于跟蹤成功幀,后續(xù)應(yīng)通過回歸網(wǎng)絡(luò)對(duì)雙向跟蹤結(jié)果進(jìn)行優(yōu)化;否則認(rèn)為該幀很難被跟蹤算法成功跟蹤,屬于跟蹤失敗幀,后續(xù)應(yīng)執(zhí)行人工標(biāo)注。而對(duì)于質(zhì)量評(píng)估網(wǎng)絡(luò)預(yù)測(cè)的分?jǐn)?shù),當(dāng)分?jǐn)?shù)大于設(shè)定的閾值時(shí),預(yù)測(cè)該幀跟蹤成功,否則預(yù)測(cè)為跟蹤失敗。值得注意的是,采用0.5作為IoU閾值的原因是與跟蹤任務(wù)的性能評(píng)價(jià)指標(biāo)保持一致,例如OTB(object tracking benchmark)(Wu 等,2013)及LaSOT(Fan等,2019)中的成功率閾值。

      圖5 繪制了不同分?jǐn)?shù)閾值下,篩選的準(zhǔn)確率Acc、召回率recall、特異度TNR以及篩選前后的平均重疊率mIoU。此外,為反映需人工標(biāo)注的工作量,該圖亦繪制了失敗率Ratefail,即篩選出的失敗幀占總幀數(shù)的比率。可以看出,對(duì)于不同的閾值設(shè)定,篩選出的失敗幀比例介于2%~13%,隨著篩選出的失敗率增加,TNR 大幅提升,而Acc 和recall 小幅下降。相較于初始標(biāo)注的mIoU,篩選后的mIoU 顯著提升。當(dāng)篩選出約12%失敗幀時(shí),TNR 高達(dá)0.926,這意味著絕大多數(shù)的標(biāo)注失敗幀均被篩選出來。為平衡人工標(biāo)注的成本和最終標(biāo)注的質(zhì)量,本文將閾值設(shè)定為0.7,其中失敗率為5.4%,TNR 為0.761,篩選失敗幀后,mIoU 由0.811 提升至0.851。值得注意的是,與表1 的mIoU 不同,為公平評(píng)估模型的篩選能力,此處mIoU的統(tǒng)計(jì)不包含任何人工標(biāo)注的幀。

      圖5 不同閾值的分?jǐn)?shù)評(píng)估Fig.5 Score evaluation with different thresholds

      3.3 TrackingNet數(shù)據(jù)集標(biāo)注評(píng)估

      由于TrackingNet 的訓(xùn)練集不是逐幀人工標(biāo)注,存在噪聲,因此本文通過間接評(píng)估跟蹤性能來評(píng)估本文對(duì)于TrackingNet 的標(biāo)注質(zhì)量。本文選用了3個(gè)現(xiàn)有的跟蹤算法,即ATOM、DiMP50和PrDiMP50,并分別使用TrackingNet 自身標(biāo)注和本文標(biāo)注對(duì)模型重訓(xùn)練,以下是在3 個(gè)跟蹤數(shù)據(jù)集上的跟蹤性能評(píng)估結(jié)果。其中“_GT”表示使用TrackingNet 官方標(biāo)注進(jìn)行訓(xùn)練,“_Ours”表示使用本文的TrackingNet 標(biāo)注。為與VASR 方法(Dai 等,2021)進(jìn)行對(duì)比,本文亦列出其對(duì)應(yīng)的結(jié)果,表示為“_VASR”。值得注意的是,參考下文3.5.2中的耗時(shí)分析,對(duì)于LaSOT量級(jí)的數(shù)據(jù)集,本文的自動(dòng)篩選及標(biāo)注過程僅需約43 h,相較于VASR方法的約兩周時(shí)間,時(shí)間成本有所縮減。

      1)LaSOT。圖6 展示了LaSOT 數(shù)據(jù)集上的跟蹤性能比較,采用的評(píng)價(jià)指標(biāo)為成功率和準(zhǔn)確率。相較于使用TrackingNet 官方標(biāo)注進(jìn)行訓(xùn)練,使用本文的標(biāo)注訓(xùn)練分別為ATOM、DiMP50 和PrDiMP50 在成功率上提升了0.5%、0.9%和2.2%。這間接表明了本文生成的標(biāo)注質(zhì)量更高,能訓(xùn)練出更加魯棒的跟蹤模型。此外,表2對(duì)比了本文方法和VASR方法的結(jié)果。對(duì)于ATOM 和DiMP50,本文在LaSOT 數(shù)據(jù)集的成功率上優(yōu)于VASR 方法,PrDiMP50 的性能稍有下降。

      表2 使用TrackingNet不同標(biāo)注重新訓(xùn)練各跟蹤器在不同數(shù)據(jù)集上的跟蹤性能對(duì)比Table 2 Performance comparison of retrained trackers using different TrackingNet annotations

      圖6 使用TrackingNet數(shù)據(jù)集的不同標(biāo)注訓(xùn)練的不同跟蹤器在LaSOT數(shù)據(jù)集上的成功率和精確率曲線圖Fig.6 Tracking performance on LaSOT dataset by using our trackingnet annotations(ours)and trackingnet official annotations(GT)((a)success plots;(b)precision plots)

      2)TrackingNet。表2 列出了不同方法的不同訓(xùn)練模型在成功率和歸一化準(zhǔn)確率上的跟蹤結(jié)果。相較于官方標(biāo)注,本文標(biāo)注可分別為ATOM、DiMP50和PrDiMP50 在成功率上帶來0.7%、1.5%和2.5%的性能收益。雖然VASR 方法在該數(shù)據(jù)集上表現(xiàn)更好,但平衡時(shí)間成本后,本文能有效縮小時(shí)間成本并基本達(dá)到持平的跟蹤性能。

      3)GOT-10k。表2 最右兩列展示了GOT-10k 上的跟蹤性能,評(píng)估指標(biāo)分別是平均重疊率(average overlap,AO)和閾值為0.75 的成功率(success rate,SR0.75)。在該數(shù)據(jù)集上,本文相較于使用官方標(biāo)注訓(xùn)練的模型有大幅的性能提升,在SR0.75上分別為ATOM、DiMP50 和PrDiMP50 提升了4.3%、8.8%和7.9%。相較于VASR方法,本文會(huì)導(dǎo)致DiMP50方法在AO指標(biāo)上下降0.1%,并導(dǎo)致PrDiMP50提升3.6%。

      3.4 消融實(shí)驗(yàn)

      在LaSOT數(shù)據(jù)上實(shí)驗(yàn),探索不同融合模型、質(zhì)量分?jǐn)?shù)真值及序列長度對(duì)模型篩選能力的影響。

      1)Transformer 時(shí)序模型。為驗(yàn)證Transformer 時(shí)序模型融合時(shí)序和雙向數(shù)據(jù)能力,將Transformer 模型替換為長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)模型,篩選結(jié)果如表3所示。

      表3 不同融合模型對(duì)于篩選能力的影響Table 3 Effect of different fusion models on filtering ability

      從表3 可以看出,相較于Transformer 模型,LSTM模型識(shí)別失敗幀的能力下降,在預(yù)測(cè)出相似失敗幀比率的前提下,即人工標(biāo)注成本相似,TNR 由76.1%降至65.7%,Acc 和recall 也有所下降,這說明LSTM 模型會(huì)錯(cuò)誤地篩選出較多的成功幀,并存在較多的失敗幀未被篩選出來。

      2)幀級(jí)質(zhì)量表示。設(shè)計(jì)每一幀的真值標(biāo)注質(zhì)量由前向和反向跟蹤質(zhì)量分?jǐn)?shù)的最大值表示,如式(5)所示。為驗(yàn)證最大值操作的合理性,將最大值真值替換為平均真值,篩選結(jié)果如表4 所示。可以看出,替換成平均操作后,TNR下降超過3%。因此相比于平均真值,采用的最大值真值能篩選出更多的失敗幀。

      表4 不同質(zhì)量分?jǐn)?shù)真值對(duì)于篩選能力的影響Table 4 Effect of different fusion models and different quality score’s ground truth on the filtering ability

      3)序列長度。為驗(yàn)證輸入的序列長度對(duì)于性能的影響,本文使用不同長度的序列數(shù)據(jù)進(jìn)行模型訓(xùn)練和生成標(biāo)注,篩選結(jié)果如表5 所示。可以看出,當(dāng)T=20 時(shí),能更準(zhǔn)確地識(shí)別出失敗幀,得到更高質(zhì)量的數(shù)據(jù)集標(biāo)注。因此本文選擇T=20。值得注意的是,當(dāng)T=5時(shí),TNR 最低,這主要是由于序列長度過低時(shí),模型無法捕獲長距離的目標(biāo)視覺變化和運(yùn)動(dòng)模式,篩選能力較低。

      表5 不同序列長度對(duì)于篩選能力的影響Table 5 Effect of sequence length on the filtering ability

      3.5 實(shí)驗(yàn)分析

      3.5.1 泛化性分析

      由于在模型的訓(xùn)練過程中未使用前向反向跟蹤過程中產(chǎn)生的中間結(jié)果,例如置信分?jǐn)?shù)、響應(yīng)圖等,TLNet 不依賴于任何具體的跟蹤算法,具有強(qiáng)泛化性。為驗(yàn)證TLNet 強(qiáng)大的泛化能力,將訓(xùn)練好的TLNet(HCAT 方法生成的前向反向跟蹤結(jié)果作為訓(xùn)練數(shù)據(jù))作用于STARK 方法(ResNet101 模型),根據(jù)STARK 算法產(chǎn)生的前向反向跟蹤結(jié)果,進(jìn)行質(zhì)量篩選和優(yōu)化目標(biāo)框。生成的數(shù)據(jù)集標(biāo)注質(zhì)量如表6 所示。由于STARK 算法自身的高魯棒性,初始標(biāo)注結(jié)果已有較高質(zhì)量,mIoU 為0.856。篩選后,僅2.9%的幀被識(shí)別為失敗幀,進(jìn)行人工標(biāo)注,篩選后標(biāo)注的mIoU 提升至0.879,其中Rate<0.3和Rate<0.5均有明顯下降。值得注意的是,由于STARK 本身的跟蹤結(jié)果已有較高的準(zhǔn)確率,本文的回歸子網(wǎng)絡(luò)并未對(duì)其起到優(yōu)化作用,但Rate<0.3有所下降,說明回歸子網(wǎng)絡(luò)對(duì)于優(yōu)化質(zhì)量極差的幀仍起到一定的作用。該結(jié)果說明回歸子網(wǎng)絡(luò)存在一定的優(yōu)化上限,因此僅對(duì)性能相對(duì)較差的輕量化跟蹤算法執(zhí)行優(yōu)化步驟。

      表6 基于STARK跟蹤結(jié)果的標(biāo)注質(zhì)量評(píng)估Table 6 Quality measurement of generated annotations based on the STARK’s tracking results

      3.5.2 耗時(shí)分析

      對(duì)于自動(dòng)標(biāo)注方法,除了保障標(biāo)注的高質(zhì)量外,標(biāo)注的效率也是至關(guān)重要的。VASR 方法提出基于選擇和細(xì)化的自動(dòng)標(biāo)注策略,簡化了標(biāo)注流程并節(jié)約了標(biāo)注時(shí)間。本文對(duì)該方法進(jìn)行改進(jìn)后,進(jìn)一步簡化了標(biāo)注流程,并縮減了生成標(biāo)注的時(shí)間。

      VASR 方法采用DiMP50 算法執(zhí)行初始的前向反向跟蹤,由于訓(xùn)練過程需要DiMP50方法和Alpha-Refine 方法生成對(duì)應(yīng)的跟蹤結(jié)果及分割掩碼等數(shù)據(jù),導(dǎo)致模型不具有泛化性,并且數(shù)據(jù)準(zhǔn)備時(shí)間長。對(duì)于生成LaSOT 數(shù)據(jù)集量級(jí)的標(biāo)注,選擇不同的基準(zhǔn)跟蹤算法均需要重新進(jìn)行數(shù)據(jù)準(zhǔn)備和模型訓(xùn)練,共需耗費(fèi)約兩周時(shí)間(Dai等,2021)。該方法的耗時(shí)主要是由于跟蹤算法的選擇和模型的低泛化性。表7統(tǒng)計(jì)了不同跟蹤方法的跟蹤性能、在初始化階段和單幀跟蹤階段的耗時(shí),以及長度為30 幀的片段的平均耗時(shí)。此處將現(xiàn)有的兩個(gè)輕量化跟蹤算法與VASR 使用的DiMP50 算法進(jìn)行對(duì)比,其中mIoU 為前向反向跟蹤結(jié)果的平均mIoU??梢钥闯觯m然兩個(gè)輕量化方法在跟蹤性能上均低于DiMP50,但在執(zhí)行前反向跟蹤時(shí)能夠節(jié)省約4 倍的時(shí)間,實(shí)現(xiàn)高效標(biāo)注。

      表7 不同跟蹤算法在LaSOT數(shù)據(jù)集的耗時(shí)及性能分析Table 7 Time-consuming and performance analysis of different trackers on LaSOT dataset

      此外,由于本文模型和具體的跟蹤算法解耦,對(duì)于待標(biāo)注的數(shù)據(jù)集,可任意選擇現(xiàn)有的輕量化跟蹤算法生成初始標(biāo)注,而無需進(jìn)行模型的重訓(xùn)練,因此僅需要考慮前向反向跟蹤時(shí)間及TLNet 執(zhí)行時(shí)間。對(duì)于生成LaSOT數(shù)據(jù)集量級(jí)(2.8 M)的標(biāo)注,并采用現(xiàn)有的輕量化跟蹤算法HCAT,前向反向跟蹤需耗時(shí)約35 h,TLNet的速度約為200幀/s,執(zhí)行篩選和優(yōu)化過程需耗費(fèi)約8 h,因此共耗費(fèi)約43 h,相較于VASR 耗費(fèi)的兩周時(shí)間,本文方法在標(biāo)注自動(dòng)生成效率上有顯著提升。

      為公平對(duì)比本文方法與VASR方法,表8展示了在篩選出相似失敗率(2.7%和2.9%)的前提下,本文方法與VASR 方法在標(biāo)注質(zhì)量和耗時(shí)方面的對(duì)比??梢钥闯觯疚姆椒ü?jié)約了大量的標(biāo)注時(shí)間,約82%,并且本文方法對(duì)標(biāo)注的mIoU 提升水平與VASR相當(dāng),分別提升了3.2%和3.1%。

      表8 與VASR方法在標(biāo)注質(zhì)量和耗時(shí)方面的比較Table 8 Comparison with VASR on annotation quality and time-consuming

      3.5.3 定性分析

      為展示本文的質(zhì)量評(píng)估網(wǎng)絡(luò)能夠通過預(yù)測(cè)幀級(jí)分?jǐn)?shù)來有效地篩選出標(biāo)注失敗幀,圖7 列舉了LaSOT 數(shù)據(jù)集中的5 個(gè)序列的若干結(jié)果。其中綠色框被網(wǎng)絡(luò)預(yù)測(cè)為標(biāo)注成功幀;而紅色框被預(yù)測(cè)為標(biāo)注失敗幀,后續(xù)反饋給標(biāo)注者進(jìn)行人工精確標(biāo)注??梢钥闯?,當(dāng)前向和反向跟蹤的目標(biāo)框中有至少一個(gè)標(biāo)注能夠達(dá)到高精度的標(biāo)準(zhǔn),質(zhì)量評(píng)估網(wǎng)絡(luò)就會(huì)預(yù)測(cè)出較高的分?jǐn)?shù);而當(dāng)前向和反向的跟蹤結(jié)果都較差時(shí),質(zhì)量評(píng)估網(wǎng)絡(luò)會(huì)給出較低的分?jǐn)?shù),判定為失敗幀。由于當(dāng)前向或反向存在準(zhǔn)確的標(biāo)注時(shí),說明該幀的跟蹤難度較低,后續(xù)回歸子網(wǎng)絡(luò)仍可根據(jù)前反向結(jié)果生成準(zhǔn)確的最終標(biāo)注;而當(dāng)前向和反向均跟蹤失敗時(shí),說明該幀挑戰(zhàn)難度大,需要由人工標(biāo)注。與目標(biāo)框級(jí)別的分?jǐn)?shù)預(yù)測(cè)相比,這種幀級(jí)的分?jǐn)?shù)預(yù)測(cè)更能準(zhǔn)確地篩選出失敗幀,并減少成功幀的錯(cuò)誤識(shí)別,減輕人工標(biāo)注的工作量。

      圖7 質(zhì)量評(píng)估網(wǎng)絡(luò)預(yù)測(cè)的分?jǐn)?shù)圖示Fig.7 Illustration of the scores output by the proposed quality evaluation network

      此外,對(duì)本文生成的標(biāo)注與TrackingNet 數(shù)據(jù)集的官方標(biāo)注進(jìn)行了定性比較,如圖8 所示??梢钥闯?,通過篩選失敗幀及優(yōu)化目標(biāo)框,本文方法能更好地應(yīng)對(duì)多種跟蹤挑戰(zhàn),生成更高質(zhì)量的視頻標(biāo)注。

      圖8 TrackingNet官方標(biāo)注與本文標(biāo)注的對(duì)比Fig.8 Comparison between the official annotations of TrackingNet dataset and our annotations

      4 結(jié)論

      訓(xùn)練現(xiàn)有的基于深度網(wǎng)絡(luò)的跟蹤算法需要大規(guī)模的具有精確標(biāo)注的視頻數(shù)據(jù)集,而逐幀標(biāo)注大規(guī)模數(shù)據(jù)集會(huì)耗費(fèi)大量的人力和時(shí)間成本。為減輕人力消耗,并平衡標(biāo)注的質(zhì)量,提出TLNet 網(wǎng)絡(luò)來高效地自動(dòng)生成高質(zhì)量大規(guī)模數(shù)據(jù)集標(biāo)注。該網(wǎng)絡(luò)包含互相關(guān)模塊及Transformer 時(shí)序模型,通過輸入時(shí)序的目標(biāo)視覺和運(yùn)動(dòng)信息,來提取并融合雙向的初始跟蹤結(jié)果,進(jìn)而進(jìn)行標(biāo)注的評(píng)估和優(yōu)化。通過篩選出失敗幀并優(yōu)化剩余目標(biāo)框,生成高質(zhì)量的標(biāo)注。采用兩種評(píng)價(jià)方式分別評(píng)估LaSOT 及TrackingNet數(shù)據(jù)集的標(biāo)注質(zhì)量。前者采用與真值目標(biāo)框的平均重疊率以及篩選失敗幀的準(zhǔn)確率及特異度等指標(biāo)進(jìn)行直接評(píng)估;而后者由于自身標(biāo)注存在噪聲,通過重新訓(xùn)練跟蹤算法并評(píng)估跟蹤性能的方式進(jìn)行間接評(píng)估。大量實(shí)驗(yàn)驗(yàn)證了本文方法具有強(qiáng)泛化性,能夠利用任意輕量化跟蹤算法實(shí)現(xiàn)高效的自動(dòng)標(biāo)注。本文工作的主要局限性在于回歸子網(wǎng)絡(luò)的目標(biāo)框預(yù)測(cè)存在一定的性能上限,對(duì)于高性能跟蹤算法生成的初始標(biāo)簽無法起到優(yōu)化的作用。這主要是由于視覺特征的空間信息沒有很好地保留,因此回歸分支無法根據(jù)空間位置預(yù)測(cè)更精準(zhǔn)的目標(biāo)框。后續(xù)工作將從該點(diǎn)出發(fā),嘗試優(yōu)化模型框架,盡可能保留更多目標(biāo)的空間信息,實(shí)現(xiàn)更精確的目標(biāo)框優(yōu)化。

      猜你喜歡
      前向特征評(píng)估
      如何表達(dá)“特征”
      不忠誠的四個(gè)特征
      一種基于前向防碰撞系統(tǒng)的汽車防追尾裝置
      大眾汽車(2018年11期)2018-12-26 08:44:18
      抓住特征巧觀察
      基于規(guī)范變換的前向神經(jīng)網(wǎng)絡(luò)的洪水災(zāi)害評(píng)估模型
      評(píng)估依據(jù)
      基于壓電陶瓷直驅(qū)的前向像移補(bǔ)償系統(tǒng)
      液晶與顯示(2015年3期)2015-05-10 01:46:06
      立法后評(píng)估:且行且盡善
      浙江人大(2014年5期)2014-03-20 16:20:25
      線性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      基于前向和中間差分的離散ZNN的定常矩陣求逆方法
      兴安盟| 延津县| 大宁县| 广元市| 盱眙县| 新河县| 成武县| 札达县| 闽侯县| 玉树县| 河津市| 拜城县| 通辽市| 仙桃市| 连山| 桃园县| 宁武县| 奉化市| 金乡县| 凤凰县| 丘北县| 卓尼县| 汽车| 西和县| 长子县| 巴林左旗| 孝义市| 吴忠市| 陕西省| 无锡市| 长海县| 新闻| 合水县| 德江县| 龙岩市| 伊金霍洛旗| 通州市| 江华| 丘北县| 涿州市| 浦城县|