摘要:在動態(tài)場景中,目標(biāo)跟蹤技術(shù)面臨復(fù)雜背景干擾及目標(biāo)快速移動等多重挑戰(zhàn)。為探索目標(biāo)跟蹤技術(shù)在動態(tài)場景中的應(yīng)用,文章利用基于LSTM-Attention的視覺模型,旨在提升動態(tài)場景下目標(biāo)跟蹤的精準(zhǔn)度。該模型結(jié)合了LSTM(長短期記憶網(wǎng)絡(luò))在處理時間序列數(shù)據(jù)上的記憶能力,以及Attention機制在捕捉動態(tài)場景中目標(biāo)動態(tài)變化特征方面的優(yōu)勢。基于此模型,在動態(tài)場景下執(zhí)行目標(biāo)跟蹤任務(wù),并將該模型的表現(xiàn)與傳統(tǒng)目標(biāo)跟蹤算法進(jìn)行對比,分析不同場景因素對跟蹤結(jié)果的影響,以驗證新模型的優(yōu)勢。實驗數(shù)據(jù)表明,在目標(biāo)快速移動或部分遮擋的情況下,該模型仍能準(zhǔn)確、穩(wěn)定地追蹤目標(biāo),并且在復(fù)雜動態(tài)場景下保持了80.4%的精確度,展現(xiàn)出較強的抗干擾能力。
關(guān)鍵詞:動態(tài)場景;目標(biāo)跟蹤;LSTM-Attention
中圖分類號:TP183;TP391.41" " "文獻(xiàn)標(biāo)識碼:A" " "文章編號:1674-0688(2024)12-0087-05
0 引言
隨著計算機視覺領(lǐng)域的飛速進(jìn)步,目標(biāo)跟蹤技術(shù)作為其核心分支,正逐步滲透到智能交通、視頻監(jiān)控、人機交互等多個關(guān)鍵領(lǐng)域。在動態(tài)且復(fù)雜多變的場景中,目標(biāo)跟蹤的精度和抗干擾能力成為衡量其性能的重要指標(biāo)。這些場景往往伴隨著目標(biāo)的頻繁遮擋、外觀的急劇變化以及光照條件的不穩(wěn)定性,給傳統(tǒng)跟蹤方法帶來了巨大挑戰(zhàn)。在傳統(tǒng)目標(biāo)跟蹤算法中,KCF(核相關(guān)濾波器)和TLD(跟蹤學(xué)習(xí)檢測)是兩種具有代表性的算法。劉思思等[1]通過利用快速傅里葉變換,將時域卷積運算轉(zhuǎn)換至頻域進(jìn)行計算,顯著提高了運算速度,實現(xiàn)了實時目標(biāo)跟蹤。該方法利用循環(huán)矩陣性質(zhì),從少量樣本中學(xué)習(xí)目標(biāo)外觀模型,并通過循環(huán)移位操作生成大量虛擬樣本,增強了模型的泛化能力,使其能更好地適應(yīng)目標(biāo)外觀的變化。朱代先等[2]引入了核函數(shù),將低維空間的線性運算轉(zhuǎn)換為高維空間的非線性運算,提升了算法對復(fù)雜目標(biāo)外觀變化的適應(yīng)能力。然而,當(dāng)目標(biāo)遭到嚴(yán)重遮擋或快速形變時,這些方法的跟蹤性能會顯著下降,易受相似背景的干擾。劉聃琦[3]利用TLD算法結(jié)合了跟蹤、學(xué)習(xí)和檢測3個模塊,實現(xiàn)了長期目標(biāo)跟蹤,并展現(xiàn)出良好的自適應(yīng)性。牛思杰等[4]在傳統(tǒng)KCF算法的基礎(chǔ)上,提取了CN(核心網(wǎng))特征并進(jìn)行融合,利用互補對稱的特征實現(xiàn)了多特征融合,有效解決了因目標(biāo)尺度變化而導(dǎo)致的不準(zhǔn)確問題,提升了算法的精度和成功率。郭崇等[5]創(chuàng)新性地提出了一種卷積混合注意力機制,專注于處理通道注意力和空間注意力,進(jìn)一步提升了目標(biāo)檢測的精度。
本文提出了一種基于LSTM-Attention模型的動態(tài)場景下的目標(biāo)跟蹤技術(shù),并深入分析模型的原理與優(yōu)勢,探索其在復(fù)雜動態(tài)環(huán)境下的應(yīng)用效果。通過有效學(xué)習(xí)和記憶輸入序列中的長期依賴關(guān)系[6],LSTM能夠捕捉目標(biāo)在時間維度上的運動特征。而Attention機制則通過動態(tài)調(diào)整不同區(qū)域的注意力權(quán)重[7],使模型在處理復(fù)雜場景時能夠聚焦于當(dāng)前跟蹤任務(wù)中的最關(guān)鍵信息,從而提升跟蹤的準(zhǔn)確性和效率,并進(jìn)一步增強模型能力。將LSTM和Attention機制結(jié)合應(yīng)用于動態(tài)場景目標(biāo)跟蹤,解決了傳統(tǒng)方法在復(fù)雜動態(tài)場景下難以處理目標(biāo)時間維度運動特征和復(fù)雜背景信息而導(dǎo)致跟蹤準(zhǔn)確性和效率低的問題。本文旨在提供一套高效、準(zhǔn)確的動態(tài)場景下目標(biāo)跟蹤技術(shù)的解決方案,進(jìn)而推動計算機視覺技術(shù)在更廣泛領(lǐng)域的應(yīng)用與發(fā)展。
1 數(shù)據(jù)處理
1.1 數(shù)據(jù)獲取
本文選取了選取了3個具有代表性的動態(tài)場景數(shù)據(jù)集:UAV123、OTB50及VOT2016,作為模型訓(xùn)練及性能評估的基礎(chǔ)。這3個數(shù)據(jù)集在環(huán)境類型、目標(biāo)種類及運動模式等方面各有其顯著的特點。
1.1.1 數(shù)據(jù)環(huán)境類型
從環(huán)境類型來看,這3個數(shù)據(jù)集涵蓋了城市和自然等復(fù)雜多樣的環(huán)境。城市環(huán)境中存在復(fù)雜的建筑結(jié)構(gòu)、交通標(biāo)識及光影變化等因素,而自然環(huán)境中則常見地形起伏、植被遮擋等復(fù)雜情況。這些復(fù)雜環(huán)境為目標(biāo)跟蹤模型帶來了諸多挑戰(zhàn)。在目標(biāo)種類方面,數(shù)據(jù)集包含了行人、車輛、動物等多種類型。行人的運動軌跡多變,車輛的速度和行駛方向各異,動物的行為模式更是難以預(yù)測,因此模型需要具備處理不同類型目標(biāo)的能力。此外,數(shù)據(jù)集還涉及快速移動、遮擋、尺度改變等多種運動模式??焖僖苿拥哪繕?biāo)要求模型能準(zhǔn)確捕捉其短時間內(nèi)的位置變化;遮擋情況考驗?zāi)P驮谀繕?biāo)部分或完全被遮擋時的跟蹤能力;尺度變化則需要模型能有效識別和跟蹤不同大小的目標(biāo)。這種多元化的運動模式顯著提升了實驗樣本的多樣性和全面性,使其能在各種復(fù)雜情境下對模型的表現(xiàn)進(jìn)行全面測試。
1.1.2 數(shù)據(jù)核對
在數(shù)據(jù)準(zhǔn)備階段,需從官網(wǎng)下載每個數(shù)據(jù)集的壓縮包,并確保所有資料的完整性。下載完成后,進(jìn)行全面的資料核對工作。對于UAV123和OTB50數(shù)據(jù)集,逐一詳細(xì)核實視頻序列文件的完整性,包括檢查視頻文件能否正常打開,以及核對文件大小、時長等信息。通過隨機播放部分視頻片段,仔細(xì)觀察畫面是否存在破損、卡頓或遺漏等問題,以進(jìn)一步驗證視頻內(nèi)容的完整性。同時,嚴(yán)格檢查標(biāo)注文檔與視頻內(nèi)容的一致性,逐條核對所標(biāo)注的信息,包括目標(biāo)位置、類別、跟蹤起止時間等,確保標(biāo)注文件與所記錄內(nèi)容完全對應(yīng),從而避免標(biāo)注錯誤對模型訓(xùn)練和評估準(zhǔn)確性的影響。
1.1.3 數(shù)據(jù)轉(zhuǎn)換
VOT2016數(shù)據(jù)集具有特殊的信息格式,在處理過程中需特別關(guān)注。該數(shù)據(jù)集通常以視頻序列形式提供,需轉(zhuǎn)換為影像序列,以便于后續(xù)處理。此轉(zhuǎn)換過程需借助特定工具和算法,確保轉(zhuǎn)換后的影像序列能完整保留原始視頻中的信息。此外,標(biāo)記文件中的數(shù)據(jù)對模型訓(xùn)練和評估至關(guān)重要,需對標(biāo)記文件進(jìn)行相應(yīng)的處理,包括調(diào)整標(biāo)記文件格式、補充或修正信息等操作,以確保其與轉(zhuǎn)換后的圖像序列相匹配。通過這一系列操作,確保所有數(shù)據(jù)集均符合算法要求,為后續(xù)模型訓(xùn)練和性能評估提供高質(zhì)量的數(shù)據(jù)支持。
1.2 數(shù)據(jù)預(yù)處理
為提高圖像處理的效率和準(zhǔn)確性,采取了一系列措施對每一幀圖像進(jìn)行優(yōu)化處理。
(1)畫面裁剪。針對每一幀畫面,根據(jù)目標(biāo)的具體位置在原始畫幅上進(jìn)行精確裁剪。這一步驟去除了大量多余的背景區(qū)域,顯著降低了運算量,提高了運算效率,有效減少了背景噪音對目標(biāo)檢測的干擾。在復(fù)雜的圖像環(huán)境中,背景噪音往往會掩蓋目標(biāo)的特征信息,而精確裁剪則能使模型的注意力更集中于目標(biāo)本身,為后續(xù)處理步驟創(chuàng)造有利條件。
(2)圖像歸一化。將圖像的像素值歸一化至[0,1]區(qū)間。這一標(biāo)準(zhǔn)化操作顯著提升了模型訓(xùn)練過程中的數(shù)據(jù)處理效率。在模型訓(xùn)練中,數(shù)據(jù)的一致性和規(guī)范性至關(guān)重要。通過將像素值歸一化至特定范圍,避免了因像素值差異過大而帶來的復(fù)雜調(diào)整過程,使模型在處理不同圖像時能夠以更統(tǒng)一的方式進(jìn)行運算。這種一致性處理方式增強了模型對不同輸入圖像的一致響應(yīng)能力,無論輸入圖像的原始像素值分布如何,模型都能更穩(wěn)定地處理,從而整體上提升了識別精度。
(3)增加數(shù)據(jù)集的多樣性與豐富性。采用多種數(shù)據(jù)增強技術(shù)增加訓(xùn)練樣本,包括隨機翻轉(zhuǎn)、旋轉(zhuǎn)和亮度調(diào)整等,以生成更多樣化的訓(xùn)練樣本。這一做法有效擴(kuò)大了訓(xùn)練數(shù)據(jù)集的規(guī)模,為模型提供了更多的學(xué)習(xí)機會,同時又不會增加實際的收集成本。
(4)標(biāo)記目標(biāo)位置和大小。在整個數(shù)據(jù)集中,所有目標(biāo)都被精確標(biāo)記在矩形框內(nèi),明確了目標(biāo)的位置和大小。對于模型訓(xùn)練而言,這種精確標(biāo)記如同為模型訓(xùn)練提供了清晰的導(dǎo)航。模型在學(xué)習(xí)過程中,依據(jù)這些標(biāo)記信息即能夠準(zhǔn)確把握目標(biāo)的特征及位置關(guān)系,從而在復(fù)雜環(huán)境中,即使面對各種干擾因素,也能準(zhǔn)確識別目標(biāo),保持高識別性能。
2 模型設(shè)計
2.1 LSTM概述
為了構(gòu)建LSTM-Attention模型,本文設(shè)計了一個以LSTM網(wǎng)絡(luò)為核心的時序數(shù)據(jù)處理模塊,LSTM 內(nèi)部結(jié)構(gòu)圖見圖1。
模型計算公式如下:
[it=σWxiXt+W?iHt?1+WciCt?1+bi]," " (1)
[ft=σ(WxfXt+W?fHt?1+WcfCt?1+bf)]," " "(2)
[Ct=ftCt?1+it×tan?(WxcXt+W?tHt?1+bc)]," (3)
[Ot=σ(WxoXt+W?oHt?1+WcoCt+bo)]," " " "(4)
[Ht=Ot×tan?(Ct)]," " " " " " " " " " " (5)
其中:在時刻t,it為輸入門,Ot為輸出門;ft為遺忘門;Ct為記憶細(xì)胞;Xt為輸入向量;Ht為上一時刻的隱藏狀態(tài);[σ]為每個單元權(quán)重的控制函數(shù)Sigmoid;W為各種輸入循環(huán)權(quán)重;b為偏置項。首先通過遺忘門計算需要丟棄或保留的信息,其次通過輸入門選擇更新記憶細(xì)胞的狀態(tài),最后確定輸出值。
在動態(tài)場景下,目標(biāo)的運動呈現(xiàn)出復(fù)雜的時間序列特性,時序處理模塊的主要目的正是高效地處理時序數(shù)據(jù)中的長依賴關(guān)系。它如同精密的探測器,深入挖掘數(shù)據(jù)中的隱藏信息,精準(zhǔn)捕捉目標(biāo)在時間序列中的動態(tài)特征。通過這種方式,模型能更深入地理解目標(biāo)在不同時間點的位置、速度等變化,從而對目標(biāo)的運動軌跡有更準(zhǔn)確的把握,使其能在復(fù)雜的時間維度信息中清晰地追蹤目標(biāo)。
2.2 Attention機制
單純依靠LSTM網(wǎng)絡(luò)可能難以完全滿足模型在復(fù)雜場景下捕捉關(guān)鍵信息的需求,因此本文引入了Attention機制,其原理示意圖見圖2。該機制使模型能夠動態(tài)地調(diào)整不同時間步驟或空間區(qū)域的權(quán)重分配。在跟蹤目標(biāo)的過程中,模型可根據(jù)當(dāng)前任務(wù)的實際需求,自主地將注意力集中到任務(wù)更為重要的部分。例如,當(dāng)目標(biāo)處于復(fù)雜背景中或與其他物體發(fā)生交互時,模型能自動加強對目標(biāo)區(qū)域的關(guān)注,同時降低干擾因素的權(quán)重,從而顯著提升追蹤精確性,確保在復(fù)雜多變的環(huán)境中仍能精確鎖定目標(biāo)。在模型架構(gòu)設(shè)計的過程中,充分考慮了動態(tài)場景下的追蹤需求,包括快速移動的目標(biāo)、頻繁遮擋的狀況及各種復(fù)雜環(huán)境的干擾因素,旨在確保模型在復(fù)雜環(huán)境下既能保持穩(wěn)定的追蹤性能,避免因外界因素的干擾而出現(xiàn)追蹤丟失或錯誤追蹤的情況,又能高效地完成跟蹤任務(wù),及時且準(zhǔn)確地輸出目標(biāo)的位置信息。
2.3 模型構(gòu)建
在選擇損失函數(shù)時,本文采用了均方誤差(MSE)作為評估模型預(yù)測準(zhǔn)確性的標(biāo)準(zhǔn)。MSE具有明確的物理意義,能夠直觀地反映模型預(yù)測結(jié)果與真實值之間的差距,這種差距可視為模型預(yù)測與目標(biāo)之間的“距離”,通過最小化這一差異,引導(dǎo)模型不斷優(yōu)化,以期在實際應(yīng)用中更準(zhǔn)確地定位目標(biāo)位置,使模型輸出的目標(biāo)位置信息與真實位置盡可能接近,從而提升追蹤精準(zhǔn)度。
經(jīng)過實驗分析,本文選用了Adam優(yōu)化器,并設(shè)定了一系列合理的超參數(shù)以優(yōu)化模型訓(xùn)練。具體而言,學(xué)習(xí)率設(shè)定為0.001,這一數(shù)值是經(jīng)過多次測試后確定的,有助于模型在訓(xùn)練初期迅速收斂至最優(yōu)方向。輸出層的激活函數(shù)選用了ReLU函數(shù),以避免梯度消失問題,從而提高訓(xùn)練效率。批次大小設(shè)定為512,即每次模型訓(xùn)練都會同時對512個數(shù)據(jù)樣本進(jìn)行處理,這樣的設(shè)定有助于平衡模型訓(xùn)練速度與穩(wěn)定性。模型共進(jìn)行100次迭代,以確保充分學(xué)習(xí)數(shù)據(jù)中的規(guī)律。此外,學(xué)習(xí)衰減率設(shè)定為0.96。在訓(xùn)練后期,隨著迭代次數(shù)的增加,學(xué)習(xí)率按此衰減率逐步降低,以保證模型平穩(wěn)收斂,避免在最優(yōu)解附近震蕩,同時有效防止過擬合,使模型在新數(shù)據(jù)上保持良好的泛化能力。LSTM-Attention模型結(jié)構(gòu)圖見圖3。
3 實驗結(jié)果與分析
3.1 靜態(tài)背景實驗
在靜態(tài)背景測試環(huán)境中,LSTM-Attention模型顯示出極高的精確度,達(dá)到了95.8%,相較于傳統(tǒng)算法的89.2%有了顯著提升。這一結(jié)果充分證明了該模型在穩(wěn)定環(huán)境中的優(yōu)越性,能夠精準(zhǔn)捕捉目標(biāo)特征并實現(xiàn)穩(wěn)定跟蹤,幾乎不受其他無關(guān)因素干擾。
3.2 目標(biāo)快速移動場景實驗
針對目標(biāo)快速移動的挑戰(zhàn)場景,實驗結(jié)果顯示,LSTM-Attention模型展現(xiàn)出了極強的適應(yīng)能力。在目標(biāo)快速移動的復(fù)雜情況下,模型仍能保持相對較高的精確度,達(dá)到87.3%,遠(yuǎn)高于傳統(tǒng)算法的76.5%。然而,快速移動對模型的跟蹤性能仍然產(chǎn)生了一定影響,導(dǎo)致部分幀中出現(xiàn)追蹤誤差,這主要是因為目標(biāo)位置和形態(tài)在短時間內(nèi)因移動過快而變化較大,增加了模型追蹤和預(yù)測的難度。
3.3 目標(biāo)遮擋實驗
在目標(biāo)遮擋實驗中,LSTM-Attention模型面對復(fù)雜的部分遮擋情況,依然表現(xiàn)出強大的實力,精確度達(dá)到了82.6%,顯著優(yōu)于傳統(tǒng)算法的68.7%。這主要得益于Attention機制的引入,有效增強了模型對重點區(qū)域的關(guān)注,使模型在目標(biāo)部分遮擋時仍能聚焦于未被遮擋的關(guān)鍵部分,從而降低遮擋帶來的負(fù)面影響。然而,在目標(biāo)完全遮擋的情況下,模型性能明顯下降,精確度降至65.9%,表明在極端遮擋情況下,模型的遮擋處理機制需進(jìn)一步研究和改進(jìn),以應(yīng)對其對目標(biāo)跟蹤造成的嚴(yán)重影響,進(jìn)一步提升模型在復(fù)雜環(huán)境下的抗干擾能力。
3.4 復(fù)雜動態(tài)場景實驗
在復(fù)雜的動態(tài)場景下,盡管面臨多種干擾因素交織,如多個移動目標(biāo)及光照變化等,但是LSTM-Attention模型仍展現(xiàn)出80.4%的準(zhǔn)確率,充分彰顯了其在復(fù)雜環(huán)境中的穩(wěn)定性。然而,需要注意的是,在多個目標(biāo)距離較近或光照劇烈變化的情況下,這些多重干擾因素對模型整體性能產(chǎn)生了一定影響,可能導(dǎo)致短暫跟蹤偏差。這表明在復(fù)雜環(huán)境下,模型的綜合處理能力有待進(jìn)一步提高。
3.5 光照變化場景實驗
光照變化是影響目標(biāo)跟蹤的重要因素之一。實驗結(jié)果顯示,與傳統(tǒng)算法的83.6%相比,LSTM-Attention模型在光照變化條件下保持了91.7%的準(zhǔn)確率,表明該模型對光照變化具有較強的抗干擾能力。這主要歸因于模型能有效抑制光線變化產(chǎn)生的噪音,并在特征提取過程中增強了穩(wěn)定性和區(qū)分度。
LSTM-Attention模型和傳統(tǒng)算法在不同場景下的準(zhǔn)確率對比結(jié)果見圖4。通過對模型跟蹤效果的可視化分析,可以直觀看到,在大部分情況下,LSTM-Attention模型在跟蹤目標(biāo)時表現(xiàn)準(zhǔn)確而穩(wěn)定,即使目標(biāo)快速移動或部分遮擋,也能保持較好的跟蹤性能。但在完全遮擋或極端復(fù)雜場景下,模型跟蹤能力存在局限性,需進(jìn)一步優(yōu)化以提升跟蹤的準(zhǔn)確性。未來研究可重點改進(jìn)遮擋處理機制,增強模型對復(fù)雜場景的適應(yīng)性,以進(jìn)一步提高對動態(tài)場景下的目標(biāo)跟蹤性能。
4 結(jié)語
本文深入探究了動態(tài)場景下基于LSTM-Attention的目標(biāo)追蹤模型的應(yīng)用效果。實驗驗證表明,該模型在應(yīng)對復(fù)雜動態(tài)變化場景時,在精確性方面具有顯著優(yōu)勢,并在自動駕駛、智能監(jiān)控等實時跟蹤任務(wù)相關(guān)領(lǐng)域展現(xiàn)出潛力巨大。其處理速度能夠滿足大多數(shù)實時應(yīng)用場景的需求,為這些領(lǐng)域的目標(biāo)追蹤問題提供了有價值的解決方案。然而,本研究也揭示了模型的局限性,即LSTM-Attention模型計算復(fù)雜度較高,在資源受限的環(huán)境下,特別是在處理大規(guī)模數(shù)據(jù)集或高分辨率圖像時,對硬件資源要求較高,可能增加部署成本,從而影響了模型的廣泛應(yīng)用。針對這些問題,今后的研究將聚焦于以下兩個方面:一是進(jìn)一步優(yōu)化模型架構(gòu),采用輕量化設(shè)計或引入更高效的計算單元,以降低計算成本;二是開展多模態(tài)融合技術(shù)的研究,通過結(jié)合多源信息,提高模型在復(fù)雜場景下的感知能力。
5 參考文獻(xiàn)
[1]劉思思,陳忠,徐雪茹,等.改進(jìn)KCF的尺度自適應(yīng)目標(biāo)跟蹤算法研究[J].計算機與數(shù)字工程,2024,52(5):1359-1365,1393.
[2]朱代先,阮小曼,刁弘偉,等.基于改進(jìn)TLD的運動目標(biāo)跟蹤算法研究[J].電子測量技術(shù),2023,46(18):122-128.
[3]劉聃琦.基于核相關(guān)濾波器的運動目標(biāo)跟蹤算法研究[D].沈陽:沈陽理工大學(xué),2021.
[4]牛思杰,汪志鋒,朱晶晶.基于自適應(yīng)尺度變換與特征融合的目標(biāo)跟蹤[J].指揮控制與仿真,2024,46(4):82-87.
[5]郭崇,劉晟,張文波,等.基于卷積混合注意力機制的多目標(biāo)跟蹤算法[J].控制與決策,2024,39(11):1-9.
[6]劉浩東.基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法研究[D].無錫:江南大學(xué),2023.
[7]吳燚威.基于注意力機制的目標(biāo)跟蹤研究[D].廣州:廣州大學(xué),2024.
*浙江工商職業(yè)技術(shù)學(xué)院2024年校級科研資助項目“基于LSTM-Attention視覺模型的動態(tài)場景下目標(biāo)跟蹤研究”。
【作者簡介】孫晨陽,男,江蘇蘇州人,碩士,助理講師,研究方向:智能軟件、人工智能技術(shù)。
【引用本文】孫晨陽.基于LSTM-Attention模型的動態(tài)場景下的目標(biāo)跟蹤研究[J].企業(yè)科技與發(fā)展,2024(12):87-90,102.