• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      時空特征融合網(wǎng)絡(luò)的多目標跟蹤與分割

      2022-11-18 06:19:38劉雨亭張開華樊佳慶劉青山
      中國圖象圖形學報 2022年11期
      關(guān)鍵詞:注意力卷積維度

      劉雨亭,張開華,樊佳慶,劉青山

      南京信息工程大學數(shù)字取證教育部工程研究中心,南京 210044

      0 引 言

      多目標跟蹤與分割(multi-object tracking and segmentation,MOTS)是對視頻中出現(xiàn)的多個對象分別進行跟蹤和實例級別的分割,是集檢測、跟蹤和分割為一體的新穎任務(wù)(Voigtlaender等,2019a),具有廣闊的應(yīng)用場景,例如安防監(jiān)控、視頻剪輯和智能交通等。但該任務(wù)存在巨大挑戰(zhàn),既要克服跟蹤過程中多個目標的重疊與遮擋,又要對每個目標進行像素級別的分割。

      多目標跟蹤與分割問題與兩個計算機視覺方向有較大聯(lián)系,一是多目標跟蹤(方嵐和于鳳芹,2020;王雪琴 等,2017)方向,二者的區(qū)別在于對目標的檢測和分割的細粒度不同;二是圖像的實例分割(林成創(chuàng) 等,2020)方向,圖像實例分割著力點在單幅圖像的分割,多目標跟蹤與分割更側(cè)重于將視頻中每一幀分割出的目標聯(lián)系起來,因此國內(nèi)外學者的探索研究基本從這兩個方向展開?;诙嗄繕烁櫟乃悸分校琕oigtlaender等人(2019a)提出的TrackR-CNN(track regions with convolutional neural networks features)網(wǎng)絡(luò)是多目標跟蹤與分割方向的開山之作,TrackR-CNN將原有的多目標跟蹤網(wǎng)絡(luò)框架中的檢測部分替換成了Mask R-CNN(mask regions with convolutional neural networks features)網(wǎng)絡(luò),以此獲得目標的實例級別分割結(jié)果,其他如外觀特征提取、幀間匹配依舊沿用多目標跟蹤領(lǐng)域的方法。Lin等人(2020)引入改良的變分自編碼器(modified variational autoencoder)增強網(wǎng)絡(luò)特征表達問題,在一定程度上解決了目標遮擋問題。Xu等人(2020)提出PointTrack網(wǎng)絡(luò),充分利用多目標跟蹤與分割中實力級別前景與背景的特征差別設(shè)計網(wǎng)絡(luò),將其用于關(guān)聯(lián)匹配階段,較好解決了目標跟蹤軌跡的跳變問題。Porzi等人(2020)提出的MOTSNet(multi-objects tracking and segmentation net)通過引入光流網(wǎng)絡(luò)進行實例級別的跟蹤與分割。綜上可以看出,多目標跟蹤方法可以通過增加圖像的實例分割模型來解決多目標跟蹤與分割的問題。另外,基于圖像實例分割的角度,Yang等人(2019)提出在Mask R-CNN基礎(chǔ)上增加目標外觀特征提取分支,通過計算不同幀之間對象的外觀特征相似度,再進行匹配來對不同幀之間的同一對象進行關(guān)聯(lián)。Athar等人(2020)提出一個端到端的STEm-Seg(spatio-temporal embeddings for instance segmentation in videos)網(wǎng)絡(luò),借鑒圖像實例分割領(lǐng)域?qū)嵗指顔栴}視為像素點分配問題的思路來解決多目標跟蹤與分割問題,將不同幀的圖像通過STEm-Seg網(wǎng)絡(luò)建模成每個對象符合一個獨立的3D高斯分布,根據(jù)高斯分布的特點,將不同的像素點分配到不同的實例對象中,該模型最大的亮點在于提出了一個端到端的多目標跟蹤與分割的框架。

      綜上兩種思路,多個模型都存在一個問題,即沒有充分挖掘連續(xù)視頻幀中的時空特征與空間特征,而面對視頻中目標的遮擋與物體位移變化等一系列復雜問題又需要依靠強時空特征才能解決。如何設(shè)計一個充分利用時間維度和空間維度特征的網(wǎng)絡(luò)仍然是一個亟待解決的問題。為解決以上問題,本文提出一種基于時空特征融合的多目標跟蹤與分割網(wǎng)絡(luò),達到了良好效果。具體而言,模型分為編碼器和解碼器兩個階段,在解碼器部分設(shè)計了空間三坐標注意力模塊,從橫向、縱向與通道3個方向?qū)μ卣鬟M行聚合、分離再疊加,盡可能保證每一個角度含有信息的特征能夠得到保留,以此挖掘空間特征信息。此外,設(shè)計了時間壓縮自注意力模塊,利用維度壓縮的自注意力模塊在盡可能小的計算代價下提取關(guān)鍵幀時間特征,再通過高低特征融合得到最后的分割圖。

      本文主要貢獻如下:1)設(shè)計了一種空間三坐標特征注意力單元,充分融合空間維度的特征信息,該模塊可以從不同角度有效挖掘出特征上空間區(qū)域之間的聯(lián)系,突出含有重要信息的區(qū)域;2)設(shè)計了一種時間壓縮自注意力單元,在盡可能減少計算量的前提下,該模塊用于突出關(guān)鍵幀的信息,補充模型的時序信息,使被遮擋的對象可以通過與前后未遮擋幀間產(chǎn)生聯(lián)系,有效解決視頻中對象被遮擋問題;3)提出一種通過3D卷積網(wǎng)絡(luò)融合上述的時空表示的端到端的網(wǎng)絡(luò),可以同時進行多目標跟蹤與分割任務(wù),在兩個數(shù)據(jù)集上進行了相關(guān)的實驗,數(shù)據(jù)集相關(guān)的指標結(jié)果表明,對比現(xiàn)有的同期算法,本文方法具有良好的多目標跟蹤與分割效果。

      1 時空特征融合網(wǎng)絡(luò)

      圖1 STFNet結(jié)構(gòu)Fig.1 STFNet structure diagram

      如圖2所示,STCA模塊作為coordinate attention(Hou等人,2021)的注意力增強版本,彌補了coordinate attention的一些缺陷,原始版本只考慮了橫向與縱向的注意力權(quán)重,這樣會使注意力機制只考慮局部信息,而忽略了通道這一維度的信息分布,STCA增加了通道方向的注意力機制,并且設(shè)計了不同通道融合,這能夠更好地從不同角度保留有效信息和丟棄無用信息,具體表示為

      F32_STCA=fSTCA(F32_conv3d)

      (1)

      圖2 空間三坐標注意力模塊Fig.2 Spatial tri-coordinate attention (STCA)

      式中,fSTCA表示STCA模塊,F(xiàn)32_conv3d表示由3D卷積層得到的32倍下采樣特征,F(xiàn)32_STCA表示經(jīng)過STCA模塊后的空間注意力深層特征,維度與F32_conv3d相同。

      圖3展示了時間壓縮自注意力模塊(time reduction self-attention,TRSA),TRSA是從時間維度上對不同特征進行選擇,以此解決多目標跟蹤與分割中頻繁出現(xiàn)的目標遮擋的情況。本文認為關(guān)鍵幀指的是分割對象未被遮擋的視頻幀,該模塊設(shè)計初衷是能夠使網(wǎng)絡(luò)更加關(guān)注關(guān)鍵幀的對象信息,弱化遮擋幀的信息。其表示為

      F32_TRSA=fTRSA(F32_conv3d)

      (2)

      式中,fTRSA表示TRSA模塊,F(xiàn)32_KFTA表示經(jīng)過TRSA模塊后的關(guān)鍵幀注意力深層特征,維度與其輸入相同。在F32_conv3d分別輸入到STCA模塊與TRSA模塊時,參考ResNet的shortcut方法,也同樣將F32_conv3d輸入與STCA模塊輸出、TRSA模塊輸出直接融合,輸入到下一步的卷積層中,即

      F16_hf=fUM(F32_conv3d+F32_STCA+F32_TRSA)

      (3)

      圖3 時間壓縮自注意力模塊結(jié)構(gòu)圖Fig.3 Time reduction self-attention structure diagram (TRSA)

      1.1 空間三坐標注意力模塊(STCA)

      圖2展示了本文設(shè)計的空間三坐標注意力單元的結(jié)構(gòu),該模塊受到Fu等人(2019)提出的DANet(dual attention network)與coordinate attention(Hou等人,2021)的啟發(fā),DANet為雙注意力網(wǎng)絡(luò),由位置注意力模塊和通道注意力模塊組成。而coordinate attention從橫向與縱向兩個方向?qū)χ匾奶卣骷右躁P(guān)注。考慮到這些網(wǎng)絡(luò)對目標特征的關(guān)注都缺少全面性,本文設(shè)計了空間三坐標注意力模塊,從橫向、縱向與通道3個方向?qū)μ卣鬟M行聚合、分離再疊加,盡可能保證每一部分含有信息的特征能夠得到保留,使網(wǎng)絡(luò)從多個角度對重要特征進行關(guān)注。

      如圖2所示,對于特征維度為C×T×W×H的特征圖F,先將時間維度與通道維度互換,再分別對其橫向、縱向與通道向進行平均值池化操作,編碼3個坐標方向的信息用于后續(xù)提取權(quán)重系數(shù),具體為

      Fh=fhp(F)
      Fv=fvp(F)
      Fc=fcp(F)

      (4)

      式中,fhp、fvp和fcp分別表示橫向、縱向和通道向的平均池化操作,F(xiàn)h、Fv和Fc表示不同方向平均池化后的特征,其維度分別為Fh∈RT×1×1×H、Fv∈RT×1×W×1和Fc∈RT×C×1×1。接下來,分別對3個特征進行兩兩融合,以橫向與通道向融合為例,先對其進行維度上的連接,再利用1×1卷積降維的思想,將其輸入到1×1卷積中進行特征融合,同時也減少計算量,再使其經(jīng)過批標準化層和激活函數(shù)層。整個過程可以表示為

      Fhc=δ(fconv_1([Fh,Fc]))

      (5)

      式中,[·,·]表示向量連接操作,fconv_1表示1×1卷積層,δ表示ReLU激活函數(shù),F(xiàn)hc表示融合了橫向與通道向的注意力特征,其維度為Fhc∈RT/r×1×(H+C),其中,r表示與SE Net(Hu等,2021)中相同的壓縮率,取r= 16,主要用來控制模塊大小,降低計算量。同樣,可得Fhv∈RT/r×1×(H+W),表示融合了橫向與縱向的注意力特征,F(xiàn)vc∈RT/r×1×(W+C)表示融合了縱向與通道向的注意力特征。完成兩兩方向的特征融合之后,接下來,對Fhc、Fhv和Fvc分別進行分離操作。分離操作可以得到每個方向單獨的注意力特征,再將相同方向的注意力特征疊加,最后,經(jīng)過 sigmoid 函數(shù)得到各方向的權(quán)重作為最后的加權(quán)使用,表達式為

      Ghf=σ(fhf(split(Fhc)+split(Fhv)))
      Gvf=σ(fvf(split(Fhv)+split(Fvc)))
      Gcf=σ(fcf(split(Fhc)+split(Fvc)))

      (6)

      式中,split(·)表示分離操作,fhf、fvf和fcf表示1×1卷積層,用于將壓縮的維度還原成原始維度,σ(·)表示sigmoid函數(shù)。通過式(6),最終得到的橫向、縱向和通道向的注意力特征分別為Ghf∈RT×1×1×H、Gvf∈RT×1×W×1和Gcf∈RT×C×1×1。最后,空間三坐標注意力模塊的輸出表示為

      Y=F×Ghf×Gvf×Gcf

      (7)

      第2.4 節(jié)消融實驗證明,與不帶 STCA 模塊的網(wǎng)絡(luò)相比,加入 STCA 模塊并且結(jié)合多層次特征融合的方式可以帶來較大的性能提升。

      1.2 時間壓縮自注意力模塊(TRSA)

      圖3為本文設(shè)計的時間壓縮自注意力模塊,設(shè)計該模塊的初衷是為了充分利用3D解碼器的結(jié)構(gòu)特點,對于時間維度的信息進行選擇性提取,這是以往多目標跟蹤與分割模型未考慮的,本文模型受Transformer(Vaswani等,2017)和non-local neural networks(Wang等,2018)的啟發(fā),著重關(guān)注時間維度上的特征,并且原始non-local網(wǎng)絡(luò)計算量巨大,本文設(shè)計的TRSA模塊通過兩個方面降低維度,大幅減少了計算復雜度與內(nèi)存占用。

      如圖3所示,對于維度為C×T×W×H的特征圖F,該模塊先通過3個1×1×1的3D卷積,卷積層的目的就是降低維度至Td,Td=T/2,對除時間維度以外的維度進行融合,得到3個維度為Td×CWH的矩陣,然后對其分別進行降維,使用conv1卷積降維成Td×S維,S根據(jù)輸入特征大小不同進行調(diào)整,這樣可以大幅減少后期的矩陣運算量。接著,對其中兩個矩陣進行轉(zhuǎn)置操作,再將未轉(zhuǎn)置矩陣與轉(zhuǎn)置矩陣相乘,得到S×S維的矩陣,再經(jīng)過softmax函數(shù),得到注意力權(quán)重,與S×Td維特征相乘,可以得到S×Td維向量,再經(jīng)過升高維度,維度重排與1×1的3D卷積還原為維度為C×T×W×H的特征。

      第2.3節(jié)的定性分析和第2.4 節(jié)的消融實驗表明,與不帶 TRSA模塊的網(wǎng)絡(luò)相比,加入 TRSA 模塊可使網(wǎng)絡(luò)在跟蹤與分割目標時對遮擋的目標更為魯棒,因此給最后結(jié)果帶來較大的性能提升。

      2 實驗結(jié)果分析

      2.1 實驗設(shè)置

      測試數(shù)據(jù)集為YouTube-VIS(YouTube video instance segmentation)(Yang等,2019)和KITTI MOTS(multi-object tracking and segmentation)(Voigtlaender等,2019a)。針對YouTube-VIS數(shù)據(jù)集,本文聯(lián)合YouTube-VIS和COCO(common objects in context)進行訓練(對COCO訓練集,本文僅使用與YouTube-VIS數(shù)據(jù)集重合的20個對象類),輸入圖像塊的尺寸設(shè)置為 640×1 152 像素,沿用MaskTrack R-CNN中的評價指標AP(average precision)和AR(average recall)來評價模型跟蹤與分割的性能。針對KITTI MOTS數(shù)據(jù)集,本文在KITTI MOTS訓練集上進行訓練,輸入圖像塊的尺寸設(shè)置為 544×1 792像素,沿用TrackR-CNN中的評價指標sMOTSA(soft multi-object tracking and segmentation accuracy)、MOTSA(multi-object tracking and segmentation accuracy)、MOTSP(multi-object tracking and segmentation precision和IDS(ID switch)來評價模型跟蹤與分割的性能。采用隨機翻轉(zhuǎn)、視頻逆序和圖像亮度增強等方法進行數(shù)據(jù)增強。對于所有實驗,使用ResNet-101作為網(wǎng)絡(luò)的骨干網(wǎng)絡(luò),并使用在COCO訓練集上訓練的Mask R-CNN(He等,2017)預訓練模型的權(quán)重對骨干網(wǎng)絡(luò)進行初始化,解碼器網(wǎng)絡(luò)權(quán)重使用隨機初始化權(quán)重的方法。

      隨機選取連續(xù)幀的參數(shù)T= 8,最小訓練批次大小設(shè)置為 1。網(wǎng)絡(luò)參數(shù)使用 SGD(stochastic gradient descent)優(yōu)化器,其動量為0.9。使用3個損失函數(shù)進行訓練,分別是用于學習特征嵌入向量的Lovsz Hinge損失函數(shù)(Berman等,2018)、用于學習方差值的smoothness損失函數(shù)和用于生成實例中心熱圖的L2損失。初始學習率設(shè)置為1E-3,并且每個 epoch 學習率呈指數(shù)衰減。本文利用 Pytorch 框架在 1 塊 GeForce RTX 3090 GPU上進行模型訓練與測試。

      2.2 定量分析

      表1是本文算法與其他先進的多目標跟蹤和分割算法在YouTube-VIS數(shù)據(jù)集進行比較的結(jié)果。這些算法包括OSMN MaskProp(efficient video object segmentation via network modulation)(Yang等,2018)、FEELVOS(fast end-to-end embedding learning for video object segmentation)(Voigtlaender等,2019a)、IoUTracker+(Yang等,2019)、OSMN(Yang等,2018)、DeepSORT(Wojke等,2017)、MaskTrack R-CNN(Yang等,2018)、SeqTracker(Yang等,2018)、STEm-Seg(spatio-temporal embeddings for instance segmentation)(Athar等,2020)和CompFeat(comprehensive feature aggregation)(Fu等,2020)。可以看出,本文算法在AP和AR指標上都取得最好成績。相比其他大多數(shù)算法而言,本文算法未使用第1幀信息、現(xiàn)成的檢測框架或額外的光流信息,而是一套集檢測、跟蹤和分割于一體的端到端的框架。

      表1 YouTube-VIS 驗證集結(jié)果Table 1 YouTube-VIS validation results /%

      表2是本文算法與其他先進的多目標跟蹤和分割算法在KITTI MOTS數(shù)據(jù)集進行比較的結(jié)果,這些算法包括UnOVOST(unsupervised offline video object segmentation and tracking)(Luiten等,2020)、TrackRCNN(Voigtlaender等,2019a)和STEm-Seg(Athar等,2020)。在汽車類的跟蹤和分割中,本文網(wǎng)絡(luò)在sMOTSA、MOTSA和MOTSP指標上取得了第2名的成績,而第1名的TrackRCNN既使用了檢測框架又使用了額外的ReID網(wǎng)絡(luò),無法實現(xiàn)端到端訓練。在IDS指標上本文的STFNet取得了最好的結(jié)果。IDS表征的是跟蹤軌跡錯誤切換的指標,這說明本文融合時空特征的網(wǎng)絡(luò)結(jié)構(gòu)對目標遮擋起到了作用。在行人類別中,本文結(jié)果在各指標上都取得了最好的結(jié)果。

      表2 KITTI MOTS 驗證集結(jié)果Table 2 KITTI MOTS validation results

      2.3 定性分析

      圖4展示了本文STFNet在兩個數(shù)據(jù)集上定性分析的部分實驗結(jié)果??梢钥闯?,本文算法在面對目標互相遮擋和背景遮擋情況下具有優(yōu)越的性能。例如圖4(a),STFNet利用了跟蹤目標在未被遮擋的圖像幀中的信息,保持住了原來的軌跡,這就是本文提出的時空特征融合模型的作用,即能夠通過未遮擋幀的信息彌補被遮擋幀的信息。同樣的情況出現(xiàn)在圖4(b)中,本文算法在目標經(jīng)過多次遮擋后依然能保持目標的原始軌跡,并且在圖4(b)中可以明顯看到,當兩個相似對象空間位置相近時,本文算法由于有著空間三坐標注意力機制的作用,在這種情況下依然能很好地分割出每個目標。圖4(c)(d)展示了STFNet對目標輪廓良好的分割效果,反映了STCA模塊對空間信息挖掘的作用,通過使網(wǎng)絡(luò)自動有選擇地忽略背景信息與提取前景信息來做到分離前后背景。

      圖4 定性描述部分實驗結(jié)果Fig.4 Qualitative description of some experimental results((a) KITTI MOTS 0006;(b) KITTI MOTS 0016;(c) YouTube-VIS 28;(d) YouTube-VIS 98)

      2.4 消融實驗

      對本文網(wǎng)絡(luò)中的STCA和TRSA模塊以及STCA改進前的CA(coordinate attention)模塊進行消融實驗。實驗結(jié)果如表3所示,所有數(shù)據(jù)是在KITTI MOTS的汽車類上進行跟蹤和分割的結(jié)果。首先是CA模塊的效果,表中第2行對比第1行可知,CA模塊對網(wǎng)絡(luò)跟蹤和分割的效果影響較小,對原本的baseline幾乎沒有影響,表明CA模塊對關(guān)鍵上下文信息的關(guān)注度不夠,沒有達到提取關(guān)鍵特征的設(shè)計要求,而本文提出的STCA模塊對網(wǎng)絡(luò)效果有著較好提升,相較原本的基準模型提升了0.5%,由此可見,STCA模塊彌補了CA模塊的不足,通過3個方向的注意力模塊成功捕獲了關(guān)鍵特征。然后是TRSA模塊,性能也提高了0.3%,主要是因為TRSA模塊充分利用了3D卷積解碼器的特點,關(guān)注重要的關(guān)鍵幀信息,因此可以較好地提升跟蹤與分割的性能。最后是本文整個網(wǎng)絡(luò),融合了STCA模塊和TRSA模塊,即融合了時空特征,顯而易見,取得了最好的結(jié)果。

      表3 消融實驗Table 3 Ablative study

      3 結(jié) 論

      提出一種時空特征融合的多目標跟蹤與分割網(wǎng)絡(luò)的算法,實現(xiàn)了高精度的多目標跟蹤與分割,并且可以一定程度抵抗目標遮擋等問題。網(wǎng)絡(luò)首先通過骨干網(wǎng)絡(luò)提取出不同分辨率圖像的特征;然后從低分辨率的特征開始,通過空間三坐標注意力模塊和時間壓縮自注意力模塊,得到獲得關(guān)鍵信息關(guān)注的空間特征和獲得關(guān)鍵幀信息的時間特征,并將兩者與原始特征融合;隨后通過3D卷積層與較高分辨率的特征進行融合,利用3D卷積的效果反復聚合不同層次的特征,得到融合多次既有關(guān)鍵時間信息又有重要空間特征的特征圖,從而得到最后的跟蹤和分割結(jié)果。實驗結(jié)果表明,本文算法在YouTube-VIS 數(shù)據(jù)集上的各項指標都取得了最優(yōu)結(jié)果,在KITTI MOTS數(shù)據(jù)集上多項指標也取得了最優(yōu)結(jié)果。

      然而,多目標跟蹤與分割依然是一個充滿挑戰(zhàn)的新方向,存在缺少更多的相關(guān)數(shù)據(jù)集和缺乏領(lǐng)域獨特方法等問題,尤其是現(xiàn)有的多目標跟蹤與分割算法大多沿用多目標跟蹤算法的思路,但在如何充分利用像素級別的分割標注上并沒有較好的相關(guān)工作,這其實是兩個方向的一個根本區(qū)別。因此,本文后續(xù)將進一步研究如何將實例級別的分割標注更加充分地利用到這個新方向上,以此改善算法性能。

      猜你喜歡
      注意力卷積維度
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      淺論詩中“史”識的四個維度
      中華詩詞(2019年7期)2019-11-25 01:43:00
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標跟蹤算法
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      光的維度
      燈與照明(2016年4期)2016-06-05 09:01:45
      “五個維度”解有機化學推斷題
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      滦南县| 隆林| 女性| 南汇区| 锡林郭勒盟| 鹤峰县| 濉溪县| 满洲里市| 东明县| 额济纳旗| 全南县| 巴里| 湄潭县| 囊谦县| 疏勒县| 新干县| 仁化县| 涟源市| 康马县| 甘泉县| 克什克腾旗| 建瓯市| 当雄县| 凌云县| 滦南县| 乌审旗| 周至县| 宽甸| 瑞昌市| 怀集县| 根河市| 会宁县| 遵义市| 汤阴县| 威海市| 花莲市| 巩义市| 晋城| 榆中县| 南陵县| 甘肃省|