• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于注意力機制上下文建模的弱監(jiān)督動作定位

      2024-01-02 08:35:26黨偉超高改梅劉春霞
      軟件導刊 2023年12期
      關鍵詞:注意力背景閾值

      黨偉超,王 飛,高改梅,劉春霞

      (太原科技大學 計算機科學與技術學院,山西 太原 030024)

      0 引言

      視頻時序動作定位是視頻理解中的一個重要任務,動作定位相比動作識別難度更高[1-3],不僅需要檢測出視頻中動作片段的開始時間和結(jié)束時間,還需要對動作進行分類。隨著計算機計算性能的提升和圖形處理器的普及,深度學習技術開始運用于視頻理解領域。基于深度學習的動作定位方法可分為強監(jiān)督動作定位和弱監(jiān)督動作定位兩種。強監(jiān)督動作定位需要人工標注出每一個動作實例的類別、開始時間以及結(jié)束時間,這些工作非常耗時且很容易出現(xiàn)錯誤[4-7];弱監(jiān)督動作定位省去了一部分人力標注成本,但缺乏幀級別分類標簽,很容易發(fā)生動作幀沒有被識別或識別錯誤的情況。為提高動作定位的準確率,大多數(shù)弱監(jiān)督動作定位模型都會結(jié)合注意力機制來生成幀級注意力值?;谧⒁饬C制的弱監(jiān)督動作定位可以分為兩種方式:一種是自上而下的方式。該方式需先訓練一個視頻分類器,利用分類器產(chǎn)生的分類激活序列(Class Activation Sequence,CAS)獲得幀級別的注意力分數(shù)。例如Paul 等[8]提出的W-TALC 是目前比較成熟的自上而下的模型;Islam 等[9]提出的HAM-Net 也是一種自上而下的弱監(jiān)督動作定位方法,其利用混合注意力機制分離視頻中的動作幀和背景幀,同時定位得到動作實例發(fā)生的完整時間邊界。另一種是自下而上的方式。該方式直接從原始視頻特征中提取前景和背景注意力,例如Nguyen 等[10]提出的STPN 模型利用視頻特征提取注意力分數(shù),并在此基礎上加入注意力稀疏性損失加強視頻中動作幀的稀疏性;Shi 等[11]提出的DGAM 動作定位模型將原始特征和從特征中提取到的注意力同時輸入到一個條件變分自編碼器模塊中進行重構(gòu),利用重建損失降低重構(gòu)特征與視頻特征誤差。

      然而以上方法存在對特征不明顯的動作幀難以識別,以及動作幀和上下文幀識別錯誤的問題。為此,本文提出一種基于注意力機制上下文建模的弱監(jiān)督動作定位方法,利用注意力機制提取視頻中的關鍵動作信息,用于分離動作—背景幀;在此基礎上引入半軟注意力,引導模型識別視頻中特征不明顯的動作幀;同時對視頻中的上下文信息建模,使模型可以識別上下文幀,從而解決動作幀—上下文幀易混淆的問題。

      1 相關研究

      1.1 視頻動作識別

      視頻動作識別任務主要是指對裁剪好的短視頻進行動作分類。在該方面研究中,Simonyan 等[12]首先提出基于雙流卷積神經(jīng)網(wǎng)絡的動作識別算法,使用空間流網(wǎng)絡處理空間信息,時間流網(wǎng)絡處理時間信息;Wang 等[13]采用稀疏采樣方案,通過平均聚集的方式對長時視頻信息進行建模;Donahue 等[14]應用長時遞歸卷積網(wǎng)絡捕捉視頻中的時序信息;Karpathy 等[15]采用卷積神經(jīng)網(wǎng)絡提取視頻中每一幀的特征,然后完成動作分類;Tran 等[16]提出C3D 網(wǎng)絡用于動作識別,采用3D 卷積核提取視頻中的時間和空間信息。動作識別是視頻內(nèi)容理解中的一個基礎任務,弱監(jiān)督動作定位算法可以采用預訓練好的動作識別模型提取視頻特征。

      1.2 弱監(jiān)督動作定位

      視頻動作定位不僅需要識別動作類別,還需要定位每個動作的開始時間和結(jié)束時間。與強監(jiān)督動作定位相比,弱監(jiān)督動作定位無需幀級標簽且減少了時間軸標注人力成本和時間成本。近年來,弱監(jiān)督動作定位相關研究成果豐碩。針對動作—上下文易混淆的問題,Liu 等[17]提出ACSNet 模型,通過擴展上下文類別標簽將動作幀與上下文幀解耦,從而實現(xiàn)動作—上下文幀的分離。針對動作完整性邊界問題,Singh 等[18]提出Hide-Seek 模型,在訓練樣本過程中隨機隱藏一些幀,使分類網(wǎng)絡能夠?qū)W習到區(qū)分度相對較低的視頻幀;Zhong 等[19]提出的Step-by-step 方法利用迭代訓練多個分類器來檢測同一動作實例的互補片段;Liu 等[20]提出的弱監(jiān)督動作定位模型采用多分支網(wǎng)絡和多樣性損失檢測同一個動作實例的不同動作片段。

      本文采用自上而下的方式進行動作定位。為驗證模型有效性,在對比實驗部分比較該模型與W-TALC 模型[8],HAM-Net 模型[9],DGAM 模型[11],ACSNet 模型[17]等弱監(jiān)督定位模型在不同IoU 閾值下的平均檢測精度均值(mAP)。

      1.3 注意力機制

      神經(jīng)網(wǎng)絡通過引入注意力機制對樣本進行全局掃描,進而發(fā)現(xiàn)有用信息,并為樣本分配一組權(quán)重來增強關鍵信息、抑制冗余。根據(jù)注意力是否可微,可將其分為硬注意力和軟注意力兩種[21],其中硬注意力不可微,某個區(qū)域的注意力值非0 即1;軟注意力可微,每個區(qū)域的注意力值是介于0~1的數(shù)值。

      本文利用注意力機制為每個樣本學習得到特定的半軟閾值,并利用半軟閾值將軟注意力得分中高于閾值的區(qū)域值置為0,余下區(qū)域的注意力值不變,得到半軟注意力。引入半軟注意力可以引導模型關注視頻中運動特征不明顯的動作幀,同時借助注意力機制權(quán)重分配方式聚焦于輸入視頻序列中的時間上下文信息,完成上下文建模,實現(xiàn)動作幀與上下文幀的分離。

      2 動作定位模型

      2.1 整體框架

      動作定位模型整體框架如圖1 所示,主要包括特征提取、視頻分類模型和注意力模型3 個部分。特征提取部分采用預訓練好的I3D 模型[22]分別獲取視頻RGB 和光流特征,然后對RGB 和光流特征進行拼接,得到雙流視頻特征。分類模型生成幀級別的分類激活序列。注意力模型分為動作—背景分支和上下文分支,其中動作—背景分支提取視頻的動作注意力和背景注意力分數(shù),并利用半軟注意力引導模型識別特征不明顯的動作幀;上下文分支利用視頻上下文信息建模,提取上下文幀的注意力分數(shù),使模型可以分離動作幀與上下文幀。視頻類別標簽可以表示為y∈{0,1}C+1,視頻包含第j類動作,則y(j)=1,不包含則y(j)=0,第C+1 維表示背景類別。利用視頻類別標簽訓練模型,并對幀級分類激活序列和動作注意力分數(shù)進行處理以完成動作定位。

      Fig.1 Framework of action localization model圖1 動作定位模型框架

      2.2 視頻分類模型

      視頻分類模型包含兩個卷積層,模型輸出結(jié)果為幀級動作分類激活序列CAS。表示為:

      式中:X為提取到的雙流視頻特征;Wcls和bcls分別為分類網(wǎng)絡卷積層的權(quán)重和偏差;* 為卷積操作;CAS∈RT×(C+1)表示幀級的動作類別分數(shù);T為視頻片段數(shù);第C+1類為背景類別。

      2.3 基于動作—背景注意力的弱監(jiān)督動作定位

      2.3.1 動作—背景注意力分支

      動作—背景注意力分支提取視頻的幀級動作注意力和背景注意力分數(shù),該分支由注意力模型提取視頻注意力值后進行softmax運算以區(qū)分動作注意力與背景注意力。計算公式為:

      注意力模型由兩層卷積組成,其中X為雙流視頻特征;Watt和batt分別表示注意力網(wǎng)絡的權(quán)重參數(shù)和偏差;Ains - bak∈RT×2表示視頻片段總數(shù)為T;每個片段包含動作注意力分數(shù)attins和背景注意力分數(shù)attbak,總和為1。

      動作注意力抑制背景幀的類激活分數(shù),因此動作分支視頻標簽為yins=[y(j)=1,y(C+1)=0];背景注意力抑制動作幀的類激活分數(shù),因此背景分支視頻標簽為ybak=[y(j)=0,y(C+1)=1]。圖2 為動作—背景注意力分支結(jié)構(gòu)。

      Fig.2 Action-background attention branch structure圖2 動作—背景注意力分支結(jié)構(gòu)

      將動作和背景注意力分別與幀級分類序列CAS 相乘,得到兩種注意力加權(quán)得到的幀級分類激活分數(shù)。采用TOP-K 方法[8]對幀級分類激活序列中每個動作類別沿著時間維度上聚合TOP-K 得分并求平均值,得到視頻級分類得分。計算公式為:

      2.3.2 半軟注意力

      為更加準確地優(yōu)化動作注意力分布,使模型可以識別動作特征不明顯的視頻幀,采用半軟閾值γ擦除動作注意力分數(shù)attins中高于閾值γ的片段,以提取半軟注意力分數(shù)attsemi-soft。計算公式為:

      式中:閾值γ并非人工經(jīng)驗設置的固定值,而是通過神經(jīng)網(wǎng)絡結(jié)合注意力機制為每一個視頻樣本設置的一個特定值。提取到半軟注意力分數(shù)后,首先通過點積運算求得半軟注意力加權(quán)的幀級分類序列;然后根據(jù)式(3)聚合平均得到視頻分類得分,并在類別維度進行softmax運算得到semi-soft;最后結(jié)合視頻標簽ysemi-soft構(gòu)建半軟注意力分類損失函數(shù)訓練模型。半軟注意力分支的視頻標簽為ysemi - soft=yins=[y(j)=1,y(C+1)=0];半軟分類損失函數(shù)表示為:

      2.4 基于上下文注意力的弱監(jiān)督動作定位

      動作—背景注意力分支沒有考慮上下文幀對動作定位的影響,導致模型難以區(qū)分動作幀和上下文幀,因此本文增加上下文注意力分支,利用注意力模型對動作、背景以及上下文進行分類。注意力模型提取幀級上下文注意力后,采用softmax區(qū)分上下文注意力和動作—背景注意力。計算公式為:

      式中:X為雙流視頻特征;Watt和batt為注意力網(wǎng)絡參數(shù);上下文注意力Acon∈RT×1;T為視頻片段數(shù),每個視頻片段上下文注意力與動作—背景注意力的和為1。

      上下文幀與動作類別相關,常與動作幀一起發(fā)生,但其運動特征稀疏,這又與靜態(tài)背景幀類似,因此設置上下文分支視頻類別標簽ycon=[y(j)=1,y(C+1)=1]。圖3為上下文注意力分支結(jié)構(gòu)。

      Fig.3 Context attention branch structure圖3 上下文注意力分支結(jié)構(gòu)

      將上下文注意力分數(shù)與CAS相乘,得到上下文注意力加權(quán)后的幀級分類激活序列,然后采用式(3)聚合平均得到視頻級別的分類得分,并且在類別維度進行softmax運算,得到預測的視頻動作分類分數(shù)。利用視頻級標簽ycon和預測值計算上下文分類損失函數(shù)。計算公式為:

      2.5 動作定位

      獲取到動作注意力分數(shù)attins和動作注意力加權(quán)后的幀級分類分數(shù)CASins后,首先過濾掉attins和CASins中低于預設閾值的部分,然后選擇剩余連續(xù)片段產(chǎn)生動作提議(ts、te、c、φ),表示動作開始時間、結(jié)束時間、預測類別以及置信度分數(shù)。置信度分數(shù)的計算方式參照文獻[20],利用每個動作提議的內(nèi)部和外部區(qū)域得分比較產(chǎn)生置信度。實驗過程中采用設置多個閾值的方式增加動作提議數(shù)量,并引入非極大值抑制重疊程度高的提議。

      2.6 網(wǎng)絡訓練

      模型采用視頻級分類損失函數(shù)Lcls、注意力引導損失函數(shù)Lguide以及稀疏注意力損失函數(shù)Lsparse進行訓練。最終損失函數(shù)表示為:

      式中:α1、α2、α3、α4、β1、β2為平衡整體損失項的超參數(shù);Lcls由視頻級動作分類損失、背景分類損失、半軟分類損失和上下文分類損失構(gòu)成。

      注意力引導損失利用動作注意力作為幀級監(jiān)督優(yōu)化視頻分類模型,使分類激活序列與動作注意力趨于一致,有助于產(chǎn)生更加準確的動作分類結(jié)果。計算公式為:

      稀疏注意力損失分別對動作注意力和上下文注意力進行L1 范式運算,并將二者的值相加取時域平均值。計算公式為:

      式中:attins(t)、attcon(t)分別表示時間段t的動作注意力和上下文注意力分數(shù);T為視頻片段數(shù)。

      3 實驗方法與結(jié)果分析

      3.1 實驗環(huán)境

      使用PyTorch 1.7 框架,實驗設備為NVIDIA GeForce GTX 1660Ti GPU,使用Adam 優(yōu)化器。

      3.2 數(shù)據(jù)集

      為驗證所提方法對視頻動作定位的有效性,本文在THUMOS14 數(shù)據(jù)集[23]和ActivityNet1.3 數(shù)據(jù)集[24]上進行消融實驗和比較實驗。THUMOS14數(shù)據(jù)集中訓練集包含2 765個修剪視頻,驗證集包含200 個未修剪視頻,測試集包含212個未修剪視頻。選取驗證集用于模型訓練,測試集用于測試模型性能。視頻一共包含20 種不同類別的動作,平均每個視頻包含15.5 個動作實例,視頻中超過70%的幀為上下文幀和背景幀。

      ActivityNet1.3 數(shù)據(jù)集中包含10 024 個未剪輯視頻用于模型訓練,4 926 個未剪輯視頻用于模型性能測試。視頻一共包含200 種不同類別的動作,平均每個視頻包含1.6個動作實例,其中約36%的視頻幀屬于上下文幀和背景幀。

      3.3 評價指標

      采用在不同 IoU 閾值下的平均檢測精度(mAP)進行動作定位的準確性評估,其中THUMOS14 數(shù)據(jù)集的閾值IoU 范圍為0.10~0.70,間隔為0.1;ActivityNet1.3 數(shù)據(jù)集的閾值 IoU 范圍為 0.50~0.95,間隔為0.05。

      3.4 消融實驗

      為驗證在動作—背景注意力分支中加入半軟注意力對于模型識別動作特征不明顯視頻幀的改善效果,在THUMOS14 數(shù)據(jù)集上進行第一組消融實驗。在基線對照組的基礎上加入半軟分類損失,分別計算模型在IoU 閾值為0.5 時的mAP 和動作漏檢率,其中漏檢率為視頻中未被成功檢測為動作幀的個數(shù)與全部動作幀個數(shù)的比值。實驗結(jié)果如表1 所示。可以看出,與基線實驗1 和實驗2 相比,加入半軟注意力后(實驗3)的mAP@0.5 分別提高了11.7%和4.3%,動作漏檢率分別降低了7.1%和3.6%,說明半軟注意力可以提高模型對特征不明顯動作幀的識別效果。

      Table 1 Result of first ablation experiment表1 第一組消融實驗結(jié)果

      為驗證加入上下文注意力對于模型識別動作幀和上下文幀的改善效果,在THUMOS14 數(shù)據(jù)集上進行第二組消融實驗,計算模型在IoU 閾值為0.5 時的mAP,結(jié)果如表2所示。可以看出,與基線實驗1 和實驗2 相比,單獨加入上下文注意力(實驗4)后mAP@0.5 分別提高了12.0%和閾值為0.5 時,本文模型在THUMOS14 和ActivityNet1.3 數(shù)據(jù)集上的平均檢測精度分別達到32.6%和38.6%,優(yōu)于其他弱監(jiān)督動作定位模型,驗證了基于注意力機制上下文建模方法的有效性。4.6%;與實驗3 相比,在半軟注意力基礎的上加入上下文注意力(實驗5)后mAP@0.5 提高了0.8%。圖4 為模型引入全部分類損失后CAS 和動作注意力加權(quán)后CAS 的分布情況,可以看出動作注意力抑制了原始CAS 數(shù)值。表2 和圖4 數(shù)據(jù)證實了上下文建??梢詤^(qū)分視頻動作幀與上下文幀。

      Table 2 Result of the second ablation experiment表2 第二組消融實驗結(jié)果

      Fig.4 Distribution of CAS圖4 CAS分布情況

      為驗證注意力引導損失Lguide和稀疏性損失Lsparse對模型注意力值分布的優(yōu)化效果,在THUMOS14 數(shù)據(jù)集上進行第三組消融實驗,結(jié)果見表3。可以看出,同時引入Lguide和Lsparse后,mAP@0.5 達到32.6%,證明了兩種損失函數(shù)對動作定位的有效性。

      Table 3 Result of the third ablation experiment表3 第三組消融實驗結(jié)果

      3.5 與其他模型的比較實驗

      在THUMOS14 數(shù)據(jù)集上與W-TALC[8]、HAM-Net[9]、DGAM[11]、ACS-Net[18]、BasNet[25]、A2CL-PT[26]、CoLA[27]等弱監(jiān)督動作動作定位模型的定位效果進行比較,在ActivityNet1.3 數(shù)據(jù)集上與STPN[10]、BasNet[25]、A2CL-PT[26]、MAAN[28]、TSM[29]、TSCN[30]、Huang et al[31]等弱監(jiān)督動作定位模型的定位效果進行比較,結(jié)果見表4、表5,表中AVG 指間隔0.05 取得的mAP 平均值??梢钥闯觯?IoU

      Table 5 Comparison mAP values of different models on ActivityNet1.3 dataset表5 不同模型在ActivityNet1.3數(shù)據(jù)集上的比較

      4 結(jié)語

      為解決弱監(jiān)督動作定位方法對特征不明顯的動作幀難以識別以及動作—上下文幀易混淆的問題,本文提出一種基于注意力機制上下文建模的動作定位模型,在公共數(shù)據(jù)集THUMOS14 和ActivityNet1.3 上與主流弱監(jiān)督動作定位模型的定位效果進行了比較,發(fā)現(xiàn)在IoU 閾值為0.5 時,本文模型的mAP 值均高于其他比較模型,證實了引入半軟注意力可以引導模型檢測到特征不明顯的動作幀,通過上下文注意力對上下文信息建??梢苑蛛x視頻中的動作—上下文幀。未來考慮設計細粒度的上下文建模方法,以進一步提高模型的動作定位效果。

      猜你喜歡
      注意力背景閾值
      讓注意力“飛”回來
      “新四化”背景下汽車NVH的發(fā)展趨勢
      《論持久戰(zhàn)》的寫作背景
      當代陜西(2020年14期)2021-01-08 09:30:42
      小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應用
      基于自適應閾值和連通域的隧道裂縫提取
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      晚清外語翻譯人才培養(yǎng)的背景
      A Beautiful Way Of Looking At Things
      室內(nèi)表面平均氡析出率閾值探討
      常德市| 石渠县| 南昌市| 上虞市| 陆河县| 文安县| 玉田县| 夏邑县| 望谟县| 安多县| 禹州市| 罗江县| 桐城市| 东阿县| 澄迈县| 武清区| 潮安县| 临邑县| 东莞市| 巨鹿县| 新疆| 游戏| 潢川县| 辉南县| 桃源县| 富锦市| 常德市| 林口县| 海林市| 崇信县| 灵台县| 开封市| 正蓝旗| 收藏| 南充市| 固始县| 嘉禾县| 西林县| 肃南| 徐汇区| 呼伦贝尔市|