• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多階段邊界參考網(wǎng)絡(luò)的動(dòng)作分割

      2022-03-07 05:44:08毛琳曹哲楊大偉張汝波
      光學(xué)精密工程 2022年3期
      關(guān)鍵詞:邊界卷積錯(cuò)誤

      毛琳,曹哲,楊大偉,張汝波

      多階段邊界參考網(wǎng)絡(luò)的動(dòng)作分割

      毛琳,曹哲*,楊大偉,張汝波

      (大連民族大學(xué) 機(jī)電工程學(xué)院,遼寧 大連 116600)

      針對(duì)現(xiàn)有動(dòng)作分割算法中過(guò)分割問(wèn)題導(dǎo)致預(yù)測(cè)錯(cuò)誤、造成分割質(zhì)量下降的現(xiàn)象,提出一種可調(diào)視頻動(dòng)作邊界信息作為參考的多階段參考網(wǎng)絡(luò),在基于多階段時(shí)間卷積網(wǎng)絡(luò)的主干網(wǎng)絡(luò)中,為每個(gè)階段獨(dú)立引入視頻動(dòng)作邊界信息作為參考。各階段使用相同的邊界信息會(huì)使模型固化,為使主干網(wǎng)絡(luò)能夠調(diào)整參與各階段輸出計(jì)算的邊界值,對(duì)不同樣本區(qū)分處理,提出多層并行卷積組成的權(quán)重調(diào)節(jié)單元。多階段參考網(wǎng)絡(luò)由于利用可調(diào)邊界信息作為參考,按照時(shí)序平滑處理各階段輸出,能顯著減少過(guò)分割錯(cuò)誤。實(shí)驗(yàn)表明,該方法在三個(gè)視頻動(dòng)作分割數(shù)據(jù)集GTEA,50Salads和Breakfast中的性能優(yōu)于現(xiàn)存同類方法,與BCN(Boundary-Aware Cascade Networks)算法相比,分割編輯分?jǐn)?shù)平均提升1.7%,準(zhǔn)確率與召回率的調(diào)和分?jǐn)?shù)平均提升1.5%。

      視頻動(dòng)作分割;時(shí)間卷積網(wǎng)絡(luò);視頻動(dòng)作邊界;未裁剪視頻

      1 引 言

      針對(duì)未裁剪視頻的動(dòng)作分割是計(jì)算機(jī)視覺(jué)領(lǐng)域中最有挑戰(zhàn)性的任務(wù)之一,應(yīng)用前景包括行為分析、視頻監(jiān)控、人機(jī)交互以及視頻審核等多個(gè)領(lǐng)域。現(xiàn)有的動(dòng)作分割算法普遍存在過(guò)分割問(wèn)題,即原本連續(xù)的長(zhǎng)動(dòng)作區(qū)間內(nèi)預(yù)測(cè)出短暫或單幀的錯(cuò)誤分割結(jié)果。過(guò)分割會(huì)明顯降低動(dòng)作分割質(zhì)量,使算法在實(shí)際應(yīng)用中的可靠性降低。

      近年來(lái),圖像及短視頻中的人體動(dòng)作識(shí)別任務(wù)已經(jīng)取得很大的進(jìn)展[1-2],但針對(duì)未裁剪的長(zhǎng)視頻中的動(dòng)作分割任務(wù)尚未被廣泛研究。解決長(zhǎng)視頻中的動(dòng)作分割任務(wù),需要很好地處理時(shí)序問(wèn)題,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不適合時(shí)序問(wèn)題的建模,受卷積核大小的限制,不能很好抓取長(zhǎng)時(shí)依賴關(guān)系。受語(yǔ)音合成領(lǐng)域中使用時(shí)間卷積網(wǎng)絡(luò)的WaveNet[3]的啟發(fā),研究人員嘗試將類似思想用于視頻動(dòng)作分割任務(wù)中。Lea等人提出一種用于動(dòng)作分割的時(shí)間卷積網(wǎng)絡(luò)(Temporal Convolutional Networks,TCN)[4],在多種任務(wù)上效果甚至超過(guò)公認(rèn)適用于處理時(shí)序問(wèn)題的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[5]和(Long Short-Term Memory,LSTM)[6-7]。在此基礎(chǔ)上,F(xiàn)arha等人提出多階段時(shí)間卷積網(wǎng)絡(luò)(Multi-Stage Temporal Convolutional Network,MS-TCN)[8],每一階段都采用感受野逐層遞增的多層空洞卷積,隨著層數(shù)加深獲得的視野范圍增加,可以更好地抓取長(zhǎng)時(shí)信息。此后,視頻動(dòng)作分割算法大都采用多階段網(wǎng)絡(luò)結(jié)構(gòu)。MS-TCN的改進(jìn)工作聚焦于網(wǎng)絡(luò)復(fù)雜度的提升,如MS-TCN++[9],在MS-TCN的基礎(chǔ)上添加感受野遞減的反向多層空洞卷積,彌補(bǔ)感受野缺失。上述算法在處理過(guò)分割問(wèn)題時(shí),大都采用添加平滑損失函數(shù)的方法,但改善效果有限。

      既然單純依靠網(wǎng)絡(luò)自身的調(diào)整能力很難解決過(guò)分割問(wèn)題,一些學(xué)者就嘗試通過(guò)引入外部信息來(lái)幫助網(wǎng)絡(luò)減少過(guò)分割錯(cuò)誤。Wang等人提出一種結(jié)合動(dòng)作邊界信息的級(jí)聯(lián)型網(wǎng)絡(luò)(Boundary-Aware Cascade Networks,BCN)[10]。該網(wǎng)絡(luò)使用具有動(dòng)態(tài)建模能力的多階段網(wǎng)絡(luò)結(jié)構(gòu),根據(jù)樣本的難易程度自適應(yīng)地采用不同的子網(wǎng)進(jìn)行處理,淺層子網(wǎng)處理簡(jiǎn)單樣本,深層子網(wǎng)處理難樣本,以此提高難例樣本的分類精度。但強(qiáng)大的細(xì)分能力帶來(lái)更嚴(yán)重的過(guò)分割現(xiàn)象,作者提出引入“動(dòng)作邊界”,結(jié)合特殊的池化方法,來(lái)對(duì)主干網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行平滑處理,減少過(guò)分割錯(cuò)誤。但是引入“動(dòng)作邊界”對(duì)預(yù)測(cè)結(jié)果進(jìn)行改善的方法,往往都只對(duì)主干網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行處理。

      在一個(gè)多階段網(wǎng)絡(luò)中,僅添加單一的后處理過(guò)程難以促進(jìn)網(wǎng)絡(luò)進(jìn)行調(diào)整,在每個(gè)階段分別給予相應(yīng)的參考信息,按照時(shí)間順序優(yōu)化各階段輸出而減少網(wǎng)絡(luò)產(chǎn)生過(guò)分割錯(cuò)誤成為一種可能。綜上所述,本文在BCN基礎(chǔ)上提出一種多階段邊界參考網(wǎng)絡(luò)(Multi-Stage Boundary Reference Network,MBNet),將邊界信息引入多階段主干網(wǎng)絡(luò)中,對(duì)邊界信息的利用更加充分,并增加權(quán)重調(diào)整卷積層,改變參與各階段計(jì)算的邊界值,在賦予網(wǎng)絡(luò)更多參考信息的同時(shí),其可調(diào)性有助于避免多次使用相同邊界信息而導(dǎo)致的模型固化,幫助多階段網(wǎng)絡(luò)降低過(guò)分割錯(cuò)誤的可能性。

      2 多階段邊界參考網(wǎng)絡(luò)

      動(dòng)作分割任務(wù)適用于多種動(dòng)作連續(xù)發(fā)生的細(xì)致場(chǎng)景,例如生產(chǎn)線上、視頻監(jiān)控等單一場(chǎng)景連續(xù)動(dòng)作的檢測(cè)與識(shí)別。分割過(guò)程需要對(duì)每一幀進(jìn)行分類,但I(xiàn)OU(tIOU)在一維時(shí)序空間上計(jì)算時(shí),會(huì)對(duì)小段孤立錯(cuò)誤非常敏感,致使過(guò)分割問(wèn)題影響輸出的分割質(zhì)量。過(guò)分割問(wèn)題的產(chǎn)生是因?yàn)榫W(wǎng)絡(luò)的細(xì)分能力過(guò)強(qiáng),在長(zhǎng)動(dòng)作區(qū)間內(nèi)產(chǎn)生短暫或單幀錯(cuò)誤的預(yù)測(cè)結(jié)果。減少過(guò)分割錯(cuò)誤的方法是保持動(dòng)作類內(nèi)部預(yù)測(cè)的一致性,這就需要確定不同動(dòng)作類之間邊界的時(shí)間位置,動(dòng)作邊界信息可以給網(wǎng)絡(luò)提供規(guī)范性參考,減少過(guò)分割。

      自MS-TCN提出多階段時(shí)間卷積網(wǎng)絡(luò)結(jié)構(gòu)后,動(dòng)作分割算法基本上沿用多階段結(jié)構(gòu)。采用多階段結(jié)構(gòu)的優(yōu)點(diǎn)是能多次優(yōu)化每一幀的預(yù)測(cè)結(jié)果,使結(jié)果趨于準(zhǔn)確,這也表明過(guò)分割錯(cuò)誤并不是有規(guī)律地由單一階段產(chǎn)生,而是多層調(diào)整后仍然存在的,其產(chǎn)生由多階段處理共同造成。引入動(dòng)作邊界信息的方法,致力于改善網(wǎng)絡(luò)的最終預(yù)測(cè)結(jié)果,忽略了過(guò)分割產(chǎn)生的根本原因,效果有限。本文引用BCN結(jié)構(gòu),提出為多階段網(wǎng)絡(luò)的每個(gè)階段引入邊界信息,按時(shí)序優(yōu)化各階段輸出。在處理不同樣本時(shí),網(wǎng)絡(luò)各階段需要的邊界信息其實(shí)并不相同,調(diào)節(jié)不同階段邊界信息的參與度,能有針對(duì)性地減少過(guò)分割問(wèn)題的產(chǎn)生。因此,一種可調(diào)節(jié)的邊界信息參與特征序列計(jì)算方式,是實(shí)現(xiàn)多階段參考方案的關(guān)鍵。

      2.1 結(jié)合邊界的池化方法

      為使邊界信息參與各獨(dú)立階段的輸出計(jì)算,并賦予可調(diào)性,本文在BCN的局部邊界池化方法(Local Barrier Pooling,LBP)基礎(chǔ)上,提出帶權(quán)重調(diào)整的結(jié)合邊界池化方法(Weight-adjustment Local Barrier Pooling,WLBP)。

      LBP把動(dòng)作邊界作為池化中的限制條件,對(duì)于每一幀,在一個(gè)固定窗口下,以當(dāng)前幀為中心,向兩個(gè)方向計(jì)算權(quán)重,遇到障礙自適應(yīng)地遞減權(quán)重。其數(shù)學(xué)表達(dá)如下:

      圖1 權(quán)重計(jì)算方式

      為簡(jiǎn)化式(1),設(shè):

      則式(1)等效為:

      圖2 權(quán)重調(diào)節(jié)單元結(jié)構(gòu)

      圖3 帶權(quán)重調(diào)整的結(jié)合邊界池化方法的結(jié)構(gòu)

      2.2 多階段參考網(wǎng)絡(luò)

      每階段的置信分?jǐn)?shù)很關(guān)鍵,既用來(lái)生成下一階段的權(quán)重,又結(jié)合權(quán)重輸入到最后融合階段。所以將邊界信息用來(lái)參與每階段置信分?jǐn)?shù)的生成,平滑處理每階段潛在的過(guò)分割錯(cuò)誤,關(guān)聯(lián)整個(gè)網(wǎng)絡(luò),對(duì)邊界信息的利用達(dá)到最大化。使用WLBP的任意單個(gè)邊界參考結(jié)構(gòu)如圖4所示。

      總體來(lái)說(shuō),MBNet在多階段網(wǎng)絡(luò)的每個(gè)階段使用WLBP引入可調(diào)邊界信息,在處理不同樣本時(shí)各階段有針對(duì)性參考邊界信息,在主干網(wǎng)絡(luò)輸出結(jié)果上使用LBP結(jié)合邊界信息進(jìn)一步減少預(yù)測(cè)結(jié)果中的過(guò)分割。網(wǎng)絡(luò)整體結(jié)構(gòu)如圖5所示。

      算法流程如下:

      第1步:使用訓(xùn)練好的I3D[12]網(wǎng)絡(luò)提取視頻特征,分別輸入主干網(wǎng)絡(luò)與邊界生成模塊。

      第2步:預(yù)訓(xùn)練邊界生成模塊,提前優(yōu)化參數(shù),使模塊能夠穩(wěn)定生成可信邊界值。

      第3步:使用WLBP方法,讓邊界信息參與每階段置信分?jǐn)?shù)以及融合階段輸入的生成。使用LBP方法,結(jié)合邊界信息優(yōu)化分割結(jié)果。

      第4步:將主干網(wǎng)絡(luò)與邊界生成模塊聯(lián)合訓(xùn)練,使邊界模塊提供更準(zhǔn)確的邊界信息輔助網(wǎng)絡(luò)整體訓(xùn)練。

      圖5 MBNet結(jié)構(gòu)

      3 實(shí)驗(yàn)結(jié)果分析

      3.1 數(shù)據(jù)集

      本文在3個(gè)動(dòng)作分割數(shù)據(jù)集上測(cè)試,分別是GTEA,50Salads和Breakfast,基本情況如表1所示。其中,GTEA和Breakfast數(shù)據(jù)集都分為4批,使用4倍交叉驗(yàn)證,即取1批作為測(cè)試集,其余3批作為訓(xùn)練集,依次實(shí)驗(yàn)4次,取均值作為最終結(jié)果,50Salads數(shù)據(jù)集分5批,使用5倍交叉驗(yàn)證,取均值作為最終結(jié)果。

      表1數(shù)據(jù)集介紹

      Tab.1 Introduction of dataset

      3.2 實(shí)驗(yàn)參數(shù)

      評(píng)估指標(biāo)為幀級(jí)準(zhǔn)確度(Acc)、分割編輯分?jǐn)?shù)(Edit Score)和時(shí)間交叉閾值為0.1,0.25和0.5的F1分?jǐn)?shù)(F1@{10,25,50})。常用的精度指標(biāo)沒(méi)有考慮預(yù)測(cè)的時(shí)間結(jié)構(gòu),也沒(méi)有反映過(guò)分割錯(cuò)誤,即使含有大量不符合人類動(dòng)作連續(xù)性的動(dòng)作片段也能得到較高的分?jǐn)?shù)。因此,本文采用TCN提出的Edit分?jǐn)?shù)和MS-TCN提出的F1分?jǐn)?shù)來(lái)懲罰過(guò)分割錯(cuò)誤。

      3.3 WLBP卷積層數(shù)分析

      在提出的多層卷積并行融合結(jié)構(gòu)中,雖然增加卷積層可以提升邊界信息的調(diào)整效果,但不能無(wú)止境添加卷積層來(lái)提高效果。為明確卷積層數(shù)對(duì)改善過(guò)分割問(wèn)題效果的影響,本文設(shè)置實(shí)驗(yàn)分析添加1到4層卷積對(duì)Edit分?jǐn)?shù)和F1分?jǐn)?shù)的影響,效果對(duì)比如圖6所示。

      圖6 卷積層數(shù)測(cè)試

      經(jīng)測(cè)試對(duì)比發(fā)現(xiàn),卷積層數(shù)為3時(shí)Edit分?jǐn)?shù)和F1分?jǐn)?shù)綜合達(dá)到最佳效果,繼續(xù)增加層數(shù)反而導(dǎo)致性能下降,所以卷積層數(shù)為3是綜合性能提升的最佳層數(shù)。

      為檢驗(yàn)權(quán)重調(diào)節(jié)單元對(duì)調(diào)權(quán)邊界系數(shù)是否進(jìn)行了相應(yīng)的調(diào)整,本文選擇GTEA數(shù)據(jù)集中的一個(gè)視頻,將網(wǎng)絡(luò)第一階段調(diào)整前后的調(diào)權(quán)邊界系數(shù)可視化進(jìn)行對(duì)比,如圖7所示。

      圖7 調(diào)整前后調(diào)權(quán)邊界系數(shù)對(duì)比

      相比于調(diào)整前的調(diào)權(quán)邊界系數(shù),可以看出網(wǎng)絡(luò)自適應(yīng)調(diào)整后的調(diào)權(quán)邊界系數(shù)的映射區(qū)間不局限于0~1之間,同時(shí)還進(jìn)行細(xì)微調(diào)整,證明權(quán)重調(diào)節(jié)單元的有效性。

      3.4 多階段參考效果對(duì)比

      為驗(yàn)證多階段參考方案的有效性,利用消融實(shí)驗(yàn),首先將LBP方法用于前序階段,不使用添加權(quán)重調(diào)整結(jié)構(gòu)的WLBP,僅測(cè)試多階段參考方案的效果。使用中等規(guī)模的50Salads數(shù)據(jù)集進(jìn)行測(cè)試,結(jié)果如表2所示,最佳指標(biāo)用粗體標(biāo)出。

      本文提出的多階段參考方案相比于BCN,僅在最后輸出上使用的單參考有顯著提高。在50Salads數(shù)據(jù)集中,Edit分?jǐn)?shù)提高1.6%,F(xiàn)1分?jǐn)?shù)平均提高1.2%,準(zhǔn)確度Acc也有小幅提升(0.3%)。對(duì)于同等條件的BCN,使用本文提出的多階段參考方案后,由于在前序階段引入邊界信息,在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中可利用的信息增加,結(jié)合邊界信息進(jìn)行學(xué)習(xí),減少過(guò)分割錯(cuò)誤。

      為提升網(wǎng)絡(luò)對(duì)邊界信息使用的靈活性,對(duì)于前序階段,簡(jiǎn)單采用相同邊界信息會(huì)導(dǎo)致模型固化,因此,本文對(duì)前序階段的參考中采用附加權(quán)重調(diào)節(jié)單元的WLBP。同樣利用消融實(shí)驗(yàn),驗(yàn)證WLBP方法的有效性。在中等規(guī)模的50Salads數(shù)據(jù)集上,測(cè)試結(jié)果如表2所示,最佳指標(biāo)加粗表示。

      表2LBP與WLBP測(cè)試對(duì)比

      Tab.2 Comparison of LBP and WLBP

      使用WLBP引入邊界信息的MBNet,在F1分?jǐn)?shù)和Edit分?jǐn)?shù)上有更大的提高,因?yàn)闄?quán)重調(diào)節(jié)單元的加入,可以對(duì)參與各階段輸出計(jì)算的邊界值進(jìn)行調(diào)整,消除固定邊界對(duì)網(wǎng)絡(luò)的限制。相較于LBP,WLBP方法能進(jìn)一步減少過(guò)分割錯(cuò)誤,對(duì)比原BCN,在50salads數(shù)據(jù)集中,Edit分?jǐn)?shù)提高2.2%,F(xiàn)1分?jǐn)?shù)平均提升約1.4%,準(zhǔn)確度Acc有小幅提高(0.2%)。

      3.5 實(shí)驗(yàn)結(jié)果

      本文在3個(gè)動(dòng)作分割數(shù)據(jù)集:GTEA、50Salads和Breakfast上,與此前的方法進(jìn)行測(cè)試對(duì)比,結(jié)果如表3~表5所示。

      相較于此前的視頻動(dòng)作分割算法,本文提出的MBNet各項(xiàng)性能指標(biāo)均有提升。對(duì)比BCN,MBNet在GTEA數(shù)據(jù)集上,精度Acc提升0.4%,Edit分?jǐn)?shù)提升2%,F(xiàn)1分?jǐn)?shù)平均提升約1.9%。在50Salads數(shù)據(jù)集上,Acc提升0.2%,Edit分?jǐn)?shù)提升2.2%,F(xiàn)1分?jǐn)?shù)平均提升約1.4%。在最大規(guī)模數(shù)據(jù)集Breakfast上,Acc提升0.8%,Edit分?jǐn)?shù)提升0.9%,F(xiàn)1分?jǐn)?shù)平均提升約1.2%。

      表3GTEA數(shù)據(jù)集動(dòng)作分割結(jié)果對(duì)比

      Tab.3 Segmentation result comparisons on GTEA dataset

      表450Salads數(shù)據(jù)集動(dòng)作分割結(jié)果對(duì)比

      Tab.4 Segmentation result comparisons on 50Salads dataset

      表5Breakfast數(shù)據(jù)集動(dòng)作分割結(jié)果對(duì)比

      Tab.5 Segmentation result comparisons on the Breakfast dataset

      為方便結(jié)果展示,本文在3個(gè)數(shù)據(jù)集中各選擇一個(gè)視頻進(jìn)行可視化結(jié)果對(duì)比,如圖8所示。其中一種顏色代表一種動(dòng)作類別,BCN的錯(cuò)誤段用紅色線段標(biāo)出區(qū)間,并添加序號(hào)。結(jié)果顯示,BCN存在錯(cuò)誤分割,包括小段錯(cuò)誤分割和大段錯(cuò)誤分割,其中小段錯(cuò)誤分割占多數(shù),大段錯(cuò)誤分割占少數(shù)。

      小段分割錯(cuò)誤如圖8(a)和8(b)所示,其產(chǎn)生原因包括網(wǎng)絡(luò)本身性能有限,以及邊界信息不準(zhǔn)確,因?yàn)檫吔缧畔⒂蛇吔缟赡K訓(xùn)練得出,具備不準(zhǔn)確性。本文提出的帶權(quán)重調(diào)整的WLBP在使用邊界信息時(shí)能夠進(jìn)行再調(diào)整,一定程度上降低了邊界信息不準(zhǔn)確的影響,更具魯棒性。

      大段分割錯(cuò)誤的產(chǎn)生原因可能是,BCN中LBP僅用在網(wǎng)絡(luò)的輸出結(jié)果后,作為輸出結(jié)果的后處理過(guò)程,其功能是平滑處理池化窗口內(nèi)的向量,本身不具備對(duì)標(biāo)簽正確與否的判斷能力。以圖8(c)中的第2與第3處錯(cuò)誤來(lái)說(shuō),真值為煎雞蛋動(dòng)作,BCN錯(cuò)誤識(shí)別為翻炒雞蛋動(dòng)作??紤]到視頻的拍攝視角,這兩種動(dòng)作的表現(xiàn)十分相似,其特征具有很大的相似性,導(dǎo)致網(wǎng)絡(luò)很難分辨。在前序階段,出現(xiàn)的錯(cuò)誤是微小的,但是并沒(méi)有得到及時(shí)的校正,導(dǎo)致錯(cuò)誤累積到最終輸出時(shí)有了一定規(guī)模,而錯(cuò)誤標(biāo)簽占據(jù)LBP窗口范圍的一定比例后,LBP就不能將錯(cuò)誤標(biāo)簽修正。本文提出多階段參考方案,在每個(gè)階段都引入邊界信息進(jìn)行平滑處理,在錯(cuò)誤的產(chǎn)生階段就進(jìn)行處理,避免錯(cuò)誤的發(fā)展,一定程度上減少輸出結(jié)果中的大段分割錯(cuò)誤。實(shí)驗(yàn)表明,使用可調(diào)邊界信息的MBNet能夠修正對(duì)原本連續(xù)動(dòng)作中的錯(cuò)誤動(dòng)作分類,明顯減少過(guò)分割錯(cuò)誤。

      圖8 分割結(jié)果對(duì)比

      4 結(jié) 論

      本文針對(duì)視頻動(dòng)作分割領(lǐng)域普遍存在的過(guò)分割現(xiàn)象,提出多階段參考結(jié)構(gòu)。在多階段主干網(wǎng)絡(luò)中,為每個(gè)階段獨(dú)立引入視頻動(dòng)作邊界信息作為參考,提出多層卷積并行融合的權(quán)重調(diào)整結(jié)構(gòu),使各階段能夠?qū)σ氲倪吔缧畔⑦M(jìn)行調(diào)整,消除固定邊界對(duì)網(wǎng)絡(luò)的限制性,使網(wǎng)絡(luò)針對(duì)不同樣本的處理可以調(diào)整各階段參考信息的使用。實(shí)驗(yàn)結(jié)果表明,該方法能夠明顯減少過(guò)分割錯(cuò)誤的產(chǎn)生,提升準(zhǔn)確率。MBNet相比于BCN,分割編輯分?jǐn)?shù)Edit平均提升1.7%,準(zhǔn)確率與召回率的調(diào)和分?jǐn)?shù)F1平均提升1.5%,分割精度Acc平均提升0.5%。本文在不影響分類精度的前提下,減少過(guò)分割錯(cuò)誤,后續(xù)研究重點(diǎn)在于如何在減少過(guò)分割錯(cuò)誤的同時(shí)又能大幅提升分類精度,提高視頻動(dòng)作分割算法的可靠性。

      [1] 張紅穎,安征. 基于改進(jìn)雙流時(shí)空網(wǎng)絡(luò)的人體行為識(shí)別[J]. 光學(xué)精密工程, 2021, 29(2): 420-429.

      ZHANG H Y, AN ZH. Human action recognition based on improved two-stream spatiotemporal network[J]., 2021, 29(2): 420-429. (in Chinese)

      [2] 馬世偉,劉麗娜,傅琪,等. 采用PHOG融合特征和多類別Adaboost分類器的行為識(shí)別[J]. 光學(xué)精密工程, 2018,26(11): 2827-2837.

      MA SH W, LIU L N, FU Q,. Using PHOG fusion features and multi-class Adaboost classifier for human behavior recognition[J]., 2018, 26(11): 2827-2837. (in Chinese)

      [3] OORD AVAN DEN, DIELEMAN S, ZEN H G,. WaveNet: a generative model for raw audio[J]., arXiv preprint arXiv:1609.03499, 2016.

      [4] LEA C, FLYNN M D, VIDAL R,. Temporal convolutional networks for action segmentation and detection[C]. 20172126,2017,,,,2017: 1003-1012.

      [5] KUEHNE H, RICHARD A, GALL J. A hybrid RNN-HMM approach for weakly supervised temporal action segmentation[J]., 2018, 42(4): 765-779.

      [6] 李慶輝,李艾華,鄭勇,等. 利用幾何特征和時(shí)序注意遞歸網(wǎng)絡(luò)的動(dòng)作識(shí)別[J]. 光學(xué)精密工程, 2018, 26(10): 2584-2591.

      LI Q H, LI A H, ZHENG Y,. Action recognition using geometric features and recurrent temporal attention network[J]., 2018, 26(10): 2584-2591. (in Chinese)

      [7] SINGH B, MARKS T K, JONES M,. A multi- stream Bi-directional recurrent neural network for fine-grained action detection[C]. 20162730,2016,,,,2016: 1961-1970.

      [8] FARHA Y A, GALL J. MS-TCN: multi-stage temporal convolutional network for action segmentation[C]. 2019()1520,2019,,,, 2019: 3570-3579.

      [9] LI S J, ABUFARHA Y, LIU Y,. MS-TCN: multi-stage temporal convolutional network for action segmentation[J]., 1756, 99: 1.

      [10] WANG Z Z, GAO Z T, WANG L M,. Boundary-aware cascade networks for temporal action segmentation[J].,2020, 2020: 34-51.

      [11] LIN T W, ZHAO X, SU H S,. BSN: boundary sensitive network for temporal action proposal generation[J].,2018, 2018: 3-21.

      [12] CARREIRA J, ZISSERMAN A. Quo vadis, action recognition? A new model and the kinetics dataset[C]. 20172126,2017,,,, 2017: 4724-4733.

      [13] LEI P, TODOROVIC S. Temporal deformable residual networks for action segmentation in videos[C]. 20181823,2018,,,, 2018: 6742-6751.

      [14] LEA C, REITER A, VIDAL R,. Segmental spatiotemporal CNNs for fine-grained action segmentation[J]., 2016, 2016: 36-52.

      [15] KUEHNE H, GALL J, SERRE T. An end-to-end generative framework for video segmentation and recognition[C]. 2016710,2016,,,,2016: 1-8.

      [16] RICHARD A, KUEHNE H, GALL J. Weakly supervised action learning with RNN based fine-to- coarse modeling[C]. 20172126,2017,,,,2017: 1273-1282.

      Multi-stage boundary reference network for action segmentation

      MAO Lin,CAO Zhe*,YANG Dawei,ZHANG Rubo

      (,,116600,),:

      Over-segmentation leads to incorrect predictions and reduces segmentation quality in existing action segmentation algorithms. To address this, the reference from video action boundary information was independently introduced for each stage in the backbone, which was based on a multi-stage temporal convolutional network. To avoid the model solidification caused by the application of the same boundary information at all stages, a weight adjusting block composed of multilayer parallel convolution was proposed to adjust the boundary values involved in the output calculation of each stage and process various samples differently. The reference from the adjustable boundary information was used to smoothen the output of each stage according to the time sequence, significantly reducing the over-segmentation error. Experimental results show that the proposed method outperforms existing methods in the three video action segmentation datasets GTEA, 50Salads and Breakfast. Compared with the boundary-aware cascade networks(BCN) algorithm, the segmentation edit score is increased by 1.7% on average, and the reconciliation score between accuracy and recall rate is increased by 1.5% on average.

      video action segmentation; temporal convolutional networks; video action boundary; untrimmed video

      TP391.4

      A

      10.37188/OPE.20223003.0340

      1004-924X(2022)03-0340-10

      2021-04-20;

      2021-07-16.

      國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61673084);遼寧省自然科學(xué)基金資助項(xiàng)目(No.2020-MZLH-24,No.20180550866)

      毛琳(1977),女,山東榮成人,博士,副教授,碩士生導(dǎo)師,2005年于黑龍江大學(xué)獲得碩士學(xué)位,2011年于哈爾濱工程大學(xué)獲得博士學(xué)位,主要從事機(jī)器視覺(jué)目標(biāo)跟蹤與多傳感器信息融合的研究。E-mail:maolin@dlnu.edu.cn

      曹哲(1998),男,內(nèi)蒙古赤峰人,碩士研究生,2020年于大連民族大學(xué)獲得學(xué)士學(xué)位,主要從事計(jì)算機(jī)視覺(jué)和視頻動(dòng)作分割算法的研究。E-mail:cao_zhe@foxmail.com

      猜你喜歡
      邊界卷積錯(cuò)誤
      在錯(cuò)誤中成長(zhǎng)
      拓展閱讀的邊界
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      論中立的幫助行為之可罰邊界
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      不犯同樣錯(cuò)誤
      “偽翻譯”:“翻譯”之邊界行走者
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      《錯(cuò)誤》:怎一個(gè)“美”字了得
      林口县| 原平市| 合水县| 清镇市| 嘉义县| 图片| 读书| 阿荣旗| 桦甸市| 利津县| 金川县| 南阳市| 轮台县| 博客| 乐至县| 临颍县| 胶州市| 衡阳市| 临邑县| 湖口县| 呼伦贝尔市| 南陵县| 星子县| 竹山县| 宁晋县| 平舆县| 临海市| 策勒县| 贵阳市| 新和县| 临城县| 克什克腾旗| 临邑县| 枣庄市| 伊宁县| 宁城县| 枝江市| 襄垣县| 盐亭县| 怀安县| 子长县|