• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于雙流卷積神經(jīng)網(wǎng)絡的人體行為識別方法①

      2019-08-16 09:11:16王傳旭
      計算機系統(tǒng)應用 2019年7期
      關鍵詞:雙流時序邊界

      劉 云,張 堃,王傳旭

      (青島科技大學 信息科學技術學院,青島 266000)

      1 引言

      隨著各種攝像監(jiān)控設備的快速發(fā)展,視頻和圖像的數(shù)據(jù)量在不斷增加.如何分析視頻圖像中的信息也成為一個熱門的研究內(nèi)容,視頻分析中的一個重要分支就是行為識別.人體行為識別的目標是從一個未知的視頻或者是圖像序列中自動分析其中正在進行的行為,目前對于行為識別的研究熱點主要是對短視頻中單個行為的識別,而在實際生活及應用中,更多的視頻數(shù)據(jù)是包含多個不同行為的復雜長視頻.這就需要使用另一種識別算法:時序行為檢測(temporal action localization).這種算法任務要求檢測出長視頻中每個行為的類別,同時要標注出每個行為的開始時間和結(jié)束時間.這種算法可以應用到許多方面,比如自動檢索和智能監(jiān)控等.

      時序行為檢測通??梢苑譃閮蓚€階段,提議生成階段和分類識別階段.提議生成階段的主要目標是生成可能含有行為動作的視頻片段,視頻片段稱為行為提議,而分類識別階段的任務則是對提議生成階段產(chǎn)生的行為提議進行識別分類,并且進一步確定行為類別和起止時間.盡管目前傳統(tǒng)的行為識別已經(jīng)達到較高的準確度,但是在確定行為起止時間上仍然不盡如人意[1,2].因此,如何產(chǎn)生高質(zhì)量的行為提議,成為該內(nèi)容的一個重點研究方向[3-6].為了獲得高質(zhì)量的提議,提議生成階段產(chǎn)生的提議在持續(xù)時間上需要靈活可變,用于應對視頻片段持續(xù)時間長短不一并且差距較大的問題,同時產(chǎn)生的提議應具有精確的時間邊界.最近的一些提議生成方法[3-5,7]利用不同長度的滑動窗口來生成提議,然后使用訓練好的模型來評估提議的置信度,但是,這種預先定義持續(xù)時間和間隔時間來產(chǎn)生提議的方法有一些明顯的缺點:(1) 起止時間的精確度不足;(2) 固定的行為片段長度無法處理不同持續(xù)時間的行為動作,而在不同行為動作持續(xù)時間差距較大時,更會出現(xiàn)無法滿足不同持續(xù)時間的要求,而增多滑動窗口的數(shù)量又會帶來大量冗余的計算.

      最近的研究[7-9]將深度神經(jīng)網(wǎng)絡應用到檢測框架中并且獲得了較好的性能表現(xiàn).S-CNN[7]提出了一個多階段的卷積神經(jīng)網(wǎng)絡,該算法通過使用定位網(wǎng)絡提高了識別精度.然而,S-CNN 使用滑動窗口產(chǎn)生行為提議,C3D[10]作為特征提取器最初用于單元分類器,只能容納16 幀作為輸入,在應對時序行為檢測任務時,需要消耗大量的時間進行計算.另一項研究[8]使用遞歸神經(jīng)網(wǎng)絡(RNN)來學習預測動作的起點和終點的一種策略.這種順序預測對于處理長視頻通常非常耗時,并且它不支持用于特征提取的逐幀CNN 的聯(lián)合訓練.

      本文在上述背景下,為了克服滑動窗口的缺點,生成高質(zhì)量的行為提議,本文提出了基于雙流卷積神經(jīng)網(wǎng)絡[11]的時序行為檢測模型.該模型基于雙流卷積神經(jīng)網(wǎng)絡提取的特征,產(chǎn)生覆蓋時間靈活可變的行為提議,之后送入多層感知機中進行邊界迭代回歸,然后將行為提議擴展為三段式的特征序列設計,最后輸入分類器中進行動作分類.

      2 識別模型

      本文提出一種基于雙流卷積神經(jīng)網(wǎng)絡的模型,如圖1所示.首先使用雙流卷積神經(jīng)網(wǎng)絡提取長視頻的特征序列,然后將該特征序列作為模型的輸入,使用Temporal Actionness Grouping (TAG)[12]方法在特征序列上靈活地生成行為提議.利用多層感知機對每一個行為提議的起止邊界進行迭代操作,這一過程可以更為精細地處理行為提議的邊界,使之更加貼近真實的邊界信息.每一個行為提議都會使用三段式特征描述重新設計,三段式設計將行為提議劃分為開始區(qū)間、進行區(qū)間和結(jié)束區(qū)間,按照前后順序?qū)唇酉鄳奶卣餍蛄?最后對包含目標動作的行為提議進行行為識別,獲得分類結(jié)果.

      圖1 基于雙流卷積神經(jīng)網(wǎng)絡的人體行為識別模型

      2.1 問題描述

      一個未分割的長視頻可以表示為X=其中xn表示視頻X中的第n幀.視頻X的動作標注由一組動作實例組成,An是視頻X中真實動作實例的數(shù)量,ts,n,te,n分 別是動作實例 φn的開始時間和結(jié)束時間.本文算法的任務就是自動定位每段行為的起止位置并識別它們的行為屬性.

      2.2 特征序列提取

      為了提取雙流卷積神經(jīng)網(wǎng)絡特征,將視頻劃分為T個連續(xù)等長且無重疊的單元,則視頻可以表示為T表示視頻中單元的數(shù)量,一個單元st=xtn,otn表示兩部分的內(nèi)容,xtn是視頻X中的第tn個RGB 幀,otn是 以xtn幀為中心,附近的堆疊光流場.為了減少計算損耗,使用規(guī)律的幀間隔提取單元.本任務所用數(shù)據(jù)集中的視頻數(shù)據(jù)量大,相鄰的幀信息冗余度較高,密集采樣耗時且不必要,因此使用規(guī)律的幀間隔提取單元,在每個單元上獲取特征,可以在保證信息完整度的前提下降低計算損耗.

      給定一個單元st,在空間和時間網(wǎng)絡的頂層連接輸出分數(shù)以形成編碼特征向量ftn=(fS,tn,fT,tn) ,其中fS,tn,fT,tn分別表示空間網(wǎng)絡和時間網(wǎng)絡的輸出向量.因此給定一個長度為ls的單元序列S,可以提取出特征序列雙流卷積特征序列將被送入TAG 網(wǎng)絡中生成行為提議.

      2.3 行為提議

      相比較于滑動窗口而言,TAG 方法能靈活的生成不同長度的動作提議,同時并不需要大量的計算.TAG 方法使用了一個行為分類器來評估每個單元中發(fā)生動作的概率,這個行為分類器是一個二元分類器.該方法的基本思想是找到高動作概率的連續(xù)區(qū)域,為了實現(xiàn)這個目的,該方法重新設計了一個經(jīng)典的分水嶺算法,并把它應用到了一維的動作概率值上.該方法通過設置不同的“水位”可以得到一系列的“盆地”,每一個盆地對應了時域范圍內(nèi)一段高動作概率區(qū)域.

      給定一系列的盆地G,選用了一種類似于文獻[13]的聚類方法,這種方法試著連接小盆地變成行為提議區(qū)域.該方案的工作流程如下:先從一個種子盆地開始,并且連續(xù)吸收隨后的盆地,直到盆地部分在整個持續(xù)時間內(nèi)(即從第一個盆地開始到最后一個盆地結(jié)束)的部分下降到某個閾值Y以下.通過這種方法,可以從不同的種子盆地開始產(chǎn)生一組區(qū)域,用G′(τ,γ)來表示.注意 τ 和 γ并不是選擇好的特定組合,而是均勻地從(0,1)之間采樣,步長為0.05.這兩個閾值的組合將會產(chǎn)生多組區(qū)域.然后,將他們結(jié)合起來,并使用非極大值抑制的方法過濾重疊度高的區(qū)域,設置IoU 閾值為0.95.生成的行為提議將被送入多層感知機中邊界回歸.

      2.4 邊界回歸

      時域上進行邊界回歸的基本思路是利用神經(jīng)網(wǎng)絡推斷行為提議的邊界.本文使用多層感知機作為回歸網(wǎng)絡,將行為提議作為輸入,輸出坐標回歸偏移量,具體計算如式(1).

      其中,sclip,eclip分別是輸入的行為提議的開始和結(jié)束坐標,sgt,egt分別是與之對應的真實數(shù)據(jù)的開始和結(jié)束坐標.本文使用的坐標回歸模型有兩個優(yōu)點:第一,使用單元級坐標回歸,這與雙流卷積神經(jīng)網(wǎng)絡基于單元提取特征的方式相匹配,計算消耗也比較??;第二,不使用坐標參數(shù)化,直接使用起始坐標的偏移量作為回歸結(jié)果.這是因為行為提議的坐標回歸在時域進行,而空間坐標回歸在空間域進行,由于相機投影,目標可以在圖像中重新縮放,因此需要先將邊框坐標標準化為某個標準尺度.而時域坐標可以依靠時域本身作為標準尺度,不需要進行參數(shù)化.

      在訓練邊界回歸網(wǎng)絡時,需要給行為提議分配標簽用以判斷該行為提議中是否包含行為.對于一個行為提議,計算它和所有標定好的真實數(shù)據(jù)的tIoU(temporal Intersection over Union)重疊值,如果其中的最大值超過了0.5,則將最大值對應的真實數(shù)據(jù)的邊界和類別信息賦予該行為提議.并將該行為提議視為正樣本,即含有行為,否則視為負樣本.

      如圖2所示,本文的邊界回歸任務由多層感知機使用迭代的方式完成,邊界回歸的輸出結(jié)果作為輸入再次送入多層感知機中進行計算,重復多次以獲得更為精確的結(jié)果.該回歸模型將行為提議作為輸入,輸出時域上的坐標回歸偏移量,計算之后得到回歸后的邊界坐標值.對于該層網(wǎng)絡,給定一個候選提議的邊界數(shù)據(jù)輸入值pc=[ts,te],輸出數(shù)據(jù)p1c=[t1s,t1e]會作為輸入進行第二輪的邊界回歸計算,第二輪的輸出為p2c=[t2s,te2].迭代過程總共進行K次,最后的邊界結(jié)果為:

      2.5 提議特征

      為了建立如圖3所示的提議特征 φ,對于一個行為提議,將提議本身的范圍定義為進行區(qū)間pc=[ts,te],提議 φ的持續(xù)時間為d=te-ts.與它相關的開始區(qū)間和結(jié)束區(qū)間分別為ps=[ts-d/4,ts+d/4]和pe=[te-d/4,te+d/4].對應選擇開始、結(jié)束和進行區(qū)間三部分對應的特征序列,將這些向量前后拼接,即可獲得候選提議 φ的提議特征fφ=(fps,fpc,fpe).該提議特征具有很好的魯棒性,在引入開始區(qū)間和結(jié)束區(qū)間后,使得行為提議特征 具備了上下文信息.

      圖2 邊界回歸網(wǎng)絡處理行為提議邊界

      圖3 行為提議特征構(gòu)建

      2.6 行為分類

      深度學習網(wǎng)絡常用的分類器,本文選擇使用多層感知機網(wǎng)絡作為特征構(gòu)建后的多分類器.對于時序行為檢測任務,多層感知機網(wǎng)絡輸出n+1 個概率值,其中n表示數(shù)據(jù)集中行為的數(shù)量,1 表示背景類.在ActivityNet v1.3 中,n=200,在THUMOS 2014 中,n=20.每個概率值表示屬于某一類行為的概率,將最大概率值對應的行為作為行為分類的結(jié)果.

      為了獲取較好的實驗結(jié)果,本文使用一個多任務損失函數(shù)來聯(lián)合訓練邊界回歸和行為分類網(wǎng)絡.損失函數(shù)如式(3)所示.時序行為檢測任務需要對行為定位和識別,這兩個任務息息相關,如果單獨訓練網(wǎng)絡會降低識別的泛化能力,可能會出現(xiàn)對某一任務的過擬合現(xiàn)象.而聯(lián)合訓練可以較好的解決這個問題,聯(lián)合訓練可以在有限的數(shù)據(jù)集內(nèi)完成訓練,由于引入了額外的相關訓練數(shù)據(jù),有助于網(wǎng)絡學習到更適合任務需求的參數(shù),可以提高模型的泛化能力.行為的類別和發(fā)生時間是個體屬性的不同方面,具有較強的相關性,使用聯(lián)合訓練可以使得定位與識別任務真正地結(jié)合起來,學習到的內(nèi)容彼此受益,提高時序行為檢測的準確率.

      其中,Lcls是分類損失函數(shù),對于本文中多分類任務而言,使用多分類交叉熵函數(shù)作為損失函數(shù).Lreg是邊界回歸損失函數(shù),λ是超參數(shù).回歸損失函數(shù)為:

      其中,R是曼哈頓距離,N是batch size,n是行為類別的總數(shù)量,是標簽,當?shù)趇個樣本屬于z類時,=1,否則,lzi=0.o′是回歸偏移量,o是真實數(shù)據(jù).學習率設置為0.005,batch size 設置為128.

      3 實驗

      為了驗證本文算法的有效性,本文在ActivityNet v1.3[1]和THUMOS 2014[2]數(shù)據(jù)集上進行實驗.ActivityNet v1.3 數(shù)據(jù)集是常用的時序行為檢測數(shù)據(jù)集,包括200 類不同的動作,同時提供了邊界和種類信息標注.THUMOS 2014 中沒有訓練集,有20 類行為帶有標注.本文分別在兩個數(shù)據(jù)集上進行實驗,在各自提供的數(shù)據(jù)子集上訓練網(wǎng)絡,并使用預訓練的網(wǎng)絡進行測試,將實驗結(jié)果與現(xiàn)有方法進行對比分析.

      3.1 數(shù)據(jù)集

      ActivityNet v1.3[1]是一個用于時序行為檢測的大型數(shù)據(jù)集,其中包含19994 個帶有200 類動作標注的長視頻,在2017年和2018年的ActivityNet 挑戰(zhàn)中使用了該數(shù)據(jù)集.ActivityNet 按照2:1:1 的比例分為訓練集、驗證集和測試集.

      THUMOS 2014[2]有1010 個視頻用于驗證,1574個視頻用于測試.這些視頻中包含20 類帶有行為標注的目標動作.該數(shù)據(jù)集沒有訓練集,使用UCF101數(shù)據(jù)集作為訓練集.由于訓練集沒有提供時間注釋,本文在驗證集上訓練模型并在測試集上進行實驗測試.因此將帶有20 類行為標注的220 個視頻用于訓練.在本文的實驗中,將本文提出的方法與THUMOS 2014和ActivityNet v1.3 上的現(xiàn)有技術進行比較,并進行結(jié)果分析.

      3.2 實驗網(wǎng)絡參數(shù)設置

      本文實驗環(huán)境選擇深度學習框架Caffe 平臺實現(xiàn).使用SGD 方法學習模型中的參數(shù),batch size 為128,momentum 為0.9.雙流卷積神經(jīng)網(wǎng)絡采用ResNet 網(wǎng)絡用作空間網(wǎng)絡,BN-Inception 網(wǎng)絡用作時間網(wǎng)絡.空間網(wǎng)絡和時間網(wǎng)絡的初始學習率分別設置為0.001 和0.005.在ActivityNet v1.3 中,空間網(wǎng)絡和時間網(wǎng)絡迭代訓練次數(shù)分別為9500 次和20 000 次,學習率分別在迭代每4000 次和1000 次后縮小0.1.在THUMOS 2014 中,空間網(wǎng)絡和時間網(wǎng)絡分別進行1000 次和6000 次的迭代訓練,學習率在每400 和2500 次時縮小0.1.在特征提取過程中,單元間隔均被設置為16.在TAG 方法中使用的二元行為分類器使用每個數(shù)據(jù)集的訓練集進行訓練.在邊界回歸過程中,K=3.

      3.3 實驗結(jié)果分析

      評價標準:AvtivityNet v1.3[1]和THUMOS 2014[2]都有統(tǒng)一的評價標準,因此按照它們的評價標準測試不同IoU 閾值的平均預測精度mAP.在ActivityNet v1.3 數(shù)據(jù)集中,所需測試的IoU 閾值為{0.5,0.75,0.95},IoU 閾值范圍[0.5:0.05:0.95]的mAP 的平均值用于比較不同方法之間的性能.在THUMOS 2014 數(shù)據(jù)集中,所需測試的IoU 閾值為{0.1,0.2,0.3,0.4,0.5}.閾值為0.5 時得出的平均預測精度用于比較不同方法的實驗結(jié)果.

      將本文算法與其它時序行為檢測方法在THUMOS 2014 數(shù)據(jù)集和ActivityNet v1.3 數(shù)據(jù)集上進行比較,如表1、表2所示.從表1、表2中可以發(fā)現(xiàn),在這兩個數(shù)據(jù)集上,本文提出的算法識別準確率優(yōu)于其它算法,識別效果較好.本文使用雙流卷積神經(jīng)網(wǎng)絡所獲取的特征結(jié)合了運動表層特征和時序信息兩部分,更好的發(fā)掘了視頻所包含的信息.行為提議在經(jīng)過多層感知機迭代處理后邊界信息更為準確,之后的三段式特征設計融合了上下文信息,一方面建立了較為全面的行為描述,另一方面提高了行為識別準確率.

      4 結(jié)論與展望

      為了充分獲取視頻中的時空信息,使用雙流卷積神經(jīng)網(wǎng)絡構(gòu)建特征描述符,之后通過TAG 方法產(chǎn)生候選行為提議,經(jīng)過多次迭代處理后獲取更為準確的邊界信息,將行為提議擴展為三段式特征設計,并對目標行為進行識別.該方法在結(jié)合時序信息的基礎上,生成了質(zhì)量較高的動作提名,時序邊界更為準確,識別率也有所提升.實驗結(jié)果表明該方法能在THUMOS 2014 數(shù)據(jù)集合ActivityNet v1.3 數(shù)據(jù)集上得到較好的效果.但是行為提議生成和回歸的方法著眼于局部信息,缺少與行為提議全局特征的結(jié)合分析,時序定位的準確度仍有不足.下一步的研究將會引入行為提議的特征共同分析定位準確度,獲得更為準確的時序邊界.

      表1 不同時序行為檢測算法在THUMOS 2014 數(shù)據(jù)集上 的準確率(%)

      表2 不同時序行為檢測算法在ActivityNet v1.3 數(shù)據(jù)集上的準確率(%)

      猜你喜歡
      雙流時序邊界
      基于時序Sentinel-2數(shù)據(jù)的馬鈴薯遙感識別研究
      四川省成都市雙流區(qū)東升迎春小學
      中小學校長(2022年7期)2022-08-19 01:36:36
      拓展閱讀的邊界
      基于Sentinel-2時序NDVI的麥冬識別研究
      雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對策
      冶金設備(2020年2期)2020-12-28 00:15:22
      雙流機場一次低能見度天氣過程分析
      四川省成都雙流中學實驗學校
      論中立的幫助行為之可罰邊界
      一種毫米波放大器時序直流電源的設計
      電子制作(2016年15期)2017-01-15 13:39:08
      “偽翻譯”:“翻譯”之邊界行走者
      外語學刊(2014年6期)2014-04-18 09:11:49
      随州市| 阿拉善盟| 昌乐县| 阿拉善左旗| 温泉县| 井冈山市| 大竹县| 阿克苏市| 上思县| 迁安市| 灌南县| 桐梓县| 肇源县| 六盘水市| 鄂托克前旗| 台中县| 西平县| 婺源县| 久治县| 白城市| 中山市| 南投县| 大竹县| 新郑市| 城固县| 南开区| 如皋市| 祥云县| 长武县| 景谷| 大港区| 托克托县| 弋阳县| 美姑县| 工布江达县| 苗栗县| 和林格尔县| 灵台县| 浪卡子县| 阿鲁科尔沁旗| 崇州市|