• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)空時(shí)雙流網(wǎng)絡(luò)的紅外行人動(dòng)作識(shí)別研究

      2021-10-08 01:25:34侯麗萍
      紅外技術(shù) 2021年9期
      關(guān)鍵詞:光流雙流關(guān)鍵幀

      蔣 一,侯麗萍,張 強(qiáng)

      (1.信陽職業(yè)技術(shù)學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,河南 信陽 464000;2.信陽農(nóng)林學(xué)院 信息工程學(xué)院,河南 信陽 464000;3.中國人民解放軍空軍第一航空學(xué)院 研究生大隊(duì),河南 信陽 464000)

      0 引言

      行人動(dòng)作識(shí)別是計(jì)算機(jī)視覺領(lǐng)域重要的研究方向,其在視頻監(jiān)控、智能交通、運(yùn)動(dòng)分析、導(dǎo)航制導(dǎo)等軍事和民用領(lǐng)域都具有重要的研究意義和應(yīng)用價(jià)值[1-3]。由于紅外圖像只依賴于目標(biāo)本身的熱輻射強(qiáng)度,不受復(fù)雜環(huán)境下的顏色干擾,因此基于紅外圖像的動(dòng)作識(shí)別技術(shù)的性能不依賴于天氣的影響,可以全天候全天時(shí)進(jìn)行檢測(cè)[4]。然而,正因?yàn)榧t外圖像缺乏紋理顏色特征值信息,也加大了行人檢測(cè)與行為識(shí)別的難度[5]。

      為了提升紅外行人動(dòng)作識(shí)別的效果,國內(nèi)外學(xué)者也提出了許多動(dòng)作識(shí)別算法[6-12]。南航的丁萌教授提出了一種基于似物性和稀疏編碼及空間金字塔特征提取的動(dòng)作識(shí)別方法[6]。Fernando 等人提出基于雙密度雙樹復(fù)小波變換的動(dòng)作識(shí)別,通過利用支持向量機(jī)(Support Vector Machines,SVM)對(duì)樣本的小波熵進(jìn)行動(dòng)作分類和識(shí)別[7]。為了充分利用紅外與可見光不同模態(tài)下互補(bǔ)特征,Varol 提出了一種基于多模態(tài)特征融合動(dòng)作識(shí)別模型,提高了低對(duì)比度目標(biāo)的識(shí)別性能[8]。隨著近年來硬件技術(shù)的發(fā)展,深度學(xué)習(xí)在圖像處理領(lǐng)域得到了廣泛的應(yīng)用[9-12]。目前行人檢測(cè)及其動(dòng)作識(shí)別算法通常是基于深度學(xué)習(xí)網(wǎng)絡(luò),主要利用三維卷積網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和雙流網(wǎng)絡(luò)來自主學(xué)習(xí)高維時(shí)空特征并自動(dòng)進(jìn)行分類識(shí)別[10]。Kuehne[11]設(shè)計(jì)了一種基于卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別算法,以滿足輔助駕駛的需求。Ioffe等人[12]提出了一種基于多級(jí)分割模型的動(dòng)作識(shí)別網(wǎng)絡(luò),通過對(duì)疑似區(qū)域進(jìn)行深度特征提取,提取紅外復(fù)雜背景下行為動(dòng)作的檢測(cè)精度?;谏疃染W(wǎng)絡(luò)的紅外行人動(dòng)作識(shí)別中大多是對(duì)檢測(cè)到的行人進(jìn)行分析,以實(shí)現(xiàn)不同簡(jiǎn)單動(dòng)作的識(shí)別,如站立、行走、蹲、跑等。然而,人體動(dòng)作是一個(gè)序列動(dòng)作,只要引入時(shí)域特征,才有助于提升識(shí)別的精度。Wang 等人[13]將原始的二維卷積核擴(kuò)展為三維卷積核,提出了基于三維卷積的異常行為模型,但此類方法參數(shù)設(shè)置復(fù)雜且參數(shù)量巨大。LSTM 是利用卷積網(wǎng)絡(luò)逐幀提取紅外行人特征,并充分利用了行人的空時(shí)特征,提升了行為動(dòng)作的表征能力,但其多尺度高維處理模式制約了網(wǎng)絡(luò)運(yùn)行速度。

      眾所周知,視覺皮層主要負(fù)責(zé)大腦皮層中處理視覺信息,其存在背側(cè)流(Dorsal Stream)和腹側(cè)流(Ventral Stream)兩條信息輸出通道,分別對(duì)應(yīng)空間通路與內(nèi)容通路[14]。受此啟發(fā),Simonyan 等人[15]創(chuàng)造性地提出了基于雙流卷積網(wǎng)絡(luò)的動(dòng)作識(shí)別。雙流卷積神經(jīng)網(wǎng)絡(luò)是一種融合了空間信息網(wǎng)絡(luò)與時(shí)間信息網(wǎng)絡(luò)的處理結(jié)果,通過使用光流圖作為網(wǎng)絡(luò)輸入來補(bǔ)償空間網(wǎng)絡(luò)無法捕獲的時(shí)間維度信息,并對(duì)不同模型得到的結(jié)果進(jìn)行融合,提升了行人行為的識(shí)別精度,但光流的提取過程耗時(shí)較長(zhǎng),不滿足工程研制的實(shí)時(shí)性要求。

      為了提升復(fù)雜背景下紅外視頻序列的行人檢測(cè)與動(dòng)作識(shí)別的精度與效率,本文在雙流卷積網(wǎng)絡(luò)的基礎(chǔ)上,提出了快速且有效的動(dòng)作識(shí)別模型,并在公共基準(zhǔn)數(shù)據(jù)集與自建數(shù)據(jù)集基礎(chǔ)上進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證本文設(shè)計(jì)算法的實(shí)用性和有效性。

      1 雙流卷積網(wǎng)絡(luò)與長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)

      1.1 雙流卷積網(wǎng)絡(luò)

      雙流網(wǎng)絡(luò)結(jié)構(gòu)由兩個(gè)獨(dú)立的空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)組成,分別用來學(xué)習(xí)視頻幀間的空間位置信息與光流數(shù)據(jù)中的時(shí)間運(yùn)動(dòng)特征,如圖1所示。這兩個(gè)網(wǎng)絡(luò)具有相同的結(jié)構(gòu),每個(gè)結(jié)構(gòu)均由3 個(gè)池化層和3個(gè)卷積層組成,并且在每個(gè)卷積層后面增加一個(gè)非線性層。盡管兩個(gè)獨(dú)立網(wǎng)絡(luò)具有相同的結(jié)構(gòu),但它們?cè)陔p流網(wǎng)絡(luò)中扮演的角色不同??臻g流網(wǎng)絡(luò)的輸入是原始圖像序列,而時(shí)間流網(wǎng)絡(luò)則是相鄰數(shù)據(jù)間的光流。為了更好地表征視頻序列間的時(shí)空特征,雙流網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)了兩個(gè)融合層,其目的是在空間位置融合空間和運(yùn)動(dòng)特性,以使相同像素位置處的通道響應(yīng)相一致。

      圖1 雙流網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Two-stream network

      雙流網(wǎng)絡(luò)結(jié)構(gòu)的輸出結(jié)果采用級(jí)聯(lián)融合。假定兩個(gè)網(wǎng)絡(luò)的輸出特征分別表示xA∈RH×W×D和xB∈RH×W×D,其中H,D和W是特征圖的高度、通道數(shù)和寬度。該融合操作將兩個(gè)特征圖堆疊在整個(gè)特征通道d的相同空間位置(i,j)上,即得到y(tǒng)i,j,d=xi,j,dA與yi,j,2d=xi,j,dB。雙流網(wǎng)絡(luò)極大地提高了行為識(shí)別的精度,但也存在一定的局限性。雙流網(wǎng)絡(luò)的時(shí)間特征存在于相鄰幀之間的光流,對(duì)時(shí)間維的利用信息有限,其光流的計(jì)算復(fù)雜度較高。雙流網(wǎng)絡(luò)不能對(duì)時(shí)空特征的像素級(jí)關(guān)系進(jìn)行建模。

      1.2 長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)

      長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò),能夠解決遞歸神經(jīng)網(wǎng)絡(luò)長(zhǎng)時(shí)依賴與梯度消失的問題[16]。LSTM 網(wǎng)絡(luò)采用“門結(jié)構(gòu)”傳遞當(dāng)前時(shí)刻處理的信息給下一時(shí)刻使用,能夠充分挖掘海量數(shù)據(jù)中蘊(yùn)含的有效信息,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。所謂的門結(jié)構(gòu)由一個(gè)sigmoid 網(wǎng)絡(luò)層σ與一個(gè)按位乘操作構(gòu)成。

      圖2 LSTM 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 LSTM structure

      眾所周知,已發(fā)生的歷史數(shù)據(jù)有助于提升下一刻事件的發(fā)生概率。當(dāng)前的遞歸網(wǎng)絡(luò)大都采用最后一幀的狀態(tài)進(jìn)行特征表示,顯然會(huì)丟失大多數(shù)動(dòng)態(tài)信息。相比于從局部幀提取特征信息,全序列的整體特征可以更好地呈現(xiàn)全局表示。

      2 基于改進(jìn)的雙流網(wǎng)絡(luò)行為識(shí)別

      2.1 空時(shí)特征傳播

      眾所周知,雙流網(wǎng)絡(luò)結(jié)構(gòu)由兩個(gè)獨(dú)立的空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)組成,分別輸入圖像序列與光流圖,其中光流的計(jì)算復(fù)雜,且需要大量的硬件資源,導(dǎo)致其工程應(yīng)用實(shí)時(shí)性不強(qiáng)。在攝像機(jī)固定的情形下,前景的光流為零。也就是說,圖像間的差分與光流結(jié)果是類似的。因此,本文提出了基于深度差分的雙流網(wǎng)絡(luò)模型,該模型采用深度差分網(wǎng)絡(luò)代替時(shí)間網(wǎng)絡(luò)以獲取紅外序列中的幀間關(guān)系和時(shí)間關(guān)系。深度差分是一種基于深度特征傳播的網(wǎng)絡(luò)結(jié)構(gòu)[12],獲得基于關(guān)鍵幀的特征傳播差分圖,可以用來代替光流圖作為時(shí)間流網(wǎng)絡(luò)的輸入,可降低計(jì)算復(fù)雜度,且增強(qiáng)了特征傳播圖對(duì)人體動(dòng)作的姿勢(shì)表達(dá)和類別識(shí)別能力。改進(jìn)的雙流網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,其中卷積核大小分別為7×7和3×3。

      圖3 改進(jìn)的雙流網(wǎng)絡(luò)Fig.3 Improved two-stream network

      視場(chǎng)與視角固定的熱像儀輸出的相鄰紅外序列具有高度相似性,其獲取的光流特征很微弱。也就是說,大量的逐幀光流計(jì)算獲得的光流特征不明顯。文獻(xiàn)[17]提出的差分關(guān)鍵幀能快速獲得圖像間的差異,提高圖像壓縮性能。差分關(guān)鍵幀包含了視頻中相鄰幀間時(shí)間關(guān)系,具有光流圖相似的性能,但其具有生成速度快、計(jì)算運(yùn)算量小等優(yōu)點(diǎn)。由于紅外序列存在幀間冗余大和復(fù)雜度高的問題,本文首先根據(jù)多時(shí)間尺度抽幀,利用差分特征傳播獲得序列的關(guān)鍵幀。假設(shè)一段由t幀序列組成的輸入視頻記為X,每個(gè)片段首先被分成每段時(shí)間相等的T段,然后再從每段中抽取關(guān)鍵幀xi,則整個(gè)視頻記為X={x1,x2,…,xT};這些關(guān)鍵幀經(jīng)過相鄰幀差計(jì)算得到的差分關(guān)鍵幀,記為Y={y1,y2,…,yT};最后,將關(guān)鍵幀和差分關(guān)鍵幀分別輸入到差分卷積網(wǎng)絡(luò),得到對(duì)應(yīng)的高維空時(shí)特征向量{S1,S2,…,Si,…,ST},其中Si∈Rd,i=1,2,…,T,d是關(guān)鍵幀特征維數(shù)。

      本文所設(shè)計(jì)的雙流網(wǎng)絡(luò)結(jié)構(gòu)可以快速地提取紅外序列的高維空時(shí)特征,并在已檢測(cè)到行人區(qū)域的基礎(chǔ)上得到對(duì)應(yīng)差分特征。每一個(gè)卷積核緊跟一個(gè)池化操作,本文采用的池化操作包含平均池化與最大池化,其計(jì)算公式如式(1)所示:

      式中:Pi→j表示關(guān)鍵幀i~j之間的平均池化特征。關(guān)鍵幀經(jīng)過卷積池化和全連接計(jì)算后,深度差分網(wǎng)絡(luò)最終輸出結(jié)果是一個(gè)d維的特征向量,最終得到整段序列的高維時(shí)空信息。每一張關(guān)鍵幀通過全局平均池化操作后形成一個(gè)1×1×1024 維的向量,再通過最后一個(gè)卷積層提取最終時(shí)空特征。

      2.2 改進(jìn)損失函數(shù)的決策級(jí)融合機(jī)制

      雙流網(wǎng)絡(luò)的空時(shí)雙通道分支分別對(duì)同一紅外序列不同模態(tài)圖進(jìn)行特征提取,獲得空間位置信息與時(shí)間運(yùn)動(dòng)信息,這兩類特征在融合模塊的作用下提升了動(dòng)作的表征能力,但原始的雙流網(wǎng)絡(luò)只采用了特征級(jí)聯(lián)進(jìn)行融合。同時(shí),紅外序列人體動(dòng)作識(shí)別問題本身的復(fù)雜性,其性能往往容易受到環(huán)境噪聲的干擾,最終做出錯(cuò)誤的決策而影響整個(gè)模型的輸出。為了提升識(shí)別模型的精度,本文提出了一種決策級(jí)融合機(jī)制,該融合機(jī)制借鑒了LSTM 網(wǎng)絡(luò)的記憶特性,通過對(duì)先前輸出數(shù)據(jù)進(jìn)行建模,并采用耦合機(jī)制將不同維度下的信息進(jìn)行關(guān)聯(lián),其在高維空間中具有特征不變性。本文設(shè)計(jì)了一個(gè)基于改進(jìn)Softmax 邏輯回歸的強(qiáng)分類器,并對(duì)融合后的特征進(jìn)行分類,其獲得的最高分類概率作為行人動(dòng)作識(shí)別概率,能夠更有效地提升動(dòng)作識(shí)別的精度。在文獻(xiàn)[15]中,假定當(dāng)前給定的樣本序列x(i)有k個(gè)類別,則輸出y(i)∈{1,2,…,k},其訓(xùn)練集{(x(i),y(i))},i∈{1,2,…,k}。對(duì)于給定的樣本特征x,其對(duì)類別j的估算條件概率為p(y=j(luò)|x),該概率等式可以表示為如下等式:

      因此,Softmax 邏輯回歸中的每個(gè)類別分類概率為:

      由于每一類的概率滿足指數(shù)族分布[18],若將等式(3)獲得的識(shí)別概率hθ(x(i))進(jìn)行級(jí)數(shù)展開,我們可以得到:

      模型參數(shù)θ是一個(gè)k行矩陣,其每一行表征了對(duì)應(yīng)類別的參數(shù),因此模型參數(shù)矩陣θ可以寫成θ=[θ1T,θ2T,…,θkT]。式(4)中是對(duì)概率分布的歸一化操作,以便對(duì)輸出概率進(jìn)行量化分析。通過對(duì)整體樣本結(jié)果進(jìn)行對(duì)數(shù)似然推導(dǎo),其損失函數(shù)如下所示:

      式中:I(y(i)=j(luò))是一個(gè)示性函數(shù),當(dāng)出現(xiàn)正例時(shí)取值為1,反之為0。為了使模型參數(shù)矩陣θ最小化,參見文獻(xiàn)[16],將式(4)帶入式(5)中得到概率值表示為:

      為了對(duì)等式(6)所示損失函數(shù)進(jìn)行最小化優(yōu)化計(jì)算,一般采用梯度下降法進(jìn)行優(yōu)化,其偏導(dǎo)數(shù)如下所示:

      然而,Softmax 邏輯回歸時(shí)采用等式(8)的更新策略會(huì)影響到參數(shù)的更新效果。因此,本文采用文獻(xiàn)[16]提出的多目標(biāo)分類網(wǎng)絡(luò)進(jìn)行優(yōu)化,等式(2)的概率可以改寫為,該等式展開得到。也就是說,將超參數(shù)θ的每一項(xiàng)全部減掉時(shí),其得到的損失函數(shù)概率值不發(fā)生變化,這表明Softmax 在對(duì)不同樣本進(jìn)行分類時(shí),其結(jié)果不受初值影響,但這可能導(dǎo)致最優(yōu)解不唯一。為了解決這個(gè)問題,本文在損失函數(shù)中引入正則權(quán)值衰減項(xiàng)λ,對(duì)其最優(yōu)解進(jìn)行約束,加快收斂過程。因此,本文改進(jìn)的損失函數(shù)可改寫為如下等式:

      當(dāng)λ大于0,等式(9)的偏導(dǎo)數(shù)是:

      為了求解以上改進(jìn)Softmax 邏輯回歸等式的解,獲得行人動(dòng)作的分類概率wi。本文構(gòu)造一個(gè)決策級(jí)融合機(jī)制,該機(jī)制分別對(duì)不同樣本下的類別概率wic和wid進(jìn)行決策。對(duì)于不同動(dòng)作類別,采用乘法原理可以得到輸入圖像的識(shí)別概率pk:

      最后對(duì)紅外視頻中多個(gè)序列段進(jìn)行處理,找到最大化的輸出結(jié)果,即為當(dāng)前序列的最終識(shí)別概率值u:

      式中:i是每種類型動(dòng)作所包含的視頻數(shù)量;k為動(dòng)作類型總數(shù)。

      本文提出一種基于決策級(jí)特征融合機(jī)制的代價(jià)函數(shù),可以更大尺度地保留不同網(wǎng)絡(luò)幀間圖像的空間及時(shí)間信息,并采用多數(shù)表決原則提高不同關(guān)鍵幀序列下動(dòng)作類別識(shí)別概率,從而提高了紅外人體運(yùn)動(dòng)識(shí)別的性能。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 紅外行人數(shù)據(jù)集

      紅外圖像是一種探測(cè)目標(biāo)物發(fā)射的熱輻射而形成的圖像,沒有明顯的紋理細(xì)節(jié)特征,很難通過紅外圖像獲得打球、吸煙等精細(xì)行為動(dòng)作。對(duì)于紅外行人檢測(cè)及動(dòng)作識(shí)別任務(wù),現(xiàn)有的模型大都是采用了OTCBVS、KAIST、FLIR 三個(gè)數(shù)據(jù)集[5]進(jìn)行行人檢測(cè),但對(duì)于行人動(dòng)作分析難度較大。主要?dú)w咎這些圖像并不是連續(xù)的序列,其運(yùn)動(dòng)時(shí)間跨度大,很難進(jìn)行關(guān)聯(lián)分析。InfAR 數(shù)據(jù)集[18]是目前紅外行為識(shí)別領(lǐng)域公開的基準(zhǔn)數(shù)據(jù)集,包含走路、打架、拍手、握手、慢跑、擁抱等12 種日常行為,其中每種行為類型具有50 個(gè)視頻序列,每段序列均由單人或多人交互完成,但數(shù)據(jù)量有限。大多數(shù)算法都是在可見光數(shù)據(jù)集上進(jìn)行遷移學(xué)習(xí),提升紅外序列的識(shí)別效果。

      本文提出的模型是中科院自動(dòng)化所的橫向課題,主要針對(duì)監(jiān)控區(qū)域的單個(gè)行人的行為特征進(jìn)行分析,因此項(xiàng)目組采集了大量的行人運(yùn)動(dòng)視頻,有助于提升模型性能。為了便于性能對(duì)比,本文也建立了一個(gè)自建數(shù)據(jù)集,并對(duì)圖像中行人及其行為動(dòng)作進(jìn)行了標(biāo)注,包含站立、蹲著、躺著、跑步等動(dòng)作類別,所有類別的數(shù)量比較均衡,總共3115 個(gè)紅外視頻片段。表1展示了不同類別的序列數(shù)量,其中前12 類是單人行為動(dòng)作,后4 類多人交互動(dòng)作。

      表1 數(shù)據(jù)集類別及其數(shù)量Table 1 Classes and quantities of data-sets

      3.2 參數(shù)設(shè)置

      本文所有的紅外圖像的分辨率為640×512,采用5 倍交叉驗(yàn)證所提模型的性能。本文所選用的網(wǎng)絡(luò)都是基于Tensor Flow 框架實(shí)現(xiàn),采用隨機(jī)梯度下降法學(xué)習(xí)網(wǎng)絡(luò)參數(shù),其中批尺寸為128,動(dòng)量值和權(quán)重衰減分別設(shè)為0.9 和0.0005。學(xué)習(xí)率的初始值為0.01,前50 輪的訓(xùn)練過程中保持學(xué)習(xí)率0.001 不變,然后每訓(xùn)練10 輪將學(xué)習(xí)率衰減10%,用來防止過擬合。本文設(shè)置的實(shí)驗(yàn)環(huán)境如下所示:CPU I7-8700k @ 2.80 GHz,64GB (DDR3 1600 MHz),Nvidia Tesla P40,Ubuntul 6.04,64 位操作系統(tǒng)。

      為客觀分析有效性,本文選用了精確率(precision rate,Pr)、漏檢率(miss rate,Mr)、召回率(recall rate,Rr)指標(biāo)來量化分析檢測(cè)性能,所有的指標(biāo)可以通過真陽性(true positive,TP)、假陽性(false positive,F(xiàn)P)、假陰性(false negative,F(xiàn)N)、真陰性(true negative,TN)進(jìn)行計(jì)算,并得到混淆矩陣。

      3.3 消融分析

      本文所提模型采用深度差分網(wǎng)絡(luò)代替時(shí)間網(wǎng)絡(luò)獲得基于關(guān)鍵幀的特征傳播差分圖,可降低計(jì)算復(fù)雜度,且增強(qiáng)了特征傳播圖對(duì)人體動(dòng)作的姿勢(shì)表達(dá)能力。同時(shí),采用基于改進(jìn)Softmax 邏輯回歸的強(qiáng)分類器進(jìn)行行人動(dòng)作類別決策,提升類別識(shí)別能力。為了分析不同改進(jìn)措施的效果,本節(jié)將進(jìn)行消融分析。表2展示了深度差分網(wǎng)絡(luò)(deep differential network,DDN),改進(jìn)Softmax(improved softmax,IS)與決策融合(decision fusion,DF)對(duì)紅外行人運(yùn)行序列的識(shí)別效果,其中方框表明基準(zhǔn)網(wǎng)絡(luò)中替換掉的模塊。

      表2 不同模塊性能分析Table 2 Performance analysis of different modules

      表2中第一行不替換任何模塊,是原始的雙流網(wǎng)絡(luò),其獲得的識(shí)別精度與幀率分別為77.12%與13.9。消融分析中,分別替換掉不同的模塊,其性能也將相應(yīng)的變換。第三行是特征傳播差分圖代替復(fù)雜的光流計(jì)算,其處理效率大大提高,幀率提升了17.1%,精度也有一點(diǎn)提升。IS 與DF 的改進(jìn)對(duì)性能也有相應(yīng)的提升,分別增加了3%的識(shí)別精度。若同時(shí)在原始雙流網(wǎng)絡(luò)中替換兩個(gè)模塊,可以看出采用任意模塊的性能要優(yōu)于僅采用一個(gè)模塊的性能。值得注意的是本文的改進(jìn)模塊主要針對(duì)效率與精度進(jìn)行了改進(jìn),只要替換成深度差分網(wǎng)絡(luò),最終的識(shí)別效率將大大提升,主要是由于特征傳播差分圖具有生成速度快、計(jì)算運(yùn)算量小等優(yōu)點(diǎn)。最終,3 個(gè)模塊從不同的角度對(duì)雙流網(wǎng)絡(luò)進(jìn)行改進(jìn),最終對(duì)自建的紅外運(yùn)動(dòng)序列獲得了82.01%的識(shí)別精度與17.7 的處理幀率。

      3.4 定性定量分析

      為了對(duì)本文提出的紅外行人動(dòng)作識(shí)別算法的性能進(jìn)行分析,本文選用了常見的行為識(shí)別算法進(jìn)行性能對(duì)比,分別是IDT(improved dense trajectories)[19],C3D(Convolutional 3D)[20],SCNN-3G[21](Spatiotemporal Convolutional Neural Network based on 3D-gradients),L-LSTM[22](Lattice Long Short-Term Memory ),Ts-3D[23](two-stream inflated 3D convolutional)和 OFGF[24](optical flow guided feature),其中IDT 是行為識(shí)別領(lǐng)域中非常經(jīng)典傳統(tǒng)的算法,通過引入背景光流消除方法,并沿著軌跡提取特征,使獲得的特征更適合人體運(yùn)動(dòng)的描述;C3D是對(duì)連續(xù)幀構(gòu)建三維多通道卷積特征,通過先驗(yàn)知識(shí)提取多維特征,增強(qiáng)反向傳播訓(xùn)練速度與特征表征能力;L-LSTM 是一種基于柵格化長(zhǎng)短期記憶的行為識(shí)別模型,以卷積方式將循環(huán)網(wǎng)絡(luò)作用于視頻序列,并假定視頻中的運(yùn)動(dòng)在不同的空間位置是靜止的;Ts-3D 是一種基于改進(jìn)雙流網(wǎng)絡(luò)的行為識(shí)別算法,由2DCNN Inception-V1 擴(kuò)張而來,可以使用預(yù)訓(xùn)練的參數(shù)增強(qiáng)訓(xùn)練的效率;OFGF 是一種快速穩(wěn)健的視頻動(dòng)作識(shí)別運(yùn)動(dòng)表示方法,通過計(jì)算時(shí)空梯度獲取人體的運(yùn)動(dòng)趨勢(shì)。所有的對(duì)比算法都是采用作者的源碼進(jìn)行測(cè)試。由于部分原始代碼主要針對(duì)3 維自然圖像進(jìn)行分析,而本文的研究對(duì)象是二維灰度圖像。為了算法模型的一致性,所有輸入圖像都是將灰度圖擴(kuò)展成3通道圖。同時(shí),本文所有試驗(yàn)都采用相同的測(cè)試集與訓(xùn)練集進(jìn)行對(duì)比。

      由于紅外熱像儀輸出的Cameralink 數(shù)字視頻達(dá)到了100 幀,其相鄰幀之間的內(nèi)容變化相當(dāng)緩慢。為了使輸入序列能有效表征序列動(dòng)作信息,本文采用多尺度抽幀策略獲取輸入數(shù)據(jù)集,確保固定維度的前提下獲得更豐富的時(shí)序信息。因此,部分關(guān)鍵幀之間的數(shù)據(jù)非常冗余,只需要少量的信息就可以表征人體的運(yùn)動(dòng)趨勢(shì)。也就是說,利用差分關(guān)鍵幀就可以獲得與持續(xù)時(shí)間無關(guān)的趨勢(shì)信息,確保獲得的特征信息沿著時(shí)間維度均勻分布。可以看出,本文改進(jìn)的策略具有光流圖相似的性能,能夠充分地表征人體的時(shí)序動(dòng)作信息,但計(jì)算復(fù)雜度更小。

      圖4展示了差分關(guān)鍵幀與對(duì)應(yīng)的光流圖。原始數(shù)據(jù)序列與差分圖分別從不同角度得到互補(bǔ)的特征信息,可以明顯看出序列中大多數(shù)背景噪聲已被刪除,并且成功保留了人體動(dòng)作目標(biāo)。另外,本文獲取的差分信息與原始圖像的光流信息類似,這種操作不僅可以降低計(jì)算復(fù)雜度,還可以使模型更加魯棒。

      圖4 差分關(guān)鍵幀與對(duì)應(yīng)的光流圖Fig.4 Differential keyframe and corresponding optical-flow

      圖5與圖6分別展示了本文所提模型訓(xùn)練過程中的損失值及其識(shí)別精度。訓(xùn)練過程中,損失函數(shù)的學(xué)習(xí)率是隨著訓(xùn)練輪數(shù)變化而動(dòng)態(tài)更新,防止訓(xùn)練過程過擬合。從圖5結(jié)果可以看出,采用決策級(jí)融合機(jī)制后的損失收斂較為迅速且穩(wěn)定,而未采用融合的訓(xùn)練損失較為抖動(dòng)。圖6中融合后的雙流網(wǎng)絡(luò)訓(xùn)練精度可以迅速上升并接近99%,說明決策級(jí)融合機(jī)制可以將空間-時(shí)間信息進(jìn)行有效地融合,通過互補(bǔ)的特征信息,提升人體動(dòng)作的表征能力。

      圖5 訓(xùn)練過程中的模型損失值變化趨勢(shì)Fig.5 Change trend of loss value during training

      圖6 訓(xùn)練過程中的模型識(shí)別精度變化趨勢(shì)Fig.6 Trend of precision variation during training

      由于人體的行為動(dòng)作千差萬別,細(xì)分所有的類別是非常困難的事情。本文主要對(duì)所提算法的性能進(jìn)行驗(yàn)證。因此,實(shí)驗(yàn)選用了站立、行走、跑步、跳躍等16 種運(yùn)動(dòng)進(jìn)行識(shí)別。人體檢測(cè)模型采用Yolo-v3 進(jìn)行,本文獲得的差分圖在行人檢測(cè)結(jié)果的基礎(chǔ)上進(jìn)行細(xì)化,縮小處理的范圍,有助于提升人體運(yùn)動(dòng)趨勢(shì)的表征能力。表3展示了所有對(duì)比算法在相同測(cè)試集下的定量結(jié)果??梢钥闯鲭m然部分?jǐn)?shù)據(jù)集下IDT 的結(jié)果不如基于深度學(xué)習(xí)的行為識(shí)別算法,但整體上與IDT 的結(jié)果融合可以提升一點(diǎn)性能,尤其是在站立序列上,其結(jié)果與深度學(xué)習(xí)算法差距不大。C3D 與Ts-3D(two-stream 3D)是目前做行為識(shí)別的兩大主流方法,其識(shí)別精度達(dá)到了75.2%,但這兩種方案嚴(yán)重依賴于相鄰時(shí)序的變化差異,一旦其關(guān)鍵幀之間的幀序列較少,其性能將大大降低,例如大幅度運(yùn)動(dòng)導(dǎo)致相鄰兩幀變化較大,最終識(shí)別精度不足,例如序列2 的結(jié)果只有57%。L-LSTM 往往依賴卷積網(wǎng)絡(luò)的最后一層特征作為輸入,不能夠捕捉到低層次運(yùn)動(dòng)特征,而且對(duì)于遍歷整個(gè)視頻也很難去訓(xùn)練。為了提高長(zhǎng)時(shí)間的行為識(shí)別,密集采樣是常用的方法,但這需要龐大的計(jì)算開銷。OFGF 的平均精確率(%)、漏檢率(%)與召回率(%)分別是73.8%,19.2%與78.4%。雖然這是對(duì)比算法的最優(yōu)算法,僅需要少量時(shí)間成本,就可以嵌入任何現(xiàn)有的深度網(wǎng)絡(luò)框架中,其處理幀頻達(dá)到69.7。本文提出的模型將其輸入深度差分網(wǎng)絡(luò)中提取時(shí)間維度特征,在保證精度的同時(shí)可以大幅減少運(yùn)算耗時(shí),最終得到了78%的識(shí)別精度。可以看出,本模型對(duì)比L-LSTM 的識(shí)別精度提高了6.7%,比使用了68層的C3D 有1.8%的精度提升,充分說明了本文提出模型可以更為有效地進(jìn)行紅外人體動(dòng)作識(shí)別。

      表3 不同對(duì)比算法的性能分析Table 3 Performance analysis of different comparison models

      4 結(jié)語

      本文提出了一種改進(jìn)空時(shí)雙流網(wǎng)絡(luò)的紅外行人動(dòng)作識(shí)別模型,可以更大限度地保留不同網(wǎng)絡(luò)幀間圖像的時(shí)空特征,更加真實(shí)地反映行人的動(dòng)作類別。仿真實(shí)驗(yàn)也從不同角度驗(yàn)證了本文模型的有效性。下一步工作考慮細(xì)化紅外動(dòng)作類別,建立更加豐富的訓(xùn)練樣本集,提高模型的識(shí)別精度與泛化能力,并在AI嵌入式平臺(tái)基礎(chǔ)上移植模型,以實(shí)現(xiàn)復(fù)雜紅外監(jiān)控環(huán)境下的行為識(shí)別。同時(shí),項(xiàng)目組也將在機(jī)載平臺(tái)上改進(jìn)所提算法,以實(shí)現(xiàn)航拍圖像的行人動(dòng)作識(shí)別。

      致謝

      本文所有數(shù)據(jù)來自中國科學(xué)院沈陽自動(dòng)化研究所提供的光電跟蹤取證系統(tǒng);本文研究得到了北京工商大學(xué)吳曉波副教授的幫助,在此一并表示感謝。

      猜你喜歡
      光流雙流關(guān)鍵幀
      方一帆
      利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
      四川省成都市雙流區(qū)東升迎春小學(xué)
      雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對(duì)策
      四川省成都雙流中學(xué)實(shí)驗(yàn)學(xué)校
      基于物理學(xué)的改善粒子圖像測(cè)速穩(wěn)健光流方法研究
      基于改進(jìn)關(guān)鍵幀選擇的RGB-D SLAM算法
      基于相關(guān)系數(shù)的道路監(jiān)控視頻關(guān)鍵幀提取算法
      基于聚散熵及運(yùn)動(dòng)目標(biāo)檢測(cè)的監(jiān)控視頻關(guān)鍵幀提取
      論“關(guān)鍵幀”在動(dòng)畫制作中的作用
      丰顺县| 阜平县| 新丰县| 马公市| 邻水| 天等县| 漾濞| 蓝山县| 修水县| 东明县| 平远县| 海口市| 福安市| 分宜县| 平陆县| 芜湖县| 界首市| 安阳县| 滨州市| 衢州市| 兴城市| 麦盖提县| 铜川市| 昭觉县| 竹溪县| 新干县| 松阳县| 高邑县| 富源县| 阳朔县| 黑龙江省| 乌苏市| 龙川县| 平凉市| 沁阳市| 罗江县| 洛隆县| 西畴县| 托克逊县| 措勤县| 泰兴市|