呂 靜,高陳強,杜銀和,程 華
(1.重慶郵電大學(xué) 信號與信息處理重慶市重點實驗室,重慶 400065, 2.中國艦船研究設(shè)計中心,武漢 430064)
基于雙通道特征自適應(yīng)融合的紅外行為識別方法
呂 靜1,高陳強1,杜銀和1,程 華2
(1.重慶郵電大學(xué) 信號與信息處理重慶市重點實驗室,重慶 400065, 2.中國艦船研究設(shè)計中心,武漢 430064)
針對現(xiàn)有行為識別算法在紅外視頻中表現(xiàn)不佳的問題,提出一種基于雙通道特征自適應(yīng)融合的紅外行為識別算法。在該方法中,2個通道提取的特征分別是改進的密集軌跡特征和光流卷積神經(jīng)網(wǎng)絡(luò)特征。改進的密集軌跡特征是在原始密集軌跡特征中加入灰度值權(quán)重,強調(diào)紅外視頻的成像特征;光流卷積神經(jīng)網(wǎng)絡(luò)特征是在原始視頻對應(yīng)的光流圖序列中提取的,該特征具有較強的全局描述能力。通過自適應(yīng)融合模型將2個通道特征的概率輸出進行自適應(yīng)融合,得到最終識別結(jié)果。實驗結(jié)果表明,在現(xiàn)有紅外行為識別數(shù)據(jù)集上,該算法有效地提高了識別準(zhǔn)確率。
行為識別;紅外視頻;雙通道特征;自適應(yīng)融合
近年來,視頻中的行為識別成為計算機視覺領(lǐng)域的一項重要任務(wù),視頻中的行為識別對視頻監(jiān)控、視頻信息檢索、人機交互等工作都有十分重要的意義[1-2]。隨著各種行為識別算法的不斷提出,視頻中的行為識別任務(wù)已取得了很大進展。
現(xiàn)有行為識別算法可大致分為基于人體模型的方法、基于全局特征的方法和基于局部特征的方法。一般都遵循特征提取、特征編碼和分類器訓(xùn)練、分類的流程。由于局部描述子對不同圖像的紋理信息、視覺形態(tài)和多個連續(xù)圖像序列之間的運動信息等有較強的描述和區(qū)分能力,因此,基于局部特征的行為識別算法成為目前應(yīng)用較廣泛、效果較好的方法。常用的局部描述子有時空興趣點特征[3](spatial-temporal interest point,STIP)、方向梯度直方圖[4](histogram of oriented gradient,HOG)、密集軌跡特征[5](dense trajectory,DT)等。由于密集軌跡特征包含HOG,光流方向直方圖(histograms of oriented optical flow,HOF),運動邊界直方圖(motion boundary histogram,MBH)等豐富的描述子信息,成為目前識別準(zhǔn)確率較高的人工設(shè)計特征。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)因其較強的容錯、自學(xué)習(xí)和并行處理能力被廣泛應(yīng)用于圖像分類、人臉識別、文檔識別等領(lǐng)域。利用卷積神經(jīng)網(wǎng)絡(luò)提取的CNN特征用作圖像、視頻中的行為表達[6]也成為近年來的熱門研究方向。卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了對圖片信息的深層次挖掘,有效地提取具有判別性的全局信息。目前已經(jīng)提出的3D卷積神經(jīng)網(wǎng)絡(luò)[7]、深度卷積神經(jīng)網(wǎng)絡(luò)、雙通道卷積神經(jīng)網(wǎng)絡(luò)[8]等模型中,效果最好的是一個由時間信息通道和空間信息通道構(gòu)成的雙通道卷積神經(jīng)網(wǎng)絡(luò),在各個比較有挑戰(zhàn)性的數(shù)據(jù)集上都取得了較好的實驗結(jié)果。
雖然這些算法在可見光視頻數(shù)據(jù)集上都取得了不錯的效果,但是在紅外行為識別方面的研究卻很少。比較有代表性的紅外行為識別方法有Ju等[9]提出的步態(tài)能量圖,將運動人體的輪廓圖序列在單張圖像中表示出來;還有Jaki等[10]提出的紅外視頻中人類異常行為檢測的方法,該方法采用監(jiān)督式學(xué)習(xí)的方式對訓(xùn)練數(shù)據(jù)中不同可疑行為提取局部描述子,編碼生成不同的模型。國內(nèi)對紅外行為識別的相關(guān)研究也非常少,近年來有一些通過改進的局部描述子進行紅外行為識別的算法(如文獻[11])出現(xiàn),但總體來說,該領(lǐng)域研究起步較晚,發(fā)展緩慢。
然而在視頻監(jiān)控工作中,若遇到雨、霧等能見度較低的惡劣天氣或者夜間情況下,可見光視頻監(jiān)控及其行為識別就失去了意義,但此時紅外成像儀卻能夠正常工作。此外,紅外成像還可以很好地避免可見光圖像處理中由陰影、光照變化、目標(biāo)與背景顏色一致等因素引起的干擾。因此,紅外視頻行為識別有著非常重要的研究意義和應(yīng)用價值。
針對上述問題,本文提出一種基于雙通道特征自適應(yīng)融合的紅外行為識別方法。在該方法中,我們在現(xiàn)有密集軌跡特征的基礎(chǔ)上加入灰度值權(quán)重,突出紅外圖像中通過灰度值大小反映人體目標(biāo)位置的特點;利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像中具有判別性的全局信息;再將改進的密集軌跡特征和深度學(xué)習(xí)特征進行決策層融合,用于紅外行為識別。實驗結(jié)果表明,本文提出的方法比現(xiàn)有描述子有更強的描述能力,能夠較好地提高紅外行為識別的準(zhǔn)確率。
本文提出的算法框架示意圖如圖1所示。2個通道提取的特征分別是改進的密集軌跡和光流卷積神經(jīng)網(wǎng)絡(luò)特征。在上支路通道中,改進的密集軌跡特征是在原始密集軌跡特征的基礎(chǔ)上加入了灰度值權(quán)重,實驗中直接對原始視頻提取改進的密集軌跡特征,編碼后輸入到自適應(yīng)融合模塊;在下支路通道中,首先,對原始視頻圖像序列進行預(yù)處理得到對應(yīng)光流圖像序列,然后,利用卷積神經(jīng)網(wǎng)絡(luò)對光流圖提取光流CNN特征。最后,通過自適應(yīng)融合模塊將2個通道的概率輸出進行自適應(yīng)融合,即給判別能力較強特征對應(yīng)的概率輸出分配較大的權(quán)重,給另外一種特征對應(yīng)的概率輸出分配較小的權(quán)重,從而得到最終識別結(jié)果。
圖1 算法框架圖Fig.1 Framework of proposed algorithm
1.1 改進的密集軌跡特征
DT最早是由Wang等[5]提出用于行為識別。提取行為密集軌跡時,首先,對整個視頻序列進行光流場計算并密集采樣每幀圖像中的興趣點;然后,在連續(xù)圖像序列之間追蹤興趣點。第t幀圖像中的興趣點pt=(xt,yt)被密集光流場w=(ut,vt)中的中值濾波器追蹤到第t+1幀中的位置由(1)式可得
(1)
在追蹤過程中,連續(xù)兩幀之間位移量很小和過大的像素點都被舍棄。同時,為防止由于長時間跟蹤而產(chǎn)生跟蹤點漂移現(xiàn)象,設(shè)置軌跡長度L=15。利用一系列位移矢量來描述軌跡形狀:s=(Δpt,…,Δpt+L-1),其中,Δpt=(pt+1-pt)=(xt+1-xt,yt+1-yt)。最后經(jīng)歸一化的軌跡形狀描述子為
(2)
對每條追蹤到的軌跡,沿著軌跡將軌跡鄰域劃分成更小的子空間,然后對每個子空間構(gòu)造軌跡描述子:HOG,HOF和MBH(MBH-x和MBH-y)。HOG特征主要描述視頻塊的表面特征;HOF特征則主要是對局部動作信息進行描述,統(tǒng)計的是視頻的絕對運動信息;而MBH統(tǒng)計的是視頻的相對運動信息。
和可見光成像不同,紅外熱成像是靠物體自身的熱輻射成像。生成的灰度圖通過灰度值的大小反映目標(biāo)熱輻射的大小,由于人體和環(huán)境的熱輻射有較大的差異,因此,紅外圖像能夠比較清晰地反映出人體目標(biāo)的位置和輪廓。在人體發(fā)生運動時,相鄰圖像之間的像素位置發(fā)生變化。而光流法正是利用圖像序列之間像素強度的時域變化和相關(guān)性來確定像素位置的“運動”。因此,我們可以對紅外圖像計算光流,得到對應(yīng)光流場,從而在該光流場內(nèi)進行興趣點密集采樣以及追蹤。對同一場景下的紅外和可見光圖像分別進行光流計算,結(jié)果如圖2所示。從圖2中可以看出,對紅外圖像計算光流與可見光圖像計算的結(jié)果非常相似。
圖2 紅外可見光圖像對應(yīng)光流圖對比Fig.2 Comparison of optical flow of infrared and visible images
1.2 光流卷積神經(jīng)網(wǎng)絡(luò)特征
CNN能夠直接從原始輸入數(shù)據(jù)中自動學(xué)習(xí)區(qū)分能力較強的全局特征[12],和局部描述子有很好的互補性。因此,我們將代表細節(jié)信息的局部描述子和代表全局信息的CNN特征融合進行行為識別。
基于CNN特征的行為識別方法中,現(xiàn)有識別效果較好的是一個雙通道卷積神經(jīng)網(wǎng)絡(luò)[8]。該網(wǎng)絡(luò)由2個通道構(gòu)成,空間信息通道主要提取圖片紋理信息,時間信息通道主要提取圖片中的運動信息。然而紅外圖像像素分辨率較低、對比度差,不能提供具有區(qū)分效力的紋理、顏色等信息。因此,在紅外行為識別任務(wù)中,我們將代表運動信息的光流圖片作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。光流CNN特征的提取過程如圖3所示。
圖3 光流卷積神經(jīng)網(wǎng)絡(luò)特征提取過程Fig.3 Feature extraction process of optical flow CNN feature
提取光流CNN特征時,首先,利用一種變分光流算法對原始視頻圖像序列提取光流信息,得到對應(yīng)的光流圖像序列[13],將光流圖尺寸調(diào)整為227×227;然后,利用卷積神經(jīng)網(wǎng)絡(luò)對光流圖提取CNN特征。本文采用的變分光流算法是文獻[14]中提出的一種改進的變分光流算法。在亮度不變假設(shè)、梯度恒定假設(shè)和連續(xù)時空平滑約束條件下,改進能量泛函的數(shù)據(jù)項和平滑項,根據(jù)能量函數(shù)推導(dǎo)出其對應(yīng)的Euler-Lagrange方程,再利用Gauss-Seidel或SOR方法求出光流矢量,得到對應(yīng)光流圖。和傳統(tǒng)光流算法相比,該變分光流算法大大減少了計算量,并且有很高的精確度。提取特征使用的卷積神經(jīng)網(wǎng)絡(luò)是在UCF101數(shù)據(jù)集上訓(xùn)練的用于行為識別的運動網(wǎng)絡(luò)[15],該網(wǎng)絡(luò)由5個卷積層和3個全連接層構(gòu)成,具體網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。我們將光流圖序列作為該網(wǎng)絡(luò)的輸入,取第2個全連接層的特征作為數(shù)據(jù)集的CNN特征表達,最終每個視頻樣本被表示成一個4 096維的特征向量。
表1 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
1.3 自適應(yīng)融合模型
本文使用的自適應(yīng)融合模型是利用決策層融合的思想,對2個通道的概率輸出進行加權(quán)融合。該模型由2個分類網(wǎng)絡(luò)wh和wc以及一個單節(jié)點邏輯函數(shù)wq構(gòu)成。而分類網(wǎng)絡(luò)由一個全連接層和一個softmax輸出層構(gòu)成。其結(jié)構(gòu)圖如圖4所示。
原始數(shù)據(jù)的特征輸入到分類網(wǎng)絡(luò)之后即可得到對應(yīng)分類概率輸出。進行特征融合時,首先,將原始數(shù)據(jù)集劃分為訓(xùn)練集和測試集,對訓(xùn)練集數(shù)據(jù)提取改進的密集軌跡特征和光流CNN特征,并對改進的密集軌跡特征進行Fisher Vector編碼[16];然后,將編碼后的改進密集軌跡特征和光流CNN特征分別輸入到對應(yīng)分類網(wǎng)絡(luò),訓(xùn)練過程如下。
1)初始化wh,wc和wq,參數(shù)隨機取值;
2)利用誤差反向傳播算法(error back propagation,BP)更新wh和wc;
3)固定wh和wc,利用BP算法更新權(quán)重qi(wq);
4)迭代進行第2)和第3)步驟,直至損失函數(shù)收斂,得到最優(yōu)權(quán)重。
訓(xùn)練得到最優(yōu)權(quán)重后,將測試集數(shù)據(jù)特征輸入到對應(yīng)分類網(wǎng)絡(luò),并將最優(yōu)權(quán)重應(yīng)用于測試集數(shù)據(jù)概率輸出的融合過程,得到測試集數(shù)據(jù)識別結(jié)果。
我們在紅外行為識別數(shù)據(jù)集InfAR上測試了提出的方法。該數(shù)據(jù)集樣本包括12個行為類型,如圖5所示,分別是fight,handclapping,handshake,hug,jog,jump,push,punch,skip,walk,wave1和wave2。每個行為類型有30個視頻樣本,樣本分辨率為293×256,幀率為25幀/s。樣本復(fù)雜度適中,涵蓋了有無遮擋、背景干擾以及不同視角(正面和側(cè)面)的情況,具有較好的代表性。
現(xiàn)有研究工作[17]測試了各類局部描述子在該數(shù)據(jù)集上的識別效果,目前效果較好的局部描述子是密集軌跡描述子和代表運動信息的HOF描述子,識別準(zhǔn)確率分別達到了68.15%和66.94%。
2.1 融合前的實驗
在這部分實驗中,我們利用支持向量機(support vector machine,SVM)的分類結(jié)果分別評估改進的密集軌跡特征和光流CNN特征的判別能力。
在實驗中,我們還評估了SVM的不同核函數(shù)對實驗結(jié)果的影響。核函數(shù)選取線性核時,損失函數(shù)-C的值設(shè)置為30;選用高斯核時,-C值取32,gamma函數(shù)值設(shè)置為0.000 97。為體現(xiàn)結(jié)果無偏性,取10次分類結(jié)果的平均值作為最后的識別準(zhǔn)確率。
圖5 InfAR 紅外行為識別數(shù)據(jù)集的12個動作類型Fig.5 12 action types of the InfAR dataset
實驗結(jié)果如表2所示??梢钥闯?,改進后的密集軌跡特征確實比原始密集軌跡特征具有更好的識別性能,線性核分類器得到的識別準(zhǔn)確率較改進前的原始密集軌跡特征提高了近2%,高斯核分類器得到的識別準(zhǔn)確率較改進前的原始密集軌跡特征提高了近4%。這說明在原始密集軌跡特征中加入灰度值權(quán)重確實能更好地強調(diào)出灰度值較大的運動軌跡,突出連續(xù)圖像序列間的運動信息。
對光流CNN特征,我們直接將提取的光流CNN特征輸入到SVM分類器。選取線性核函數(shù)時的識別準(zhǔn)確率是52.08%,而選取高斯核函數(shù)時的識別準(zhǔn)確率只有38.16%。這是因為本文提取的特征向量維數(shù)遠大于樣本數(shù)目,這種情況下線性核的性能要比高斯核更好。另外,可以看出,該特征在實驗中的識別準(zhǔn)確率不高,這可能是因為我們使用的卷積神經(jīng)網(wǎng)絡(luò)模型是在UCF101數(shù)據(jù)集上訓(xùn)練的。該數(shù)據(jù)集中的樣本都是可見光數(shù)據(jù),訓(xùn)練網(wǎng)絡(luò)模型時提取的特征在很大程度上依賴圖像的紋理、顏色等信息,但實驗使用的紅外數(shù)據(jù)并不能提供這樣的細節(jié)信息。
表2 實驗結(jié)果對比
2.2 自適應(yīng)融合實驗
在這部分實驗中,我們將CNN特征和編碼后的改進密集軌跡特征作為自適應(yīng)融合模型的輸入,對分類網(wǎng)絡(luò)的概率輸出進行加權(quán)融合。
在自適應(yīng)融合模型的訓(xùn)練過程中,每個行為類別取20個視頻作為訓(xùn)練樣本,10個視頻作為測試樣本。網(wǎng)絡(luò)學(xué)習(xí)速率設(shè)置為0.005,權(quán)重衰減系數(shù)設(shè)置為0.000 5,每次處理20張圖片,訓(xùn)練600輪。測試時,將測試樣本特征分別輸入到對應(yīng)分類網(wǎng)絡(luò),通過優(yōu)化后的權(quán)重比例對二者的概率輸出進行加權(quán)融合。
融合后的實驗結(jié)果如表3所示。其中,OF_CNN對應(yīng)的識別準(zhǔn)確率是直接對CNN特征進行線性核SVM分類的結(jié)果,Improved Dense對應(yīng)的識別準(zhǔn)確率是對改進密集軌跡特征進行FV編碼后再進行線性核SVM的結(jié)果。
表3 自適應(yīng)融合后的實驗結(jié)果
從實驗結(jié)果中可以看出,通過訓(xùn)練,自適應(yīng)融合模型可以根據(jù)2種特征的判別能力給其概率輸出分配不同的權(quán)重,有效地強化了判別能力較強的特征的分類結(jié)果,使得自適應(yīng)融合后的識別結(jié)果比現(xiàn)有最高的識別準(zhǔn)確率高出近5%。
2.3 算法運行時間評估
實驗的硬件平臺是一臺Linux 操作系統(tǒng)的PC機,CPU:I7-5930k ,64 GByte內(nèi)存;軟件MATLAB版本是R2014b。
該算法中,較為耗時的部分是改進密集軌跡特征和光流CNN特征的提取過程。在這部分實驗中,360個視頻樣本共59 719幀。我們測試了不同大小圖片尺寸對實驗耗時的影響,實驗結(jié)果如表4和表5所示。
表4 改進密集軌跡特征提取用時實驗結(jié)果
由表4可以看出,在提取改進的密集軌跡特征時,圖像尺寸對實驗耗時有較大的影響,這是因為適當(dāng)縮小圖像尺寸可以較大地減少興趣點采集過程的工作量,有效提高處理速度。
表5 光流CNN特征提取用時實驗結(jié)果
在光流CNN特征提取的過程中,對原始圖像(293×256)計算光流用時16 140 s,對尺寸為227×227的圖像計算光流用時10 591 s。CNN的輸入光流圖像大小為227×227,提取CNN特征用時2 674 s。對比表4和表5發(fā)現(xiàn),在該過程中,調(diào)整圖像大小并不能明顯提高處理速度,這可能是因為圖像中大部分運動的點都得以保留,對光流提取過程的影響較小。
在自適應(yīng)融合實驗中,訓(xùn)練數(shù)據(jù)為240個光流CNN特征樣本和240個改進密集軌跡特征樣本,訓(xùn)練模型用時40.5 min;測試過程中,測試數(shù)據(jù)為120個光流CNN特征樣本和120個改進密集軌跡特征樣本,用時約6 min。
綜上所述,本文提出的算法在整體上尚未達到實時性的要求。但是在一些對實時性沒有要求的應(yīng)用場景,如視頻檢索、目標(biāo)分類中,該算法仍能發(fā)揮較好的應(yīng)用優(yōu)勢。
本文提出了一種基于雙通道特征自適應(yīng)融合的紅外行為識別方法。該方法結(jié)合紅外圖像的特性改進了現(xiàn)有密集軌跡特征,采用決策層自適應(yīng)融合的方式融合了改進后的密集軌跡特征和光流CNN特征用于紅外行為識別。實驗結(jié)果表明,自適應(yīng)融合之后的識別結(jié)果比現(xiàn)有最好的識別結(jié)果高出近5%,即改進的密集軌跡特征確實比原始密集軌跡特征有更強的描述能力。在接下來的工作中,我們考慮對該卷積神經(jīng)網(wǎng)絡(luò)模型進行微調(diào)訓(xùn)練,調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置,進一步提高紅外數(shù)據(jù)集上的行為識別準(zhǔn)確率和識別速度。
[1] VISHWAKARMA S,AGRAWAL A.A survey on activity recognition and behavior understanding in video surveillance[J].The Visual Computer,2013,29(10):983-1009.
[2] 李瑞峰, 王亮亮, 王珂. 人體動作行為識別研究綜述[J]. 模式識別與人工智能, 2014, 27(1): 35-48. LI Ruifeng, WANG Liangliang, WANG Ke, A Survey of Human Body Action Recognition[J]. Pattern Recognition and Artificial Intelligence, 2014,27(1):35-48.
[3] LAPTEV I.On space-time interest points[J].International Journal of Computer Vision,2005,64(2-3):107-123.[4] LAPTEV I, MARSZAEK M, SCHMID C, et al. Learning realistic human actions from movies[C] // 26th IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, United states: IEEE Computer Society, 2008: 1-8.
[6] WANG L, QIAO Y, TANG X. Action recognition with trajectory-pooled deep-convolutional descriptors[C]// IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015. Boston, MA, United states: IEEE Computer Society, 2015: 4305-4314.
[7] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2013, 35(1): 221-231.
[8] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]// 28th Annual Conference on Neural Information Processing Systems 2014, NIPS 2014. Montreal, QC, Canada: Neural information processing systems foundation, 2014: 568-576.[9] HAN J, BHANU B. Human activity recognition in thermal infrared imagery[C]//Computer Vision and Pattern Recognition-Workshops, 2005. CVPR Workshops. San Diego, CA, USA: IEEE Press, 2005: 17-17.
[10] HOSSEN J, JACOBS E, CHOWDHURY F K. Human suspicious activity recognition in thermal infrared video[C]//Infrared Sensors, Devices, and Applications IV. San Diego, California, United States: SPIE 9220, 2014, 9220(4):1-8.
[11] 邵延華,郭永彩,高潮.基于稠密軌跡特征的紅外人體行為識別[J].光電子.激光,2015,26(4):758-763. SHAO Yanhua,GUO Yongcai,GAO Chao,Infrared human action recognition using dense trajectories-based feature[J].Journal of Optoelectronics Laser,2015,26(4):758-763.
[12] 鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識別中的新進展[J].中國圖象圖形學(xué)報,2014,19(2):175-184. ZHENG Yin,CHEN Quanqi,ZHANG Yujin.Deep learning and its new progress in object and behavior recognition[J].Journal of image and graphics,2014,19(2):175-184.
[13] CHéRON G, LAPTEV I, SCHMID C. P-CNN: pose-based CNN features for action recognition[C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE, 2015: 3218-3226.
[14] BROX T, BRUHN A, PAPENBERG N, et al. High accuracy optical flow estimation based on a theory for warping[C]//European conference on computer vision. Prague, Czech Republic: Springer Berlin Heidelberg, 2004: 25-36.
[15] GKIOXARI G, MALIK J. Finding action tubes[C]// IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015. Boston, MA, United states: IEEE Computer Society, 2015: 759-768.
[16] PERRONNIN F, SNCHEZ J, MENSINK T. Improving the fisher kernel for large-scale image classification[C]//European conference on computer vision. Berlin Heidelberg: Springer Berlin Heidelberg, 2010: 143-156.
[17] GAO C, DU Y, LIU J, et al. A New Dataset and Evaluation for Infrared Action Recognition[C]//CCF Chinese Conference on Computer Vision. Xi’an China: Springer Berlin Heidelberg, 2015: 302-312.
(編輯:劉 勇)
s:The National Natural Science Foundation of China (61571071,61102131); The Natural Science Foundation of Chongqing Science and Technology Commission (cstc2014jcyjA40048); The Wenfeng Innovation and Start-up Project of Chongqing University of Posts and Telecommunications (WF201404)
Infrared action recognition method based on adaptive fusion of dual channel features
LV Jing1, GAO Chenqiang1, DU Yinhe1, CHENG Hua2
(1.Chongqing Key Laboratory of Signal and Information Processing, Chongqing University of Posts and Telecommunications, Chongqing 400065, P.R. China; 2. China Ship Development and Design Center, Wuhan 430064, P.R. China)
According to the poor performance problem of existing action recognition algorithm in infrared videos, a novel infrared action recognition method based on adaptive fusion of dual channel features is proposed in this paper. In this method, the features of two channels are the improved dense trajectory feature and the convolutional neural network feature based on optical flow, respectively. The former is obtained through adding gray value weight into the original dense trajectory feature, which emphasizes the imaging characteristics of infrared videos. And the latter is achieved through applying the convolutional neural network to the optical flow sequence form the original videos, which has superior global description ability. Finally, the recognition result is achieved by fusing the probability outputs of two channels using an adaptive fusion model. Experimental results show that the proposed method has effectively improved the recognition accuracy of existing infrared action datasets.
action recognition; infrared video; dual channel feature; adaptive fusion
2016-04-08
2017-04-10 通訊作者:呂 靜 1471978933@qq.com
國家自然科學(xué)基金(61571071,61102131);重慶市科委自然科學(xué)基金(cstc2014jcyjA40048);重慶郵電大學(xué)大學(xué)文峰創(chuàng)新創(chuàng)業(yè)項目(WF201404)
10.3979/j.issn.1673-825X.2017.03.017
TP391.4
A
1673-825X(2017)03-0389-07
呂 靜(1991-),女,山東菏澤人,碩士研究生,主要研究方向為圖像處理、行為識別。E-mail: lvjing0915@gmail.com。
高陳強(1981-),男,重慶市人,教授,博士,主要研究方向為圖像處理、深度學(xué)習(xí)、行為識別。E-mail: gaocq@cqupt.edu.cn。
杜銀和(1989-),男,安徽合肥人,碩士研究生,主要研究方向為行為識別、深度學(xué)習(xí)。E-mail:yinhedu@gmail.com。
程 華(1982-),男,湖北赤壁人,博士,主要研究方向為船舶電氣和圖像處理。E-mail: hchenghuab@163.com。