基于低分辨率紅外傳感器的深度學(xué)習(xí)動作識別方法

2022-04-08 08:43:20張昱彤翟旭平

紅外技術(shù) 2022年3期

張昱彤，翟旭平，聶宏

張昱彤1，翟旭平1，聶宏2

（1. 上海大學(xué) 特種光纖與光接入網(wǎng)重點實驗室，上海 200444; 2. 美國北愛荷華大學(xué) 技術(shù)系，愛荷華州錫達(dá)福爾斯市）

近年來動作識別成為計算機(jī)視覺領(lǐng)域的研究熱點，不同于針對視頻圖像進(jìn)行的研究，本文針對低分辨率紅外傳感器采集到的溫度數(shù)據(jù)，提出了一種基于此類紅外傳感器的雙流卷積神經(jīng)網(wǎng)絡(luò)動作識別方法?？臻g和時間數(shù)據(jù)分別以原始溫度值的形式同時輸入改進(jìn)的雙流卷積神經(jīng)網(wǎng)絡(luò)中，最終將空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)的概率矢量進(jìn)行加權(quán)融合，得到最終的動作類別。實驗結(jié)果表明，在手動采集的數(shù)據(jù)集上，平均識別準(zhǔn)確率可達(dá)到98.2%，其中彎腰、摔倒和行走動作的識別準(zhǔn)確率均達(dá)99%，可以有效地對其進(jìn)行識別。

動作識別；雙流卷積神經(jīng)網(wǎng)絡(luò)；低分辨率紅外傳感器；深度學(xué)習(xí)

0 引言

隨著世界各國人口老齡化問題越來越嚴(yán)重，在日常生活中，高齡獨居老人極易因為發(fā)生跌倒等意外情況卻得不到及時的救治而殘疾甚至死亡[1]，因此對室內(nèi)跌倒檢測算法的研究成為了熱點。目前，已有許多相關(guān)研究，根據(jù)采集數(shù)據(jù)的裝置分為攝像裝置和傳感裝置，傳感裝置可以細(xì)分為需穿戴傳感器和無需穿戴傳感器。在日常生活中，攝像裝置[2]不僅會暴露用戶的日常隱私，且極易受到光照影響。加速度傳感器[3]等需穿戴傳感裝置需要老人時刻穿戴在身，一定程度上也造成了不便，而壓力傳感器[4]、二值傳感器[5]等無需穿戴傳感裝置也往往受到使用環(huán)境的約束和影響，系統(tǒng)魯棒性較差。為了減少以上因素的影響，有人提出使用被動紅外傳感器采集數(shù)據(jù)。此類傳感器通過接收外界的紅外輻射工作，采集的數(shù)據(jù)為探測區(qū)的溫度，這樣既保護(hù)了用戶的隱私，不易受光線影響，也易于安裝且不約束老人的行為。

基于此類傳感器的動作識別方法主要有傳統(tǒng)計算機(jī)視覺方法和深度學(xué)習(xí)方法兩種，傳統(tǒng)計算機(jī)視覺方法[6-8]需要人為地提取特征進(jìn)行可靠的識別，這就要求對采集的數(shù)據(jù)有很深的了解，此類方法同時也需要設(shè)置很多的閾值，閾值的選取一定程度上影響了算法的性能。隨著深度學(xué)習(xí)的提出和實驗平臺的更新加強(qiáng)，卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）被越來越多的應(yīng)用在動作識別領(lǐng)域，CNN可以自行從輸入集數(shù)據(jù)中學(xué)習(xí)特征，免去了人為提取時帶來的不確定性。Aparna團(tuán)隊[9]基于LeNet構(gòu)建網(wǎng)絡(luò)，對通過紅外攝像頭的隨機(jī)采樣采集數(shù)據(jù)送入網(wǎng)絡(luò)學(xué)習(xí)，并與傳統(tǒng)方法進(jìn)行對比，識別率較高。王召軍[10]等人基于VGGNet搭建網(wǎng)絡(luò)，不僅進(jìn)行了動作識別還進(jìn)行了身份識別，都取得了較高識別率。在許多方法中，還將CNN與長短期記憶模型（long short term memory，LSTM）進(jìn)行結(jié)合搭建網(wǎng)絡(luò)，也取得了不錯的效果。Takayuki團(tuán)隊[11]用16×16的紅外陣列傳感器采集數(shù)據(jù)，將紅外幀差圖像序列和原始紅外圖像序列一起放入網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)，并且全連接層后加上了LSTM提高準(zhǔn)確率。Xiuyi Fan團(tuán)隊[12]用多個紅外傳感器采集數(shù)據(jù)放入到網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí)，并對比了門控循環(huán)單元與LSTM、MLP（Multilayer Perceptron）的結(jié)果。Felix POLLA團(tuán)隊[13]采用了C3D網(wǎng)絡(luò)對連續(xù)幀序列進(jìn)行處理，同時也加上了LSTM網(wǎng)絡(luò)充分利用了時間關(guān)聯(lián)信息。但是以上方法考慮了動作的時間信息，卻沒有過多捕捉運動特征，在可見光領(lǐng)域中，雙流CNN得到了廣泛的研究。2014年Simonyan團(tuán)隊[14]提出了雙流CNN網(wǎng)絡(luò)結(jié)構(gòu)，將單幀圖像和光流圖分別作為空間和時間流一起放入網(wǎng)絡(luò)訓(xùn)練，同時對時間與空間特征進(jìn)行提取。Christoph團(tuán)隊[15]則提前進(jìn)行了空間和時間特征的融合，可以保證更好地從空間到時間的映射關(guān)系，極大地發(fā)展了雙流CNN網(wǎng)絡(luò)。

為了結(jié)合時空信息和動作特征，本文將雙流CNN網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用在基于低分辨率紅外傳感器的人體動作識別中。采用HEIMANN型號為HTPA80x64 dR1L5.0/1.0的紅外陣列傳感器采集彎腰、坐下、站起、行走和摔倒5種日常動作的溫度數(shù)據(jù)，分別構(gòu)建空間和時間數(shù)據(jù)。常見深度學(xué)習(xí)動作識別方法以單幀RGB圖像或者連續(xù)幀視頻圖像作為輸入，本文方法中以原始溫度數(shù)據(jù)作為輸入，為了增加樣本多樣性，提高模型泛化能力，本文通過隨機(jī)裁剪、翻轉(zhuǎn)操作進(jìn)行數(shù)據(jù)增強(qiáng)。在網(wǎng)絡(luò)模型方面，首先根據(jù)雙流的輸入尺寸在原始雙流CNN的基礎(chǔ)上調(diào)整網(wǎng)絡(luò)的層次，搭建時間流和空間流網(wǎng)絡(luò)，接著對雙流的輸出進(jìn)行加權(quán)融合，得到最終的分類結(jié)果。將雙流網(wǎng)絡(luò)分別與時、空單流網(wǎng)絡(luò)的結(jié)果進(jìn)行比較，并與原始雙流CNN網(wǎng)絡(luò)、基于預(yù)訓(xùn)練網(wǎng)絡(luò)遷移學(xué)習(xí)以及兩種手工提取特征方法的識別結(jié)果進(jìn)行對比，以驗證所提出方法的性能。

1 動作識別方法設(shè)計

本文提出的基于低分辨率紅外傳感器深度學(xué)習(xí)動作識別方法分為訓(xùn)練流程和識別流程。訓(xùn)練時，分別構(gòu)建單個訓(xùn)練數(shù)據(jù)樣本的空間數(shù)據(jù)和時間數(shù)據(jù)。在構(gòu)建樣本空間數(shù)據(jù)時，首先進(jìn)行前景提取，本文針對多數(shù)前景提取方法采用經(jīng)驗值設(shè)置閾值的問題，提出一種基于奈曼-皮爾遜準(zhǔn)則設(shè)置最佳閾值的前景提取方法，較為完整干凈地提取出前景，對各個像素點時域上累加運動幀內(nèi)的數(shù)據(jù)，得到累計溫度矩陣作為該樣本的空間數(shù)據(jù)。在構(gòu)建時間數(shù)據(jù)時，將代表運動過程的9個單幀數(shù)據(jù)按照時序順序以3×3的形式拼接成總溫度矩陣，并分別一一對應(yīng)保存樣本的空間數(shù)據(jù)和時間數(shù)據(jù)。數(shù)據(jù)類型轉(zhuǎn)換之后，通過隨機(jī)位置裁剪固定尺寸、隨機(jī)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)，提高樣本多樣性，改進(jìn)原始的雙流CNN網(wǎng)絡(luò)的空間流網(wǎng)絡(luò)結(jié)構(gòu)，將構(gòu)建的時空訓(xùn)練數(shù)據(jù)送入改進(jìn)的雙流CNN網(wǎng)絡(luò)中進(jìn)行訓(xùn)練，得到訓(xùn)練數(shù)據(jù)的分類結(jié)果，將其與訓(xùn)練數(shù)據(jù)的標(biāo)簽，即訓(xùn)練數(shù)據(jù)的真實動作類別進(jìn)行比較，分類結(jié)果的誤差由損失函數(shù)量化。上述訓(xùn)練過程經(jīng)不斷迭代后，分類結(jié)果和數(shù)據(jù)標(biāo)簽之間的誤差將不斷縮小，訓(xùn)練誤差值每次減少時，進(jìn)行網(wǎng)絡(luò)的權(quán)值更新，保存誤差值最小時的網(wǎng)絡(luò)模型作為最優(yōu)模型。在進(jìn)行識別時，將待識別數(shù)據(jù)通過以上方法構(gòu)建空間數(shù)據(jù)和時間數(shù)據(jù)之后首先轉(zhuǎn)換數(shù)據(jù)類型，按照與訓(xùn)練數(shù)據(jù)相同的輸入尺寸進(jìn)行裁剪預(yù)處理操作后送入最優(yōu)模型中，得到待識別數(shù)據(jù)的動作識別結(jié)果，方法流程如圖1所示。

2 時空數(shù)據(jù)的構(gòu)建

本文基于紅外傳感器采集到的溫度數(shù)據(jù)，構(gòu)建時空數(shù)據(jù)，將原始溫度值輸入到提出的雙流CNN網(wǎng)絡(luò)中完成訓(xùn)練和識別。

2.1 空間數(shù)據(jù)的構(gòu)建

首先采取背景減除法提取前景，為了解決根據(jù)經(jīng)驗值選取閾值[16]的問題，本文方法基于奈曼-皮爾遜準(zhǔn)則選取每幀的最佳分割閾值。設(shè)像素點為背景點的狀態(tài)設(shè)為0，為前景點的狀態(tài)設(shè)為1，該準(zhǔn)則是在(1/0)＝的約束條件下，使得檢測概率達(dá)到最大。

可以利用拉格朗日乘子構(gòu)建目標(biāo)函數(shù)：

＝(0/1)＋[(1/0)－] (1)

根據(jù)要求，即求目標(biāo)函數(shù)的最小值，將公式(1)轉(zhuǎn)化為積分運算，且由于：

式中：Z0和Z1分別為判決區(qū)域，公式(1)可寫為以下形式：

若要求得公式(3)的最小值，被積函數(shù)部分應(yīng)該取負(fù)，可得以下關(guān)系：

式中：判決門限可由約束條件得到：

通過每幀數(shù)據(jù)得到的判決門限即為每幀的最佳判決閾值xth。本文采用虛警率為0.01約束下獲得每幀的最佳判決閾值kth，前景提取公式如下：

得到每一幀的前景之后，對各個像素點時域上累加運動幀內(nèi)的數(shù)據(jù)，得到累計溫度矩陣()，其二維熱圖如圖2所示。

由圖2可以發(fā)現(xiàn)，空間數(shù)據(jù)僅僅展現(xiàn)了運動目標(biāo)的位置，而不包含位置變化的時序信息。公式(7)中的s、e分別代表運動開始和結(jié)束幀，由如下算法確定。探測區(qū)無人活動時，溫度值在時域上波動較小，而探測區(qū)中存在活動時，時域溫度波動較大。根據(jù)這一特點，可以通過提取每幀的最大溫度方差得到s和e。

a為第幀的第(,)個像素點的溫度值。第幀每個像素點的方差計算公式為：

經(jīng)過公式(8)，可以得到每一幀的溫度方差分布矩陣，根據(jù)之前的分析，通過公式(9)提取每幀的最大溫度方差：

vmax＝max() (9)

每幀最大溫度分布方差vmax大于等于閾值th時，則表明運動開始，該幀計為s，否則視為運動結(jié)束，計為e。本文確定閾值th的方法為在無人的環(huán)境下，在實驗前、實驗中和實驗后運行裝置至最大幀，重復(fù)3次，分別計算9組數(shù)據(jù)的最大溫度方差，選取最大值作為閾值th。為了研究環(huán)境溫度和傳感器安裝場景對閾值的影響，由于實驗的限制，在如表1所示的環(huán)境溫度和場景下進(jìn)行了對比試驗。

表1 不同環(huán)境溫度、安裝場景下的閾值對比

經(jīng)對比實驗后發(fā)現(xiàn)，相對而言，傳感器安裝空間對閾值變化影響很小，環(huán)境溫度變化對其影響更大，根據(jù)實驗時的環(huán)境溫度，最終閾值設(shè)為1.7。

2.2 時間數(shù)據(jù)的構(gòu)建

不同于基于視頻圖像的雙流CNN識別方法，本文采用的數(shù)據(jù)是從紅外陣列傳感器中獲得如公式(10)所示的溫度分布數(shù)據(jù)矩陣：

上式表示第個樣本第幀的溫度分布數(shù)據(jù)?；谝曨l圖像的雙流CNN方法往往使用光流圖作為時間流網(wǎng)絡(luò)的輸入，在本文的方法中，為了減少網(wǎng)絡(luò)計算量，提升網(wǎng)絡(luò)的有效性，將代表運動過程的9個原始單幀數(shù)據(jù)按照時序順序以3×3的形式拼接成總溫度矩陣作為時間流網(wǎng)絡(luò)的輸入。

在構(gòu)建空間數(shù)據(jù)時可以求得動作過程的開始幀s和結(jié)束幀e，由于要選取9幀數(shù)據(jù)，所以幀間隔為：

將9幀數(shù)據(jù)以公式(12)的形式進(jìn)行拼接成像素數(shù)為192×240的()作為時間數(shù)據(jù)，其二維熱圖如圖3所示。

3 網(wǎng)絡(luò)設(shè)計

由于樣本數(shù)量有限，為了提高模型泛化能力，在訓(xùn)練前需要進(jìn)行數(shù)據(jù)增強(qiáng)，訓(xùn)練數(shù)據(jù)在數(shù)據(jù)類型轉(zhuǎn)換之后，進(jìn)行隨機(jī)位置裁剪固定尺寸、隨機(jī)水平翻轉(zhuǎn)操作。裁剪操作既可以增加原始樣本的多樣性，也可以減少網(wǎng)絡(luò)的訓(xùn)練計算量，確定固定尺寸大小時，需盡可能保留數(shù)據(jù)中的重要信息，原始空間數(shù)據(jù)大小為64×80，時間數(shù)據(jù)大小為192×240，經(jīng)過實驗對比，空間數(shù)據(jù)裁剪為60×60的大小輸入空間流網(wǎng)絡(luò)，時間流網(wǎng)絡(luò)輸入尺寸則為180×180。原始雙流CNN的網(wǎng)絡(luò)結(jié)構(gòu)[14]使用的是基本上與AlexNet同一種思路設(shè)計的CNN_M網(wǎng)絡(luò)結(jié)構(gòu)，時間流與空間流網(wǎng)絡(luò)結(jié)構(gòu)均包含5層卷積層和2層全連接層。由于本文空間數(shù)據(jù)輸入尺寸較小，所以空間流網(wǎng)絡(luò)采用VGG網(wǎng)絡(luò)的設(shè)計思路基于原始CNN_M空間網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)，最終將時間流與空間流網(wǎng)絡(luò)的Softmax結(jié)果進(jìn)行加權(quán)融合，得到最終的識別結(jié)果。

3.1 空間流網(wǎng)絡(luò)

空間流輸入數(shù)據(jù)的原始大小為64×80，尺寸較小，若采用原始網(wǎng)絡(luò)中尺寸較大的卷積核，網(wǎng)絡(luò)的深度會受到限制，VGG網(wǎng)絡(luò)[17]用多個較小的卷積核代替單個較大卷積核，該方法不僅可以加深網(wǎng)絡(luò)深度以學(xué)習(xí)更高級的特征，也降低了計算復(fù)雜度，因此本文采用此設(shè)計思路用2個3×3的卷積核代替原始較大尺寸的卷積核，增加網(wǎng)絡(luò)的深度提取深層空間特征，本文采用的空間流網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4 空間流網(wǎng)絡(luò)結(jié)構(gòu)圖

改進(jìn)后的空間流網(wǎng)絡(luò)結(jié)構(gòu)主要包括6層卷積層和3層最大池化層以及2層全連接層?？臻g流的輸入通道數(shù)為1，由于輸入尺寸較小，尺寸較大的卷積核會導(dǎo)致輸出的特征圖較小，不利于特征的學(xué)習(xí)，因此卷積層均采用大小3×3，步長為1的卷積核，第1、2卷積層通道數(shù)均為16，第3、4卷積層通道數(shù)均為32，第5卷積層通道數(shù)為64，第6卷積層通道數(shù)為128，一定程度上加深網(wǎng)絡(luò)的深度和寬度，在學(xué)習(xí)更加豐富的深層特征的同時，降低了參數(shù)的個數(shù)以及計算復(fù)雜度。池化層采用尺寸為2×2的窗口，步長為2，以篩選特征，降低特征圖的維度，保存主要特征。最后經(jīng)過2層全連接層，全連接層中采用dropout為0.5的操作防止網(wǎng)絡(luò)過擬合。卷積層和全連接層均采用整流線性單元（Rectified Linear Units，ReLU）作為激活函數(shù)。采用softmax函數(shù)計算空間流網(wǎng)絡(luò)的最終結(jié)果。

3.2 時間流網(wǎng)絡(luò)

時間流網(wǎng)絡(luò)基于原始雙流CNN時間流網(wǎng)絡(luò)[14]，為了減少參數(shù)量，防止過擬合，在原始網(wǎng)絡(luò)基礎(chǔ)上減少了一層卷積層，時間流網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5 時間流網(wǎng)絡(luò)結(jié)構(gòu)圖

時間流網(wǎng)絡(luò)結(jié)構(gòu)主要包括4層卷積層、4層最大池化層以及2層全連接層。卷積層均采用尺寸為5×5的卷積核，步長為1。第1層卷積層通道數(shù)為16，第2層通道數(shù)為32，第3層通道數(shù)為64，第4層通道數(shù)為128，每個卷積層之后均進(jìn)行最大池化操作，在第1、3、4池化層選用大小為2×2的窗口，步長為2，第2池化層采用大小為3×3的窗口，步長為3。經(jīng)過卷積和最大池化操作后經(jīng)過2層dropout均為0.5的全連接層。卷積層和全連接層均采用ReLU函數(shù)為激活函數(shù)，softmax函數(shù)計算時間流結(jié)果。

3.3 雙流CNN網(wǎng)絡(luò)

最終需要將時間流網(wǎng)絡(luò)和空間流網(wǎng)絡(luò)的概率向量經(jīng)過下式加權(quán)融合后得到最終結(jié)果：

()＝×s()＋(1－)×t()，0≤≤1 (13)

圖6 雙流CNN網(wǎng)絡(luò)

訓(xùn)練過程中模型的損失函數(shù)采用交叉熵函數(shù)進(jìn)行計算，優(yōu)化算法采用隨機(jī)梯度下降（stochastic gradient descent，SGD）算法[18]，SGD算法進(jìn)行一次更新操作時，會對每個樣本進(jìn)行梯度更新，樣本較多時，不會產(chǎn)生冗余，且速度較快。經(jīng)過對比試驗后，模型的學(xué)習(xí)率初始化為0.01，動量為0.5，不進(jìn)行學(xué)習(xí)率的更新。

網(wǎng)絡(luò)的訓(xùn)練輪數(shù)為100輪，訓(xùn)練時，每批次從頭到尾讀取20組數(shù)據(jù)載入內(nèi)存訓(xùn)練，空間和時間流的數(shù)據(jù)必須保持一一對應(yīng)，即每次讀取的空間、時間數(shù)據(jù)均來源于同一樣本。一次迭代結(jié)束后將訓(xùn)練數(shù)據(jù)隨機(jī)打亂再進(jìn)行下一次的讀取數(shù)據(jù)和訓(xùn)練。所有輪數(shù)訓(xùn)練完成后，保存損失值最小的模型作為最終的模型，將測試數(shù)據(jù)放入該模型得到最終的分類結(jié)果。

4 實驗與性能分析

4.1 實驗平臺及數(shù)據(jù)采集

本文實驗基于Pytorch深度學(xué)習(xí)框架和型號為NVIDIA GeForce GTX 1050Ti的GPU，計算框架為CUDA。采用德國HEIMANN型號為HTPA80x64 dR1L5.0的熱電堆陣列傳感器，在校內(nèi)普通實驗室采集數(shù)據(jù)。室溫為26℃，將傳感器置于墻壁，距離地面2.6m。測試人員共10名（7男3女），被測人員在探測區(qū)依次完成彎腰、站起、坐下、摔倒和行走5種動作，每種動作重復(fù)30次，最終每個動作獲得300組數(shù)據(jù)，一共1500組，按照2:1的比例劃分為訓(xùn)練集和測試集，進(jìn)行實驗，訓(xùn)練集為1000組，測試集為500組。

4.2 實驗結(jié)果與對比

本文的空間流網(wǎng)絡(luò)不同于原始雙流CNN的空間流網(wǎng)絡(luò)，基于VGG網(wǎng)絡(luò)的設(shè)計思想，采用多個小卷積核代替中的大卷積核，在加深網(wǎng)絡(luò)的同時，降低計算復(fù)雜度。訓(xùn)練集在本文改進(jìn)的空間流網(wǎng)絡(luò)與原始雙流CNN空間流在訓(xùn)練過程中訓(xùn)練誤差值對比如圖7所示。

如圖7所示，實驗證明改進(jìn)后的空間流網(wǎng)絡(luò)比原網(wǎng)絡(luò)收斂速度更快，損失值下降得更低。空間流和時間流兩路的輸出最終進(jìn)行加權(quán)融合得到最終的分類結(jié)果，不同權(quán)重的識別準(zhǔn)確率如圖8所示，最終選擇權(quán)重為0.5，即平均融合。

為了驗證所提出的雙流CNN的網(wǎng)絡(luò)性能，將雙流CNN與空間單流、時間單流進(jìn)行對比，不同動作的識別率如表2所示。

圖7 兩種空間流網(wǎng)絡(luò)訓(xùn)練誤差值對比

圖8 不同權(quán)重的識別準(zhǔn)確率

表2 單流、雙流CNN識別準(zhǔn)確率

由表2可以發(fā)現(xiàn)，對于采集的數(shù)據(jù)，雙流CNN的準(zhǔn)確率較單流CNN網(wǎng)絡(luò)有了較高的提升，彎腰、行走和摔倒動作準(zhǔn)確率均達(dá)到99%，由圖9的混淆矩陣圖可以發(fā)現(xiàn)，彎腰動作有1個測試樣本錯判成了站起，摔倒動作有1個測試樣本錯判成了彎腰，行走動作有1個測試樣本錯判成了摔倒，且由于傳感器放置位置的原因，在坐下和站起的時間數(shù)據(jù)二維成像圖中可以發(fā)現(xiàn)，兩種動作較大的差別僅在9幀數(shù)據(jù)的中間2幀中，其他幀數(shù)據(jù)的差別很小，而在空間數(shù)據(jù)的構(gòu)建過程中，溫度值得到了疊加，呈現(xiàn)出的兩個動作變化的趨勢差別較為細(xì)微，所以相比于其他的動作來說，坐下有4個測試樣本錯判為站起，而站起有2個測試樣本錯判為坐下，誤判率較高。

為了進(jìn)一步驗證模型性能，將數(shù)據(jù)在本文模型的結(jié)果與文獻(xiàn)[14]提出的原始雙流CNN模型、在ImageNet上預(yù)訓(xùn)練的VGG19[17]和ResNet[19]這兩種模型上進(jìn)行遷移學(xué)習(xí)的表現(xiàn)結(jié)果進(jìn)行對比。預(yù)訓(xùn)練的VGG和ResNet網(wǎng)絡(luò)輸入為3通道，輸出類型也與本文類別不同，所以僅僅改變了第一層卷積層輸入通道為1，以及最后的輸出層為5。除此之外，還將本文結(jié)果與文獻(xiàn)[6]以及文獻(xiàn)[7]提出的兩種人工設(shè)計特征方法的識別結(jié)果進(jìn)行了對比，結(jié)果如表3所示。

圖9 雙流CNN混淆矩陣圖

表3 不同網(wǎng)絡(luò)與方法結(jié)果對比

由表3可以看出，采集的數(shù)據(jù)在本文模型上有著較高的識別率，由于空間數(shù)據(jù)的尺寸較小，層數(shù)較深的網(wǎng)絡(luò)模型最終的識別準(zhǔn)確率反而降低。相比于文獻(xiàn)[6]和文獻(xiàn)[7]兩種人工設(shè)計特征的傳統(tǒng)方法，本文提出的深度學(xué)習(xí)方法的識別率有了較高的提升。經(jīng)過以上的實驗對比充分說明本文所提出的雙流CNN模型能夠較好地區(qū)分所采集的5種動作，達(dá)到了實驗設(shè)計初期的要求。

5 結(jié)論

本文針對通過低分辨率紅外傳感器采集的溫度數(shù)據(jù)提出一種基于雙流CNN的人體動作識別方法。不同于常見深度學(xué)習(xí)方法中以圖像的形式作為輸入，本文方法以原始溫度數(shù)據(jù)作為輸入。采用背景減除法提取前景，基于奈曼-皮爾遜準(zhǔn)則確定最佳判決閾值，減少了虛警率，疊加運動幀內(nèi)的前景數(shù)據(jù)，將得到的累計溫度矩陣作為空間數(shù)據(jù)。將代表動作整體過程的9幀數(shù)據(jù)，按照時序順序拼接得到192×240的溫度數(shù)據(jù)矩陣作為時間數(shù)據(jù)。采用數(shù)據(jù)增強(qiáng)的方式提高樣本的多樣性，改進(jìn)了原始的雙流CNN網(wǎng)絡(luò)結(jié)構(gòu)，調(diào)整超參數(shù)，最終通過加權(quán)融合的方式融合時空特征得到最終輸出的結(jié)果。結(jié)果表明在本文采用的數(shù)據(jù)上，5種動作平均識別準(zhǔn)確率為98.2%，相比于其他網(wǎng)絡(luò)及人工設(shè)計特征方法準(zhǔn)確率有了較高的提升，其中彎腰、摔倒和行走這3個動作準(zhǔn)確率均達(dá)99%。由于傳感器放置位置的原因，相較與其他動作，站起和坐下這兩種易錯分的動作的誤判率還是很高。未來，可采用多個紅外傳感器從多角度采集數(shù)據(jù)，進(jìn)一步提升這兩種動作的識別準(zhǔn)確率。

[1] 張艷梅, 馬曉霞, 赫繼梅, 等. 失能老人跌倒的影響因素及長期照護(hù)服務(wù)需求[J].中國老年學(xué)雜志, 2019, 39(17): 4355-4357.

ZHANG Yanmei, MA Xiaoxia, HE Jimei, et al. Influencing factors of falls and demand for long-term care services in the disabled elderly[J]., 2019, 39(17): 4355-4357.

[2] Hsieh Chungyang, LIN Weiyang. Video-based human action and hand gesture recognition by fusing factored matrices of dual tensors[J]., 2017, 76(6): 7575-7594．

[3] 王玉坤, 高煒欣, 王征, 等. 基于加速度傳感器的人體姿態(tài)實時識別[J].計算機(jī)工程與設(shè)計, 2016, 37(11): 3092-3096.

WANG Yukun, GAO Weixin, WANG Zheng, et al. Real-time human activity pattern recognition based on acceleration[J]., 2016, 37(11): 3092-3096.

[4] 杜英魁, 姚俊豪, 劉鑫, 等. 基于電阻式薄膜壓力傳感器組的人體坐姿感知終端[J].傳感器與微系統(tǒng), 2020, 39(1):78-81.

DU Yingkui, YAO Junhao, LIU Xin, et al. Human body sitting posture sensing terminal based on resistive thin film pressure sensor groups[J]., 2020, 39(1): 78-81.

[5] Kobiyama Yuta, ZHAO Qiangfu,Omomo Kazuk, et al. Analyzing correlation of resident activities based on infrared sensors[C]//, 2015: 1-6.

[6] Mashiyama S, HONG J, Ohtsuki T. Activity recognition using low resolution infrared array senso[C]//, 2015: 495-500.

[7] 楊任兵, 程文播, 錢慶, 等. 紅外圖像中基于多特征提取的跌倒檢測算法研究[J]. 紅外技術(shù), 2017, 39(12): 1131-1138.

YANG Renbin, CHEN Wenbo, QIAN Qing, et al. Fall detection algorithm based on multi feature extraction in infrared image[J]., 2017, 39(12): 1131-1138.

[8] 張昱彤, 翟旭平, 汪靜. 一種基于低分辨紅外傳感器的動作識別方法[J]. 紅外技術(shù), 2022, 44(1): 47-53.

ZHANG Yutong, ZHAI Xuping, WANG Jing. Activity recognition approach using a low-resolution infrared sensor[J]., 2022, 44(1): 47-53.

[9] Akula A , Shah A K , Ghosh R . Deep learning approach for human action recognition in infrared images[J]., 2018, 50(8): 146-154.

[10] 王召軍, 許志猛. 基于低分辨率紅外陣列傳感器的人體身份和動作識別[J]. 電氣技術(shù), 2019, 20(11): 6-10, 26.

WANG Zhaojun, XU Zhimeng. Human identity and motion recognition based on low resolution infrared array sensor[J]., 2019, 20(11): 6-10,26.

[11] Takayuki Kawashima, Yasutomo Kawanishi, IchiroIde Hiroshi Murase. Action recognition from extremely low-resolution thermal image sequence[C]//, 2017: 1-6, Doi: 10.1109/AVSS.2017.8078497.

[12] FAN Xiuyi, ZHANG Huiguo, LEUNG Cyril, et al. Robust unobtrusive fall detection using infrared array sensor[J].(MFI), 2017, 5(4): 194-199.

[13] Polla F, Laurent H, Emile B. Action recognition from low-resolution infrared sensor for indoor use: a comparative study between deep learning and classical approaches[C]// 2019 20th(MDM), 2019: 409-414.

[14] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[J]., 2014, 1(4): 568-576.

[15] Feichtenhofer C, Pinz A, Zisserman A. Convolutional two-stream network fusion for video action recognition[C]//, 2016: 1933-1941.

[16] Tro?mova A A, Masciadri A, Veronese F, et al. Salice, indoor human detection based on thermal array sensor data and adaptive background estimation[J]., 2017, 5(4): 16-28.

[17] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]//, 2015: 1-14.

[18] WANG L, ZANG J, ZHANG Q, et al. Action recognition by an attention-aware temporal weighted convolutional neural network[J]., 2018, 18(7):1979.

[19] HE K, ZHANG X, Ren S, et al. Deep residual learning for image recognition[C]//, 2016: 770-778. Doi: 10.1109/CVPR.2016.90.

Deep Learning Method for Action Recognition Based on Low Resolution Infrared Sensors

ZHANG Yutong1，ZHAI Xuping1，NIE Hong2

(1. Key Laboratory of Specialty Fiber Optics and Optical Access Networks, Shanghai University, Shanghai 200444, China; 2. Department of Technology, University of Northern Iowa, Cedar Falls 50614-0507, USA)

In recent years, action recognition has become a popular research topic in the field of computer vision. In contrast to research on video or images, this study proposes a two-stream convolution neural network method based on temperature data collected by a low-resolution infrared sensor. The spatial and temporal data were input into the two-stream convolution neural network in the form of collected temperature data, and the class scores of the spatial and temporal stream networks were late weighted and merged to obtain the final action category. The results indicate that the average accuracy of recognition can reach 98.2% on the manually collected dataset and 99% for bending, falling, and walking actions, indicating that the proposed net can recognize actions effectively.

action recognition, two-stream CNN, low resolution infrared sensor, deep learning

TP319.4

1001-8891(2022)03-0286-08

2021-04-21；

2021-06-02.

張昱彤（1996-），男，江蘇鹽城人，碩士研究生，主要從事基于紅外圖像的人體動作識別算法研究工作，E-mail：zyt164819285@163.com。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于低分辨率紅外傳感器的深度學(xué)習(xí)動作識別方法

0 引言

1 動作識別方法設(shè)計

2 時空數(shù)據(jù)的構(gòu)建

2.1 空間數(shù)據(jù)的構(gòu)建

2.2 時間數(shù)據(jù)的構(gòu)建

3 網(wǎng)絡(luò)設(shè)計

3.1 空間流網(wǎng)絡(luò)

3.2 時間流網(wǎng)絡(luò)

3.3 雙流CNN網(wǎng)絡(luò)

4 實驗與性能分析

4.1 實驗平臺及數(shù)據(jù)采集

4.2 實驗結(jié)果與對比

5 結(jié)論