• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于視頻的人體狀態(tài)快速識別方法研究

      2021-09-10 07:22:44??滴?/span>祝凱劉振宇朱文印王和龍
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

      ??滴?祝凱 劉振宇 朱文印 王和龍

      摘要:識別人體狀態(tài)與理解人類情感是家電智能化的最終目的,人體許多日常行為并不攜帶明顯的狀態(tài)信息和情感傾向,而諸如跌倒、打哈欠、腰痛等出現(xiàn)頻率較低卻包含豐富的人體狀態(tài)信息。以帶有一定情感傾向或意圖的人體狀態(tài)為研究對象,從公開數(shù)據(jù)集中篩選出9種帶有人體狀態(tài)信息的典型行為,考慮到家居環(huán)境下實(shí)時產(chǎn)生的原始視頻數(shù)據(jù)量龐大、存在特征冗余,提出用相鄰視頻幀做減法得到的RGB連續(xù)差分圖像序列作為輸入,鑒于樣本少,使用常規(guī)大型網(wǎng)絡(luò)容易過擬合,因此采用最新的輕量級網(wǎng)絡(luò)模型MobileNetV2,極大減少訓(xùn)練參數(shù)量,進(jìn)而實(shí)現(xiàn)快速有效的人體狀態(tài)識別。研究結(jié)果表明,本方法能夠達(dá)到較高的準(zhǔn)確率,基本可以滿足家居環(huán)境下的人體狀態(tài)檢測要求。

      關(guān)鍵詞:人體狀態(tài)識別;RGB視頻;卷積神經(jīng)網(wǎng)絡(luò);MobileNetV2

      中圖分類號:TP391.4

      文獻(xiàn)標(biāo)志碼:A

      文章編號:1006-1037(2021)01-0040-06

      基金項目:

      山東省新舊動能轉(zhuǎn)換重大課題攻關(guān)項目(批準(zhǔn)號:201905200432)資助。

      通信作者:祝凱,男,博士,講師,主要研究方向為機(jī)器視覺與人工智能。E-mail:zhu_kaicom@163.com

      隨著物聯(lián)網(wǎng)的快速發(fā)展和智能家居的普及,準(zhǔn)確高效地識別用戶的行為、狀態(tài)、情感、意圖逐漸成為提高智慧家庭智能化水平的關(guān)鍵技術(shù)之一[1]。家居環(huán)境下的情緒識別歸根結(jié)底是理解人的狀態(tài),推斷人類意圖,進(jìn)而讓機(jī)器做出準(zhǔn)確回應(yīng)[2]。研究表明,當(dāng)人類表達(dá)情感意圖時,語言信號所傳達(dá)的情感信息僅占35%,而非語言信號傳達(dá)的信息占比達(dá)65%[3]。非語言信號主要包括面部表情與人體行為,而實(shí)際場景中由于遮擋、偏移、光照、距離等原因?qū)е旅娌刻卣鳠o法準(zhǔn)確獲取和計算,因此空間尺度更大的人體動作或行為視頻逐漸成為識別情感和預(yù)測意圖的重要數(shù)據(jù)來源[4]。國內(nèi)外學(xué)者對人體行為分類算法進(jìn)行了較多研究。Bull[5]發(fā)現(xiàn),部分情感與不同的身體姿勢和動作有關(guān),如興趣或無聊,贊同或反對等。Pollick等[6]發(fā)現(xiàn),一些特定的上肢手臂運(yùn)動,可以輔助人類以顯著高于基準(zhǔn)水平的準(zhǔn)確度辨別基本情感。Coulson[7]研究發(fā)現(xiàn),靜態(tài)身體姿勢對于分類識別過程具有重要作用。Castellano等[8]提出了一種根據(jù)人體運(yùn)動指標(biāo)(如幅度、速度和流動性) 識別情緒的方法,通過圖像序列和測試運(yùn)動指標(biāo)建立情緒模型。Saha等[9]使用Kinect傳感器獲得人體骨架數(shù)據(jù),選取與上肢相關(guān)的11個關(guān)節(jié),提取不同關(guān)節(jié)間的距離、角度、加速度共9個特征,并比較了集成決策樹、k近鄰、神經(jīng)網(wǎng)絡(luò)等分類器的分類效果。Shen等[10]用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行了一個探索性實(shí)驗,從80個志愿者身上捕獲了43 200個簡單姿態(tài)的RGB視頻,分別使用TSN[11]和ST-GCN[12]提取RGB特征和骨架特征,并取得一定的改進(jìn)。目前在行為分類或通過人的行為推斷情感上已有一定研究,主要表現(xiàn)在數(shù)據(jù)集的建立和分類算法上。實(shí)際上大量的人體日常行為并不能反映明顯的人體狀態(tài)或情感信息(比如站立、行走、喝水,只是日常行為,并不攜帶情感信息),而那些攜帶人體狀態(tài)或情感信息的行為(如咳嗽、跌倒、打噴嚏等)研究的相關(guān)文獻(xiàn)報道很少。這些行為中蘊(yùn)含信息豐富,應(yīng)是重點(diǎn)研究對象。本文以家居場景下實(shí)時監(jiān)控視頻數(shù)據(jù)為研究對象,從NTU RGB+D 120數(shù)據(jù)集[13]中篩選帶有人體狀態(tài)的樣本構(gòu)建成人體狀態(tài)相關(guān)數(shù)據(jù)集,鑒于樣本量少而特征維度過高,因此將RGB原始圖像視頻相鄰幀做減法運(yùn)算,得到RGB差分圖像作為輸入以減少冗余,鑒于樣本少使用常規(guī)大型網(wǎng)絡(luò)容易過擬合,因此采用MobileNetV2輕量級網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實(shí)現(xiàn)人體狀態(tài)的快速有效識別。

      1 方法

      1.1 整體框架

      本文整體框架如圖1。具體描述如下:

      Step 1:對原始的RGB視頻數(shù)據(jù)進(jìn)行一系列預(yù)處理操作之后,通過前后幀相減獲得RGB差分圖像;

      Step 2:以連續(xù)的RGB差分圖像序列作為輸入,采用MobileNetV2模型提取特征;

      Step 3:對輸入的行為狀態(tài)進(jìn)行分類。

      1.2 RGB差分圖像

      對于原始RGB圖像序列,通過前后幀對應(yīng)像素值相減,得到RGB差分圖像序列。目的是削弱圖像的相似部分,突出顯示圖像的變化部分,極大減少特征冗余,為后續(xù)模型提供精簡特征輸入。

      本文截取了幾幀真實(shí)環(huán)境下的RGB視頻原始圖像及RGB差分圖像,如圖2??芍谌梭w運(yùn)動狀態(tài)明顯的區(qū)域,RGB差分圖像都能夠很好的以白色區(qū)域的形式表征出來。這是因為單幀的RGB圖像只能顯示出人體靜態(tài)外觀,缺少表征前后幀的上下文信息。而RGB差分圖像,通過前后幀相減操作,可以減除無關(guān)的背景,有效保留兩個連續(xù)幀之間的外觀變化信息。

      1.3 深度可分離卷積網(wǎng)絡(luò)

      從2016年開始,神經(jīng)網(wǎng)絡(luò)的輕量級模型取得較大進(jìn)展。研究者們分別提出了SqueezeNet[14]、ShuffleNet[15]、NasNet[16]以及MobileNet系列等輕量級網(wǎng)絡(luò)模型。這些模型使移動終端、嵌入式設(shè)備運(yùn)行神經(jīng)網(wǎng)絡(luò)模型成為可能。而MobileNetV2[17]網(wǎng)絡(luò)在輕量級神經(jīng)網(wǎng)絡(luò)中具有較高的應(yīng)用。由于MobileNetV2獨(dú)特的卷積方式以及內(nèi)部結(jié)構(gòu)優(yōu)化,比經(jīng)典的大型網(wǎng)絡(luò)擁有更小的體積、更少的計算量以及較高的準(zhǔn)確率,可在移動終端實(shí)現(xiàn)目標(biāo)檢測、目標(biāo)分類、動作識別和人臉識別等應(yīng)用。

      MobileNetV2使用了深度可分離卷積(Depthwise Separable Convolution)。與標(biāo)準(zhǔn)卷積結(jié)構(gòu)不同,深度可分離卷積是一種特別的卷積結(jié)構(gòu),將標(biāo)準(zhǔn)卷積分解為深度卷積(Depthwise Convolution)和逐點(diǎn)卷積(Pointwise Convolution)兩個步驟,且每一層卷積之后都緊跟著批規(guī)范化和ReLU激活函數(shù)。

      1.4 模型比較

      相對于VGG-16、InceptionV3等大型經(jīng)典網(wǎng)絡(luò),本模型需要訓(xùn)練的參數(shù)量大幅減少;與GoogleNet、MobileNetV1相比,其參數(shù)量處于同一數(shù)量級且依然少于兩模型。鑒于模型在參數(shù)量的明顯優(yōu)勢,當(dāng)樣本量較小時使用該模型可有效避免過擬合。

      (1)深度卷積。深度卷積的卷積核尺寸為Dk×Dk×1,卷積核個數(shù)與輸入數(shù)據(jù)的通道數(shù)M相對應(yīng)。在常規(guī)卷積中,每個卷積核的維度與輸入維度相同,每個通道單獨(dú)做卷積運(yùn)算再相加;深度卷積時,深度卷積核的維度為1,相當(dāng)于將常規(guī)卷積核拆分成為M個具有單通道形式的卷積核,各個通道獨(dú)立進(jìn)行卷積運(yùn)算無相加操作,可有效降低參數(shù)量的同時,也導(dǎo)致通道之間的信息不流暢。因此需要逐點(diǎn)卷積來完成卷積后的相加操作以整合不同通道的信息。

      (2)逐點(diǎn)卷積。逐點(diǎn)卷積的卷積核尺寸為1×1×M,卷積核個數(shù)為輸出通道數(shù)N。普通卷積將不同深度層的權(quán)重都看作為1,然后直接相加,逐點(diǎn)卷積則是將上一層的特征圖在深度方向上進(jìn)行加權(quán)組合,組合各個通道的特征圖,以較少的計算量進(jìn)行降維或升維操作。逐點(diǎn)卷積可以幫助各通道之間的信息流暢。常規(guī)卷積和深度可分離卷積結(jié)構(gòu)對比如圖3[18]。

      (3)參數(shù)量對比。假設(shè)標(biāo)準(zhǔn)卷積的卷積核個數(shù)為N,卷積核尺寸為Dk×Dk×M,輸出特征圖的尺寸為Dw×Dh,則標(biāo)準(zhǔn)卷積的計算量為Dk×Dk×M×N×Dw×Dh。深度卷積的計算量為Dk×Dk×M×Dw×Dh,逐點(diǎn)卷積的計算量為M×N×Dw×Dh。

      因此,標(biāo)準(zhǔn)卷積與深度可分離卷積的計算量比值為

      實(shí)際應(yīng)用中,卷積核的個數(shù)N較大,通常所使用的是3×3的卷積核,即Dk=3時,計算量會下降到原來的1/9~1/8。同時,MobileNetV2網(wǎng)絡(luò)還引入了線性瓶頸層和反向殘差結(jié)構(gòu),能夠進(jìn)一步減少參數(shù)量,在空間和時間上同時優(yōu)化網(wǎng)絡(luò)。

      2 實(shí)驗

      2.1 數(shù)據(jù)集及預(yù)處理

      NTU RGB+D 120數(shù)據(jù)集[13]是在NTU RGB+D 數(shù)據(jù)集[19]的基礎(chǔ)上擴(kuò)展得到的,樣本規(guī)模由原來的60個類和56 800個視頻樣本擴(kuò)展為120個類和114 480個樣本。這兩個數(shù)據(jù)集都包含每個樣本的 RGB 視頻、深度圖序列、3D骨骼數(shù)據(jù)和紅外視頻4種數(shù)據(jù)模態(tài)。NTU RGB+D 120數(shù)據(jù)集包括日常行為、醫(yī)療相關(guān)行為和交互行為三大類。數(shù)據(jù)集所包含的大量日常動作(如喝水、站立等)并不具有明顯的情感傾向或意圖,從中篩選了9個與醫(yī)療相關(guān)的部分行為狀態(tài)作為研究對象,所選樣本視頻共432個,其中75%作為訓(xùn)練樣本,25%作為測試樣本。分別為:咳嗽、搖晃、跌倒、頭痛、打哈欠、背痛、脖子痛、嘔吐、扇扇子。從數(shù)據(jù)庫中截取的幾類視頻示例如圖4所示。

      考慮到數(shù)據(jù)樣本較少,為增加訓(xùn)練的數(shù)據(jù)量,防止過擬合,提高模型的泛化能力,可以使用數(shù)據(jù)增強(qiáng)方法來擴(kuò)充數(shù)據(jù)量。選擇旋轉(zhuǎn)、平移、水平翻轉(zhuǎn)、縮放4種增強(qiáng)方式,對于每幀圖像隨機(jī)選擇2~4種增強(qiáng)方式。由于RGB圖像的像素值在0~255之間,本文對圖像進(jìn)行歸一化處理,使圖像的像素值轉(zhuǎn)化為 0~1 之間分布的數(shù)據(jù)。通過歸一化的方法,可以有效防止仿射變換的影響,減小集合變換的影響,同時加快梯度下降求最優(yōu)解的速度。

      2.2 結(jié)果與分析

      實(shí)驗使用的CNN是MobileNetV2網(wǎng)絡(luò),其權(quán)值已在ImageNet預(yù)訓(xùn)練。輸入MobileNetV2網(wǎng)絡(luò)的數(shù)據(jù)維度為(8,224,224,3),即每個視頻隨機(jī)選取8幀,每幀圖像的像素值為224×224,通道數(shù)為3。從MobileNetV2網(wǎng)絡(luò)輸出的數(shù)據(jù)經(jīng)過平均池化,再輸入LSTM,其后面又添加3個全連接層(dense層),每層節(jié)點(diǎn)個數(shù)分別是64、24、9,每層的dropout值為0.5。最后一層使用softmax函數(shù)分類并輸出結(jié)果。

      本模型在網(wǎng)絡(luò)訓(xùn)練過程中,使用隨機(jī)梯度下降算法和交叉熵?fù)p失函數(shù),以精度作為衡量指標(biāo)。實(shí)驗采用TensorFlow框架,Python3.6版本,在配有Geforce RTX 2060的Windows10系統(tǒng)上運(yùn)行。batch-size設(shè)置為4,epoch設(shè)為600。最終平均測試精度達(dá)到80.7%,精度變化曲線和混淆矩陣分別見圖5、圖6。

      由圖5可知,隨著訓(xùn)練批次epoch的增加,訓(xùn)練精度和測試精度都逐漸上升。當(dāng)訓(xùn)練批次達(dá)到350左右,訓(xùn)練精度和測試精度逐漸趨于穩(wěn)定,精度值分別上升至85%、75%。在訓(xùn)練階段后期,訓(xùn)練精度已接近90%,測試精度在80%左右。

      圖6是經(jīng)網(wǎng)絡(luò)模型預(yù)測出能反映人體狀態(tài)類別的混淆矩陣,由圖可見,打哈欠、跌倒、咳嗽、和扇扇子4類動作狀態(tài)的識別精度最好,準(zhǔn)確率均超過90%,背痛、脖子痛兩類動作狀態(tài)的識別效果稍差,精度在70%左右;頭痛樣本的識別精度不足30%,觀察第四行可知,大量的頭痛標(biāo)簽樣本被錯誤識別為咳嗽或脖子痛。由混淆矩陣第一列數(shù)據(jù)可知,識別準(zhǔn)確率最低的三類動作有一個共同點(diǎn),即在相當(dāng)程度上都被錯誤識別為咳嗽。分析認(rèn)為,這幾個動作基本都涉及到手部與頭部的組合動作,特征具有較高的相似性,神經(jīng)網(wǎng)絡(luò)未能學(xué)習(xí)到動作間的細(xì)微差別,應(yīng)是識別錯誤的主因;總樣本量為432,樣本量少也是導(dǎo)致模型未能充分挖掘特征的另一個重要原因。

      根據(jù)圖7所示的咳嗽和頭痛兩種動作的圖像序列對比可以看出,這兩類動作相似程度較高,即使人眼也容易造成誤判。

      3 結(jié)論

      RGB差分圖像相對于RGB圖像,能更好獲得幀序列間的動態(tài)變化信息,以RGB差分圖像作為輸入,使用CNN和LSTM的動作識別方法,具體以MobileNetV2和LSTM構(gòu)建網(wǎng)絡(luò)模型,分別提取空間信息和時間信息。并結(jié)合NTU數(shù)據(jù)集中9類有關(guān)人體狀態(tài)的動作進(jìn)行識別,大部分動作的識別精度在80%以上。由于識別準(zhǔn)確率不高的動作比較集中,主要涉及到手部與頭部等兩個身體部位的動作組合,下一步可專門對這些動作進(jìn)行細(xì)致研究,并制作專門的人體狀態(tài)視頻數(shù)據(jù)集,或?qū)Ρ疚乃惴ㄟM(jìn)行改進(jìn),提高識別準(zhǔn)確率。

      參考文獻(xiàn)

      [1]鄔晶晶. 基于深度學(xué)習(xí)的情緒識別技術(shù)[M].北京:中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進(jìn)技術(shù)研究院),2020.

      [2]KLEINSMITH A, BIANCHI-BERTHOUZE N. Affective body expression perception and recognition: a survey[J]. IEEE Trans on Affective Computing, 2013, 4(1) : 15-33.

      [3]ELMAN J. Encyclopedia of language and Linguistics[M]. 2nd ed. Oxford: Elsevier, 2005

      [4]GELDER D. Why bodies? Twelve reasons for including bodily expressions in affective neuroscience[J]. Philosophical Transactions of the Royal Society B: Biological Sciences, 2009, 364(1535): 3475-3484.

      [5]BULL P. Posture & gesture[M]. Amsterdam: Elsevier, 2016

      [6]POLLICK F, PATERSON H, BRUDERLIN A, et al. Perceiving affect from arm movement[J]. Cognition, 2001, 82(2): B51-B61

      [7]COULSON M. Attributing emotion to static body postures: Recognition accuracy, confusions, and viewpoint dependence[J]. Journal of Nonverbal Behavior, 2004, 28(2): 117-139

      [8]CASTELLANO G, VILLALBA S, CAMURRI A. Recognising human emotions from body movement and gesture dynamics[C]// Proc. of International Conference on Affective Computing and Intelligent Interaction.Berlin,2007: 71-82.

      [9]SAHA S, DATTA S, KONAR A, et al. A study on emotion recognition from body gestures using Kinect sensor[C]// 2014 International Conference on Communication and Signal Processing. Melmaruvathur, 2014: 56-60.

      [10]SHEN Z, CHEN J, HU X, et al. Emotion recognition based on multi-view body gestures[C]// 2019 IEEE International Conference on Image Processing (ICIP). Taipei, 2019: 3317-3321.

      [11]WANG L, XIONG Y, WANG Z, et al. Temporal segment networks for action recognition in videos[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(11): 2740-2755.

      [12]YAN S, XIONG Y, LIN D. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]// AAAI Conference on Artificial Intelligence, New Orleans, 2018:7444-7452.

      [13]LIU J, SHAHROUDY A, PEREZ M, et al. NTU RGB+D 120: A large-scale benchmark for 3D human activity understanding[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2019,42(10): 2684-2701.

      [14]FORREST N, SONG H, MATTHEW W, et al. Squeezenet: Alexnet-level accuracy with 50x fewer parameters and <0.5 MB model size[J/OL]. [2020-09-21]. http://arxiv.org/abs/1602.07360.

      [15]ZHANG Z, ZHOU X, LIN M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, 2018: 6848-6856.

      [16]ZOPH B, VASUDEVAN V, SHLENS J, et al. Learning transferable architectures for scalable image recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, 2018: 8697-8710.

      [17]SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, 2018: 4510-4520.

      [18]HOWARD A, ZHU M, CHEN B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications. [J/OB] [2020-09-11].http://arxiv.org/abs/1704.04861.

      [19]HOWARD A, ZHU M L, CHEN B, et al. NTU RGB+D: A large scale dataset for 3D human activity analysis[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, 2016:1010-1019.

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)
      基于深度神經(jīng)網(wǎng)絡(luò)的微表情識別
      卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時間方法研究
      卷積神經(jīng)網(wǎng)絡(luò)語言模型研究
      基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
      軟件(2016年5期)2016-08-30 06:27:49
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識別的算法的研究
      拜泉县| 平度市| 专栏| 法库县| 缙云县| 鹰潭市| 云林县| 北流市| 汾西县| 贡觉县| 周口市| 丹棱县| 西丰县| 澄城县| 东至县| 且末县| 抚远县| 潞西市| 沾化县| 西吉县| 闽侯县| 道孚县| 亳州市| 凭祥市| 新巴尔虎右旗| 米林县| 固阳县| 无为县| 巴里| 册亨县| 手游| 方山县| 太和县| 阳春市| 古浪县| 尼勒克县| 外汇| 江源县| 汾阳市| 六安市| 阿坝县|