• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      智慧家庭中的人體動(dòng)作識(shí)別研究綜述

      2022-04-24 03:21:32金海峰吳楠張悠然
      軟件導(dǎo)刊 2022年4期
      關(guān)鍵詞:人體動(dòng)作智慧

      金海峰,吳楠,張悠然

      (長春大學(xué)網(wǎng)絡(luò)安全學(xué)院,吉林長春 130022)

      0 引言

      動(dòng)作識(shí)別技術(shù)在安全監(jiān)控、智能視頻分析、群體行為識(shí)別等領(lǐng)域都有重要應(yīng)用,例如船舶航行異常行為檢測(cè)、地鐵站運(yùn)乘環(huán)境中危險(xiǎn)人群識(shí)別等。近年來,動(dòng)作識(shí)別技術(shù)逐漸應(yīng)用于智能家居,其中日常行為檢測(cè)、跌倒檢測(cè)、危險(xiǎn)行為識(shí)別等得到越來越多研究人員的關(guān)注。

      在我國智慧城市建設(shè)進(jìn)程中,數(shù)字家庭的發(fā)展方向呈現(xiàn)新的趨勢(shì),智慧家庭在這一變化中扮演重要角色。家庭是社會(huì)的基本單位,是人們獲得精神滿足的重要場(chǎng)所(包括個(gè)人成長、歸屬感獲取等),智慧家庭基于這一單位,以家庭成員為對(duì)象,將新一代信息技術(shù)用于優(yōu)化家庭生活,形成和諧智能的生活方式。隨著人們物質(zhì)生活逐漸富足,精神層面的需求日益增加,在智慧家庭中,人體動(dòng)作識(shí)別可以在不侵犯?jìng)€(gè)人隱私的前提下,通過自動(dòng)獲取家庭成員的動(dòng)作行為信息,為相關(guān)文化內(nèi)容的智能推送提供分類依據(jù),形成智慧、安全、健康及極具文化特征的生活方式。本文介紹了動(dòng)作識(shí)別技術(shù)的概念和主流算法,主要對(duì)智慧家庭中可采用的動(dòng)作識(shí)別方法的研究現(xiàn)狀進(jìn)行綜述,論述動(dòng)作識(shí)別技術(shù)如何應(yīng)用于智慧家庭構(gòu)建,并提出該應(yīng)用領(lǐng)域的研究方向。

      1 人體動(dòng)作識(shí)別概述

      動(dòng)作識(shí)別技術(shù)是指從一段視頻或圖像序列中識(shí)別其中的動(dòng)作,對(duì)已知的序列判斷所屬動(dòng)作的類型,根據(jù)目標(biāo)視頻提取可以表示重要信息的特征,最后在空間和時(shí)間序列進(jìn)行動(dòng)作識(shí)別,如圖1所示。智慧家庭環(huán)境下的動(dòng)作識(shí)別環(huán)境有其特殊性,由于家庭環(huán)境具有封閉性和保密性特點(diǎn),家庭環(huán)境下的動(dòng)作通常是一些居家日常行為,例如吃飯、讀書、刷牙、會(huì)客等,其類型可概括為單人簡單動(dòng)作、復(fù)雜連貫性動(dòng)作和多人交互動(dòng)作,根據(jù)不同動(dòng)作類型的特征表征不同,其提取方式和特征聚合亦不同。從簡單動(dòng)作到多人交互動(dòng)作,特征提取的復(fù)雜度不斷提升,模型識(shí)別能力也需不斷優(yōu)化,因此深度學(xué)習(xí)方法代替?zhèn)鹘y(tǒng)方法成為動(dòng)作識(shí)別方法中的主流,其中深度自注意力變換網(wǎng)絡(luò)(Deep Self-attention Transformer Network,下 文簡稱Transformer)是深度學(xué)習(xí)方法中的重要一支。

      Fig.1 Action recognition process圖1 動(dòng)作識(shí)別流程

      1.1 基于傳統(tǒng)方法的動(dòng)作識(shí)別

      1973年,有學(xué)者認(rèn)為,特定場(chǎng)景下序列化的行為動(dòng)作可以通過關(guān)節(jié)點(diǎn)運(yùn)動(dòng)圖像進(jìn)行描述,并通過實(shí)驗(yàn)驗(yàn)證了這一想法,同時(shí)發(fā)現(xiàn)通過10~12個(gè)關(guān)節(jié)點(diǎn)的組合便可以描述諸多行為動(dòng)作。后續(xù)不斷有學(xué)者根據(jù)深度圖像,基于對(duì)人體關(guān)鍵節(jié)點(diǎn)的描述估計(jì)出人體骨架?;趥鹘y(tǒng)方法的動(dòng)作識(shí)別過程如圖2所示。

      Fig.2 Traditional action recognition process圖2 傳統(tǒng)動(dòng)作識(shí)別流程

      在傳統(tǒng)方法中,改進(jìn)的密集軌跡法(Improved Dense Trajectories,簡稱iDT)是應(yīng)用最廣泛的方法,其步驟包括:①在多個(gè)空間尺度上密集采樣特征點(diǎn);②使用光流場(chǎng)提取序列數(shù)據(jù)的軌跡,進(jìn)而優(yōu)化光流圖像;③根據(jù)軌跡獲取的軌跡形狀特征和方向梯度直方圖(HOF)、光流直方圖(HOG)、光流梯度直方圖(MBH)、軌跡特征(trajectory)特征;④基于FV(Fisher Vector)算法對(duì)獲取的特征進(jìn)行編碼;⑤依據(jù)編碼結(jié)果訓(xùn)練動(dòng)作識(shí)別分類器。iDT算法的優(yōu)勢(shì)是穩(wěn)定可靠,但其識(shí)別速度較慢,后續(xù)出現(xiàn)的根據(jù)深度學(xué)習(xí)方法進(jìn)行動(dòng)作識(shí)別的模型性能已超過傳統(tǒng)方法。

      1.2 基于深度學(xué)習(xí)的動(dòng)作識(shí)別

      深度學(xué)習(xí)技術(shù)的不斷發(fā)展為智慧家庭環(huán)境下的動(dòng)作識(shí)別引入了新的研究方向?;谏疃葘W(xué)習(xí)的動(dòng)作識(shí)別方法從一系列數(shù)據(jù)中主動(dòng)學(xué)習(xí)運(yùn)動(dòng)特征,并根據(jù)訓(xùn)練好的特征提取模型并進(jìn)行分類。

      1.2.1 主要網(wǎng)絡(luò)結(jié)構(gòu)

      當(dāng)前,基于深度學(xué)習(xí)用于家庭場(chǎng)景下動(dòng)作識(shí)別的大多數(shù)網(wǎng)絡(luò)結(jié)構(gòu)是3D卷積網(wǎng)絡(luò)(3D Convolutional Network)、雙流結(jié)構(gòu)(Two-Stream Network)和長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,簡稱LSTM),通過深度學(xué)習(xí)進(jìn)行動(dòng)作識(shí)別流程如圖3所示。

      Fig.3 Action recognition processbased on deep learning圖3 基于深度學(xué)習(xí)的動(dòng)作識(shí)別流程

      通過視頻進(jìn)行動(dòng)作識(shí)別較圖像增加了一個(gè)維度,3D卷積網(wǎng)絡(luò)可較好地利用視頻數(shù)據(jù)的時(shí)序信息,3D卷積結(jié)構(gòu)包括7個(gè)網(wǎng)絡(luò)層,視頻中的每一個(gè)原始幀都使用固定的硬線內(nèi)核進(jìn)行數(shù)據(jù)處理,每一個(gè)圖像幀提取灰度、X、Y方向的梯度、X、Y方向的光流等信息,每個(gè)通道分別進(jìn)行卷積,將多個(gè)通道產(chǎn)生的信息組合進(jìn)行特征描述。

      雙流網(wǎng)絡(luò)中的雙流通常指時(shí)間流網(wǎng)絡(luò)和空間流網(wǎng)絡(luò)兩個(gè)部分,其中空間流網(wǎng)絡(luò)輸入的圖像為單張RGB圖像,時(shí)間流網(wǎng)絡(luò)輸入圖像為多個(gè)圖像的光流(Optical Flow)特征,其中每個(gè)流都有一個(gè)CNN網(wǎng)絡(luò),該網(wǎng)絡(luò)經(jīng)過多個(gè)卷積層,使用Softmax函數(shù)輸出概率值進(jìn)行融合。

      長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)本質(zhì)上是RNN網(wǎng)絡(luò),但是RNN網(wǎng)絡(luò)有著長期性的依賴問題,故引入LSTM網(wǎng)絡(luò)解決梯度消失和爆炸等問題。LSTM網(wǎng)絡(luò)通過遺忘門(forget gate)判斷是否保存上一個(gè)memory cell的信息,通過輸入門(input gate)決定哪些信息需要被更新,輸出門(output gate)決定哪些值應(yīng)該被輸出。

      1.2.2 Transformer概述

      2017年,Transformer網(wǎng)絡(luò)結(jié)構(gòu)橫空問世,模型拋棄了傳統(tǒng)LSTM這一特征提取器,僅使用注意力機(jī)制以實(shí)現(xiàn)端到端的模型構(gòu)建,其出色的表現(xiàn),使學(xué)者逐步將Transformer引入到機(jī)器視覺任務(wù)中,包括圖像識(shí)別、目標(biāo)檢測(cè)和動(dòng)作識(shí)別等,其在與傳統(tǒng)的CNNs和RNNs等網(wǎng)絡(luò)類型對(duì)比中,展現(xiàn)出了更好的性能。Transformer主要是通過自注意力機(jī)制提取目標(biāo)數(shù)據(jù)的內(nèi)在特征,其背后的基本概念主要包括自注意力機(jī)制、大規(guī)模預(yù)訓(xùn)練和雙向特征編碼。此外,Transformer還包括編解碼器和前饋神經(jīng)網(wǎng)絡(luò),可以捕捉視頻中的長距離特征,具有優(yōu)良的全局信息提取能力,與LSTM相比,Transformer的顯著優(yōu)點(diǎn)是可以對(duì)輸入序列元素之間的長期依賴性進(jìn)行建模,并支持序列的并行處理。常見的基于Transformer進(jìn)行動(dòng)作識(shí)別的架構(gòu)有Actor-Transformer、Temporal transformer和Time-Sformer等。

      2 常用數(shù)據(jù)集

      智慧家庭中的動(dòng)作識(shí)別主要監(jiān)測(cè)和分析家庭中的日常行為,對(duì)視頻數(shù)據(jù)進(jìn)行人體動(dòng)作識(shí)別是主要研究方向,有代表性的視頻數(shù)據(jù)集尤為重要。與圖像識(shí)別領(lǐng)域成熟且常用的數(shù)據(jù)集如MNIST和ImageNet不同,家庭環(huán)境下動(dòng)作識(shí)別和一般動(dòng)作識(shí)別領(lǐng)域的數(shù)據(jù)集相對(duì)有限,現(xiàn)概括6種常用于動(dòng)作識(shí)別研究的數(shù)據(jù)集,如表1所示。

      Table1 Summary of data set表1 數(shù)據(jù)集

      3 動(dòng)作識(shí)別算法

      當(dāng)前,國內(nèi)外學(xué)者提出了諸多關(guān)于智慧家庭中的日常人體動(dòng)作識(shí)別算法和模型,現(xiàn)列舉適合智慧家庭中單人簡單動(dòng)作、連貫性動(dòng)作和復(fù)雜交互動(dòng)作的人體動(dòng)作識(shí)別算法。研究將從基于傳統(tǒng)方法、基于深度學(xué)習(xí)和基于Transformer的動(dòng)作識(shí)別方法展開論述。在評(píng)價(jià)每類算法時(shí),使用準(zhǔn)確率(Accuracy,以下簡稱Acc)和平均精度(mean Average Precision,以下簡稱mAP)兩種評(píng)價(jià)指標(biāo)對(duì)其模型識(shí)別能力進(jìn)行評(píng)價(jià)。ACC是所有預(yù)測(cè)中預(yù)測(cè)正確的比例,計(jì)算公式如式(1)所示。

      其中,

      TruePositive

      +

      TrueNegative

      表示預(yù)測(cè)正確的樣本數(shù),

      Allsamples

      表示所有樣本數(shù)。mAP是類別維度平均精度(Average Precision,簡稱AP),AP計(jì)算公式如式(2)所示。

      其中,

      P

      代表PR曲線上的

      P

      值,∑

      r

      =1,mAP公式如式(3)所示,其中

      num_classes

      代表類別數(shù)量。

      3.1 基于傳統(tǒng)方法的動(dòng)作識(shí)別算法

      面對(duì)智慧家庭中簡單的人體動(dòng)作可采用基于傳統(tǒng)的動(dòng)作識(shí)別方法,例如行走、睡覺、學(xué)習(xí)姿勢(shì)等。傳統(tǒng)的動(dòng)作特征描述方法是通過提取重要關(guān)鍵點(diǎn),其中智慧環(huán)境中可采用的典型特征提取方法是時(shí)空關(guān)鍵點(diǎn)和密集軌跡法。

      Laptev等提出通過提取時(shí)空關(guān)鍵點(diǎn)提取特征,該文將變化數(shù)據(jù)即2D Harris角點(diǎn)的檢測(cè)方法拓展到了3D進(jìn)行提?。℉arris角點(diǎn)檢測(cè)算法是一種基于灰度圖像的角點(diǎn)檢測(cè)算法);Scovanner等將經(jīng)典的2D描述子SIFT(特征點(diǎn)檢測(cè)和特征點(diǎn)描述)拓展到了3D空間,使用K-means算法對(duì)特征信息進(jìn)行聚類;袁贊杰檢測(cè)時(shí)空興趣點(diǎn)是通過Harris3D角點(diǎn),特征描述時(shí)使用HOF描述子和HOG描述子,提出基于哈希和基于稀疏表示的字典學(xué)習(xí)方法以建立家庭動(dòng)作詞袋模型;鞏莉從智慧家庭中幫助獨(dú)居老人的角度對(duì)異常動(dòng)作識(shí)別展開研究,利用傳感器收集的信息矩陣進(jìn)行特征提取,運(yùn)用特征合并方法,提出基于MCRF的行為預(yù)測(cè)模型;Li等提出新的人類動(dòng)作識(shí)別框架,該框架結(jié)合了Fast HOG3D和SOM,從環(huán)境中提取多尺度的基于局部特征的時(shí)空興趣點(diǎn),使用簡化時(shí)空網(wǎng)格以提高檢測(cè)效率;Alexander等在訓(xùn)練模型時(shí)引入HOG3D描述符,開發(fā)了一種基于完整視頻的內(nèi)存有效算法,可以在多尺度下對(duì)時(shí)間和空間數(shù)據(jù)進(jìn)行密集采樣;Willem等在計(jì)算Haar小波均勻采樣時(shí)采用了加權(quán)和,并將圖像SURF描述子引入家庭中的視頻數(shù)據(jù);童世華等從智慧環(huán)境中控制電器角度為用戶提供智能化服務(wù),提出基于C4.5決策樹算法理解人體行為的智慧系統(tǒng);Wang等介紹一種基于密集軌跡和運(yùn)動(dòng)邊界描述周圍環(huán)境的方法,利用iDT算法獲取視頻的局部動(dòng)作特征,密集能夠保證前景運(yùn)動(dòng)和周圍環(huán)境的良好覆蓋,然而該方法的性能目前受到現(xiàn)有光流質(zhì)量的限制;Oussalah等針對(duì)智慧家庭的動(dòng)作數(shù)據(jù)集不平衡性質(zhì),將少數(shù)過采樣技術(shù)與改進(jìn)的支持向量機(jī)(CSSVM)自適應(yīng)結(jié)合;Tapia等提出用于識(shí)別人體行為活動(dòng)和心臟強(qiáng)度的DT實(shí)時(shí)算法,為處理嘈雜數(shù)據(jù),使用平均濾波器;César等利用iDT算法提取固定場(chǎng)景的局部時(shí)空特征,通過Fisher編碼將多個(gè)軌跡描述符組合到單個(gè)視頻級(jí)中進(jìn)行無監(jiān)督的表示學(xué)習(xí),該方法可傳輸小尺寸的模型,性能優(yōu)于基于端到端訓(xùn)練的復(fù)雜深度體系結(jié)構(gòu);姚小慧針對(duì)智慧環(huán)境下的老人日常行為識(shí)別,利用傳統(tǒng)機(jī)器學(xué)習(xí)方法提出通過滑動(dòng)窗口處理提取日常動(dòng)作特征,利用無監(jiān)督方法的自編碼器處理特征數(shù)據(jù)訓(xùn)練行為識(shí)別模型。智慧家庭中基于傳統(tǒng)方法的動(dòng)作識(shí)別正確率(Acc)和平均精度(mAP)比較(單位:%),如表2所示。

      3.2 基于深度學(xué)習(xí)的動(dòng)作識(shí)別算法

      隨著科技的發(fā)展,越來越多的深度學(xué)習(xí)擴(kuò)展模型被運(yùn)用于智慧家庭中的人體動(dòng)作識(shí)別領(lǐng)域,深度學(xué)習(xí)模型通常被應(yīng)用于智慧家庭環(huán)境下的復(fù)雜或連貫性動(dòng)作識(shí)別。針對(duì)智慧家庭環(huán)境中復(fù)雜且多變的人體行為動(dòng)作,其特征提取面臨很大困難,因此需要選擇更為高效的動(dòng)作識(shí)別方法。本文將深度學(xué)習(xí)方法的概述分為基于網(wǎng)絡(luò)結(jié)構(gòu)(Structure)、基于輸入數(shù)據(jù)類型(Inputs)和基于Transformer的動(dòng)作識(shí)別。

      Table2 Comparison of accuracy and mean average precision表2 正確率與平均精度比較

      3.2.1 基于網(wǎng)絡(luò)結(jié)構(gòu)的動(dòng)作識(shí)別算法

      目前,智慧家庭環(huán)境下的動(dòng)作識(shí)別所使用的網(wǎng)絡(luò)結(jié)構(gòu)大多基于雙流網(wǎng)絡(luò)結(jié)構(gòu)和C3D。Wang等基于雙流網(wǎng)絡(luò)結(jié)構(gòu)提出時(shí)間分段網(wǎng)絡(luò)(TSN),通過獲取不同時(shí)間序列的Short-term信息并疊加多個(gè)雙流網(wǎng)絡(luò)解決動(dòng)作識(shí)別中Long-term的問題;Lan等在Wang的基礎(chǔ)上改進(jìn)了TSN,提出運(yùn)用深度網(wǎng)絡(luò)學(xué)習(xí)將不同的序列賦予不同的權(quán)重值,最后由分類器或感知器識(shí)別動(dòng)作類型;李冬月面向智慧家庭中老人監(jiān)控系統(tǒng)的視覺信息問題,提出將融合動(dòng)態(tài)圖像的時(shí)序信息作為TSN的輸入,提升了行為識(shí)別精準(zhǔn)率;Zhou等提出在TSN基礎(chǔ)上搭建TRN網(wǎng)絡(luò)結(jié)構(gòu),在輸入的特征圖上通過時(shí)序推理進(jìn)行分類;Tong等針對(duì)智慧家庭老人護(hù)理角度,提出隱狀態(tài)條件隨機(jī)場(chǎng)(HCRF)方法和基于HCRF模型的AAR算法,并將其用于監(jiān)測(cè)和評(píng)估老人的異常活動(dòng);佟夢(mèng)竹運(yùn)用RNN算法對(duì)家庭環(huán)境下的日常居家行為進(jìn)行識(shí)別,并直接利用隱藏層的輸出作為特征信息,提高了當(dāng)前序列的動(dòng)作識(shí)別準(zhǔn)確率。在時(shí)空信息融合網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,Souza等提出基于inception-V1模型融合module的差異,將具有很深圖像分類的過濾器和ConvNets延伸至三維;Diba等在Souza的基礎(chǔ)上,提出將視頻卷積網(wǎng)絡(luò)命名為“時(shí)間3D ConvNet”(T3D),并將其新的時(shí)間層命名為“時(shí)間過渡層”(TTL),改進(jìn)了ResNet的卷積形式。由于當(dāng)前方法受部分觀察訓(xùn)練影響而引起不精準(zhǔn)的問題,Zhu等提出帶有時(shí)間金字塔池(DTPP)的深度網(wǎng)絡(luò),在所有視頻數(shù)據(jù)中稀疏地采樣RGB圖像,最后訓(xùn)練后的模型具有緊湊的視頻級(jí)別表示;Sasaki等從預(yù)測(cè)日常居家行為動(dòng)作發(fā)生的角度,提出基于LSTM的日常生活預(yù)測(cè)模型,但其預(yù)測(cè)準(zhǔn)確率較低;Zhao等在ResNet網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上研究雙流網(wǎng)絡(luò)的連接手段,創(chuàng)新之處在于模塊化地構(gòu)建塊,即合并運(yùn)行塊,使訓(xùn)練路徑更短,且增加了通道數(shù)。CNN網(wǎng)絡(luò)是采用空間和時(shí)間網(wǎng)絡(luò)相結(jié)合的方法,但通常僅限于處理較短的序列,Diba等據(jù)此提出一個(gè)新的視頻表示,稱為時(shí)域線性編碼(TLE),并嵌入CNN作為一個(gè)新的層,捕捉整個(gè)視頻的外觀和運(yùn)動(dòng),通過端到端的學(xué)習(xí),最終的特征信息表示具有魯棒性。

      3.2.2 基于輸入數(shù)據(jù)的動(dòng)作識(shí)別算法

      基于輸入數(shù)據(jù)類型(Inputs)的動(dòng)作識(shí)別算法指智慧家庭環(huán)境下輸入動(dòng)作數(shù)據(jù)的類型和格式。池志攀利用傳感器輸入數(shù)據(jù),采用基于情景的序列自動(dòng)劃分算法,使用支持向量分類器學(xué)習(xí)模型,用于識(shí)別智慧家庭環(huán)境下的用戶日常行為;張偉在智能空間下,提出運(yùn)用非視覺傳感器數(shù)據(jù)改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別模型,運(yùn)用隱馬爾科夫模型在線識(shí)別智慧空間中的陌生行為。當(dāng)前家庭場(chǎng)景下諸多動(dòng)作分類僅依靠時(shí)間網(wǎng)絡(luò)的單幀圖像完成,因此空間網(wǎng)絡(luò)通道的特征輸入會(huì)出現(xiàn)冗余,基于此問題,Zhu等提出一種通過關(guān)鍵幀挖掘深層框架以提升日常動(dòng)作分類水平,將圖像分類算法(RCNN)輸入整個(gè)視頻,按照?qǐng)D像候選框依次提取出關(guān)鍵幀數(shù)據(jù)。由于劃分時(shí)需輸入整個(gè)視頻數(shù)據(jù),會(huì)存在大量冗余幀,Kar等提出一種能預(yù)測(cè)每個(gè)視頻幀區(qū)別的重要性算法,直接在卷積/池化操作時(shí)重點(diǎn)關(guān)注關(guān)鍵幀,然后將它們合并到深度學(xué)習(xí)框架中實(shí)現(xiàn),該方法的優(yōu)點(diǎn)是模型簡單,但是提取的圖像關(guān)鍵幀的性能不如Key Volume Mining。Korpela就智慧環(huán)境下的牙齒保健問題,提出利用智能手機(jī)的音頻數(shù)據(jù)進(jìn)行活動(dòng)識(shí)別,通過刷牙的位置及類型評(píng)估刷牙性能;Sevilla等研究光流與動(dòng)作識(shí)別的結(jié)合,認(rèn)為光流特征包含的未必是最優(yōu)的運(yùn)動(dòng)特征但是光流質(zhì)量的提高對(duì)家庭場(chǎng)景下的動(dòng)作分類有關(guān)鍵作用,特別是針對(duì)邊緣微小運(yùn)動(dòng)光流的提升;鑒于此Zhu等提出一種新穎的CNN體系結(jié)構(gòu)可自學(xué)特定場(chǎng)景下基于光流的運(yùn)動(dòng)特征,提升了光流特征的性能;孟樂樂和胡正平等針對(duì)家庭場(chǎng)景訓(xùn)練模型時(shí)引入時(shí)間分組算法和注意力機(jī)制,前者在特征提取和信息輸入時(shí)均使用注意力機(jī)制為特征賦予不同的關(guān)注度,但其算法不適合數(shù)據(jù)集量大、計(jì)算量較大的模型,后者在動(dòng)作識(shí)別時(shí)引入了基于通道的注意力機(jī)制以提高網(wǎng)絡(luò)表達(dá)能力,但由于識(shí)別模型對(duì)特征表示的能力不夠,因而使用的數(shù)據(jù)都已經(jīng)過集中處理?;谝话闵疃葘W(xué)習(xí)方法的文獻(xiàn)中動(dòng)作識(shí)別正確率(Acc)和平均精度(mAP)比較(單位:%)如表3所示。

      Table3 Comparison of accuracy and mean average precision表3 正確率和平均精度比較

      3.2.3 基于Transformer的動(dòng)作識(shí)別算法

      近年來基于Transformer結(jié)構(gòu)的人體動(dòng)作識(shí)別得到了研究人員的青睞,在智慧家庭中,相較于簡單的人體動(dòng)作,復(fù)雜動(dòng)作和多人交互動(dòng)作更難識(shí)別,Transformer結(jié)構(gòu)則可有效解決這一問題。Transformer結(jié)構(gòu)即數(shù)個(gè)注意力機(jī)制的堆疊,會(huì)出現(xiàn)數(shù)據(jù)過飽和,Longformer由此被提出,有學(xué)者提出的VTN就是基于CNN網(wǎng)絡(luò)獲取特征信息,運(yùn)用Longformer對(duì)連續(xù)動(dòng)作進(jìn)行識(shí)別。此外,上下文(例如其他人和對(duì)象)信息在識(shí)別家庭中的日常動(dòng)作特征中具有關(guān)鍵作用。Gavrilyuk等為識(shí)別其中的個(gè)體行為和群體活動(dòng),提出使用2D姿態(tài)網(wǎng)絡(luò)和3DCNN輸出的靜態(tài)和動(dòng)態(tài)信息作為聯(lián)合特征表示的actor-Transformer模型,該模型可學(xué)習(xí)并有選擇地提取家庭環(huán)境中多人交互動(dòng)作中的相關(guān)特征。Girdhar等提出一種稱為Action Transformer的可聚合視頻中與特定人物相關(guān)的上下文線索模型,該模型印證了上下文信息對(duì)于動(dòng)作分類的必要性,使用RCNN處理輸入數(shù)據(jù),并采用了區(qū)域建議網(wǎng)絡(luò)(RPN)提供的采樣機(jī)制。該方法可以利用智慧家庭中特定成員的相關(guān)上下文信息,為特定場(chǎng)景下的動(dòng)作識(shí)別提供有效的特征。Lohit等為縮小同一類別動(dòng)作中的方差,增大不同類間的方差提出時(shí)間Transformer網(wǎng)絡(luò)(TTN),該網(wǎng)絡(luò)是利用模型和數(shù)據(jù)驅(qū)動(dòng)的混合方法學(xué)習(xí)變形函數(shù)的一個(gè)可區(qū)分模塊,因此可增大家庭不同場(chǎng)景下相似動(dòng)作之間的特征向量距離,提升網(wǎng)絡(luò)識(shí)別能力。此外,F(xiàn)ayyaz等為區(qū)分動(dòng)作發(fā)生的時(shí)間、頻率和順序,使用一種端到端培訓(xùn)方法,研究了一種用于弱監(jiān)督設(shè)置下用于人體動(dòng)作識(shí)別的時(shí)間Transformer;Carreira等根據(jù)Kinetics數(shù)據(jù)集評(píng)估最先進(jìn)的架構(gòu),提出一種基于二維卷積神經(jīng)網(wǎng)絡(luò)的新型雙流三維卷積神經(jīng)網(wǎng)絡(luò)(I3D)以識(shí)別人體動(dòng)作,該架構(gòu)可以將極深的圖像分類卷積神經(jīng)網(wǎng)絡(luò)的過濾器和池化內(nèi)核延伸至3D,這有利于從視頻數(shù)據(jù)中直接自主學(xué)習(xí)時(shí)空特征提取器;Plizzari等基于時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN)等提出一種能有效解決三維骨骼編碼問題的模型,稱為時(shí)空Transformer網(wǎng)絡(luò)(ST-TR);Bertasius等提出TimeSformer模型,一種完全基于空間和時(shí)間上的自注意無卷積動(dòng)作分類方法,該方法適用于視頻數(shù)據(jù),可以直接從幀級(jí)補(bǔ)丁序列數(shù)據(jù)中學(xué)習(xí)特征??臻g和時(shí)間特征在家庭場(chǎng)景動(dòng)作識(shí)別中扮演著重要角色,例如空間特征的有效提取可以確定嬰兒與危險(xiǎn)邊界的相對(duì)位置并應(yīng)用于嬰兒看護(hù)?;赥ransformer的文獻(xiàn)中動(dòng)作識(shí)別正確率比較(Acc表示識(shí)別正確率Accuracy,單位:%)如表4所示。

      Table 4 Accuracy comparison表4 正確率比較

      3.3 動(dòng)作識(shí)別方法比較

      如上文所述,智慧家庭中人體動(dòng)作識(shí)別方法可分為基于傳統(tǒng)方法和基于深度學(xué)習(xí)(含Transformer)的動(dòng)作識(shí)別。如表5所示,運(yùn)用傳統(tǒng)方法對(duì)智慧環(huán)境下動(dòng)作識(shí)別的優(yōu)勢(shì)在于時(shí)間成本低,相較于其他方法簡便易行。它的局限性在于其獲取的圖像特征是由人工預(yù)設(shè),不能充分利用圖像信息,并致使該算法受到圖像遮擋和模糊等問題的限制。此外,由于采集圖像需要專業(yè)采集設(shè)備,成本較高,無法適用于所有應(yīng)用場(chǎng)景,因此傳統(tǒng)方法主要應(yīng)用在單人的簡單動(dòng)作場(chǎng)景中。常見深度學(xué)習(xí)方法的優(yōu)勢(shì)在于可以通過神經(jīng)網(wǎng)絡(luò)提取比人工特征更加準(zhǔn)確且魯棒的特征,同時(shí)可以處理家庭場(chǎng)景中的序列問題,分析圖像連續(xù)多幀的變化規(guī)律。其局限性是由于數(shù)據(jù)量大而導(dǎo)致計(jì)算量大,容易造成過擬合。深度學(xué)習(xí)方法主要應(yīng)用于家庭中的復(fù)雜動(dòng)作識(shí)別。深度學(xué)習(xí)中Transformer方法的優(yōu)勢(shì)在于針對(duì)大數(shù)據(jù)集的動(dòng)作識(shí)別準(zhǔn)確率較高,擅長處理家庭中連貫性動(dòng)作產(chǎn)生的長序列視頻或人物交互場(chǎng)景,其局限性在于該方法的識(shí)別性能會(huì)隨著場(chǎng)景中人數(shù)的增多而下降,無法實(shí)現(xiàn)時(shí)間扭曲。Transformer方法主要應(yīng)用于家庭中存在的群體活動(dòng)和復(fù)雜場(chǎng)景下。

      Table5 Comparison of human action recognition methods表5 人體動(dòng)作識(shí)別方法比較

      4 人體動(dòng)作識(shí)別技術(shù)在智慧家庭中的應(yīng)用

      隨著科技的發(fā)展,諸多智能化產(chǎn)品涌入到生活中,智慧家庭可理解為以家庭智能化為導(dǎo)向的智慧系統(tǒng)。智慧家庭的核心在于智能化,是利用當(dāng)今的技術(shù)工具為使用者提供準(zhǔn)確、個(gè)性化和智能化的主動(dòng)式服務(wù)。當(dāng)前,智慧家庭系統(tǒng)研究的主要內(nèi)容均應(yīng)用于安全防范、電器智能控制、燈光管理和健康服務(wù)等領(lǐng)域,在精神生活的服務(wù)上略有欠缺。因此,本文提出將人體動(dòng)作識(shí)別技術(shù)應(yīng)用于智慧家庭系統(tǒng)的思想智慧層面,通過識(shí)別人體動(dòng)作類別,觸發(fā)一系列推薦內(nèi)容如國學(xué)詩詞、禮樂等,達(dá)到智慧理念的主動(dòng)式服務(wù),實(shí)現(xiàn)個(gè)性化、智能化的教育方式。

      4.1 特定家庭場(chǎng)景設(shè)計(jì)方案

      本文對(duì)智慧家庭中3個(gè)特定場(chǎng)景中的動(dòng)作、特征及智能推送內(nèi)容進(jìn)行描述,如表6所示,并以學(xué)習(xí)狀態(tài)監(jiān)測(cè)場(chǎng)景為例展開介紹。由于當(dāng)前學(xué)生在家庭環(huán)境中大部分時(shí)間用來學(xué)習(xí),實(shí)時(shí)監(jiān)測(cè)學(xué)生學(xué)習(xí)過程中的學(xué)習(xí)狀態(tài)至關(guān)重要,通過識(shí)別學(xué)習(xí)過程中的異常動(dòng)作(如坐立不安、左顧右盼等,學(xué)習(xí)過程中出現(xiàn)身體晃動(dòng)、起坐頻繁時(shí)將被判定為坐立不安)判斷其當(dāng)前學(xué)習(xí)狀態(tài)是否正常。

      學(xué)習(xí)狀態(tài)監(jiān)測(cè)場(chǎng)景根據(jù)需求分析,分為三大模塊,分別是數(shù)據(jù)處理模塊、人體動(dòng)作識(shí)別模塊和智能推送模塊,如圖4所示。

      Table 6 Description of specific scenarios in the smart home表6 智慧家庭中特定場(chǎng)景描述

      Fig.4 Application flow of action recognition technology in the smart home圖4 動(dòng)作識(shí)別技術(shù)在智慧家庭中的應(yīng)用流程

      首先,利用MU視覺攝傳感器獲取人體動(dòng)作數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,使用Python爬蟲技術(shù)爬取推送數(shù)據(jù)進(jìn)行分類和存儲(chǔ);其次,將傳感器獲取的人體動(dòng)作數(shù)據(jù)輸入到使用深度學(xué)習(xí)技術(shù)重復(fù)訓(xùn)練的動(dòng)作識(shí)別模型中進(jìn)行智能化識(shí)別,若識(shí)別出學(xué)習(xí)姿勢(shì)出現(xiàn)異常狀態(tài)(如坐立不安),智能推送模塊則根據(jù)動(dòng)作類別,依據(jù)基于規(guī)則的專家系統(tǒng)原理進(jìn)行智能化推薦(如孟子在《弈秋》中寫道“今夫弈之為數(shù),小數(shù)也;不專心致志,則不得也”,譯為“下棋作為一種技藝,只是一種小技藝,但如果不專心致志地來學(xué)的話,也是學(xué)不好的”);最后,利用具體國學(xué)案例進(jìn)行語音規(guī)勸,以“詩言志,樂和情”的教育理念實(shí)現(xiàn)智慧家庭中文化層面的智能化。

      4.2 智慧家庭建設(shè)中動(dòng)作識(shí)別應(yīng)用前景

      隨著科技的進(jìn)步,當(dāng)前家庭信息化、智能化逐漸普及,精神文化富足將逐步成為智慧家庭領(lǐng)域的主流發(fā)展趨勢(shì),如何利用人工智能技術(shù)充盈人類的文化層面,在智慧城市建設(shè)中有著廣闊的前景,并蘊(yùn)含著巨大的市場(chǎng)潛力。將人體動(dòng)作識(shí)別技術(shù)應(yīng)用于智慧家庭領(lǐng)域的意義在于利用互聯(lián)網(wǎng)技術(shù)手段和新型傳播方式智能化地豐富人類的精神、思想層面建設(shè)、調(diào)節(jié)家庭個(gè)性化生活方式和改善家庭生活質(zhì)量。在社會(huì)層面,則有利于豐富網(wǎng)絡(luò)文化內(nèi)容建設(shè),將中國歷史上的核心價(jià)值觀轉(zhuǎn)化為民眾共享的文化力量。

      5 結(jié)語

      近年來,人體動(dòng)作識(shí)別技術(shù)成為國內(nèi)外學(xué)者研究的熱點(diǎn),目前在諸多行業(yè)中也展現(xiàn)了重要的應(yīng)用價(jià)值。本文在已有研究基礎(chǔ)上,研究人體動(dòng)作識(shí)別研究方法和相關(guān)實(shí)驗(yàn)數(shù)據(jù)集,對(duì)人體動(dòng)作識(shí)別發(fā)展歷程進(jìn)行綜述,回顧了基于傳統(tǒng)方法和深度學(xué)習(xí)方法(包含Transformer)的動(dòng)作識(shí)別算法,提出將人體動(dòng)作識(shí)別技術(shù)應(yīng)用于智慧家庭領(lǐng)域,以期實(shí)現(xiàn)個(gè)性化、智能化的教育方式。然而,針對(duì)家庭的復(fù)雜動(dòng)作場(chǎng)景,現(xiàn)有的動(dòng)作識(shí)別算法無法實(shí)現(xiàn)預(yù)期效果,仍需要進(jìn)一步探索新的動(dòng)作識(shí)別模型和方法。此外,當(dāng)前家庭信息化、智能化逐漸普及,隨著科技的進(jìn)步,精神文化富足將逐步成為智慧家庭領(lǐng)域的主流發(fā)展趨勢(shì),如何利用人工智能技術(shù)充盈人的精神文化層面,是未來重點(diǎn)研究方向。

      猜你喜歡
      人體動(dòng)作智慧
      人體“修補(bǔ)匠”
      人體冷知識(shí)(一)
      排便順暢,人體無毒一身輕
      奇妙的人體止咳點(diǎn)
      特別健康(2018年3期)2018-07-04 00:40:10
      動(dòng)作描寫要具體
      畫動(dòng)作
      動(dòng)作描寫不可少
      非同一般的吃飯動(dòng)作
      有智慧的羊
      智慧派
      葵青区| 益阳市| 博白县| 纳雍县| 资兴市| 永寿县| 富源县| 山东| 合江县| 凌云县| 台南市| 陆丰市| 汉寿县| 手机| 西吉县| 甘谷县| 罗源县| 高州市| 刚察县| 德兴市| 夹江县| 广汉市| 黑龙江省| 镇原县| 岳阳市| 福贡县| 金寨县| 威远县| 新丰县| 延寿县| 大理市| 天柱县| 宁明县| 拜城县| 柘城县| 乌拉特中旗| 阿尔山市| 宜丰县| 叙永县| 赤水市| 盐池县|