徐弘毅 鮑蓉 侍亞?wèn)|
摘要:隨著人口老齡化的形勢(shì)不斷嚴(yán)峻,養(yǎng)老成為社會(huì)一個(gè)焦點(diǎn)話(huà)題。大多數(shù)年輕人選擇背井離鄉(xiāng)或者疲于工作,造成空巢老人數(shù)量不斷增加。而在老人獨(dú)處時(shí)發(fā)生安全隱患概率明顯增大。本文以計(jì)算機(jī)視覺(jué)為基礎(chǔ),探討老人獨(dú)處時(shí)發(fā)生跌倒行為的現(xiàn)象的解決方案,介紹了特征提取和深度學(xué)習(xí)兩種主流思路,詳細(xì)說(shuō)明了其發(fā)展和常用方法,同時(shí)對(duì)公開(kāi)數(shù)據(jù)集進(jìn)行利弊分析。最后總結(jié)了全文使用的方法同時(shí)闡述了對(duì)該技術(shù)未來(lái)發(fā)展方向的見(jiàn)解。
關(guān)鍵詞: 養(yǎng)老機(jī)器人; 深度學(xué)習(xí); 特征提取; 行為檢測(cè); 危險(xiǎn)預(yù)警
中圖分類(lèi)號(hào): TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)03-0211-05
Abstract:As the population ageing situation continues to be severe, elderly care has become a hot topic in society. Most young people choose to leave their homes or get tired of work, resulting in an increasing number of empty-nest elderly people. The probability of potential safety hazards when the elderly is alone increases significantly. Based on computer vision, the solution to the phenomenon of falling behavior when the elderly is alone is explored, two mainstream ideas of feature extraction and deep learning are introduced, and its development and common methods are explained in detail. At the same time, the pros and cons of public data sets are analyzed. Finally. Summarizes the methods used in the full text and expounds insights into the future development direction of the technology.
Key words:pension robot; deep learning; feature extraction; behavior detection; hazard warning
引 言
當(dāng)今老人的監(jiān)護(hù)問(wèn)題成為社會(huì)焦點(diǎn),前段時(shí)間的新聞報(bào)道說(shuō)“65歲+”5年后將破2億,2050年中國(guó)60歲及以上老年人口將接近5億,應(yīng)對(duì)老齡化最重要窗口期開(kāi)啟。所以在這個(gè)大趨勢(shì)背景下,迫切需要一個(gè)老人監(jiān)護(hù)產(chǎn)品來(lái)幫助年輕子女上班時(shí)實(shí)時(shí)關(guān)注老人健康,而老人監(jiān)護(hù)一大重要功能即行為識(shí)別檢測(cè),老人在家的行為例如站立,跌倒等能夠真實(shí)反映老人在家的狀態(tài)。本論文即對(duì)這項(xiàng)功能進(jìn)行深入研究。
目前,行為識(shí)別已經(jīng)成為計(jì)算機(jī)行業(yè)的熱點(diǎn)問(wèn)題,大公司都致力于研究這一非常具有前景的問(wèn)題。行為識(shí)別具有廣泛的應(yīng)用前景,目前社會(huì)最大的應(yīng)用即監(jiān)控報(bào)警技術(shù),目前行為識(shí)別還離不開(kāi)視頻或圖像技術(shù),所以目前大部分行為識(shí)別都基于神經(jīng)網(wǎng)絡(luò)與圖像卷積處理。一開(kāi)始行為識(shí)別主要基于的是特征提取,這是非常有效并且在實(shí)時(shí)更新的,眾多特征提取算法在這些年噴涌而出,而隨著AI技術(shù)的發(fā)展,在基于原本行為識(shí)別的基礎(chǔ)上更是可以添加機(jī)器學(xué)習(xí)的算法,讓識(shí)別更加精確,更具有魯棒性,具備應(yīng)對(duì)各種極端和意外情況的發(fā)生。
近年來(lái),國(guó)內(nèi)國(guó)外很多優(yōu)秀的學(xué)者在研究行為識(shí)別方面取得了很多成果,并且也發(fā)表了很多優(yōu)秀的論文,但是那些論文更多的是基于人體行為識(shí)別本身進(jìn)行討論,而未考慮到行為發(fā)生過(guò)程中例如老人跌倒的情況,從科研理論算法到真正進(jìn)入社會(huì)應(yīng)用是需要更多的測(cè)試和歸納總結(jié)優(yōu)化的。鑒于此,本文首先對(duì)公開(kāi)數(shù)據(jù)集進(jìn)行了介紹,隨后研究了當(dāng)今行為識(shí)別檢測(cè)的現(xiàn)狀和目前仍存在的問(wèn)題,隨后討論當(dāng)今流行的基于特征提取的跌倒檢測(cè)識(shí)別和基于深度學(xué)習(xí)的跌倒檢測(cè)識(shí)別,對(duì)它們的實(shí)現(xiàn)原理和實(shí)現(xiàn)工具算法等進(jìn)行詳細(xì)的綜述與實(shí)踐總結(jié),最后分析結(jié)果得出本次實(shí)驗(yàn)的結(jié)論,分析該領(lǐng)域的研究趨勢(shì),旨在對(duì)老人監(jiān)護(hù)產(chǎn)品中的老人行為識(shí)別監(jiān)測(cè)提供不可或缺的幫助。
1 公開(kāi)數(shù)據(jù)集介紹
一個(gè)好的模型離不開(kāi)一個(gè)好的數(shù)據(jù)集訓(xùn)練和測(cè)試。在跌倒檢測(cè)方面有不少數(shù)據(jù)集。
UR Fall Detection Dataset由University of Rzeszow創(chuàng)立。該數(shù)據(jù)集包括70個(gè)活動(dòng)序列。其中30個(gè)為跌倒情況,40個(gè)為日常情況。數(shù)據(jù)記錄方面使用了2臺(tái)Microsoft kinect相機(jī)和相應(yīng)加速度計(jì)記錄跌倒事件。ADL事件即日常生活事件由1臺(tái)相機(jī)和加速度計(jì)記錄[1]。同時(shí)每一個(gè)活動(dòng)序列都采用PS Move和x-IMU設(shè)備收集傳感器數(shù)據(jù)。
Fall detection Dataset創(chuàng)建目的在于研究室內(nèi)跌倒檢測(cè)。數(shù)據(jù)集包括21499張圖像,記錄著8個(gè)不同視角組成的5個(gè)房間中的景象[2]。參與數(shù)據(jù)集創(chuàng)建共有5人,兩個(gè)男性三個(gè)女性分別記錄站著,坐著,躺著和爬行動(dòng)作。
Multiple cameras fall dataset創(chuàng)建于2010年,該數(shù)據(jù)集由8個(gè)攝像機(jī)記錄的24個(gè)場(chǎng)景。其中前22個(gè)情景包含跌倒和正常情況,后2個(gè)僅僅包含正常情況[3]。
UCI Human Activity Recognition Using Smartphones DataSet有美國(guó)加州大學(xué)歐文分校創(chuàng)立。數(shù)據(jù)包含30位年齡在19-48歲的志愿者的數(shù)據(jù),借助于手機(jī)加速度傳感器和陀螺儀傳感器記錄了行走,上樓梯,坐,站立,躺下,下樓梯6個(gè)行為[4]。
對(duì)于上述四個(gè)數(shù)據(jù)集總結(jié)如表1。
2 基于特征提取的跌倒檢測(cè)識(shí)別
2.1特征提取技術(shù)發(fā)展概述
特征提取即提取人體圖像采集,然后將圖像進(jìn)行特征分析,進(jìn)行分類(lèi)等操作,最終達(dá)到行為識(shí)別的效果。特征提取分為全局特征提取和局部特征提取。全局特征提取需要對(duì)背景進(jìn)行優(yōu)化,隨后能對(duì)人體輪廓進(jìn)行提取,Davis等人最早使用了輪廓來(lái)識(shí)別描述人體的行為信息,這是基于二維的方法進(jìn)行人體識(shí)別。隨著特征提取的發(fā)展,局部特征提取也成了目前研究的熱點(diǎn),最早由1975年Johansson的實(shí)驗(yàn),作者將人體劃分為12個(gè)特征點(diǎn),通過(guò)這些點(diǎn)模型對(duì)人體的行為識(shí)別以及特征點(diǎn)提取起到了非常大的引導(dǎo)作用,有了這個(gè)特征點(diǎn)方法,可以方便準(zhǔn)確地對(duì)人的行為進(jìn)行劃分。
2.2常見(jiàn)特征提取方法
2.2.1基于特征點(diǎn)提取的輪廓識(shí)別方法
采用該方法主體流程圖如圖1所示:
首先進(jìn)行的工作是圖像降噪,圖片往往有很多背景會(huì)擾亂人體輪廓的識(shí)別,這些干擾往往是由于顏色引起的,所以圖像去燥以及灰度化是對(duì)人體識(shí)別最先做的工作,圖像去噪有多種方法,這里采用雙邊濾波去燥和鄰域去燥相結(jié)合的方法。
鄰域去燥是指對(duì)局部相似度分析,從而共同決定在一個(gè)鄰域內(nèi)的像素值,鄰域運(yùn)算是圖像去燥最基礎(chǔ)的圖像處理工具,常用的有8鄰域去燥,8鄰域就是判斷周?chē)?個(gè)像素點(diǎn)。如果這8個(gè)點(diǎn)中255的個(gè)數(shù)大于某個(gè)閾值則判斷這個(gè)點(diǎn)為噪聲,閾值可以根據(jù)實(shí)際情況修改。
而雙邊去燥是將一種非線性濾波器,它采用加權(quán)平均降噪方法,這和例如高斯去噪的濾波原理是一樣的,高斯去噪僅僅考慮空間歐式距離,而雙邊濾波去噪正是在高斯去噪的基礎(chǔ)上加入了高斯灰度距離信息的權(quán)重考慮,在鄰域內(nèi),會(huì)導(dǎo)致越接近中心點(diǎn)灰度值的點(diǎn)的權(quán)重更大,灰度值相差大的點(diǎn)權(quán)重越小。其中空間距離相關(guān)高斯函數(shù)表達(dá)式如式1所示其中(xi,yi)為當(dāng)前點(diǎn)位置,(xc,yc)為中心點(diǎn)的位置,灰度距離相關(guān)高斯函數(shù)如式2所示,其中 gray(xi,yi)為當(dāng)前點(diǎn)灰度值,gray(xc,yc)為中心點(diǎn)灰度值:
相比之下雙邊濾波去噪的優(yōu)點(diǎn)是相比于高斯濾波,多考慮了一項(xiàng)內(nèi)容權(quán)重,會(huì)使最終效果更好,而缺點(diǎn)是由于多計(jì)算了一項(xiàng)權(quán)重,會(huì)讓計(jì)算負(fù)擔(dān)和運(yùn)算時(shí)間變長(zhǎng)。最終兩者相乘即最后的雙邊濾波卷積模版。
其次是圖像灰度化,圖像灰度化,目的是去除顏色的影響,讓像素類(lèi)型從255變成0-1,變成1維像素表示,這樣可以大大減小工作量和計(jì)算量,同時(shí)易于提取需要的輪廓信息。同樣,灰度化方法也有很多,例如分量法,最大值法,平均值法和加權(quán)平均法,這里選擇采用加權(quán)平均法,讓生成的圖像相對(duì)RGB三分量更加合理。加權(quán)平均法公式如式3所示其中[ωR]、[ωG]、[ωB]分別是R,G,B的權(quán)值,一般分別取0.299,0.587,0.114時(shí)得到的效果最好,這是通過(guò)人眼的生理特點(diǎn)得出的最優(yōu)參數(shù)。
然后是輪廓描繪,對(duì)于該方面有很多算法算子實(shí)現(xiàn),大多數(shù)選擇canny算子,原因是在大部分情況下canny算子實(shí)現(xiàn)的效果較好,Canny算子通?;赟obel算子產(chǎn)生的,Canny算子適用于不同的場(chǎng)合[5],Canny算子有很多可以調(diào)整的參數(shù),所以允許根據(jù)不同的要求進(jìn)行調(diào)整,所以非常靈活實(shí)用,其中還有個(gè)算法思想是非極大值抑制,是尋找局部像素點(diǎn)的最大值,然后沿著梯度方向逐個(gè)比較。設(shè)g1的幅值M(g1),g2的幅值M(g2):
2.2.2基于骨架特征點(diǎn)的行為識(shí)別方法
行為識(shí)別受到多方面因素的影響,例如光照,視角,背景等,這時(shí)候骨架關(guān)節(jié)點(diǎn)特征點(diǎn)提取的方法就極大可能回避這些問(wèn)題,1973年Johansson發(fā)現(xiàn)人體運(yùn)動(dòng)可以通過(guò)關(guān)節(jié)點(diǎn)的移動(dòng)來(lái)描述,有了這一理論后,對(duì)于行為識(shí)別的方法又提供了一個(gè)新思路。
人體骨架主要通過(guò)RGB圖像進(jìn)行關(guān)節(jié)點(diǎn)估計(jì),隨后追蹤這些關(guān)節(jié)點(diǎn)的坐標(biāo)位置,最終判斷出人體的行為,每一時(shí)刻的骨架對(duì)應(yīng)關(guān)節(jié)點(diǎn)都會(huì)被計(jì)算機(jī)或者攝像頭設(shè)備記錄下來(lái),形成一系列的時(shí)間軸,隨后匹配已經(jīng)設(shè)定好的一系列時(shí)間軸在人體骨架提取特征點(diǎn)的基礎(chǔ)上加入人工智能會(huì)更加精確[6],但是這里暫時(shí)只討論運(yùn)用圖像識(shí)別的方法,暫不涉及人工智能領(lǐng)域方面的知識(shí)。
基于人體骨架提取特征點(diǎn)的行為識(shí)別可以識(shí)別出人體的各類(lèi)行為,例如站立,坐,行走,摔倒等,滿(mǎn)足監(jiān)護(hù)老人安全的需求,而且人體骨架可以完美匹配任何人,無(wú)論是高矮胖瘦的人,都可以識(shí)別出骨架特征點(diǎn),而且骨架的姿勢(shì)和幀的時(shí)間軸也是固定的,不會(huì)隨人和環(huán)境的改變而改變,所以這個(gè)方法的準(zhǔn)確率是可以保證的。如圖2為識(shí)別示例。
3 基于深度學(xué)習(xí)的跌倒檢測(cè)識(shí)別
3.1深度學(xué)習(xí)發(fā)展概述
隨著機(jī)器學(xué)習(xí)和人工智能的飛速發(fā)展,AI技術(shù)也被許多學(xué)者設(shè)想加入傳統(tǒng)行為識(shí)別算法中,以提高算法的準(zhǔn)確度和識(shí)別的成功率,自從發(fā)明出CNN后,許多關(guān)于使用CNN神經(jīng)網(wǎng)絡(luò)來(lái)輔助優(yōu)化人體行為識(shí)別,也有許多相關(guān)的資料和源碼供實(shí)驗(yàn),后續(xù)還有RNN,KNN等衍生的神經(jīng)網(wǎng)絡(luò)算法,總體來(lái)說(shuō),引入了人工智能算法使得識(shí)別更加準(zhǔn)確,目前人工智能仍處于上升期,后面還會(huì)有更多的算法以在行為識(shí)別上運(yùn)用,而目前這些人工智能方法還具有一些或大或小的問(wèn)題例如分類(lèi)存在過(guò)擬合等意外性,還需要進(jìn)一步優(yōu)化,而本章即進(jìn)行加入了人工智能算法后的人體行為識(shí)別。
3.2常用深度學(xué)習(xí)工具
由于近幾年深度學(xué)習(xí)發(fā)展火熱,使得深度學(xué)習(xí)工具有了跨越式進(jìn)步,一方面提高了開(kāi)發(fā)模型效率,同時(shí)降低了深度學(xué)習(xí)入門(mén)的門(mén)檻。
Tensorflow[7]是由Google公司獨(dú)立開(kāi)發(fā)的深度學(xué)習(xí)工具,是前一代深度學(xué)習(xí)工具DistBelief的升級(jí)款。Tensorflow核心正如其名字含義,即為張量的使用,引入張量的概念大大簡(jiǎn)化了開(kāi)發(fā)流程。由于其完全開(kāi)源,引來(lái)一大批AI愛(ài)好者使用,成為目前使用最廣泛的深度學(xué)習(xí)庫(kù)之一。
Torch[8]為Facebook公司開(kāi)發(fā)的用于支持機(jī)器學(xué)習(xí)的科學(xué)計(jì)算框架。主要特點(diǎn)可以隨時(shí)查看動(dòng)態(tài)圖,查看網(wǎng)絡(luò)變化。同時(shí)torch開(kāi)發(fā)團(tuán)隊(duì)重視用戶(hù)體驗(yàn),根據(jù)用戶(hù)需求做出很多優(yōu)化。所以torch成為適用于個(gè)人或者小規(guī)模團(tuán)隊(duì)開(kāi)發(fā)更青睞的工具。
Keras是一個(gè)基于Theano的深度學(xué)習(xí)庫(kù)。其主要特點(diǎn)有采用模塊化各模塊封裝較好,上手簡(jiǎn)單,網(wǎng)絡(luò)或網(wǎng)絡(luò)組合使用更自由等。故依托于這些優(yōu)點(diǎn),keras同樣成為目前主流深度學(xué)習(xí)工具之一。
Caffe是由畢業(yè)于UC Berkeley的賈揚(yáng)清創(chuàng)建。同樣作為一個(gè)開(kāi)源庫(kù),使用語(yǔ)言為C++,同時(shí)和很多其他語(yǔ)言有很好的兼容性。目前應(yīng)用于計(jì)算機(jī)視覺(jué),自然語(yǔ)言處理,機(jī)器人等領(lǐng)域。
3.3跌倒檢測(cè)方法
3.3.1卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò),即在網(wǎng)絡(luò)層中部分層以卷積計(jì)算代替矩陣運(yùn)算。關(guān)于卷積神經(jīng)網(wǎng)絡(luò)誕生可追溯到1962年Hubel和Wiesel對(duì)于貓大腦中視覺(jué)系統(tǒng)研究,提出了Receptive fields[9]的概念。在1980年福島邦彥提出了包含1個(gè)卷積層和池化層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在20世紀(jì)末法國(guó)科學(xué)家Yann Lecun首次將BP算法應(yīng)用神經(jīng)網(wǎng)絡(luò)來(lái)降低損失,提出LeNet-5網(wǎng)絡(luò),此網(wǎng)絡(luò)出現(xiàn)奠定了CNN發(fā)展的基礎(chǔ),但由于當(dāng)時(shí)實(shí)現(xiàn)效果并不如主流的機(jī)器學(xué)習(xí)算法所以沒(méi)得到大力推廣。CNN大放異彩是在2012年Imagenet比賽中,采用Alexnet和dropout[10]方法使最終錯(cuò)誤率降低了10%,直接導(dǎo)致CNN的大熱。隨后越來(lái)越多的人投入與CNN研究出現(xiàn)VGG[11],DenseNet,GoogleNet,SENet等網(wǎng)絡(luò)。
在卷積神經(jīng)網(wǎng)絡(luò)中層的設(shè)定主要有5種分別為卷積層,激活層,池化層,全連接層。
對(duì)于卷積層,是一組平行的特征圖,該層核心在于卷積運(yùn)算,對(duì)于卷積運(yùn)算及在特征圖和卷積核在各自定義域上,卷積核每個(gè)部分像素點(diǎn)和矩陣對(duì)應(yīng)部分點(diǎn)乘求和操作,數(shù)學(xué)符號(hào)可表達(dá)為式11所示,其中f,g分別代表特征圖和卷積核的像素值。
通過(guò)卷積運(yùn)算可以提取數(shù)據(jù)集中關(guān)于跌倒部分的特征,而不同的卷積單元因?yàn)闄?quán)值的不同提取特征不同。
對(duì)于激活層,主要目的是為之前提取特征增加非線性特性,常見(jiàn)的激活函數(shù)有Sigmoid,Tanh,ReLu,Softmax。各個(gè)激活函數(shù)優(yōu)缺利弊不同,需要根據(jù)實(shí)際問(wèn)題進(jìn)行考究。
對(duì)于池化層操作和卷積層相同,區(qū)別在于池化層分為平均池化層和最大池化層。主要用于對(duì)卷積層輸出結(jié)果進(jìn)行降維,增加模型泛化能力。
對(duì)于全連接層,在該層主要工作根據(jù)前面卷積層和池化層得出的圖像特征進(jìn)行組合,最終傳送至分類(lèi)器。
如果模型層數(shù)過(guò)多而訓(xùn)練數(shù)據(jù)過(guò)少則會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,需要進(jìn)行正則化。常見(jiàn)正則化方法dropout,其工作原理在每個(gè)訓(xùn)練批次中,通過(guò)忽略指定規(guī)模的特征檢測(cè)器,減少過(guò)擬合現(xiàn)象。
網(wǎng)絡(luò)搭建方面可以選擇手動(dòng)搭建,如圖3所示網(wǎng)絡(luò)為手動(dòng)搭建網(wǎng)絡(luò)。其中輸入格式為247×247,輸出為2×1。
同時(shí)更多地采用目前發(fā)展成熟的網(wǎng)絡(luò),如VGG,AlexNet,GoogLeNet等,在大多數(shù)場(chǎng)景可以有效降低擬合情況。
為了進(jìn)一步提高準(zhǔn)確度引入運(yùn)動(dòng)歷史圖(MHI),運(yùn)動(dòng)歷史圖即統(tǒng)計(jì)同一位置像素變化,并以一定亮度表現(xiàn)出來(lái)?;谏鲜鼍矸e神經(jīng)網(wǎng)絡(luò)提取的人物區(qū)域,可以重點(diǎn)監(jiān)察區(qū)域任務(wù)上半身的移動(dòng)情況,出現(xiàn)過(guò)快現(xiàn)象及時(shí)預(yù)警。
總體來(lái)看,基于卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法在人體檢測(cè),圖像分割方面做得很好,但視頻間各幀信息呈現(xiàn)獨(dú)立性,會(huì)導(dǎo)致忽略關(guān)聯(lián)性,盡管通過(guò)圖像處理方法一定程度上增加關(guān)聯(lián)性,但對(duì)最終準(zhǔn)確率影響不是很大,仍有很大提升空間。
3.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)在圖像特征提取,圖像分割表現(xiàn)十分優(yōu)異,但對(duì)于連續(xù)性或者前后關(guān)聯(lián)性很強(qiáng)的網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)表現(xiàn)很差,由此產(chǎn)生循環(huán)神經(jīng)網(wǎng)絡(luò)。循環(huán)神將網(wǎng)絡(luò)彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)在處理序列化數(shù)據(jù)的不足,同時(shí)為深度學(xué)習(xí)增添新的思想,廣泛用于自然語(yǔ)言處理,圖像識(shí)別。
循環(huán)神經(jīng)網(wǎng)絡(luò),即以序列形式數(shù)據(jù)作為輸入,每個(gè)節(jié)點(diǎn)類(lèi)似于鏈表的結(jié)點(diǎn),鏈?zhǔn)竭B接[4],重復(fù)進(jìn)行同樣操作的一種網(wǎng)絡(luò)。廣義上來(lái)講循環(huán)神經(jīng)網(wǎng)絡(luò)隸屬于遞歸神經(jīng)網(wǎng)絡(luò)范疇。真正意義上循環(huán)神經(jīng)網(wǎng)絡(luò)起源于20世紀(jì)80年代美國(guó)科學(xué)家基于Little神經(jīng)網(wǎng)絡(luò)創(chuàng)建具有存儲(chǔ)能力的神經(jīng)網(wǎng)絡(luò),即為Hopfield神經(jīng)網(wǎng)絡(luò)[12]。同時(shí)為了解決出現(xiàn)的長(zhǎng)期依賴(lài)問(wèn)題,Jurgen Schmidhuber及其合作者在20世紀(jì)90年代提出了神經(jīng)歷史壓縮器[13]和長(zhǎng)短期記憶網(wǎng)絡(luò)[14],其中長(zhǎng)短期記憶網(wǎng)絡(luò)至今任被廣泛使用。而后提出的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)[15],門(mén)控循環(huán)單元網(wǎng)絡(luò)[16],XLNet[17]等模型,都為推動(dòng)循環(huán)神經(jīng)網(wǎng)絡(luò)發(fā)展起重要作用。見(jiàn)解推進(jìn)自然語(yǔ)言處理方面研究。
循環(huán)神經(jīng)網(wǎng)絡(luò)核心思想用循環(huán)的隱含層代替多重隱含層,如圖4,圖5所示為其與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)比較和循環(huán)神經(jīng)網(wǎng)絡(luò)展開(kāi)圖。由此可看出用循環(huán)隱含層代替了多個(gè)隱含層,而隱含層輸出作為下一次隱含層一個(gè)輸入,所以在合并隱含層個(gè)數(shù)的步數(shù)內(nèi)循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶功能,可以記得合并的隱含層中間的關(guān)聯(lián),所以在具有序列特性數(shù)據(jù)表現(xiàn)良好。
循環(huán)神經(jīng)網(wǎng)絡(luò)特別對(duì)于文本數(shù)據(jù)相對(duì)敏感,由于在對(duì)老人跌倒行為檢測(cè)時(shí),輸入的數(shù)據(jù)可以為傳感器數(shù)據(jù),前后幀具有很大的相關(guān)性,循環(huán)神經(jīng)網(wǎng)絡(luò)作為數(shù)據(jù)理解描述最合適之選之一[18]。同時(shí)還有思路,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)優(yōu)點(diǎn)在視頻上實(shí)現(xiàn)檢測(cè)。此方法既借鑒卷積神經(jīng)網(wǎng)絡(luò)的對(duì)圖像特征敏感性可以準(zhǔn)確提取圖像特征做圖像分割,去除干擾項(xiàng),同時(shí)利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)于序列數(shù)據(jù)處理能力強(qiáng)特點(diǎn),去除干擾后更易于模型理解視頻內(nèi)容,從而做出正確判斷。目前來(lái)講考慮經(jīng)濟(jì)因素和模型效率,第一種思路即采用循環(huán)神經(jīng)網(wǎng)絡(luò)基于傳感器數(shù)據(jù)的跌倒檢測(cè)為常用方法。很多手環(huán),App等借助于基礎(chǔ)設(shè)備上傳感器實(shí)現(xiàn)跌倒預(yù)警功能。
采用循環(huán)神經(jīng)網(wǎng)絡(luò)方法對(duì)文本數(shù)據(jù)處理的話(huà)速度快,檢測(cè)準(zhǔn)確率相對(duì)較高。但忽略圖像細(xì)節(jié)容易造成一些上樓,跑步等行為誤判為跌倒,雖然可以人為糾正,但仍需要不影響效率下結(jié)合一定圖像細(xì)節(jié)來(lái)實(shí)現(xiàn)。
4 結(jié)語(yǔ)及展望
盡管行為識(shí)別在測(cè)試時(shí)取得了不同程度的效果,有的效果還是很好的,但是還需要考慮更多老人監(jiān)護(hù)實(shí)際情況會(huì)遇到的情況,盡量提高方法的泛化解決問(wèn)題的能力,以應(yīng)對(duì)現(xiàn)實(shí)生活中會(huì)出現(xiàn)的各種各樣復(fù)雜的情況。
首先,基于特征提取的跌倒檢測(cè)。其中基于輪廓識(shí)別進(jìn)行匹配分析行為識(shí)別,這會(huì)在一些簡(jiǎn)單場(chǎng)景以及一些設(shè)備簡(jiǎn)陋的情況下相當(dāng)實(shí)用的算法,實(shí)現(xiàn)起來(lái)也沒(méi)有難度,而且可以隨時(shí)通過(guò)更改參數(shù)等途徑根據(jù)實(shí)際情況優(yōu)化算法,可以說(shuō)很適合情況復(fù)雜的實(shí)際情況。在當(dāng)今都是學(xué)術(shù)研究的行為識(shí)別領(lǐng)域,將學(xué)術(shù)轉(zhuǎn)入現(xiàn)實(shí)生活還是非常有必要的。同時(shí)本文也分析研究了基于骨架特征點(diǎn)提取的方法以及人工智能行為識(shí)別的實(shí)現(xiàn)過(guò)程,這兩者都有效一定程度上規(guī)避了一些客觀因素的影響,同時(shí)出現(xiàn)bug的概率也會(huì)大大減小,未來(lái)還可以在兩者結(jié)合的方向更加深入,在骨架特征點(diǎn)提取的方法基礎(chǔ)上加入人工智能的算法會(huì)更加增加準(zhǔn)確度,同時(shí)大大縮小兩個(gè)算法本身的缺點(diǎn)。
目前跌倒檢測(cè)發(fā)展受阻主要原因有算法發(fā)展和設(shè)備之間的矛盾,由于算法不斷更新迭代,而部分算法要求設(shè)備越來(lái)越高使得真正準(zhǔn)確率高的算法實(shí)用起來(lái)難。此外還有數(shù)據(jù)集的欠缺,目前對(duì)于行為檢測(cè)數(shù)據(jù)集很多但對(duì)于跌倒檢測(cè)數(shù)據(jù)集仍有欠缺,小程度的影響該技術(shù)發(fā)展。故對(duì)于未來(lái)跌倒檢測(cè)發(fā)展觀點(diǎn)主要有:
1)行為識(shí)別產(chǎn)品的算法得到優(yōu)化,算法和設(shè)備矛盾得到一定緩解,系統(tǒng)的識(shí)別準(zhǔn)確率和實(shí)用性更好。
2)擴(kuò)充更多關(guān)于跌倒檢測(cè)公開(kāi)數(shù)據(jù)集,便于開(kāi)發(fā)者研究。
4)硬件上越來(lái)越小巧,運(yùn)行速度快,低功耗,價(jià)格越親民,用戶(hù)體驗(yàn)度好。
參考文獻(xiàn):
[1] Kwolek B,Kepski M.Human fall detection on embedded platform using depth maps and wireless accelerometer[J].Computer Methods and Programs in Biomedicine,2014,117(3):489-501.
[2] Adhikari, Kripesh, Hamid Bouchachia, Hammadi Nait-Charif. Activity recognition for indoor fall detection using convolutional neural network.2017 Fifteenth IAPR International Conference on Machine Vision Applications (MVA). IEEE, 2017.
[3] Auvinet, Edouard.Multiple cameras fall dataset. DIRO-Université de Montréal, Tech. Rep 1350 ,2010.
[4] Anguita D,Ghio A,Oneto L,et al.A public domain dataset for human activity recognition using smartphones[C]//2013:437-442.
[5] Canny J.A computational approach to edge detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1986,8(6):679-698.
[6] 肖秦琨,趙艷,高嵩.基于RGB彩色和深度信息的人體關(guān)節(jié)點(diǎn)定位[J].國(guó)外電子測(cè)量技術(shù),2015,34(2):27-30.
[7] Abadi, Martín. Tensorflow: A system for large-scale machine learning.12th {USENIX} symposium on operating systems design and implementation ({OSDI} 16). 2016.
[8] Collobert, Ronan, Samy Bengio, and Johnny Mariéthoz. Torch: a modular machine learning software library. No. REP_WORK. Idiap, 2002.
[9] Hubel, David H, and Torsten N. Wiesel. Receptive fields and functional architecture of monkey striate cortex.The Journal of physiology 195.1 (1968): 215-243.
[10] Krizhevsky, Alex, Ilya Sutskever, Geoffrey E. Hinton. Imagenet classification with deep convolutional neural networks.Advances in neural information processing systems. 2012.
[11] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL].2014:arXiv:1409.1556[cs.CV].https://arxiv.org/abs/1409.1556
[12] Farhat N H,Psaltis D,Prata A,et al.Optical implementation of the Hopfield model[J].Applied Optics,1985,24(10):1469-1475.
[13] Schmidhuber, Jürgen. Learning complex, extended sequences using the principle of history compression.Neural Computation 4.2 (1992): 234-242.
[14] Huang Z H,Xu W,Yu K.Bidirectional LSTM-CRF models for sequence tagging[EB/OL].2015:arXiv:1508.01991[cs.CL].https://arxiv.org/abs/1508.01991
[15] Schuster M,Paliwal K K.Bidirectional recurrent neural networks[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.
[16] Cho K,van Merrienboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL].2014:arXiv:1406.1078[cs.CL].https://arxiv.org/abs/1406.1078
[17] Peters M E,Neumann M,Iyyer M,et al.Deep contextualized word representations[EB/OL].2018:arXiv:1802.05365[cs.CL].https://arxiv.org/abs/1802.05365
[18] 熊昕,陳曉輝,吳宇軒,等.基于改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)跌倒檢測(cè)算法[J].電腦編程技巧與維護(hù),2020(3):126-127,139.
【通聯(lián)編輯:唐一東】