馬乾力 魏偉航 趙錦成
摘 ?要: 手勢(shì)識(shí)別是當(dāng)前計(jì)算機(jī)視覺的一個(gè)重要研究課題,由于手勢(shì)旋轉(zhuǎn),角度等因素的影響,視頻手勢(shì)識(shí)別仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。該文提出了一種基于三維密集卷積神經(jīng)網(wǎng)絡(luò)和門限循環(huán)單元的雙通道手勢(shì)識(shí)別算法,通過三維密集卷積神經(jīng)網(wǎng)絡(luò)獲取手勢(shì)的空間信息,使用門限循環(huán)單元學(xué)習(xí)視頻中手勢(shì)的時(shí)序信息,最后融合RGB圖像和深度圖像的深度學(xué)習(xí)模型特征以此對(duì)手勢(shì)進(jìn)行識(shí)別。在ISOGD數(shù)據(jù)集上的實(shí)驗(yàn)表明,該手勢(shì)識(shí)別算法能夠有效提高了視頻手勢(shì)識(shí)別的準(zhǔn)確率。
關(guān)鍵詞: 手勢(shì)識(shí)別;三維密集卷積神經(jīng)網(wǎng)絡(luò);門限循環(huán)單元
中圖分類號(hào): TP183;TP391.4 ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.06.024
本文著錄格式:馬乾力,魏偉航,趙錦成,等. 三維循環(huán)密集卷積神經(jīng)網(wǎng)絡(luò)在視頻手勢(shì)識(shí)別的應(yīng)用[J]. 軟件,2019,40(6):109112
【Abstract】: Recent vedio gesture recognition is an important research topic in computer vision,which is an still a challenging task due to the influence of gesture rotation, angle and other factors. In this paper, a two-channel gesture recognition algorithm based on 3-D dense convolution neural network and threshold cycle module is proposed. We acquire the spatial information of gesture by 3-D dense convolution neural network,get the temporal information of gesture in video by gated recurrent unit, and the deep learning model features of RGB image and depth image are fused to recognize gesture.The experiments on ISOGD datasets show that this gesture recognition algorithm can effectively improve the accuracy of video gesture recognition.
【Key words】: Gesture recognition; 3-D dense convolution neural network; Gated recurrent unit
0 ?引言
手勢(shì)作為人類的一種常用身體語言,在日常生活中具有非常重要的作用,在現(xiàn)實(shí)中也有很多應(yīng)用場(chǎng)景,如人機(jī)交互、手語識(shí)別和虛擬現(xiàn)實(shí)等。傳統(tǒng)的手勢(shì)識(shí)別方案主要通過穿戴設(shè)備采集使用者的手勢(shì)信息,由計(jì)算機(jī)分析這些手勢(shì)信息作出手勢(shì)判別。這一類方案識(shí)別準(zhǔn)確度高,算法復(fù)雜度低,但使用時(shí)需要輔助設(shè)備,用戶體驗(yàn)差以至于難以推廣。隨著計(jì)算機(jī)視覺和深度學(xué)習(xí)的發(fā)展,基于圖像與視頻的手勢(shì)識(shí)別成為了目前手勢(shì)識(shí)別研究領(lǐng)域的重點(diǎn)研究方向。
基于視覺的手勢(shì)識(shí)別通過提取圖像或者視頻中的特征由分類器給出對(duì)應(yīng)的手勢(shì)標(biāo)簽。最早的基于視覺的手勢(shì)識(shí)別方法主要分三個(gè)階段:手勢(shì)形態(tài)分割、手勢(shì)特征提取和分類。其中手勢(shì)形態(tài)分割主要通過膚色特征進(jìn)行手勢(shì)分割[1],手勢(shì)特征提取階段使用SIFT特征、HOG特征或者各類統(tǒng)計(jì)量特征,分類階段常采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法,如隱馬爾可夫模型、支持向量機(jī)、有限狀態(tài)機(jī)和神經(jīng)網(wǎng)絡(luò)等。在2016年大型手勢(shì)識(shí)別挑戰(zhàn)中,基于神經(jīng)網(wǎng)絡(luò)的方法[2,3]在手勢(shì)檢測(cè)方面有了顯著提升,所以當(dāng)前比較流行的手勢(shì)識(shí)別方法大多采用深度學(xué)習(xí)算法。馬等人[4]結(jié)合了二維密集卷積網(wǎng)絡(luò)與空間轉(zhuǎn)換網(wǎng)絡(luò),空間轉(zhuǎn)換網(wǎng)絡(luò)能夠動(dòng)態(tài)地對(duì)輸入圖像進(jìn)行空間變換和對(duì)齊。不同于一般的圖像分類任務(wù),手勢(shì)通常是一個(gè)連續(xù)性的動(dòng)作,從一幅靜態(tài)圖像很難識(shí)別完整的手勢(shì)。因此,具有時(shí)間序列的手勢(shì)視頻具有更強(qiáng)的魯棒性,同時(shí)學(xué)習(xí)時(shí)序信息為手勢(shì)識(shí)別提供更多的有效特征。Zhu等人[5,6]使用三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)視頻進(jìn)行檢測(cè),這種策略使得網(wǎng)絡(luò)能夠從視頻中識(shí)別出人類的手勢(shì)。
本文提出了一種基于三維密集卷積神經(jīng)網(wǎng)絡(luò)[7,8]和門限循環(huán)單元[9]的雙通道手勢(shì)識(shí)別算法,如圖1所示,32幀RGB和深度視頻輸入經(jīng)過不同的預(yù)處理后,三維密集CNN用于從輸入視頻中提取短期空間特征,門限循環(huán)單元進(jìn)一步學(xué)習(xí)手勢(shì)的長(zhǎng)期時(shí)序特征,最后將基于RGB和深度視頻的網(wǎng)絡(luò)輸出進(jìn)行特征融合,通過全連接層得到最終預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果表明,該算法在視頻手勢(shì)識(shí)別上取得了很好的效果。
1 ?三維循環(huán)殘差卷積神經(jīng)網(wǎng)絡(luò)
1.1 ?預(yù)處理
深度網(wǎng)絡(luò)模型能通過大量的訓(xùn)練數(shù)據(jù)優(yōu)化出一個(gè)強(qiáng)分類器,但訓(xùn)練數(shù)據(jù)的噪聲、對(duì)比度小或圖像背景暗會(huì)降低模型的準(zhǔn)確性和魯棒性。在手勢(shì)識(shí)別任務(wù)中,也經(jīng)常對(duì)待測(cè)圖像使用一些圖像預(yù)處理方法。由圖1可知,本文對(duì)RGB和深度圖像采用了不同的預(yù)處理方法。
對(duì)RGB圖像進(jìn)行檢測(cè)時(shí),相同的手勢(shì)在不同的光照條件下會(huì)發(fā)生很大的變化,在可見度不高的情況下甚至?xí)挂恍┦謩?shì)無法識(shí)別,由此對(duì)RGB視頻采用了同態(tài)濾波進(jìn)行圖像增強(qiáng),同態(tài)濾波能夠在不損失圖象細(xì)節(jié)的前提下消除不均勻光照的影響。而深度數(shù)據(jù)是通過發(fā)射和接收紅外線得到,圖像表現(xiàn)接近于灰度圖像,圖像中的像素值代表了紅外傳感器與被測(cè)物體的實(shí)際距離。由于紅外傳感器會(huì)受光源或熱源等外部環(huán)境所影響,圖像中會(huì)產(chǎn)生噪聲和空洞,且邊緣深度值不穩(wěn)定。因此本文中對(duì)輸入的深度視頻采用中值濾波進(jìn)行預(yù)處理,中值濾波能夠有效抑制圖像中的椒鹽噪聲,減小甚至去除一些圖像空洞,并對(duì)圖像邊緣部分有一定的增強(qiáng)作用。