趙瑛 王冬暉 李琦 于愛萍 谷宇
摘? 要: 針對仿真假體視覺下彩色圖像和深度圖像對于手勢識別的不同效果,研究使用Kinect獲取彩色圖像以及深度圖像進行手勢識別。通過Kinect提取的骨骼信息與提取的深度圖像結(jié)合,將人體與背景圖像分離,對OpenCV庫分離后的圖像進行降噪,并進行像素化處理。在不同分辨率(32×32,48×48,64×64)下進行彩色圖像和深度圖像的手勢識別實驗。實驗結(jié)果表明,隨著分辨率的增加,手勢識別的準(zhǔn)確率也不斷增加。同一分辨率下,深度圖像下的手勢識別率總體高于彩色圖像下的手勢識別率,且在32×32分辨率下,二者差異顯著。
關(guān)鍵詞: 視覺假體; 手勢識別; 深度圖像; 骨骼信息; 圖像降噪; 像素化處理
中圖分類號: TN911.73?34; TP301.6? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)16?0131?05
0? 引? 言
人類獲取外界信息大部分依靠眼睛,視覺通路的任何一部分受損或病變都會導(dǎo)致失明[1]。對于視力殘疾者而言,視覺的部分或者全部喪失對于他們的日常生活都有著無法言說的痛苦。然而,視覺假體能夠為如視網(wǎng)膜色素變性(Retinitis Pigmentosa, RP)和老年黃斑變性(Age?related Macular Degeneration, AMD)等眼類疾病提供一種可行性的視覺代替方案,為盲人重見光明帶來希望[2]。
視覺假體利用盲人殘存的部分完整且結(jié)構(gòu)和功能完好的視覺通路,通過人工進行電刺激誘發(fā)“光幻視”使盲人產(chǎn)生部分視覺感受[3]。目前研究主要集中在人工視網(wǎng)膜的設(shè)計,被植入的位置更臨近于中央視覺區(qū)引起視覺感知的中央凹,而最有效的配置電極的位置和數(shù)量仍然是未知的;并且,植入人體刺激電極的數(shù)量需要嚴(yán)格限制,需要確定以最小視覺需求實現(xiàn)有用的人工視覺圖像識別[4]。所以,通過正常視力的被試者參與仿真假體視覺下的實驗來評估所給電極陣列的潛在益處能夠為臨床研究提供有益的幫助。同時,從心理物理學(xué)和行為學(xué)研究方式上來看,對于假體植入者而言,假體需要滿足其最基本的生活需求,比如辨物、尋路、避障、文字閱讀等,手勢識別則屬于此類基本需求之一。仿真假體視覺下的手勢識別有利于模擬假體植入者的視覺感受。
手勢識別經(jīng)歷了不同的發(fā)展階段,最初的識別研究主要通過人手佩戴特有的硬件設(shè)備,如數(shù)據(jù)手套來獲取人的手部位置、伸展情況等信息,從而進行手勢定位、跟蹤與識別[5]。目前,手勢識別[6?7]主要使用的是基于計算機視覺[8]的方法,即直接利用攝像機等圖像采集設(shè)備采集手勢,通過對采集的圖像或視頻處理進而獲得手勢并對其進行識別。普通彩色攝像頭在家庭生活中的普及,使得基于彩色圖像的手勢識別得到了較大發(fā)展,并取得了許多很好的研究成果。但由于彩色圖像[9]易受光照強度、色度大小以及陰影環(huán)境等因素的影響,且采集的圖像所處環(huán)境一般較復(fù)雜,因此手勢的分割[10]及特征提取是識別靜態(tài)手勢的難點。隨著攝像技術(shù)的發(fā)展,3D攝像頭通過計算光的飛行時間獲取物體深度信息。而物體深度信息,可以方便地將場景進行前景與背景分離,在人手定位與追蹤方面有一定的優(yōu)勢。微軟公司研發(fā)了一款體感外接設(shè)備Kinect[11?12],它能同時獲取彩色圖像和深度圖像,其中深度圖像包含物體在空間的三維信息,且不易受到其他干擾因素的影響,很好地解決了彩色圖像在計算機視覺研究中的一些問題。陳建軍基于Kinect獲取的深度信息進行手勢分割[13],然后利用動態(tài)時間規(guī)整算法(DTW)[14?15]并結(jié)合靜態(tài)手勢的識別,提出來一種動態(tài)手勢識別方法。毛雁明等人基于手勢深度圖,提出一種新的手勢識別方法——掃描線法[16]。
本文主要通過Kinect獲取深度圖像,進行仿真假體視覺下的手勢識別試驗,探討了仿真假體視覺下基于彩色圖像和基于深度圖像的手勢識別情況。
1? 深度圖像及骨骼圖像獲取與處理
1.1? 深度圖像及骨骼圖像獲取
Kinect V2采用了Time of Flight(TOF)技術(shù)[17],基本原理是通過連續(xù)發(fā)射光脈沖(一般為不可見光)到被觀測物體上,然后接收從物體反射回去的光脈沖,通過探測光脈沖的飛行(往返)時間來計算被測物體離相機的距離。
Kinect V2通過從投射的紅外線脈沖發(fā)射和接收的時間差來獲得深度信息。脈沖調(diào)制方案的照射光源一般采用方波脈沖調(diào)制,以利于數(shù)字電路的實現(xiàn)。
相機上的控制單元先打開光源后再關(guān)閉,發(fā)出一個光脈沖。與此同時,控制單元相繼打開和關(guān)閉接收端的電子快門,接收端接收到的電荷被存儲在感光元件中。然后,控制單元再次打開和關(guān)閉光源。這次快門在光源被關(guān)閉的時間點打開,新接收到的電荷也被存儲起來。
由于單個光脈沖的持續(xù)時間十分短暫,該過程會重復(fù)幾千次,直到達(dá)到曝光時間。然后讀出感光傳感器中的值,根據(jù)這些值來計算實際距離。記光的速度為c,光脈沖的持續(xù)時間為tp,較早的快門收集的電荷為S0,延遲的快門收集的電荷為S1,那么距離d可以表示為:
[d=c2·tp·S1S0+S1] (1)
Kinect V2將偵測到的3D深度圖像轉(zhuǎn)換到骨架追蹤系統(tǒng)[18]。骨骼追蹤技術(shù)通過處理深度數(shù)據(jù)來建立人體各個關(guān)節(jié)(在Kinect中使用25個關(guān)節(jié)點)的坐標(biāo),骨骼追蹤能夠確定人體的各個部位,如頭部、手、身體等,還能確定他們所在的位置。
被試的各關(guān)節(jié)點位置用(x,y,z)坐標(biāo)表示,且骨架空間坐標(biāo)的坐標(biāo)單位是m。坐標(biāo)軸x,y,z對應(yīng)深度感應(yīng)器實體的空間x,y,z坐標(biāo)軸。坐標(biāo)系屬于右手螺旋系,Kinect感應(yīng)器處于原點上,z坐標(biāo)軸則與Kinect感應(yīng)的朝向一致;y軸正半軸向上延伸,x軸正半軸(從Kinect感應(yīng)器的視角來看)向左延伸,如圖1所示。為了方便討論,稱這些坐標(biāo)的表述為骨架空間(坐標(biāo))。
1.2? 手勢圖像處理
本文主要通過將Kinect獲取的3D深度圖像轉(zhuǎn)換到Kinect骨架追蹤系統(tǒng),從而生成對應(yīng)的骨骼圖像后與深度圖像結(jié)合,從而實現(xiàn)人體與背景分離。然后使用開源計算機視覺庫OpenCV對分離了背景之后的圖像進行二值化處理、降噪處理以及像素化處理后,生成像素化圖像,供被試識別。具體流程如圖2所示。
2? 實驗過程
2.1? 被試的選取
被試為來自內(nèi)蒙古科技大學(xué)的學(xué)生志愿者,年齡范圍為20~25歲,實驗共有20位被試,男女比例為1∶1。所有的被試視力或矯正后視力正常,母語均為漢語。實驗進行前,所有被試需了解實驗?zāi)康募斑^程,并承諾認(rèn)真完成實驗。正式實驗前,被試需要在實驗員的指導(dǎo)下對環(huán)境進行適應(yīng)和熟悉,并且在理解實驗內(nèi)容后開始實驗。在此期間,實驗員將會對被試進行實驗解說。
2.2? 實驗設(shè)備及方法
實驗設(shè)備由一臺戴爾電腦、網(wǎng)絡(luò)攝像頭以及待識別視頻組成。本實驗中,20名被試分別進行分辨率由低到高(32×32,48×48,64×64三種分辨率)的手勢識別實驗,考察被試在手勢識別過程中的識別準(zhǔn)確率等實驗標(biāo)準(zhǔn)。實驗在一間沒有噪音干擾、光線良好的實驗室中進行,實驗前確保被試者不受外界干擾,保持放松。
2.3? 實驗素材庫構(gòu)建
構(gòu)建實驗素材庫,選取共計36個手勢姿勢。其中包括0~9十個數(shù)字手勢姿勢,A~Z二十六個字母手勢姿勢。實驗員在錄制視頻時手部位置應(yīng)位于Kinect攝像頭50 cm以外,同時避免其他因素的干擾。由于數(shù)字手勢需要被試直接認(rèn)識告知實驗員其看到的數(shù)字即可,故數(shù)字手勢0~9十個數(shù)字在同一視頻內(nèi),每個數(shù)字出現(xiàn)時間約為5 s。字母手勢則需要被試辨認(rèn)并擺出相應(yīng)的手勢,故字母手勢A~Z二十六個字母每個字母出現(xiàn)時間約為15 s,且為了避免視覺疲勞,每個字母手勢單獨錄制。視頻分別在彩色圖像和深度圖像下采用32×32,48×48,64×64三個分辨率進行錄制。
2.4? 實驗步驟
2.4.1? 0~9數(shù)字手勢識別
首先,被試需要進行訓(xùn)練,能夠清楚地認(rèn)知手勢0~9的正確擺法;其次,經(jīng)由實驗員講解,被試應(yīng)對像素化后的手部位置有所判斷。在此之后開始進行正式試驗。
實驗員選取32×32分辨率的彩色圖像數(shù)字視頻。視頻包括經(jīng)由像素化處理后的0~9十個數(shù)字,且這10個數(shù)字是隨機選取的且不重復(fù)。被試通過在視頻播放過程中出現(xiàn)的數(shù)字識別并告知實驗員,實驗員記錄實驗數(shù)據(jù)。其次,只改變分辨率,其余條件與第一次實驗一致,在48×48,64×64分辨率的情況下進行實驗。最后,采用深度圖像數(shù)字視頻,實驗條件與第一次實驗完全相同,分別在32×32,48×48,64×64的分辨率下進行實驗。
2.4.2? A~Z字母手勢識別
本實驗中判斷被試是否辨認(rèn)出手勢的方法是讓被試做出自己所能看到的手勢,如果與手勢庫中的相同就算識別正確,反之,與其不同或者是被試自己表示無法辨認(rèn)出來就算辨認(rèn)失敗。先選取一張正常字母手勢圖像由被試識別并能夠自己做出自己所看到的手勢。在此之后進行正式試驗,首先,實驗員選取32×32分辨率的彩色圖像字母視頻。視頻包括經(jīng)由像素化處理后的A~Z二十六個字母,這26個字母是隨機選取的且不重復(fù)。被試通過識別在視頻播放過程中出現(xiàn)的字母并做出自己看到的手勢。實驗員判斷被試做出的手勢正誤,并記錄。其次,采用32×32分辨率的深度圖像字母視頻進行實驗,其余條件與第一次實驗一致。最后,在48×48,64×64分辨率的情況下進行實驗,其余條件與第一次實驗一致。為了避免學(xué)習(xí)效應(yīng),在字母識別中,同一分辨率下的彩色圖像視頻與深度圖像視頻先給被試觀看的次序是交替的,即有10組被試先看彩色圖像視頻,10組被試先看深度圖像視頻。
3? 實驗結(jié)果及討論
3.1? 不同分辨率下手勢識別率分析
圖3顯示了不同分辨率下彩色圖像和深度圖像數(shù)字手勢識別率。由圖可以看出,經(jīng)由彩色圖像和深度圖像生成的像素化手勢圖像的識別率隨著分辨率的提高而提高。其中,數(shù)字手勢圖像在48×48,64×64兩種分辨率下的識別率幾乎接近于100%;識別率較低的數(shù)字有7和9,這兩個數(shù)字在一定程度上會被誤認(rèn)為0和1。且由獨立樣本t檢驗得知不同分辨率之間不具有顯著性差異。
圖4為64×64分辨率下基于深度圖像生成的像素化數(shù)字圖像。由圖可以看出,數(shù)字0幾乎為全握拳狀態(tài),數(shù)字7屬于半握拳狀態(tài),數(shù)字7易被認(rèn)為數(shù)字0;數(shù)字1和數(shù)字9的差別在于數(shù)字9的食指是彎回的,不仔細(xì)辨認(rèn)很容易誤認(rèn)為數(shù)字1。
圖5顯示了不同分辨率下彩色圖像和深度圖像字母手勢識別率。由圖可以看出,經(jīng)由彩色圖像和深度圖像生成的像素化手勢圖像的識別率隨著分辨率的提高而提高。其中,字母手勢圖像在64×64分辨率下的識別率幾乎接近于100%;識別率較低的字母有K,Q,X;幾乎不可辨認(rèn)的有字母M,N。
如圖6a)、圖6b)所示,二者分別為32×32分辨率下基于深度圖像生成的像素化字母圖像。由圖可以判斷該分辨率下T和V都是有兩根手指處于伸直狀態(tài),字母T較為容易認(rèn)出是食指和小指處于伸直狀態(tài);而字母V則容易判斷為是食指和中指或者食指和無名指處于伸直狀態(tài),甚至?xí)妥帜窽混淆;圖6c)、圖6d)二者分別為64×64分辨率下基于深度圖像生成的像素化字母圖像,兩幅圖可以清楚地辨認(rèn)出字母T和V的手勢。
3.2? 同一分辨率下彩色圖像與深度圖像手勢識別率分析
圖7為同一分辨率下彩色圖像與深度圖像數(shù)字識別率對比,由圖像可以直接看出同一分辨率下深度圖像數(shù)字識別率要高于彩色圖像數(shù)字識別率。32×32 分辨率下,采用成對樣本t檢驗,求得sig=0.028
圖8為同一分辨率下彩色圖像與深度圖像字母識別率對比,由圖像可以直接看出同一分辨率下深度圖像數(shù)字識別率要高于彩色圖像數(shù)字識別率。32×32 分辨率下,采用成對樣本t檢驗,求得sig=0.00
4? 結(jié)? 語
隨著分辨率的不斷增加,仿真假體視覺下彩色圖像和深度圖像的手勢識別率隨分辨率增加而逐漸增加,且從32×32 到48×48增長速度較快,從48×48到64×64增長速度略微緩慢。在32×32分辨率下,彩色圖像和深度圖像下的手勢識別率具有顯著性差異。隨著分辨率的增加,像素化后的手勢圖像信息更為清晰,此時二者之間的差異并不顯著。
對于仿真假體視覺下手勢識別的研究,由于獲取的圖像僅進行了人體與背景分離,當(dāng)人體與手部位置重合時容易造成手部信息缺失,從而無法正確識別手勢。當(dāng)手指相互貼合時可能會造成識別誤差,無法正確區(qū)分手指所屬部位。在之后的研究過程中,進一步改善仿真假體視覺下手勢的細(xì)節(jié)信息,并且通過對深度圖像灰度級的進一步分層,同時通過骨骼圖的關(guān)節(jié)點實現(xiàn)人體與手部分離,使呈現(xiàn)的圖像只具有手部特征從而更容易識別手勢。這些將在后續(xù)的工作中進一步探究。本研究的結(jié)果也可為仿真假體視覺下連續(xù)手語的識別提供一種可行方案。
參考文獻(xiàn)
[1] 李春勇.CFH,C2,C3,CFB,SERPING1基因與老年黃斑變性相關(guān)性的研究[D].成都:四川師范大學(xué),2010.
LI Chunyong. CFH, C2, C3, CFB, SERPING1 Study on the relationship between genes and age?related macular degeneration [D]. Chengdu: Sichuan Normal University, 2010.
[2] KAWASHIMA Y, OISHI A, TSUJIKAWA A, et al. Effects of afliberceptfor ranibizumab?resistant neovascular age?related macular degeneration and polypoidal choroidal vasculopathy [J]. Graefes archive for clinical & experimental ophthalmology, 2015, 253(9): 1471?1477.
[3] 趙瑛.視覺假體最小信息需求研究[D].上海:上海交通大學(xué),2010.
ZHAO Ying. Minimum requirements for visual prosthesis to restore useful vision [D]. Shanghai: Shanghai Jiao Tong University, 2010.
[4] MAYNARD E M. Visual prostheses [J]. Annual review of biomedical engineering, 2001, 3: 145?168.
[5] 陳皓,路海明.基于深度圖像的手勢識別綜述[J].內(nèi)蒙古大學(xué)學(xué)報(自然科學(xué)版),2014(1):105?111.
CHEN Hao, LU Haiming. A survey of gesture recognition based on depth image [J]. Journal of Inner Mongolia University (Natural science edition), 2014(1): 105?111.
[6] 于澤升,崔文華,史添瑋.基于Kinect手勢識別的應(yīng)用與研究[J].計算機科學(xué),2016(z2):568?571.
YU Zesheng, CUI Wenhua, SHI Tianwei. Application and research on gesture recognition by kinect sensors [J]. Computer science, 2016(S2): 568?571.
[7] 崔家禮,解威,王一丁,等.基于自適應(yīng)手指分割與判別的靜態(tài)手勢識別[J].計算機應(yīng)用與軟件,2016(10):181?186.
CUI Jiali, XIE Wei, WANG Yiding, et al. Static gesture recognition based on adaptive segmentation and discrimination offingers [J]. Computer? applications and software, 2016(10): 181?186.
[8] 關(guān)然,徐向民,羅雅愉,等.基于計算機視覺的手勢檢測識別技術(shù)[J].計算機應(yīng)用與軟件,2013(1):155?159.
GUAN Ran, XU Xiangmin, LUO Yayu,et al. A Computer vision?based gesture detection and recognition technique [J]. Computer applications and software, 2013(1): 155?159.
[9] 康曉東,王昊,郭軍,等.無監(jiān)督深度學(xué)習(xí)彩色圖像識別方法[J].計算機應(yīng)用,2015(9):2636?2639.
KANG Xiaodong, WANG Hao, GUO Jun, et al. Unsupervised deep learning method for color image recognition [J]. Journal of computer applications, 2015(9): 2636?2639.
[10] 莫舒.基于視覺的手勢分割算法的研究[D].廣州:華南理工大學(xué),2012.
MO Shu. Hand gesture segmentation algorithm basedonvision [D]. Guangzhou: South China University of Technology, 2012.
[11] 王松林.基于Kinect的手勢識別與機器人控制技術(shù)研究[D].北京:北京交通大學(xué),2014.
WANG Songlin. Research on gesture recognition and robot control technology based on Kinect [D]. Beijing: Beijing Jiaotong University, 2014.
[12] 陳一新.基于Kinect的手勢識別技術(shù)在人機交互中 的應(yīng)用研究[D].成都:西南交通大學(xué),2015.
CHEN Yixin. Research on the application of gesture recognition technology based on Kinect in human?computer interaction [D]. Chengdu: Southwest Jiaotong University, 2015.
[13] 陳建軍.基于Kinect手勢識別的網(wǎng)頁控制軟件設(shè)計[D].太原:太原理工大學(xué),2015.
CHEN Jianjun. Design of Web control software based on Kinect gesture recognition [D]. Taiyuan: Taiyuan University of Technology, 2015.
[14] 劉賢梅,趙丹,郝愛民.基于優(yōu)化的DTW算法的人體運動數(shù)檢索[J].模式識別與人工智能,2012,25(2):352?360.
LIU Xianmei, ZHAO Dan, HAO Aimin. Human motion data retrieval based on dynamic time warping optimization algorithm [J]. Pattern recognition and artificial intelligence, 2012, 25(2): 352?360.
[15] 余超,關(guān)勝曉.基于TLD和DTW的動態(tài)手勢跟蹤識[J].計算機系統(tǒng)應(yīng)用,2015,24(10):148?154.
YU Chao, GUAN Shengxiao. Dynamic hand gesture tracking and recognition based on TLD and DTW [J]. Computer systems & applications, 2015, 24(10): 148?154.
[16] 毛雁明,章立亮.基于Kinect深度信息的手勢分割與識別[J].系統(tǒng)仿真學(xué)報,2015,27(4):830?835.
MAO Yanming, ZHANG Liliang. Gesture segmentation and recognition based on Kinect depth data [J]. Journal of system simulation, 2015, 27(4): 830?835.
[17] SONG W, LE A V, YUN S, et al. Depth completion for Kinect V2 sensor [J]. Multimedia tools & applications, 2017, 76(3): 4357?4380.
[18] 丁晨,王君澤,瞿暢,等.Kinect體感交互技術(shù)及其在醫(yī)療康復(fù)領(lǐng)域的應(yīng)用[J].中國康復(fù)理論與實踐,2013(2):136?138.
DING Chen, WANG Junze, QU Chang, et al. Kinect somatosensory interaction technology and its application in medical rehabilitation [J]. Chinese journal of rehabilitation theory and practice, 2013(2): 136?138.