摘 要:動(dòng)態(tài)手勢(shì)序列傳遞的信息同時(shí)存在于空間域和時(shí)間域范圍,與僅包含空間域信息的靜態(tài)圖像相比更加復(fù)雜。因此,提取有效的手勢(shì)特征,捕獲手勢(shì)序列時(shí)空上下文所表達(dá)的信息是識(shí)別手勢(shì)的關(guān)鍵步驟。有效手勢(shì)特征應(yīng)當(dāng)具有健壯性、泛用性、緊湊性、簡(jiǎn)潔性、易于實(shí)現(xiàn)等特點(diǎn),減少冗余信息以避免后續(xù)算法發(fā)生過(guò)擬合,突出不同手勢(shì)類別類間差異、減少相同手勢(shì)類別類內(nèi)差異,以降低后續(xù)算法的回歸、分類難度。然而,目前還沒(méi)有能夠完全滿足上述特點(diǎn)的描述方法。因此,如何選取并組合手勢(shì)時(shí)空上下文的描述特征依然是手勢(shì)檢測(cè)識(shí)別方法中具有挑戰(zhàn)性的問(wèn)題。
關(guān)鍵詞:手勢(shì)識(shí)別;計(jì)算機(jī)視覺(jué);特征提取
一、研究背景與意義
在人機(jī)交互領(lǐng)域中,人體手勢(shì)檢測(cè)識(shí)別是重要的研究方向之一,其研究目標(biāo)可概括為解釋特定上下文場(chǎng)景中人類行為所表達(dá)的意義。這些行為包括身體整體的運(yùn)動(dòng),也包括身體部件的局部運(yùn)動(dòng),例如軀干、腿部、手臂、手部、頭部的運(yùn)動(dòng)。其中,基于視覺(jué)的手勢(shì)識(shí)別方法是最為自然和符合人類直覺(jué)的方法之一,能夠?yàn)橛脩籼峁┮环N非侵入性的交互方式,在無(wú)法進(jìn)行物理接觸或聲音難以傳達(dá)的交互場(chǎng)景中起到尤為重要的作用,因此受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
在手語(yǔ)翻譯領(lǐng)域中,計(jì)算機(jī)能夠通過(guò)手勢(shì)檢測(cè)識(shí)別技術(shù)理解動(dòng)態(tài)人體手勢(shì)傳遞的信息,進(jìn)一步通過(guò)翻譯技術(shù)將信息翻譯為不同種類的文字或語(yǔ)音,幫助聽(tīng)力受損或語(yǔ)言障礙人群進(jìn)行溝通交流,或幫助有學(xué)習(xí)能力障礙的人群與計(jì)算機(jī)交互。
基于計(jì)算機(jī)視覺(jué)的手勢(shì)檢測(cè)識(shí)別技術(shù)也存在巨大的學(xué)術(shù)價(jià)值,其方法涉及到多個(gè)基礎(chǔ)研究領(lǐng)域,包括計(jì)算機(jī)圖形學(xué)、信號(hào)處理、模式識(shí)別、人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等等,能夠起到促進(jìn)相應(yīng)學(xué)科理論研究的作用。
二、關(guān)鍵手勢(shì)特征描述與識(shí)別技術(shù)
(一)空間特征提取方式
針對(duì)2D手形表示的構(gòu)建問(wèn)題,本章提出了一種基于Fisher向量編碼方法的2D手形表示,該方法從分割出的人手二值圖像中為手的每個(gè)輪廓點(diǎn)提取三種幾何特征,包括距離、角度和曲率,這些幾何特征的組合構(gòu)成一個(gè)局部描述子,然后使用Fisher向量編碼方法對(duì)所有的局部描述子進(jìn)行編碼,從而得到整個(gè)2D手形的Fisher向量表示。靜態(tài)手勢(shì)識(shí)別方法的框架圖如圖1所示。
(二)手部重要特征點(diǎn)檢測(cè)
為了提取本章所提出的三類幾何特征,需要先獲取手部一些重要的特征點(diǎn),包括人手邊界點(diǎn)、手掌中心、整個(gè)人手中心以及邊界點(diǎn)中心。本章使用Canny邊緣檢測(cè)器提取人手邊界點(diǎn),并且剔除掉手腕線上的邊界點(diǎn),因?yàn)樗鼈儗?duì)不同的2D手形不具有判別性。所有的邊界點(diǎn)構(gòu)成一個(gè)集合,記為B,后面將會(huì)為每個(gè)邊界點(diǎn)計(jì)算一個(gè)局部描述符。由于手部邊界噪聲的存在,通過(guò)歐式距離變換獲取的粗略的手掌中心與真實(shí)的手掌中心之間的位置偏差可能較大,本章采用一種迭代腐蝕方法對(duì)手掌中心重新進(jìn)行估計(jì)。
三、視頻中手部特征點(diǎn)的檢測(cè)與跟蹤
在對(duì)手部特征點(diǎn)進(jìn)行檢測(cè)與跟蹤的過(guò)程中需要對(duì)人手進(jìn)行檢測(cè)與跟蹤,而對(duì)手部特征點(diǎn)的檢測(cè)與跟蹤又有助于對(duì)人手進(jìn)行檢測(cè)與跟蹤,即二者是相輔相成的。
對(duì)于RGB視頻而言,在最開(kāi)始的幾幀中,使用一個(gè)已經(jīng)訓(xùn)練好的人手檢測(cè)器來(lái)對(duì)人手進(jìn)行定位。在本章中使用Harr-like特征訓(xùn)練一個(gè)人手分類器用于實(shí)時(shí)的人手檢測(cè)。對(duì)深度視頻而言,可以直接使用深度閾值濾波方法對(duì)人手進(jìn)行定位。當(dāng)檢測(cè)到人手的移動(dòng)距離超過(guò)某個(gè)閾值時(shí),一個(gè)動(dòng)態(tài)手勢(shì)被認(rèn)定為開(kāi)始被執(zhí)行。然后采用稀疏光流法對(duì)人手進(jìn)行跟蹤,并同時(shí)對(duì)手部特征點(diǎn)進(jìn)行檢測(cè)與跟蹤。
同樣,在跟蹤的過(guò)程中如果發(fā)現(xiàn)連續(xù)多幀中人手的移動(dòng)距離小于某個(gè)閾值,則認(rèn)為該動(dòng)態(tài)手勢(shì)已經(jīng)結(jié)束了。為了表述方便,后續(xù)章節(jié)中默認(rèn)已經(jīng)獲得了分割好的動(dòng)態(tài)手勢(shì)視頻。對(duì)于每幀中得到的人手跟蹤結(jié)果,即包含人手的包圍框(Bounding Box),需要進(jìn)一步進(jìn)行人手分割處理,以消除背景區(qū)域的影響。由于不需要獲得精確的人手分割結(jié)果,對(duì)于RGB視頻,然后,在分割得到的手部區(qū)域中提取特征點(diǎn)(將特征點(diǎn)的集合記為S1t,其中t表示當(dāng)前幀的索引)并計(jì)算它們的光流,用于對(duì)特征點(diǎn)和人手進(jìn)行跟蹤。本章使用FAST角點(diǎn)作為特征點(diǎn),因?yàn)镕AST角點(diǎn)具有較高的計(jì)算效率,并使用金字塔(Pyramid)Lucas-Kanade算法計(jì)算特征點(diǎn)的光流。由于分割得到的手部區(qū)域中可能含有背景區(qū)域,比如與人手相連的膚色類背景區(qū)域,一些特征點(diǎn)也可能會(huì)位于背景區(qū)域,需要對(duì)它們進(jìn)行過(guò)濾。
上述所提出方法的核心創(chuàng)新點(diǎn)在于根據(jù)動(dòng)態(tài)手勢(shì)中所包含的時(shí)空信息提取具有代表性的局部描述符,即為手部興趣點(diǎn)(包括視頻數(shù)據(jù)中手部區(qū)域的特征點(diǎn)或3D骨架序列中手部關(guān)節(jié)點(diǎn))計(jì)算局部描述符,并采用特征協(xié)方差矩陣編碼方法對(duì)所有的局部描述符進(jìn)行融合,獲得一個(gè)緊湊的動(dòng)態(tài)手勢(shì)表示。
四、總結(jié)
手勢(shì)識(shí)別用于對(duì)手勢(shì)進(jìn)行分類,手勢(shì)估計(jì)用于對(duì)手部關(guān)節(jié)點(diǎn)的位置進(jìn)行估計(jì),而手勢(shì)認(rèn)證用于對(duì)用戶的身份進(jìn)行認(rèn)證,它們彼此之間聯(lián)系緊密,是基于視覺(jué)的非接觸式手勢(shì)交互中的關(guān)鍵技術(shù)。本文的研究工作圍繞基于視覺(jué)的手勢(shì)識(shí)別、估計(jì)與認(rèn)證展開(kāi),研究的內(nèi)容包括:面向RGB或深度圖像的靜態(tài)手勢(shì)識(shí)別方法;面向RGB或深度視頻以及3D人手骨架序列的動(dòng)態(tài)手勢(shì)別方法;面向單張深度圖像的3D手勢(shì)估計(jì)方法;面向RGB視頻的動(dòng)態(tài)手勢(shì)認(rèn)證方法。然后使用協(xié)方差矩陣編碼方法對(duì)所有的局部描述符進(jìn)行編碼,獲取整個(gè)動(dòng)態(tài)手勢(shì)的特征協(xié)方差矩陣描述符,由于特征協(xié)方差矩陣構(gòu)成一個(gè)黎曼流形,無(wú)法使用歐式空間的度量方式進(jìn)行分析,需要使用矩陣對(duì)數(shù)操作將特征協(xié)方差矩陣映射到歐式空間中,獲得相應(yīng)的對(duì)數(shù)協(xié)方差矩陣表示。
參考文獻(xiàn):
[1]夏晨星,陳欣雨,孫延光,等.集成多種上下文與混合交互的顯著性目標(biāo)檢測(cè)[J/OL].電子與信息學(xué)。
[2]劉永濤,劉永杰,孫斐然,等.基于深度學(xué)習(xí)的交警動(dòng)態(tài)手勢(shì)檢測(cè)與識(shí)別方法研究[J/OL].武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版):1-7[2024-06-27].