王曉琳
[摘要]隨著數(shù)字媒體技術的廣泛應用及飛速發(fā)展,人們希望能夠更有效更自然地與計算機進行交流。雖然新的硬件和應用領域不斷涌現(xiàn),而人們熟悉和熟練掌握的人機交互方式仍然局限于鍵盤、鼠標等,但它們限制了人機交流的速度和自然性?;谝曈X的手勢識別就成為了實現(xiàn)新一代人機交互不可缺少的一項關鍵技術。借助計算機視覺,數(shù)字圖像處理,模式識別等理論與技術,使得計算機通過視覺通道(攝像機)正確感知輸入的手勢語,同時作出用戶所需要的響應,以實現(xiàn)自然的人機交互。
[關鍵詞]人機交互手勢跟蹤手勢分割手勢識別
中圖分類號:TP3文獻標識碼:A文章編號:1671—7597(2009)1010032—01
一、緒論
人與計算機的交互活動越來越成為人們日常生活的一個重要組成部分。人類交互往往聲情并茂,除了采用自然語言(口語、書面語言)外,人體語言(表情、體勢、手勢)也是人類交互的基本方式之一。與人類交互相比,人機交互就呆板得多。手勢是由手形動作輔之以表情姿勢而構成的比較穩(wěn)定的表達系統(tǒng),是一種靠動作和視覺進行交際的特殊語言,它還是一種包含信息量最多的人體語言,它與語言及書面語等自然語言的表達能力相同,因而在人機交互方面,手勢完全可以作為一種手段,而且具有很強的視覺效果,它生動、形象、直觀?;谝曈X的手勢交互是一個極富挑戰(zhàn)性的多學科交叉研究課題。
二、基于視覺的手勢識別基本原理簡介
一個基于視覺的手勢識別系統(tǒng)一般有以下幾部分構成:首先通過一個或多個攝像機獲取視頻數(shù)據(jù)流,接著系統(tǒng)根據(jù)手勢輸入的交互模型檢測數(shù)據(jù)流里是否有手勢出現(xiàn),如果有則把該手勢從視頻信號中切分出來。然后選擇手勢模型進行手勢分析,分析過程包括特征檢測和模型參數(shù)估計。在識別階段,根據(jù)模型參數(shù)對手勢進行分類并根據(jù)需要生成手勢描述,最后系統(tǒng)根據(jù)生成的描述驅動具體應用。近年來,手勢逐漸成為HCI中一種新穎的交互手段。手勢識別的解決方法對于表情識別、唇讀、步態(tài)識別、時空紋理分類、視覺導航、圖像拼接和幕于內容的視頻檢索等研究都有直接推廣的意義。
三、手勢熾別各步驟方法和實現(xiàn)
(一)系統(tǒng)硬件平臺。本系統(tǒng)設計采用硬件為PC機一臺,普通的網(wǎng)絡攝像頭一個。其中Pc機的配置:CPU為Intel P4 2.8GHz,IG內存;網(wǎng)絡攝像頭為現(xiàn)代H103G網(wǎng)絡攝像頭。
(二)系統(tǒng)軟件平臺。本系統(tǒng)采用c/c++語言編寫界面和算法,開發(fā)平臺使用微軟的Visual c++6.0,另外,由于本系統(tǒng)是視覺系統(tǒng),因此采用了英特爾公司開發(fā)的計算機視覺開源庫OpenCV。本系統(tǒng)采用c/c++語言進行代碼編寫,最終生成可執(zhí)行文件,實現(xiàn)6個手勢的識別,并用6個手勢進行簡單的人機交互。
(三)攝像頭視頻讀入。由于采用openCV進行系統(tǒng)開發(fā),攝像頭視頻讀入部分也變得非常容易,只要調用其指定函數(shù),建立顯示窗口,并正確安裝攝像頭驅動程序。啟動程序后,從網(wǎng)絡攝像頭讀入的實時視頻就很方便的從攝像頭讀入,并顯示在窗口中。
(四)手勢定位。手勢定位一般有兩類方法,即基于運動信息的定位方法和基于顏色信息的定位方法。
1,運動檢測。運動檢測的目的是從序列圖像中將變化區(qū)域從背景圖像中提取出來。由于背景圖像的動態(tài)變化,如天氣、光照及影子等的影響,使得運動檢測成為一項相當困難的工作。
2,膚色檢測。由于僅采用運動檢測法不能較好地定位手勢的位置,需要引入膚色檢測法定位手的位置。HSV色度空間是孟塞爾色彩空間的簡化形式,是以色彩的色調(H),飽和度(s),亮度(v)為三要素來表示的?;贖SV顏色模型的膚色檢測算法采用H分量檢測膚色,在H分量中的膚色具有較好的聚集性,和其他顏色距離較大,易于與其他顏色區(qū)別和分離,并且受光照影響小,計算量小,實時性很高。實驗表明,采用本方法定位和檢測手勢區(qū)域,計算量小,定位快速,在一定條件下也比較準確。
(五)手勢跟蹤。在基于視覺的手勢分析中,手勢跟蹤是一個關鍵環(huán)節(jié)。實驗表明,結合Camshift算法和KMman濾波能實時、準確地跟蹤手勢,能有效地處理人臉干擾和手勢部分被遮擋等問題,為下一步的手勢識別作準備。通過以上改進CamShift算法對攝像頭讀入的視頻序列作膚色跟蹤,得到膚色的反向概率投影圖。
(六)手勢分割。計算機手勢識別是計算機視覺領域和數(shù)字圖象處理領域一個迅速發(fā)展的重要的方向,它是計算機在人手運動時由攝像機采集到的序列圖像中分割出人手來完成手勢的識別工作。
本文采用基于自適應閾值的動態(tài)手勢分割,將從CamShift算法輸出的反向膚色概率投影圖做一系列形態(tài)學處理,如模糊,膨脹,腐蝕等,最后做二值化,使輸出為良好的分割結果二值圖。
(七)手勢識別。手勢圖像經(jīng)過二值化處理后,提取手勢圖像的幾何矩特征,取出幾何矩特征7個特征分量中的4個分量,形成手勢的幾何矩特征向量。
本系統(tǒng)具體的做法是:計算每種手勢的4個矩不變量,并作為模板,在視頻讀入時,對待識別手勢計算4個矩不變量,和模板比較其Hausdorff距離,距離越小表明越相近,則以此作為識別出的手勢,并驅動交互操作。通過識別4種手勢,對計算機進行操作,實現(xiàn)簡單的圖片縮放和選擇功能。識別結果和交互結果顯示,本系統(tǒng)功能良好。
四、總結與展望
人機交互和計算機用戶界面剛剛走過基于字符方式的命令語言式界面,目前正處于圖形用戶界面時代。但是,計算機科學家并不滿足于這種現(xiàn)狀,他們正積極探索新型風格的人機交互技術。當前語音識別技術和計算機聯(lián)機手寫識別技術的商業(yè)成功讓人們看到了自然人機交互的曙光。虛擬現(xiàn)實和多通道用戶界面的迅速發(fā)展顯示出未來人機交互技術的發(fā)展趨勢是追求所謂“人機和諧”的多維信息空間和“基于自然交互方式的”的人機交互風格。