沈燁培 邱金波
(廣東石油化工學(xué)院 電子信息工程學(xué)院,廣東 茂名 525000)
根據(jù)世界衛(wèi)生組織的報告,全球約有4.66億人遭受聽力損失的困擾,并且預(yù)計2050年人數(shù)將超過9億人,而我國是世界上聽力語言殘疾人數(shù)最多的國家,有聽力語言殘疾人2057萬(2010年)[1]。手語為聽力語言殘疾人與他人交流提供了可能性。本項目引入最新的圖像識別和機器學(xué)習(xí)技術(shù),對中國手語進行向自然語言的文字和語音形式的轉(zhuǎn)化,從而實現(xiàn)惠及中國聽力語言殘疾群體的無第三人介入的中國手語翻譯解決方案。
在計算機科學(xué)中,手勢識別是通過數(shù)學(xué)算法來識別人類手勢的一個議題。手勢識別可以來自人的身體各部位的運動,但一般是指臉部和手的運動。識別人的姿勢,步態(tài),行為也是手勢識別的一個分 支[2]。手勢識別可以認為是讓計算機理解人體肢體語言的一種手段。
目前,根據(jù)不同的識別方法,手勢識別的輸入設(shè)備大多分為以下幾類:手套(Wired Gloves),手語使用者需要佩戴特制的手套對其手指動作進行捕捉;深度感知相機(Depth-aware cameras)[3]主要應(yīng)用結(jié)構(gòu)光(Structured light)和飛行時間相機(Time-of-flight camera)技術(shù)對近距離的手勢進行識別感知。Google I/O 2015上也有使用雷達對手勢進行識別的展示。
從以上文獻調(diào)研可知:
手勢識別技術(shù)由于作為非接觸人機交互的先進領(lǐng)域得到快速發(fā)展,但較為復(fù)雜手語的識別并非主流需求,所以直到2019年1月才出現(xiàn)了較大規(guī)模的可用于機器學(xué)習(xí)訓(xùn)練的連續(xù)中國手語數(shù)據(jù)集[4]。本項目則實現(xiàn)一種無需第三人介入而只需要單一攝像頭的視頻源,基于卷積神經(jīng)網(wǎng)絡(luò)CNN與OpenCV計算機視覺庫的智能中國手語翻譯方案。
手語中的手勢最重要的就是對手指的識別。在手指檢測系統(tǒng)中,首先要解決的問題是如何在視頻采集圖像中分割出手部。一般采用膚色模型來識別出膚色區(qū)域,再進行篩選提取手部輪廓[5]。將采集到的圖像從RGB(紅、綠、藍3個通道的像素值)顏色空間轉(zhuǎn)換到Y(jié)CbCr顏色空間來建立膚色模型,YCbCr顏色空間通過亮度(Y)、藍色亮度(Cb)與亮度差、紅色亮度(Cr)和亮度差來描述顏色,可以把圖像的亮度通道分離出來,不易受光照影響。
分割出手部后,需要對指尖和掌心的位置進行確認,從而進行骨骼建模,得出單個手語動作。以下是凸包算法的例子[6]。給定平面上的一些點,用最少的點連成一個凸多邊形,使得平面內(nèi)所有點皆在此多邊形內(nèi)或此多邊形上,這個凸多邊形就是給定點的二維凸包。最常用的凸包算法是Graham掃描法,主要通過排序、掃描來實現(xiàn),但是其所需時間較長。一種快速凸包算法,則是利用遞歸的方法逐步排除凸包內(nèi)部的點。
通常情況下,手語是一連串一起表達的,所謂的動態(tài)手勢。基于視覺的動態(tài)手勢識別是指用攝像機采集包含動態(tài)手勢的視頻圖像序列,然后分析提取圖像序列中的動態(tài)手勢,最后由計算機通過一定的模式識別技術(shù)對該動態(tài)手勢進行識別。
一般CNN(2D-CNN)主要應(yīng)用在二維的圖像中,在提取空間特征上有著很好的效果,而在處理視頻類的任務(wù)中,2D-CNN無法捕捉連續(xù)視頻幀中的運動信息,3D-CNN在行為識別中取得的突出成績?yōu)槭终Z識別提供了新的思路,基于3D-CNN的手語識別框架,替代了傳統(tǒng)的手動特征提取及HMM建模的識別方法,通過設(shè)計CNN整體框架,實現(xiàn)了對手語的時間空間特征提取及有效分類。
本項目中翻譯終端機器附有一個攝像頭。為了實現(xiàn)對手語使用者較為精確的動作捕捉和手勢識別。采用的攝像頭規(guī)格應(yīng)高于最低 規(guī)格。
本項目從翻譯終端機器采集的畫面會實時推流到云服務(wù)器中進行處理運算,并獲得翻譯的結(jié)果。這對服務(wù)器的算力要求較高。
從直播推流技術(shù)棧的角度來考慮。使用rtmp協(xié)議可以采用Ngix+RTMP插件模塊來搭建服務(wù)端。其中若選用DSS(Darwin Streaming Server),DSS是Apple公司提供的開源實時流媒體播放服務(wù)器程序。采用C++編寫,并且DSS是一個開源,基于標(biāo)準(zhǔn)的流媒體服務(wù)器,可以運行在Windows NT和Windows 2000,以及幾個UNIX實現(xiàn)上,包括Mac OS X,Linux,F(xiàn)reeBSD,和Solaris操作系統(tǒng)上。
第一,為了實現(xiàn)視頻的穩(wěn)定上傳推流需要充足的帶寬。第二,低延遲反饋翻譯結(jié)果的基本要求就是要保持視頻傳輸過程的延遲低,做到實時的傳播,避免出現(xiàn)卡頓情況。第三,需要用到負載均衡技術(shù),系統(tǒng)在線診斷技術(shù),同時及時故障處理的技術(shù)人員。
綜上所述,采用云服務(wù)提供商的直播云服務(wù)而不是自行維護云服務(wù)器,可以使項目成本顯著下降。