李文杰,吳黎明,鄧耀華
(廣東工業(yè)大學(xué) 信息工程學(xué)院,廣東 廣州510006)
責(zé)任編輯:魏雨博
互動投影系統(tǒng)是一種新型的多媒體展示平臺,采用先進的投影顯示、計算機視覺、模式識別、人工智能技術(shù)來營造一種奇幻動感的交互體驗。與傳統(tǒng)的觸摸屏不同,互動投影系統(tǒng)在顯示方面可以以微小的體積提供數(shù)十倍尺寸大小的縮放,實現(xiàn)更高的分辨率和更好的動態(tài)響應(yīng)效果。在此之外,與傳感器件的結(jié)合,可以實現(xiàn)不需要其他介質(zhì),利用磁性跟蹤[1]、慣性跟蹤[2]、聲波跟蹤[3]以及視覺跟蹤[4]等技術(shù),用戶既可以直接使用語音進行交互,也可以使用自然手勢與投影區(qū)域上的虛擬場景進行無線交互。目前互動投影系統(tǒng)的主流研究存在兩個發(fā)展方向:計算機視覺互動、力學(xué)感應(yīng)互動[5]。以力學(xué)感應(yīng)技術(shù)為主的投影互動系統(tǒng)是在人們身體的交互部位上附帶力學(xué)傳感器用于采集交互人不同交互手勢下的肌肉與神經(jīng)信息,該技術(shù)可識別多種交互手勢,且識別率高,但傳感設(shè)備費用昂貴,攜帶不方便,靈活性差。以背投方式的投影——攝像互動系統(tǒng)[6]因其投影和屏幕連為一體,需要紅外對管等傳感設(shè)備等原因,同時占用空間較大,限制了應(yīng)用設(shè)備的使用環(huán)境。而正投方式的投影——攝像互動系統(tǒng)是采用計算機視覺技術(shù)互動的典型應(yīng)用,因其投影儀和攝像設(shè)備嵌為一體的設(shè)計理念,具有易攜帶和易轉(zhuǎn)移的特性,且具有可應(yīng)用于任意環(huán)境的多種投影界面等優(yōu)勢,滿足了人們應(yīng)用靈活性方面的需求。
據(jù)調(diào)研報告分析,現(xiàn)如今大部分投影交互系統(tǒng)的市場份額由正投式投影交互系統(tǒng)占領(lǐng),主要以電子白板為主,但隨著人們對人機交互過程中的舒適感和界面友好性的追求和重視,電子白板市場份額呈下降趨勢,以激光筆為交互輔助設(shè)備的交互技術(shù)[7-8]因其無法滿足準(zhǔn)確度和靈活性要求的原因無法被大規(guī)模推廣應(yīng)用,而無輔助設(shè)備的人機交互技術(shù)的研究成為主流。目前比較成熟并獲得推廣的應(yīng)用有背投觸摸[9]、虛擬翻書[10]、全息互動[11]、地面互動等。這些以背投式交互技術(shù)為基礎(chǔ)的應(yīng)用充分考慮人機交互的舒適感,具有友好的人機互動界面,且交互干擾小、定位識別精確、實時性高。但在這些應(yīng)用中,投影儀與投影屏幕合為一體,投影儀與投影面位置相對固定,同時采用背投的方式進行投影,投影系統(tǒng)占用空間較大,難以擺放,大大限制了應(yīng)用設(shè)備的使用環(huán)境,設(shè)備安裝固定無法滿足隨時隨地轉(zhuǎn)移使用,情況如圖1所示。
以力學(xué)感應(yīng)技術(shù)為主的投影互動系統(tǒng)[12]主要是在人們身體的交互部位上附帶力學(xué)傳感器用于采集交互人不同交互手勢下的手部肌肉和神經(jīng)反應(yīng)信息,該技術(shù)可識別多種交互手勢,且識別率高,但傳感設(shè)備費用昂貴,攜帶不方便,靈活性差,早期和目前的力學(xué)傳感交互如圖2、圖3所示。
圖1 背投觸摸
而滿足任意環(huán)境下應(yīng)用的正投式的投影——攝像互動系統(tǒng)[13],因其投影儀和視覺設(shè)備嵌為一體的設(shè)計理念,具有易攜帶和易轉(zhuǎn)移特性,可用于多種投影界面下,滿足了人們應(yīng)用靈活性方面的需求。同時交互方式無需攜帶特定的電子設(shè)備,具有良好的人機交互特性,滿足人們交互的舒適感和方便性需求。故針對任意環(huán)境下的正投式投影——攝像系統(tǒng)的手勢識別技術(shù)的研究是未來該領(lǐng)域取得技術(shù)突破的關(guān)鍵。
目前國內(nèi)外學(xué)者對在無輔助設(shè)備,正投環(huán)境下的投影——攝像系統(tǒng)的手勢識別技術(shù)進行了艱苦的探索和研究。因其在識別過程中具有復(fù)雜動態(tài)背景和投影光線等干擾因素,故與傳統(tǒng)的手勢識別技術(shù)相比具有更高的挑戰(zhàn)性。意大利學(xué)者Hiroki Goto[14]等人提出利用手勢膚色在改進的HSV顏色空間和YCbCr兩種顏色空間下具有顏色聚類特性對交互手勢與背景進行分割,并采用幀差法消除背景,設(shè)計閾值減除與交互手勢運動頻率不一致的干擾源,并采用模板匹配的方式識別指尖。該研究相對于利用單一顏色空間提取膚色要精確,根據(jù)交互手勢運動頻率的先驗知識去除背景干擾也是一大創(chuàng)新,且模板匹配方法對指尖識別率較高。從外界環(huán)境出發(fā),該方法的識別策略與傳統(tǒng)手勢識別類似,只適用于投影內(nèi)容單一、投影光線未對手勢皮膚的顏色采集造成噪聲以及投影背景未出現(xiàn)類交互手勢的情況。從手勢本身分析,手勢為非剛性物體,具有空間上的多種變形,模板匹配的方法容易造成指尖的誤檢。系統(tǒng)檢測結(jié)果如圖4所示。
瑞士研究人員Huan Du[15]提出了一種虛擬鍵盤交互系統(tǒng),使用投影儀在桌面上投射出與真實尺寸大小相同的的虛擬鍵盤,利用3D攝像頭捕獲敲擊鍵盤的手的深度信息,判斷手指的位置和敲擊動作,如圖5所示。該研究采用幀差法定位手指區(qū)域,結(jié)合指尖具有特殊夾角的特征定位手指,最后利用構(gòu)建類雙目的結(jié)構(gòu)獲取手指的深度以捕捉手指敲擊虛擬鍵盤的動作。該應(yīng)用系統(tǒng)較為新穎,但在復(fù)雜背景和投影光線雙重干擾的情況下,基于雙目的手勢識別算法運算量大,文中敘述的系統(tǒng)只能針對靜態(tài)背景(固定的投影虛擬鍵盤)下的手勢進行識別,對于動態(tài)的復(fù)雜背景沒有進行討論,實際應(yīng)用范圍小。
2011年,美國蘋果公司[16]提出把包括一個全息成像和一個類似Kinect的3D空間手勢識別系統(tǒng)申請為專利,系統(tǒng)能在用戶前方生成一個不可視的3D空間,在這個空間里面用戶能對全息投影進行操作,或者將用戶的手投影到屏幕上以操作虛擬部件,如投影鍵盤等,如圖6所示。但截至到目前,蘋果公司并未投產(chǎn)該款電子設(shè)備。
圖6 蘋果投影互動專利
國內(nèi)方面,2008年6月浙江大學(xué)的陳成錢[17]采用紅外攝像技術(shù)解決投影光線對手勢膚色的干擾問題,利用膚色模型和自然手勢的輪廓、手指長寬比、以及指尖夾角等人體固有特征,將二維輪廓轉(zhuǎn)化為一維波形求極值,并結(jié)合采用神經(jīng)網(wǎng)絡(luò)的方法識別手指。該方法使用紅外燈源正面照射觸摸界面,對觸摸界面的材質(zhì)、燈源位置、光強要求太高,且未考慮手勢是非剛性的物體,只能識別手指,無法解決多樣性的非剛性手勢問題。
2010年10月張正友、高睿[18]等人實現(xiàn)了一種針對移動電子設(shè)備基于投影儀攝像的人機交互系統(tǒng),可實現(xiàn)三維交互投影面的隨時變換,系統(tǒng)如圖7所示。該系統(tǒng)可以在單攝像頭激光投影系統(tǒng)中完成3D的自然交互。該系統(tǒng)利用激光投影儀可以對投影空間進行逐行投射掃描的優(yōu)勢,利用平行投射光反射回來的信息使用高速攝像機記錄下場景中物體的深度信息,精確度高達1~2 cm。不過該系統(tǒng)對設(shè)備的要求極高,不管是精確投射平行光線且具有反射特性穩(wěn)定的激光投影機,還是高采集速度的攝像設(shè)備,都需要投入較高的成本。
圖7 移動三維交互場
2011年5月中國科學(xué)技術(shù)大學(xué)的朱中的[19]首次考慮到了動態(tài)背景中出現(xiàn)類似于交互手勢對識別的干擾問題,從光度學(xué)反射角度出發(fā),根據(jù)人手皮膚的血紅素和黑血素本身對不同波段光具有不同反射強度的特點區(qū)別于投影屏幕具有統(tǒng)一反射特性來定位和分割手勢,最后通過徑向?qū)ΨQ變換算法定位指尖。該方法新穎獨特,但受投影環(huán)境光照影響較大,且只能識別指尖,未涉及復(fù)雜手勢的識別,應(yīng)用范圍有限。
2012年筆者結(jié)合利用交互手勢被投影光線遮擋在投影屏幕上產(chǎn)生的背影作為交互指令[20]。該方法新穎獨特,利用陰影的顏色特性進行手勢分割相對于膚色更加簡單,且交互范圍更大。同時采用高斯模型跟蹤交互手指,最后結(jié)合徑向?qū)ΨQ變換算法和指尖具有一定角度的特性定位指尖。相對于之前的算法,該方法運算量小、定位精準(zhǔn),但對于投影內(nèi)容出現(xiàn)類手勢陰影容易出現(xiàn)誤判。
綜上所述,國內(nèi)外研究學(xué)者對正投式投影——攝像互動系統(tǒng)的研究給予了極大的關(guān)注,然而目前還存在一些技術(shù)難題:
1)正投式投影交互過程中,存在交互人阻擋投影光線而形成的投影背影、投影內(nèi)容存在與交互手勢相同或類似的投影物、多操作目標(biāo)和多操作交互人之間等干擾影響因素;
2)大多研究工作都集中于手勢識別算法的優(yōu)化上,而未把交互手勢作為系統(tǒng)整體的一部分進行考慮,正如觸摸筆操作觸摸屏一樣,忽略交互人的感知機制和感知能力,從而系統(tǒng)無法理解人的交互操作意圖;
3)從機器視覺的角度出發(fā),為了將手勢從動態(tài)的背景中提取分割出來,對變化背景適應(yīng)性差,要求用戶攜帶具有特殊顏色的物體以利于標(biāo)定或采用特殊黑光源的方式[21];
4)數(shù)據(jù)量的處理十分龐大,處理算法復(fù)雜,傳統(tǒng)的軟硬件設(shè)備難以滿足復(fù)雜背景下多維和多交互人手勢識別運算的實時性要求。
這些技術(shù)難題對交互手勢的識別率以及拒識率有很大程度的影響,因此在交互過程中容易出現(xiàn)交互不友好,使人們產(chǎn)生交互的頓挫感。
故如何根據(jù)人類的交互習(xí)慣等先驗知識,簡化識別算法,提高運行效率,并建立交互手勢與正投式投影——攝像系統(tǒng)的一體化模型,增強人機虛實互動的感知體驗是未來該領(lǐng)域技術(shù)研究的突破方向。
針對正投環(huán)境復(fù)雜背景下的投影——攝像多點觸摸多方式柔性互動建模方法的技術(shù)難點,研究建立純手勢與投影屏幕交互的智能感知機制[22],建立任意投影面下的多方式交互判別策略,構(gòu)建滿足實時性、魯棒性要求的投影——攝像交互系統(tǒng)是該領(lǐng)域技術(shù)研究的目標(biāo)。主要方向著重研究基于正投式復(fù)雜背景下對干擾因素進行分析并約簡,并在該基礎(chǔ)上,針對多交互人、多維、多方式的交互情況構(gòu)建通用語義表達模型,根據(jù)特定的模型識別算法,利用硬件高速運行效率開發(fā)專用的IP核以及構(gòu)建多核并行協(xié)同處理策略,以期滿足系統(tǒng)的實時性需求。具體可分解為以下問題的研究:
1)投影攝像復(fù)雜背景下人機交互增強現(xiàn)實建模
正投式投影攝像系統(tǒng)在交互過程中,存在交互人阻擋投影光線而形成的投影背影、投影背景存在與交互手勢相同的內(nèi)容、多操作目標(biāo)和多操作交互人之間等干擾影響因素。通過視覺的方式獲取和判別交互人真正的操作指令是交互的最終目的,而對這些干擾影響因素進行客觀分析是獲取操作指令的前提。且交互人在操作交互指令的過程中,包涵著本人強烈的行為意識,存在豐富的已知信息,如何設(shè)計試驗分析方法對互動控制影響因素進行約簡是解決難點的重要步驟;為了實現(xiàn)多點觸摸等真實的交互體驗,實現(xiàn)多交互目標(biāo)與投影屏幕的無縫融合滿足交互人的真實感知體驗是難點的重要關(guān)鍵問題。而虛擬目標(biāo)和真實交互動作的無縫實時融合是增強現(xiàn)實研究領(lǐng)域中所要實現(xiàn)的具體目標(biāo)。先根據(jù)場景幾何特征確定投影屏幕目標(biāo)與交互手勢之間的關(guān)系,然后通過投影補償?shù)姆椒▽⑻摂M交互手勢投影至屏幕,與交互目標(biāo)形成特定的空間位置關(guān)系。精確、快速的幾何配準(zhǔn)方法是手勢與投影屏幕虛實融合和增強現(xiàn)實體驗的關(guān)鍵技術(shù)之一,例如解決圖8中手勢交互中與屏幕的融入問題。
圖8 手勢融入和手勢假融入
2)投影攝像復(fù)雜背景下多方式柔性互動建模方法研究
在投影——攝像人機交互技術(shù)研究中,研究人員的焦點大多集中于傳統(tǒng)手勢單一交互方式的研究,如手勢的平面拉伸、縮放、旋轉(zhuǎn)等。而隨著增強現(xiàn)實技術(shù)的應(yīng)用和推廣以及人們對真實體驗需求的上升,不僅存在簡單的平面交互的情況,虛擬物體的三維操作,而且多交互人的協(xié)同操作等交互方式也將成為未來研究的必然趨勢。故在投影攝像復(fù)雜背景下對交互目標(biāo)平面多點的特征提取,三維平面的多點特征提取,多目標(biāo)特征提取等基礎(chǔ)上,分析各種方式特征的統(tǒng)一特性,構(gòu)建多方式柔性互動控制通用語義表達模型,實現(xiàn)通用的操作指令是另一關(guān)鍵性問題。雙手實時交互的多維方式的實時交互[23]的實現(xiàn)不但需要實時地正確識別動態(tài)復(fù)雜手勢,而且需要通過提取各種方式的交互特征,辨別同種手勢不同平面、不同維度的交互動作,并需要建立雙手多方式運動的語義模型(類似中國科學(xué)院馬義勇博士構(gòu)建的手語模型[24]),對雙手行為的顯式或隱喻語義進行正確的判斷。故如何設(shè)計快速匹配算法識別靜態(tài)手勢,并在該基礎(chǔ)上針對動態(tài)手勢涉及到時間及空間上下文問題,不同的手勢具有不同的軌跡軸及時間軸與空間軸的復(fù)合處理因素設(shè)計具有時序建模能力的動態(tài)識別算法是另一技術(shù)解決思路。
3)投影攝像復(fù)雜背景下柔性互動控制多核協(xié)同計算研究
投影攝像復(fù)雜背景下多方式柔性互動系統(tǒng)涉及到背景噪聲的約簡、多目標(biāo)的識別、目標(biāo)行為的分析以及視覺觸控命令的執(zhí)行等一系列較為復(fù)雜的過程,系統(tǒng)運算復(fù)雜度極大,傳統(tǒng)的軟硬件處理方式無法滿足系統(tǒng)的實時性要求。故可從多核協(xié)同計算的方向?qū)で笸黄?,針對各種交互方式特定的特征提取識別算法,采用硬件代替軟件的優(yōu)化方式,封裝專用的IP處理核提高系統(tǒng)的運行效率。然后,在此基礎(chǔ)上,采用軟硬件協(xié)同設(shè)計模式,從多個硬件IP核的功能依賴關(guān)系和數(shù)據(jù)依賴關(guān)系、分立目標(biāo)的移動與多目標(biāo)的行為目的之間的聯(lián)系等方面著手分析,制定可提高系統(tǒng)的實時性的多核協(xié)同調(diào)度策略。故如何針對各種交互方式特定的特征提取識別算法并設(shè)計封裝專用的IP處理核提高系統(tǒng)的運行效率。在此基礎(chǔ)上,根據(jù)系統(tǒng)各算法處理順序制定可提高系統(tǒng)的實時性的多核協(xié)同調(diào)度策略是實現(xiàn)該技術(shù)的實時性和可靠性方面的解決思路。
近年來,隨著基于機器視覺的手勢識別技術(shù)的發(fā)展和應(yīng)用,人們對虛擬投影交互應(yīng)用的需求日漸增加,其中包括企事業(yè)單位的會議交流、軍事模擬布局、餐飲服務(wù)業(yè)的點餐服務(wù)、手機投影互動等領(lǐng)域。而目前該技術(shù)的研究遇到了發(fā)展瓶頸,本文從正投式投影——攝像交互技術(shù)的優(yōu)勢和國內(nèi)外研究現(xiàn)狀出發(fā),理清目前技術(shù)的發(fā)展情況和技術(shù)難點,通過對投影互動案例進行歸納,總結(jié)各方案的優(yōu)缺點,對各技術(shù)難題從交互流程順序上進行結(jié)構(gòu)性分解:首先從人機交互感知體驗出發(fā)提出人機交互增強現(xiàn)實建模思路,從而以便仿真和評價用戶體驗虛實融合的真實感知,實現(xiàn)人機交互無縫虛實融合。然后從人機交互的多維多方式的交互出發(fā)提出提取多維多方式的交互特征構(gòu)建通用語義互動模型實現(xiàn)柔性互動思路。最后針對系統(tǒng)的實時性問題,提出采用多核協(xié)同計算的方式等構(gòu)建正投式投影——攝像交互系統(tǒng)思路,以期為研究人員后續(xù)開發(fā)提供解決思路。
[1]林里平,吳平東,黃節(jié),等.電磁跟蹤器在立體投影虛擬環(huán)境中的注冊[J].北京理工大學(xué)學(xué)報,2009,29(1):23-27.
[2]周誼成,尤樹華,王輝.基于三維加速度的連續(xù)手勢識別[J].計算機與數(shù)字工程,2012,40(10):133-136.
[3]李文娟.基于聲音識別的聲樂教學(xué)多媒體交互系統(tǒng)[D].上海:上海大學(xué),2009.
[4]張玉祥,李華,馬柳藝.基于MEMS器件的交互筆運動跟蹤研究[J].儀器儀表學(xué)報,2011,32(6):379-382.
[5]程序賢,康波.一種基于視覺跟蹤的新型交互設(shè)備及其在3D游戲中的應(yīng)用[C].第四屆全國數(shù)字娛樂與藝術(shù)會議(DEA’2009)論文集.蘇州:中國系統(tǒng)仿真學(xué)會,2009:102-105.
[6]于少華,伍冠健,吳黎明,等.Multi-Touch智能紅外交互投影系統(tǒng)[J].自動化與信息工程,2011,32(5):26-30.
[7]SUN Zhenying.Research on human-computer interaction with laserpen in projection display[C]//Proc.International Conference on Communication Technology,ICCT.[S.l.]:IEEE Press,2008:620-622.
[8]KIRSTEIN C,MULLER H.Interaction with a projection screen using a camera-tracked laser pointer[J].Multimedia Modeling,1998(10):191-192.
[9]吳祺.基于視覺技術(shù)的陳展交互設(shè)計與實現(xiàn)[D].浙江:浙江大學(xué),2010.
[10]李煒,李志,郭星,等.基于圖像識別的虛擬翻書系統(tǒng)[J].微型與應(yīng)用,2010,29(5):12-17.
[11]于瀛潔,李雨浪,鄭華東.一種基于視覺的手指與全息影像交互研究[J].激光與紅外,2010,40(4):447-452.
[12]田藝.基于數(shù)據(jù)手套的雙手手勢交互[D].浙江:浙江大學(xué),2006.
[13]王鼎元.基于攝像與投影的人機交互系統(tǒng)設(shè)計[D].西安:電子科技大學(xué),2010.
[14]GOTO H,KAWASAKI Y,NAKAMURA A.Development of an information projection interface using a projector-camera system[J].IEEE Trans.Electronics,Information and Systems,2012(4):561-569.
[15]HUAN D,THIERRY O.FELIX L,et al.A virtual keyboard based on True-3D optical ranging[EB/OL].[2013-03-02].http://wenku.baidu.com/view/7f0cb320aaea998fcc220ed7.html.
[16]3D全息顯示和手勢識別的時代來臨[EB/OL].[2013-03-02].http://www.sup22.com/article-2693.html.
[17]Mobile Surface[EB/OL].[2013-03-02].http://research.microsoft.com/en-us/projects/mobilesurface/default.aspx.
[18]陳成錢.基于投影儀-紅外攝像機的多點觸控系統(tǒng)[D].浙江:浙江大學(xué),2008.
[19]朱中的.基于投影儀攝像機系統(tǒng)的人機交互關(guān)鍵技術(shù)研究[D].合肥:中國科技大學(xué),2011.
[20]LI Wenjie,WU Liming.Research of hand gesture recognition in multitouch projector-camera system[J].Advanced Materials Research,2012,588-589(11):1184-1187.
[21]HYOSUN K,DIETER W.Interaction with hand gesture for a back-projection wall[C]//Proc.Computer Graphics International,2004.[S.l.]:IEEE Press,2004:395-402.
[22]沈堅立.基于投影顯示的增強現(xiàn)實人機交互技術(shù)[D].上海:上海交通大學(xué),2008.
[23]鞏應(yīng)奎,梅中應(yīng),范玉青,等.基于手勢輸入構(gòu)造三維概念模型的研究發(fā)展[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2005,17(7):1389-1393.
[24]馬繼勇.手語理解的統(tǒng)計模型研究[D].北京:中國科學(xué)院研究生院,2001.