車載多媒體系統(tǒng)中的手勢識別應用

2021-04-20 02:23:54王云鶴

電子技術與軟件工程 2021年2期

王云鶴

（電裝天研究開發(fā)（天津）有限公司天津市 300457）

現(xiàn)階段公眾對汽車的要求在不斷提高，除了正常的車輛性能外，對于車輛附加的一些硬件、軟件設施也有了較高的要求。車輛多媒體手勢識別技術是實現(xiàn)人車交互的重要技術，所謂手勢識別技術是通過在車輛車頂或者中控臺等不同位置安裝3D 傳感器，通過傳感器識別駕駛員手勢，具有控制車輛導航、信息娛樂等作用[1]。車載多媒體經(jīng)歷了機械按鍵控制、旋轉(zhuǎn)控制、觸摸屏觸控，如今已經(jīng)實現(xiàn)了語音控制、手勢控制。手勢識別技術是手勢控制的基礎，也是新時代對車載多媒體提出的新要求，目前寶馬、君馬等相關車型上已經(jīng)擁有了手勢識別技術，對用戶而言，手勢識別可顯示出汽車的“高大上”，也是車載多媒體未來重要發(fā)展方向。鑒于手勢識別技術在車載多媒體中的應用尚處于探索階段，目前存在一定的不足之處。本文將對車載多媒體系統(tǒng)中的手勢識別應用技術予以分析，旨在為車載多媒體系統(tǒng)中手勢識別技術的應用提供參考。

1 車載多媒體技術

早期用戶購買汽車后車輛內(nèi)僅能收聽廣播，而隨著車載多媒體技術的不斷發(fā)展，通過車載多媒體除了可以收聽廣播，還能夠用于聽音樂、觀看MV、接聽或者撥打電話、提供導航服務等等。尤其是在21世紀初期，高分辨率“彩屏”在高端車型中得到應用，通過增加不同按鈕實現(xiàn)相關多媒體功能；觸摸屏技術的發(fā)展使得觸摸屏代替了早期的“彩屏”，用戶可直接通過觸摸實現(xiàn)對車載多媒體的相關操作。車載多媒體系統(tǒng)的發(fā)展使得車輛功能更加豐富多樣。比如英菲蒂尼、雅閣等轎車采用了雙屏幕設計，增加車輛本身的科技感，隨著技術的更新?lián)Q代，觸摸屏的靈敏度在不斷提高，用戶體驗感更好。

移動互聯(lián)網(wǎng)技術、云服務等技術的發(fā)展與應用，人與車輛之間的交互更加便捷，車輛中融入了更多的智能化設備，如語音識別技術在車載多媒體中的應用，用戶可直接通過語言或者方言等說出指令，如“去最近的公園”、“搜索附近的酒店”等，便捷了用戶，凸顯出現(xiàn)代汽車的人性化。當然語音識別技術的準確率并不能達到10.00%，如聲音大小、環(huán)境中的噪音等。手勢識別技術是基于現(xiàn)代計算機視覺處理技術，其體現(xiàn)出的科技感更強，對用戶的吸引力更大，同時也符合未來車載多媒體技術發(fā)展方向[2]。

2 手勢識別技術在車載多媒體中的應用

目前部分車企已經(jīng)看到手勢識別技術在車載多媒體方面的應用價值，相關機構已經(jīng)從不同角度開展手勢識別技術的應用。手勢分割、手勢特征提取、靜態(tài)手勢識別、動態(tài)手勢識別均是手勢識別技術的主要組成，通過不同技術的綜合，發(fā)揮手勢識別與控制作用。

寶馬7 系上有手勢識別技術的應用，具體為第六代iDrive，該系統(tǒng)通過預設多種手勢，用戶根據(jù)不同預設手勢作出相應的手勢可以實現(xiàn)手勢識別、手勢控制。識別技術的實現(xiàn)依賴于中控臺上方的3D 傳感區(qū)，這一區(qū)域主要用來檢測用戶做出的手勢。如暫?；虿シ乓魳房勺鞒鲭p指不動向前指的手勢，接聽電話或確認時可采取單指前后移動的手勢；想要增大音量或放大地圖可作出單指順時針畫圈的手勢。不同手勢更好的實現(xiàn)車輛多媒體操控。2021年量產(chǎn)的BME iNEXT 車型上運用的BMW 交互系統(tǒng)同時涵蓋了語音識別技術、手勢識別技術、眼神識別技術等，這些技術的綜合應用提升了車載多媒體系統(tǒng)的智能化，不僅反應速度更快，而且能夠應對更加復雜的環(huán)境[3]。

君寶SEEK5 汽車中也有手勢識別技術的應用，該車輛在中控臺出風口位置下方設置識別與感應區(qū)域，用戶在該區(qū)域內(nèi)做出相關手勢，可通過手勢實現(xiàn)手勢識別與手勢控制。整個手勢識別區(qū)域識別距離在15-35cm，包含了7 種手勢控制命令，比如增加多媒體音量可作出手心上抬的動作，反之手心向下壓則為減少多媒體音量；播放或者暫停音樂，此時可通過“V”字手勢向前指。依靠多種手勢實現(xiàn)對車載多媒體的控制。

拜騰汽車中也有手勢識別技術的應用，其采用的是“三維手勢控制”，車載多媒體系統(tǒng)中包括語言識別、觸摸識別與手勢識別控制，采取三種人車交互方式，用戶可結合自身實際情況合理選擇。手勢控制技術中采取78 寸大屏幕，頭頂有攝像頭用于對手勢的識別。整個車載多媒體系統(tǒng)中包括6 個識別手勢，如確定時采取單手指點擊手勢，調(diào)節(jié)音量時可采取單手指移動，實現(xiàn)對音量的放大或者減小。

上述車載多媒體手勢識別技術的應用證實了該技術的實際應用可行性，隨著車輛更新?lián)Q代，越來越多的車輛會加入多媒體手勢識別技術，體現(xiàn)出現(xiàn)代汽車的科技感與時尚感。

3 車載多媒體手勢設計問題

車載多媒體在手勢設計過程中，可以采取靜態(tài)手勢，也可以采取動態(tài)手勢，當然動態(tài)手勢更加符合用戶的心理需求，因為動態(tài)手勢兼具趣味性、智能化以及人性化。用戶與車載多媒體在手勢識別與交互過程中，需要確定出識別范圍，識別范圍內(nèi)需要建立不同手勢動作與控制指令的映射關系，這樣才能夠保證手勢識別的準確性。根據(jù)上面對寶馬、君寶、拜騰手勢識別應用分析，其所對應的手勢均不超過10 種。當然手勢設計需要考慮方方面面的問題，主要包括以下幾點：

（1）手勢的通用性，即所設計的手勢需要考慮實際生活，同時還需要符合大眾的生活習慣、認知規(guī)律。就如同“剪刀手”拍照一樣，提到拍照，好多人會想到做出個“剪刀手”的手勢。同樣的在汽車手勢設計中也需要符合絕大多數(shù)用戶的習慣，如果手勢設計的與絕大多數(shù)人認知等存在不同，自然會影響用戶的使用體驗，而且還可能需要花費一定的時間專門學習手勢[4]；

（2）多媒體因為涉及到較多內(nèi)容，比如聽音樂需要調(diào)節(jié)音量、開導航也需要調(diào)節(jié)音量、停車休息觀看MV 或者使用電話等期間都需要調(diào)節(jié)音量，此時設置的手勢需要能夠同時實現(xiàn)對多媒體車載系統(tǒng)不同功能部分的識別與控制。系統(tǒng)能夠結合多媒體所處狀態(tài)有效識別，此外，部分不同功能也可選擇相同的手勢，根據(jù)具體使用場景不同智能識別。如多媒體工作情況下，上下滑動手勢可用于調(diào)節(jié)音量，而沒有多媒體工作時則可作為菜單上下部分的翻頁操作，畢竟手勢越多，用戶需要記住的手勢越多，對用戶而言增加了難度；

（3）手勢設計中可選擇容差性較強的手勢，這樣可模糊進行大范圍的手勢識別，能夠快速做出反應，過于精細化的手勢會影響用戶在駕駛中的注意力，不利于安全駕駛，與標準的手勢相比，模糊手勢更具優(yōu)勢。圖1所示為可參照的手勢使用范例；

圖1：手勢使用范例

（4）手勢識別技術設計與使用的經(jīng)濟性，手勢識別技術應用與設計可增加汽車的使用感受，但是如果設計中應用技術較多，成本較大，則無形中會增加用戶的購車費用，當車載多媒體手術識別技術增加成本超過用戶心理期望值，此時可能用戶會選擇放棄擁有手勢識別技術的車輛。

4 手勢識別技術分析

手勢識別在車載多媒體應用中對手勢識別技術有較大的依賴性，面對復雜的環(huán)境，手勢識別技術需要對靜脈手勢、動態(tài)手勢、靜態(tài)與動態(tài)同時存在的手勢予以識別。部分手勢還存在連貫性，這些都增加了手勢識別的難度。對手勢的識別需要借助感測設備，比如攝像頭、儀器手套、磁場跟蹤器等。

手勢識別技術也經(jīng)過了技術的更新與發(fā)展，手術識別技術中需要傳感器，傳感器應考慮到識別精度、延遲、識別分辨率、手勢識別范圍、用戶手勢舒適度、技術成本等。早期可通過機器設備直接對手進行識別，根據(jù)人手的位置信息變動與信息分析，能夠識別簡單的手勢，其中以數(shù)據(jù)手套為代表。以數(shù)據(jù)手套為基礎的手勢識別，其在應用中要求駕駛員有對應的設備，并佩戴在身上，也需要有連接的電源線等，這種手勢識別技術顯然不符合車載多媒體的手勢識別要求，如果駕駛員佩戴相關設備，會影響安全駕駛[5]。

視覺手勢識別技術雖然不需要佩戴相關設備，但是車輛在行駛中周邊環(huán)境處于變化中，背景是處于變化中，而且存在遮擋的可能。視覺識別技術也包含了不同方案，比如識別區(qū)域內(nèi)的相機數(shù)量與位置，不同相機的識別速度與延遲情況；考慮車輛在不同光照條件或者移動速度情況下對手勢的識別；2D 或者3D 都是需要考慮的內(nèi)容，低級特征方面如識別的邊緣、識別區(qū)域、不同手勢的輪廓等；使用的是2D 表示還是3D 表示；跟蹤器能夠?qū)κ謩葜胁粩嘧兓那闆r加以識別，環(huán)境中的噪音干擾等。

視覺技術早期為黑白，后期已經(jīng)逐步發(fā)展為彩色，同時實現(xiàn)了從模擬信號到數(shù)字信號的轉(zhuǎn)變，圖像也從靜態(tài)識別發(fā)展到動態(tài)識別，視頻技術也從平面2D 向立體3D 發(fā)展，2D 視頻技術發(fā)展相對成熟，而3D 視覺技術仍然處于不斷研究中。3D 結構光攝像頭在iPhone手機中的應用推動了3D 視覺技術的發(fā)展，3D 感知相關的硬件設備逐漸得到應用，比如3D 物體識別、3D 人臉重建與識別、3D 虛擬世界重建等，這些都為人機交互在不同領域的使用奠定了基礎。目前結構光、RGB 雙目成像、TOF 等3D 感知技術應用較多。

從不同視覺技術的測距范圍、測距精度、硬件成本、算法開發(fā)難度、分辨率、功耗、測距邏輯等方面比較，結構光在車載多媒體手勢識別技術應用方面有較多優(yōu)勢，具有成本低、精度高、開發(fā)難度低等優(yōu)勢。結構光系統(tǒng)組成包括投影儀和攝像頭，投影儀可在物體表面、物體背后投射特定的光信息，攝像頭負責采集信息。物體變化會影響光信號的變化，攝像頭采集的光信號也會發(fā)生變化，進而了解物體的立體位置，結構光是主動測距傳感器，上萬個散斑形成激光光源，因而對環(huán)境的光照沒有依賴性，不過強光照會影響信息采集，一定遮擋條件下的室內(nèi)應用更有優(yōu)勢，這也符合汽車車載多媒體手勢識別的日常使用環(huán)境，當然基線大小會影響識別的精度以及量程。

手勢識別設計以及手勢識別技術選擇僅僅只是手勢識別在車載多媒體系統(tǒng)中應用的一個方面，系統(tǒng)前端、系統(tǒng)中端、終端的聯(lián)合才能夠最終應用到車載多媒體中。

5 結束語

手勢識別在車載多媒體系統(tǒng)中的應用將是未來的發(fā)展趨勢，并會在更多汽車產(chǎn)品上得到應用，目前雖然有手勢識別技術在汽車中的應用，但主要以高端汽車為主。實際研究中應綜合考慮，通過手勢識別設計與手勢識別技術的應用，設計出更加符合手勢識別要求，且能夠在較多汽車車載多媒體手勢識別中應用的手勢識別。