智能座艙多模態(tài)交互技術發(fā)展現狀及趨勢

2023-01-31 02:12:58李亞楠

汽車實用技術 2023年1期

劉堯，李亞楠

（中國汽車技術研究中心有限公司，天津 300380）

隨著通信技術、傳感技術、人工智能、互聯網大數據分析等新科技的進步與發(fā)展，汽車市場的定義也開始產生了變化。智能化、網聯化、電動化、共享化是如今電動汽車產業(yè)發(fā)展的主流方向。電動汽車也正在逐步地由單純的機械交通工具，過渡為個性化的智慧終端。在汽車新四化趨勢下，用戶體驗成為現在汽車產業(yè)轉型的重要發(fā)力點。而汽車智能座艙內智能性、情感性、高效性等方面的用戶體驗必將成為用戶選擇汽車品牌的重要依據。調查研究表明，在我國消費者購車的關鍵因素中，座艙智能技術是僅次于汽車安全配置的第二大指標，重要程度甚至高于汽車動力性、經濟性等因素[1]。

智能座艙，是指搭載了高度智慧與網聯化科技的車輛產品，是基于使用要求和使用環(huán)境，能自主洞察和感知，從而形成的一個智能的移動交互環(huán)境和體驗空間。智能座艙可以實現人、車、路之間的互動交流，是人車關系從工具使用向情感溝通的重要紐帶和關鍵場所。智能座艙以其在帶給用戶最直觀的愉悅、舒適、方便體驗方面的優(yōu)勢，已逐步成為汽車發(fā)展重點探索的領域之一。作為智能座艙的核心技術，多模態(tài)交互技術實現了聲音、手勢、眼神捕捉等多種模態(tài)的融合，未來必將取代單一的語音交互模式[2]。

1 汽車座艙與智能座艙

在世界汽車工業(yè) 100多年的發(fā)展歷史中，汽車座艙經過了機械化時期和電子化時代，正在走向智能信息化時代。機械化時代的汽車座艙，主要使用機械式和簡易物理裝置進行單一功能和基本信息地獲??；電子化時代，音響、小型液晶顯示屏等開始廣泛使用，以及具有高度娛樂性的播放影片、音樂和離線導航等基本功能。目前，信息化與智能化的時代，互聯網加人工智能、大數據一起進入汽車領域，進入了汽車座艙，帶動汽車走進智能網聯化時代，座艙開始成為駕乘人員可以發(fā)號施令的自主舒適智能移動空間。這個自主舒適移動空間，現在一般稱作智能座艙。

1.1 汽車座艙

“座艙”不是汽車的正規(guī)用語，汽車行業(yè)有二個相關術語描述座艙這個空間：一個是“客艙”，“供乘員利用的地區(qū)，即司機區(qū)和乘務員區(qū)的統(tǒng)稱”，出自《汽車車身用語》（GB/T 4780—2020）；還有一種是“乘員艙”，“由頂罩、天花板、側圍、門窗、單玻窗和前圍、后圍或后座靠背支承板，和避免乘員觸及帶電部分的電氣防護遮欄、外殼等圍成的，承載著乘員的空間”，來自《電動汽車術語》（GB/T 19596—2017）。兩項標準中規(guī)定的客艙或乘員艙就是汽車座艙，一個帶沙發(fā)的金屬房間，讓駕駛員和乘客享受相對安全、舒適和便捷的駕乘體驗，設備多傾向于機械式，滿足的功能相對單一，駕乘人員手動操作發(fā)出指令，能做的提升也相對有限。

1.2 智能座艙

智能座艙就是汽車由機械化、電子化時代進入信息化、智能化大數據時代的必然產物。關于智能座艙方面的術語、定義還需在新時代標準化工作中不斷補充完善。

智能座艙是在保持原有傳統(tǒng)的駕駛艙所具備的安全、舒適和便捷性基礎上，以液晶顯示屏取代了普通物理按鈕，人機交互手段便利多元，自動化、網聯化水平大大提高。智能座艙的基礎是人機交互技術，但人機交互目前主要是利用語言交互技術來實現，駕駛者可以專心于行車視覺上，而不需通過聽覺即可實現要求、通過說話完成非駕駛動作的需求。不過，當前智能座艙的語言通訊系統(tǒng)，在情感性、多輪對話、喚醒或打斷等方面仍有一定困難，特別是不能領會命令實質。而多模態(tài)交互技術能夠使人機交互整個過程更加立體、高效和低誤差，必將成為未來智能座艙發(fā)展最為核心的技術之一。

2 語音交互技術和多模態(tài)交互技術的發(fā)展

2.1 語音交互技術

近年來，智能、網聯、大數據功能不斷滲入汽車領域，且成本逐年降低，智能座艙逐步成為中高端品牌車型的必備選項。它給駕乘人員提供了立體化人機交互智能、舒適、情感體驗的移動空間，這其中最早使用的技術是語音交互技術，也就是人機對話。

語音交互技術是相對簡單的技術，主要包括語音識別技術（Automatic Speech Recognition,ASR）、自然語言處理技術（Natural Language Processing, NLP）、語音合成技術（Text To Speech,TTS）等，也就是通過聲音識別、聲音處理生成指令要求[3]。

汽車是一個各種噪音的組合體,包括輪胎噪聲、風阻噪聲等，極易干擾語音交互系統(tǒng)的工作，除去噪聲干擾需要一些技術處理工作。語音識別技術（ASR）是將聲音轉化為文本信號，通過聲音模型數據庫和文本模型數據庫進行相應的比對和識別。自然語言理解（Natural Language Understanding, NLU）通過文本分析、分類、檢索、信息抽取、文字校對等流程將聲音轉化為信息化指令。對話管理（Dialogue Management, DM）通過分析對話產生系統(tǒng)決策。語音合成（TTS）是將自然語言生成（Natural Language Generation, NLG）所生成的文本通過文本處理和音色頻率處理，最終通過語音庫進行語音合成。具體語音交互技術流程如圖1所示。

圖1 語音交互技術流程

如圖1所示，當乘員用語言發(fā)出需求指令時，車輛通過預處理找出乘員發(fā)出語音指令的聲音，通過聲音識別對聲音進行信息轉化，通過功能轉化篩選出乘員需要的相關服務功能需求，在對話管理中將聲音轉換所生成的指令進行回應。最終通過聲音生成和聲音合成組合模式，以對話的形式回復乘員，最終形成語音交互行為。

近年來隨著人工智能、芯片、大數據、傳感等技術逐漸興起，語音交互技術已在手機等很多領域廣泛應用。汽車作為新的終端用戶，使用這個技術可以給乘客更安全、高效、簡單的駕駛體驗，所以語音交互已是智能座艙的最重要的組成部分，是智能座艙生態(tài)系統(tǒng)的核心環(huán)節(jié)和首選。

2.2 聲紋識別技術

根據文獻[4]，每個人的發(fā)音特色都不相同，聲紋和指紋一樣，都是每個人的獨特標志。一個人成年之后，他的聲紋基本是固定的，很難變化。聲紋識別術就是基于這種特性可以利用每個人的說話聲來確定不同人的身份。在現在的智能座艙領域，聲紋識別技術在語音交互中正處于起步研究與測試標定階段。它通過提取錄入使用者的一定時間內的有效聲音，辨識出有效聲紋特色，錄入聲紋數據庫。當車輛用戶再發(fā)出語音指令時，可首先通過數據庫進行比對。智能座艙人機交互系統(tǒng)可以聽音辨人，為車上每個用戶提供個性化服務。這個技術也利于車輛安全，用戶也可更容易地控制車輛[5]。

2.3 多模態(tài)交互技術

車與駕駛人的交互在車輛行進過程中一直存在。車輛向駕駛人或乘員提供各種信息，同時駕駛人根據相關信息做出必要的合理反應，這就是信息交互。隨著電子、傳感器等技術的不斷發(fā)展，汽車已經是一個比較智能的“機器人”，傳統(tǒng)的交互方式已經不適合現在的技術背景下用戶對于汽車智能座艙的智能性、舒適性、情感性的需求，多模態(tài)交互技術成為智能座艙設計的核心技術之一，融合了觸摸交互、手勢交互、凝視與頭部姿態(tài)交互、語音交互等多個模態(tài)，其表達效率和表達的信息豐富和立體程度都遠遠優(yōu)于單一的語音交互模式。

3 多模態(tài)交互技術應用現狀及趨勢

智能座艙多模態(tài)交互技術在不斷的發(fā)展中，目前比較主流的技術有信息識別、車載多維人機界面系統(tǒng)和新興汽車智能單元三個領域。

3.1 信息識別技術

汽車人機交互指令信息辨識技術，一般有觸覺辨別、動作辨別、凝視辨別、頭部姿勢辨識和語音識別等。從目前汽車行業(yè)人機交互界面的發(fā)展狀況分析，未來汽車行業(yè)人機交互方法將越來越多樣化，更多的人機界面設計都將偏向于把視覺、聽覺、觸覺等多種感覺通道進行綜合設計，達到信息識別的最優(yōu)化。

3.1.1 觸摸識別

智能座艙內的顯示觸摸屏，觸摸識別類似過去的按鈕，但功能遠超按鈕。其包含的關鍵技術涉及觸覺傳感器、電容式觸覺傳感、接近感應和觸覺反饋。其中，技術核心是高性能的觸覺傳感器。這種依托于材料科學、柔性電子技術、納米技術的高性能觸覺傳感器顯著提升了智能座艙內觸摸屏可觸摸識別功能板塊的分辨率和靈敏度，在未來有望實現進一步的功能和場景突破。

3.1.2 手勢識別

手勢識別這種最基本的人類肢體語言能夠區(qū)分二維手勢辨識和三維手勢辨識。二維動作識別即靜止手勢，如點贊、用手去比劃數字等。一些復雜手勢需要通過 3D攝像頭和先進的車載傳感器結合進行檢測。由于車艙內攝像頭數量逐漸增加，再加上多模態(tài)混合技術和人工智能技術（Artificial Intelligence, AI）算法的提升，各種優(yōu)秀的車載感應器的性價比將提高，手勢識別裝置也會在提升手勢識別信息庫的豐富程度、識別時間和高效可用性等方面有所突破。

3.1.3 視線識別

人眼狀態(tài)是駕駛員發(fā)出的重要信息，駕駛員在駕駛過程中視線處于哪個位置、短暫凝視狀態(tài)，都是有用信息。特別是車上有語言、行為障礙的用戶，這是一種相對簡單、直接的交互方式。它需要眼球追蹤器和遠紅外光線模組進行視線捕捉、追蹤。頭部位置識別相對淺顯易懂，如簡單的點頭、搖頭動作。可與視線識別進行融合。

3.1.4 語音識別

在多模態(tài)交互技術中，語音交互也是第一核心技術。智能座艙中的大部分功能場景，如導航、打電話、調節(jié)車內溫度、聽音樂都可通過語音交互來完成，語音交互功能可依靠深度學習軟件不斷提高識別水平。

科大訊飛在目前智能語音助手行業(yè)占有重要份額。在智能座艙領域，科大訊飛與絕大多數國內自主品牌車企、合資品牌車企合作開發(fā)語音助手。科大訊飛率先推出的聲源定位技術、窄波束定向識別技術、全雙工立體聲回聲消除技術定義了如今智能座艙內語音交互的主流技術。

3.2 車載多維人機界面

汽車人機交互界面作為人和車輛之間交互頻率很高的重要區(qū)域，以集成的多界面、多模態(tài)和多區(qū)域的新形態(tài)，向汽車多維人機界面方向發(fā)展。

3.2.1 智能多模態(tài)交互人機界面

智能多模態(tài)交互人機界面目前逐漸成為智能座艙行業(yè)研究和發(fā)展的熱點。與之前交互人機界面相比，它更有直觀性和高效性，適應了智能座艙日趨復雜的情景要求。智能多模態(tài)人機交互界面結合了語音交互、手勢交互、視線交互、頭部位置交互、觸摸屏交互等交互方式，也融合了提取人體生理信號、聲紋識別和臉部微表情變化等特征提取與特征融合技術。這些交互方式取長補短，避開了各自在單一交互模式上的局限性，能滿足用戶更大的需求，未來的想象空間也更大。各種感官交互可以自由組合，完成一次多模態(tài)交互，最常見的就是基于聽覺的語音交互與基于觸覺的觸摸屏交互以及手勢識別交互。如用戶最基礎的需求之一，控制座艙內溫度，通過語音發(fā)出指令“我有點熱”，座艙內空調會打開，通過手勢識別調節(jié)溫度，如果需要調節(jié)到具體溫度，則需通過觸摸屏交互完成。

1.無障礙信息交互

殘障人士由于感官和認知能力上的不足，不能完成正常的交互。多模態(tài)交互將幫助殘障人士以及廣義上的應幫扶弱勢群體完成信息無障礙交互。如基于計算機視覺的道路識別技術通過立體聲或震動反饋為視力障礙用戶指引方向。運動能力障礙用戶可通過手勢交互和視線交互完成想要的功能指令。目前的自動駕駛汽車，更是可以通過方向盤與觸覺識別的結合，協助視力障礙用戶控制車輛的轉向。

2.人車協同控制

智能輔助駕駛系統(tǒng)可以在人車之間發(fā)生危險時發(fā)出警告甚至強制執(zhí)行制動或轉向來避免危險。人車協同控制技術則是從“互聯互通、雙向協同”的角度實現人車協同。如未來的自動駕駛汽車，人可以通過多模態(tài)人機交互界面向汽車提出駕駛請求，車也可以通過多模態(tài)人機交互界面向人提出接管駕駛的請求。人的駕駛觀點也可以與車通過多模態(tài)交互進行交流互動，不僅利于人車協同控制情況下保證安全和合規(guī)，也利于車企更直接地收集用戶意見和用戶需求。目前已有相關學者研究開展多模態(tài)下人車控制權移交的完整流程[6]。

根據李明俊博士的研究[7]，要實現人機協同控制，首先就是駕駛意圖判斷，駕駛意圖判斷需通過仿真實驗平臺采集駕駛意圖數據，采集后的數據用于建立駕駛意圖方向的數據庫。再通過駕駛意圖數據庫所生成的關于駕駛環(huán)境危險評估、表現評估、路徑跟隨的參數，再結合模糊控制理論，建立出結合人機協同控制的模糊控制器和協同控制策略。通過駕駛員意圖識別和駕駛環(huán)境信息采集形成的駕駛危險評估，再通過路徑更新所生成的路徑控制器共同生成人機控制權分配策略。具體人車協同控制流程如圖2所示。

圖2 人車協同控制流程

3.2.2 空間立體交互

空間立體交互即用戶在三維空間內完成交互，它有一個核心理念，就是讓數據、功能出現在它最該出現的位置，而不是集合在相近的位置。如理想L9實現的五屏交互，這是最直觀的空間立體交互，如圖 3所示。未來的三維空間更多依賴于AR虛擬現實技術、3D顯示技術、虛擬投影技術。多模態(tài)交互空間不再局限于中控儀表這些傳統(tǒng)界面。特別是AR虛擬現實技術，能夠將現實和虛擬世界結合在一起。在導航上，將實際路面信息與導航信息相疊加呈現出來，增強時空信息呈現效果。AR導航提供給用戶駕駛中應掌握的全部信息，如距離前車多少米、車道線信息、對駕駛安全造成隱患的信息等等，提供完整的車輛情景和非機動車、行人等弱勢道路使用者的信息，增強了用戶對整體的把握能力，實現安全、準確、愉悅的駕駛。

圖3 空間立體交互

3.3 智能表面與個人智能助理

智能表面是多模態(tài)交互中的重要組成部分，在未來將成為智能座艙多模態(tài)交互最重要的載體，未來智能座艙內每一個表面都能成為智能表面。從觀賞性的角度，未來它也會被注入更多的美觀甚至藝術氣息，但在用戶使用的時候，它甚至可以在未來慢慢取代車內的幾塊大屏的作用，完成溫度控制、座椅調節(jié)、音樂播放、光線調節(jié)等功能多模態(tài)交互。智能表面又名模內電子，它是將模內裝飾和柔性印制電路結合到一起，它比傳統(tǒng)人機接口（Human Machine Interface, HMI）設計更加輕巧，使用更加便利。未來在智能表面上完成的多模態(tài)交互，設計者不再受限于龐大的電路要求完成設計，智能座艙內的多模態(tài)交互真正做到無處不在和無孔不入。在技術上，智能表面很多技術都與智能手機相同，也可發(fā)展薄膜材料與納米技術的結合、電鍍技術，再融合電子功能。通過慣性傳感器、紅外傳感器、雷達系統(tǒng)、眼動追蹤、力感應等多個傳感器，智能表面將了解你目前具體所處的情景。如智能表面感知到你因寒冷身體發(fā)抖，就會打開空調暖風和座椅加熱；感知到你駕駛非常不熟練，就會強制關閉音樂等可能對你造成干擾的聲音；感知到你在高速上車速過快，自動掛斷電話來保證你的駕駛安全。智能座艙未來必定在美學上和交互立體感和全面性上有更高的要求，智能表面將會越來越重要。

個人智能助理主要與智能輔助系統(tǒng)結合，以智能機器人、智能專家等形式出現。用于提供出行各方面信息、提供娛樂需求和情感陪伴。如寶馬所推出的“寶馬（Bayerische Motoren Werke,BMW）個人助理”，用戶對它提出的要求都能得到解答，會調動座艙內可調動的功能滿足用戶的需求，想用戶所想。未來智能表面與智能助手相結合，全方位滿足用戶對多模態(tài)交互高效性、立體感、情感性方面的需求。

4 智能座艙未來發(fā)展建議

本文詳細論述了智能座艙之于汽車的重要性和多模態(tài)交互技術之于智能座艙的重要性。雖然“智能座艙”這個概念雖已被廣大用戶所熟知，但是各大車企之間存在著孤島效應，互聯互通能力的缺失無法讓車企之間的智能座艙實現優(yōu)勢互補。同時，多模態(tài)交互還沒有發(fā)展成熟，更多的技術應被融入到多模態(tài)人機交互中。基于此，本文給出一些發(fā)展建議。

4.1 持續(xù)完善標準化工作

智能座艙的標準化評估機制有待進一步建立完善，行業(yè)內尚未完整、統(tǒng)一的評價方法。未來，行業(yè)主管部門應聯合行業(yè)相關標準化組織，如汽車標準化技術委員會，進一步完善智能座艙新領域的標準化工作，統(tǒng)一術語定義，規(guī)范試驗方法，在多模態(tài)交互技術方面更多的盡快形成統(tǒng)一的評判標準。

4.2 營造良好的應用環(huán)境

目前，智能座艙主要針對中高端車，成本問題不容忽視。為推動智能座艙的大規(guī)模應用，國家工信部已出面聯合地方政府營造良好的應用環(huán)境，不斷創(chuàng)造條件以鼓勵研發(fā)、示范運營，直至市場化運行，引導消費者對此類產品的了解和選購，降低由此帶來的研發(fā)成本，不斷推動智能座艙等先進智能化、網聯化技術的研發(fā)和應用。各大車企智能座艙產品的聯系與相互借鑒也日漸增多。如目前中汽數據牽頭成立的2022中汽數據智能聯盟創(chuàng)新發(fā)展聯盟，致力于解決各大車企互聯互通方面的問題。

4.3 不斷優(yōu)化語音交互、多模態(tài)交互功能

在多模態(tài)人機交互技術真正大規(guī)模應用于智能座艙之前，語音人機交互功能依然是目前智能座艙人機交互的主導，但當前的語音人機交互功能，在情感化、多輪對話、提醒/打斷方面，仍亟待改善。未來，語音研發(fā)科研企業(yè)或單位應進一步完善語音交互功能，實現智能座艙的語言交互系統(tǒng)能夠比較精準地辨別用戶的日常用語、方言甚至是一些專業(yè)術語。科大訊飛未來在技術領域的探索將給各大車企智能座艙提供更多技術支撐。

4.4 發(fā)展聲紋識別技術

聲紋技術可以為不同的駕乘人員提供差別化服務。相對于智能座艙中普遍采用的語言交互，聲紋識別技術是一項科技門檻相對更高的領域，在汽車行業(yè)中的應用也還處在起步階段。聲紋識別可進行更精確的使用信息習慣收集，改善車內互動感受，從而提高汽車安全防護。

4.5 智能表面與智能助理相結合

智能表面是指座艙內任何一個部分都可以完成多模態(tài)交互，智能助理相當于用戶一個智能化的車機助手，能主動根據用戶學習思考用戶的需求。兩者結合將對提升汽車座艙智能化水平起到合力推動作用，相關供應商企業(yè)或科研單位應注重此類技術的研發(fā)，以提供多元化的駕乘體驗。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看