劉 權 , 徐 偉 , 李深安
(1.廣州汽車集團股份有限公司汽車工程研究院, 廣東 廣州 511434;2.科大訊飛股份有限公司 智能汽車事業(yè)部, 安徽 合肥 230000)
近年來,中國汽車工業(yè)取得了飛躍式發(fā)展,從2009年起連續(xù)12年穩(wěn)居全球汽車產(chǎn)銷第一。汽車行業(yè)也正在面臨著幾十年來最大的變局,儲能技術、人工智能、云計算和移動互聯(lián)網(wǎng)技術也正在以驚人的速度不斷快速突破。與此同時,汽車用戶也越發(fā)追求電動化、智能化、娛樂化和個性化。用戶對汽車的控制使用也從最基本的駕駛功能、空調控制等傳統(tǒng)功能,逐步地擴展到導航、多媒體、信息娛樂、個性化設置等多樣化功能。交互方式也從傳統(tǒng)的物理按鍵到觸屏,發(fā)展到現(xiàn)在的多模態(tài)交互,從用戶發(fā)起請求車輛被動接收執(zhí)行,到智能化的主動式交互和關懷。因此,汽車智能交互技術發(fā)展,尤其是從被動到主動式交互的發(fā)展升級是非常重要的研究課題。
近年來,隨著互聯(lián)網(wǎng)行業(yè)不斷滲透傳統(tǒng)的汽車行業(yè),智能座艙概念的不斷涌出,各家車企都希望可以打造出以“極致的互聯(lián)網(wǎng)汽車體驗”為核心標簽的智能網(wǎng)聯(lián)汽車產(chǎn)品,而智能汽車不再是簡單的以車子為中心,而是以人為中心,在保證車內外人員安全的前提下,為駕駛員和乘客提供豐富的智能化、個性化和愉悅的駕乘體驗。人機交互的方式也從最初的單純的按鍵發(fā)展為按鍵、觸屏、語音、視覺等多種交互模式。
1.1.1 傳統(tǒng)人機交互方式
按鍵和觸屏我們都可以認為是傳統(tǒng)的人機交互方式,都需要車內人員通過手去操作車內的設備。汽車在早期主要以駕駛為目的,駕駛員和乘客對車輛的控制只能通過按鍵的形式。而且最初的按鍵基本上都集中在中控儀表盤上,距離駕駛員較遠,操作不方便。后期才逐步過渡到現(xiàn)在的方向盤按鍵控制加上中控儀表盤按鍵相結合的方式,這種方式的改變使得駕駛員對按鍵的控制更加靈活和安全。
20世紀80年代,觸摸屏被大規(guī)模商用化。隨著觸摸屏技術的不斷發(fā)展以及在智能手機上的大規(guī)模應用,汽車中控屏幕也逐步普及推廣,而且各家車企也開始著手車機中控屏幕的外觀、應用以及應用的交互等的設計和優(yōu)化。甚至特斯拉在2013年推出了采用垂直定向搭載17英寸車載顯示屏的電動車—MODEL S,全面取消中控物理按鍵,幾乎可利用屏幕操控所有的車載功能。2018年,比亞迪第2代唐推出了支持90°旋轉功能大尺寸的懸浮式中控屏。中控屏也朝著大尺寸、可移動、多屏幕方向發(fā)展[1]。
1.1.2 智能語音交互方式
隨著人工智能技術突飛猛進的發(fā)展和在智能語音上的應用,智能語音交互方式開始在車上廣泛應用。通過語音交互的方式完成車輛功能的控制和信息查詢,更加便捷,解放了用戶的雙手。智能語音交互技術與汽車產(chǎn)品相結合,不僅很大程度上提升了用戶駕駛過程中的體驗,也提高了駕駛的安全性。智能語音是一個系統(tǒng)性工程,涉及語音增強、語音喚醒、語音識別、語義理解、汽車視覺、主動交互、語音合成等多項技術和過程[2]。
1.1.3 多模態(tài)交互方式
除了聽覺之外,人與人之間還可以通過視覺、觸覺、嗅覺等多種方式進行交流。同理,在人機交互過程中,人可以給車機輸入語音、圖像、表情、手勢、觸摸等多種模式的信息,機器可以綜合利用這多種輸入信息處理用戶的請求,從而提高人機交互的自然度和效率。多模態(tài)并非多個模態(tài)的集合,而是各單一模態(tài)之間的有機協(xié)同和整合[1]。
最后,需要指出的是,雖然當前汽車人機交互方式多種多樣,而且越來越智能,但是還沒有完全丟棄傳統(tǒng)的按鍵,因為相比較其他交互方式,物理按鍵最為可靠和安全,尤其是對車門、落鎖、發(fā)動機等跟車輛安全緊密相關的零部件和功能。
如上所述,語音交互是一個系統(tǒng)性的功能,涉及語音增強、語音識別和語義理解等多項技術。
1.2.1 語音增強
在人與車機的語音交互過程中,麥克風錄制的用戶語音信號,往往都會伴隨著車輛行駛的胎噪、發(fā)動機噪聲、開窗時的風噪、空調噪聲等,而且在高速、鬧市區(qū)等一些特定的場景下,噪聲信號甚至比用戶語音信號更強。另外,車機播放的音樂、提示音等也會跟著用戶語音信號一起被麥克風錄制進去。以上各種噪聲的存在,使得麥克風直接錄制到的用戶語音信號品質非常的差,如果直接將帶著噪聲信號的音頻送入識別,可想而知,效果會非常的差,基本上不可能完成人機交互的任務。因此,麥克風錄制的原始信號都會經(jīng)過語音信號的增強處理,“去除” (只能盡可能的降低噪聲,不可能完全去除)掉胎噪、風噪等噪聲和播放音樂和提示音等的回聲信號,提升用戶語音的信噪比,得到“干凈的”用戶語音信號。另外,通過麥克風陣列技術實現(xiàn)語音信號的分離和非目標區(qū)域的噪聲抑制,從而實現(xiàn)車內多音區(qū)交互[4]。
從技術發(fā)展上,語音增強從最初的單通道語音增強發(fā)展到基于麥克風陣列的多通道語音增強,以及在多音區(qū)上的優(yōu)化和應用。語音增強的算法也從傳統(tǒng)的數(shù)字信號處理方案發(fā)展到現(xiàn)在的基于深度學習的神經(jīng)網(wǎng)絡模型和數(shù)字信號處理相結合的方案。
1.2.2 語音喚醒
當前無論是汽車語音交互還是音箱、手機等語音交互,因為誤觸發(fā)問題還未達到全時免喚醒 (任何時候用戶都可以通過語音進行交互,而且有意圖的交互給出結果,用戶沒有交互意圖的時候不給響應)交互的狀態(tài)。在連續(xù)語流中實時檢測說話人特定語音片段的語音喚醒技術,是目前最主流的語音觸發(fā)方式。
從發(fā)展階段上來看,語音喚醒也經(jīng)歷3個階段:啟蒙階段、新技術探索階段和大規(guī)模產(chǎn)業(yè)化階段。從技術上來看,語音喚醒從最初的模板規(guī)則到最新基于神經(jīng)網(wǎng)絡的方案,喚醒的效果和誤喚醒的優(yōu)化都得到了很大提升[1]。
1.2.3 語音識別
簡單來說,語音識別就是將用戶所說語音信號轉換成文字,包括語音信號的特征提取和識別轉碼兩大過程。語音增強后的數(shù)字信號,提取音頻的特征 (如MFC特征)信息之后,經(jīng)過聲學模型和語言模型解碼,將音頻信號轉換成文本序列 (即識別文本)。其中,聲學模型判斷每段語音屬于各音素 (例如聲韻母)的概率,如用戶說的“中國”,聲學模型將其轉換成“zh”、“ong”、“g”、“uo”的音素序列。語言模型則反映字詞出現(xiàn)的先驗概率和詞順序是否符合語言習慣。如上文“中國”的聲學模型發(fā)音序列,通過聲韻母和字詞的組合,能夠出現(xiàn)很多候選序列,如“中國”、“鐘國”、“重過”,語言模型會判斷文字為“中國”的概率比“鐘國”和“重過”的概率大,從而最后輸出的文本序列為“中國”[4]。
1.2.4 語義理解
語義理解從用戶語音識別文本中抽取意圖和槽位,并結合交互邏輯給出提示語、信源搜索結果等。在語音交互對話系統(tǒng)中,語義理解一般主要包括:語義抽取、對話管理和語言生成。在技術方案上,近幾年隨著詞向量模型、端到端注意力模型以及谷歌最新BERT[5]模型的提出和應用,語義理解正確率在汽車垂直領域達到較好效果,基本能夠滿足用戶日常交互需求。但是,語義理解最核心的難點是語義表示問題和開放性說法等問題,導致在語義效果評判上很難統(tǒng)一,也是未來人機交互中最核心板塊。
1.2.5 語音合成
跟語音識別剛好相反,語音合成 (TTS)是將文本轉換為語音信號的過程。在人機交互系統(tǒng)中,機器給人的信息反饋,除了界面交互的展示之外,通過語音信號的合成和播報也是非常重要的方式之一。尤其是在汽車交互場景,TTS合成播報顯得尤為重要,好的TTS不僅能夠給用戶他想要的信息,同時能夠減少用戶轉移視線看車機屏幕的頻次和時間,從而大大的提升了駕駛的安全性。近年來基于神經(jīng)網(wǎng)絡技術的語音合成,在主觀體驗MOS分達4.5分,接近播音員水平。另外,當前在個性化合成、情感化合成以及方言小語種合成等方面繼續(xù)探索[6-7]。
下面以用戶一句語音交互請求為例,說明汽車語音交互整體鏈路和流程。
1)首先用戶發(fā)起語音請求 (一般通過語音喚醒詞喚醒或者車機按鍵,在此不贅述語音喚醒的過程),車機麥克風拾音之后,調用語音增強能力接口,對音頻做回聲消除、噪聲抑制等語音增強處理,提升音頻的品質。
2)語音增強之后的音頻進行識別轉寫,轉寫之后的文本做文本后處理,如標點符號的處理、敏感詞的檢測和大小寫規(guī)整等。
3)識別規(guī)整后的文本進行語義理解 (包括語義抽取、上下文交互、信源搜索、對話管理等),給出語義理解的結果。
4)車機端拿到語義結果之后解析出對應的技能名稱、意圖和語義槽,然后根據(jù)對應技能交互設計進行交互上的展示和操控 (如UI展示天氣查詢的結果、TTS播報天氣查詢結果、控制空調等)。
由上可知,從語音交互流程來說,語音交互過程大致可以分為錄音、語音增強、語音喚醒和識別、語義理解、語音合成和UI/UE交互展示,語音交互過程示意如圖1所示。
圖1 語音交互過程示意圖
從汽車語音交互整個鏈路來看,我們可以將其分為3大部分,車機端、云端調度和云端AI能力。
2.1.1 車機端
從整個車機端來說,主要包含系統(tǒng)硬件層、系統(tǒng)層和應用層。其中系統(tǒng)硬件作為車機最底層的設備,提供如錄音、屏幕觸控和展示、CPU核心運算能力等基礎能力支撐。系統(tǒng)層作為應用層和硬件層之間的橋梁,給應用層提供相應的硬件操作能力接口,如通過麥克風錄音、揚聲器實現(xiàn)提示語播報功能等。應用層作為人機交互的入口,則通過云加端AI核心能力的集成 (云端調度接口和本地AI能力SDK)、系統(tǒng)能力接口的調用和APP實現(xiàn)車內智能交互功能。當前科大訊飛語音交互系統(tǒng)中,語音增強、語音喚醒、語音識別、語義理解、語音合成等AI能力均實現(xiàn)了本地化,可以在無網(wǎng)絡或者弱網(wǎng)絡情況下實現(xiàn)用戶的語音交互需求,而且能達到很好的效果。如圖2所示。
圖2 車機端
2.1.2 云端調度
云端調度服務作為車機端和云端AI能力服務之間的連接橋梁,提供車機端請求云端的調度接口,然后根據(jù)車企項目配置的云端AI能力調度,獲取云端語音識別、語義理解等AI能力結果,并通過調度鏈路返回給車機端,如圖3所示。
圖3 云端調度服務
2.1.3 云端AI能力
相比本地車機端AI能力而言,云端AI能力具備更優(yōu)的性能和效果,而且云端的AI能力可以結合配套的平臺化工具體系進行靈活的配置,如是否進行識別后處理、語義理解支持的技能范圍、信源搜索調度配置等。另外,云端AI能力的升級相比本地端更方便,代價更小。一般在保證接口、協(xié)議等不變的情況下,可以根據(jù)效果、性能等方面的需求不斷迭代優(yōu)化升級。但是車機端的AI能力更新升級往往只能通過OTA的方式進行,甚至需要讓車主到4S店去升級。隨著移動互聯(lián)網(wǎng)和5G的發(fā)展,車企越來越注重云端AI能力的接入和持續(xù)迭代升級,這也為云端AI能力的智能性、創(chuàng)新性以及平臺化等方面帶來了挑戰(zhàn)。
提到主動交互,大家可能并不陌生,比如當我們走向車輛,汽車會通過傳感器或人臉識別等技術來以語音、燈光、全息影像、車外屏等形式來給我們來打招呼。不僅僅是用戶上車之前的一些主動式交互,在用戶駕駛過程中,甚至在用戶離開車輛之后,均會存在主動式交互的需求。比如用戶駕駛過程中主動監(jiān)測用戶是否在疲勞駕駛、身體健康數(shù)據(jù)等。主動式交互由機器發(fā)起,實時跟蹤、積累數(shù)據(jù),信息反饋變得更為及時有效,在為用戶帶來便利的同時,也提升了安全性。
汽車主動交互過程中,首先車機通過麥克風、攝像頭等采集車輛信息、路況信息、用戶信息以及環(huán)境感知等信息,然后對提取到的各種信息數(shù)據(jù)進行融合,提取對應的特征信息,上傳到認知決策模塊。場景引擎根據(jù)收集的信息判定是否符合特定的主動交互場景觸發(fā)條件,并結合推薦引擎推送的用戶個性化推薦數(shù)據(jù),對符合條件的場景,則向車機推送主動交互場景數(shù)據(jù),車機響應執(zhí)行并等待用戶的后續(xù)交互。大數(shù)據(jù)模塊則根據(jù)不斷收集到的數(shù)據(jù)信息進行大數(shù)據(jù)的挖掘分析,生成用戶畫像個性化數(shù)據(jù)、車輛畫像數(shù)據(jù)等大數(shù)據(jù)信息。推薦引擎則會根據(jù)用戶畫像個性化數(shù)據(jù)和車輛畫像數(shù)據(jù)生成推薦數(shù)據(jù)。最后,系統(tǒng)再根據(jù)車機端的執(zhí)行和用戶的后續(xù)交互反饋等信息,迭代優(yōu)化認知決策模塊的算法和數(shù)據(jù)收集策略、特征提取策略、感知融合算法等[8]。圖4為汽車主動交互過程示意圖。
圖4 汽車主動交互過程示意圖
以用戶導航過程中主動推薦沿途加油站為例,主動交互過程如圖5所示。用戶發(fā)起導航之后,感知收集服務收集位置信息、導航信息、油量油耗等數(shù)據(jù)信息,并實時計算,將計算結果數(shù)據(jù)給到場景引擎和推薦引擎,在滿足特定的加油站推薦場景 (如剩余油量較低、即將經(jīng)過用戶經(jīng)常加油的加油站等)下給用戶推薦合適的沿途加油站。最后將推薦數(shù)據(jù)下發(fā)到車機端,用戶做二次交互選擇。
圖5 汽車主動交互過程案例演示
智能座艙場景自定義是智能網(wǎng)聯(lián)汽車產(chǎn)品的重要組成部分之一,也是市場潮流發(fā)展的趨勢,用戶可以根據(jù)自己的喜好、安全意識、精神修養(yǎng)、兒童娛樂、生活習慣等行為,通過手機端設置,經(jīng)過云端,同步車機,快速語音、軟按鍵、主動等方式觸發(fā),串聯(lián)音樂、車窗、空調、座椅、氛圍燈等執(zhí)行動作自動運行。另外,智能座艙場景自定義通過積累并記錄用戶習慣選擇數(shù)據(jù),融合人工智能引擎和主動交互技術,與車輛、用戶、環(huán)境、生態(tài)、交通數(shù)據(jù)等深度挖掘,多維度融合,為用戶推薦經(jīng)典場景、高頻場景、主動提醒場景等模式,從而減少用戶操作行為,降低用戶負面情緒,提升用戶行車滿意度與行車安全性、感受沉侵式場景體驗。
用戶可以通過手機APP、車機APP、網(wǎng)頁平臺等多個終端入口完成場景自定義的功能,既可以自定義觸發(fā)的指令(如自定義的語音說法、車機軟硬按鍵、手勢等),也可以自定義指令觸發(fā)之后的執(zhí)行動作 (如播放歌曲、控制空調、形象互動等)。舉例來說,用戶可以定義觸發(fā)指令為語音說法“寶寶醒了”,執(zhí)行動作為播放兒歌+打開空調,編譯打包引擎將用戶定義的觸發(fā)指令和執(zhí)行動作編譯打包成特定格式的數(shù)據(jù),此數(shù)據(jù)作為用戶場景個性化數(shù)據(jù),識別和語義理解時均會用到。后面當用戶說到“寶寶醒了”的說法時,語義服務會讀取用戶自定義個性化數(shù)據(jù),匹配到觸發(fā)指令對應的執(zhí)行動作數(shù)據(jù),并下發(fā)到車機客戶端解析執(zhí)行。另外,用戶在自定義場景數(shù)據(jù)時,場景推薦引擎根據(jù)用戶交互習慣、熱點數(shù)據(jù)等給用戶推薦場景數(shù)據(jù)。匹配到觸發(fā)指令之后,執(zhí)行動作也會跟場景推薦引擎打通,給用戶做個性化推薦,如推薦加油站、歌曲等。場景自定義交互技術示意如圖6所示。
圖6 場景自定義交互技術示意圖
從按鍵交互到語音交互,再到多模交互;從被動式執(zhí)行交互再到主動式交互,當前汽車人機交互逐步向數(shù)字化、智能化和個性化發(fā)展。今后隨著5G的發(fā)展普及和人工智能算法的迭代發(fā)展,汽車主動化交互將會越來越智能和個性化。汽車會通過不斷優(yōu)化,綜合處理復雜的信息,為用戶提供最精準的解決方案,成為你越來越走心的朋友。而針對駕駛員和其他乘客提供個性化服務,具有更多的應用價值和更廣的前景。另外,在萬物互聯(lián)即將到來的時代,汽車作為人們出行必要的交通工具之一,必將會跟人們的出行、工作和生活的所有場景互聯(lián)互通,給用戶提供無縫銜接的智能化交互體驗,滿足人們在不同場景下的需求。