李雪驁
(中海油信息科技有限公司天津分公司,天津 300450)
數(shù)字化時(shí)代下,組織成員的角色和職能已經(jīng)發(fā)生改變。隨著數(shù)字技術(shù)的不斷成熟和應(yīng)用,數(shù)字員工逐漸進(jìn)入了人們的視野,并不斷應(yīng)用于各個(gè)領(lǐng)域和行業(yè)。未來,人機(jī)共生,大量數(shù)字員工的應(yīng)用將成為常態(tài)。這也促使組織管理不斷進(jìn)化,員工能力不斷躍升。2021 年,虛擬數(shù)字技術(shù)被納入“十四五”規(guī)劃綱要。在數(shù)實(shí)融合的趨勢下,科技企業(yè)以技術(shù)進(jìn)步推動應(yīng)用創(chuàng)新,加速數(shù)字人的場景化應(yīng)用落地。隨著NLP、ASR、TTS等技術(shù)的高速發(fā)展,數(shù)字員工技術(shù)正是聚合這些技術(shù)的典型應(yīng)用之一,通過AI 技術(shù)的賦能,能讓數(shù)字員工建立與真實(shí)世界的感知、連接、交互,真正做到服務(wù)型數(shù)字勞動生產(chǎn)力,讓傳統(tǒng)勞動力從煩瑣和消耗精力的流程性工作中解放出來,專注創(chuàng)新以及更具價(jià)值的活動,這種人類與計(jì)算機(jī)的交互、融合、共創(chuàng),可以充分提升人的潛能,創(chuàng)造更大的價(jià)值。
(1)計(jì)算機(jī)圖形學(xué)。虛擬數(shù)字人需要具有逼真的外觀和動作,因此計(jì)算機(jī)圖形學(xué)是其技術(shù)基礎(chǔ)之一。計(jì)算機(jī)圖形學(xué)可以通過三維建模、紋理映射等技術(shù),實(shí)現(xiàn)虛擬數(shù)字人的外觀設(shè)計(jì)和動畫效果。通過圖像處理和模式識別等方法,實(shí)現(xiàn)對虛擬人物的面部表情、動作和姿態(tài)等方面的模擬。
(2)語音合成技術(shù)。虛擬數(shù)字人需要能夠發(fā)出自然流暢的聲音,因此,語音合成技術(shù)是其重要組成部分。語音合成技術(shù)可以將文本轉(zhuǎn)換為聲音信號,使得虛擬數(shù)字人能夠像真正的人類一樣說話。主要分為語言分析部分和聲學(xué)系統(tǒng)部分,也稱為前端部分和后端部分。語言分析部分主要是根據(jù)輸入的文字進(jìn)行分析,提取出其中的語法、詞匯等信息;而聲學(xué)系統(tǒng)部分則是將這些信息轉(zhuǎn)換成聲音信號。
(3)自然語言處理技術(shù)。虛擬數(shù)字人需要能夠理解人類的語言,并做出相應(yīng)的回應(yīng)。自然語言處理技術(shù)可以分析人類語言的語義和語法,從而實(shí)現(xiàn)虛擬數(shù)字人的智能交互。
(4)機(jī)器學(xué)習(xí)和人工智能技術(shù)。虛擬數(shù)字人需要具備一定的智能和學(xué)習(xí)能力,以便更好地適應(yīng)不同的場景和需求。機(jī)器學(xué)習(xí)和人工智能技術(shù)可以通過數(shù)據(jù)訓(xùn)練和模型優(yōu)化,提高虛擬數(shù)字人的智能水平和交互效果。通過對大量數(shù)據(jù)的學(xué)習(xí),讓虛擬人物能夠自主學(xué)習(xí)和適應(yīng)不同的場景。
(5)語音驅(qū)動口唇技術(shù)。數(shù)字人形象依托語音驅(qū)動,鑒于語音與口唇動作有強(qiáng)相關(guān)性,對此設(shè)計(jì)語音特征抽取以及口唇系數(shù)預(yù)測模塊。語音特征抽取網(wǎng)絡(luò),抽取語音高階特征,捕說話人的共性信息;基于提取到的高階語音特征映射到口唇相關(guān)系數(shù)網(wǎng)絡(luò),基于擬合的口唇相關(guān)系數(shù),可良好地控制頭部運(yùn)動和嘴型等相關(guān)信息。
(6)傳感器技術(shù)和物聯(lián)網(wǎng)技術(shù)。虛擬數(shù)字人可以通過傳感器技術(shù)和物聯(lián)網(wǎng)技術(shù)獲取外部環(huán)境的信息,并作出相應(yīng)的反應(yīng)和調(diào)整。例如,在客戶服務(wù)領(lǐng)域,虛擬數(shù)字人可以通過傳感器感知用戶的位置和姿態(tài),從而提供更加個(gè)性化的服務(wù)。
(1)高度可定制化。虛擬數(shù)字人可以通過計(jì)算機(jī)技術(shù)和人工智能技術(shù)進(jìn)行個(gè)性化定制,從而滿足不同用戶的需求和喜好。
(2)24 小時(shí)不間斷服務(wù)。虛擬數(shù)字人可以全天候、全年無休地提供服務(wù),不會受到時(shí)間和空間的限制。
(3)高效便捷。虛擬數(shù)字人可以快速響應(yīng)用戶的請求,提高服務(wù)效率,減少人力成本和時(shí)間成本。
(4)智能交互。虛擬數(shù)字人可以通過自然語言處理技術(shù)和機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)智能交互,能夠理解人類的語言和意圖,并做出相應(yīng)的回應(yīng)。
(5)可擴(kuò)展性強(qiáng)。虛擬數(shù)字人可以通過添加新的組件和技術(shù)進(jìn)行擴(kuò)展和升級,不斷提高其性能和服務(wù)水平。
(6)應(yīng)用場景廣泛。虛擬數(shù)字人可以應(yīng)用于多個(gè)領(lǐng)域,如客戶服務(wù)、教育、醫(yī)療、娛樂等,具有非常廣泛的應(yīng)用前景和發(fā)展空間。
系統(tǒng)由前端、服務(wù)端和管理端組成。
(1)前端包括。智能語音輔助客戶端和chrome 瀏覽器插件。采集客戶語音輸入發(fā)送到服務(wù)端進(jìn)行轉(zhuǎn)寫和語義解析,同時(shí)根據(jù)語義解析結(jié)果執(zhí)行指令,控制終端設(shè)備顯示和語音播報(bào)??蛻舳酥С謜indows 以及Chrome瀏覽器操作。
(2)服務(wù)端提供。語音識別服務(wù)、語音合成服務(wù)和語義理解服務(wù)。支持用戶級、終端級智控方案配置,即智控內(nèi)容和指令配置。系統(tǒng)預(yù)置通用方案,用戶可按需定制專屬智控方案。知識庫支持閑聊、知識問答等知識配置。
(3)管理端主要包括演示管理和詞庫配置功能。演示管理用來設(shè)置和演示相關(guān)的清單、指令等信息,支持人工演示指令、錄音演示指令、擴(kuò)展指令和播報(bào)內(nèi)容配置;詞庫配置用來管理專有名詞和同義詞。
3.2.1 整體流程
客戶端采集并識別真人語音輸入對終端設(shè)備進(jìn)行操控,并支持播放場景智控錄音實(shí)現(xiàn)自動解說與終端操控。
3.2.2 語音指令解析流程
語音指令的解析流程是語音智控系統(tǒng)中最重要的流程。為保障系統(tǒng)的智能交互效果,語音智控系統(tǒng)采用了4 種方法支撐智能交互過程。
(1)關(guān)鍵詞匹配。分析文本中的關(guān)鍵詞及其同義詞,從語音智控系統(tǒng)的管理后臺的語音指令庫中匹配相關(guān)的指令。
(2)知識庫查詢。對接智能知識庫(XK 語言模型庫),從知識庫中匹配知識點(diǎn),獲取答案并返回。
(3)語義解析。集成語義理解引擎,通過語義解析流程獲取用戶的真實(shí)意圖,匹配知識點(diǎn),最終獲取答案并返回,支持多輪對話。
(4)AIUI 人工智能服務(wù)。對接在線人工智能交互服務(wù)接口(即AIUI 服務(wù))。AIUI 提供通用場景下以自然語言理解為核心的全鏈路人機(jī)交互服務(wù),使語音智控系統(tǒng)不需要后臺配置即可實(shí)現(xiàn)閑聊、查詢天氣、播放音視頻資源等語音交互過程。
本系統(tǒng)采用JAVAEE 技術(shù)體系進(jìn)行研發(fā),采用的開發(fā)框架為struts2+spring+hibernate。軟件基于組件開發(fā),通過相關(guān)的類和文件組裝成 JavaEE 應(yīng)用程序,與其他組件相交互,代碼重復(fù)減少,重用率高。有利于良好的分工與協(xié)作,實(shí)現(xiàn)并行開發(fā)。系統(tǒng)使用三層結(jié)構(gòu)開發(fā),層與數(shù)據(jù)訪問層相互獨(dú)立,方便擴(kuò)充表示層,具有良好可擴(kuò)展性。
JavaEE 的技術(shù)結(jié)構(gòu)分為三層,分別是表示層、中間層、數(shù)據(jù)層。表示層技術(shù)是在JSP 頁面中用HTML 標(biāo)簽、JavaScript 腳本、Ajax。需要注意的是,Ajax 并不是一種技術(shù),而是幾種技術(shù)的整合。它采用異步請求的方式,主要功能是向服務(wù)器端發(fā)送請求,處理數(shù)據(jù)或者根據(jù)返回的數(shù)據(jù)重新顯示頁面。中間層技術(shù)主要是JSP、Servlet、JSTL、JavaBean、Struts 框架。其中JSP 是顯示動態(tài)內(nèi)容的服務(wù)器網(wǎng)頁,Servlet 是接收客戶端的請求并作出響應(yīng),JSTL 是幫助JSP 顯示動態(tài)內(nèi)容的標(biāo)準(zhǔn)標(biāo)簽庫,JavaBean 是JavaEE 的模型組件。數(shù)據(jù)層技術(shù)用的是JDBC、JNDI、Hibernate 框架。其中,JDBC 是傳統(tǒng)的數(shù)據(jù)庫連接方式,JNDI 和Hibernate 只是擴(kuò)展了功能,并沒有完全替代了JDBC?,F(xiàn)在流行的是關(guān)系型的數(shù)據(jù)庫,我們所用的大多數(shù)都是,如SQL Server、Oracle、MySQL 等,Hibernate 框架技術(shù)是以對象的方式操作關(guān)系型的數(shù)據(jù)庫,以減少內(nèi)存的使用。
本系統(tǒng)主要涉及語音識別、語義理解、語音合成等三項(xiàng)技術(shù)。
3.3.1 語音識別技術(shù)
系統(tǒng)具備非特定人連續(xù)語音識別能力,能夠自動識別用戶語音并轉(zhuǎn)換為文字或語義。語音識別支持端點(diǎn)檢測、智能打斷,能夠識別帶方言口音的普通話,并具備對國內(nèi)各主要方言的識別能力。標(biāo)準(zhǔn)普通話的語音識別準(zhǔn)確率90%以上。
語音識別能力可正確識別客戶語音并理解意思,完成人機(jī)對話咨詢和業(yè)務(wù)等相關(guān)操作,并且是一款與說話人無關(guān)的語音識別系統(tǒng),該產(chǎn)品具備優(yōu)秀的識別率,產(chǎn)品核心技術(shù)上達(dá)到了國際領(lǐng)先水平。針對語音識別應(yīng)用中面臨的方言口音、背景噪聲等問題,基于實(shí)際業(yè)務(wù)系統(tǒng)中所收集的涵蓋不同方言和不同類型背景噪聲的海量語音數(shù)據(jù),通過先進(jìn)的區(qū)分性訓(xùn)練方法進(jìn)行語音建模,使語音識別在復(fù)雜應(yīng)用環(huán)境下均有良好的效果表現(xiàn)。
3.3.2 語音合成服務(wù)
系統(tǒng)提供語音合成,即能夠?qū)⑷我馕淖謨?nèi)容實(shí)時(shí)轉(zhuǎn)換為清晰、流暢、自然的語音。語音合成支持中文普通話,提供符合機(jī)器人定位的音色。語音合成自然度4.0 分及以上。
語音合成(Text-To-Speech),又稱為文語轉(zhuǎn)化,是將文本信息轉(zhuǎn)化為語音數(shù)據(jù)的技術(shù),涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、多媒體等多種前沿的高新科技,是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)。
語音合成系統(tǒng)的合成引擎在完成文本到語音數(shù)據(jù)的轉(zhuǎn)化過程中可以簡單分解為兩個(gè)步驟的處理。文本先經(jīng)過前端的語法分析,通過詞典和規(guī)則的處理,得到格式規(guī)范,攜帶語法層次的信息,傳送到后端。后端在前端分析的結(jié)果基礎(chǔ)上,經(jīng)過韻律方面的分析處理,得到語音的時(shí)長、音高等韻律信息,再根據(jù)這些信息在音庫中挑選最合適的語音單元,語音單元再經(jīng)過調(diào)整和拼接,就能得到最終的語音數(shù)據(jù)。
3.3.3 語義理解服務(wù)
自然語言理解服務(wù),理解客戶說話內(nèi)容并解析除對應(yīng)指令,以控制終端設(shè)備顯示及操作。能理解口語化表達(dá)的自然語言話術(shù),能有效地理解查詢中的模糊詞語、別名、簡稱、俗稱、錯(cuò)別字等。分詞和句式識別是自然語言理解的基礎(chǔ),通過將用戶完整的表述轉(zhuǎn)換成相應(yīng)的關(guān)鍵詞,并通過語意獲取相關(guān)的語義,最后通過內(nèi)容查詢到相關(guān)答案,影響分詞效果的好壞主要在于詞典的覆蓋程度和分詞的方法。
具備完善的通用詞典和通信行業(yè)應(yīng)用詞典,覆蓋到日常生活語言中的99%以上的詞條,擁有專業(yè)、準(zhǔn)確通信行業(yè)內(nèi)容儲備。
具有性能優(yōu)異的快速分詞匹配算法,對于中文而言,存在一個(gè)分詞算法的問題,因?yàn)橹形脑跁鴮懙臅r(shí)候并沒有像英文那樣以空格隔開一個(gè)個(gè)的詞,而且,也沒有統(tǒng)一的中文詞典。不同的分詞詞典導(dǎo)致不同的分詞結(jié)果,而不同的分詞結(jié)果必然對應(yīng)不同的搜索關(guān)鍵詞候選,對最終搜索性能產(chǎn)生重要的影響。主要具有以下特點(diǎn)。
(1)超大規(guī)模的詞典。詞典規(guī)模已經(jīng)達(dá)到:中文24 萬、英文12 萬。同時(shí),由于互聯(lián)網(wǎng)時(shí)代的到來,各種新詞、熱詞不斷涌現(xiàn),詞典還在不斷的發(fā)展中,主要采用自動統(tǒng)計(jì)的方法發(fā)現(xiàn)新詞、熱詞,然后人工確認(rèn)之后才加入到詞典中。這樣一個(gè)超大規(guī)模的詞典已經(jīng)能夠覆蓋到日常生活語言中的99%以上的詞條。并且擁有專業(yè)、準(zhǔn)確的行業(yè)內(nèi)容儲備。
(2)性能優(yōu)異的快速分詞匹配算法。對于中文而言,存在一個(gè)分詞算法的問題,因?yàn)橹形脑跁鴮懙臅r(shí)候并沒有像英文那樣以空格隔開一個(gè)個(gè)的詞,而且,也沒有統(tǒng)一的中文詞典。如“小花”,既可以是一個(gè)詞,也可以算是“小”和“花”兩個(gè)詞,類似的還有許多許多,如“囚衣”“千米”等。不同的分詞詞典導(dǎo)致不同的分詞結(jié)果,而不同的分詞結(jié)果必然對應(yīng)不同的搜索關(guān)鍵詞候選,對最終搜索性能產(chǎn)生重要的影響。直觀上,采用大的詞典使得分詞結(jié)果具有較大的粒度,因此詞語共現(xiàn)次數(shù)減少,同時(shí)也會使得結(jié)果中的每個(gè)詞具有更明確的語義,也因此可以避免一些無關(guān)的共現(xiàn),起到一定的語義消歧作作用,而采用小的詞典則正好相反。
根據(jù)在中文語音合成系統(tǒng)研究中分詞算法的研究經(jīng)驗(yàn),采用了較為常規(guī)但相當(dāng)有效的分詞算法,具體算法分為兩步。
首先,在給定詞典的基礎(chǔ)上,分別基于前向和后向最長匹配分詞算法構(gòu)建分詞網(wǎng)格,統(tǒng)計(jì)說明這樣構(gòu)建的分詞網(wǎng)格對正確分詞路徑的覆蓋率達(dá)到99.5%以上。
然后,以公式所示的詞頻連乘積最大為搜索目標(biāo),引入Viterbi 算法,從網(wǎng)格中搜索出最佳分詞路徑輸出。
該分詞算法能夠較好地做到分詞正確率和分詞效率的平衡,在固定分詞詞典的情況下,此分詞算法能比僅前向或者后向的分詞算法有較為明顯的提高。
前后向最大匹配算法后,我們做了分詞歧義處理來進(jìn)一步提升分詞的精度,采用了規(guī)則來處理,規(guī)則庫中含有數(shù)千條不同歧義的規(guī)則處理定義。具體來說,分詞歧義主要解決“復(fù)合肥”“和服務(wù)”之類的問題,以提高分詞的精度。
結(jié)合NLP、ASR 等技術(shù),通過ASR-NLP-TTS 實(shí)現(xiàn)文本驅(qū)動,通過預(yù)先設(shè)置的知識圖譜、語言模型、知識問答庫等與數(shù)字人你對話系統(tǒng)進(jìn)行對接,從而實(shí)現(xiàn)虛擬數(shù)字人從感知階段到表達(dá)階段的閉環(huán)驅(qū)動。依靠智能語音交互控制技術(shù),與業(yè)務(wù)系統(tǒng)結(jié)合,將系統(tǒng)操作簡單化、界面菜單扁平化。
通過創(chuàng)新性的數(shù)字員工形象,提供基于語音對話、觸控點(diǎn)選為一體的多模態(tài)虛擬交互服務(wù),解決了真人服務(wù)成本高、效率低等問題,為企業(yè)數(shù)字化轉(zhuǎn)型提供有力抓手。所以,數(shù)字人作為企業(yè)的一種數(shù)字生產(chǎn)力,是企業(yè)降本增效、數(shù)智化轉(zhuǎn)型不可或缺的生產(chǎn)工具,是多重技術(shù)融合應(yīng)用創(chuàng)造出的新型技術(shù)。利用虛擬形象資產(chǎn),以應(yīng)用場景為中心持續(xù)創(chuàng)新,進(jìn)一步鞏固企業(yè)的數(shù)字化業(yè)務(wù)能力,為企業(yè)探索組織發(fā)展、創(chuàng)新增效提供了全新的視角。