當(dāng)前,在云計(jì)算、大數(shù)據(jù)、AI 技術(shù)的賦能下,原有以電話為主要手段進(jìn)行客戶聯(lián)絡(luò)與營(yíng)銷的傳統(tǒng)呼叫中心,正在向云化、數(shù)據(jù)化、智能化為特征的全渠道多媒體客戶服務(wù)中心及營(yíng)銷中心轉(zhuǎn)變。尤其是以AI 語(yǔ)音技術(shù)為特色的“云+網(wǎng)+呼叫中心”的智能呼叫中心產(chǎn)品,解決了行業(yè)內(nèi)部現(xiàn)存各類問(wèn)題,提升客戶服務(wù)效率,優(yōu)化客戶體驗(yàn)。而以AI質(zhì)檢為代表的運(yùn)營(yíng)管理工具,在輔助客服人員服務(wù)過(guò)程的同時(shí),對(duì)坐席通話行為與內(nèi)容進(jìn)行分析抽查,進(jìn)而營(yíng)造出良性發(fā)展、更有秩序、更加規(guī)范的語(yǔ)音業(yè)務(wù)生態(tài)。綜上所述,AI 語(yǔ)音技術(shù)破除了政企語(yǔ)音市場(chǎng)規(guī)?;l(fā)展所遇到的障礙。
2017年9月6日,微軟小冰給人類打出第1個(gè)全雙工電話,2018 年5 月10 日,Google 在I/O 大會(huì)首次做了AI 電話Duplex。此后AI 語(yǔ)音技術(shù)在商業(yè)價(jià)值的驅(qū)動(dòng)下開(kāi)始了飛速發(fā)展。一個(gè)完整的利用電話進(jìn)行人機(jī)對(duì)話的流程如圖1 所示,通過(guò)語(yǔ)音識(shí)別(ASR)、語(yǔ)音合成(TTS)、自然語(yǔ)言處理(NLP)、聲紋識(shí)別(VPR)、文本分析(TA)等技術(shù)手段,依托語(yǔ)音信號(hào)處理、深度學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)挖掘等算法,實(shí)現(xiàn)人機(jī)溝通、信息傳遞、意圖表達(dá)、情感交流等行為。
圖1 基于電話的人機(jī)對(duì)話流程
語(yǔ)音識(shí)別即機(jī)器理解和識(shí)別人類語(yǔ)音信號(hào)并轉(zhuǎn)成文本的技術(shù),基本流程有3 個(gè)環(huán)節(jié):語(yǔ)音預(yù)處理數(shù)字化、特征提取、訓(xùn)練/識(shí)別,通用的語(yǔ)音識(shí)別算法是通過(guò)模式匹配與統(tǒng)計(jì)模型相結(jié)合的方式來(lái)實(shí)現(xiàn),先對(duì)已有的音素?cái)?shù)據(jù)構(gòu)建參考模板;再構(gòu)建參考模板和未知數(shù)據(jù)提取的模板之間測(cè)度函數(shù),最終用最佳準(zhǔn)則來(lái)識(shí)別決策。
第1 代的通用算法是HMM-GMM 混合高斯隱形馬爾科夫模型,該算法可以將聲學(xué)和句法集成在單一框架中,并使得連續(xù)語(yǔ)音識(shí)別成為可能,在業(yè)內(nèi)最早實(shí)現(xiàn)商用化,并持續(xù)商用了近30年。隨著深度學(xué)習(xí)理論下深度神經(jīng)網(wǎng)絡(luò)(DNN)的成熟,受限玻爾茲曼機(jī)(RBM)所堆疊出的深度置信網(wǎng)絡(luò)(DBN)替代了混合高斯模型(GMM),基于DNN-HMM 模型成為第2 代語(yǔ)音識(shí)別的主流算法,顯著降低了誤識(shí)別率,并激發(fā)了基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究熱潮。新的深度神經(jīng)網(wǎng)絡(luò)層出不窮,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)相比,網(wǎng)絡(luò)結(jié)構(gòu)更有優(yōu)勢(shì)更能成功地應(yīng)用到語(yǔ)音識(shí)別任務(wù)中,而長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)作為RNN 的一種典型網(wǎng)絡(luò),將識(shí)別準(zhǔn)確率較之前提高了6%~8%,成為第3代語(yǔ)音識(shí)別技術(shù)主體。近2年來(lái),研究者們發(fā)現(xiàn)RNN 的另一種典型網(wǎng)絡(luò)連接時(shí)序分類器(CTC)網(wǎng)絡(luò)不必再針對(duì)每一幀對(duì)語(yǔ)音進(jìn)行對(duì)齊的預(yù)處理操作,省去了耗時(shí)的反復(fù)多次迭代,徹底擺脫HMM 的框架,預(yù)測(cè)時(shí)的速度更快,識(shí)別速度更快,且更換識(shí)別語(yǔ)言體系時(shí)可以利用相同的框架結(jié)構(gòu)訓(xùn)練,實(shí)現(xiàn)了端到端的語(yǔ)音輸入到文字識(shí)別。該算法模型為語(yǔ)音識(shí)別第四代算法模型,稱為E2E 模型。目前該技術(shù)識(shí)別率處于國(guó)內(nèi)領(lǐng)先地位,16K 語(yǔ)音識(shí)別率超97%,8K 語(yǔ)音識(shí)別率超85%;識(shí)別速度實(shí)時(shí)率可以達(dá)到0.2~0.3;且支持英語(yǔ)等外語(yǔ)種、維藏蒙彝朝等少數(shù)民族語(yǔ)、粵語(yǔ)四川話閩南話等方言的識(shí)別。
語(yǔ)音合成即將文本轉(zhuǎn)成語(yǔ)音的過(guò)程,基本流程有4 個(gè)環(huán)節(jié):語(yǔ)義表示、語(yǔ)言編碼、發(fā)聲編碼、語(yǔ)音產(chǎn)生,實(shí)現(xiàn)了從意向到概念到聲碼器控制信號(hào)再到語(yǔ)音波形的轉(zhuǎn)化。
早期的語(yǔ)音合成是用最基本的語(yǔ)音單元,如音素、雙音素、半音節(jié)、音節(jié)作為合成單元,建立語(yǔ)音庫(kù),通過(guò)合成單元拼接而達(dá)到無(wú)限詞匯的合成,并通過(guò)聲碼器(如串并聯(lián)混合型共振峰合成器)來(lái)模擬發(fā)音過(guò)程中的聲道共振(串聯(lián)通道產(chǎn)生元音和濁輔音,并聯(lián)通道產(chǎn)生清輔音)。從20 世紀(jì)90 年代末,主流技術(shù)開(kāi)始使用存放大量真人語(yǔ)音樣本的語(yǔ)音庫(kù),通過(guò)選擇合適的拼接語(yǔ)音片段來(lái)實(shí)現(xiàn)高質(zhì)量的合成語(yǔ)音。2000 年以來(lái)語(yǔ)音合成是基于統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)的方法,通過(guò)建模加訓(xùn)練快速構(gòu)建合成系統(tǒng),構(gòu)成了第1 代語(yǔ)音合成算法的基石,即HMM 參數(shù)合成方法。和語(yǔ)音識(shí)別技術(shù)類似,深度神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)聲學(xué)建模方法也迅速成為語(yǔ)音合成的技術(shù)核心,第2 代基于DNN 的方法由于對(duì)高維聲學(xué)特征中各個(gè)維度相關(guān)性和輸入輸出復(fù)雜映射關(guān)系能夠更為精細(xì)化的建模,大大改進(jìn)了合成語(yǔ)音的音質(zhì)。而最新的第3 代基于端到端的模型預(yù)測(cè),將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和聲碼器的訓(xùn)練過(guò)程合二為一,不再需要人工錄音、標(biāo)注,通過(guò)機(jī)器自主訓(xùn)練具備與真人高相似度的音色,發(fā)音連接順暢,更貼近自然人發(fā)音。第三代的語(yǔ)音合成技術(shù)可基于應(yīng)用場(chǎng)景的不同,調(diào)整合成的語(yǔ)速、音色、音量等特征,匹配各場(chǎng)景需求,同時(shí)在語(yǔ)音素材庫(kù)中,擁有男聲、女聲、童聲等多種音色,每種音色均有不同發(fā)音人,無(wú)需重新進(jìn)行訓(xùn)練,使用同一個(gè)模型即可全面滿足各種應(yīng)用場(chǎng)景多樣需求。
自然語(yǔ)言處理是指在人機(jī)交互中機(jī)器理解自然語(yǔ)言,并做出響應(yīng)的技術(shù),解決人工智能完備性上的認(rèn)知智能問(wèn)題,具體技術(shù)手段仍為馬爾可夫統(tǒng)計(jì)學(xué)建模與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)相結(jié)合的方法。自然語(yǔ)言處理在分析對(duì)象上分為詞匯級(jí)、句子級(jí)和段落篇章級(jí),包含的功能要點(diǎn)有語(yǔ)法分析、語(yǔ)義表示、語(yǔ)義關(guān)系、語(yǔ)句生成以及單文本/多文本分析;在分析內(nèi)容上分為詞法分析、語(yǔ)法分析、語(yǔ)義分析、語(yǔ)用分析等。近10 年來(lái),自然語(yǔ)言處理都是基于神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)的。第1代自然語(yǔ)言處理利用淺層神經(jīng)網(wǎng)絡(luò),基于詞向量技術(shù),將用戶輸入問(wèn)題進(jìn)行分詞,利用關(guān)鍵詞的詞頻及詞權(quán)重進(jìn)行關(guān)鍵詞賦值,實(shí)現(xiàn)了詞匯級(jí)的理解;第2代自然語(yǔ)言處理基于深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù),從詞向量擴(kuò)展到句向量,進(jìn)而支持基于上下文的語(yǔ)義理解和多輪對(duì)話,目前是AI 機(jī)器人主流應(yīng)用技術(shù);第3 代自然語(yǔ)言處理基于更先進(jìn)的ELMo 算法,支持篇章級(jí)的語(yǔ)義抽取,對(duì)上下文的語(yǔ)義理解和多輪對(duì)話有了更進(jìn)一步的提升。隨著網(wǎng)絡(luò)深度的不斷增加和機(jī)器學(xué)習(xí)自主化的深入,自然語(yǔ)言處理系統(tǒng)一方面能夠應(yīng)用歷史積累的數(shù)據(jù),只需少量人工給出頭部結(jié)論,便可自主學(xué)習(xí)進(jìn)行知識(shí)歸類及認(rèn)知;另一方面能夠應(yīng)用歷史積累處理失敗數(shù)據(jù),無(wú)需人工參與,自主進(jìn)行無(wú)監(jiān)督聚類,挖掘出新的知識(shí)點(diǎn),并對(duì)舊的知識(shí)點(diǎn)進(jìn)行優(yōu)化。
通過(guò)ASR、TTS、NLP的技術(shù)演進(jìn)來(lái)看,技術(shù)的更新迭代周期是指數(shù)型的而非線性的,且最終都是通過(guò)AI領(lǐng)域最為核心的深度學(xué)習(xí)理論來(lái)實(shí)現(xiàn)。
整合前文所述業(yè)界領(lǐng)先的語(yǔ)音識(shí)別、語(yǔ)音合成與自然語(yǔ)言理解算法,結(jié)合運(yùn)營(yíng)商的語(yǔ)音能力開(kāi)放,再運(yùn)用數(shù)據(jù)挖掘、知識(shí)圖譜、數(shù)據(jù)可視化等相關(guān)輔助技術(shù),可打造一系列新型的AI語(yǔ)音產(chǎn)品,提供智能化語(yǔ)音服務(wù)與人工坐席的智能化支撐服務(wù),實(shí)現(xiàn)高效率、低成本的營(yíng)銷、客服、質(zhì)檢工作。作為運(yùn)營(yíng)商傳統(tǒng)語(yǔ)音業(yè)務(wù)的增值功能,可突破呼叫中心人工坐席各類瓶頸,提升企業(yè)的溝通效率,擴(kuò)大企業(yè)的銷售成果、品牌影響及市場(chǎng)地位。
AI語(yǔ)音產(chǎn)品的系統(tǒng)軟件架構(gòu)如圖2所示。
圖2 AI語(yǔ)音產(chǎn)品系統(tǒng)架構(gòu)圖
從軟件架構(gòu)來(lái)看,業(yè)務(wù)管理層面向不同應(yīng)用場(chǎng)景,對(duì)其業(yè)務(wù)進(jìn)行統(tǒng)一運(yùn)營(yíng)管理,滿足客戶預(yù)測(cè)式外呼、人機(jī)切換、純AI機(jī)器人3類需求場(chǎng)景;業(yè)務(wù)服務(wù)層整合引擎基礎(chǔ)能力,執(zhí)行具體業(yè)務(wù)邏輯處理,滿足客戶整體AI語(yǔ)音能力調(diào)用需求場(chǎng)景;能力引擎層提供AI語(yǔ)音的原子能力,當(dāng)前ASR 準(zhǔn)確率對(duì)于電話信道可達(dá)85%,ASR+話術(shù)訓(xùn)練后的NLP整體交互準(zhǔn)確率可達(dá)92%,滿足客戶語(yǔ)音識(shí)別高準(zhǔn)確性需求場(chǎng)景;基礎(chǔ)服務(wù)層對(duì)計(jì)算資源、存儲(chǔ)資源、線路資源進(jìn)行管理、監(jiān)控與災(zāi)備,滿足客戶電信級(jí)保障的高可用需求場(chǎng)景。
從產(chǎn)品功能來(lái)看,AI語(yǔ)音產(chǎn)品可以分為AI坐席產(chǎn)品與AI質(zhì)檢產(chǎn)品。AI坐席產(chǎn)品提供智能電話營(yíng)銷、智能問(wèn)卷調(diào)查、信息通知、活動(dòng)推薦、客服接待等服務(wù)。AI 質(zhì)檢產(chǎn)品基礎(chǔ)功能包括語(yǔ)音轉(zhuǎn)寫(xiě)、話者分離、關(guān)鍵詞檢出;核心功能包括話術(shù)規(guī)范分析、靜默分析、語(yǔ)速語(yǔ)調(diào)分析、意圖識(shí)別分析、禁語(yǔ)檢測(cè)、全文檢索、自動(dòng)定位問(wèn)題錄音、人工復(fù)檢、錄音回溯;管理功能包括結(jié)果報(bào)表生成、配置管理、詞庫(kù)管理、規(guī)則管理、監(jiān)控管理、計(jì)劃管理以及系統(tǒng)內(nèi)的權(quán)限管理、資源監(jiān)控和日志管理。下面分別介紹2個(gè)產(chǎn)品的功能特色。
2.2.1 AI坐席特色
AI 坐席產(chǎn)品的外呼功能主要定位于營(yíng)銷或回訪的應(yīng)用場(chǎng)景,有3 個(gè)優(yōu)勢(shì)特色:一是賦能電話呼叫業(yè)務(wù),實(shí)現(xiàn)高效率低成本轉(zhuǎn)化,完成客戶精準(zhǔn)篩選;二是支持預(yù)測(cè)式外呼(多并發(fā)),外呼事半功倍效率更高;三是通過(guò)客戶無(wú)感知的人機(jī)切換,能夠在發(fā)現(xiàn)重要商機(jī)的第一時(shí)間人工跟進(jìn)。
AI 坐席產(chǎn)品的呼入功能主要定位于投訴接待、業(yè)務(wù)咨詢等呼入場(chǎng)景,有3個(gè)優(yōu)勢(shì)特色:一是幫助客戶自助解決問(wèn)題,讓客戶享受菜單導(dǎo)航式的咨詢體驗(yàn),二是通過(guò)情感分析來(lái)提升人工客服質(zhì)量,通過(guò)分析負(fù)面情緒對(duì)應(yīng)的消息內(nèi)容,精準(zhǔn)定位服務(wù)存在的問(wèn)題,預(yù)先或有效及時(shí)解決訴求共性問(wèn)題、突發(fā)性事件或苗頭性問(wèn)題;三是結(jié)合大數(shù)據(jù)的輿情智能分析,可以統(tǒng)計(jì)出用戶的熱點(diǎn)問(wèn)題,準(zhǔn)確掌握用戶需求,及時(shí)了解社會(huì)熱點(diǎn)及用戶的狀況,尤其在政府機(jī)關(guān)、事業(yè)單位對(duì)熱門(mén)事件分析、地區(qū)輿情分析、市民咨詢與投訴熱點(diǎn)分析的場(chǎng)景中,優(yōu)勢(shì)最為明顯。
在外呼場(chǎng)景下,與人工坐席相比AI 坐席可提升3倍的客戶意向篩選效率,平均節(jié)省50%以上人力成本。同時(shí)AI 坐席產(chǎn)品的呼入功能可大幅提升客服工作效率與客戶滿意度,并為客戶節(jié)省45%以上的人力成本,如表1所示。
表1 AI坐席與人工坐席對(duì)比
2.2.2 AI質(zhì)檢特色
AI質(zhì)檢主要定位于企業(yè)自用和運(yùn)營(yíng)商監(jiān)管場(chǎng)景。
針對(duì)企業(yè)自用場(chǎng)景,AI 質(zhì)檢即可完成通話內(nèi)容的質(zhì)檢以及語(yǔ)音特征的質(zhì)檢,其中通話內(nèi)容的質(zhì)檢是根據(jù)質(zhì)檢規(guī)則加工和NLU 算法識(shí)別結(jié)果進(jìn)行比較,對(duì)通話內(nèi)容中的話術(shù)、關(guān)鍵詞、意向進(jìn)行分析與檢測(cè),并從大量語(yǔ)音中提取語(yǔ)調(diào)、語(yǔ)速、能量等多種特征,經(jīng)過(guò)多重神經(jīng)網(wǎng)絡(luò)訓(xùn)練,能夠判斷對(duì)話者的情緒,并做出簡(jiǎn)單的推理。進(jìn)而檢驗(yàn)人工坐席的客服人員話術(shù)是否規(guī)范統(tǒng)一,是否存在濫用;同時(shí)甄別客戶情緒,當(dāng)識(shí)別到客戶投訴意圖時(shí),可進(jìn)行后續(xù)的補(bǔ)償措施。
針對(duì)運(yùn)營(yíng)商監(jiān)管場(chǎng)景,AI 質(zhì)檢用于對(duì)雙方通話的行為、話術(shù)等進(jìn)行統(tǒng)一抽查分析,查驗(yàn)是否有違規(guī)業(yè)務(wù)的開(kāi)展。這一過(guò)程需要人機(jī)協(xié)作來(lái)進(jìn)行質(zhì)檢,即根據(jù)不同角色的工作職責(zé),自動(dòng)質(zhì)檢后臺(tái)系統(tǒng)為業(yè)務(wù)人員提供相對(duì)應(yīng)的人機(jī)協(xié)作質(zhì)檢功能。
由于AI質(zhì)檢+人工復(fù)檢覆蓋率與效率遠(yuǎn)超過(guò)人工抽檢質(zhì)檢,解決普通質(zhì)檢覆蓋面小、對(duì)精準(zhǔn)服務(wù)能力提高支撐不足的問(wèn)題,規(guī)避了坐席主觀記錄導(dǎo)致的工單的真實(shí)性和完善性存疑問(wèn)題,快速提升精準(zhǔn)服務(wù)能力,降低人工話務(wù)壓力。結(jié)合后端對(duì)垂直行業(yè)的深度數(shù)據(jù)挖掘分析,更能充分利用呼入電話中蘊(yùn)藏的海量用戶行為數(shù)據(jù),為企業(yè)業(yè)務(wù)經(jīng)營(yíng)提供強(qiáng)大的支撐手段,對(duì)垂直行業(yè)領(lǐng)域的銷售/服務(wù)模式產(chǎn)生深遠(yuǎn)影響。
2.3.1 預(yù)測(cè)式外呼
預(yù)測(cè)式外呼即呼叫中心系統(tǒng)通過(guò)自動(dòng)撥號(hào)功能,對(duì)當(dāng)前空號(hào)、忙線與其他無(wú)效通話狀態(tài)進(jìn)行過(guò)濾,接通后再轉(zhuǎn)給坐席,減少用戶等待或坐席等待的情況發(fā)生。而結(jié)合AI外呼的預(yù)測(cè)式外呼,將通話接通后轉(zhuǎn)給AI 坐席,通過(guò)AI 的初步意向篩選再轉(zhuǎn)接給人工。過(guò)濾+初篩可以大幅減少人工坐席的工作量,提升人力資源的投入產(chǎn)出比,讓人工坐席解答更為專業(yè)的問(wèn)題。同時(shí)根據(jù)呼叫接通率和意向初篩比例情況,可以動(dòng)態(tài)調(diào)整AI坐席數(shù)量和人工坐席數(shù)量,合理配比優(yōu)化資源。如圖3 舉例,如每天外呼并發(fā)量是X,且接通率僅50%,那么AI坐席數(shù)量可設(shè)置為50%X,如果意向篩選大概50%才有意向,那么人工坐席數(shù)量可設(shè)置為25%X,圖4為一個(gè)信用卡營(yíng)銷的實(shí)際案例數(shù)據(jù)。
2.3.2 AI外呼智能回訪
圖3 預(yù)測(cè)式外呼示意圖
圖4 智能回訪示意圖
智能回訪信息采集是AI 外呼另外一個(gè)重要應(yīng)用場(chǎng)景,設(shè)定回訪話術(shù)并將回訪人員名單導(dǎo)入系統(tǒng)后,系統(tǒng)按照需要調(diào)查的問(wèn)題批量發(fā)起對(duì)被調(diào)查者的通話,并通過(guò)擬人對(duì)話、對(duì)被調(diào)查者的語(yǔ)音識(shí)別、采集被調(diào)者的按鍵反饋來(lái)實(shí)現(xiàn)回訪的數(shù)據(jù)收集。
該應(yīng)用場(chǎng)景為2020 年的疫情防控提供了較大的幫助,社區(qū)通過(guò)AI 智能回訪與轄區(qū)人員電話溝通,并自動(dòng)生成調(diào)查結(jié)果,當(dāng)識(shí)別到高危人士或調(diào)查發(fā)現(xiàn)高危情況,系統(tǒng)立刻實(shí)時(shí)在線將電話自動(dòng)轉(zhuǎn)接人工,保證高危信息第一時(shí)間獲得處理和跟進(jìn)。所有通話中產(chǎn)生的調(diào)查結(jié)果自動(dòng)形成標(biāo)簽分類統(tǒng)計(jì),迅速形成報(bào)表,以便上報(bào)上級(jí)單位。
2.3.3 AI客服政務(wù)大廳
AI 客服所賦能的智慧政務(wù)是AI 語(yǔ)音技術(shù)的一個(gè)重要應(yīng)用場(chǎng)景。為了全面提升政務(wù)服務(wù)規(guī)范化、便利化水平,為群眾提供高效、便捷的政務(wù)服務(wù),國(guó)家指導(dǎo)各政務(wù)部門(mén)通過(guò)“12345”等政務(wù)服務(wù)熱線集中接受社會(huì)公眾的咨詢、求助、意見(jiàn)、建議和投訴,進(jìn)而整合現(xiàn)有政民互動(dòng)渠道,提供政策法規(guī)、辦事程序、生活指南及查詢有關(guān)部門(mén)職能范圍等咨詢服務(wù)。與此同時(shí),國(guó)家標(biāo)準(zhǔn)委制定了量化標(biāo)準(zhǔn),即每周7 天,每天24 h 工作制,電話受理時(shí)應(yīng)在15 s之內(nèi)接聽(tīng),連續(xù)24 h內(nèi)呼叫接通率應(yīng)大于等于95%。
AI 客服恰恰契合智慧政務(wù)的一系列要求,依托電話、微信、app、網(wǎng)絡(luò)在線等眾多服務(wù)渠道,通過(guò)智能語(yǔ)音、文字、圖片、視頻等多種方式與公眾進(jìn)行遠(yuǎn)程多媒體交互,并且對(duì)外提供智能服務(wù)接待、業(yè)務(wù)導(dǎo)辦與辦理、智能外呼調(diào)研等服務(wù),支撐政府“不見(jiàn)面”服務(wù)的順利開(kāi)展;對(duì)內(nèi)基于大數(shù)據(jù)和AI等技術(shù),提供輿情分析、決策輔助等服務(wù),利用智能化手段助力政務(wù)服務(wù)的高效開(kāi)展,提高政府服務(wù)力、公信力,提升群眾滿意度。
2.3.4 AI質(zhì)檢通信監(jiān)管
通話監(jiān)管是AI質(zhì)檢產(chǎn)品一個(gè)較新的應(yīng)用場(chǎng)景,與面向客服水平提升的質(zhì)檢場(chǎng)景不同,此場(chǎng)景下的目標(biāo)是檢驗(yàn)通話過(guò)程是否存在違規(guī)的紅線業(yè)務(wù),如互聯(lián)網(wǎng)金融推銷、詐騙等情況,以及號(hào)碼在使用過(guò)程中是否存在不符合登記用途的通話行為,并不關(guān)心業(yè)務(wù)邏輯和話術(shù)的匹配性以及語(yǔ)調(diào)語(yǔ)速的規(guī)范性。
該場(chǎng)景的難點(diǎn)在于大多通話無(wú)標(biāo)準(zhǔn)話術(shù),故在質(zhì)檢流程上引入了2 個(gè)環(huán)節(jié),分類器初步分類與關(guān)鍵詞比對(duì)。分類器初步分類是指采用深度學(xué)習(xí)的方式,使用標(biāo)記好分類的大規(guī)模數(shù)據(jù)集對(duì)分類器進(jìn)行訓(xùn)練,將分類器訓(xùn)練成為能夠理解篇章級(jí)對(duì)話并能通過(guò)對(duì)話識(shí)別其所屬行業(yè)的分類器,再將此分類器對(duì)實(shí)際錄音進(jìn)行推斷。推斷分類后的錄音擁有了分類的標(biāo)簽,再根據(jù)分類標(biāo)簽對(duì)應(yīng)的關(guān)鍵詞庫(kù)進(jìn)行關(guān)鍵詞比對(duì),對(duì)錄音進(jìn)行最終的違規(guī)性判別確認(rèn)。AI 質(zhì)檢和傳統(tǒng)質(zhì)檢的全量文本比對(duì)相比,引入了分類環(huán)節(jié),省去了關(guān)鍵詞庫(kù)每個(gè)詞匯要全文搜索的計(jì)算步驟,計(jì)算效率更高,誤報(bào)率與漏檢率更低,更適合于大話務(wù)量的語(yǔ)音平臺(tái)質(zhì)檢。
在技術(shù)浪潮推動(dòng)下,面向呼叫中心、客服中心的智能化升級(jí)是大勢(shì)所趨,但AI語(yǔ)音產(chǎn)品如何更好地內(nèi)嵌到已有的呼叫中心系統(tǒng)中,AI 語(yǔ)音技術(shù)如何更好地賦能呼叫中心業(yè)務(wù)場(chǎng)景是當(dāng)下智能化升級(jí)面臨的主要問(wèn)題。
一個(gè)數(shù)字化、云化的呼叫中心系統(tǒng)結(jié)構(gòu)通常分為接入管理、通信管理、基礎(chǔ)內(nèi)核、運(yùn)營(yíng)監(jiān)控管理、開(kāi)放能力5部分,AI語(yǔ)音產(chǎn)品與呼叫中心系統(tǒng)在基礎(chǔ)內(nèi)核、運(yùn)營(yíng)監(jiān)控管理、開(kāi)放能力3 個(gè)部分具有耦合關(guān)系(見(jiàn)圖5)。
早期的AI 語(yǔ)音技術(shù)是通過(guò)媒體資源控制協(xié)議(MRCP)以語(yǔ)音識(shí)別(ASR)和語(yǔ)音合成(TTS)這種AI語(yǔ)音原子能力的方式,面向語(yǔ)音通信產(chǎn)品提供服務(wù)。該協(xié)議依賴會(huì)話發(fā)起協(xié)議(SIP)來(lái)協(xié)調(diào)和管理MRCP客戶端和服務(wù)端之間的會(huì)話,依賴會(huì)話描述協(xié)議(SDP)來(lái)描述、發(fā)現(xiàn)和進(jìn)行媒體交互,并依賴SIP 和SDP來(lái)與媒體服務(wù)端之間建立媒體會(huì)話交互。當(dāng)媒體通道建立后,客戶端可以通過(guò)SIP 會(huì)話控制語(yǔ)音資源服務(wù)端上的媒體處理資源。該協(xié)議最后一個(gè)版本定稿于2012 年,它的缺點(diǎn)在于未考慮到NLP 能力,也未考慮人機(jī)對(duì)話中常見(jiàn)的打斷、靜音等擬人化場(chǎng)景,故呼叫中心平臺(tái)要支持靜音檢測(cè)、打斷識(shí)別、語(yǔ)義分析、情緒識(shí)別等功能,并要維系多輪對(duì)話、處理話術(shù)邏輯、把握人機(jī)切換時(shí)機(jī),對(duì)呼叫中心要求過(guò)高,AI 整體擬人化效果很低,并非主流方案。
當(dāng)前AI 坐席是作為整體能力提供服務(wù)的,即ASR、NLP、TTS 集成在一起,其優(yōu)勢(shì)在于支持靜默提醒、打斷功能,擬人化程度非常高;可根據(jù)需求編輯跳轉(zhuǎn)人工坐席的話術(shù)節(jié)點(diǎn),減少了對(duì)呼叫中心平臺(tái)的適配要求;話術(shù)可基于深度學(xué)習(xí)技術(shù)針對(duì)不同行業(yè)背景進(jìn)行訓(xùn)練與調(diào)優(yōu),話術(shù)制作可以通過(guò)錄音師錄音替代TTS 合成,進(jìn)一步提升了通話過(guò)程中的客戶體驗(yàn)。整體能力調(diào)用有2 種具體實(shí)現(xiàn)方案,每種方案皆支持機(jī)器人意向篩選(AI 預(yù)測(cè)式外呼)、在線轉(zhuǎn)人工坐席(人機(jī)耦合)、坐席輔助(監(jiān)聽(tīng)對(duì)話主動(dòng)介入)的應(yīng)用場(chǎng)景。
圖5 AI語(yǔ)音產(chǎn)品與呼叫中心產(chǎn)品耦合關(guān)系圖
3.1.1 AI坐席API對(duì)接
該對(duì)接方案是指呼叫中心使用AI 語(yǔ)音產(chǎn)品提供的Restful API對(duì)其能力進(jìn)行整體調(diào)用,步驟如下:
a)呼叫中心平臺(tái)獲取APP_KEY 和APP_SE?CRET,配置信息回調(diào)地址,用于調(diào)用API 并接收AI 回傳的數(shù)據(jù)。
b)呼叫中心平臺(tái)調(diào)用創(chuàng)建任務(wù)接口,選擇話術(shù)、設(shè)置AI 坐席數(shù)量,并將AI 坐席設(shè)置成呼入坐席狀態(tài);呼叫中心平臺(tái)調(diào)用客戶導(dǎo)入接口,將CRM 中的客戶名稱和電話號(hào)碼批量導(dǎo)入到任務(wù)中。
c)呼叫中心平臺(tái)通過(guò)雙向回?fù)艿姆绞剑p呼)發(fā)起呼叫,其中AI 語(yǔ)音平臺(tái)需要將AI 坐席的狀態(tài)(如未呼通、對(duì)方忙線、對(duì)方掛斷)實(shí)時(shí)通知呼叫中心平臺(tái)。
d)當(dāng)需要AI 坐席與人工坐席切換時(shí),AI 語(yǔ)音平臺(tái)話術(shù)節(jié)點(diǎn)自動(dòng)調(diào)用接口告知呼叫中心平臺(tái),呼叫中心平臺(tái)將話務(wù)從AI 坐席和被叫的通話切換至人工坐席和被叫的通話。
3.1.2 AI坐席SIP Trunk方式對(duì)接
該對(duì)接方案是指呼叫中心向AI語(yǔ)音產(chǎn)品提供SIP中繼功能,由AI語(yǔ)音平臺(tái)借助呼叫中心的話務(wù)通道發(fā)起呼叫,步驟如下:
a)呼叫中心提供人工坐席隊(duì)列呼入地址(SIP URI)供AI坐席轉(zhuǎn)接呼叫。
b)在AI 話術(shù)中配置轉(zhuǎn)人工節(jié)點(diǎn)和轉(zhuǎn)接地址(SIP URI)。
c)AI 語(yǔ)音平臺(tái)以SIP Trunk 形式與呼叫中心建立互聯(lián)互通,根據(jù)任務(wù)發(fā)起呼叫。
d)AI坐席與客戶通話過(guò)程中觸發(fā)了轉(zhuǎn)人工節(jié)點(diǎn),AI語(yǔ)音平臺(tái)通過(guò)SIP 協(xié)議將呼叫送到呼叫中心人工坐席隊(duì)列,同時(shí)將AI 與客戶的通話數(shù)據(jù)傳入呼叫中心,由人工坐席與客戶繼續(xù)通話。
3.1.3 不同對(duì)接方式對(duì)比分析
方式1 的主要調(diào)用方是呼叫中心平臺(tái),優(yōu)勢(shì)在于整個(gè)呼叫流程由呼叫中心平臺(tái)進(jìn)行把控,呼叫頻次與業(yè)務(wù)處理并發(fā)能力配置比較靈活;劣勢(shì)在于呼叫中心平臺(tái)需要做一些適配開(kāi)發(fā),且占用了2 個(gè)大網(wǎng)號(hào)碼與語(yǔ)音通道。
基于多參數(shù)規(guī)劃的有源配電網(wǎng)分布式光伏容量評(píng)估方法//王宣定,吳文傳,劉鐳,劉海濤,潘東//(24):20
方式2 的主要調(diào)用方是AI 語(yǔ)音平臺(tái),其優(yōu)勢(shì)在于僅使用一個(gè)號(hào)碼與語(yǔ)音通道;劣勢(shì)在于并不是所有呼叫中心都支持SIP Trunk 方式對(duì)接,或呼叫中心的業(yè)務(wù)邏輯處理層無(wú)法感知通信層的請(qǐng)求,人工切換的業(yè)務(wù)回調(diào)無(wú)法實(shí)現(xiàn)。
AI 質(zhì)檢產(chǎn)品根據(jù)實(shí)時(shí)性的需求可分為離線質(zhì)檢與實(shí)時(shí)質(zhì)檢,離線質(zhì)檢的系統(tǒng)對(duì)接方式較為簡(jiǎn)單,通過(guò)http或ftp的方式在呼叫中心平臺(tái)拉取或由呼叫中心平臺(tái)推送錄音文件與隨路數(shù)據(jù)即可,下文主要介紹實(shí)時(shí)質(zhì)檢系統(tǒng)對(duì)接方案。
3.2.1 AI質(zhì)檢協(xié)議方式對(duì)接
該方案使用MRCP 協(xié)議,將ASR 原子能力提供給呼叫中心平臺(tái),但涉及到主被叫信息以及隨路數(shù)據(jù)的傳輸,需要對(duì)協(xié)議進(jìn)行修改,步驟如下:
a)呼叫中心平臺(tái)呼出或呼入時(shí),通過(guò)MRCP 協(xié)議調(diào)用AI語(yǔ)音平臺(tái)的AI實(shí)時(shí)轉(zhuǎn)寫(xiě)能力。
b)呼叫中心平臺(tái)將通話媒體數(shù)據(jù)與信令中的主被叫信息傳給AI語(yǔ)音平臺(tái)的質(zhì)檢系統(tǒng)進(jìn)行實(shí)時(shí)分析。
c)將質(zhì)檢后信息以文本方式發(fā)至人工坐席所在PC,實(shí)現(xiàn)坐席彈屏的話務(wù)輔助。
d)當(dāng)質(zhì)檢過(guò)程中識(shí)別到敏感詞時(shí),AI語(yǔ)音平臺(tái)通知呼叫中心平臺(tái)進(jìn)行話路強(qiáng)制拆除。
該方案通過(guò)交換機(jī)鏡像口獲取呼叫中心平臺(tái)的所有數(shù)據(jù),并通過(guò)協(xié)議分析的方式提取主被叫信息與媒體流,進(jìn)行解碼、轉(zhuǎn)寫(xiě)與質(zhì)檢,步驟如下:
a)AI 語(yǔ)音平臺(tái)的抓包服務(wù)器與呼叫中心平臺(tái)接到同一個(gè)交換機(jī)上,其中交換機(jī)需做鏡像口配置。
b)AI 語(yǔ)音平臺(tái)質(zhì)檢系統(tǒng)通過(guò)抓包服務(wù)器將抓取通話媒體數(shù)據(jù)與信令中的主被叫信息,傳給AI語(yǔ)音平臺(tái)的質(zhì)檢系統(tǒng)進(jìn)行實(shí)時(shí)分析。
c)將質(zhì)檢后信息以文本方式發(fā)至人工坐席所在PC,實(shí)現(xiàn)坐席彈屏的話務(wù)輔助。
d)當(dāng)質(zhì)檢過(guò)程中識(shí)別到敏感詞時(shí),AI語(yǔ)音平臺(tái)通知坐席,告警提示人工坐席手動(dòng)拆除話路。
3.2.3 不同對(duì)接方式對(duì)比分析
方式1 主要通過(guò)協(xié)議方式實(shí)現(xiàn)系統(tǒng)對(duì)接,其優(yōu)勢(shì)在于通話數(shù)據(jù)在呼叫中心平臺(tái)進(jìn)行了復(fù)制,一路傳送至坐席,一路傳送至質(zhì)檢系統(tǒng)進(jìn)行分析,實(shí)時(shí)性較好,且可以通過(guò)告知呼叫中心平臺(tái)來(lái)進(jìn)行話路強(qiáng)拆;其劣勢(shì)在于協(xié)議標(biāo)準(zhǔn)沒(méi)有坐席、技能組等業(yè)務(wù)側(cè)的關(guān)鍵字段,呼叫中心平臺(tái)對(duì)于非標(biāo)準(zhǔn)字段需要做適配開(kāi)發(fā)。
方式2 主要通過(guò)抓包方式實(shí)現(xiàn)系統(tǒng)對(duì)接,其優(yōu)勢(shì)在于呼叫中心平臺(tái)無(wú)需做任何更改;劣勢(shì)在于需要網(wǎng)絡(luò)設(shè)備的配合,對(duì)抓包服務(wù)器的網(wǎng)絡(luò)吞吐性能要求較高;抓包與協(xié)議解析增加了處理時(shí)延;無(wú)法對(duì)話路進(jìn)行強(qiáng)拆僅能以文本形式告警給坐席端。
以AI坐席產(chǎn)品與AI質(zhì)檢產(chǎn)品為代表的AI語(yǔ)音產(chǎn)品實(shí)現(xiàn)了主流AI技術(shù)的快速產(chǎn)品化落地,短短幾年內(nèi)產(chǎn)品成熟度不斷提高,并幾乎在各個(gè)垂直行業(yè)都創(chuàng)造出極具價(jià)值的商業(yè)案例,突破了語(yǔ)音業(yè)務(wù)傳統(tǒng)技術(shù)帶來(lái)的瓶頸,產(chǎn)生了巨大的經(jīng)濟(jì)利益與社會(huì)效益。
然而,AI 產(chǎn)品對(duì)人工的完全替代還是遙不可及的,在呼叫中心或客服中心,AI 坐席作為人工坐席入口的第一防線,這種輔助性地位仍將長(zhǎng)期保持不變。隨著AI語(yǔ)音技術(shù)的進(jìn)一步演進(jìn),AI語(yǔ)音產(chǎn)品的技術(shù)指標(biāo)也會(huì)不斷提升,但如自然語(yǔ)言理解、機(jī)器學(xué)習(xí)中的自學(xué)習(xí)技術(shù)需有顛覆性的突破,AI 的理解力、回答力、執(zhí)行力才會(huì)有質(zhì)的飛躍。
在可預(yù)期的未來(lái),AI 語(yǔ)音能力將會(huì)與AI 視頻能力、文本信息的數(shù)據(jù)挖掘能力進(jìn)行進(jìn)一步整合,輸出一個(gè)感知智能與認(rèn)知智能相結(jié)合的完整AI能力,并支持渠道融合、數(shù)據(jù)融合的各類擴(kuò)展,在對(duì)復(fù)雜語(yǔ)義、復(fù)雜情感的判斷上,對(duì)工單流轉(zhuǎn)、業(yè)務(wù)流程的理解上,對(duì)垂直行業(yè)細(xì)分領(lǐng)域的積累上,都會(huì)明顯優(yōu)于人工。屆時(shí),圍繞AI語(yǔ)音技術(shù)的智能交互結(jié)合各類渠道,將觸及行業(yè)、企業(yè)、個(gè)人所有溝通關(guān)系,智能交互產(chǎn)品將以獨(dú)立自主營(yíng)銷拓客、獨(dú)立自主解決用戶問(wèn)題為根本導(dǎo)向,進(jìn)行主動(dòng)聯(lián)絡(luò)、意圖判斷乃至管理決策,營(yíng)造出嶄新的政企智能服務(wù)生態(tài)。