胡 宏
江蘇號百信息服務(wù)有限公司
通過撥打運營商特服號碼進行業(yè)務(wù)受理退定、積分兌換、預(yù)約掛號等業(yè)務(wù)是運營商給市民提供的便捷線上電話受理服務(wù),這種方式給市民提供了一條直接的溝通渠道。然而在實際使用中,我們發(fā)現(xiàn)了一些問題,老年客戶群體在使用電話進行業(yè)務(wù)辦理時,往往使用不是非常順暢。其焦點問題在于業(yè)務(wù)受理退定、積分兌換、預(yù)約掛號等業(yè)務(wù)通常需要輸入服務(wù)密碼,老年客戶群體往往記不住自己密碼或不知道服務(wù)密碼是什么,因此在業(yè)務(wù)受理時,話務(wù)員通常要花很多時間對老年客戶群體進行輔導(dǎo)和確認,服務(wù)效率大為降低。面對老年客戶群體,如何在提升服務(wù)質(zhì)量的同時提高服務(wù)效率,成為擺在運營商面前的新課題。
近幾年來,智能語音技術(shù)發(fā)展迅速,其中語音識別、聲紋識別兩項核心技術(shù)進步速度尤為突出。利用語音識別技術(shù)將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀信息的輸入,在很多人機交互場景中得到廣泛應(yīng)用。語音識別技術(shù)在電信運營商內(nèi)部的應(yīng)用也愈發(fā)廣泛成熟,各大運營商的客服熱線均使用了此技術(shù),隨著語音識別率的提升,客戶體驗感越來越好。聲紋技術(shù)則是智能語音技術(shù)的另一項重要分支,又稱為說話人識別,即通過聲音來辨別誰在說話,其核心技術(shù)是根據(jù)語音信號中說話人的個性化信息來識別說話人生物信息。隨著聲紋識別技術(shù)的大幅進步,在電話信道中識別出說話人是否為本人,已經(jīng)具備可能性。語音識別技術(shù)和聲紋識別技術(shù)各有所長,兩者結(jié)合應(yīng)用可以產(chǎn)生很好的作用。
基于運營商電話語音通道,語音識別技術(shù)和聲紋識別技術(shù)可以成為運營商在適老化服務(wù)領(lǐng)域破題的關(guān)鍵鑰匙。通過建立“智能采集+聲紋識別+語音識別”為內(nèi)核的智能適老化語音系統(tǒng),形成智能化適老化服務(wù)體系,提供真正意義上的適老化便捷服務(wù)。
智能適老化語音系統(tǒng)的總體框架如圖1所示。
系統(tǒng)分為3層,分別是話務(wù)接口層、鑒別能力層和應(yīng)用層。話務(wù)接口層主要應(yīng)用運營商的話務(wù)能力,提供外呼錄音采集和實時電話鏡像及提醒服務(wù)。鑒別能力層主要提供了聲紋識別和語音/語義識別能力。而綜合管理模塊則提供了數(shù)據(jù)服務(wù)、統(tǒng)計服務(wù)和其他各項能力。
智能適老化語音系統(tǒng)的運轉(zhuǎn)流程如圖2所示,具體流程如下:(1)通過智能語音外呼進行錄音預(yù)采集,并通過語音語義識別輔助判斷音頻有效性,建立客戶錄音庫;(2)轉(zhuǎn)化電話錄音到聲紋特征庫;(3)通話實時鏡像采集,啟動聲紋實時采集并判斷;(4)推送判斷結(jié)果至話務(wù)系統(tǒng),輔助話務(wù)員進行鑒權(quán)操作。
圖2 智能適老化語音系統(tǒng)場景實現(xiàn)
智能適老化語音系統(tǒng)核心模塊為語音語義識別模塊、聲紋識別模塊。語音語義識別模塊采用國際領(lǐng)先的語音識別引擎,可根據(jù)智能客服領(lǐng)域常用詞匯構(gòu)建語言模型和聲學模型,從而將語音識別為最終對應(yīng)的文本內(nèi)容。語義理解采用先進的語義匹配算法,能夠?qū)崿F(xiàn)機器人按照既定邏輯進行AI交互,簡潔的圖形化配置UI大大降低了AI配置門檻。
聲紋識別管理模塊,核心功能模塊包含聲紋采集、聲紋注冊、聲紋確認、聲紋辨認等,通過標準服務(wù)輸出能力。利用被動與主動式聲紋注冊,無感式聲紋識別,當老年客戶群體致電時,系統(tǒng)能夠準確判斷是否為本人。
智能適老化語音系統(tǒng)實現(xiàn)的前提條件是對客戶有效錄音的采集。錄音的采集分為兩個步驟,第一個步驟是通過智能語音的方式對客戶進行外呼,獲取客戶聲音文件;第二個步驟為通過語音語義識別進行輔助判斷,來確定獲取的客戶聲音文件是否是可以有效生成聲紋的文件。
在進行智能語音外呼采集前需先進行智能語音采集流程的模型建立。通常來講,語音采集需要客戶跟讀3-5段話,每段話盡量簡單,每段話有效字數(shù)盡量長,圖3為示例模板。
圖3 智能適老化語音系統(tǒng)電話匯報流程圖
智能語音外呼錄音采集的子步驟分為2步:
(1)聲紋采集授權(quán):客戶通過公眾號、網(wǎng)頁等方式進入聲紋注冊頁面,閱讀聲紋采集說明之后對聲紋采集行為進行客戶授權(quán)。
(2)通話注冊:客戶授權(quán)后,由平臺發(fā)起聲紋注冊電話,智能機器人引導(dǎo)客戶跟讀若干句對話,后臺對對話進行錄音,通話結(jié)束后,客戶的個人信息和對話錄音將被綁定映射送往語音語義識別輔助判斷子模塊進行處理。
錄音采集后,進入語音語義輔助判斷模塊,如圖4所示。語音語義輔助判斷模塊的主要方法有語音識別(ASR)輔助篩選、錄音時長判斷、語速判斷等等,語音語義識別輔助判斷主要有以下4個步驟:
圖4 語音語義識別輔助判斷流程
(1)源數(shù)據(jù)準備,在客戶被告知的情況下對客戶的電話通話錄音進行獲取并處理,每位客戶留存一條以客戶的號碼命名的通話錄音,并且本條通話錄音是只包含客戶對話聲音的單通道文件,將通話錄音格式轉(zhuǎn)為wav文件。
(2)靜音和底噪切除,對錄音進行靜音檢測(VAD)操作,去除每段通話錄音中大段的靜音;檢測錄音中小于閾值且持續(xù)超過一定時長的底噪錄音,將該部分切除。接著將去除靜音和底噪的錄音進行合并。
(3)時長檢測,檢測去靜音去噪音后的錄音時長t_wav,檢測通話錄音時長是否超過閾值τ,保證樣本的長度,時長不滿足需求的直接篩除,時長滿足閾值要求則進入下一步。
(4)對上一步篩選的通話錄音進行ASR輔助檢測,主要對錄音的語速和內(nèi)容進行檢測。
通過4個步驟的錄音則被認定為可以做聲紋采集入庫的有效錄音。
想要對客戶進行聲紋鑒權(quán),除了獲取客戶的錄音,還需要三個模塊,首先是包含客戶注冊聲紋信息的聲紋庫;其次是需要識別模型,還需要根據(jù)聲紋樣本對識別模型進行優(yōu)化迭代訓(xùn)練,保證識別算法的泛化性;最后是封裝了聲紋識別模型的身份鑒別模塊。當有客戶需要進行身份鑒別,根據(jù)客戶映射關(guān)系,調(diào)動聲紋庫的相關(guān)聲紋特征,和待鑒別聲紋一起輸入算法,進行相似度計算,然后根據(jù)閾值判定身份,再將結(jié)果同步給前端。因此,根據(jù)功能上的需求,本模塊包括聲紋庫模塊、模型訓(xùn)練優(yōu)化子模塊以及身份鑒別子模塊,如圖5所示。
圖5 聲紋庫及識別模型構(gòu)建模塊和聲紋身份鑒別模塊
聲紋庫構(gòu)建子模塊主要負責注冊語音以及注冊信息的映射存儲。當收到客戶的注冊請求并采集到客戶的注冊語音后,聲紋庫構(gòu)建子模塊將注冊相關(guān)信息取出,與注冊錄音映射存儲起來。接著對獲取的注冊錄音進行處理,獲得聲紋特征之后根據(jù)再映射關(guān)系存入到聲紋庫中,具體操作如圖6所示。
圖6 聲紋庫構(gòu)建子模塊
(1)信息錄入建立映射:客戶通過公眾號、網(wǎng)頁等注冊方式提起聲紋注冊請求之后,客戶的個人信息以及客戶的注冊錄音將傳入本模塊,聲紋庫構(gòu)建模塊對二者構(gòu)建映射,通過身份證等唯一信息標識存儲到聲紋信息庫中。
(2)處理注冊錄音:注冊錄音中可能存在靜音、噪聲等干擾段,聲紋處理后臺首先對錄音信息進行預(yù)處理,去除噪聲、靜音、按鍵音等干擾音,保證錄音的質(zhì)量。
(3)聲紋特征提?。簩︻A(yù)處理后的聲音進行梅爾倒譜系數(shù)(MFCC)變換和通用背景模型高斯(UBM-GMM)變換,提取成數(shù)字序列,并存入到聲紋庫中。后續(xù)通過身份證或者手機號等唯一信息標志可以直接取出對應(yīng)的聲紋進行進一步的比對工作。
(4)返回注冊結(jié)果:將注冊結(jié)果返回給請求端。
身份鑒別子模塊主要負責識別模型生成和客戶身份鑒別。模型生成主要是采集通話信道的錄音,進行聲紋識別算法迭代訓(xùn)練;來電客戶身份鑒別在通話流程開展,后臺獲取對話錄音后自動調(diào)用算法進行聲紋識別。得到結(jié)果后異步更新數(shù)據(jù)庫,客服人員后續(xù)可以在前臺頁面上看見本次通話是否是本人,如果發(fā)現(xiàn)異??梢约皶r處理,其流程如圖7所示。
圖7 模型訓(xùn)練優(yōu)化子模塊
模型訓(xùn)練優(yōu)化子模塊主要負責對識別算法的構(gòu)建和迭代優(yōu)化。模型主要針對聲紋庫中的聲紋特征不斷進行迭代訓(xùn)練和優(yōu)化,保證模型的準確性和泛化性,具體訓(xùn)練優(yōu)化步驟如下所示:
(1)數(shù)據(jù)采集:前期暫無真實通話數(shù)據(jù)的階段,主要收集公共數(shù)據(jù)集,共計2000條,來進行算法訓(xùn)練,作為基準訓(xùn)練數(shù)據(jù)(項目開始后用真實通話錄音進行算法迭代),該數(shù)據(jù)的80%用來訓(xùn)練,20%用來測試。
(2)數(shù)據(jù)預(yù)處理:將每條錄音經(jīng)過靜音檢測技術(shù)(VAD),獲取去靜音的聲音片段,接著再對其進行去噪、去按鍵音、語音增強等步驟,對錄音中的有效片段進行提取。
(3)訓(xùn)練ubm、ivector:調(diào)整參數(shù),將數(shù)據(jù)送入聲紋模型,迭代訓(xùn)練ubm和ivector,直至算法模型收斂。
(4)模型測試:用測試數(shù)據(jù)集對收斂模型進行準確率測試,重復(fù)以上步驟直至算法準確度達到標準。
(5)模型封裝:將訓(xùn)練好的模型封裝成調(diào)用方法,以便聲紋對比時調(diào)用。
身份鑒別子模塊主要負責客戶身份鑒別。客戶的身份鑒別在通話流程開展,后臺獲取對話錄音后自動調(diào)用算法進行聲紋識別。得到結(jié)果后同步更新數(shù)據(jù)庫,通話流程控制端則根據(jù)反饋的鑒別結(jié)果來控制是否為通話者提供免鑒權(quán)服務(wù),流程如圖8所示。
圖8 身份鑒別子模塊
(1)識別錄音采集:客戶按照對話腳本進行對話,在對話過程中,碰到需要鑒權(quán)的步驟,后臺主動獲取通話的單聲道錄音,并將對身份鑒別模塊發(fā)起身份識別請求。
(2)數(shù)據(jù)預(yù)處理:身份鑒別后臺獲取錄音后對其進行VAD、去按鍵音、降噪等預(yù)處理工作,接著對聲音進行MFCC變換和UBM-GMM變換,初步提取待鑒別聲音特征。
(3)i-vector提?。簩⑻幚砗玫淖月曇籼卣餍畔⒑痛葘β曇籼卣餍畔⑺腿胗?xùn)練好的聲紋模型中,提取i-vector特征。
(4)聲紋識別:根據(jù)兩段錄音的i-vector信息對兩段錄音的相似度進行plda打分,如果高于閾值則識別為同一個人,如果低于閾值則不是同一個人。
(5)比對結(jié)果更新:將比對結(jié)果同步返回給通話流程端,通話流程根據(jù)鑒別結(jié)果來判斷是否為通話者提供免鑒權(quán)服務(wù)。
智能適老化語音系統(tǒng)使用場景為在話務(wù)員和老年客戶通話時,可以給話務(wù)員進行是否是本人的鑒權(quán)提示,此功能在通話中應(yīng)是無感知的,因此需要無感地在通話過程中采集客戶的聲音流信息。實時電話鏡像并解析的方法是實現(xiàn)此功能的最佳辦法,其技術(shù)方法步驟如下:
(1)呼叫中心服務(wù)器上聯(lián)交換口鏡像抓包(SIP信令)。當話務(wù)員和客戶建立通話時,啟動鏡像抓包程序,使用TCPDUMP工具對信令傳輸網(wǎng)口進行全時段抓包操作,然后對數(shù)據(jù)包中的SIP信令執(zhí)行過濾、保存操作。
(2)數(shù)據(jù)包解析。對抓取到的SIP數(shù)據(jù)包進行解析,獲取主叫、被叫和時間戳基本信息、主叫媒體傳輸端口、被叫媒體傳輸端口等信息,保存主被叫實時音頻流信息。
(3)與當前通話主被叫信息進行對比,并傳送當前主叫音頻流(客戶)數(shù)據(jù)送至聲紋識別模塊。
(4)獲取聲紋對比結(jié)果,以websocket方式將結(jié)果推送至話務(wù)員界面。
通過以上操作,可以無感地給話務(wù)員推送當前客戶身份聲紋鑒權(quán)結(jié)果,方便話務(wù)員進行后期操作。
智能適老化語音系統(tǒng)在積分兌換業(yè)務(wù)試點市率先使用,該市積分兌換每日辦理業(yè)務(wù)通話呼入量平均約140通,訓(xùn)練有素的話務(wù)員每班有3人,每日話務(wù)中,老年人來電約占36%,采用智能適老化語音系統(tǒng)作為輔助服務(wù)前后,話務(wù)接通率、人工話務(wù)接聽數(shù)、業(yè)務(wù)完結(jié)率及平均話務(wù)耗時等參數(shù)變化如表1所示。
表1 采用智能適老化語音系統(tǒng)前后的對比
智能適老化語音系統(tǒng)結(jié)合電信總機業(yè)務(wù),為運營商特服號碼提供了便利老年人的服務(wù)渠道,疫情期間,線下業(yè)務(wù)辦理受阻,線上業(yè)務(wù)需求增多,在話務(wù)員不足的情況下,智能客服提供了高質(zhì)量的輔助服務(wù),確保增多的話務(wù)量能得到及時承接,提高了話務(wù)接通率,加快了單項業(yè)務(wù)的辦理速度,減輕了特服號碼話務(wù)員的工作,方便老年客戶群體在信息化智能服務(wù)中獲得簡單便捷的輔助服務(wù)。