徐懿瑾
一、業(yè)務(wù)背景
截至2019年1月,三大運營商移動用戶數(shù)已突破15億,用戶量巨大,客戶服務(wù)工作繁重。運營商客服人員通過10086、營業(yè)廳、掌廳、微廳等服務(wù)渠道受理用戶的查詢、咨詢、投訴等業(yè)務(wù),為了不影響客戶滿意度,需要及時回復(fù)并正確解決客戶提出的問題。
該工作當(dāng)前主要由客服人員依賴其個人業(yè)務(wù)經(jīng)驗來完成,這對客服人員的業(yè)務(wù)能力要求較高,由此才能更好地解答用戶提出的問題。由于缺乏有效的工具,客服人員過往解決問題的經(jīng)驗知識得不到有效沉淀,大量有效的問題解決方法難以在客服群體中快速普及,這導(dǎo)致客服人員的服務(wù)能力差異大,影響客服服務(wù)質(zhì)量。在這種背景下,如何開展人工智能方面的文本挖掘技術(shù),針對該應(yīng)用場景進行智能化升級,充分發(fā)揮客服歷史處理經(jīng)驗的價值,提升客服處理效率,提升客戶滿意度,顯得尤為緊迫。
目前,深度學(xué)習(xí)技術(shù)的快速發(fā)展以及開源社區(qū)取得的各種進展,都為深度學(xué)習(xí)應(yīng)用的實施提供了極大的便利。利用深度學(xué)習(xí)技術(shù),可以充分挖掘文本非結(jié)構(gòu)化數(shù)據(jù)背后蘊含的信息,發(fā)揮數(shù)據(jù)的價值,從而更好的服務(wù)于日常生產(chǎn)運營。
因此,基于海量的事件單數(shù)據(jù),我們開發(fā)了事件單問題智能系統(tǒng),通過深度學(xué)習(xí)算法RNN-LSTM實現(xiàn)事件單問題智能分類功能,自動對投訴咨詢問題的標(biāo)準(zhǔn)處理模式進行分類,并根據(jù)用戶檢索內(nèi)容自動匹配最吻合的處理模式,從而幫助客服人員快捷獲取咨詢投訴問題的最佳歷史處理經(jīng)驗,第一時間解決問題,減少事件單產(chǎn)生,同時提升用戶滿意度。
二、事件單問題智能系統(tǒng)介紹
(一)整體框架介紹
如圖1所示,事件單問題智能系統(tǒng)的功能主要包括以下四個方面。
1. 實時數(shù)據(jù)處理模塊:非結(jié)構(gòu)化文本數(shù)據(jù)實時傳輸?shù)綌?shù)據(jù)庫,處理后輸出作為后續(xù)模塊的有效輸入。
2. 問題智能分類模塊:基于深度學(xué)習(xí)算法RNNLSTM構(gòu)建典型的短文本分類模型。
3. 問題智能適配模塊:基于問題智能分類模塊的輸出,將客服人員輸入的用戶咨詢/投訴內(nèi)容和標(biāo)準(zhǔn)處理模式相匹配,根據(jù)關(guān)鍵字的重合度來計算兩者之間的適配度,并通過綜合評估方法對適配度進行量化打分。
4. 實時推送功能模塊:實時刷新智能分類模型,形成最新的分類和適配結(jié)果,并將結(jié)果推送至客服系統(tǒng),幫助客服人員快速獲取咨詢/投訴問題的最優(yōu)歷史解決方案。
(二)核心技術(shù)方案介紹
1.深度學(xué)習(xí)概述
人工智能,旨在讓計算機像人一樣思考。作為機器學(xué)習(xí)的一個新領(lǐng)域,深度學(xué)習(xí)擴展了人工智能的范圍。近年來,深度學(xué)習(xí)技術(shù)和開源框架已經(jīng)成熟,具有代表性的框架有Tensorflow,keras等等。深度學(xué)習(xí)是由多個非線性變換(神經(jīng)網(wǎng)絡(luò))組成的多處理層(神經(jīng)網(wǎng)絡(luò)),用于數(shù)據(jù)的高層抽象,其動機是創(chuàng)建模擬人類大腦分析學(xué)習(xí)和模仿人類大腦解讀數(shù)據(jù)(如圖像,聲音和文本)的神經(jīng)網(wǎng)絡(luò)。
隨著谷歌開源Word2Vec(基于深度學(xué)習(xí)的詞向量學(xué)習(xí)工具),基于深度學(xué)習(xí)的文本分類方法逐漸成為目前文本分類的主流。目前主要有兩個方向:一個是基于神經(jīng)網(wǎng)絡(luò)(詞向量)的文本表示研究,一個是基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的研究。
循環(huán)神經(jīng)網(wǎng)絡(luò)模型RNN是近年來在深度學(xué)習(xí)領(lǐng)域中流行的一種方法。實踐證明,RNN對于自然語言處理建模是非常成功。不同于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的多層結(jié)構(gòu),循環(huán)神經(jīng)網(wǎng)絡(luò)模型是序列模型,通常可以用于處理序列標(biāo)注問題。在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型中,輸入層和輸出層是相互獨立的,并且遞歸神經(jīng)網(wǎng)絡(luò)模型的輸出是基于當(dāng)前輸入和上一個周期的輸出,RNN具有記憶功能,它可以記住以前的計算信息。而LSTM是比較特別也比較常用的RNN,長期的依賴關(guān)系可以被學(xué)習(xí)?;赗NN的文本語義建模的基本思路是有效地將不同的語義單元有機地結(jié)合在一定的結(jié)構(gòu)中,通過自上而下的組合,生成文本的向量表示,如圖2所示。
2.技術(shù)方案具體內(nèi)容
本小節(jié)主要詳細(xì)介紹問題智能分類模塊中,基于RNN-LSTM的事件單短文本分類模型的構(gòu)建過程。包括數(shù)據(jù)預(yù)處理和模型訓(xùn)練兩部分。
(1)數(shù)據(jù)預(yù)處理
● 數(shù)據(jù)選取
目前事件單的相對穩(wěn)定類別有6種,我們從平臺選取了6種類別下的事件單作為樣本,平臺中6種類別的比例近似為4 : 2 : 1 : 1 : 1 : 1。由于樣本采集時具有隨機性,我們需要對抽取的樣本進行相應(yīng)的擴充或縮減處理,保證樣本類別分布均勻,接近平臺的總分布。由于樣本抽取的隨機性,統(tǒng)計各類類別事件單在整個平臺的分布,對每類類別下的樣本進行擴充或縮減,保證樣本類別分布均勻。
● 文本構(gòu)成
每條事件單短文本由事件單標(biāo)題、事件單內(nèi)容、官方回復(fù)原因和回復(fù)備注組成,能夠表達事件單的主要信息。
● 去除無信息模板文字及內(nèi)容
事件單短文本中包含一些與類別無關(guān)的字句,給后面的文本建模帶來一定的困難。通過正則匹配去除八類模型文字,例如手機號碼、備注提醒、故障標(biāo)題等。
● 分詞
使用python最著名的分詞工具jieba,結(jié)巴支持幾個模式,精確模式、全模式、搜索引擎模式,各個模式有不同的適合場景。
● 生成索引詞典
分詞后的結(jié)果會包含很多無效的停用詞等信息,會增加詞典的冗余,引入停用詞詞典去除停用詞,去除長度為1的詞,去除數(shù)字和標(biāo)點符號信息。將剩余有效詞,按照詞頻從大到小排序,從0開始生成索引詞典,每個詞對應(yīng)唯一序號索引。
● 文本向量化
使用 keras 的 Tokenizer 來實現(xiàn),將文本處理成單詞索引序列,單詞與序號之間的對應(yīng)關(guān)系靠步驟一的索引詞典來記錄。設(shè)置文本向量長度Max_len,然后用 keras 的pad_sequences將長度不足Max_len的文本用 0 填充(在前端填充)。最后通過 keras 的 to_categoric將標(biāo)簽處理成 one-hot 向量,例如 6 處理成 [0,0,0,0,0,1]。
(2)模型訓(xùn)練
對于RNN-LSTM模型的訓(xùn)練,共建立三層神經(jīng)網(wǎng)絡(luò),分別為embedding層、LSTM層、Dense層,優(yōu)化算法選擇Adam(Adaptive Moment Estimation,自適應(yīng)時刻估計)方法。參數(shù)設(shè)置見圖3所示。首先embedding層將文本處理為向量,對于每個文本處理為Max_len * N的二維向量,Max_len是每個文本的固定長度,N為單詞在空間中的詞向量。其次,經(jīng)過LSTM層將一個序列的詞向量壓縮成一個句向量,輸出1 * N的向量。最后,一個Dense全連接層將長度收斂到6,對應(yīng)6個類別。最終輸出結(jié)果也是模型對于每個類別的預(yù)測概率值,且和為1。例如,輸出結(jié)果為(0.8,0.1,0.1,0,0,0),說明此文本為類別1的概率為80%。在訓(xùn)練的過程中,可以將整個數(shù)據(jù)集分成若干個batch,每個batch包含一定數(shù)量的樣本,然后每次更新一個batch的訓(xùn)練集參與運算,該方法不僅可以加快收斂速度,也減少了機器壓力。為了防止過擬合,在LSTM層的各節(jié)點的訓(xùn)練中引入Dropout策略。
3.模型效果
基于RNN-LSTM的短文本分類器在訓(xùn)練集上表現(xiàn)很好,準(zhǔn)確率達到92%,而在測試集上約為78%,個別類別達到85%。
三、平臺應(yīng)用效果
事件單問題智能系統(tǒng)的主要目的是支撐事件單的高效分類以及解決方案的自動匹配,以提升事件單處理的效率。系統(tǒng)應(yīng)用過程中,關(guān)于事件單問題分類模型,每當(dāng)平臺中新的事件單生成,模型會自動對事件單進行處理并分類,并根據(jù)分類結(jié)果自動進行解決方案的匹配。解決了手工分類的問題,大大提高了事件單的處理速度。模型未上線時,事件單短文本分類主要依靠人工手工分類,平均每周用來處理手工分類的工作量至少需要8人時,模型上線后,通過自動分類匹配,后臺模型運行平均耗時30分鐘,較人工處理效率大幅提升,整體效率提升超過16倍。
同時,鑒于模型的自動分類,對于重復(fù)事件單的合并優(yōu)化效率大幅提升,較人工手工分類時,事件單數(shù)量減少幅度超過30%,事件單量的顯著下降有助于事件單系統(tǒng)的效率提升。
事件單問題智能系統(tǒng)上線測試后,“提效降量”效果顯著。如圖4所示系統(tǒng)上線的當(dāng)年年底,事件單存量減少了63.6%,總量同比下降14.0%。事件單返單率較上線前降低了6.3%,打回率降低了8.53%,返單率和打回率均低于10%的目標(biāo)值。
四、總結(jié)與展望
本文以AI人工智能技術(shù)為核心,通過深度學(xué)習(xí)RNNLSTM算法構(gòu)建了事件單問題智能分類模型,極大地提高了短文本分類的準(zhǔn)確率,實現(xiàn)了事件單非結(jié)構(gòu)化文本數(shù)據(jù)的自動分類的應(yīng)用。
在接下來的工作中,仍有一些問題值得研究和探討:
模型準(zhǔn)確率仍有提升空間,可以從樣本和算法方面對模型進行優(yōu)化。在樣本方面,通過豐富訓(xùn)練樣本數(shù)量,增加某分類下的樣本數(shù),進而提升模型對各類問題的文本識別能力,進而提升整體準(zhǔn)確率。還可以通過梳理優(yōu)化分詞詞典,優(yōu)化分析結(jié)果。在算法方面,可以嘗試集成學(xué)習(xí)方法 ,增加支持向量機等傳統(tǒng)文本挖掘模型。
目前事件單問題智能系統(tǒng)只包括事件單分類和適配兩大模塊,功能相對單一,之后可以將應(yīng)用范圍擴展到輿情分析、熱點話題識別等方面,同時結(jié)合數(shù)據(jù)可視化技術(shù),將分析挖掘結(jié)果更好的在系統(tǒng)中呈現(xiàn)。