田 曉,劉勇超,王婧,于相潔,代巖巖國網(wǎng)山東省電力公司電力科學(xué)研究院
基于文本挖掘的95598客服重復(fù)來電專題分析
田曉,劉勇超,王婧,于相潔,代巖巖
國網(wǎng)山東省電力公司電力科學(xué)研究院
重復(fù)來電工單的挖掘與分析,對(duì)熱點(diǎn)問題的及時(shí)發(fā)現(xiàn)與追蹤,起到很重要的作用。目前重復(fù)工單的發(fā)現(xiàn),主要依靠人工,費(fèi)時(shí)費(fèi)力,效率低。本文提出了一種基于文本挖掘的重復(fù)來電模型,該模型能利用智能高效的算法篩選出重復(fù)來電工單,對(duì)準(zhǔn)確有效地提高客服的服務(wù)質(zhì)量具有十分重要的現(xiàn)實(shí)意義。
語義分析;文本挖掘;重復(fù)來電;聚類
近年來,隨著電力業(yè)務(wù)的迅猛發(fā)展,其客戶數(shù)量與業(yè)務(wù)類型隨之增長,客戶來電反映的內(nèi)容龐雜多樣,如何從巨大的話務(wù)量中尋找有用信息,是客服工作面臨的巨大挑戰(zhàn)。根據(jù)重復(fù)來電信息分析,對(duì)來電信息中隱含的語義特征進(jìn)行挖掘,重點(diǎn)關(guān)注重復(fù)來電次數(shù)多的客戶,對(duì)來電出現(xiàn)的熱點(diǎn)問題及時(shí)發(fā)現(xiàn)與跟蹤,以便能把握處理問題的最佳時(shí)機(jī),從而提高處理熱點(diǎn)問題的能力和監(jiān)測能力。
重復(fù)來電,是指同一用戶(戶號(hào)相同)對(duì)同一事件重復(fù)致電兩次及以上的事件集合。具體描述如下:在查詢周期內(nèi),除表揚(yáng)、訂閱和一次辦結(jié)咨詢、受理內(nèi)容為空的所有非用戶號(hào)碼來電(例如12345、內(nèi)部撥測等)以外的業(yè)務(wù)工單,按照來電號(hào)碼、用戶編號(hào)、受理內(nèi)容等進(jìn)行重復(fù)篩查所得到的重復(fù)事件數(shù)、工單數(shù)、電話數(shù)。
文本挖掘,是指從大量文本中抽取事先未知的、可理解的、最終可用的知識(shí)的過程,同時(shí)運(yùn)用這些知識(shí)能更好地組織信息以便將來參考。本文主要利用文本挖掘技術(shù),對(duì)工單的受理內(nèi)容進(jìn)行文本聚類。首先將工單文本中的受理內(nèi)容進(jìn)行分詞,轉(zhuǎn)換成一個(gè)個(gè)詞條。
2.1文本建模
由于工單信息大部分為中文文本,屬于非結(jié)構(gòu)化文本,要進(jìn)行挖掘就必須將文本詞匯轉(zhuǎn)換成計(jì)算機(jī)能夠識(shí)別的語言,所以必須對(duì)文本詞匯進(jìn)行建模,本文使用的是向量空間模型(Vector Space Model,VSM)。
2.2文本相似度計(jì)算
文檔表示成向量后,文本之間的語義相似度就可以通過空間中的這兩個(gè)向量間的幾何關(guān)系來度量。在V S M模型中,用空間中的兩個(gè)向量的夾角余弦來度量文檔之間的相似度,夾角余弦值越大,兩個(gè)向量的夾角越小,表示文檔越相似。
2.3文本聚類
通過文本之間兩兩相似度計(jì)算,每條文檔都被映射到一個(gè)R維空間的向量中,而R為詞典中詞語的數(shù)量。在此,我們需要使用相似度矩陣來計(jì)算文檔之間的相似度,并進(jìn)行聚類分組。
本文在提取重復(fù)來電工單過程中,首先進(jìn)行數(shù)據(jù)清理,即對(duì)95598工單文本清除異常來電號(hào)碼,比如[無故掛斷]、[內(nèi)部撥測]、[12345]等異常來電。其次進(jìn)行數(shù)據(jù)預(yù)處理,即根據(jù)關(guān)聯(lián)規(guī)則來提取來電相同的工單。再次進(jìn)行文本語義分析,包括中文分詞、特征向量矩陣,相似度計(jì)算,聚類等步驟,對(duì)來電相同的工單的受理內(nèi)容進(jìn)行文本聚類,提取出同一用戶,來電內(nèi)容相似的重復(fù)來電工單,并對(duì)語義特征進(jìn)行分析。
本文利用文本挖掘技術(shù),結(jié)合客服業(yè)務(wù)需求,開展重復(fù)來電專題研究,大大改善目前人工進(jìn)行重復(fù)來電分析效率較低的狀況,達(dá)到95598重復(fù)來電問題的智能挖掘與分析的目的。
目前重復(fù)來電專題,只是從全量工單中通過詞語相似度計(jì)算分析出重復(fù)來電工單,并按業(yè)務(wù)類型來挖掘原因。下一步,還需要探索基于電力知識(shí)圖譜的構(gòu)建以及與業(yè)務(wù)的對(duì)應(yīng)關(guān)系,將非結(jié)構(gòu)化數(shù)據(jù)準(zhǔn)確的轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),以便將來滿足重復(fù)來電等其它需要進(jìn)行智能語義分析業(yè)務(wù)需求。
[1]朱明.數(shù)據(jù)挖掘[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2002
[2]王永成等.中文信息處理技術(shù)及其基礎(chǔ)[M]上海交通大學(xué)出版社1990
[3]Salton G,Wong A,Yang C S.A vector space model for auto?matic indexiBg[J].Communications of the ACM,1975,18(11):613-620.