• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于層次語(yǔ)義理解的電力系統(tǒng)客服工單分類

      2019-07-15 11:18:42揚(yáng)
      關(guān)鍵詞:工單客服字符

      楊 鵬 劉 揚(yáng) 楊 青

      (國(guó)網(wǎng)天津市電力公司信息通信公司 天津 300000)

      0 引 言

      電力行業(yè)是國(guó)家最重要的基礎(chǔ)行業(yè)之一,近幾年,電力行業(yè)信息化得到了長(zhǎng)足的發(fā)展,電力數(shù)據(jù)資源開(kāi)始急劇增長(zhǎng)并形成了一定的規(guī)模,這為實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的電力系統(tǒng)智能管理和決策提供了數(shù)據(jù)基礎(chǔ)。在海量多樣的電力數(shù)據(jù)中,客服工單數(shù)據(jù)占據(jù)著非常重要的地位,對(duì)工單數(shù)據(jù)的分析也是電力系統(tǒng)智能化發(fā)展進(jìn)程中的一個(gè)重要研究方向。客服工作是企業(yè)面向社會(huì)的窗口,它直接和用戶交流,對(duì)于企業(yè)的生存發(fā)展起著至關(guān)重要的作用。電力系統(tǒng)作為關(guān)系到國(guó)計(jì)民生的重要行業(yè),其客服工單數(shù)據(jù)記錄了電力用戶的基本訴求,而對(duì)用戶需求所屬的類別進(jìn)行準(zhǔn)確定位是提供良好客戶服務(wù)的基礎(chǔ)。高效的客服工單分類方法既可以提升用戶需求定位的準(zhǔn)確程度,也可以提升人員的工作效率,對(duì)電力系統(tǒng)的高效運(yùn)行與管理具有重要的意義。

      由于工單數(shù)據(jù)通常是以文本記錄的形式描述用戶的具體需求,因此如何準(zhǔn)確地理解工單描述中所包含的文本語(yǔ)義信息是工單類別劃分的核心,也是本文的重點(diǎn)研究?jī)?nèi)容,主要涉及到的方法是文本語(yǔ)義理解方法。文本語(yǔ)義理解[1]是自然語(yǔ)言處理中的自然語(yǔ)言句子級(jí)分析技術(shù)的第三個(gè)層次,是運(yùn)用各種機(jī)器學(xué)習(xí)方法,學(xué)習(xí)與理解一段文本所表示的語(yǔ)義內(nèi)容,它的最終目的是理解句子表達(dá)的真實(shí)語(yǔ)義。一段文本通常由詞、句子和段落來(lái)構(gòu)成,根據(jù)理解對(duì)象的語(yǔ)言單位不同,語(yǔ)義解析又可進(jìn)一步分解為詞匯級(jí)語(yǔ)義解析、句子級(jí)語(yǔ)義解析以及篇章級(jí)語(yǔ)義解析。一般來(lái)說(shuō),詞匯級(jí)語(yǔ)義解析關(guān)注的是如何獲取或區(qū)別單詞的語(yǔ)義,句子級(jí)語(yǔ)義解析則試圖分析整個(gè)句子所表達(dá)的語(yǔ)義,而篇章語(yǔ)義解析旨在研究自然語(yǔ)言文本的內(nèi)在結(jié)構(gòu)并理解文本單元(可以是句子從句或段落)間的語(yǔ)義關(guān)系。簡(jiǎn)單地講,語(yǔ)義解析的目標(biāo)就是通過(guò)建立有效的模型和系統(tǒng),實(shí)現(xiàn)在各個(gè)語(yǔ)言單位(包括詞匯、句子和篇章等)的自動(dòng)語(yǔ)義解析,從而實(shí)現(xiàn)理解整個(gè)文本表達(dá)的真實(shí)語(yǔ)義?;趯W(xué)習(xí)到的文本表示可以進(jìn)行文本分類[2]、情感分析[3]、文本匹配[4]等任務(wù)。

      近年來(lái),國(guó)內(nèi)外已有多名研究人員在電力業(yè)務(wù)數(shù)據(jù)文本語(yǔ)義理解方面做出了工作,并且取得了一些成果。MIT的Cynthia等學(xué)者對(duì)紐約城市電纜的數(shù)萬(wàn)條故障工單進(jìn)行了挖掘,為檢修井的巡視提供幫助[5]。Sun等[6]對(duì)社交網(wǎng)絡(luò)(Twitter)中關(guān)于停電的文本進(jìn)行了挖掘,為電網(wǎng)的風(fēng)險(xiǎn)管理提供了一種輔助手段。美國(guó)南加大某課題組對(duì)智能電網(wǎng)的語(yǔ)義網(wǎng)進(jìn)行了定義,為智能電網(wǎng)與互聯(lián)網(wǎng)的信息交換與共享提供了技術(shù)支持[7]。

      隨著電力系統(tǒng)中所積累的數(shù)據(jù)規(guī)模逐漸擴(kuò)大,基于文本語(yǔ)義理解的電力工單分類任務(wù)也成為很多研究工作的重點(diǎn)內(nèi)容,有很多學(xué)者針對(duì)該問(wèn)題展開(kāi)深入研究,并且取得了很多研究成果。林溪橋等[8]利用主成分分析方法對(duì)具體工單內(nèi)容與時(shí)間維度之間的關(guān)系進(jìn)行分析,實(shí)現(xiàn)客服工單分類模型的優(yōu)化。王震等[9]提出一種基于LDA的熱點(diǎn)業(yè)務(wù)工單分類模型,通過(guò)對(duì)工單文本的主題進(jìn)行學(xué)習(xí)實(shí)現(xiàn)熱點(diǎn)業(yè)務(wù)工單的分類篩選。鄒云峰等[10]首先對(duì)電力工單中的文本進(jìn)行預(yù)處理,并通過(guò)計(jì)算TF-IDF值的方法獲得文本表示,最后利用決策樹(shù)模型實(shí)現(xiàn)工單分類。而隨著神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的興起,謝季川等[11]利用Word2vec模型學(xué)習(xí)工單文本中的詞向量表示,進(jìn)而得到文本的語(yǔ)義表示用于工單分類[12]。

      綜合上述研究工作可以發(fā)現(xiàn),現(xiàn)有的方法大多是利用主成分分析[7]、主題模型[8]或計(jì)算TF-IDF[10,13],從而進(jìn)行主題或者詞級(jí)別工單語(yǔ)義分析。這種方式通常停留在對(duì)文本淺層特征的表示學(xué)習(xí),而缺乏細(xì)粒度,深層次的語(yǔ)義理解,這種淺層的表示方法難以全面地捕獲工單描述中所蘊(yùn)含的隱藏語(yǔ)義信息,從而導(dǎo)致分類性能的下降。只有對(duì)工單描述文本進(jìn)行準(zhǔn)確的理解,才能更加完整地表示其中蘊(yùn)含的語(yǔ)義信息,實(shí)現(xiàn)工單類別的準(zhǔn)確劃分。

      針對(duì)上述問(wèn)題,本文提出了基于層次語(yǔ)義理解的電力系統(tǒng)客服工單分類模型(簡(jiǎn)稱:CHSU)。對(duì)于工單描述中的文本記錄,分別利用深度學(xué)習(xí)方法對(duì)詞級(jí)別特征表示和字符級(jí)別特征表示進(jìn)行學(xué)習(xí),將不同層級(jí)的表示相結(jié)合實(shí)現(xiàn)對(duì)工單描述的深度語(yǔ)義理解,學(xué)習(xí)到工單文本的細(xì)粒度、層次化的深度語(yǔ)義表示,從而實(shí)現(xiàn)精準(zhǔn)的客服工單的類別劃分,提升分類的準(zhǔn)確性,進(jìn)一步提高電力系統(tǒng)運(yùn)行的質(zhì)量和效率。

      1 模型構(gòu)建

      客服工單記錄了電力客戶所提出的用戶需求,通常包含自然語(yǔ)言形式的、長(zhǎng)度較短的工單短文本描述以及該條工單所屬的服務(wù)類型。根據(jù)數(shù)據(jù)的特點(diǎn),本文基于工單描述短文本實(shí)現(xiàn)工單類別劃分??紤]到工單描述通常是由多個(gè)詞組成的,而詞是由多個(gè)字符組成的,因此為了學(xué)習(xí)層次化的工單描述的語(yǔ)義表示,本文首先利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)對(duì)每個(gè)詞中的字符進(jìn)行編碼,得到字符級(jí)別的隱藏特征表示。進(jìn)一步,將字符級(jí)別的表示與詞級(jí)別的表示相結(jié)合,利用類似的雙向LSTM網(wǎng)絡(luò)進(jìn)行詞級(jí)別的語(yǔ)義編碼,最終得到關(guān)于工單的層次化深度語(yǔ)義表示向量,并在此基礎(chǔ)上實(shí)現(xiàn)工單類別劃分。本文所提出的模型框架如圖1所示。

      圖1 基于層次語(yǔ)義理解的電力系統(tǒng)客服工單分類模型

      1.1 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)

      長(zhǎng)短期記憶網(wǎng)絡(luò)[14]是一種循環(huán)神經(jīng)網(wǎng)絡(luò)特殊的類型,適合處理和預(yù)測(cè)時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的情況。LSTM利用三個(gè)“門”結(jié)構(gòu)對(duì)細(xì)胞狀態(tài)進(jìn)行保護(hù)和處理,分別是輸入門、遺忘門和輸出門,其中門結(jié)構(gòu)是通過(guò)Sigmoid函數(shù)和按位乘操作實(shí)現(xiàn)的。Sigmoid函數(shù)的具體計(jì)算方法如下:

      (1)

      Sigmoid層輸出0到1之間的數(shù)值,代表有多少量可以通過(guò),1表示允許任意量通過(guò),0表示不允許任何量通過(guò)。在第t個(gè)時(shí)間步,LSTM中各部分的具體計(jì)算過(guò)程如下:

      ft=σ(Wf·[ht-1,xt]+bf)

      (2)

      it=σ(Wi·[ht-1,xt]+bi)

      (3)

      (4)

      (5)

      ot=σ(Wo·[ht-1,xt]+bo)

      (6)

      ht=ot·tanh(Ct)

      (7)

      最后,輸出門會(huì)根據(jù)Ct、ht-1和xt來(lái)決定該時(shí)刻的輸出ht。其中,包括計(jì)算一個(gè)sigmoid層來(lái)確定細(xì)胞狀態(tài)的哪個(gè)部分將被輸出。接著把細(xì)胞狀態(tài)通過(guò)tanh層進(jìn)行處理,得到一個(gè)在(-1,1)范圍內(nèi)的值,并將它和Sigmoid門的輸出相乘,得到輸出部分。

      1.2 字符級(jí)別語(yǔ)義表示

      工單描述文本是由詞組成的,而每個(gè)詞又包含多個(gè)字符,為了捕獲文本中細(xì)粒度、層次化的語(yǔ)義表示,因此首先對(duì)字符表示進(jìn)行建模。由于中文文本中的詞不能像英文一樣可以用空格進(jìn)行分隔,因此在進(jìn)行建模之前需要使用工具,例如jieba分詞對(duì)工單文本預(yù)處理。對(duì)于工單描述中一個(gè)詞wi,假設(shè)其包含Q個(gè)字符,將每個(gè)字符隨機(jī)初始化為一個(gè)特征向量ciq∈Rdc,其中q∈[1,Q],dc代表字符特征向量的維度。對(duì)于該詞中所有字符的特征向量,本文使用LSTM對(duì)其進(jìn)行編碼,學(xué)習(xí)隱藏的語(yǔ)義表示。而由于一個(gè)LSTM只能從一個(gè)方向進(jìn)行計(jì)算,而不能建模另一個(gè)方向的語(yǔ)義,因此這里使用雙向的LSTM來(lái)總結(jié)兩個(gè)方向上的字符級(jí)別語(yǔ)義信息,從而獲得對(duì)應(yīng)的語(yǔ)義表示。雙向LSTM包括一個(gè)前向的LSTM,它對(duì)工單的讀取順序是從ci1到ciQ,以及一個(gè)反向的LSTM,它對(duì)工單的讀取順序是從ciQ到ci1。該編碼過(guò)程的具體計(jì)算方法如下:

      (8)

      (9)

      (10)

      1.3 詞級(jí)別語(yǔ)義表示

      本文進(jìn)一步對(duì)工單描述中詞級(jí)別的語(yǔ)義進(jìn)行學(xué)習(xí)。對(duì)于一個(gè)給定的工單描述D={w1,w2,…,wT},T代表工單D所包含詞的個(gè)數(shù)。將工單中的每個(gè)詞隨機(jī)初始化為一個(gè)特征向量wiw∈Rdw,dw代表詞特征向量的維度,將該特征向量與字符級(jí)別的特征wic拼接,可以得到關(guān)于該詞整體的特征向量表示,即:

      wi=[wiw,wic]

      針對(duì)該特征,本文使用與上文類似的雙向LSTM進(jìn)行編碼,具體計(jì)算方法如下:

      (11)

      (12)

      (13)

      基于特征表示d可以實(shí)現(xiàn)進(jìn)一步的工單類別劃分。

      1.4 工單類別劃分

      通過(guò)上述模塊得到的工單特征表示向量包含了層次化深度語(yǔ)義信息,因此該表示可以做為工單分類的特征向量。本文使用一個(gè)softmax層實(shí)現(xiàn)工單類別劃分,具體計(jì)算方法如下:

      p=softmax(Wd+b)

      (14)

      式中:W和b為待學(xué)習(xí)權(quán)重矩陣和偏置向量。softmax(·)函數(shù)為歸一化指數(shù)函數(shù),其形式為:

      (15)

      該函數(shù)值代表了特征x劃分為類別j的概率。因此工單分類的損失函數(shù)可以寫為如下負(fù)對(duì)數(shù)似然函數(shù)的形式:

      (16)

      式中:l為工單d的服務(wù)類型標(biāo)簽。通過(guò)最小化上述損失函數(shù),實(shí)現(xiàn)整體模型的訓(xùn)練。

      2 實(shí) 驗(yàn)

      2.1 數(shù)據(jù)簡(jiǎn)介

      本文利用真實(shí)的工單記錄數(shù)據(jù)對(duì)所提出方法的效果進(jìn)行驗(yàn)證。數(shù)據(jù)采集自國(guó)網(wǎng)電力公司客服系統(tǒng),記錄了一段時(shí)間內(nèi)該客服系統(tǒng)所收集到的工單內(nèi)容。由于該數(shù)據(jù)為真實(shí)的電力工單客服記錄,因此在錄入過(guò)程中由于人為或系統(tǒng)的原因會(huì)存在部分信息缺失的情況,經(jīng)過(guò)篩選,本文選擇其中12 623條記錄數(shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,每條記錄包含一段中文文本形式的工單描述以及該條工單所屬的服務(wù)類別,所選擇工單分屬于5種服務(wù)類別。

      為了進(jìn)行訓(xùn)練和調(diào)參,本文將整體數(shù)據(jù)集按照8 ∶1 ∶1的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集,利用驗(yàn)證集上的實(shí)驗(yàn)結(jié)果作為調(diào)參的依據(jù),并在測(cè)試集上測(cè)試模型的效果。

      2.2 對(duì)比方法

      為了證明所提出方法的性能,本文將該模型與其他幾種常用的工單分類方法的實(shí)驗(yàn)效果進(jìn)行了對(duì)比,所選擇的方法如下:

      TFIDF-SVM:TFIDF方法又稱詞頻-逆文檔頻率算法,它通過(guò)計(jì)算詞在文檔以及語(yǔ)料庫(kù)中出現(xiàn)的頻率對(duì)詞的重要程度進(jìn)行加權(quán)。該方法首先利用TFIDF算法對(duì)客服工單中的文本信息進(jìn)行特征向量表示,然后基于該特征向量表示利用支持向量機(jī)(SVM)進(jìn)行工單類別劃分。

      TFIDF-DT:該方法同樣利用TFIDF算法計(jì)算特征向量表示,然后利用決策樹(shù)進(jìn)行工單類別劃分。

      Word2vec-SVM:Word2vec是一種將單詞轉(zhuǎn)換成向量形式的工具,可以將文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量計(jì)算。該方法首先利用Word2vec訓(xùn)練得到工單文本每個(gè)詞的詞向量,并對(duì)詞向量求平均得到工單的特征表示,然后基于該特征向量表示利用SVM進(jìn)行工單分類。

      Word2vec-DT:該方法同樣利用Word2vec模型得到工單的特征表示向量,并基于該表示利用決策樹(shù)對(duì)工單類別進(jìn)行劃分。

      CHSU-Nochar:本文所提出的方法的退化版本,即僅使用詞級(jí)別的語(yǔ)義表示對(duì)工單文本進(jìn)行建模。

      本文方法(CHSU):即本文所提出的基于層次語(yǔ)義理解的電力系統(tǒng)客服工單分類方法,在該方法中同時(shí)對(duì)詞和字符的語(yǔ)義進(jìn)行建模,并利用一個(gè)Softmax層實(shí)現(xiàn)工單分類。

      2.3 實(shí)驗(yàn)設(shè)置

      本實(shí)驗(yàn)中所有的特征表示向量都使用隨機(jī)初始化,其中詞特征向量的維度設(shè)為300,字符特征向量的維度設(shè)為50。模型中所有權(quán)重矩陣同樣是隨機(jī)初始化,偏置向量初始化為0。由于數(shù)據(jù)較多,為了提升訓(xùn)練速度因此采用批處理的方式進(jìn)行訓(xùn)練,batch的大小設(shè)為50。在參數(shù)優(yōu)化過(guò)程中,本文選擇Adam進(jìn)行優(yōu)化,訓(xùn)練的學(xué)習(xí)率設(shè)為0.001,最大迭代次數(shù)設(shè)為50。此外,本文在訓(xùn)練過(guò)程中引入dropout策略來(lái)防止出現(xiàn)過(guò)擬合的現(xiàn)象,dropout比率設(shè)為0.5。

      2.4 評(píng)價(jià)指標(biāo)

      工單分類屬于多分類問(wèn)題,因此本文采用微平均F-Score(Micro_F)對(duì)分類的準(zhǔn)確度進(jìn)行評(píng)估,其具體計(jì)算方法如下:

      (17)

      式中:Micro_P和Micro_R分別為微平均準(zhǔn)確率和召回率,通過(guò)化簡(jiǎn)可以簡(jiǎn)寫為后面的形式,TPi即為第i類樣本正確分類的個(gè)數(shù),N代表整體樣本數(shù)。Micro_F越大代表分類性能越好。

      2.5 實(shí)驗(yàn)結(jié)果

      基于上述實(shí)驗(yàn)設(shè)置,本文在真實(shí)的工單數(shù)據(jù)上進(jìn)行工單分類對(duì)比實(shí)驗(yàn),各方法在驗(yàn)證集和測(cè)試集上的實(shí)驗(yàn)結(jié)果如表1所示。

      表1 工單分類實(shí)驗(yàn)結(jié)果

      由表1中的實(shí)驗(yàn)結(jié)果可以看出,無(wú)論是在驗(yàn)證集還是在測(cè)試集上,本文所提出的基于層次語(yǔ)義理解的電力客服工單分類模型(CHSU)以及該模型的退化版本都具有優(yōu)于其他對(duì)比方法的分類效果,其中CHSU相較于表現(xiàn)最差的Word2vec-DT方法在測(cè)試集的性能上有14.8%的提升,該結(jié)果證明了本文所提出方法的有效性。此外,CHSU的性能優(yōu)于CHSU_Nochar,這證明使用字符級(jí)別的語(yǔ)義表示對(duì)于工單的語(yǔ)義理解是有幫助的,它可以使模型捕獲到層次化的語(yǔ)義信息,加深對(duì)文本內(nèi)容的語(yǔ)義理解,從而獲得更好的分類效果。另外從其他對(duì)比方法的分類效果中可以看出,相同文本表示方法的條件下,使用SVM作為分類器的效果優(yōu)于使用決策樹(shù),這說(shuō)明相較于決策樹(shù),SVM更適用于本文所使用的工單數(shù)據(jù)。此外還可以看出使用TFIDF建模文本表示的結(jié)果整體優(yōu)于使用Word2vec,這可能是由于本文所使用的工單數(shù)據(jù)通常長(zhǎng)度較短,不利于Word2vec模型學(xué)習(xí)到足夠的上下文信息,因此降低了模型的性能。

      除上述對(duì)比實(shí)驗(yàn)外,本文同時(shí)對(duì)模型的參數(shù)敏感性進(jìn)行分析。由于字符級(jí)別的語(yǔ)義表示在本文所提出的方法中扮演重要的角色,因此這里主要研究字符特征向量維度對(duì)模型分類效果的影響。圖2展示了字符特征向量維度從10變化到100的過(guò)程中,Micro_F的變化情況。

      圖2 分類性能隨字符特征向量維度變化情況

      從圖2中可以看出,當(dāng)字符特征向量的維度增加時(shí),模型的性能在整體趨勢(shì)上有所提升,但當(dāng)維度大于50后,分類性能反而呈現(xiàn)下降的趨勢(shì),這是由于使得模型過(guò)于關(guān)注字符級(jí)別的語(yǔ)義而忽略了詞級(jí)別的語(yǔ)義,從而導(dǎo)致性能下降,因此在本文的模型中將字符特征向量設(shè)為50,以達(dá)到最優(yōu)的分類效果。

      3 結(jié) 語(yǔ)

      對(duì)于客服工單數(shù)據(jù)的理解和研究有利于電力公司更加高效的定位客戶需求,從而提升工作效率和工作質(zhì)量,具有很重要的現(xiàn)實(shí)意義。本文以電力公司客服系統(tǒng)的工單記錄為研究對(duì)象,對(duì)工單描述中包含的文本信息進(jìn)行了深入分析,并根據(jù)該數(shù)據(jù)的特點(diǎn),建立基于層次語(yǔ)義理解的電力系統(tǒng)客服工單分類模型,同時(shí)考慮詞級(jí)別和字符級(jí)別的語(yǔ)義表示,提升了模型的分類性能。

      在電力系統(tǒng)的工單數(shù)據(jù)中還存在很多樣本數(shù)量很少的服務(wù)類型,由于缺乏足夠的訓(xùn)練樣本,因此在建模過(guò)程中本文沒(méi)有考慮此類工單,但事實(shí)上這些工單中也包含了大量的用戶需求信息,因此在后續(xù)的研究工作中將對(duì)模型進(jìn)行進(jìn)一步的改進(jìn),使其能夠建模這種數(shù)據(jù)分布不平衡的情況,達(dá)到更好的分類效果。

      猜你喜歡
      工單客服字符
      尋找更強(qiáng)的字符映射管理器
      基于量化考核的基層班組管理系統(tǒng)的設(shè)計(jì)與應(yīng)用
      基于transformer的工單智能判責(zé)方法研究
      語(yǔ)音推銷
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      敬業(yè)的客服
      基于HANA的工單備件采購(gòu)聯(lián)合報(bào)表的研究與實(shí)現(xiàn)
      電力95598熱線全業(yè)務(wù)集中后的工單預(yù)警機(jī)制
      左权县| 丘北县| 新巴尔虎左旗| 那坡县| 乐昌市| 宜黄县| 武鸣县| 聂拉木县| 麻城市| 肥东县| 东光县| 思南县| 舟曲县| 高台县| 房产| 亚东县| 元朗区| 和田市| 屯昌县| 古丈县| 贵港市| 伊宁市| 临沂市| 镇宁| 横山县| 渝北区| 聂荣县| 察隅县| 彭阳县| 全南县| 凌源市| 进贤县| 屏边| 深圳市| 秦皇岛市| 隆化县| 红原县| 阿城市| 常山县| 彰化县| 嘉义市|