• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      營銷活動(dòng)問題標(biāo)簽分類語料庫的構(gòu)建與分類研究

      2019-04-01 09:28:02徐俊利趙江江
      關(guān)鍵詞:工單語料語料庫

      徐俊利 趙江江 趙 寧 薛 超

      (中移在線服務(wù)有限公司 河南 鄭州 450000)

      0 引 言

      營銷活動(dòng)問題投訴工單是指客服人員面向客戶描述與投訴營銷活動(dòng)有關(guān)的記錄。營銷活動(dòng)問題標(biāo)簽是專門針對(duì)營銷活動(dòng)問題投訴工單進(jìn)行更細(xì)粒度地劃分形成的標(biāo)簽。營銷活動(dòng)問題標(biāo)簽分類是指判斷營銷活動(dòng)問題投訴工單所屬的問題標(biāo)簽。挖掘營銷活動(dòng)問題投訴工單中潛在的價(jià)值信息,開展移動(dòng)客服領(lǐng)域營銷活動(dòng)問題標(biāo)簽的分類研究,對(duì)于捕捉客戶投訴意圖、開展?fàn)I銷活動(dòng)專題分析具有重要意義。語料庫是研究營銷活動(dòng)問題投訴工單分類的基礎(chǔ),然而目前尚沒有移動(dòng)客服領(lǐng)域營銷活動(dòng)問題標(biāo)簽分類語料庫,這嚴(yán)重阻礙了營銷活動(dòng)問題標(biāo)簽分類研究的發(fā)展。因此,構(gòu)建營銷活動(dòng)問題標(biāo)簽分類語料庫是十分必要的。

      近年來,語料庫構(gòu)建受到廣泛關(guān)注[1-5]。目前在對(duì)話[6]、微博[7-9]、語言[10,11]、醫(yī)學(xué)[12]等領(lǐng)域已出現(xiàn)公開構(gòu)建的語料庫。Lowe等[6]基于Ubuntu社區(qū)的對(duì)話內(nèi)容,構(gòu)建了包含一百萬個(gè)對(duì)話的Ubuntu對(duì)話語料庫,該語料既有Dialog State Tracking Challenge數(shù)據(jù)集的多次序?qū)υ捥匦?也有類似微博服務(wù)(如Twitter)上的人類自然對(duì)話特點(diǎn),已成為對(duì)話系統(tǒng)的公開評(píng)測(cè)數(shù)據(jù)集。Quan和Ren[13]基于微博內(nèi)容,構(gòu)建了包含期望、喜悅、愛、驚訝、焦慮、悲傷,憤怒和憎恨8種情感類別的語料庫。Chen和Nie[14]基于爬取技術(shù),爬取雙語平行的網(wǎng)頁內(nèi)容,構(gòu)建了包含117.2 MB中文文本、136.5 MB英文文本的跨語言中英平行語料庫。馮冠軍等[15]提出維吾爾語情感語料庫的構(gòu)建規(guī)范,利用條件隨機(jī)場(chǎng)(CRFs)自動(dòng)識(shí)別維吾爾語情感詞匯,構(gòu)建了維吾爾語情感詞語語料庫。楊錦鋒等[16]收集醫(yī)學(xué)領(lǐng)域的中文電子病歷數(shù)據(jù),結(jié)合中文病歷特點(diǎn),制定了命名實(shí)體和實(shí)體關(guān)系標(biāo)注體系,并構(gòu)建了包含992份病歷文本的中文電子病歷命名實(shí)體和實(shí)體關(guān)系語料庫。由于這些語料庫獨(dú)有的領(lǐng)域特性,導(dǎo)致很難移植應(yīng)用于移動(dòng)客服領(lǐng)域。而且目前尚沒有公開的移動(dòng)客服領(lǐng)域營銷活動(dòng)問題標(biāo)簽分類語料庫,也沒有基于深度學(xué)習(xí)的移動(dòng)客服領(lǐng)域營銷活動(dòng)問題標(biāo)簽分類研究。因此本文構(gòu)建了營銷活動(dòng)問題標(biāo)簽分類語料庫,表1是營銷活動(dòng)問題標(biāo)簽分類的投訴工單示例。

      表1 營銷活動(dòng)問題標(biāo)簽投訴工單示例

      營銷活動(dòng)問題標(biāo)簽分類是一個(gè)典型的多標(biāo)簽分類問題,目前分類方法有基于規(guī)則、基于傳統(tǒng)機(jī)器學(xué)習(xí)、基于深度學(xué)習(xí)三種,然而目前尚未有營銷活動(dòng)問題標(biāo)簽分類的相關(guān)研究?;谝?guī)則的方法是通過分析各個(gè)標(biāo)簽的特性,編制規(guī)則或制定模板,進(jìn)行分類?;谝?guī)則的方法簡(jiǎn)單有效、準(zhǔn)確率較高,但是規(guī)則靈活性、擴(kuò)展性較差?;跈C(jī)器學(xué)習(xí)的方法是通過特征提取的方法,使用核函數(shù)的方法進(jìn)行分類,效果較好。基于機(jī)器學(xué)習(xí)的方法雖能夠取得較好的效果,但是僅能捕捉淺層的語義特征,并不能捕捉到深層的語義信息?;谏疃葘W(xué)習(xí)的方法通過構(gòu)建數(shù)據(jù)的深層抽象特征表示來捕捉輸入序列的深層語義信息。基于神經(jīng)網(wǎng)絡(luò)的方法有卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)[17]、長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)LSTM(Long Short Term Memory)[18]兩種?;谏窠?jīng)網(wǎng)絡(luò)的方法可以避免繁瑣的特征工程設(shè)計(jì),能夠?qū)⒄Z言學(xué)信息表示為低維、連續(xù)的實(shí)值向量,在語義信息表達(dá)上,比傳統(tǒng)機(jī)器學(xué)習(xí)方法更具優(yōu)勢(shì)?;谏疃葘W(xué)習(xí)的方法已取得較好成果,然而在移動(dòng)客服領(lǐng)域尚沒有相關(guān)分類應(yīng)用的研究。因此,本文基于深度學(xué)習(xí)方法挖掘移動(dòng)客服領(lǐng)域營銷活動(dòng)問題投訴工單內(nèi)部深層的語義信息,開展?fàn)I銷活動(dòng)問題標(biāo)簽的分類研究。

      本文首先基于K-means算法,對(duì)31省800萬條營銷活動(dòng)問題投訴工單數(shù)據(jù)進(jìn)行聚類分析,結(jié)合業(yè)務(wù)知識(shí),將營銷活動(dòng)問題標(biāo)簽劃歸為否認(rèn)參加營銷活動(dòng)、營銷活動(dòng)規(guī)則不滿、無法參加營銷活動(dòng)、營銷活動(dòng)贈(zèng)送或返還問題、優(yōu)惠到期未自動(dòng)取消、營銷宣傳與實(shí)際不符、終端營銷物流配送不及時(shí)、終端營銷缺貨、終端營銷售后問題、其他營銷問題、反悔定制、營銷活動(dòng)未到期要求取消等12種標(biāo)簽。然后制定標(biāo)注規(guī)則,并構(gòu)建了營銷活動(dòng)問題標(biāo)簽分類語料庫。最后在本文構(gòu)建的語料數(shù)據(jù)集上,基于深度學(xué)習(xí)方法進(jìn)行營銷活動(dòng)問題標(biāo)簽的分類研究。

      本文的創(chuàng)新之處在于:(1)本語料庫是移動(dòng)客服領(lǐng)域目前為止首個(gè)公開且規(guī)模較大的數(shù)據(jù)集,能夠?yàn)橐苿?dòng)客服領(lǐng)域營銷活動(dòng)問題標(biāo)簽的分類研究提供較好的資源支持,并有效推動(dòng)營銷活動(dòng)問題標(biāo)簽分類研究的發(fā)展。(2)本文制定的詳細(xì)的標(biāo)注規(guī)范和分類體系,能夠?yàn)槠渌头I(lǐng)域數(shù)據(jù)集的標(biāo)注提供借鑒,具有適用性。(3)本文采用深度學(xué)習(xí)單一模型及融合的方法能夠有效挖掘營銷活動(dòng)問題投訴工單內(nèi)部的深層語義信息,提升分類效果。

      1 營銷活動(dòng)問題標(biāo)簽分類語料庫的構(gòu)建

      1.1 基于K-means算法確定問題標(biāo)簽

      由于數(shù)據(jù)量大,采用人工方法確定問題標(biāo)簽個(gè)數(shù)代價(jià)較大。因此,我們采用K-means聚類算法進(jìn)行聚類分析,結(jié)合專業(yè)知識(shí),確定營銷活動(dòng)問題標(biāo)簽的數(shù)目為12, 具體過程如下:

      1) 預(yù)處理。首先,將投訴工單中客戶的手機(jī)號(hào)、地址等信息用“******”替換進(jìn)行脫敏處理;然后,使用分詞工具包LTP對(duì)工單進(jìn)行分詞。

      2) 特征抽取。統(tǒng)計(jì)和分析語料,抽取n-gram特征(unigram,bigram,trigram),使用Tfidf作為句子特征表示。

      3) 基于K-means聚類進(jìn)行聚類,利用K-means算法(5≤K≤16),分別基于unigram、bigram、trigram進(jìn)行聚類。分析聚類結(jié)果發(fā)現(xiàn):(1) 基于unigram特征聚類效果不理想,這可能是由于unigram特征沒有利用上下文信息導(dǎo)致的;(2) 無論K取何值,基于trigram特征的聚類效果均不理想,分析原因發(fā)現(xiàn),trigram容易產(chǎn)生數(shù)據(jù)稀疏導(dǎo)致概率失真。因此,本文最終基于bigram特征,K分別取5到16之間的整數(shù)進(jìn)行12組聚類實(shí)驗(yàn)。

      4) 確定分類標(biāo)簽數(shù)目。采用手肘法的誤差平方和確定投訴工單分類標(biāo)簽數(shù)為12。手肘法的核心是誤差平方和SSE(Sum of the Squared Errors),其計(jì)算如下:

      (1)

      式中:Ci是第i個(gè)簇,p是Ci中的樣本點(diǎn),mi是Ci的質(zhì)心(Ci是所有樣本的均值),SSE是所有樣本的聚類誤差,代表了聚類效果的好壞。

      手肘法的基本思想是隨著聚類數(shù)K的增大,樣本劃分會(huì)更加精細(xì),每個(gè)簇的聚合程度會(huì)逐漸提高,那么SSE自然會(huì)逐漸變小。并且當(dāng)K小于真實(shí)聚類數(shù)時(shí),由于K的增大會(huì)大幅增加每個(gè)簇的聚合程度,故SSE的下降幅度會(huì)很大。而當(dāng)K到達(dá)真實(shí)聚類數(shù)時(shí),再增加K所得到的聚合程度回報(bào)會(huì)迅速變小,所以SSE的下降幅度會(huì)驟減,然后隨著K值的繼續(xù)增大而趨于平緩。也就是說SSE和K的關(guān)系圖是一個(gè)手肘的形狀,而這個(gè)肘部對(duì)應(yīng)的K值就是數(shù)據(jù)的真實(shí)聚類數(shù)。圖1是基于手肘法確定的最佳聚類數(shù)示意圖。

      圖1 基于手肘法確定的最佳聚類數(shù)示意圖

      5) 確定分類標(biāo)簽名稱,分析基于2-gram特征,K取12時(shí),每類隨機(jī)抽取500條投訴工單交給業(yè)務(wù)專家進(jìn)行分析,并確定分類標(biāo)簽名稱。

      1.2 標(biāo)注過程

      營銷活動(dòng)問題標(biāo)簽分類語料標(biāo)注規(guī)范的制定難度較大,不僅數(shù)據(jù)量大,涉及專業(yè)知識(shí),而且涉及到對(duì)專業(yè)業(yè)務(wù)的定義和分類。因此,本文基于K-means算法和專業(yè)知識(shí)確定營銷活動(dòng)問題標(biāo)簽分類體系,并進(jìn)行標(biāo)注。標(biāo)注過程如圖2所示。首先,根據(jù)K-means算法和專業(yè)知識(shí)確定的營銷活動(dòng)問題標(biāo)簽分類體系,規(guī)則制定者制定標(biāo)注規(guī)則;然后,對(duì)每條投訴工單,由兩名標(biāo)注人員進(jìn)行獨(dú)立標(biāo)注。最后,由規(guī)則制定者審核標(biāo)注結(jié)果,并與標(biāo)注人員、非參與標(biāo)注的業(yè)務(wù)專家進(jìn)行討論和修訂,統(tǒng)一兩份標(biāo)注語料中不一致的標(biāo)注結(jié)果,形成最終的營銷活動(dòng)問題標(biāo)簽分類語料庫。

      圖2 語料標(biāo)注過程

      1.3 問題標(biāo)簽標(biāo)注規(guī)則

      1.3.1 營銷活動(dòng)問題

      營銷活動(dòng)問題指的是客戶對(duì)網(wǎng)站、10086人工、短信等渠道為客戶推薦優(yōu)惠活動(dòng)的內(nèi)容、相關(guān)規(guī)則等產(chǎn)生爭(zhēng)議,引起客戶不滿??蛻敉对V工單的對(duì)象為營銷活動(dòng),例如客戶對(duì)營銷活動(dòng)參與或退訂、對(duì)營銷活動(dòng)規(guī)則不滿、宣傳與實(shí)際不符、營銷活動(dòng)贈(zèng)品(含話費(fèi)/流量)未按時(shí)收到、質(zhì)量問題(含話費(fèi)金額有誤)等情況的投訴。

      1.3.2 標(biāo)簽的定義

      (1) 否認(rèn)參加營銷活動(dòng) 客戶在不知情情況下公司統(tǒng)一開通、變更、取消業(yè)務(wù)或優(yōu)惠、免費(fèi)體驗(yàn)活動(dòng),必須是客戶明確拒絕辦理仍然被開通才屬于“否認(rèn)參加營銷活動(dòng)”。

      (2) 營銷活動(dòng)規(guī)則不滿 該問題標(biāo)簽包括活動(dòng)規(guī)則限定捆綁業(yè)務(wù)(用戶參與營銷活動(dòng),不知情/不想捆綁新業(yè)務(wù),或?qū)墭I(yè)務(wù)無法取消不滿)、基礎(chǔ)套餐無法轉(zhuǎn)出或者變更(活動(dòng)到期前基礎(chǔ)套餐/流量套餐不能轉(zhuǎn)出或變更)、話費(fèi)分?jǐn)偛缓侠?對(duì)已參加的營銷活動(dòng)返還月份/金額不滿意)、最低消費(fèi)不合理(客戶對(duì)營銷活動(dòng)月底補(bǔ)收最低消費(fèi)不滿意、話費(fèi)清零不滿)、其他營銷活動(dòng)規(guī)則不滿(如限制辦理停機(jī)、銷號(hào)、過戶,分合戶等;客戶表示有其他用戶參加相同活動(dòng)不同待遇;沒有解釋清楚或者該提醒業(yè)務(wù)點(diǎn)未提醒的)幾種情況。

      (3) 無法參加營銷活動(dòng) 該問題標(biāo)簽包括客戶自己是非目標(biāo)客戶(客戶來電表達(dá)對(duì)自己不能參與某營銷活動(dòng),不是目標(biāo)客戶表示不滿)、營銷活動(dòng)參與渠道少(客戶對(duì)營銷活動(dòng)限定辦理渠道不滿意)、因互斥業(yè)務(wù)無法辦理(客戶現(xiàn)有業(yè)務(wù)與開通營銷活動(dòng)的捆綁業(yè)務(wù)互斥導(dǎo)致無法參與營銷活動(dòng))、其他無法參加營銷活動(dòng)問題(客戶同意參加活動(dòng)但是未及時(shí)給客戶辦理;客戶表示辦理了未顯示成功;寬帶活動(dòng)已繳費(fèi)或已變更業(yè)務(wù)但是因安裝問題導(dǎo)致客戶無法參加;活動(dòng)頁面無法打開或刷新不出來等)幾種情況。

      (4) 營銷活動(dòng)贈(zèng)送或返還問題 該問題標(biāo)簽包括未按時(shí)收到活動(dòng)返還(客戶僅表示未在活動(dòng)指定時(shí)間內(nèi)收到贈(zèng)送,無提及最低消費(fèi)問題,因人為問題導(dǎo)致活動(dòng)期承諾的贈(zèng)送未按時(shí)返還)、返還/贈(zèng)送金額有誤(參與活動(dòng)返還金額不準(zhǔn)確)、贈(zèng)送禮品質(zhì)量問題(用戶參與活動(dòng)贈(zèng)送的禮品、電子券、優(yōu)惠碼等出現(xiàn)的各類質(zhì)量及使用方面問題)、其他返還類問題(其他營銷活動(dòng)贈(zèng)送或返還問題)幾種情況。

      (5) 優(yōu)惠到期未自動(dòng)取消 該標(biāo)簽的判定依據(jù)是:活動(dòng)到期后業(yè)務(wù)未自動(dòng)取消的套餐或業(yè)務(wù)。

      (6) 營銷宣傳與實(shí)際不符 該標(biāo)簽的判定標(biāo)準(zhǔn)是:客戶明確表示活動(dòng)宣傳與實(shí)際體驗(yàn)不符(有對(duì)比),包括公司的一些宣傳冊(cè)頁及短信中有關(guān)活動(dòng)內(nèi)容的文字信息、客戶明確表示有人告知或承諾的內(nèi)容與實(shí)際發(fā)生的活動(dòng)情況不一致、要取消活動(dòng)(包括活動(dòng)到期變更已下線業(yè)務(wù)、客戶參加活動(dòng)或接到電話推薦業(yè)務(wù),實(shí)際辦理和宣傳不一致)等情況。

      (7) 終端營銷物流配送不及時(shí) 終端營銷物流配送不及時(shí)包括手機(jī)收到但是發(fā)票未及時(shí)配送、物流配送將客戶訂購產(chǎn)品丟失兩種情況。

      (8) 終端營銷缺貨 終端營銷缺貨包括:承諾贈(zèng)送機(jī)頂盒后一直未送;宣傳有免費(fèi)贈(zèng)送但是免費(fèi)機(jī)型無貨,但是有收費(fèi)機(jī)型的情況。

      (9) 終端營銷售后問題 該問題標(biāo)簽包括:終端維修、換機(jī)等售后問題、客戶對(duì)終端品質(zhì)產(chǎn)生質(zhì)疑(例如手機(jī)質(zhì)量差)。

      (10) 其他營銷問題 該問題標(biāo)簽包括客戶反映因參加活動(dòng)寬帶未及時(shí)安裝但是產(chǎn)生扣費(fèi)、客戶辦理終端類活動(dòng)要修改地址或信息填寫錯(cuò)誤要求修改等情況。

      (11) 反悔定制 該問題標(biāo)簽主要包括用戶接到電話推薦活動(dòng)表示同意辦理,之后反悔、客戶表示沒聽清或誤操作或非本人辦理活動(dòng)要求取消的情況。

      (12) 營銷活動(dòng)未到期要求取消 該問題標(biāo)簽包括活動(dòng)未到期用戶要求取消活動(dòng)、客戶明確表示只要求取消活動(dòng),無其他需求、客戶表示有活動(dòng)要求取消(客服人員前期有承諾客戶會(huì)幫助取消,但是還未執(zhí)行,客戶的要求仍然是取消業(yè)務(wù))的情況。

      1.4 問題標(biāo)簽的基本規(guī)則

      出現(xiàn)以下“重單”、“模板工單”、“無效工單”三種情況,在構(gòu)建語料庫時(shí)直接舍棄。

      (1) 重單 如果工單內(nèi)容中沒有具體的投訴內(nèi)容,只有之前投訴工單的一個(gè)編號(hào),直接標(biāo)注為“重單”。

      (2) 模板工單 如果是用工單模板建單的情況,此類工單內(nèi)容沒有客戶描述的自由文本信息,看不出客戶投訴的任何信息,標(biāo)注為“模板工單”。

      (3) 無效工單 客戶描述不清,看不出客戶投訴點(diǎn)的工單,標(biāo)注為“無效工單”。

      標(biāo)注語料的前提是能夠看懂客戶投訴的營銷活動(dòng)問題,以客戶的投訴意圖為主。為確保標(biāo)注出來的問題標(biāo)簽分類語料庫準(zhǔn)確、有效,標(biāo)注人員在標(biāo)注過程中需嚴(yán)格遵循以下標(biāo)注原則:

      (1) 以客戶需求為準(zhǔn) 標(biāo)注時(shí),需要從客戶的角度出發(fā),填寫客戶的需求,無論需求是否合理、是否可以實(shí)現(xiàn),只要客戶表達(dá)出來了,均需按照客戶投訴營銷活動(dòng)問題的意圖進(jìn)行標(biāo)注。

      (2) 摒棄業(yè)務(wù)經(jīng)驗(yàn) 標(biāo)注的目的是讓系統(tǒng)從大量的數(shù)據(jù)中學(xué)習(xí)判別客戶投訴營銷活動(dòng)問題標(biāo)簽的規(guī)則,由于系統(tǒng)并不具備移動(dòng)業(yè)務(wù)知識(shí)和推理能力,所以在標(biāo)注過程中不能將業(yè)務(wù)經(jīng)驗(yàn)加入考慮,基于推理得到標(biāo)注結(jié)果。

      (3) 避免臆斷推測(cè) 標(biāo)注客戶投訴意圖時(shí),必須從文字內(nèi)容出發(fā),不能加入標(biāo)注人員自己的主觀猜測(cè),不能在文字內(nèi)容表達(dá)出來的意圖之外推測(cè)出客戶的投訴意圖。

      (4) 純憑文字內(nèi)容 為確保訓(xùn)練數(shù)據(jù)的有效性,保障系統(tǒng)學(xué)習(xí)準(zhǔn)確率,標(biāo)注人員進(jìn)行標(biāo)注時(shí)僅通過文字判定標(biāo)簽,不可做文字內(nèi)容以外的聯(lián)想和經(jīng)驗(yàn)判斷。

      1.5 標(biāo)注特殊情況說明

      雖制定了詳細(xì)的標(biāo)注規(guī)則,但由于營銷活動(dòng)投訴工單的靈活性,導(dǎo)致很難判別,如下是標(biāo)注特殊情況:

      (1) 如果客戶表示未經(jīng)許可、不知情辦理了***活動(dòng),統(tǒng)一歸為:否認(rèn)參加營銷活動(dòng)。

      (2) 對(duì)活動(dòng)有最低承諾消費(fèi)不滿、沒有機(jī)卡綁定或手機(jī)壞了等導(dǎo)致的雙倍扣費(fèi),屬于營銷活動(dòng)規(guī)則不滿;如果客戶明確了業(yè)務(wù)規(guī)則,之后表示辦理時(shí)沒有提示,對(duì)宣傳與實(shí)際不符不滿,此類歸為:營銷宣傳與實(shí)際不符;對(duì)不能參加某一檔位的營銷活動(dòng),歸為:營銷活動(dòng)規(guī)則不滿;參與活動(dòng)但話費(fèi)沒有返還屬于營銷活動(dòng)贈(zèng)送或返還問題??蛻舯硎緟⑴c活動(dòng)但不成功,屬于:無法參加營銷活動(dòng);客戶參與活動(dòng),如明確表示當(dāng)時(shí)參與時(shí)介紹的與現(xiàn)在成功參與后的內(nèi)容不一致,則為:營銷宣傳與實(shí)際不符;營銷活動(dòng)到期后未取消產(chǎn)生扣費(fèi)的情況,歸為:優(yōu)惠到期未自動(dòng)取消。

      (3) 參與終端活動(dòng)后,終端出現(xiàn)質(zhì)量類問題,歸為:終端營銷售后問題;參與需要好友協(xié)助類活動(dòng),但數(shù)據(jù)不更新,歸為:無法參加營銷活動(dòng)。

      2 基于深度學(xué)習(xí)的營銷活動(dòng)問題標(biāo)簽分類研究

      傳統(tǒng)基于機(jī)器學(xué)習(xí)的分類方法需要人工設(shè)計(jì)特征,并且特征表示均采用獨(dú)熱(one-hot)的高維稀疏表示形式,難以捕捉投訴工單內(nèi)部的深層語義信息。相對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí),基于深度學(xué)習(xí)的方法不需要繁瑣的特征工程設(shè)計(jì),通過多層的神經(jīng)網(wǎng)絡(luò)自動(dòng)構(gòu)建數(shù)據(jù)的深層抽象特征表示,學(xué)習(xí)深層次的語義信息?;谏疃葘W(xué)習(xí)的方法能夠?qū)⒄Z言學(xué)信息表示為低維、連續(xù)的實(shí)值向量,可以減小特征選擇不全面對(duì)實(shí)驗(yàn)結(jié)果造成的影響。目前比較具有代表性的神經(jīng)網(wǎng)絡(luò)模型有CNN和LSTM。

      CNN本質(zhì)上是學(xué)習(xí)大量輸入信號(hào)到輸出目標(biāo)的映射關(guān)系,通過多隱層堆疊、每一層對(duì)上一層的輸出進(jìn)行處理的機(jī)制對(duì)輸入信號(hào)進(jìn)行逐層加工,從而把能夠?qū)⒊跏嫉摹暗蛯印碧卣鞅硎咀詣?dòng)轉(zhuǎn)化成“高層”的特征表示,該方式既可以避免顯式的特征抽取,也能夠減少訓(xùn)練代價(jià)。由于其采用局部感受野和權(quán)值共享的方式,能夠有效降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,所以在語音識(shí)別、圖像分析等領(lǐng)域得到廣泛應(yīng)用。

      LSTM通過獨(dú)特的“門”機(jī)制控制信息的記憶和更新,能夠自動(dòng)學(xué)習(xí)整個(gè)輸入序列的深層語義信息,并且可以解決傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)[19]的梯度消失問題。LSTM的“門”機(jī)制包含一個(gè)sigmoid激活函數(shù)和一個(gè)pointwise乘法來控制信息的加入與丟棄。sigmoid函數(shù)的輸出值在0到1之間,輸出值表示容許信息的通過量是多少,值為0表示“任何信息都不允許通過”,值為1代表“允許所有的信息通過”。LSTM模型通過輸入門、輸出門、忘記門控制信息的記憶和更新,從而在學(xué)習(xí)過程挖掘營銷活動(dòng)投訴工單內(nèi)部的深層語義信息。

      為挖掘營銷活動(dòng)問題投訴工單內(nèi)部的深層語義信息,本文采用深度學(xué)習(xí)的方法進(jìn)行營銷活動(dòng)問題標(biāo)簽的分類研究。圖3是基于深度學(xué)習(xí)的營銷活動(dòng)問題標(biāo)簽分類框架圖,包括預(yù)處理、構(gòu)建句子向量表示、基于深度學(xué)習(xí)訓(xùn)練模型、輸出分類結(jié)果四個(gè)階段。在預(yù)處理階段,對(duì)營銷活動(dòng)問題數(shù)據(jù),進(jìn)行分詞、去停用詞、訓(xùn)練詞向量等處理。在構(gòu)建句子向量表示階段,通過映射操作,將訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)中的工單詞序列轉(zhuǎn)換成低維、連續(xù)的實(shí)值表示形式,得到工單的句子向量表示。在基于深度學(xué)習(xí)訓(xùn)練模型階段,分別基于CNN、LSTM、Bidirectional Long Short Term Memory(BiLSTM)模型及三種模型融合的方法,訓(xùn)練營銷活動(dòng)問題標(biāo)簽分類模型。在輸出分類結(jié)果階段,預(yù)測(cè)并輸出待測(cè)試營銷活動(dòng)投訴工單的問題標(biāo)簽分類結(jié)果。

      圖3 基于深度學(xué)習(xí)的營銷活動(dòng)問題標(biāo)簽分類框架圖

      3 語料庫統(tǒng)計(jì)及分類研究實(shí)驗(yàn)

      3.1 語料庫的統(tǒng)計(jì)及一致性分析

      本語料數(shù)據(jù)來源于移動(dòng)客服領(lǐng)域,31省800萬條客戶投訴營銷活動(dòng)問題的真實(shí)工單記錄,共計(jì)標(biāo)注數(shù)據(jù)24 957條投訴工單。其中訓(xùn)練集有19 960條,測(cè)試集4 997條,每條標(biāo)注數(shù)據(jù)包括工單內(nèi)容和問題標(biāo)簽,其中工單內(nèi)容、問題標(biāo)簽之間用制表符隔開。表2是營銷活動(dòng)問題標(biāo)簽分類語料庫的統(tǒng)計(jì)信息。

      表2 營銷活動(dòng)問題標(biāo)簽分類語料庫的統(tǒng)計(jì)信息

      (1) 營銷活動(dòng)問題投訴工單數(shù)占比最高的三種問題標(biāo)簽分別是營銷活動(dòng)規(guī)則不滿、否認(rèn)參加營銷活動(dòng)和營銷活動(dòng)贈(zèng)送或返還問題。而終端營銷物流配送不及時(shí)的投訴工單僅有89條。說明不同營銷活動(dòng)問題標(biāo)簽的投訴熱度不同,客戶關(guān)注的焦點(diǎn)不同。從投訴工單的數(shù)量和占比,可以發(fā)現(xiàn)客戶投訴的Top3核心問題,對(duì)于快速定位客戶投訴的問題標(biāo)簽類別,提升服務(wù)質(zhì)量具有重要意義。

      (2) 12種問題標(biāo)簽投訴工單的平均長(zhǎng)度均在338字到493字之間,不同問題標(biāo)簽的工單長(zhǎng)度分布較均勻。這可能是由于營銷活動(dòng)問題的工單模板比較相似導(dǎo)致的。

      由于本文對(duì)每條營銷活動(dòng)問題投訴工單都標(biāo)記了唯一的標(biāo)記,所以召回率為100%。采用準(zhǔn)確率作為一致率(即兩組標(biāo)注結(jié)果完全一樣的投訴工單數(shù)目/總的投訴工單數(shù)目×100%)來分析標(biāo)注一致性。營銷活動(dòng)問題標(biāo)簽分類語料庫的一致性分析結(jié)果如表3所示。Result1_2為標(biāo)注結(jié)果1和標(biāo)注結(jié)果2之間的一致率,Result1_final為標(biāo)注結(jié)果1和最終語料標(biāo)注結(jié)果之間的一致率,Result2_final為標(biāo)注結(jié)果2和最終語料標(biāo)注結(jié)果之間的一致率。

      表3 投訴工單分類語料庫的一致率統(tǒng)計(jì) %

      從表3可以看出:

      (1) 12種問題標(biāo)簽的標(biāo)注一致率結(jié)果均在93%以上。Artstein和Poesio[20]指出,當(dāng)標(biāo)注一致性達(dá)到80%時(shí),即可認(rèn)為語料的一致性是可信賴的。從最終一致性結(jié)果可以看出,我們構(gòu)建的語料庫在一致性上是可靠的。

      (2) 第一列的一致率普遍比第二列、第三列的一致率低。這是因?yàn)椋簶?biāo)注結(jié)果會(huì)受人主觀因素的影響,而最終問題類語料是由標(biāo)注結(jié)果1和標(biāo)注結(jié)果2不同之處統(tǒng)一之后得到的。所以第二列、第三列的一致率普遍高于第一列的一致率。

      (3) 營銷活動(dòng)未到期要求取消、其他營銷問題的一致率相對(duì)較低;否認(rèn)參加營銷活動(dòng)、營銷活動(dòng)贈(zèng)送或返還問題、終端營銷售后問題的一致率相對(duì)較高。這可能是因?yàn)椋焊鱾€(gè)問題標(biāo)簽的特點(diǎn)、區(qū)分度不同造成的,例如否認(rèn)參加營銷活動(dòng)必須有明確的客戶否定的說法;營銷宣傳與實(shí)際不符必須有對(duì)比等。此外,還可以看出相對(duì)于其他問題標(biāo)簽,營銷活動(dòng)未到期要求取消、其他營銷問題的標(biāo)注更加復(fù)雜,因?yàn)樯婕暗礁鄰?fù)雜和多變的投訴情況。

      3.2 分類實(shí)驗(yàn)分析

      本文首先基于移動(dòng)客服領(lǐng)域營銷活動(dòng)問題800萬條投訴工單語料,使用Word2Vec工具包[21]進(jìn)行預(yù)訓(xùn)練,得到100維的詞向量。然后,分析表2營銷活動(dòng)問題標(biāo)簽分類語料庫的統(tǒng)計(jì)信息結(jié)果,發(fā)現(xiàn)數(shù)據(jù)存在不平衡現(xiàn)象,這樣會(huì)對(duì)分類器的結(jié)果造成影響。因此我們借鑒非均衡問題調(diào)節(jié)分類器的方法(即對(duì)分類器的訓(xùn)練數(shù)據(jù)進(jìn)行改造),通過欠抽樣和過抽樣的方法來處理不平衡的問題,最終構(gòu)建并得到新的平衡數(shù)據(jù)集。過抽樣就是對(duì)終端營銷缺貨、終端營銷物流配送不及時(shí)、其他營銷問題等標(biāo)簽數(shù)量少的數(shù)據(jù)進(jìn)行復(fù)制操作,欠抽樣就是對(duì)營銷活動(dòng)規(guī)則不滿、否認(rèn)參加營銷活動(dòng)等標(biāo)簽數(shù)量多的樣例的方式進(jìn)行隨機(jī)刪除操作,這樣就可以保證數(shù)據(jù)集分布大致保持在平衡的狀態(tài)。最后,分別基于CNN、LSTM、BiLSTM模型及三種模型融合的方法,在本文構(gòu)建的語料數(shù)據(jù)集上進(jìn)行營銷活動(dòng)問題標(biāo)簽分類的實(shí)驗(yàn)。在CNN實(shí)驗(yàn)中,濾波器的數(shù)目為292,學(xué)習(xí)率為0.01,設(shè)置一個(gè)批度的樣本數(shù)(batch-size)為128,卷積窗口大小為3,采用最大池化方式,實(shí)驗(yàn)迭代500次。在LSTM和BiLSTM實(shí)驗(yàn)中,設(shè)置一個(gè)批度的樣本數(shù)(batch-size)為800,迭代次數(shù)為500,其他均采用默認(rèn)參數(shù)。在三種模型融合實(shí)驗(yàn)中,為綜合利用三個(gè)模型的優(yōu)勢(shì),采用規(guī)則進(jìn)行融合,構(gòu)建基于融合的營銷活動(dòng)問題標(biāo)簽分類模型(CNN+LSTM+BiLSTM),得到分類結(jié)果。本文以每條工單為單位進(jìn)行評(píng)測(cè),采用準(zhǔn)確率(P)、召回率(R)和F1值的評(píng)測(cè)指標(biāo)衡量分類效果。本文采用的融合規(guī)則如下:

      (1) 如果兩個(gè)分類器輸出的問題標(biāo)簽一致,一個(gè)分類器輸出的問題標(biāo)簽和另外兩個(gè)分類器的標(biāo)簽不同,按照多數(shù)投票原則確定最終的問題標(biāo)簽。

      (2) 如果三個(gè)分類器輸出的問題標(biāo)簽各不相同,則依據(jù)概率最大的原則確定最終的問題標(biāo)簽結(jié)果。

      本文基于上述規(guī)則,得到的基于深度學(xué)習(xí)模型的營銷活動(dòng)問題標(biāo)簽分類實(shí)驗(yàn)結(jié)果如表4所示。

      表4 基于深度學(xué)習(xí)的營銷活動(dòng)問題標(biāo)簽分類實(shí)驗(yàn)結(jié)果%

      (1) 基于CNN模型的營銷活動(dòng)問題標(biāo)簽分類結(jié)果比基于LSTM模型的結(jié)果好,F(xiàn)1值達(dá)到65.95%??赡苁且?yàn)椋汗尉渥拥哪0逍暂^強(qiáng),會(huì)包括較多的無用(噪音)信息,這樣,LSTM模型會(huì)將噪音信息傳遞到下一時(shí)刻,從而影響分類效果,而CNN模型能夠捕捉到局部最有效的信息,所以分類效果相對(duì)較好。

      (2) BiLSTM模型的F1值比LSTM模型高3.83%,說明歷史信息和未來信息對(duì)于營銷活動(dòng)問題標(biāo)簽的分類都是有用的。這可能是因?yàn)椋築iLSTM模型能夠捕捉到工單序列的歷史信息和未來信息,而LSTM模型僅能夠捕捉到工單序列的歷史信息。

      (3) CNN、LSTM、BiLSTM模型的分類結(jié)果F1值在59.67%和65.95%之間,說明基于深度學(xué)習(xí)方法的分類結(jié)果還有很大的提升空間。這主要是因?yàn)椋罕疚臄?shù)據(jù)來源于真實(shí)的客戶投訴工單內(nèi)容,工單的靈活性和口語化特征加大了問題標(biāo)簽分類的難度和復(fù)雜性。

      (4) CNN+LSTM+BiLSTM模型分類性能最好,F(xiàn)1值達(dá)到67.70%,比CNN、LSTM、BiLSTM模型的F1值分別高1.75%、8.03%、4.20%。說明本文提出的融合分類方法是有效的,能夠綜合利用各種模型的優(yōu)勢(shì),挖掘更深層的語義信息,從而顯著提高營銷活動(dòng)問題標(biāo)簽的分類效果。

      4 結(jié) 語

      本文主要總結(jié)了在移動(dòng)客服領(lǐng)域營銷活動(dòng)問題標(biāo)簽分類語料庫構(gòu)建和分類研究方面的工作。首先,基于K-means算法和專業(yè)業(yè)務(wù)知識(shí)確定分類標(biāo)簽體系,依據(jù)專業(yè)知識(shí)制定詳細(xì)的標(biāo)注規(guī)則并進(jìn)行標(biāo)注。最終構(gòu)建了目前規(guī)模較大、業(yè)務(wù)覆蓋面最廣、分類最完備的移動(dòng)客服領(lǐng)域營銷活動(dòng)問題標(biāo)簽分類語料庫,共計(jì)標(biāo)注投訴工單24 957條。然后,統(tǒng)計(jì)和分析營銷活動(dòng)問題標(biāo)簽分類語料庫標(biāo)注結(jié)果的一致性,并在構(gòu)建的語料庫上,采用單一深度學(xué)習(xí)模型及三種模型融合的方法進(jìn)行營銷活動(dòng)問題標(biāo)簽分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果F1值最高達(dá)到67.70%,表明本文提出的基于深度學(xué)習(xí)的營銷活動(dòng)問題標(biāo)簽分類方法是有效的。最后,對(duì)未來工作進(jìn)行展望。詳盡的標(biāo)注規(guī)則和嚴(yán)格的標(biāo)注過程,使得語料標(biāo)注取得了較高的一致率,分類結(jié)果較好,可見本文構(gòu)建的語料規(guī)模足以用于后續(xù)研究。如前所述,語料庫的構(gòu)建目的是為了研究營銷活動(dòng)問題標(biāo)簽的分類,從而幫助服務(wù)決策人員進(jìn)行營銷活動(dòng)問題專題分析。未來工作的重點(diǎn)是根據(jù)使用者的反饋意見,繼續(xù)完善標(biāo)注規(guī)范,改進(jìn)標(biāo)注質(zhì)量,擴(kuò)大語料規(guī)模,改進(jìn)營銷活動(dòng)問題標(biāo)簽的分類方法,提高分類效果,從而實(shí)現(xiàn)移動(dòng)客服領(lǐng)域營銷活動(dòng)問題信息的抽取和整合。

      猜你喜歡
      工單語料語料庫
      基于量化考核的基層班組管理系統(tǒng)的設(shè)計(jì)與應(yīng)用
      基于transformer的工單智能判責(zé)方法研究
      《語料庫翻譯文體學(xué)》評(píng)介
      基于HANA的工單備件采購聯(lián)合報(bào)表的研究與實(shí)現(xiàn)
      中國核電(2017年1期)2017-05-17 06:09:55
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      電力95598熱線全業(yè)務(wù)集中后的工單預(yù)警機(jī)制
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      《苗防備覽》中的湘西語料
      淅川县| 苍溪县| 新昌县| 大安市| 芦溪县| 阳朔县| 林芝县| 泾阳县| 阿图什市| 齐齐哈尔市| 隆安县| 东乡县| 瑞金市| 通山县| 西安市| 得荣县| 望城县| 长岛县| 齐齐哈尔市| 额敏县| 日喀则市| 青川县| 西畴县| 吴川市| 登封市| 万州区| 建湖县| 繁昌县| 芜湖县| 固阳县| 滨海县| 舟山市| 建湖县| 五莲县| 黑山县| 上栗县| 怀远县| 巩留县| 揭东县| 房产| 凤台县|