李鵬鵬,周丹陽,姜朝明,喻湄霽,劉 偉,王 濤
(1.國網(wǎng)浙江省電力有限公司臺(tái)州供電公司,浙江 臺(tái)州 318000;2.西華大學(xué) 電氣與電子信息學(xué)院,成都 610039)
用戶評(píng)價(jià)是企業(yè)內(nèi)部評(píng)估自身服務(wù)狀況,改善用戶體驗(yàn)的重要渠道。國家電網(wǎng)有限公司(以下簡(jiǎn)稱“國網(wǎng)公司”)作為供電服務(wù)類企業(yè),對(duì)投訴工單尤為敏感。如何減少投訴工單,已成為國網(wǎng)公司的重要課題之一。在實(shí)際生產(chǎn)中,投訴工單有較少部分為直接投訴工單,更多的則是由其他非投訴工單向投訴工單轉(zhuǎn)化的轉(zhuǎn)化投訴工單。直接投訴工單能夠利用投訴行為特征被預(yù)測(cè),但很難在直接投訴發(fā)生之前采取有效措施,因此直接投訴工單的預(yù)測(cè)結(jié)果可作為國網(wǎng)公司后期分析服務(wù)漏洞的重要參考。而轉(zhuǎn)化投訴工單占比較大,實(shí)現(xiàn)轉(zhuǎn)化工單的有效預(yù)測(cè)既可以對(duì)投訴風(fēng)險(xiǎn)提前預(yù)警,通過采取有效措施減少潛在投訴風(fēng)險(xiǎn),又可以發(fā)現(xiàn)服務(wù)過程中的薄弱環(huán)節(jié)。但轉(zhuǎn)化投訴工單成因復(fù)雜,受技術(shù)發(fā)展、工單數(shù)據(jù)采集等因素制約,難以實(shí)現(xiàn)對(duì)其有效預(yù)測(cè)。人工智能技術(shù)的發(fā)展使復(fù)雜的投訴工單預(yù)測(cè)成為了可能。而本文所關(guān)注的投訴工單預(yù)測(cè)問題本身也是一種分類問題,適合用人工智能技術(shù)中的分類算法進(jìn)行建模與求解。因此,以95598 歷史工單數(shù)據(jù)為基礎(chǔ),借助于人工智能算法構(gòu)建投訴風(fēng)險(xiǎn)預(yù)警模型,對(duì)于提升電力公司的服務(wù)水平意義重大。
目前,部分基于人工智能的經(jīng)典數(shù)據(jù)挖掘算法已被應(yīng)用于投訴風(fēng)險(xiǎn)預(yù)警領(lǐng)域,如文獻(xiàn)[1]在考慮文本詞頻權(quán)重的情況下,提出了一種TFIDF 特征加權(quán)優(yōu)化算法對(duì)95598 投訴工單進(jìn)行分類,但其僅局限于通過詞頻選取各投訴工單的關(guān)鍵因素,未能實(shí)現(xiàn)有效預(yù)警。文獻(xiàn)[2]采用了深度學(xué)習(xí)模型來識(shí)別疑似投訴工單,進(jìn)而實(shí)現(xiàn)投訴工單風(fēng)險(xiǎn)預(yù)警,但尚未考慮轉(zhuǎn)化工單導(dǎo)致投訴的情況。此外,就模型而言,由于深度學(xué)習(xí)模型復(fù)雜,需要大量的計(jì)算性能來構(gòu)建,而對(duì)于小數(shù)據(jù)集的簡(jiǎn)單問題,在計(jì)算開銷和時(shí)間相同的情況下,深度學(xué)習(xí)方法并沒有比其他數(shù)據(jù)挖掘方法體現(xiàn)出足夠的優(yōu)勢(shì)。文獻(xiàn)[3]提出了一種基于多模型的投訴風(fēng)險(xiǎn)預(yù)警方法,通過分析客戶歷史訴求和停電相關(guān)數(shù)據(jù),利用了多種模型進(jìn)行預(yù)測(cè),并采用加權(quán)方法融合決策結(jié)果,以實(shí)現(xiàn)良好的預(yù)測(cè)效果。該方法雖然具有良好的計(jì)算開銷與時(shí)間開銷,但是不同模型之間的權(quán)重設(shè)置具有主觀性與不可解釋性。此外,支持向量機(jī)[4]、神經(jīng)網(wǎng)絡(luò)[5]、隨機(jī)森林[6]和貝葉斯網(wǎng)絡(luò)[7]等人工智能算法在預(yù)測(cè)領(lǐng)域都較為活躍,其中隨機(jī)森林作為一種優(yōu)秀的分類算法,在分類預(yù)測(cè)應(yīng)用領(lǐng)域具有較為突出的綜合性能[8-11]。
本文在考慮轉(zhuǎn)化投訴工單的情況下,提出一種基于隨機(jī)森林算法的投訴風(fēng)險(xiǎn)預(yù)測(cè)方法。在完成95598 歷史工單數(shù)據(jù)預(yù)處理的情況下,利用歷史工單的供電地區(qū)、時(shí)間、天氣、前期工單事因、重復(fù)來電和投訴傾向等因素構(gòu)建投訴行為特征。通過提取歷史工單數(shù)據(jù)中的投訴行為特征,完成對(duì)基于隨機(jī)森林的投訴風(fēng)險(xiǎn)預(yù)警模型訓(xùn)練,最終實(shí)現(xiàn)對(duì)直接投訴工單與轉(zhuǎn)化投訴工單的預(yù)測(cè)。
隨機(jī)森林[12]作為數(shù)據(jù)挖掘技術(shù)中的一種集成分類器,其旨在從數(shù)據(jù)樣本中構(gòu)造隨機(jī)決策樹模型以獲得單個(gè)分類器結(jié)果,再綜合單個(gè)隨機(jī)決策樹模型,獲得隨機(jī)森林模型。隨機(jī)森林的構(gòu)造過程如圖1 所示,其主要步驟包括[13]:
(1)抽取子樣本。采用bootstrap 抽樣方法,隨機(jī)可重復(fù)取樣,形成新的子樣本數(shù)據(jù)集。
(2)建立子決策樹。對(duì)每個(gè)含有M 個(gè)特征變量子樣本訓(xùn)練集,隨機(jī)方法抽取m(m<M)個(gè)特征,構(gòu)造建立分類回歸樹。
(3)建立隨機(jī)森林模型。重復(fù)步驟(1)和(2),得到K 個(gè)決策樹,形成隨機(jī)森林。
(4)投票分類。結(jié)合K 個(gè)決策樹的預(yù)測(cè)結(jié)果,采用投票方式選出最優(yōu)分類。
圖1 隨機(jī)森林的構(gòu)造過程
隨機(jī)森林預(yù)測(cè)算法的實(shí)現(xiàn)過程見表1。
表1 隨機(jī)森林算法
為實(shí)現(xiàn)對(duì)95598 投訴工單的“先知先覺”,增強(qiáng)電力服務(wù)部門對(duì)投訴工單的預(yù)警能力,并基于此開展針對(duì)性更強(qiáng)的服務(wù)改善,以提高電力服務(wù)水平,本節(jié)根據(jù)95598 各類工單成因的特點(diǎn),提出一種基于隨機(jī)森林算法的95598 投訴預(yù)測(cè)方法。該方法主要步驟如下:
步驟一:95598 歷史工單數(shù)據(jù)預(yù)處理。對(duì)歷史工單數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,其主要步驟包括:數(shù)據(jù)投訴工單、數(shù)據(jù)清洗與數(shù)據(jù)集成。通過對(duì)目標(biāo)城市歷史工單生數(shù)據(jù)進(jìn)行處理,提供投訴工單成因挖掘模型所需的數(shù)據(jù)。
步驟二:投訴行為特征提取。對(duì)步驟一中經(jīng)過預(yù)處理的歷史工單數(shù)據(jù),進(jìn)行數(shù)據(jù)分析并提取投訴行為特征。
步驟三:建立基于隨機(jī)森林的投訴預(yù)測(cè)模型?;诓襟E二中提取的各投訴行為特征,建立基于隨機(jī)森林的投訴預(yù)測(cè)模型。
步驟四:實(shí)時(shí)預(yù)測(cè)。將無標(biāo)簽的95598 實(shí)時(shí)工單的相關(guān)行為特征送入步驟三所建立的投訴預(yù)測(cè)模型中,獲得預(yù)測(cè)結(jié)果。
95598 歷史工單數(shù)據(jù)主要包含文字?jǐn)?shù)據(jù)和時(shí)間數(shù)據(jù),其中文字?jǐn)?shù)據(jù)主要指描述供電地區(qū)、工單事由等相關(guān)數(shù)據(jù),本文采用數(shù)字編碼的方法對(duì)其進(jìn)行全部編碼;時(shí)間數(shù)據(jù)主要指工單受理日期,本文采用時(shí)間距離法將時(shí)間數(shù)字化,其主要思想是將1900 年1 月1 日作為基準(zhǔn)時(shí)間,且記為1,以當(dāng)前時(shí)間與基準(zhǔn)時(shí)間的數(shù)學(xué)距離作為時(shí)間數(shù)據(jù);此外,為分析天氣因素對(duì)投訴工單造成的影響,還應(yīng)對(duì)工單受理時(shí)間的近期天氣數(shù)據(jù)進(jìn)行提取,考慮到投訴可能存在時(shí)間延遲性,成單時(shí)間可能與投訴成單當(dāng)天的天氣并無關(guān)系,故針對(duì)天氣數(shù)據(jù),本文考慮利用將成單時(shí)間近5 天中最嚴(yán)重的天氣情況作為成單的天氣因素。上述工作主要是完成數(shù)據(jù)投訴工單,目的是將工單中計(jì)算機(jī)無法直接識(shí)別的文字、天氣和日期投訴工單轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的數(shù)據(jù)。
對(duì)經(jīng)過數(shù)據(jù)投訴工單的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)集成。數(shù)據(jù)清洗主要是將歷史工單數(shù)據(jù)中的無效工單作刪除處理;數(shù)據(jù)集成是將投訴工單已有的成單時(shí)間、事由、地區(qū)和業(yè)務(wù)類型等因素與外部天氣數(shù)據(jù)集成,其所有成單因素作為一個(gè)數(shù)據(jù)庫參與后續(xù)建模。
投訴行為特征是描述投訴行為可能成因的重要因素,預(yù)測(cè)準(zhǔn)確程度大部分取決于提取投訴行為特征的好壞。通過對(duì)歷史工單數(shù)據(jù)的預(yù)處理,可初步提取業(yè)務(wù)類型、工單時(shí)間、受理地區(qū)和天氣類型等因素作為投訴行為特征。實(shí)際投訴工單投訴行為表明:重復(fù)來電、前期的投訴傾向等對(duì)于投訴工單形成關(guān)系重大。故提取95598 歷史工單中用戶來電次數(shù)及來電時(shí)話務(wù)員判斷該用戶的投訴傾向數(shù)據(jù),作為投訴行為特征。數(shù)據(jù)預(yù)處理及投訴行為特征提取見圖2。
圖2 數(shù)據(jù)預(yù)處理及投訴行為特征提取
通過對(duì)歷史工單數(shù)據(jù)的預(yù)處理,發(fā)現(xiàn)95598電力服務(wù)投訴工單成因可能與成單時(shí)間、成單事由、成單地區(qū)、業(yè)務(wù)類型和天氣因素等密切相關(guān)。基于隨機(jī)森林的95598 電力服務(wù)投訴工單預(yù)測(cè)模型P 可表述為:
式中:A為投訴工單的成單地區(qū)向量;T 為投訴工單的成單時(shí)間向量;V 為投訴工單的前期業(yè)務(wù)類型向量;W 為投訴工單的天氣類型向量;C 為投訴工單的溫度類型向量;F 為投訴工單的風(fēng)速類型向量;L 為用戶重復(fù)來電向量;Q 為用戶投訴傾向向量。
以某市供電公司的95598 電力服務(wù)歷史工單數(shù)據(jù)為分析對(duì)象,建立基于該市的95598 投訴工單預(yù)測(cè)模型。
對(duì)該市供電公司歷年的95598 電力服務(wù)工單數(shù)據(jù)進(jìn)行預(yù)處理后,共獲得數(shù)據(jù)樣本54 681 例。該市有供電轄區(qū)10 個(gè),成單時(shí)間類型共有12 個(gè)月份,前期工單業(yè)務(wù)類型共9 種(表揚(yáng)、服務(wù)申請(qǐng)、故障報(bào)修、建議、舉報(bào)、信息查詢、業(yè)務(wù)咨詢、意見和綜合業(yè)務(wù)),業(yè)務(wù)類型中受理類型共37個(gè),天氣類型有陰、晴、多云、陣雨、小雨、中雨、大雨和暴雨8 類,氣溫類型有高溫、低溫2種,風(fēng)速類型有強(qiáng)風(fēng)1 種,雷電類型有出現(xiàn)雷電1 種。
基于隨機(jī)森林的95598 電力服務(wù)投訴工單預(yù)測(cè)模型可由式(1)表示。將完成預(yù)處理的數(shù)據(jù)導(dǎo)入Weka 平臺(tái)中,得到該預(yù)測(cè)模型的屬性分布,見圖3。
圖3 預(yù)測(cè)模型數(shù)據(jù)集
選用Weka3.8 平臺(tái)中的隨機(jī)森林算法,采用10%交叉驗(yàn)證,對(duì)其進(jìn)行模型建立。完成模型建立后,可得到各因素與投訴之間的關(guān)系,其中業(yè)務(wù)類型與投訴工單之間的關(guān)系尤為密切,二者之間關(guān)系的預(yù)測(cè)結(jié)果見圖4。
圖4 業(yè)務(wù)類型與投訴之間關(guān)系的預(yù)測(cè)結(jié)果
圖4 中橫坐標(biāo)為工單業(yè)務(wù)類型,縱坐標(biāo)為投訴類型(0 為無投訴;1 為轉(zhuǎn)化工單投訴;2 為直接工單投訴),圖中“×”表示正確預(yù)測(cè)樣本;“□”表示錯(cuò)誤預(yù)測(cè)樣本。
圖4 投訴預(yù)測(cè)樣本結(jié)果的分析表明:當(dāng)發(fā)生業(yè)務(wù)類型16(供電業(yè)務(wù))和17(供電質(zhì)量)時(shí),易產(chǎn)生直接或間接投訴。當(dāng)發(fā)生業(yè)務(wù)類型為29(營業(yè)業(yè)務(wù))時(shí),易發(fā)生轉(zhuǎn)化投訴。
ROC 曲線是以假陽率和真陽率為軸的曲線,其是描述預(yù)測(cè)性能的重要參數(shù)曲線,與橫軸圍成的面積越大,說明性能越好,即曲線越靠近A 點(diǎn)(左上方)性能越好,越靠近B 點(diǎn)(右下方)性能越差。根據(jù)模型建立結(jié)果,導(dǎo)出該預(yù)測(cè)模型的ROC曲線,見圖5。由圖5 可知,ROC 曲線幾乎完全接近A 點(diǎn),因此本文方法所得到的預(yù)測(cè)模型性能良好。
圖5 本文方法的ROC 曲線
將本文方法與常見方法進(jìn)行性能比較。首先給出比較中會(huì)涉及的預(yù)測(cè)模型測(cè)試參數(shù)定義。
均方誤差MSE:
式中:xi為預(yù)測(cè)值;x 為真實(shí)值;n 為預(yù)測(cè)樣本總數(shù)。MSE 用以描述預(yù)測(cè)結(jié)果的好壞,如果該值越大,則說明預(yù)測(cè)效果越差,反之越好。
若將預(yù)測(cè)模型的真陰類、真陽類、假陰類、假陽類分別用TN,TP,F(xiàn)N,F(xiàn)P 來表示,則召回率R 可定義為:
召回率R 描述了預(yù)測(cè)模型正確判定的正例占總正例比重。
F1值可定義為:
式中:F1值是預(yù)測(cè)模型的一個(gè)綜合指標(biāo),F(xiàn)1越大說明該模型預(yù)測(cè)效果越好。
為了充分說明本文方法的優(yōu)越性,繼續(xù)以weka3.8 軟件為測(cè)試平臺(tái),采用本文數(shù)據(jù)集完成對(duì)SVM(支持向量機(jī))、MLP(多層神經(jīng)網(wǎng)絡(luò))、RT(隨機(jī)決策樹)、BN(貝葉斯網(wǎng)絡(luò))和邏輯斯蒂方法的預(yù)測(cè)模型測(cè)試,測(cè)試結(jié)果見表2。
表2 各預(yù)測(cè)算法比較
由表1 可知:
(1)各模型對(duì)于本文數(shù)據(jù)集均有較好的準(zhǔn)確率,本文方法與準(zhǔn)確率最高的SVM 模型幾乎相當(dāng),但SVM 方法的均值誤差大了約8 倍。
(2)在建模用時(shí)方面,由于投訴風(fēng)險(xiǎn)預(yù)測(cè)并不是在線預(yù)測(cè),完成建模的時(shí)間處于完全可接受的范圍內(nèi);而BP 神經(jīng)網(wǎng)絡(luò)建模用時(shí)最長(zhǎng),很難適用于工程實(shí)際;貝葉斯網(wǎng)絡(luò)模型在建模用時(shí)方面優(yōu)勢(shì)明顯,但其準(zhǔn)確率與MSE 均不及本文方法??梢姡m然本文方法在某些單項(xiàng)指標(biāo)方面并不是最佳的,但從綜合性能的角度考慮,本文方法較其他模型具有較大優(yōu)勢(shì)。
為評(píng)估本文方法對(duì)于其他實(shí)際數(shù)據(jù)集的預(yù)測(cè)性能,繼續(xù)用本文方法做測(cè)試實(shí)驗(yàn)。所選用的數(shù)據(jù)集為該目標(biāo)城市最新獲得的2019 年1—5 月95598 工單,共計(jì)16 497 例,經(jīng)過數(shù)據(jù)預(yù)處理獲得有效測(cè)試數(shù)據(jù)為16 218 例。該實(shí)驗(yàn)在配置為windows 8.1 Intel(R)Core(TM)i5-4460 CPU@3.20 GHz 的計(jì)算機(jī)上通過MATLAB 編程實(shí)現(xiàn),其預(yù)測(cè)分布結(jié)果見圖6。
圖6 中橫坐標(biāo)為用于測(cè)試的樣本編號(hào),縱坐標(biāo)為投訴類型(0 為無投訴;1 為轉(zhuǎn)化工單投訴;2為直接工單投訴),圖中“※”表示預(yù)測(cè)結(jié)果,“□”表示真實(shí)結(jié)果。該實(shí)驗(yàn)獲得正確預(yù)測(cè)的樣本共15 781 例,其正確預(yù)測(cè)率約為96.93%。由圖6 可知,在面對(duì)最新的實(shí)際95598 工單,本文方法依然有非常高的準(zhǔn)確率。此外,2019 年上半年實(shí)測(cè)數(shù)據(jù)的準(zhǔn)確率(96.93%)與表2 中的正確預(yù)測(cè)率(98.76%)之間存在一定的誤差,這是由于構(gòu)建模型時(shí)數(shù)據(jù)采用交叉驗(yàn)證方式,數(shù)據(jù)分布較為均勻,而2019 年上半年的95598 工單集中分布于1—5 月,故導(dǎo)致這種可容許的誤差存在,該誤差可以通過增加訓(xùn)練樣本數(shù)來減小或規(guī)避。
圖6 某市2019 年上半年95598 預(yù)測(cè)結(jié)果分布
為實(shí)現(xiàn)95598 投訴工單投訴風(fēng)險(xiǎn)預(yù)測(cè),減少投訴風(fēng)險(xiǎn)發(fā)生,在充分考慮多種因素的情況下,提出一種基于隨機(jī)森林算法的95598 投訴工單投訴風(fēng)險(xiǎn)預(yù)測(cè)方法。該方法與其他數(shù)據(jù)挖掘方法相比,具有以下優(yōu)點(diǎn):
(1)本文方法預(yù)測(cè)準(zhǔn)確率較高,建模用時(shí)短,特別適合應(yīng)用于工程實(shí)際中。
(2)本文方法所構(gòu)造的模型均方誤差小,預(yù)測(cè)性能優(yōu)異。
在實(shí)驗(yàn)過程中也發(fā)現(xiàn)本文方法在建模速度上尚不及貝葉斯網(wǎng)絡(luò)方法和隨機(jī)決策樹方法,因此在保證預(yù)測(cè)準(zhǔn)確性的情況下繼續(xù)提高建模速度,是未來研究的重點(diǎn)。