基于隨機(jī)森林算法的95598 投訴預(yù)測(cè)方法研究

2020-05-06 14:46:58李鵬鵬周丹陽姜朝明喻湄霽

浙江電力 2020年4期

李鵬鵬，周丹陽，姜朝明，喻湄霽，劉偉，王濤

（1.國網(wǎng)浙江省電力有限公司臺(tái)州供電公司，浙江臺(tái)州 318000；2.西華大學(xué) 電氣與電子信息學(xué)院，成都 610039）

0 引言

用戶評(píng)價(jià)是企業(yè)內(nèi)部評(píng)估自身服務(wù)狀況，改善用戶體驗(yàn)的重要渠道。國家電網(wǎng)有限公司（以下簡(jiǎn)稱“國網(wǎng)公司”）作為供電服務(wù)類企業(yè)，對(duì)投訴工單尤為敏感。如何減少投訴工單，已成為國網(wǎng)公司的重要課題之一。在實(shí)際生產(chǎn)中，投訴工單有較少部分為直接投訴工單，更多的則是由其他非投訴工單向投訴工單轉(zhuǎn)化的轉(zhuǎn)化投訴工單。直接投訴工單能夠利用投訴行為特征被預(yù)測(cè)，但很難在直接投訴發(fā)生之前采取有效措施，因此直接投訴工單的預(yù)測(cè)結(jié)果可作為國網(wǎng)公司后期分析服務(wù)漏洞的重要參考。而轉(zhuǎn)化投訴工單占比較大，實(shí)現(xiàn)轉(zhuǎn)化工單的有效預(yù)測(cè)既可以對(duì)投訴風(fēng)險(xiǎn)提前預(yù)警，通過采取有效措施減少潛在投訴風(fēng)險(xiǎn)，又可以發(fā)現(xiàn)服務(wù)過程中的薄弱環(huán)節(jié)。但轉(zhuǎn)化投訴工單成因復(fù)雜，受技術(shù)發(fā)展、工單數(shù)據(jù)采集等因素制約，難以實(shí)現(xiàn)對(duì)其有效預(yù)測(cè)。人工智能技術(shù)的發(fā)展使復(fù)雜的投訴工單預(yù)測(cè)成為了可能。而本文所關(guān)注的投訴工單預(yù)測(cè)問題本身也是一種分類問題，適合用人工智能技術(shù)中的分類算法進(jìn)行建模與求解。因此，以95598 歷史工單數(shù)據(jù)為基礎(chǔ)，借助于人工智能算法構(gòu)建投訴風(fēng)險(xiǎn)預(yù)警模型，對(duì)于提升電力公司的服務(wù)水平意義重大。

目前，部分基于人工智能的經(jīng)典數(shù)據(jù)挖掘算法已被應(yīng)用于投訴風(fēng)險(xiǎn)預(yù)警領(lǐng)域，如文獻(xiàn)[1]在考慮文本詞頻權(quán)重的情況下，提出了一種TFIDF 特征加權(quán)優(yōu)化算法對(duì)95598 投訴工單進(jìn)行分類，但其僅局限于通過詞頻選取各投訴工單的關(guān)鍵因素，未能實(shí)現(xiàn)有效預(yù)警。文獻(xiàn)[2]采用了深度學(xué)習(xí)模型來識(shí)別疑似投訴工單，進(jìn)而實(shí)現(xiàn)投訴工單風(fēng)險(xiǎn)預(yù)警，但尚未考慮轉(zhuǎn)化工單導(dǎo)致投訴的情況。此外，就模型而言，由于深度學(xué)習(xí)模型復(fù)雜，需要大量的計(jì)算性能來構(gòu)建，而對(duì)于小數(shù)據(jù)集的簡(jiǎn)單問題，在計(jì)算開銷和時(shí)間相同的情況下，深度學(xué)習(xí)方法并沒有比其他數(shù)據(jù)挖掘方法體現(xiàn)出足夠的優(yōu)勢(shì)。文獻(xiàn)[3]提出了一種基于多模型的投訴風(fēng)險(xiǎn)預(yù)警方法，通過分析客戶歷史訴求和停電相關(guān)數(shù)據(jù)，利用了多種模型進(jìn)行預(yù)測(cè)，并采用加權(quán)方法融合決策結(jié)果，以實(shí)現(xiàn)良好的預(yù)測(cè)效果。該方法雖然具有良好的計(jì)算開銷與時(shí)間開銷，但是不同模型之間的權(quán)重設(shè)置具有主觀性與不可解釋性。此外，支持向量機(jī)[4]、神經(jīng)網(wǎng)絡(luò)[5]、隨機(jī)森林[6]和貝葉斯網(wǎng)絡(luò)[7]等人工智能算法在預(yù)測(cè)領(lǐng)域都較為活躍，其中隨機(jī)森林作為一種優(yōu)秀的分類算法，在分類預(yù)測(cè)應(yīng)用領(lǐng)域具有較為突出的綜合性能[8-11]。

本文在考慮轉(zhuǎn)化投訴工單的情況下，提出一種基于隨機(jī)森林算法的投訴風(fēng)險(xiǎn)預(yù)測(cè)方法。在完成95598 歷史工單數(shù)據(jù)預(yù)處理的情況下，利用歷史工單的供電地區(qū)、時(shí)間、天氣、前期工單事因、重復(fù)來電和投訴傾向等因素構(gòu)建投訴行為特征。通過提取歷史工單數(shù)據(jù)中的投訴行為特征，完成對(duì)基于隨機(jī)森林的投訴風(fēng)險(xiǎn)預(yù)警模型訓(xùn)練，最終實(shí)現(xiàn)對(duì)直接投訴工單與轉(zhuǎn)化投訴工單的預(yù)測(cè)。

1 隨機(jī)森林理論

1.1 隨機(jī)森林理論概述

隨機(jī)森林[12]作為數(shù)據(jù)挖掘技術(shù)中的一種集成分類器，其旨在從數(shù)據(jù)樣本中構(gòu)造隨機(jī)決策樹模型以獲得單個(gè)分類器結(jié)果，再綜合單個(gè)隨機(jī)決策樹模型，獲得隨機(jī)森林模型。隨機(jī)森林的構(gòu)造過程如圖1 所示，其主要步驟包括[13]：

（1）抽取子樣本。采用bootstrap 抽樣方法，隨機(jī)可重復(fù)取樣，形成新的子樣本數(shù)據(jù)集。

（2）建立子決策樹。對(duì)每個(gè)含有M 個(gè)特征變量子樣本訓(xùn)練集，隨機(jī)方法抽取m（m＜M）個(gè)特征，構(gòu)造建立分類回歸樹。

（3）建立隨機(jī)森林模型。重復(fù)步驟（1）和（2），得到K 個(gè)決策樹，形成隨機(jī)森林。

（4）投票分類。結(jié)合K 個(gè)決策樹的預(yù)測(cè)結(jié)果，采用投票方式選出最優(yōu)分類。

圖1 隨機(jī)森林的構(gòu)造過程

1.2 隨機(jī)森林算法

隨機(jī)森林預(yù)測(cè)算法的實(shí)現(xiàn)過程見表1。

表1 隨機(jī)森林算法

2 基于隨機(jī)森林的95598 投訴預(yù)測(cè)方法

為實(shí)現(xiàn)對(duì)95598 投訴工單的“先知先覺”，增強(qiáng)電力服務(wù)部門對(duì)投訴工單的預(yù)警能力，并基于此開展針對(duì)性更強(qiáng)的服務(wù)改善，以提高電力服務(wù)水平，本節(jié)根據(jù)95598 各類工單成因的特點(diǎn)，提出一種基于隨機(jī)森林算法的95598 投訴預(yù)測(cè)方法。該方法主要步驟如下：

步驟一：95598 歷史工單數(shù)據(jù)預(yù)處理。對(duì)歷史工單數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理，其主要步驟包括：數(shù)據(jù)投訴工單、數(shù)據(jù)清洗與數(shù)據(jù)集成。通過對(duì)目標(biāo)城市歷史工單生數(shù)據(jù)進(jìn)行處理，提供投訴工單成因挖掘模型所需的數(shù)據(jù)。

步驟二：投訴行為特征提取。對(duì)步驟一中經(jīng)過預(yù)處理的歷史工單數(shù)據(jù)，進(jìn)行數(shù)據(jù)分析并提取投訴行為特征。

步驟三：建立基于隨機(jī)森林的投訴預(yù)測(cè)模型?；诓襟E二中提取的各投訴行為特征，建立基于隨機(jī)森林的投訴預(yù)測(cè)模型。

步驟四：實(shí)時(shí)預(yù)測(cè)。將無標(biāo)簽的95598 實(shí)時(shí)工單的相關(guān)行為特征送入步驟三所建立的投訴預(yù)測(cè)模型中，獲得預(yù)測(cè)結(jié)果。

2.1 95598 歷史工單數(shù)據(jù)預(yù)處理

95598 歷史工單數(shù)據(jù)主要包含文字?jǐn)?shù)據(jù)和時(shí)間數(shù)據(jù)，其中文字?jǐn)?shù)據(jù)主要指描述供電地區(qū)、工單事由等相關(guān)數(shù)據(jù)，本文采用數(shù)字編碼的方法對(duì)其進(jìn)行全部編碼；時(shí)間數(shù)據(jù)主要指工單受理日期，本文采用時(shí)間距離法將時(shí)間數(shù)字化，其主要思想是將1900 年1 月1 日作為基準(zhǔn)時(shí)間，且記為1，以當(dāng)前時(shí)間與基準(zhǔn)時(shí)間的數(shù)學(xué)距離作為時(shí)間數(shù)據(jù)；此外，為分析天氣因素對(duì)投訴工單造成的影響，還應(yīng)對(duì)工單受理時(shí)間的近期天氣數(shù)據(jù)進(jìn)行提取，考慮到投訴可能存在時(shí)間延遲性，成單時(shí)間可能與投訴成單當(dāng)天的天氣并無關(guān)系，故針對(duì)天氣數(shù)據(jù)，本文考慮利用將成單時(shí)間近5 天中最嚴(yán)重的天氣情況作為成單的天氣因素。上述工作主要是完成數(shù)據(jù)投訴工單，目的是將工單中計(jì)算機(jī)無法直接識(shí)別的文字、天氣和日期投訴工單轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的數(shù)據(jù)。

對(duì)經(jīng)過數(shù)據(jù)投訴工單的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)集成。數(shù)據(jù)清洗主要是將歷史工單數(shù)據(jù)中的無效工單作刪除處理；數(shù)據(jù)集成是將投訴工單已有的成單時(shí)間、事由、地區(qū)和業(yè)務(wù)類型等因素與外部天氣數(shù)據(jù)集成，其所有成單因素作為一個(gè)數(shù)據(jù)庫參與后續(xù)建模。

2.2 投訴行為特征提取

投訴行為特征是描述投訴行為可能成因的重要因素，預(yù)測(cè)準(zhǔn)確程度大部分取決于提取投訴行為特征的好壞。通過對(duì)歷史工單數(shù)據(jù)的預(yù)處理，可初步提取業(yè)務(wù)類型、工單時(shí)間、受理地區(qū)和天氣類型等因素作為投訴行為特征。實(shí)際投訴工單投訴行為表明：重復(fù)來電、前期的投訴傾向等對(duì)于投訴工單形成關(guān)系重大。故提取95598 歷史工單中用戶來電次數(shù)及來電時(shí)話務(wù)員判斷該用戶的投訴傾向數(shù)據(jù)，作為投訴行為特征。數(shù)據(jù)預(yù)處理及投訴行為特征提取見圖2。

圖2 數(shù)據(jù)預(yù)處理及投訴行為特征提取

2.3 95598 電力服務(wù)投訴工單預(yù)測(cè)模型

通過對(duì)歷史工單數(shù)據(jù)的預(yù)處理，發(fā)現(xiàn)95598電力服務(wù)投訴工單成因可能與成單時(shí)間、成單事由、成單地區(qū)、業(yè)務(wù)類型和天氣因素等密切相關(guān)。基于隨機(jī)森林的95598 電力服務(wù)投訴工單預(yù)測(cè)模型P 可表述為：

式中：A為投訴工單的成單地區(qū)向量；T 為投訴工單的成單時(shí)間向量；V 為投訴工單的前期業(yè)務(wù)類型向量；W 為投訴工單的天氣類型向量；C 為投訴工單的溫度類型向量；F 為投訴工單的風(fēng)速類型向量；L 為用戶重復(fù)來電向量；Q 為用戶投訴傾向向量。

3 實(shí)例分析

以某市供電公司的95598 電力服務(wù)歷史工單數(shù)據(jù)為分析對(duì)象，建立基于該市的95598 投訴工單預(yù)測(cè)模型。

3.1 數(shù)據(jù)預(yù)處理

對(duì)該市供電公司歷年的95598 電力服務(wù)工單數(shù)據(jù)進(jìn)行預(yù)處理后，共獲得數(shù)據(jù)樣本54 681 例。該市有供電轄區(qū)10 個(gè)，成單時(shí)間類型共有12 個(gè)月份，前期工單業(yè)務(wù)類型共9 種（表揚(yáng)、服務(wù)申請(qǐng)、故障報(bào)修、建議、舉報(bào)、信息查詢、業(yè)務(wù)咨詢、意見和綜合業(yè)務(wù)），業(yè)務(wù)類型中受理類型共37個(gè)，天氣類型有陰、晴、多云、陣雨、小雨、中雨、大雨和暴雨8 類，氣溫類型有高溫、低溫2種，風(fēng)速類型有強(qiáng)風(fēng)1 種，雷電類型有出現(xiàn)雷電1 種。

3.2 建立95598 電力服務(wù)投訴工單預(yù)測(cè)模型

基于隨機(jī)森林的95598 電力服務(wù)投訴工單預(yù)測(cè)模型可由式（1）表示。將完成預(yù)處理的數(shù)據(jù)導(dǎo)入Weka 平臺(tái)中，得到該預(yù)測(cè)模型的屬性分布，見圖3。

圖3 預(yù)測(cè)模型數(shù)據(jù)集

選用Weka3.8 平臺(tái)中的隨機(jī)森林算法，采用10%交叉驗(yàn)證，對(duì)其進(jìn)行模型建立。完成模型建立后，可得到各因素與投訴之間的關(guān)系，其中業(yè)務(wù)類型與投訴工單之間的關(guān)系尤為密切，二者之間關(guān)系的預(yù)測(cè)結(jié)果見圖4。

圖4 業(yè)務(wù)類型與投訴之間關(guān)系的預(yù)測(cè)結(jié)果

圖4 中橫坐標(biāo)為工單業(yè)務(wù)類型，縱坐標(biāo)為投訴類型（0 為無投訴；1 為轉(zhuǎn)化工單投訴；2 為直接工單投訴），圖中“×”表示正確預(yù)測(cè)樣本；“□”表示錯(cuò)誤預(yù)測(cè)樣本。

圖4 投訴預(yù)測(cè)樣本結(jié)果的分析表明：當(dāng)發(fā)生業(yè)務(wù)類型16（供電業(yè)務(wù)）和17（供電質(zhì)量）時(shí)，易產(chǎn)生直接或間接投訴。當(dāng)發(fā)生業(yè)務(wù)類型為29（營業(yè)業(yè)務(wù)）時(shí)，易發(fā)生轉(zhuǎn)化投訴。

ROC 曲線是以假陽率和真陽率為軸的曲線，其是描述預(yù)測(cè)性能的重要參數(shù)曲線，與橫軸圍成的面積越大，說明性能越好，即曲線越靠近A 點(diǎn)（左上方）性能越好，越靠近B 點(diǎn)（右下方）性能越差。根據(jù)模型建立結(jié)果，導(dǎo)出該預(yù)測(cè)模型的ROC曲線，見圖5。由圖5 可知，ROC 曲線幾乎完全接近A 點(diǎn)，因此本文方法所得到的預(yù)測(cè)模型性能良好。

圖5 本文方法的ROC 曲線

3.3 算法比較

將本文方法與常見方法進(jìn)行性能比較。首先給出比較中會(huì)涉及的預(yù)測(cè)模型測(cè)試參數(shù)定義。

均方誤差MSE：

式中：xi為預(yù)測(cè)值；x 為真實(shí)值；n 為預(yù)測(cè)樣本總數(shù)。MSE 用以描述預(yù)測(cè)結(jié)果的好壞，如果該值越大，則說明預(yù)測(cè)效果越差，反之越好。

若將預(yù)測(cè)模型的真陰類、真陽類、假陰類、假陽類分別用TN，TP，F(xiàn)N，F(xiàn)P 來表示，則召回率R 可定義為：

召回率R 描述了預(yù)測(cè)模型正確判定的正例占總正例比重。

F1值可定義為：

式中：F1值是預(yù)測(cè)模型的一個(gè)綜合指標(biāo)，F(xiàn)1越大說明該模型預(yù)測(cè)效果越好。

為了充分說明本文方法的優(yōu)越性，繼續(xù)以weka3.8 軟件為測(cè)試平臺(tái)，采用本文數(shù)據(jù)集完成對(duì)SVM（支持向量機(jī)）、MLP（多層神經(jīng)網(wǎng)絡(luò)）、RT（隨機(jī)決策樹）、BN（貝葉斯網(wǎng)絡(luò)）和邏輯斯蒂方法的預(yù)測(cè)模型測(cè)試，測(cè)試結(jié)果見表2。

表2 各預(yù)測(cè)算法比較

由表1 可知：

（1）各模型對(duì)于本文數(shù)據(jù)集均有較好的準(zhǔn)確率，本文方法與準(zhǔn)確率最高的SVM 模型幾乎相當(dāng)，但SVM 方法的均值誤差大了約8 倍。

（2）在建模用時(shí)方面，由于投訴風(fēng)險(xiǎn)預(yù)測(cè)并不是在線預(yù)測(cè)，完成建模的時(shí)間處于完全可接受的范圍內(nèi)；而BP 神經(jīng)網(wǎng)絡(luò)建模用時(shí)最長(zhǎng)，很難適用于工程實(shí)際；貝葉斯網(wǎng)絡(luò)模型在建模用時(shí)方面優(yōu)勢(shì)明顯，但其準(zhǔn)確率與MSE 均不及本文方法?？梢姡m然本文方法在某些單項(xiàng)指標(biāo)方面并不是最佳的，但從綜合性能的角度考慮，本文方法較其他模型具有較大優(yōu)勢(shì)。

3.4 其他實(shí)際數(shù)據(jù)集測(cè)試

為評(píng)估本文方法對(duì)于其他實(shí)際數(shù)據(jù)集的預(yù)測(cè)性能，繼續(xù)用本文方法做測(cè)試實(shí)驗(yàn)。所選用的數(shù)據(jù)集為該目標(biāo)城市最新獲得的2019 年1—5 月95598 工單，共計(jì)16 497 例，經(jīng)過數(shù)據(jù)預(yù)處理獲得有效測(cè)試數(shù)據(jù)為16 218 例。該實(shí)驗(yàn)在配置為windows 8.1 Intel（R）Core（TM）i5-4460 CPU@3.20 GHz 的計(jì)算機(jī)上通過MATLAB 編程實(shí)現(xiàn)，其預(yù)測(cè)分布結(jié)果見圖6。

圖6 中橫坐標(biāo)為用于測(cè)試的樣本編號(hào)，縱坐標(biāo)為投訴類型（0 為無投訴；1 為轉(zhuǎn)化工單投訴；2為直接工單投訴），圖中“※”表示預(yù)測(cè)結(jié)果，“□”表示真實(shí)結(jié)果。該實(shí)驗(yàn)獲得正確預(yù)測(cè)的樣本共15 781 例，其正確預(yù)測(cè)率約為96.93%。由圖6 可知，在面對(duì)最新的實(shí)際95598 工單，本文方法依然有非常高的準(zhǔn)確率。此外，2019 年上半年實(shí)測(cè)數(shù)據(jù)的準(zhǔn)確率（96.93%）與表2 中的正確預(yù)測(cè)率（98.76%）之間存在一定的誤差，這是由于構(gòu)建模型時(shí)數(shù)據(jù)采用交叉驗(yàn)證方式，數(shù)據(jù)分布較為均勻，而2019 年上半年的95598 工單集中分布于1—5 月，故導(dǎo)致這種可容許的誤差存在，該誤差可以通過增加訓(xùn)練樣本數(shù)來減小或規(guī)避。

圖6 某市2019 年上半年95598 預(yù)測(cè)結(jié)果分布

4 結(jié)論

為實(shí)現(xiàn)95598 投訴工單投訴風(fēng)險(xiǎn)預(yù)測(cè)，減少投訴風(fēng)險(xiǎn)發(fā)生，在充分考慮多種因素的情況下，提出一種基于隨機(jī)森林算法的95598 投訴工單投訴風(fēng)險(xiǎn)預(yù)測(cè)方法。該方法與其他數(shù)據(jù)挖掘方法相比，具有以下優(yōu)點(diǎn)：

（1）本文方法預(yù)測(cè)準(zhǔn)確率較高，建模用時(shí)短，特別適合應(yīng)用于工程實(shí)際中。

（2）本文方法所構(gòu)造的模型均方誤差小，預(yù)測(cè)性能優(yōu)異。

在實(shí)驗(yàn)過程中也發(fā)現(xiàn)本文方法在建模速度上尚不及貝葉斯網(wǎng)絡(luò)方法和隨機(jī)決策樹方法，因此在保證預(yù)測(cè)準(zhǔn)確性的情況下繼續(xù)提高建模速度，是未來研究的重點(diǎn)。