• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于隨機(jī)森林算法的95598 投訴預(yù)測(cè)方法研究

      2020-05-06 14:46:58李鵬鵬周丹陽姜朝明喻湄霽
      浙江電力 2020年4期
      關(guān)鍵詞:工單預(yù)處理森林

      李鵬鵬,周丹陽,姜朝明,喻湄霽,劉 偉,王 濤

      (1.國網(wǎng)浙江省電力有限公司臺(tái)州供電公司,浙江 臺(tái)州 318000;2.西華大學(xué) 電氣與電子信息學(xué)院,成都 610039)

      0 引言

      用戶評(píng)價(jià)是企業(yè)內(nèi)部評(píng)估自身服務(wù)狀況,改善用戶體驗(yàn)的重要渠道。國家電網(wǎng)有限公司(以下簡(jiǎn)稱“國網(wǎng)公司”)作為供電服務(wù)類企業(yè),對(duì)投訴工單尤為敏感。如何減少投訴工單,已成為國網(wǎng)公司的重要課題之一。在實(shí)際生產(chǎn)中,投訴工單有較少部分為直接投訴工單,更多的則是由其他非投訴工單向投訴工單轉(zhuǎn)化的轉(zhuǎn)化投訴工單。直接投訴工單能夠利用投訴行為特征被預(yù)測(cè),但很難在直接投訴發(fā)生之前采取有效措施,因此直接投訴工單的預(yù)測(cè)結(jié)果可作為國網(wǎng)公司后期分析服務(wù)漏洞的重要參考。而轉(zhuǎn)化投訴工單占比較大,實(shí)現(xiàn)轉(zhuǎn)化工單的有效預(yù)測(cè)既可以對(duì)投訴風(fēng)險(xiǎn)提前預(yù)警,通過采取有效措施減少潛在投訴風(fēng)險(xiǎn),又可以發(fā)現(xiàn)服務(wù)過程中的薄弱環(huán)節(jié)。但轉(zhuǎn)化投訴工單成因復(fù)雜,受技術(shù)發(fā)展、工單數(shù)據(jù)采集等因素制約,難以實(shí)現(xiàn)對(duì)其有效預(yù)測(cè)。人工智能技術(shù)的發(fā)展使復(fù)雜的投訴工單預(yù)測(cè)成為了可能。而本文所關(guān)注的投訴工單預(yù)測(cè)問題本身也是一種分類問題,適合用人工智能技術(shù)中的分類算法進(jìn)行建模與求解。因此,以95598 歷史工單數(shù)據(jù)為基礎(chǔ),借助于人工智能算法構(gòu)建投訴風(fēng)險(xiǎn)預(yù)警模型,對(duì)于提升電力公司的服務(wù)水平意義重大。

      目前,部分基于人工智能的經(jīng)典數(shù)據(jù)挖掘算法已被應(yīng)用于投訴風(fēng)險(xiǎn)預(yù)警領(lǐng)域,如文獻(xiàn)[1]在考慮文本詞頻權(quán)重的情況下,提出了一種TFIDF 特征加權(quán)優(yōu)化算法對(duì)95598 投訴工單進(jìn)行分類,但其僅局限于通過詞頻選取各投訴工單的關(guān)鍵因素,未能實(shí)現(xiàn)有效預(yù)警。文獻(xiàn)[2]采用了深度學(xué)習(xí)模型來識(shí)別疑似投訴工單,進(jìn)而實(shí)現(xiàn)投訴工單風(fēng)險(xiǎn)預(yù)警,但尚未考慮轉(zhuǎn)化工單導(dǎo)致投訴的情況。此外,就模型而言,由于深度學(xué)習(xí)模型復(fù)雜,需要大量的計(jì)算性能來構(gòu)建,而對(duì)于小數(shù)據(jù)集的簡(jiǎn)單問題,在計(jì)算開銷和時(shí)間相同的情況下,深度學(xué)習(xí)方法并沒有比其他數(shù)據(jù)挖掘方法體現(xiàn)出足夠的優(yōu)勢(shì)。文獻(xiàn)[3]提出了一種基于多模型的投訴風(fēng)險(xiǎn)預(yù)警方法,通過分析客戶歷史訴求和停電相關(guān)數(shù)據(jù),利用了多種模型進(jìn)行預(yù)測(cè),并采用加權(quán)方法融合決策結(jié)果,以實(shí)現(xiàn)良好的預(yù)測(cè)效果。該方法雖然具有良好的計(jì)算開銷與時(shí)間開銷,但是不同模型之間的權(quán)重設(shè)置具有主觀性與不可解釋性。此外,支持向量機(jī)[4]、神經(jīng)網(wǎng)絡(luò)[5]、隨機(jī)森林[6]和貝葉斯網(wǎng)絡(luò)[7]等人工智能算法在預(yù)測(cè)領(lǐng)域都較為活躍,其中隨機(jī)森林作為一種優(yōu)秀的分類算法,在分類預(yù)測(cè)應(yīng)用領(lǐng)域具有較為突出的綜合性能[8-11]。

      本文在考慮轉(zhuǎn)化投訴工單的情況下,提出一種基于隨機(jī)森林算法的投訴風(fēng)險(xiǎn)預(yù)測(cè)方法。在完成95598 歷史工單數(shù)據(jù)預(yù)處理的情況下,利用歷史工單的供電地區(qū)、時(shí)間、天氣、前期工單事因、重復(fù)來電和投訴傾向等因素構(gòu)建投訴行為特征。通過提取歷史工單數(shù)據(jù)中的投訴行為特征,完成對(duì)基于隨機(jī)森林的投訴風(fēng)險(xiǎn)預(yù)警模型訓(xùn)練,最終實(shí)現(xiàn)對(duì)直接投訴工單與轉(zhuǎn)化投訴工單的預(yù)測(cè)。

      1 隨機(jī)森林理論

      1.1 隨機(jī)森林理論概述

      隨機(jī)森林[12]作為數(shù)據(jù)挖掘技術(shù)中的一種集成分類器,其旨在從數(shù)據(jù)樣本中構(gòu)造隨機(jī)決策樹模型以獲得單個(gè)分類器結(jié)果,再綜合單個(gè)隨機(jī)決策樹模型,獲得隨機(jī)森林模型。隨機(jī)森林的構(gòu)造過程如圖1 所示,其主要步驟包括[13]:

      (1)抽取子樣本。采用bootstrap 抽樣方法,隨機(jī)可重復(fù)取樣,形成新的子樣本數(shù)據(jù)集。

      (2)建立子決策樹。對(duì)每個(gè)含有M 個(gè)特征變量子樣本訓(xùn)練集,隨機(jī)方法抽取m(m<M)個(gè)特征,構(gòu)造建立分類回歸樹。

      (3)建立隨機(jī)森林模型。重復(fù)步驟(1)和(2),得到K 個(gè)決策樹,形成隨機(jī)森林。

      (4)投票分類。結(jié)合K 個(gè)決策樹的預(yù)測(cè)結(jié)果,采用投票方式選出最優(yōu)分類。

      圖1 隨機(jī)森林的構(gòu)造過程

      1.2 隨機(jī)森林算法

      隨機(jī)森林預(yù)測(cè)算法的實(shí)現(xiàn)過程見表1。

      表1 隨機(jī)森林算法

      2 基于隨機(jī)森林的95598 投訴預(yù)測(cè)方法

      為實(shí)現(xiàn)對(duì)95598 投訴工單的“先知先覺”,增強(qiáng)電力服務(wù)部門對(duì)投訴工單的預(yù)警能力,并基于此開展針對(duì)性更強(qiáng)的服務(wù)改善,以提高電力服務(wù)水平,本節(jié)根據(jù)95598 各類工單成因的特點(diǎn),提出一種基于隨機(jī)森林算法的95598 投訴預(yù)測(cè)方法。該方法主要步驟如下:

      步驟一:95598 歷史工單數(shù)據(jù)預(yù)處理。對(duì)歷史工單數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,其主要步驟包括:數(shù)據(jù)投訴工單、數(shù)據(jù)清洗與數(shù)據(jù)集成。通過對(duì)目標(biāo)城市歷史工單生數(shù)據(jù)進(jìn)行處理,提供投訴工單成因挖掘模型所需的數(shù)據(jù)。

      步驟二:投訴行為特征提取。對(duì)步驟一中經(jīng)過預(yù)處理的歷史工單數(shù)據(jù),進(jìn)行數(shù)據(jù)分析并提取投訴行為特征。

      步驟三:建立基于隨機(jī)森林的投訴預(yù)測(cè)模型?;诓襟E二中提取的各投訴行為特征,建立基于隨機(jī)森林的投訴預(yù)測(cè)模型。

      步驟四:實(shí)時(shí)預(yù)測(cè)。將無標(biāo)簽的95598 實(shí)時(shí)工單的相關(guān)行為特征送入步驟三所建立的投訴預(yù)測(cè)模型中,獲得預(yù)測(cè)結(jié)果。

      2.1 95598 歷史工單數(shù)據(jù)預(yù)處理

      95598 歷史工單數(shù)據(jù)主要包含文字?jǐn)?shù)據(jù)和時(shí)間數(shù)據(jù),其中文字?jǐn)?shù)據(jù)主要指描述供電地區(qū)、工單事由等相關(guān)數(shù)據(jù),本文采用數(shù)字編碼的方法對(duì)其進(jìn)行全部編碼;時(shí)間數(shù)據(jù)主要指工單受理日期,本文采用時(shí)間距離法將時(shí)間數(shù)字化,其主要思想是將1900 年1 月1 日作為基準(zhǔn)時(shí)間,且記為1,以當(dāng)前時(shí)間與基準(zhǔn)時(shí)間的數(shù)學(xué)距離作為時(shí)間數(shù)據(jù);此外,為分析天氣因素對(duì)投訴工單造成的影響,還應(yīng)對(duì)工單受理時(shí)間的近期天氣數(shù)據(jù)進(jìn)行提取,考慮到投訴可能存在時(shí)間延遲性,成單時(shí)間可能與投訴成單當(dāng)天的天氣并無關(guān)系,故針對(duì)天氣數(shù)據(jù),本文考慮利用將成單時(shí)間近5 天中最嚴(yán)重的天氣情況作為成單的天氣因素。上述工作主要是完成數(shù)據(jù)投訴工單,目的是將工單中計(jì)算機(jī)無法直接識(shí)別的文字、天氣和日期投訴工單轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的數(shù)據(jù)。

      對(duì)經(jīng)過數(shù)據(jù)投訴工單的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)集成。數(shù)據(jù)清洗主要是將歷史工單數(shù)據(jù)中的無效工單作刪除處理;數(shù)據(jù)集成是將投訴工單已有的成單時(shí)間、事由、地區(qū)和業(yè)務(wù)類型等因素與外部天氣數(shù)據(jù)集成,其所有成單因素作為一個(gè)數(shù)據(jù)庫參與后續(xù)建模。

      2.2 投訴行為特征提取

      投訴行為特征是描述投訴行為可能成因的重要因素,預(yù)測(cè)準(zhǔn)確程度大部分取決于提取投訴行為特征的好壞。通過對(duì)歷史工單數(shù)據(jù)的預(yù)處理,可初步提取業(yè)務(wù)類型、工單時(shí)間、受理地區(qū)和天氣類型等因素作為投訴行為特征。實(shí)際投訴工單投訴行為表明:重復(fù)來電、前期的投訴傾向等對(duì)于投訴工單形成關(guān)系重大。故提取95598 歷史工單中用戶來電次數(shù)及來電時(shí)話務(wù)員判斷該用戶的投訴傾向數(shù)據(jù),作為投訴行為特征。數(shù)據(jù)預(yù)處理及投訴行為特征提取見圖2。

      圖2 數(shù)據(jù)預(yù)處理及投訴行為特征提取

      2.3 95598 電力服務(wù)投訴工單預(yù)測(cè)模型

      通過對(duì)歷史工單數(shù)據(jù)的預(yù)處理,發(fā)現(xiàn)95598電力服務(wù)投訴工單成因可能與成單時(shí)間、成單事由、成單地區(qū)、業(yè)務(wù)類型和天氣因素等密切相關(guān)。基于隨機(jī)森林的95598 電力服務(wù)投訴工單預(yù)測(cè)模型P 可表述為:

      式中:A為投訴工單的成單地區(qū)向量;T 為投訴工單的成單時(shí)間向量;V 為投訴工單的前期業(yè)務(wù)類型向量;W 為投訴工單的天氣類型向量;C 為投訴工單的溫度類型向量;F 為投訴工單的風(fēng)速類型向量;L 為用戶重復(fù)來電向量;Q 為用戶投訴傾向向量。

      3 實(shí)例分析

      以某市供電公司的95598 電力服務(wù)歷史工單數(shù)據(jù)為分析對(duì)象,建立基于該市的95598 投訴工單預(yù)測(cè)模型。

      3.1 數(shù)據(jù)預(yù)處理

      對(duì)該市供電公司歷年的95598 電力服務(wù)工單數(shù)據(jù)進(jìn)行預(yù)處理后,共獲得數(shù)據(jù)樣本54 681 例。該市有供電轄區(qū)10 個(gè),成單時(shí)間類型共有12 個(gè)月份,前期工單業(yè)務(wù)類型共9 種(表揚(yáng)、服務(wù)申請(qǐng)、故障報(bào)修、建議、舉報(bào)、信息查詢、業(yè)務(wù)咨詢、意見和綜合業(yè)務(wù)),業(yè)務(wù)類型中受理類型共37個(gè),天氣類型有陰、晴、多云、陣雨、小雨、中雨、大雨和暴雨8 類,氣溫類型有高溫、低溫2種,風(fēng)速類型有強(qiáng)風(fēng)1 種,雷電類型有出現(xiàn)雷電1 種。

      3.2 建立95598 電力服務(wù)投訴工單預(yù)測(cè)模型

      基于隨機(jī)森林的95598 電力服務(wù)投訴工單預(yù)測(cè)模型可由式(1)表示。將完成預(yù)處理的數(shù)據(jù)導(dǎo)入Weka 平臺(tái)中,得到該預(yù)測(cè)模型的屬性分布,見圖3。

      圖3 預(yù)測(cè)模型數(shù)據(jù)集

      選用Weka3.8 平臺(tái)中的隨機(jī)森林算法,采用10%交叉驗(yàn)證,對(duì)其進(jìn)行模型建立。完成模型建立后,可得到各因素與投訴之間的關(guān)系,其中業(yè)務(wù)類型與投訴工單之間的關(guān)系尤為密切,二者之間關(guān)系的預(yù)測(cè)結(jié)果見圖4。

      圖4 業(yè)務(wù)類型與投訴之間關(guān)系的預(yù)測(cè)結(jié)果

      圖4 中橫坐標(biāo)為工單業(yè)務(wù)類型,縱坐標(biāo)為投訴類型(0 為無投訴;1 為轉(zhuǎn)化工單投訴;2 為直接工單投訴),圖中“×”表示正確預(yù)測(cè)樣本;“□”表示錯(cuò)誤預(yù)測(cè)樣本。

      圖4 投訴預(yù)測(cè)樣本結(jié)果的分析表明:當(dāng)發(fā)生業(yè)務(wù)類型16(供電業(yè)務(wù))和17(供電質(zhì)量)時(shí),易產(chǎn)生直接或間接投訴。當(dāng)發(fā)生業(yè)務(wù)類型為29(營業(yè)業(yè)務(wù))時(shí),易發(fā)生轉(zhuǎn)化投訴。

      ROC 曲線是以假陽率和真陽率為軸的曲線,其是描述預(yù)測(cè)性能的重要參數(shù)曲線,與橫軸圍成的面積越大,說明性能越好,即曲線越靠近A 點(diǎn)(左上方)性能越好,越靠近B 點(diǎn)(右下方)性能越差。根據(jù)模型建立結(jié)果,導(dǎo)出該預(yù)測(cè)模型的ROC曲線,見圖5。由圖5 可知,ROC 曲線幾乎完全接近A 點(diǎn),因此本文方法所得到的預(yù)測(cè)模型性能良好。

      圖5 本文方法的ROC 曲線

      3.3 算法比較

      將本文方法與常見方法進(jìn)行性能比較。首先給出比較中會(huì)涉及的預(yù)測(cè)模型測(cè)試參數(shù)定義。

      均方誤差MSE:

      式中:xi為預(yù)測(cè)值;x 為真實(shí)值;n 為預(yù)測(cè)樣本總數(shù)。MSE 用以描述預(yù)測(cè)結(jié)果的好壞,如果該值越大,則說明預(yù)測(cè)效果越差,反之越好。

      若將預(yù)測(cè)模型的真陰類、真陽類、假陰類、假陽類分別用TN,TP,F(xiàn)N,F(xiàn)P 來表示,則召回率R 可定義為:

      召回率R 描述了預(yù)測(cè)模型正確判定的正例占總正例比重。

      F1值可定義為:

      式中:F1值是預(yù)測(cè)模型的一個(gè)綜合指標(biāo),F(xiàn)1越大說明該模型預(yù)測(cè)效果越好。

      為了充分說明本文方法的優(yōu)越性,繼續(xù)以weka3.8 軟件為測(cè)試平臺(tái),采用本文數(shù)據(jù)集完成對(duì)SVM(支持向量機(jī))、MLP(多層神經(jīng)網(wǎng)絡(luò))、RT(隨機(jī)決策樹)、BN(貝葉斯網(wǎng)絡(luò))和邏輯斯蒂方法的預(yù)測(cè)模型測(cè)試,測(cè)試結(jié)果見表2。

      表2 各預(yù)測(cè)算法比較

      由表1 可知:

      (1)各模型對(duì)于本文數(shù)據(jù)集均有較好的準(zhǔn)確率,本文方法與準(zhǔn)確率最高的SVM 模型幾乎相當(dāng),但SVM 方法的均值誤差大了約8 倍。

      (2)在建模用時(shí)方面,由于投訴風(fēng)險(xiǎn)預(yù)測(cè)并不是在線預(yù)測(cè),完成建模的時(shí)間處于完全可接受的范圍內(nèi);而BP 神經(jīng)網(wǎng)絡(luò)建模用時(shí)最長(zhǎng),很難適用于工程實(shí)際;貝葉斯網(wǎng)絡(luò)模型在建模用時(shí)方面優(yōu)勢(shì)明顯,但其準(zhǔn)確率與MSE 均不及本文方法??梢姡m然本文方法在某些單項(xiàng)指標(biāo)方面并不是最佳的,但從綜合性能的角度考慮,本文方法較其他模型具有較大優(yōu)勢(shì)。

      3.4 其他實(shí)際數(shù)據(jù)集測(cè)試

      為評(píng)估本文方法對(duì)于其他實(shí)際數(shù)據(jù)集的預(yù)測(cè)性能,繼續(xù)用本文方法做測(cè)試實(shí)驗(yàn)。所選用的數(shù)據(jù)集為該目標(biāo)城市最新獲得的2019 年1—5 月95598 工單,共計(jì)16 497 例,經(jīng)過數(shù)據(jù)預(yù)處理獲得有效測(cè)試數(shù)據(jù)為16 218 例。該實(shí)驗(yàn)在配置為windows 8.1 Intel(R)Core(TM)i5-4460 CPU@3.20 GHz 的計(jì)算機(jī)上通過MATLAB 編程實(shí)現(xiàn),其預(yù)測(cè)分布結(jié)果見圖6。

      圖6 中橫坐標(biāo)為用于測(cè)試的樣本編號(hào),縱坐標(biāo)為投訴類型(0 為無投訴;1 為轉(zhuǎn)化工單投訴;2為直接工單投訴),圖中“※”表示預(yù)測(cè)結(jié)果,“□”表示真實(shí)結(jié)果。該實(shí)驗(yàn)獲得正確預(yù)測(cè)的樣本共15 781 例,其正確預(yù)測(cè)率約為96.93%。由圖6 可知,在面對(duì)最新的實(shí)際95598 工單,本文方法依然有非常高的準(zhǔn)確率。此外,2019 年上半年實(shí)測(cè)數(shù)據(jù)的準(zhǔn)確率(96.93%)與表2 中的正確預(yù)測(cè)率(98.76%)之間存在一定的誤差,這是由于構(gòu)建模型時(shí)數(shù)據(jù)采用交叉驗(yàn)證方式,數(shù)據(jù)分布較為均勻,而2019 年上半年的95598 工單集中分布于1—5 月,故導(dǎo)致這種可容許的誤差存在,該誤差可以通過增加訓(xùn)練樣本數(shù)來減小或規(guī)避。

      圖6 某市2019 年上半年95598 預(yù)測(cè)結(jié)果分布

      4 結(jié)論

      為實(shí)現(xiàn)95598 投訴工單投訴風(fēng)險(xiǎn)預(yù)測(cè),減少投訴風(fēng)險(xiǎn)發(fā)生,在充分考慮多種因素的情況下,提出一種基于隨機(jī)森林算法的95598 投訴工單投訴風(fēng)險(xiǎn)預(yù)測(cè)方法。該方法與其他數(shù)據(jù)挖掘方法相比,具有以下優(yōu)點(diǎn):

      (1)本文方法預(yù)測(cè)準(zhǔn)確率較高,建模用時(shí)短,特別適合應(yīng)用于工程實(shí)際中。

      (2)本文方法所構(gòu)造的模型均方誤差小,預(yù)測(cè)性能優(yōu)異。

      在實(shí)驗(yàn)過程中也發(fā)現(xiàn)本文方法在建模速度上尚不及貝葉斯網(wǎng)絡(luò)方法和隨機(jī)決策樹方法,因此在保證預(yù)測(cè)準(zhǔn)確性的情況下繼續(xù)提高建模速度,是未來研究的重點(diǎn)。

      猜你喜歡
      工單預(yù)處理森林
      基于量化考核的基層班組管理系統(tǒng)的設(shè)計(jì)與應(yīng)用
      基于transformer的工單智能判責(zé)方法研究
      基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
      基于HANA的工單備件采購聯(lián)合報(bào)表的研究與實(shí)現(xiàn)
      中國核電(2017年1期)2017-05-17 06:09:55
      哈Q森林
      哈Q森林
      哈Q森林
      淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
      哈Q森林
      絡(luò)合萃取法預(yù)處理H酸廢水
      嫩江县| 岱山县| 木里| 自贡市| 波密县| 益阳市| 海南省| 布尔津县| 泸溪县| 湾仔区| 民丰县| 吉木萨尔县| 镇原县| 吴旗县| 宜黄县| 门头沟区| 浮梁县| 青田县| 阜新市| 五莲县| 梁平县| 定襄县| 南和县| 汉沽区| 乌拉特后旗| 丹巴县| 尚义县| 凤阳县| 南郑县| 庆安县| 吉木萨尔县| 门源| 体育| 余干县| 湘潭市| 油尖旺区| 华坪县| 界首市| 咸宁市| 德昌县| 玉林市|