周丹陽,李鵬鵬,王 鶯,施聚輝
(國網(wǎng)浙江省電力有限公司臺州供電公司,浙江 臺州 318000)
隨著經(jīng)濟技術(shù)的快速發(fā)展,企業(yè)越來越關(guān)注自身的服務(wù)水平。對于以“基數(shù)大,用戶復(fù)雜”為特點的供電企業(yè),從歷史服務(wù)工單數(shù)據(jù)中挖掘出負(fù)面工單的成因機理對于提升電力服務(wù)水平意義重大。由于時間因素、地區(qū)因素、客觀天氣因素等都會對工單的形成產(chǎn)生巨大影響,導(dǎo)致歷史服務(wù)工單的成因復(fù)雜。因此,如何挖掘多種實際工單因素對負(fù)面工單形成的影響是亟待解決的問題。
數(shù)據(jù)挖掘技術(shù)[1]的快速發(fā)展為深度挖掘負(fù)面工單成因機理,保障供電企業(yè)服務(wù)水平提供了技術(shù)可能。目前,針對95598 電力服務(wù)水平提升,已有專家、學(xué)者們開展了相關(guān)研究并產(chǎn)生了一系列研究成果。文獻(xiàn)[2]采用了長短期記憶神經(jīng)網(wǎng)絡(luò)方法進(jìn)行95598話務(wù)工單異動預(yù)測預(yù)警,但該文獻(xiàn)僅能預(yù)測不同時期的工單數(shù)量,并未挖掘這些工單潛在的成因機制。文獻(xiàn)[3]采用了主成分分析法對95598 話務(wù)工單進(jìn)行了分析,揭示了多種類型工單數(shù)量與時間之間的明顯關(guān)聯(lián)。文獻(xiàn)[4]從統(tǒng)計學(xué)角度出發(fā),建立了一種簡單的95598 話務(wù)預(yù)測模型,但尚未深度挖掘95598 負(fù)面工單的成因因素。
基于此,文中提出一種基于Apriori 算法的負(fù)面工單成因提取方法。首先,采用數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理方法對95598 歷史工單數(shù)據(jù)進(jìn)行預(yù)處理;然后,建立基于關(guān)聯(lián)規(guī)則的95598 負(fù)面工單成因模型,并采用Apriori 算法求解獲得95598 負(fù)面工單成單因素的強關(guān)聯(lián)規(guī)則;最后,利用挖掘出的強關(guān)聯(lián)規(guī)則與負(fù)面工單關(guān)鍵詞制定電力服務(wù)提升措施,明確電力服務(wù)工作重點方向。
關(guān)聯(lián)規(guī)則[5]旨在從數(shù)據(jù)樣本中發(fā)掘數(shù)據(jù)項集之間的關(guān)聯(lián)關(guān)系,其能夠反應(yīng)事物與事物之間的相互依存關(guān)系,甚至可以用一項事物去預(yù)測另一項事物的發(fā)生[6],是數(shù)據(jù)挖掘技術(shù)中重要的手段。
定義1:設(shè)D是一個事務(wù)數(shù)據(jù)庫,D中的各個事務(wù)t可用集合用表示,其中n表示D中的最大事務(wù)個數(shù)。D中事務(wù)的各個項目i可用集合用表示,也稱為k-項集,其中k表示D中事務(wù)的最大項數(shù)。在文中模型中,D為工單記錄數(shù)據(jù)庫,n為工單記錄的最大個數(shù),k為工單成因與工單類型的最大個數(shù)。
定義2:設(shè)項集I的子集項X,Y中,有X?I,Y?I且X?Y=φ。則二者的關(guān)聯(lián)關(guān)系可表示為:R:X?Y。在文中就是要通過算法1 求取該關(guān)聯(lián)關(guān)系R:X?Y,其中X為導(dǎo)致負(fù)面工單的成因,Y為工單類型。
定義3:設(shè)項集X的支持度為:
則規(guī)則R:X?Y的支持度為:
其中count(X?Y)表示D中項目X?Y的事務(wù)個數(shù)為D中的事務(wù)總數(shù)。
則規(guī)則R:X?Y的可信度為:
在文中,用定義3 中公式(2)與(3)來度量挖掘出的關(guān)聯(lián)關(guān)系的可接受程度。支持度用于確定規(guī)則可以用于數(shù)據(jù)集的頻繁程度:若X與Y的支持度非常低,說明在所有事務(wù)中同時出現(xiàn)X與Y的概率低,反之則說明同時出現(xiàn)X與Y的概率高;可信度確定Y在包含X的事務(wù)中出現(xiàn)的頻繁程度:若X與Y的可信度非常低,說明X的出現(xiàn)與Y的出現(xiàn)關(guān)系不大,反之則說明X的出現(xiàn)與Y的出現(xiàn)關(guān)系密切。
定義4:關(guān)聯(lián)規(guī)則的最小支持度記為min_sup,它用于衡量規(guī)則需要滿足的最低重要性;關(guān)聯(lián)規(guī)則的最小可信度記為min_conf,它表示關(guān)聯(lián)規(guī)則需要滿足的最低可靠性。如果規(guī)則R滿足sup(R)≥min_sup 且conf(R)≥min_conf則稱關(guān)聯(lián)規(guī)則R為強關(guān)聯(lián)規(guī)則。
Apriori 算法[7]是一種以概率為理論基礎(chǔ)的挖掘頻繁項集的算法。Apriori 算法中有兩個關(guān)鍵步驟為連接步和剪枝步。連接步:通過Lk-1與自身連接,產(chǎn)生候選k-項集,該候選項集記為Ck。剪枝步:通過候選k-項集的集合確定頻繁k-項集。Apriori 算法的實現(xiàn)過程如算法1所示。
算法1:Apriori算法
輸入:事務(wù)數(shù)據(jù)庫,最小支持度
輸出:頻繁項集
開始
步驟1:根據(jù)D產(chǎn)生候選1-項集的集合C1
步驟2:根據(jù)最小支持度,由候選1-項集的集合C1產(chǎn)生頻繁項集1-項集的集合L1;
步驟3:令k>2,并重復(fù)執(zhí)行步驟4-6;
步驟4:由Lk執(zhí)行連接和剪枝操作,產(chǎn)生候選k+1-項集的集合Ck+1;
步驟5:根據(jù)最小支持度,由候選(k+1)-項集的集合Ck+1,產(chǎn)生頻繁(k+1)-項集的集合Lk+1;
步驟6:如果頻繁項集不為空集,則
k=k+1;跳至步驟4;
否則
跳至步驟7
步驟7:根據(jù)最小可信度,產(chǎn)生強關(guān)聯(lián)規(guī)則R:X?Y
結(jié)束
95598 負(fù)面工單主要包含意見工單和投訴工單。為有效提升電力服務(wù)水平,有必要從大量的歷史95598 工單數(shù)據(jù)中深度挖掘出負(fù)面工單成因機理。本節(jié)基于95598 歷史工單數(shù)據(jù)的實際特點,提出一種基于Apriori 算法的95598 負(fù)面工單成因提取方法,其流程圖見圖1,該方法的主要步驟如下:
1)95598 歷史工單數(shù)據(jù)預(yù)處理。對歷史工單數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,其主要步驟包括:數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約和數(shù)據(jù)集成。通過對歷史工單數(shù)據(jù)進(jìn)行預(yù)處理,為負(fù)面工單成因挖掘模型的建立提供數(shù)據(jù)基礎(chǔ);
2)建立負(fù)面工單成因挖掘模型。將步驟(1)中得到的歷史工單數(shù)據(jù)進(jìn)行項提取,并以歷史工單數(shù)據(jù)集中各事務(wù)的共有項建立基于Apriori 算法的目標(biāo)城市負(fù)面工單成因挖掘模型;
3)提取強關(guān)聯(lián)規(guī)則,分析負(fù)面工單成因。對步驟2)所獲模型執(zhí)行算法1,得到頻繁項集。根據(jù)頻繁項集得到負(fù)面工單成因關(guān)聯(lián)規(guī)則;
4)根據(jù)步驟3)中獲得負(fù)面工單成因關(guān)聯(lián)關(guān)系,提出相應(yīng)的電力服務(wù)提升策略。
為便于理解,下面用2.1節(jié)與2.2節(jié)分別闡述所提方法的步驟1)與步驟2)的具體過程。
圖1 基于Apriori算法的95598負(fù)面工單成因提取方法流程圖
數(shù)據(jù)轉(zhuǎn)化是數(shù)據(jù)預(yù)處理中的重要一環(huán),其旨在將不同數(shù)據(jù)類型統(tǒng)一為計算機可識別的數(shù)據(jù);數(shù)據(jù)清洗將歷史工單數(shù)據(jù)中的無效工單刪除;數(shù)據(jù)集成將投訴工單已有的成單時間、事由、地區(qū)、業(yè)務(wù)類型等因素與外部天氣數(shù)據(jù)進(jìn)行集成,其所有成單因素作為一個數(shù)據(jù)庫參與后續(xù)建模。
具體地,95598 歷史工單數(shù)據(jù)包含描述服務(wù)區(qū)域、工單事由等文字?jǐn)?shù)據(jù),以及工單受理日期的時間數(shù)據(jù)。此外,分析天氣因素對負(fù)面工單的影響時,還應(yīng)提取與工單受理時間相近的天氣數(shù)據(jù)。因此,數(shù)據(jù)轉(zhuǎn)化的對象主要包括工單中計算機無法直接識別的文字?jǐn)?shù)據(jù),無法直接識別的日期數(shù)據(jù)和成單時間相關(guān)的天氣數(shù)據(jù)。對服務(wù)區(qū)域、工單事由等信息的文字?jǐn)?shù)據(jù)均采用數(shù)字編碼的方法將有效數(shù)據(jù)信息提取出來。對描述工單成單時間的日期數(shù)據(jù),采用時間距離法將1900 年1 月1 日作為基準(zhǔn)時間,且記為1;將當(dāng)前時間與基準(zhǔn)時間的數(shù)學(xué)距離作為時間數(shù)據(jù)。對于天氣數(shù)據(jù),一方面高溫、低溫、強風(fēng)、雷電、大雨均可能導(dǎo)致電力設(shè)備出現(xiàn)故障從而導(dǎo)致故障報修工單形成,另一方面由于投訴時間的滯后性存在,投訴工單的成單時間與成單時間近幾天的天氣狀況息息相關(guān)。因此,綜合考慮上述情況,文中將成單時間近5天中對電網(wǎng)設(shè)施影響最嚴(yán)重的天氣情況作為成單的天氣因素。具體地,文中所設(shè)定天氣類型情況及其對電網(wǎng)設(shè)施的影響權(quán)重見表1。
表1 各天氣情況及對電網(wǎng)設(shè)施的影響權(quán)重
然后,將上述已完成粗處理的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗與數(shù)據(jù)集成。數(shù)據(jù)清洗主要刪除歷史工單數(shù)據(jù)中的無效工單。數(shù)據(jù)集成則集成外部天氣數(shù)據(jù)與投訴工單的成單時間、事由、地區(qū)、業(yè)務(wù)類型等因素。
通過對歷史工單數(shù)據(jù)的預(yù)處理結(jié)果,可以初步發(fā)現(xiàn)95598 電力服務(wù)負(fù)面工單的成因可能與成單時間、成單事由、服務(wù)區(qū)域、業(yè)務(wù)類型、天氣情況等密切相關(guān),但是關(guān)聯(lián)程度依然有待挖掘?;诖耍闹刑岢龌陉P(guān)聯(lián)規(guī)則的95598 電力服務(wù)負(fù)面工單成因挖掘模型M,表示為:
其中A表示負(fù)面工單的服務(wù)區(qū)域向量,T表示負(fù)面工單的成單時間向量,V表示負(fù)面工單的業(yè)務(wù)類型向量,W表示負(fù)面工單的天氣情況向量,C表示負(fù)面工單的溫度情況向量,F(xiàn)表示負(fù)面工單的風(fēng)速情況向量。假設(shè)電力服務(wù)工單共有m個服務(wù)區(qū)域、n個時間單位、p個業(yè)務(wù)類型、q個天氣類型、i個溫度類型,j個風(fēng)速類型,則負(fù)面工單成因項集共6 個,其初始候選子項集總數(shù)為m+n+p+q+i+j個。在此基礎(chǔ)上執(zhí)行Apriori 算法進(jìn)行頻繁項集的篩選以及關(guān)聯(lián)規(guī)則R:X?Y的挖掘。
以浙江省某市供電公司2018年全年的95598電力服務(wù)負(fù)面工單數(shù)據(jù)為例,建立95598 負(fù)面工單成因提取模型,然后基于Apriori 算法對其進(jìn)行關(guān)聯(lián)規(guī)則挖掘,并根據(jù)挖掘出的規(guī)則建立電力服務(wù)水平提升策略。
對該市供電公司2018 年全年的95598 電力服務(wù)負(fù)面工單數(shù)據(jù)進(jìn)行預(yù)處理后,共獲得數(shù)據(jù)樣本5489例。該市有供電轄區(qū)10 個;成單時間類型共有12 個月;工單業(yè)務(wù)類型共36類;天氣類型有8類,即陰、晴、多云、陣雨、小雨、中雨、大雨、暴雨;氣溫類型有2類,即高溫、低溫;風(fēng)速類型有1類,即強風(fēng);雷電類型有1類,即雷電。
基于關(guān)聯(lián)規(guī)則的95598電力服務(wù)負(fù)面工單成因挖掘模型M見公式(4),其負(fù)面工單成因項集分布,見表2。
表2 負(fù)面工單成因項集分布
對上述模型執(zhí)行Apriori 算法,為了充分分析不同因素對負(fù)面工單的影響。本節(jié)分別對單因素和多因素情況進(jìn)行了關(guān)聯(lián)分析,其中單因素分析需要將對應(yīng)單因素項集劃分為多個子項集再進(jìn)行關(guān)聯(lián)分析。
3.2.1 單因素關(guān)聯(lián)規(guī)則
對于單因素的關(guān)聯(lián)規(guī)則分析,主要考慮服務(wù)區(qū)域、投訴類型、成單時間與投訴工單的關(guān)聯(lián)關(guān)系.因此根據(jù)上述模型,分別給定事務(wù)數(shù)據(jù)庫為項集S1-S3,執(zhí)行Apriori算法,獲得頻繁項集,其結(jié)果見圖2-圖4。
圖2 揭示了服務(wù)區(qū)域與投訴工單的關(guān)聯(lián)關(guān)系,圖中顯示目標(biāo)城市所轄服務(wù)區(qū)域3與服務(wù)區(qū)域8的投訴工單較大,即服務(wù)區(qū)域3、服務(wù)區(qū)域8與投訴工單的關(guān)系密切,故服務(wù)區(qū)域3 和8 是未來提高電力服務(wù)水平工作的重點區(qū)域。而服務(wù)區(qū)域6 與投訴工單的關(guān)聯(lián)關(guān)系并不明顯,因此可以繼續(xù)保持現(xiàn)有服務(wù)。
圖2 服務(wù)區(qū)域與投訴工單的關(guān)聯(lián)關(guān)系
圖3 成單時間與投訴工單的關(guān)聯(lián)關(guān)系
圖3 顯示了成單時間與投訴工單的關(guān)聯(lián)關(guān)系,由圖可知,就成單時間內(nèi)來看,投訴工單成單時間多發(fā)于 8 月、9 月與 12 月。經(jīng)過分析發(fā)現(xiàn),該市在 8-9 月與12 月分別處于夏季與冬季,其投訴工單可能由高溫、雨水或冬季冰霜等惡劣天氣及用電負(fù)荷增長造成的停電事故有關(guān)。因此該市電網(wǎng)公司要在這些月份到來之前做好積極應(yīng)對,對電網(wǎng)薄弱點進(jìn)行檢修,確保盡量降低投訴率。
通過對S3項集包含的子項集再進(jìn)行關(guān)聯(lián)分析,可以得到圖4,圖中顯示投訴類型16(頻繁停電)與投訴工單的關(guān)聯(lián)度最高,因此頻繁停電與投訴關(guān)系密切,其次投訴類型11(環(huán)節(jié)處理問題)與類型23(施工人員服務(wù)規(guī)范)的投訴關(guān)聯(lián)度僅次于投訴類型16,也與投訴工單的形成之間有一定關(guān)系。因此,減少頻繁停電是提升電力服務(wù)水平的重要對象。此外,仍要繼續(xù)保證工作人員環(huán)節(jié)處理規(guī)范得體與施工人員服務(wù)規(guī)范。
圖4 投訴類型與投訴工單的關(guān)聯(lián)關(guān)系
3.2.2 多因素關(guān)聯(lián)規(guī)則
為分析各個服務(wù)區(qū)域、投訴類型與目標(biāo)城市的投訴工單關(guān)系,首先得到了各服務(wù)區(qū)域中投訴類型與投訴工單的關(guān)聯(lián)關(guān)系,如圖5所示。
通過圖5中服務(wù)區(qū)域與投訴類型的關(guān)聯(lián)關(guān)系可以看出,臨海市發(fā)生投訴類型16 最多,即臨海供電公司發(fā)生頻繁停電時造成的投訴關(guān)聯(lián)度最高。其次,溫嶺公司造成頻繁停電與投訴工單關(guān)聯(lián)度較高。經(jīng)分析發(fā)現(xiàn),僅臨海供電公司與溫嶺供電公司所在供電轄區(qū)人口占比就約為全市總?cè)丝诘?5.7%。由于其具有較大的用戶比重,因此,其投訴滿意度較其他公司明顯偏高。但該關(guān)聯(lián)規(guī)則挖掘結(jié)果仍然表明,未來應(yīng)將臨海公司與溫嶺公司作為提升電力服務(wù)的重點區(qū)域。
圖5 服務(wù)區(qū)域、投訴類型與投訴工單的關(guān)聯(lián)關(guān)系
為了挖掘各項集與負(fù)面工單的關(guān)聯(lián)關(guān)系,綜合考慮服務(wù)區(qū)域、投訴類型、成單時間、天氣等因素,提取出相應(yīng)的頻繁項集,如表3所示。由于挖掘出的規(guī)則較多,故圖3 中只給出了可信度為100%的關(guān)聯(lián)規(guī)則結(jié)果。根據(jù)表3 可以得出投訴工單關(guān)聯(lián)關(guān)系示意圖(見圖6)與投訴關(guān)鍵詞表(見表4)。
表3 目標(biāo)城市負(fù)面工單的多因素關(guān)聯(lián)規(guī)則挖掘結(jié)果
分析圖6 可知:1)該市導(dǎo)致負(fù)面工單的所有因素中,影響最大的是頻繁停電。因此,可靠供電仍是電網(wǎng)公司最緊迫的任務(wù);2)當(dāng)時間處于7 月、8 月和12 月份時,目標(biāo)城市所在的供電公司應(yīng)制定合理的停電應(yīng)對措施,抓緊搶修和主動搶修;3)該目標(biāo)城市轄區(qū)內(nèi)3 號,8 號供電公司(即:臨海公司,溫嶺公司)均與頻繁停電及高溫天氣相關(guān)。因此,務(wù)必要在夏季用電高峰時段保證電力的可靠供應(yīng),完善服務(wù)環(huán)節(jié)漏洞,以提升目標(biāo)城市的電力服務(wù)水平。由表4 可知:導(dǎo)致意見工單產(chǎn)生的主要原因是電力短信扣費問題及錯發(fā)短信問題。因此,電網(wǎng)公司應(yīng)及時維護短信平臺,避免意見工單轉(zhuǎn)為投訴工單。
圖6 目標(biāo)城市投訴工單關(guān)聯(lián)示意圖
表4 目標(biāo)城市挖掘出的負(fù)面工單關(guān)鍵詞
3.2.3 目標(biāo)城市電力服務(wù)提升策略
綜合上述分析,為提升電力服務(wù)水平,可對目標(biāo)城市制定如下針對性較強的電力服務(wù)提升策略:
1)因為挖掘出的關(guān)聯(lián)規(guī)則表明了3 號和8 號服務(wù)區(qū)域(臨海供電公司、溫嶺供電公司)與負(fù)面工單成單有密切聯(lián)系,因此在未來服務(wù)工作中,這兩地應(yīng)作為改善電力服務(wù)水平的重點工作區(qū)域,尤其是在8-9月時,要特別關(guān)注他們的供電情況;
2)頻繁停電是導(dǎo)致投訴的主要因素,相應(yīng)可改善的地方有:(1)計劃停電應(yīng)在保證覆蓋面的情況下,在各大平臺及時發(fā)布停電信息;(2)不可預(yù)見性停電的搶修工作應(yīng)及時徹底;(3)針對多次跳閘的地點,可開展相應(yīng)的技術(shù)攻關(guān),分析跳閘原因,制定改善措施;
3)為減少由于8-9 月及12 月的極端天氣導(dǎo)致不可預(yù)測停電狀況的出現(xiàn),供電公司應(yīng)在春秋檢修季積極開展電網(wǎng)脆弱點排查,消除潛在隱患,盡量減少頻繁停電事故發(fā)生;
4)電力短信平臺應(yīng)當(dāng)繼續(xù)引起重視,盡量避免錯發(fā)扣費短信或者短信通知不及時導(dǎo)致投訴情況的發(fā)生;
5)服務(wù)態(tài)度與服務(wù)規(guī)范仍是影響電力服務(wù)評價的重要環(huán)節(jié),且是較易改善的一環(huán)。供電公司應(yīng)繼續(xù)加強人員服務(wù)規(guī)范,供電公司員工應(yīng)與客戶保持良好的溝通,向客戶展現(xiàn)供電公司的積極面貌。
為深度挖掘95598 負(fù)面工單成因,明確提升電力服務(wù)水平的重點工作方向,文中提出了一種基于數(shù)據(jù)挖掘的95598 負(fù)面工單成因提取方法,提取出了目標(biāo)城市的負(fù)面工單成因規(guī)則及其關(guān)鍵詞,并依據(jù)挖掘出的規(guī)則制定了電力服務(wù)水平提升策略。文中方法具有如下優(yōu)點:1)過程簡單,易于實現(xiàn);2)目標(biāo)性強,能夠針對負(fù)面工單挖掘出潛在關(guān)鍵詞;3)挖掘內(nèi)容豐富,可根據(jù)實際需要選擇單因素或多因素關(guān)聯(lián)規(guī)則挖掘。此外,實驗過程中也發(fā)現(xiàn)由于文本數(shù)據(jù)難以被計算機識別,文中方法在數(shù)據(jù)預(yù)處理方面工作量較大。因此,如何提高關(guān)聯(lián)規(guī)則方法的文本挖掘能力是未來研究工作的重點。