陳琳 任婷 稅潔 林磊 徐艷如 許健彰 莫文武
摘要: 針對電力企業(yè)用電客戶的特定屬性進行聚類,利用聚類算法進行數(shù)據(jù)處理,提取聚類客戶標簽。通過對用電客戶的社會屬性數(shù)據(jù)、電力屬性數(shù)據(jù)以及聚類分析提取標簽建立標簽庫,為電力企業(yè)的日常運營、風險管控、售電營銷提供支撐,提升客戶服務工作水平。
關鍵詞:電力企業(yè);用電客戶;聚類;標簽庫;K-means
引言
隨著經(jīng)濟的不斷發(fā)展,社會生產(chǎn)力的不斷進步,電力企業(yè)的不斷擴大,當前用電客戶規(guī)模也在不斷增加。另一方面,隨著電力服務互聯(lián)網(wǎng)化進程的不斷推進,電子服務渠道的不斷增加,云計算和大數(shù)據(jù)技術不斷發(fā)展和應用,傳統(tǒng)的用電客戶管理以及營銷工作的開展已經(jīng)不能很好地滿足眾多不同類型用電客戶日益多樣化的需求,日常的用戶管理、營銷工作亟需優(yōu)化,而基于用電客戶屬性進行標簽化的管理可以很好的契合電力企業(yè)的管理及營銷需要。
在電力企業(yè)服務中,可以根據(jù)用電客戶的社會屬性特征、電力屬性特征等數(shù)據(jù)定義一些關鍵詞,這種類型的關鍵詞通常被稱為用戶標簽?;谟秒娍蛻魯?shù)據(jù)建立結構化的自然標簽、運營標簽等標簽庫,對用電客戶進行深度挖掘與分析,可用于電力企業(yè)的日常運營、風險管控、售電營銷,可以針對不同的電子服務渠道進行差細化運營,更好的體現(xiàn)“以客戶為中心”的服務理念,提升客戶服務工作水平。
本文將基于用電企業(yè)的服務基礎,從用電客戶的社會屬性數(shù)據(jù)、電力屬性數(shù)據(jù)等特征類型進行分析,針對用電客戶進行聚類分析研究,探索用電客戶標簽庫的技術實現(xiàn)與應用,建立一套適用并且滿足于電力企業(yè)運營服務的用戶標簽庫。
一、概述
基于用電客戶的社會屬性、電力屬性將用電客戶先做初步分類,給用電客戶賦予基礎標簽,再通過聚類算法進行進一步分類提取標簽。電力企業(yè)可以利用用電客戶標簽庫用于日常運營、風險管控、售電營銷。
二、算法簡介
K-means 算法是一種簡單常用的聚類方法,在處理海量數(shù)據(jù)庫方面較有效、速度快、效率高,具有良好的伸縮性,聚類結果清晰,適合電力客戶較多的情況[4]。
其原理是對于已知的N 個點的坐標,xi,i 1,..., N ,將這堆點分為k 類,每個類有一個聚類中心j 1,...., k ,即一個點所屬的類別。因此,K-means 聚類的主要任務就是求聚類中心cj ,使得所有點到其所屬類中心的距離最小,即使得損失函數(shù)L 最?。?/p>
(1)
其中,min 操作保證了每個點只屬于離它最近的那一類。
三、標簽提取過程
以客戶信用等級為例,由于電力客戶信用的場景中,并沒有人為標注明確信用等級的客戶數(shù)據(jù),同時考慮到客戶信用等級并不是一層不變的,因此無監(jiān)督算法中的K-means 算法聚類很適合此場景。
(一)相關特征數(shù)據(jù)預處理
在將數(shù)據(jù)輸入算法模型之前,需要對客戶信用體系中的欠費記錄(當前和歷史,包括金額大小,次數(shù),欠費天數(shù)),預存電費記錄(當前和歷史,包括金額大小,次數(shù))等轉(zhuǎn)化為數(shù)值型特征,因此一個客戶的信用特征就可以用一個n 維向量表達。為了避免數(shù)值的量級大小影響聚類迭代的效果,再對每個特征按如下公式進行歸一化至0-1 的區(qū)間。
(2)
(二)對客戶數(shù)據(jù)進行聚類分析
(1)確定電力客戶分類的信用等級個數(shù)k。
( 2 ) 選擇初始類中心。首先從電力客戶樣本對X1, X 2, X3,......, Xn中隨機選擇k 個樣本點C1,C2,C3,...,CK 作為初始的k 個聚類集合G1,G2,G3,....,Gk的類中心。
(3)計算距離。在每一輪迭代中,對每個客戶樣本Xj( j 1, 2,..., n),分別計算它到k個類中心點C1,C2,C3,...,CK 的距離| Xj Gi || (i1, 2, ..., k ) 。
(4)進行樣本分類。以C1,C2,C3,...,CK 為中心點進行集合劃分,將各個電力客戶樣本劃分到和自身距離最近的類中,分別組成k 簇新類.
(5) 當達到一定迭代次數(shù)或G1,G2,G3,....,Gk 不再改變時,則聚類完成
(三)聚類結果分析
聚類迭代完成后,每個點都會得到中心,即所屬的信用等級,同時函數(shù)L 的值便可以作為聚類結果的好壞,因為其代表的是每個點到其所屬中心的距離,距離越小則代表的聚類結果越好。如圖為電力客戶信用數(shù)據(jù)聚類效果圖,通過將聚類后的,客戶的多維特征投影到二維空間上,可以看到電力客戶樣本數(shù)據(jù)點明顯的分為了3 個簇,再通過對客戶信用數(shù)據(jù)的人工把握,對每個類賦予一個標簽,就可以完成對電力客戶的信用分類,如下圖就可以分為高信用度,中信用度和低信用度三個標簽。
四、結束語
本文提出的用電客戶屬性標簽庫技術的實現(xiàn)與應用,將客戶進行聚類分析,構建一套系統(tǒng)完整的標簽庫,電力企業(yè)能根據(jù)實際服務需要,有效地應用于電力企業(yè)的日常運營、風險管控、售電營銷,可以更好的體現(xiàn)“以客戶為中心”的服務理念,提升客戶服務工作。
參考文獻:
[1]黃紅霞,章成志. 中文微博用戶標簽的調(diào)查分析——以新浪微博為例[J].2012.
[2]林森,歐陽柳.基于大數(shù)據(jù)理論的電力客戶標簽體系構建[J].電氣技術,2016,17(12):98-101.
[3]趙曉波.供電企業(yè)大客戶管理的研究[D].南京理工大學,2005.
[4]未瑞,羅國亮.基于聚類分析和層次分析法的電力客戶信用評價研究[J].現(xiàn)代電力,2007(06):80-84.
作者簡介:
陳琳(1982--),男,學位:學士,職稱:工程師,研究方向:電力營銷;
任婷(1988--),女,學位:學士,職稱:助理工程師,研究方向:電力營銷;
稅潔(1987--),女,學位:學士,職稱:助理工程師,研究方向:電力營銷;
林磊(1988--),男,職稱:助理工程師;研究方向:電力營銷;
徐艷如(1988--),女,學位:學士,職稱:助理工程師,研究方向:電力營銷;
許健彰(1992--),男,學位:學士,研究方向:管理信息系統(tǒng);
莫文武(1990--),男,學位:學士,研究方向:電子與信息技術。