蘇華權, 錢正浩, 馮志鵬, 余恒祥, 杜禮鋒
(1.廣東電網(wǎng)有限責任公司信息中心, 廣東,廣州,510600;2.廣東電網(wǎng)有限責任公司數(shù)字化部, 廣東,廣州,510600;3.廣東電力信息科技有限公司, 廣東,廣州,510600;4.廣東電網(wǎng)有限責任公司市場營銷部, 廣東,廣州,510600;5.廣東電網(wǎng)公司中山供電局, 廣東,中山,528400)
國內外相關專家在客戶畫像構建方面取得了一些較好的研究成果[1-3],例如張亞楠等[4]通過深度學習方法在數(shù)據(jù)中提取高度抽象特征的特點,并提取客戶的局部畫像結合全局信息組建全局的立體精準畫像。王成亮等[5]結合用戶用電特征組建客戶用電行為標簽,同時采用模糊聚類算法進行客戶用電模式分析,完成不同類型客戶的用電行為模式畫像。雖然以上兩種方法現(xiàn)階段已經(jīng)取得了較為滿意的研究成果,但由于未能考慮客戶畫像預測建模問題,導致多維客戶畫像精準構建準確性以及運行效率下降。為了有效解決上述問題,本文提出一種考慮電力營銷能力的多維客戶畫像精準構建方法。仿真實驗結果表明,所提方法不僅能夠有效增強多維客戶畫像精準構建準確性,還能有效提升整個方法的運行效率。
為了全面捕捉電費敏感客戶的特點,需要從三個方面進行分析,并組建對應的特征群[6]。結合多種不同類型的特征,針對電力營銷系統(tǒng)的敏感客戶進行客戶特征分析,利用表1給出具體的特征體系。
表1 特征體系示意表
整合表1,敏感度的計算式表示為
topic-score-T=topic-count-positivet+αtopic-count-sumt+2α
(1)
式中,topic-count-positivet代表主題t在正例中出現(xiàn)的次數(shù),topic-count-sumt代表主題t出現(xiàn)的總次數(shù),α代表平滑因子,T代表特征群個數(shù)。
(1) 統(tǒng)計特征:
為了準確描述不同類型客戶的敏感度,需要在設定的場景下,衍生出一系列對應的統(tǒng)計特征準則。
(2) 數(shù)值特征:
針對于數(shù)據(jù)值數(shù)據(jù),通過采用統(tǒng)計向量反映數(shù)據(jù)的深層信息。
分析1.1小節(jié)組建的多維客戶多源特征體系可知,客戶的大部分特征均來源于不同的數(shù)據(jù)以及多個視角。為了有效地充分利用多源特征體系中的特征[7-8],需要解決高維特征問題。但是,首先需要構建一個基于雙層XGBoost的多視角融合模型,模型的具體結構如圖1所示。
圖1 多視角融合模型
XGBoost是一種經(jīng)過優(yōu)化的提升樹模型,它具有計算速度快以及適應性等特點,被應用于各個研究領域中。XGBoost是梯度提升算法的一種高效系統(tǒng)實現(xiàn),在計算的過程中進行了大量的優(yōu)化,促使計算結果更加準確,其中XGBoost的基學習器能夠劃分為以下兩種形式。
(1) CART決策樹模型;
(2) 線性模型。
XGBoost主要是將樹模型中的復雜度加入到Loss Function的正則化項中,當基學習器為CART樹時,Loss Function能夠表示為以下的形式:
LΦ=∑ilxi,yi+∑iΩfk
(2)
whereΩf=γT+12λω2
(3)
其中,正化則項和樹模型的葉子節(jié)點的值和數(shù)量存在關聯(lián)。
XGBoost中運用了二階導數(shù),第t次的Loss能夠表示為
L(t)=∑ni=1lxi,y(t-1)i+fiXi+Ωfi
(4)
將式(4)進行二級泰勒展開,則有:
L(t)=∑ni=1lxi,y(t-1)i+gifixi+
12hifixi+Ωfil
(5)
在以此基礎上,進行模型的搭建。具體的操作過程中:
(1) 第一層采用單一XGBoost模型完成迭代,在進行迭代前,需要設定好迭代次數(shù)。在模型進行分裂的過程中,需要將分裂獲取的全部特征進行存儲,同時作為模型第二層的輸入;
(2) 第二層將XGBoost模型以及Bagging模型兩者融合,以實現(xiàn)多源特征融合,同時有效加強模型的精確度以及泛化能力。
通過信息的主體將客戶畫像劃分為用戶信息標簽、資源信息標簽以及上下文信息標簽,具體如圖2所示。
圖2 客戶畫像的標簽分類
在此基礎上,結合1.2小節(jié)中的多源特征,組建基于機器學習的多視角融合模型,即:
ht=fUxt+Wht-1
(6)
以模型輸出多視角融合結果為基礎,完成多維客戶畫像精準構建,以下給出具體的操作流程,如圖3所示。
(1) 客戶基礎數(shù)據(jù)采集
對客戶個人采集信息而言,可以利用注冊信息以及上傳含有個人信息的文件獲取。客戶的行為信息能夠利用客戶網(wǎng)上行為得到,客戶的偏好信息能夠從客戶訂閱內容的標簽或者個性化定制中得到。信息資源可以在信息本身的介紹信息獲取。上下文信息的獲取需要結合業(yè)務場景分析,其中上下文信息和客戶行為存在關聯(lián),所以需要結合具體應用場景完成行為分析。
(2) 數(shù)據(jù)分析與處理
由于采集到的初始數(shù)據(jù)并不十分規(guī)范,還會存在數(shù)值缺失、數(shù)據(jù)異常以及格式不規(guī)范等問題,導致數(shù)據(jù)無法直接用來建模,所以需要對采集到的數(shù)據(jù)進行統(tǒng)計分析、數(shù)據(jù)分析以及歸一化處理等操作。
(3) 用戶標簽建模
針對步驟(2)中經(jīng)過處理的數(shù)據(jù)進行建模,抽象出客戶的標簽,進而預測出客戶潛在的行為以及偏好。在整個研究的過程中,需要采用多種不同的算法為客戶貼標簽。
(4) 輸出客戶畫像
通過客戶的基本信息、行為信息以及興趣偏好結合資源以及上下文等信息對用戶進行標簽化處理,基于業(yè)務需求,分層用戶標簽,輸出最終的客戶畫像。
圖3 客戶畫像流程圖
為了驗證所提考慮電力營銷能力的多維客戶畫像精準構建方法的有效性,在操作系統(tǒng)為Windows 10,運行內存為8 G,CPU為Core i5-7400,編程代碼為Python 3.6的配置下進行仿真實驗測試。
為了驗證多維客戶畫像精準構建的準確性,實驗將相對誤差和平均誤差設定為測試指標,其中兩項測試指標的取值越高,則說明多維客戶畫像精準構建的準確性越低;反之,則說明多維客戶畫像精準構建的準確性越高。將本文所提方法與文獻[4]和文獻[5]進行比較,實驗對比結果如表2、表3所示。
表2 不同方法的相對誤差對比
綜合分析表2和表3中的實驗數(shù)據(jù)可知,所提方法的相對誤差以及平均誤差取值明顯低于其他兩種方法,這說明所提方法具有較高的準確性。
為了更加全面驗證所提方法的有效性,將各個方法的運行效率設定為評價指標,具體實驗對比結果如圖4所示。
分析圖4中的實驗數(shù)據(jù)可知,不同方法的運行效率會受到測試樣本數(shù)量的影響,其中所提方法的運行效率在三種方法中為最高,文獻[4]方法的運行效率次之,文獻[5]方法的運行效率最低。
針對傳統(tǒng)方法存在的一系列問題,本文設計并提出一種考慮電力營銷能力的多維客戶畫像精準構建方法。仿真實驗結果表明,本文所提方法能夠有效降低平均誤差以及相對誤差,提升多維客戶畫像精準構建準確性,同時還能夠有效增強整個方法的運行效率。
表3 不同方法的平均誤差對比
圖4 不同方法的運行效率對比結果