汪悅?高偉?程新洲?王思維?孟范玉
摘要:當(dāng)前國內(nèi)移動網(wǎng)絡(luò)用戶已經(jīng)趨于飽和,運營商之間對于用戶的競爭進(jìn)一步加劇。如何通過人工智能技術(shù)提前預(yù)測用戶攜號轉(zhuǎn)出的傾向是運營商目前的一項重要工作。而當(dāng)前的預(yù)測方法大多基于業(yè)務(wù)人員積累的經(jīng)驗,無法充分發(fā)揮運營商海量多模態(tài)數(shù)據(jù)的優(yōu)勢,也無法充分挖掘數(shù)據(jù)間的關(guān)系。因此,本文提出一種基于Focal Loss改進(jìn)的GraphSAGE(Graph Sample Aggregate)模型,用于用戶攜轉(zhuǎn)預(yù)測。該模型在攜轉(zhuǎn)數(shù)據(jù)集上實驗,結(jié)果驗證了本模型的優(yōu)異效果。
關(guān)鍵詞:攜轉(zhuǎn)用戶預(yù)測;圖神經(jīng)網(wǎng)絡(luò)模型;GraphSAGE
一、引言
隨著移動互聯(lián)網(wǎng)時代的到來,在移動通信市場存量用戶十分有限的情況下,我國電信業(yè)務(wù)面臨著極大的市場競爭壓力。當(dāng)前國內(nèi)移動網(wǎng)絡(luò)用戶已經(jīng)趨于飽和,隨著攜號轉(zhuǎn)網(wǎng)業(yè)務(wù)的開通,運營商之間對用戶的競爭進(jìn)一步加劇。各運營商都希望能夠減少用戶轉(zhuǎn)出的數(shù)量,控制用戶流失,如何通過人工智能技術(shù)提前預(yù)測用戶攜號轉(zhuǎn)出的傾向,及時制定相應(yīng)策略進(jìn)行用戶挽留是運營商目前的一項重要工作。
現(xiàn)有用戶攜號轉(zhuǎn)網(wǎng)的識別方法大多基于規(guī)則進(jìn)行判斷,或者基于決策樹、隨機(jī)森林等傳統(tǒng)機(jī)器學(xué)習(xí)方法[1-3]計算用戶攜號轉(zhuǎn)網(wǎng)的概率。這些方法所采用的規(guī)則或者特征主要是業(yè)務(wù)人員積累的經(jīng)驗,無法充分發(fā)揮運營商海量多模態(tài)數(shù)據(jù)的優(yōu)勢,無法充分挖掘數(shù)據(jù)間的關(guān)系,存在識別準(zhǔn)確率低的問題,無法為用戶的維系、挽留提供足夠的指導(dǎo)。
因此,一種通過新的技術(shù)手段去識別攜號轉(zhuǎn)網(wǎng)用戶的方法是必要的。在移動通信領(lǐng)域,網(wǎng)絡(luò)和人機(jī)物交互的拓?fù)浣Y(jié)構(gòu)具有應(yīng)用圖神經(jīng)網(wǎng)絡(luò)技術(shù)[4-5]的天然優(yōu)勢。人工智能領(lǐng)域的圖神經(jīng)網(wǎng)絡(luò)算法在多模態(tài)數(shù)據(jù)(文本、語音、圖像等)和復(fù)雜網(wǎng)絡(luò)場景下均表現(xiàn)出比傳統(tǒng)機(jī)器學(xué)習(xí)方法更優(yōu)的決策能力。
本文提出一種基于Focal Loss改進(jìn)的GraphSAGE模型識別攜號轉(zhuǎn)網(wǎng)用戶。該方法先基于用戶的通話關(guān)系,構(gòu)建用戶關(guān)系拓?fù)浣Y(jié)構(gòu),收集并處理用戶信息,輸入到基于Focal Loss改進(jìn)后的GraphSAGE網(wǎng)絡(luò)中,預(yù)測用戶是否會在未來攜號轉(zhuǎn)網(wǎng)。本模型在運營商省分公司用戶數(shù)據(jù)集上測試,對比多種傳統(tǒng)機(jī)器學(xué)習(xí)方法,驗證了本模型的優(yōu)異效果。
二、方法
對于攜轉(zhuǎn)用戶預(yù)測算法,首先構(gòu)圖G(V, E)。其中,V代表運營商省份用戶數(shù)據(jù),{xv,∈V}表示每一用戶的表示特征,其中包含:用戶性別、用戶年齡、出生日期、套餐號碼、流量使用信息、通話時長和信用等級等20個維度。E代表通話關(guān)系,矩陣中數(shù)值1代表記錄中兩個用戶有通話,0表示無聯(lián)系。
(一)GraphSage
盡管深度學(xué)習(xí)在計算機(jī)視覺和自然語言處理等領(lǐng)域已取得了巨大的成功,但傳統(tǒng)的深度學(xué)習(xí)方法在處理非歐式空間(圖)數(shù)據(jù)上的結(jié)果仍讓人不滿意。為了解決這一問題,研究人員借鑒了卷積網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等傳統(tǒng)深度學(xué)習(xí)網(wǎng)絡(luò),定義和設(shè)計了用于處理圖數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),圖卷積網(wǎng)絡(luò)(Grpah Convolutional Network, GCN)等圖神經(jīng)網(wǎng)絡(luò)。
GraphSAGE是2017年提出的一種圖神經(jīng)網(wǎng)絡(luò)方法[4],用于解決圖卷積網(wǎng)絡(luò)(Grpah Convolutional Network,GCN)[5]的局限性。GCN利用了圖的整個鄰接矩陣和圖卷積操作融合相鄰節(jié)點的信息,一般用于直推式學(xué)習(xí)。而GraphSAGE采用了節(jié)點的鄰域信息,不依賴于全局的圖結(jié)構(gòu)。它使用多層聚合函數(shù),每一層聚合函數(shù)會將節(jié)點及其鄰居的信息聚合在一起得到下一層的特征向量。
GraphSAGE包含采樣和聚合,首先使用節(jié)點之間關(guān)系連接信息,對鄰居進(jìn)行采樣,然后通過多層聚合函數(shù)不斷地將相鄰節(jié)點的信息融合在一起,用融合后的特征表示預(yù)測節(jié)點標(biāo)簽。公式表示如下:
(1)
(2)
(3)
其中,l為層數(shù),N(v)為對節(jié)點v其一階相連的節(jié)點上均勻采樣的結(jié)果。聚合aggregate函數(shù)采用mean方式,即對鄰域的節(jié)點取平均值。W為權(quán)值矩陣。σ為激活函數(shù),本文采用reLU函數(shù)。最后一步公式(3)為對數(shù)據(jù)的歸一化處理。
(二)Focal Loss
Focal loss [6]被提出用于圖像領(lǐng)域解決數(shù)據(jù)不平衡造成的模型性能問題。本任務(wù)所采用的運營商省分公司用戶數(shù)據(jù)集存在著樣本不均衡的問題,故本模型采用Focal Loss作為損失函數(shù)。公式表達(dá)如下:
(4)
其中,α、γ為權(quán)重因子分別控制樣本不均衡和識別難易程度問題,本文采用α=0.2,γ=2。
三、實驗結(jié)果與對比
基于Focal Loss改進(jìn)的GraphSAGE攜轉(zhuǎn)預(yù)測模型在省份用戶數(shù)據(jù)集上進(jìn)行實驗驗證。本文共收集了半年大約10萬多條用戶數(shù)據(jù),按照8:1:1劃分訓(xùn)練集、驗證集和測試集。并且在各個數(shù)據(jù)集中攜轉(zhuǎn)與不攜轉(zhuǎn)的比例大約為5:1。
本文與決策樹和隨機(jī)森林方法做對比。評價指標(biāo)采用精準(zhǔn)率、召回率、F1分?jǐn)?shù)和AUC(Area Under Curve)。精準(zhǔn)率也叫查準(zhǔn)率,即正確預(yù)測為正的占全部預(yù)測為正的比例。召回率為正確預(yù)測為正的占全部實際為正的比例。F1分?jǐn)?shù)作為綜合指標(biāo),兼顧了精確率與召回率。AUC被定義為ROC(Receiver Operating Characteristic)曲線下的面積。
實驗結(jié)果如表1所示。從表中可以看出,基于Focal Loss改進(jìn)的GraphSAGE模型取得了最優(yōu)的結(jié)果。
四、結(jié)束語
本文采用基于Focal Loss改進(jìn)的GraphSAGE模型,用于預(yù)測運營商攜號轉(zhuǎn)網(wǎng)情況。該模型充分考慮了海量的多模態(tài)數(shù)據(jù)以及挖掘了數(shù)據(jù)間的關(guān)系。實驗結(jié)果驗證了本模型的優(yōu)異效果,為用戶攜轉(zhuǎn)預(yù)測提供了有效的方案。在未來,將收集并分析更多月份數(shù)據(jù),用以提高模型準(zhǔn)確度。
作者單位:汪悅 高偉 程新洲 中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司研究院
王思維 孟范玉 中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司
參? 考? 文? 獻(xiàn)
[1] 胡文玉,李紅霞. 我國實施移動業(yè)務(wù)攜號轉(zhuǎn)網(wǎng)政策的研究[J].電信科學(xué), 2010, 26(8A): 133-138.
[2] 盛昭瀚,柳炳祥. 客戶流失危機(jī)分析的決策樹方法[J].管理科學(xué)學(xué)報, 2005, 8(02): 20-25.
[3] 應(yīng)維云.隨機(jī)森林方法及其在客戶流失預(yù)測中的應(yīng)用研究[J].管理評論, 2012, 24(2): 140-145.
[4] Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[J]. Advances in neural information processing systems, 2017, 30.
[5] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.
[6] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]. Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.
汪悅(1990.04-),女,漢族,河北,博士學(xué)位,工程師,研究方向:深度學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)技術(shù)、通信行業(yè)用戶側(cè)的場景分析與建模;
高偉(1992.05-),男,漢族,河南確山,碩士研究生,中級工程師,研究方向:機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù)在運營商網(wǎng)絡(luò)以及業(yè)務(wù)中的應(yīng)用研究;
程新洲(1978.08-),男,漢族,河南,教授級高級工程師,研究方向:大數(shù)據(jù)與網(wǎng)絡(luò)智能運營研究;
王思維(1982.03-),女,漢族,北京,本科畢業(yè),研究方向:運營平臺能力建設(shè)及大數(shù)據(jù)模型開發(fā)應(yīng)用;
孟范玉(1981.11-),男,漢族,山東泰安,大學(xué)本科,工程師,研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析等。