摘要:近年來隨著公司攜號轉(zhuǎn)網(wǎng)工作的深入落實,攜號轉(zhuǎn)網(wǎng)用戶越來越多,攜出用戶成了用戶流失的一大因素。為了減少用戶攜出,通過Python中的機器學習算法分析攜出用戶特征,建立易攜出用戶模型預(yù)測,提前定位易攜出客戶,進行維穩(wěn)挽留,有效降低了攜出用戶的概率。
關(guān)鍵詞:攜號轉(zhuǎn)網(wǎng)、機器學習算法、攜出客戶、模型預(yù)測
一、引言
近年來隨著智能手機的普及,客戶規(guī)模不斷增大,通信企業(yè)新增市場趨于飽和,存量客戶維穩(wěn)顯得尤為重要。尤其是攜號轉(zhuǎn)網(wǎng)工作在通信企業(yè)的落地執(zhí)行,對存量用戶有著不小的沖擊。文獻[1]對攜號轉(zhuǎn)網(wǎng)做了全面的概述,用戶在不變更號碼的同時可以選擇不同的通信運營商,方便靈活。文獻[2]研究了攜號轉(zhuǎn)網(wǎng)對我國移動通信市場的影響,闡述了攜號轉(zhuǎn)網(wǎng)用戶的關(guān)注點及轉(zhuǎn)網(wǎng)的原因剖析,為通信企業(yè)的決策提供了參考。
我們關(guān)注的重點是如何挽留用戶,降低攜出用戶的概率,從而減少用戶流失率。提前鎖定要攜出的用戶,精準開展維穩(wěn)挽留活動,可以有效降低用戶攜出的可能性。文獻[3]對Python數(shù)據(jù)分析的研究進行了詳述,開拓了分析工作的思路,本文提出了通過Python中的分類算法對易攜出用戶進行預(yù)測,既能提高分析效率,又能提供準確的模型預(yù)測。
二、目前數(shù)據(jù)分析簡述
目前工作中最常用的數(shù)據(jù)分析、模型預(yù)測都是數(shù)據(jù)庫和excel相結(jié)合的方式開展的。先通過數(shù)據(jù)庫提取出指定用戶特征的用戶群,通過統(tǒng)計語句進行相關(guān)特征用戶的匯總,最后通過excel呈現(xiàn)出折線圖、柱狀圖等一些直觀的數(shù)據(jù)表現(xiàn)形式,分析出特定的用戶模型。
三、Python機器學習算法建模優(yōu)勢
Python中pandas 庫里的相關(guān)函數(shù),能夠輕松完成數(shù)據(jù)導(dǎo)入、清洗、預(yù)處理,數(shù)據(jù)分類、篩選、匯總、透視等常見的操作。Sklearn庫包括了分類,回歸,降維和聚類四大機器學習算法,可以進行特征提取,數(shù)據(jù)處理和模型評估。Matplolib庫中的方法可以進行直觀的圖形化數(shù)據(jù)展示。Python 通過函數(shù)式編程完成數(shù)據(jù)處理、統(tǒng)計匯總及分析工作。Python語言本身簡潔高效易上手,函數(shù)豐富,對大數(shù)據(jù)的處理分析能力相當強大。將Python的機器學習算法應(yīng)用到數(shù)據(jù)分析工作中,使繁雜的分析工作變得輕松自如。
四、易攜出用戶模型建立
易攜出用戶模型就是要從用戶攜出現(xiàn)的海量數(shù)據(jù)中,找到共同特征,建立預(yù)測模型,并將模型應(yīng)用于在網(wǎng)用戶,預(yù)測出攜出概率高的用戶。通過有效的維穩(wěn)政策,對用戶進行精準維系,減少用戶攜出,提升用戶價值。
(一)數(shù)據(jù)的選取和處理。
本數(shù)據(jù)集選取2021年11月狀態(tài)正常且均為9月之前入網(wǎng)的用戶數(shù)據(jù)10000條,其中次月仍正常用戶隨機抽取8000條,次月攜出用戶隨機抽取2000條,選取的用戶特征列為性別、年齡、入網(wǎng)時長、套餐檔次、通話、流量等基本屬性和前滾2個月的消費、通信行為的變化等衍生屬性。數(shù)據(jù)集特征字段說明見表1。
本數(shù)據(jù)集放入yxc5.csv文件中,通過pandas庫中的函數(shù)read_csv()讀入數(shù)據(jù)集,isnull()查找缺失值(其中PRICE列共5個缺失值,CREDIT_RANK列共2個缺失值),dropna()刪除缺失值所在行,最后數(shù)據(jù)集剩9993行。
(二)特征可視化分析
本數(shù)據(jù)集除了USER_ID是用戶唯一標識列,共7列連續(xù)型特征值,18列離散型特征值。離散型特征值列可用seaborn庫中的計數(shù)直方圖countplot()展示與IS_XC列的關(guān)系,見下圖1,連續(xù)型特征值列可用seaborn庫中的密度函數(shù)圖kdeplot()展示與IS_XC列的關(guān)系,見下圖2。
從計數(shù)直方圖中可以看出,異網(wǎng)雙卡客戶、DOM下降客戶、非合約套餐客戶、非身份證開卡客戶(性別未知客戶)、合約到期客戶、非寬帶客戶、非電視客戶的攜出占比較高;MOU是否下降客戶與攜出與否無差異。
從和密度圖中可以看出,入網(wǎng)10-15年客戶、套餐檔次50元以下客戶、年齡50-60歲客戶的攜出較集中;客戶月消費、流量、通話時長與是否攜出無差異。
(三)特征選擇和模型訓練
由前面結(jié)果可知,USER_ID表示每個客戶的唯一標識,對后續(xù)建模不影響,IS_MOU 、TOTAL_FEE、VOLUME、CALL_DURATION 與攜出的相關(guān)性低,均可刪除。
現(xiàn)實情況下,一個數(shù)據(jù)集往往有多個特征,如何在其中選擇對結(jié)果影響最大的幾個特征,以此來縮減建立模型時的特征數(shù)是我們比較關(guān)心的問題。文獻[4]中詳述了隨機森林進行特征選擇的方法,我們通過隨機森林函數(shù)feature_importances查找剩下特征列的重要性并進行排序,見下圖3。
從上圖中可知,JOIN_DURATION,AGE,PRICE列的重要度最高,而LLB_FLAG,HYJ_FLAG,RED_FLAG列的重要度最低,可將其刪除。
文獻[5]和文獻[6]提出了隨機森林對分類不平衡數(shù)據(jù)的優(yōu)勢,現(xiàn)實中攜出用戶遠遠低于正常在網(wǎng)用戶,所以數(shù)據(jù)集是不平衡的;而且隨機森林算法對數(shù)據(jù)集的適應(yīng)能力強,既能處理離散型數(shù)據(jù),也可以處理連續(xù)型數(shù)據(jù),數(shù)據(jù)集無需規(guī)范化,故選擇隨機森林分類算法是最合適的分類算法。選擇出與攜出特征相關(guān)性強的特征值列,建立訓練數(shù)據(jù)集和測試數(shù)據(jù)集,用RandomForestClassifier()進行模型訓練。模型訓練準確率可達0.897,具體運行結(jié)果見下圖4。
選擇與攜出相關(guān)性強的特征列,用隨機森林進行建模,訓練出來的模型準確率比較高。
五、模型應(yīng)用效果評估
通過以上的特征分析和選擇,為了驗證模型,我們在2022年1月份選取了2021年12月的狀態(tài)正常、入網(wǎng)時間在10-15年、套餐檔次50元以下、年齡50-60歲,并且沒有開通寬帶和高清電視的客戶共10萬戶。在1月份對這部分客戶通過微客服的微信公眾號推送寬帶智家產(chǎn)品、流量大禮包、商超代金券等各類優(yōu)惠活動,吸引客戶參與,提升客戶黏性;通過推送專屬活動為客戶送流量或話費福利,提升客戶滿意度。效果在2月份顯現(xiàn)出來,2月的攜出客戶占離網(wǎng)客戶的比例由12月份的14.16%降低到12.81%,降低了1.35PP。
六、結(jié)束語
本文提出了使用Python的機器學習算法分析攜出用戶特征,找出強相關(guān)的特殊值,建立易攜出客戶模型,提前定位易攜出客戶,并通過微客服對目標客戶推送優(yōu)惠活動或?qū)俑@?,增加了客戶黏性,提升了客戶滿意度,有效降低了攜出用戶的概率。
作者單位:尹清? ? 中國移動通信集團河南有限公司新鄉(xiāng)分公司
參? 考? 文? 獻
[1] 胡文玉,竇曉燕.全面實施攜號轉(zhuǎn)網(wǎng)對我國移動通信市場影響[J].電信科學,2019(9):124-134.
[2] 鄭煒楠.攜號轉(zhuǎn)網(wǎng)的影響及應(yīng)對策略[J].現(xiàn)代營銷理論,2018(09).
[3] 韓文煜.基于python數(shù)據(jù)分析技術(shù)的數(shù)據(jù)整理與分析研究[J].科技創(chuàng)新與應(yīng)用,2020(4).
[4] 王全才.隨機森林特征選擇[D].大連:大連理工大學,2011.
[5] 肖堅.基于隨機森林的不平衡數(shù)據(jù)分類方法研究[D].哈爾濱:哈爾濱工業(yè)大學,2013.
[6] 徐少成.基于隨機森林的高維不平衡數(shù)據(jù)分類方法研究[D].太原:太原理工大學,2018.