基于Python機器學習算法的易攜出客戶模型研究

2022-11-22 04:21:53尹清

中國新通信 2022年16期

摘要：近年來隨著公司攜號轉(zhuǎn)網(wǎng)工作的深入落實，攜號轉(zhuǎn)網(wǎng)用戶越來越多，攜出用戶成了用戶流失的一大因素。為了減少用戶攜出，通過Python中的機器學習算法分析攜出用戶特征，建立易攜出用戶模型預(yù)測，提前定位易攜出客戶，進行維穩(wěn)挽留，有效降低了攜出用戶的概率。

關(guān)鍵詞：攜號轉(zhuǎn)網(wǎng)、機器學習算法、攜出客戶、模型預(yù)測

一、引言

近年來隨著智能手機的普及，客戶規(guī)模不斷增大，通信企業(yè)新增市場趨于飽和，存量客戶維穩(wěn)顯得尤為重要。尤其是攜號轉(zhuǎn)網(wǎng)工作在通信企業(yè)的落地執(zhí)行，對存量用戶有著不小的沖擊。文獻[1]對攜號轉(zhuǎn)網(wǎng)做了全面的概述，用戶在不變更號碼的同時可以選擇不同的通信運營商，方便靈活。文獻[2]研究了攜號轉(zhuǎn)網(wǎng)對我國移動通信市場的影響，闡述了攜號轉(zhuǎn)網(wǎng)用戶的關(guān)注點及轉(zhuǎn)網(wǎng)的原因剖析，為通信企業(yè)的決策提供了參考。

我們關(guān)注的重點是如何挽留用戶，降低攜出用戶的概率，從而減少用戶流失率。提前鎖定要攜出的用戶，精準開展維穩(wěn)挽留活動，可以有效降低用戶攜出的可能性。文獻[3]對Python數(shù)據(jù)分析的研究進行了詳述，開拓了分析工作的思路，本文提出了通過Python中的分類算法對易攜出用戶進行預(yù)測，既能提高分析效率，又能提供準確的模型預(yù)測。

二、目前數(shù)據(jù)分析簡述

目前工作中最常用的數(shù)據(jù)分析、模型預(yù)測都是數(shù)據(jù)庫和excel相結(jié)合的方式開展的。先通過數(shù)據(jù)庫提取出指定用戶特征的用戶群，通過統(tǒng)計語句進行相關(guān)特征用戶的匯總，最后通過excel呈現(xiàn)出折線圖、柱狀圖等一些直觀的數(shù)據(jù)表現(xiàn)形式，分析出特定的用戶模型。

三、Python機器學習算法建模優(yōu)勢

Python中pandas 庫里的相關(guān)函數(shù)，能夠輕松完成數(shù)據(jù)導(dǎo)入、清洗、預(yù)處理，數(shù)據(jù)分類、篩選、匯總、透視等常見的操作。Sklearn庫包括了分類，回歸，降維和聚類四大機器學習算法，可以進行特征提取，數(shù)據(jù)處理和模型評估。Matplolib庫中的方法可以進行直觀的圖形化數(shù)據(jù)展示。Python 通過函數(shù)式編程完成數(shù)據(jù)處理、統(tǒng)計匯總及分析工作。Python語言本身簡潔高效易上手，函數(shù)豐富，對大數(shù)據(jù)的處理分析能力相當強大。將Python的機器學習算法應(yīng)用到數(shù)據(jù)分析工作中，使繁雜的分析工作變得輕松自如。

四、易攜出用戶模型建立

易攜出用戶模型就是要從用戶攜出現(xiàn)的海量數(shù)據(jù)中，找到共同特征，建立預(yù)測模型，并將模型應(yīng)用于在網(wǎng)用戶，預(yù)測出攜出概率高的用戶。通過有效的維穩(wěn)政策，對用戶進行精準維系，減少用戶攜出，提升用戶價值。

（一）數(shù)據(jù)的選取和處理。

本數(shù)據(jù)集選取2021年11月狀態(tài)正常且均為9月之前入網(wǎng)的用戶數(shù)據(jù)10000條，其中次月仍正常用戶隨機抽取8000條，次月攜出用戶隨機抽取2000條，選取的用戶特征列為性別、年齡、入網(wǎng)時長、套餐檔次、通話、流量等基本屬性和前滾2個月的消費、通信行為的變化等衍生屬性。數(shù)據(jù)集特征字段說明見表1。

本數(shù)據(jù)集放入yxc5.csv文件中，通過pandas庫中的函數(shù)read_csv（）讀入數(shù)據(jù)集，isnull（）查找缺失值（其中PRICE列共5個缺失值，CREDIT_RANK列共2個缺失值），dropna（）刪除缺失值所在行，最后數(shù)據(jù)集剩9993行。

（二）特征可視化分析

本數(shù)據(jù)集除了USER_ID是用戶唯一標識列，共7列連續(xù)型特征值，18列離散型特征值。離散型特征值列可用seaborn庫中的計數(shù)直方圖countplot（）展示與IS_XC列的關(guān)系，見下圖1，連續(xù)型特征值列可用seaborn庫中的密度函數(shù)圖kdeplot（）展示與IS_XC列的關(guān)系，見下圖2。

從計數(shù)直方圖中可以看出，異網(wǎng)雙卡客戶、DOM下降客戶、非合約套餐客戶、非身份證開卡客戶（性別未知客戶）、合約到期客戶、非寬帶客戶、非電視客戶的攜出占比較高；MOU是否下降客戶與攜出與否無差異。

從和密度圖中可以看出，入網(wǎng)10-15年客戶、套餐檔次50元以下客戶、年齡50-60歲客戶的攜出較集中；客戶月消費、流量、通話時長與是否攜出無差異。

（三）特征選擇和模型訓練

由前面結(jié)果可知，USER_ID表示每個客戶的唯一標識，對后續(xù)建模不影響，IS_MOU 、TOTAL_FEE、VOLUME、CALL_DURATION 與攜出的相關(guān)性低，均可刪除。

現(xiàn)實情況下，一個數(shù)據(jù)集往往有多個特征，如何在其中選擇對結(jié)果影響最大的幾個特征，以此來縮減建立模型時的特征數(shù)是我們比較關(guān)心的問題。文獻[4]中詳述了隨機森林進行特征選擇的方法，我們通過隨機森林函數(shù)feature_importances查找剩下特征列的重要性并進行排序，見下圖3。

從上圖中可知，JOIN_DURATION，AGE，PRICE列的重要度最高，而LLB_FLAG，HYJ_FLAG，RED_FLAG列的重要度最低，可將其刪除。

文獻[5]和文獻[6]提出了隨機森林對分類不平衡數(shù)據(jù)的優(yōu)勢，現(xiàn)實中攜出用戶遠遠低于正常在網(wǎng)用戶，所以數(shù)據(jù)集是不平衡的；而且隨機森林算法對數(shù)據(jù)集的適應(yīng)能力強，既能處理離散型數(shù)據(jù)，也可以處理連續(xù)型數(shù)據(jù)，數(shù)據(jù)集無需規(guī)范化，故選擇隨機森林分類算法是最合適的分類算法。選擇出與攜出特征相關(guān)性強的特征值列，建立訓練數(shù)據(jù)集和測試數(shù)據(jù)集，用RandomForestClassifier（）進行模型訓練。模型訓練準確率可達0.897，具體運行結(jié)果見下圖4。

選擇與攜出相關(guān)性強的特征列，用隨機森林進行建模，訓練出來的模型準確率比較高。

五、模型應(yīng)用效果評估

通過以上的特征分析和選擇，為了驗證模型，我們在2022年1月份選取了2021年12月的狀態(tài)正常、入網(wǎng)時間在10-15年、套餐檔次50元以下、年齡50-60歲，并且沒有開通寬帶和高清電視的客戶共10萬戶。在1月份對這部分客戶通過微客服的微信公眾號推送寬帶智家產(chǎn)品、流量大禮包、商超代金券等各類優(yōu)惠活動，吸引客戶參與，提升客戶黏性；通過推送專屬活動為客戶送流量或話費福利，提升客戶滿意度。效果在2月份顯現(xiàn)出來，2月的攜出客戶占離網(wǎng)客戶的比例由12月份的14.16%降低到12.81%，降低了1.35PP。

六、結(jié)束語

本文提出了使用Python的機器學習算法分析攜出用戶特征，找出強相關(guān)的特殊值，建立易攜出客戶模型，提前定位易攜出客戶，并通過微客服對目標客戶推送優(yōu)惠活動或?qū)俑＠?，增加了客戶黏性，提升了客戶滿意度，有效降低了攜出用戶的概率。

作者單位：尹清? ? 中國移動通信集團河南有限公司新鄉(xiāng)分公司

參? 考? 文? 獻

[1] 胡文玉，竇曉燕.全面實施攜號轉(zhuǎn)網(wǎng)對我國移動通信市場影響[J].電信科學，2019（9）：124-134.

[2] 鄭煒楠.攜號轉(zhuǎn)網(wǎng)的影響及應(yīng)對策略[J].現(xiàn)代營銷理論，2018（09）.

[3] 韓文煜.基于python數(shù)據(jù)分析技術(shù)的數(shù)據(jù)整理與分析研究[J].科技創(chuàng)新與應(yīng)用，2020（4）.

[4] 王全才.隨機森林特征選擇[D].大連：大連理工大學，2011.

[5] 肖堅.基于隨機森林的不平衡數(shù)據(jù)分類方法研究[D].哈爾濱：哈爾濱工業(yè)大學，2013.

[6] 徐少成.基于隨機森林的高維不平衡數(shù)據(jù)分類方法研究[D].太原：太原理工大學，2018.

中國新通信2022年16期

中國新通信的其它文章: 基于二叉樹結(jié)構(gòu)采樣預(yù)估的召回模型框架; “互聯(lián)網(wǎng)+”教育背景下網(wǎng)課學習效果評價的決策樹建模; 基于微信小程序的大學生安全素質(zhì)綜合培養(yǎng)平臺設(shè)計與實現(xiàn); 信息化初中數(shù)學二次函數(shù)的圖像及性質(zhì)課堂教學策略; “互聯(lián)網(wǎng)+”背景下小學低段數(shù)學教學中語言表達能力的培養(yǎng); 基于ECC及其改進加密算法的性能分析