• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進粒子群的隨機森林優(yōu)化算法客戶流失預測研究

      2021-05-16 16:34:58張三妞張智斌
      現(xiàn)代信息科技 2021年22期
      關(guān)鍵詞:隨機森林粒子群算法

      張三妞 張智斌

      摘? 要:針對客戶流失在電信中檢測率低的問題,文章提出了一種改進粒子群的隨機森林模型。首先對數(shù)據(jù)的每個屬性進行分析,選取合適的特征,再用SMOTE技術(shù)處理數(shù)據(jù)不均勻問題,然后運用決策樹、隨機森林、支持向量機等監(jiān)督算法得出其中最優(yōu)模型,其中隨機森林算法最優(yōu),最后用改進PSO算法中的慣性權(quán)重和學習因子優(yōu)化隨機森林的參數(shù)。經(jīng)實驗驗證該模型比隨機森林和粒子群優(yōu)化后的隨機森林數(shù)據(jù)要高,準確率高達91%,召回率高達95%。

      關(guān)鍵詞:客戶流失;隨機森林;粒子群算法

      中圖分類號:TP18? ? ? ? ?文獻標識碼:A文章編號:2096-4706(2021)22-0075-04

      Abstract: Aiming at the low detection rate of customer churn in telecommunications, this paper proposes a random forest model based on the improved particle swarm optimization. Firstly, each attribute of the data is analyzed, the appropriate characteristics are selected, and SMOTE technology is used to deal with the problem of uneven data. Then, the optimal model is obtained by using the supervision algorithms such as decision tree, random forest and support vector machine, in which the random forest algorithm is the best. Finally, the parameters of random forest are optimized by using the inertia weight and learning factor in the improved PSO algorithm. Experiment results show that the effect of the model is higher than random forest and random forest optimized by improved particle swarm optimization, the accuracy is up to 91%, and the recall rate reaches 95%.

      Keywords: customer churn; random forest; particle swarm optimization

      0? 引? 言

      電信公司通常將客戶流失作為一個關(guān)鍵的業(yè)務指標來預測離開電信服務提供商的客戶數(shù)量,直接影響到服務提供商的競爭力??蛻袅魇侵缚蛻綦x開服務提供商的比例,又因為獲取新客戶的成本既高又難,保持已有顧客的成本遠遠小于贏得新顧客的成本,因此對于給定的特定參數(shù),顧客是否會流失變得尤為重要。國內(nèi)外有大量的文獻研究了客戶流失預測,研究領域涉及極廣,主要包括電信[1]、銀行[2]、超市[3]以及游戲客戶的流失等??蛻袅魇ьA測經(jīng)過多年的研究,客戶流失預測研究領域取得了諸多成果。客戶流失的現(xiàn)有算法主要可分為四種:基于傳統(tǒng)統(tǒng)計學方法、基于人工智能、基于統(tǒng)計學習理論以及基于集成分類器的預測算法。

      電信客戶流失預測包含用戶屬性分析、服務屬性分析以及合同屬性分析特征。大部分是一些高維數(shù)據(jù)集,在數(shù)據(jù)的特征選擇上,主流方法主要有:肖進等提出了一種集成的模型,這種模型將Bagging集成學習、半監(jiān)督學習和元代價敏感學習等技術(shù)結(jié)合,提出了代價敏感的客戶流失預測模型[4];2019年王澤宇為了提升客戶流失預測效果,利用粒子群優(yōu)化算法分別優(yōu)化貝葉斯和BP神經(jīng)網(wǎng)絡算法,構(gòu)建客戶流失預測模型,對電信客戶進行分類預測[5]。本文重點闡述了改進粒子群算法中的慣性權(quán)重和學習因子優(yōu)化隨機森林中的參數(shù),達到提高準確率和召回率的目的。

      1? 改進粒子群的隨機森林優(yōu)化算法

      基于改進PSO的RF優(yōu)化算法,本文選用Kaggle網(wǎng)站上電信客戶流失的公用數(shù)據(jù)集,首先對數(shù)據(jù)集進行特征提取,接著用合成少數(shù)類過采樣技術(shù)SMOTE(Synthetic Minority Oversampling Technique)處理數(shù)據(jù)不平衡,然后對處理好的數(shù)據(jù)運用邏輯回歸、支持向量機、隨機森林、K近鄰、AdaBoost以及Bagging算法對客戶流失進行初預測,選取其中最優(yōu)的一個算法,接著用改進的粒子群對該算法進行優(yōu)化,得到最終模型,最后對該模型進行評估。具體流程如圖1所示。

      1.1? 數(shù)據(jù)不平衡SMOTE算法

      合成少數(shù)類過采樣技術(shù)SMOTE(Synthetic Minority Oversampling Technique)用于處理數(shù)據(jù)類別不平衡問題(Imbalanced class problem)[6],是傳統(tǒng)隨機過抽樣計算的一種改進方法,具體如式(1):

      A-B為二者間的歐式距離,rand(0,1)為隨機在0~1之間取值。C為新的樣本。

      1.2? 隨機森林算法

      隨機森林是一種集成算法(Ensemble Learning)[7],它隸屬于Bagging類,隨機森林能夠獲得如此了不起的成就,關(guān)鍵是因為“隨機”和“森林”,一種使其擁有抗過擬合,一種則使其變得更為準確。

      隨機森林算法可以對特征進行打分,為此我們可以評判特征的重要性,我們可以將特征變量重要性評分(variable importance measures)用VIM表示,用G表示Gini指數(shù),假設有m個特征X1,X2,X3,…,Xm。需要計算每一個特征的Gini指數(shù)評分,也就是第j個特征在RF所有決策樹中節(jié)點分裂后不純度的平均改變量。Gini指數(shù)的計算公式如式(2)所示:

      其中,K表示類別有K個,Pmk?表示節(jié)點m中類別k所占的百分比。

      直觀地說,是指隨便從節(jié)點m隨意選取二個樣本,其類型標志為不相同的概率大小。特征Xj在節(jié)點m的重要性,即節(jié)點m分支前后的Gini指數(shù)變化量為

      其中,Gl和Gr分別代表了分支后的二個新節(jié)點的Gini指數(shù)。

      最后,再將所求的重要性評分做個歸一化處理。本文中得到的特征重要性如圖2所示。

      從圖2可看出,tennure和MonthlyCharges的重要性最高,其他特征一次遞減,由此可選取特征重要性打分高的作為選取的特征,其他特征則舍棄,以提高客戶流失的準確率和召回率。

      1.3? 改進PSO對隨機森林進行優(yōu)化

      PSO算法不僅具有規(guī)則簡單、容易快速實現(xiàn)、參數(shù)小且用戶無須直接獲得離散梯度優(yōu)化信息的三大特點[8],在用于進行連續(xù)離散梯度優(yōu)化和進行連續(xù)性離散優(yōu)化的各種問題分析中都同樣可以同時取得良好的優(yōu)化效果,PSO算法容易陷入早熟和局部最優(yōu)的問題[9]。為避免陷入這些問題,本文從以下兩個方面改進PSO:

      (1)引入動態(tài)慣性權(quán)重,定義為如式。

      式中k代表當前的迭代數(shù),D代表較大的迭代數(shù),rand(0,2)代表區(qū)間[0,2]均勻分布的隨機數(shù)。取ω1為0.3,ω2為1.1,迭代100次得到了如圖3所示的動態(tài)慣性權(quán)重。

      由圖3可發(fā)現(xiàn),在整體搜尋的前期,ω取大值的概率大,說明全局搜尋能力增強,而后期ω取較小值的概率大,局部開發(fā)的能力受到了加強。提高了種群的多樣性,提高了局部搜索的能力。

      (2)更改因子。c1、c2為提升前期全局搜尋能力,從而使搜尋后期粒子收斂為全局最優(yōu)解。對因子做如下更改如式(5)所示:

      式中c1i、c1j、c2i、c2j均為常數(shù)。

      2? 實驗驗證

      本文使用的電信流失客戶數(shù)據(jù)集來自Kaggle平臺,一共提供了7 043條用戶樣本,每條樣本包含21列屬性,由多個維度的客戶信息以及用戶是否最終流失的標簽組成,其中未流失客戶有5 174人,流失客戶有1 869人,客戶信息具體如下:

      (1)基本信息:性別、年齡、經(jīng)濟情況、入網(wǎng)時間等。

      (2)開通業(yè)務信息:是否開通電話業(yè)務、互聯(lián)網(wǎng)業(yè)務、網(wǎng)絡電視業(yè)務、技術(shù)支持業(yè)務等。

      (3)簽署的合約信息:合同年限、付款方式、每月費用、總費用。

      由于屬性繁多,其中包括了無用的特征,需要對這些特征逐個進行分析,分析示例如圖4、圖5所示。

      根據(jù)每一個特征的分析圖分析,可以得出高流失率用戶的特征為:

      (1)用戶特征屬性:老齡使用者、未婚使用者、無親屬使用者更易喪失。

      (2)服務特征屬性:在網(wǎng)時間不足半年、有電話業(yè)務、光纖使用者、光纖使用者附加流媒體電視和電影等業(yè)務,無網(wǎng)絡增值業(yè)務。

      (3)合同特征屬性:雙方簽訂的合同期較短,使用電子支票付款,電子票據(jù),月租費大約為70 ~ 110元的客戶較易流失。

      (4)其他屬性對用戶流失影響較小,在本文做刪除處理,與以上特征保持相對獨立。

      對保留下來的數(shù)值型特征采用皮爾遜相關(guān)系數(shù)矩陣計算特征之間的相關(guān)性,如圖6所示。

      由圖6可知TotalCharges與tenure、MonthlyCharges相關(guān)性較大,容易引起預測結(jié)果降低,所以對TotalCharges做刪除處理。

      對于電信用戶流失預測問題,通常更關(guān)心真正流失的用戶,因此需要尋找一個能夠較好地衡量這一現(xiàn)象的評價指標,為此我們用精確率、召回率等來評價預測結(jié)果。

      結(jié)合本文,精確率代表的意義是:在所有預測為流失的樣本中,真正流失的樣本數(shù);召回率代表的意義是:在真正流失的樣本中,預測到多少樣本。顯而易見,召回率是我們關(guān)心的指標,即寧可把未流失的用戶預測為流失用戶而進行多余的留客行為,也不漏掉任何一名真正流失的客戶。在此依舊采取準確率、召回率以及綜合兩者的F1值,但關(guān)注的中重點仍然放在召回率上。

      對處理好的數(shù)據(jù)用決策樹(LR)、支持向量機(SVM)隨機森林(RF)、K近鄰(KNN)、Bagging以及AdaBoost進行分類,分類結(jié)果如表1所示。

      對于最優(yōu)的隨機森林模型,采用未改進的粒子群算法和改進的粒子群算法分別對隨機森林模型優(yōu)化參數(shù),結(jié)果如表2所示。

      從表2可看出本文改進過的粒子群優(yōu)化隨機森林的模型效果較好,相比未改進的粒子群優(yōu)化隨機森林準確率提高6%,召回率提高4%。相比單個隨機森林模型準確率提高8%,召回率提高5%。

      3? 結(jié)? 論

      在電信客戶流失中,對粒子群優(yōu)化隨機森林結(jié)構(gòu)進行改進、優(yōu)化隨機森林參數(shù)等有助于提高精度。本文提出一種改進的PSO優(yōu)化隨機森林參數(shù)的分類算法。對電信客戶流失的數(shù)據(jù)進行預測分析,與PSO-RF分類器進行對比,結(jié)果表明本文算法能提高電信客戶流失的分類準確率。

      參考文獻:

      [1] 周榮鑫,趙娟娟,靳夢華.基于貝葉斯網(wǎng)絡的電信客戶流失預測分析 [J].軟件,2019,40(2):187-190.

      [2] 時丹蕾,杜寶軍.基于BP神經(jīng)網(wǎng)絡的銀行客戶流失預測 [J].科學技術(shù)創(chuàng)新,2021(27):104-106.

      [3] HU X,YANG Y F,CHEN L H,et al. Research on a Customer Churn Combination Prediction Model Based on Decision Tree and Neural Network [C]//2020 IEEE 5th International Conference on Cloud Computing and Big Data Analytics(ICCCBDA).Chengdu:IEEE,2020:129-132.

      [4] 肖進,李思涵,賀小舟,等.代價敏感的客戶流失預測半監(jiān)督集成模型研究 [J].系統(tǒng)工程理論與實踐,2021,41(1):188-199.

      [5] 王澤宇.基于粒子群優(yōu)化算法的電信客戶流失預測模型的設計與實現(xiàn) [D].北京:中國科學院大學,2019.

      [6] 王文博,曾小梅,趙引川,等.基于SMOTE-XGBoost的變壓器缺陷預測 [J].華北電力大學學報(自然科學版),2021,48(5):54-60+71.

      [7] 丁敬國,郭錦華.基于主成分分析協(xié)同隨機森林算法的熱連軋帶鋼寬度預測 [J].東北大學學報(自然科學版),2021,42(9):1268-1274+1289.

      [8] 楊澤民.基于PSO的電信業(yè)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘 [J].軟件,2013,34(6):44-46.

      [9] XUE Z H,DU P J,SU H J. Harmonic Analysis for Hyperspectral Image Classification Integrated With PSO Optimized SVM [J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2014,7(6):2131-2146.

      [10] BHUSE P, GANDHI A, MESWANI P, et al. Machine Learning Based Telecom-Customer Churn Prediction [C]// 2020 3rd International Conference on Intelligent Sustainable Systems (ICISS), Thoothukudi:IEEE,2020,1297-1301.

      作者簡介:張三妞(1997—),女,漢族,河南周口人,碩士在讀生,主要研究方向:大數(shù)據(jù);張智斌(1965—),男,漢族,四川會理人,副教授,學士,主要研究方向:基于網(wǎng)絡的計算機軟件技術(shù)、工業(yè)控制技術(shù)。

      猜你喜歡
      隨機森林粒子群算法
      蟻群算法的運用及其優(yōu)化分析
      隨機森林在棉蚜蟲害等級預測中的應用
      基于二次隨機森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預報的隨機森林模型及應用
      電力市場交易背景下水電站優(yōu)化調(diào)度研究
      基于粒子群算法的產(chǎn)業(yè)技術(shù)創(chuàng)新生態(tài)系統(tǒng)運行穩(wěn)定性組合評價研究
      預測(2016年5期)2016-12-26 10:04:59
      基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
      無線傳感器網(wǎng)絡聯(lián)盟初始結(jié)構(gòu)生成研究
      交通堵塞擾動下多車場車輛路徑優(yōu)化
      商(2016年5期)2016-03-28 18:10:26
      車輛調(diào)度問題的全局—局部最優(yōu)信息比粒子群算法研究
      中國市場(2016年10期)2016-03-24 10:19:45
      新宁县| 岳池县| 永善县| 正蓝旗| 马公市| 阳山县| 平凉市| 墨玉县| 彭水| 西乌| 靖远县| 页游| 读书| 敦煌市| 茶陵县| 建阳市| 温宿县| 蓬莱市| 镇江市| 平山县| 达尔| 定陶县| 阿巴嘎旗| 秀山| 江西省| 鹿泉市| 德兴市| 栾城县| 福建省| 灵寿县| 鹤壁市| 平邑县| 石首市| 安庆市| 西峡县| 新密市| 辽源市| 彭阳县| 陇川县| 南宁市| 岑巩县|