• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于聚類分析和XGBoost算法的換機(jī)預(yù)測(cè)模型

      2019-07-12 06:13:40盧光躍呂少卿閆真光
      關(guān)鍵詞:換機(jī)排查樣本

      盧光躍, 吳 洋, 呂少卿, 閆真光

      (西安郵電大學(xué) 陜西省信息通信網(wǎng)絡(luò)及安全重點(diǎn)實(shí)驗(yàn)室, 陜西 西安 710121)

      隨著移動(dòng)通信技術(shù)的發(fā)展和智能手機(jī)的普及,用戶更換手機(jī)的周期逐漸縮短。為了減少不必要的服務(wù)成本,運(yùn)用數(shù)據(jù)挖掘的方法分析電信用戶數(shù)據(jù),并在電信用戶數(shù)據(jù)集上訓(xùn)練出分類器,建立換機(jī)預(yù)測(cè)模型,從而區(qū)分有意向換機(jī)的用戶,對(duì)其進(jìn)行換機(jī)服務(wù)[1-2]。

      電信用戶數(shù)據(jù)集存在異常值和正、負(fù)樣本不平衡等問(wèn)題。排查用戶數(shù)據(jù)集中的異常用戶數(shù)據(jù),可提高分類器的預(yù)測(cè)準(zhǔn)確率[3]。過(guò)抽樣和欠抽樣算法通過(guò)改變?cè)紨?shù)據(jù)集的大小,可獲得一個(gè)等比例的平衡[4]。但是,過(guò)抽樣算法只能簡(jiǎn)單地從原始數(shù)據(jù)集中隨機(jī)挑選數(shù)據(jù),將產(chǎn)生的副本加入到數(shù)據(jù)集中,存在部分樣本實(shí)例重復(fù)并列的問(wèn)題,可能會(huì)導(dǎo)致分類器訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合現(xiàn)象;而欠抽樣算法對(duì)多數(shù)類樣本的隨機(jī)刪除,可能會(huì)導(dǎo)致分類器無(wú)法學(xué)習(xí)某些多數(shù)類的重要信息[5-6]。

      針對(duì)上述問(wèn)題,本文建立一種換機(jī)預(yù)測(cè)模型。利用孤立森林算法[7]進(jìn)行異常值檢測(cè);采用K-Medoids聚類[8]的方法綜合多方面特征對(duì)用戶進(jìn)行精細(xì)劃分;結(jié)合組合采樣的人工合成少數(shù)類算法(synthetic minority oversampling technique, SMOTE)和Tomek算法[9-11],處理數(shù)據(jù)集的不平衡問(wèn)題,改善欠采樣和過(guò)采樣算法的缺陷。最后,采用集成提升決策樹(shù)(gradient boosting decision trees, GBDT)的改進(jìn)算法XGBoost[12]進(jìn)行訓(xùn)練,將電信用戶分配到對(duì)應(yīng)的模型中,進(jìn)而預(yù)測(cè)用戶換機(jī)意向。

      1 換機(jī)預(yù)測(cè)模型

      電信用戶數(shù)據(jù)包括用戶的身份屬性信息、通信消費(fèi)信息、手機(jī)使用信息和業(yè)務(wù)信息。身份屬性包括用戶性別、號(hào)碼、年齡和入網(wǎng)時(shí)間;通信消費(fèi)信息包括總使用流量、通話時(shí)長(zhǎng)、總出賬收入、流量收入、套包收入和通話收入;手機(jī)使用信息包括國(guó)際移動(dòng)設(shè)備標(biāo)識(shí)碼(international mobile equipment identity,IMEI)、手機(jī)支持網(wǎng)別、手機(jī)類型、手機(jī)品牌和手機(jī)型號(hào);業(yè)務(wù)信息包括用戶套餐和運(yùn)營(yíng)商定制機(jī)信息。通過(guò)分析和處理電信用戶數(shù)據(jù),在用戶的歷史行為數(shù)據(jù)上訓(xùn)練模型,進(jìn)而預(yù)測(cè)用戶是否換機(jī)。

      1.1 模型的構(gòu)建

      利用孤立森林算法排查數(shù)據(jù)集的異常值;將排查后的數(shù)據(jù)集通過(guò)K-Medoids聚類分析精細(xì)劃分為若干個(gè)用戶簇,采用SMOTE和Tomek組合采樣的方法對(duì)每個(gè)簇中的用戶數(shù)據(jù)進(jìn)行平衡,最后在各個(gè)用戶簇?cái)?shù)據(jù)中使用XGBoost算法訓(xùn)練得出模型。換機(jī)預(yù)測(cè)模型構(gòu)建流程如圖1所示。

      圖1 換機(jī)預(yù)測(cè)模型構(gòu)建流程

      1.2 孤立森林排查異常值

      將電信用戶每個(gè)月的年齡、網(wǎng)齡、歷史換機(jī)次數(shù)、總使用流量、通話時(shí)長(zhǎng)、套包費(fèi)、通話收入和總出賬收入的均值和方差作為數(shù)據(jù)樣本,輸入孤立森林中進(jìn)行異常用戶排除。

      選取100個(gè)孤立樹(shù)組成孤立森林,每個(gè)孤立樹(shù)為二叉樹(shù)結(jié)構(gòu),最高深度設(shè)為8層,隨機(jī)依次選取256個(gè)樣本點(diǎn)放入樹(shù)的根節(jié)點(diǎn)。將數(shù)據(jù)樣本從根節(jié)點(diǎn)歸類到最終所屬葉子節(jié)點(diǎn)過(guò)程的分割次數(shù),記為路徑長(zhǎng)度。對(duì)100個(gè)孤立樹(shù)集體為樣本數(shù)據(jù)生成的路徑長(zhǎng)度取平均值,并進(jìn)行歸一化處理。若樣本的平均路徑長(zhǎng)度接近0,則該樣本為異常值的可能性越大,故設(shè)定閾值為0.1,將平均路徑長(zhǎng)度低于0.1的樣本視為異常點(diǎn),即可排查與換機(jī)預(yù)測(cè)無(wú)關(guān)的異常電信用戶。

      1.3 聚類分析細(xì)化用戶

      將異常電信用戶排除后的數(shù)據(jù)作為聚類分析的輸入,結(jié)合電信用戶數(shù)據(jù)特征,使用K-Medoids聚類法[8]進(jìn)行用戶細(xì)分。選取k=3為最佳聚類數(shù),使得平均輪廓寬度值最大[13]。首先隨機(jī)選取3個(gè)初始中心點(diǎn)和初始簇,計(jì)算初始簇中其他所有點(diǎn)到3個(gè)中心點(diǎn)的距離,并把每個(gè)點(diǎn)到3個(gè)中心點(diǎn)距離最短的簇,作為該點(diǎn)的所屬簇。在每個(gè)簇中依次選取數(shù)據(jù)樣本點(diǎn),計(jì)算每個(gè)點(diǎn)到簇中所有點(diǎn)的距離之和,選取最終距離之和最小的點(diǎn)作為新的中心點(diǎn),依此不斷迭代該過(guò)程直至各個(gè)簇的中心點(diǎn)不再改變。由此以最終確定的3個(gè)中心點(diǎn),將電信用戶數(shù)據(jù)聚類劃分為3個(gè)用戶簇。

      1.4 SMOTE和Tomek組合采樣

      對(duì)比用戶手機(jī)IMEI的異同,獲取電信用戶的換機(jī)標(biāo)簽,3個(gè)用戶簇中換機(jī)標(biāo)簽的比例都不平衡,故采用SMOTE和Tomek link組合采樣方法進(jìn)行處理。SMOTE是通過(guò)在一些鄰近的少數(shù)類樣本中,產(chǎn)成新的虛擬樣本以處理類別間的不平衡問(wèn)題,相比較過(guò)采樣的方法,它不是直接復(fù)制重疊的少數(shù)類樣本,可以一定程度上避免分類器的過(guò)擬合問(wèn)題和規(guī)則化。具體實(shí)現(xiàn)步驟如下。

      協(xié)議書(shū)模板分為有界樁的界線協(xié)議書(shū)、無(wú)界樁的界線協(xié)議書(shū)2個(gè)模板,分別包括封面、協(xié)議主體內(nèi)容、界線所涉及鄉(xiāng)鎮(zhèn)政府代表簽字3個(gè)部分。協(xié)議書(shū)主體內(nèi)容包含工作概況、重要問(wèn)題處理結(jié)果、行政區(qū)域界線走向和界樁位置說(shuō)明、行政區(qū)域界線的維護(hù)和管理、最后條款(補(bǔ)充說(shuō)明)以及附件6個(gè)部分,其中附件包括了附圖、界樁登記表、三交點(diǎn)界樁登記表、界樁成果表、界址點(diǎn)成果表、三交點(diǎn)成果表等內(nèi)容。三交點(diǎn)協(xié)議書(shū)模板包含標(biāo)題,協(xié)議內(nèi)容,三交點(diǎn)的位置、坐標(biāo),底圖所在的圖幅以及所涉及的鄉(xiāng)鎮(zhèn)政府代表簽字,所屬縣民政局代表簽字和協(xié)議日期。

      步驟1相對(duì)于多數(shù)類樣本,設(shè)定少數(shù)類需合成對(duì)應(yīng)的新樣本數(shù)目為N。

      步驟2搜索少數(shù)類樣本中樣本點(diǎn)x與其近鄰的樣本點(diǎn)集合,并從該集合中隨機(jī)選擇N個(gè)樣本,記為t1,t2,…,tN。

      步驟3隨機(jī)選取樣本點(diǎn)tj,將x和tj之間的連線上任意一點(diǎn)作為新合成的少數(shù)類樣本[9]

      rj=x+(tj-x)rand(0,1)。

      其中rand(0,1)表示區(qū)間[0,1]內(nèi)的隨機(jī)數(shù)。

      將少數(shù)類樣本rj加入每個(gè)用戶簇的原始數(shù)據(jù)中,組成新的3個(gè)用戶簇。設(shè)每個(gè)用戶簇中樣本點(diǎn)xi和xj屬于不同的類,計(jì)算該兩個(gè)樣本點(diǎn)之間的歐氏距離,記為d(xi,xj)。若用戶簇中不存在樣本點(diǎn)xe使得d(xe,xi)

      SMOTE與Tomek組合采樣就是利用SMOTE方法合成新的少數(shù)類樣本,得到新的用戶簇,然后剔除該用戶簇中的Tomek link對(duì),使得3個(gè)用戶簇中的換機(jī)標(biāo)簽平衡。

      1.5 XGBoost訓(xùn)練模型

      利用XGBoost[14]集成算法在平衡后的3個(gè)用戶簇?cái)?shù)據(jù)上進(jìn)行訓(xùn)練。設(shè)每個(gè)用戶簇中有n個(gè)樣本和m個(gè)特征,記為D={(xi,yi)}(|D|=n,xi∈m,yi∈),其中yi為實(shí)際換機(jī)標(biāo)簽。根據(jù)XGBoost算法中決策樹(shù)函數(shù)fk(x),預(yù)測(cè)換機(jī)標(biāo)簽其中k為迭代次數(shù)。

      (1)

      其中Υ為決策樹(shù)的復(fù)雜度,λ為懲罰因子,T為決策樹(shù)的葉子節(jié)點(diǎn)數(shù)目,ω為數(shù)據(jù)分到?jīng)Q策樹(shù)中葉子節(jié)點(diǎn)的所在層數(shù)。

      將式(1)進(jìn)行二階泰勒展開(kāi),則算法第k次的目標(biāo)函數(shù)可近似[14]表示為

      (2)

      在模型訓(xùn)練階段,每次迭代選擇最優(yōu)的fk(x),使得式(2)最小化。采用格式搜索的方法,將決策樹(shù)fk(x)數(shù)目和樹(shù)的最大深度作為尋優(yōu)參數(shù)組合,在用戶數(shù)據(jù)中訓(xùn)練得出每個(gè)參數(shù)組合的目標(biāo)函數(shù)O1,O2,…,On,選取其中最小目標(biāo)函數(shù)對(duì)應(yīng)的參數(shù)組合作為模型的最優(yōu)參數(shù)。根據(jù)此方法,在3個(gè)用戶簇?cái)?shù)據(jù)上訓(xùn)練得出3組最優(yōu)參數(shù),即3個(gè)最優(yōu)換機(jī)預(yù)測(cè)模型。在實(shí)際應(yīng)用中,將用戶根據(jù)聚類分析得到的3個(gè)中心點(diǎn)分配到對(duì)應(yīng)用戶簇模型中,進(jìn)而預(yù)測(cè)用戶的換機(jī)標(biāo)簽。

      2 對(duì)比實(shí)驗(yàn)及結(jié)果分析

      2.1 數(shù)據(jù)描述

      選取某運(yùn)營(yíng)商10個(gè)月內(nèi)12 000個(gè)用戶的數(shù)據(jù)作為原始訓(xùn)練數(shù)據(jù),并過(guò)濾掉129個(gè)字段信息缺失過(guò)多的數(shù)據(jù)。將11 871位電信用戶的數(shù)據(jù)樣本通過(guò)孤立森林檢測(cè)出1 458位異常用戶。將排查后的10 413位用戶電信數(shù)據(jù)集聚類成3個(gè)用戶簇,其中用戶簇1有4 562位用戶,用戶簇2有3 245位用戶,用戶簇3有2 611位用戶。利用SMOTE與Tomek組合采樣方法分別對(duì)3個(gè)用戶簇?cái)?shù)據(jù)進(jìn)行平衡,結(jié)果如表1所示。

      表1 用戶數(shù)據(jù)集平衡前后結(jié)果

      由表1可知,用戶簇1平衡后的用戶為5954位,用戶簇2平衡后的用戶為4150位,用戶簇3平衡后的用戶為3808位。

      2.2 不同算法的換機(jī)預(yù)測(cè)性能比較

      將平衡后的電信用戶前8個(gè)月的數(shù)據(jù),分別利用換機(jī)預(yù)測(cè)模型與隨機(jī)森林、Logistic回歸和GBDT算法預(yù)測(cè)后2個(gè)月用戶是否換機(jī)。對(duì)比用戶的預(yù)測(cè)標(biāo)簽與實(shí)際標(biāo)簽,根據(jù)預(yù)測(cè)電信客戶離網(wǎng)分類效果評(píng)價(jià)指標(biāo)[15-16],預(yù)測(cè)結(jié)果如表2所示。

      由表2可以看出,換機(jī)預(yù)測(cè)模型的準(zhǔn)確率為76%,召回率為74%,F(xiàn)1-measure為74%,其中少數(shù)類準(zhǔn)確率為69%,均高于隨機(jī)森林、GBDT和Logistic回歸等算法。

      表2 不同算法的換機(jī)預(yù)測(cè)結(jié)果對(duì)比

      2.3 不同結(jié)構(gòu)模型的換機(jī)預(yù)測(cè)性能比較

      換機(jī)預(yù)測(cè)模型的結(jié)構(gòu)為通過(guò)孤立森林對(duì)數(shù)據(jù)異常值排查,使用K-Medoids聚類分簇,再對(duì)每個(gè)簇的數(shù)據(jù)使用SMOTE與Tomek處理不平衡,最后利用XGBoost訓(xùn)練。將換機(jī)預(yù)測(cè)模型結(jié)構(gòu)分別與未采用孤立森林異常值排查,未采用K-Medoids聚類分簇和未采用SMOTE與Tomek處理不平衡的模型結(jié)構(gòu),根據(jù)預(yù)測(cè)電信客戶離網(wǎng)分類效果評(píng)價(jià)指標(biāo)進(jìn)行換機(jī)預(yù)測(cè)對(duì)比,結(jié)果如表3所示。

      表3 不同結(jié)構(gòu)的換機(jī)預(yù)測(cè)結(jié)果對(duì)比

      由表3可見(jiàn),換機(jī)預(yù)測(cè)模型比未異常排查、未聚類分析和未處理不平衡的模型預(yù)測(cè)性能更佳。

      3 結(jié)語(yǔ)

      基于聚類分析和XGBoost算法的換機(jī)預(yù)測(cè)模型,利用孤立森林對(duì)原始數(shù)據(jù)進(jìn)行異常檢測(cè),使得換機(jī)預(yù)測(cè)模型在訓(xùn)練過(guò)程中不受異常點(diǎn)的影響。利用K-Medoids聚類法對(duì)原始用戶數(shù)據(jù)精細(xì)劃分為3個(gè)用戶簇,采用SMOTE與Tomek組合采樣對(duì)3個(gè)用戶簇的數(shù)據(jù)進(jìn)行平衡,最后將平衡后的數(shù)據(jù)通過(guò)XGBoost訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,該換機(jī)預(yù)測(cè)模型比隨機(jī)森林、Logistic回歸和GBDT算法準(zhǔn)確率高,且比未異常排查、未聚類分析和未處理不平衡的模型預(yù)測(cè)性能更佳,可較好地為電信用戶提供換機(jī)服務(wù)。

      猜你喜歡
      換機(jī)排查樣本
      高層建筑消防安全排查情況及處理對(duì)策
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      配網(wǎng)二次回路故障的排查分析
      電子制作(2019年20期)2019-12-04 03:52:04
      給家中來(lái)個(gè)危險(xiǎn)排查吧
      媽媽寶寶(2019年10期)2019-10-26 02:45:42
      推動(dòng)醫(yī)改的“直銷樣本”
      如何排查并改錯(cuò)
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      村企共贏的樣本
      板桥市| 新宁县| 景洪市| 游戏| 淮滨县| 莆田市| 银川市| 建德市| 丹棱县| 宜兰市| 荥经县| 肥城市| 宜兰市| 汉阴县| 东阳市| 小金县| 阿克| 肇庆市| 小金县| 延庆县| 沧州市| 长治市| 上蔡县| 长兴县| 呼玛县| 交口县| 东至县| 新密市| 韶关市| 方正县| 高尔夫| 商丘市| 金昌市| 宣武区| 廊坊市| 晋州市| 石首市| 原阳县| 沈阳市| 江达县| 深圳市|