• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      非完備數(shù)據(jù)的寬帶客戶流失預(yù)測(cè)

      2021-09-08 02:25:35張蕓宋雙
      中國(guó)新通信 2021年14期
      關(guān)鍵詞:森林分類樣本

      張蕓 宋雙

      【摘要】? ? 在實(shí)際數(shù)據(jù)中,由于人為、設(shè)備等原因,不可避免的會(huì)出現(xiàn)數(shù)據(jù)缺失問題。針對(duì)缺失值的處理方法一是刪除,二是填充。若數(shù)據(jù)缺失較少,刪除存在缺失值的樣本不失為一個(gè)快速簡(jiǎn)單的方法,但若缺失值較多,大量刪除樣本就會(huì)損失掉重要信息,不利于模型的建立,預(yù)測(cè)效果也會(huì)不理想。本文從非完備數(shù)據(jù)出發(fā),采用SimpleImputer、KNNImputer、IterativeImputer三種方法來(lái)填充缺失的數(shù)據(jù),建立寬帶客戶流失隨機(jī)森林分類模型,經(jīng)過對(duì)比分析得出IterativeImputer方法補(bǔ)充缺失值分類效果更好的結(jié)論。

      【關(guān)鍵詞】? ? 缺失值填充? ? 隨機(jī)森林

      引言:

      在大數(shù)據(jù)的時(shí)代,雖然有海量的數(shù)據(jù),但是數(shù)據(jù)也存在嚴(yán)重的缺失情況。缺失值(missing data)是指單元格中應(yīng)有而未能記錄的數(shù)據(jù)。數(shù)據(jù)缺失通常分為三種:完全隨機(jī)缺失、隨機(jī)缺失、非隨機(jī)缺失。當(dāng)我們所用數(shù)據(jù)的重要信息存在缺失情況時(shí),就要對(duì)其進(jìn)行填充。由于填充的數(shù)據(jù)非真實(shí)數(shù)據(jù),因此會(huì)對(duì)分析結(jié)果產(chǎn)生一定的影響。若能找到一種合適的數(shù)據(jù)填充方法,使得填充的數(shù)據(jù)與真實(shí)值更接近,就能大大提高數(shù)據(jù)分析的效果。

      本文首先介紹三種缺失值填充的方法,分別是SimpleImputer、KNNImputer、IterativeImputer。然后在電信寬帶客戶數(shù)據(jù)集上分別用三種缺失值填充的方法對(duì)缺失值進(jìn)行填充,最后建立寬帶客戶流失的隨機(jī)森林分類模型。通過對(duì)比直接刪掉缺失值以及三種缺失值填充方法,分析得到填充缺失值是否對(duì)模型分類效果有提高,以及哪種缺失值補(bǔ)充方法最好。

      一、缺失值填充方法

      數(shù)據(jù)缺失已經(jīng)成為一種不可避免的現(xiàn)象。針對(duì)分類問題,如果某一特征對(duì)分類結(jié)果影響很小或無(wú)影響,那么該特征可以直接刪除;若某一特征對(duì)分類結(jié)果存在很大的影響,且缺失值占總樣本的比例適中,就可以進(jìn)行數(shù)據(jù)填充?;诖耍S多學(xué)者研究該如何進(jìn)行數(shù)據(jù)填充,才能使填充的數(shù)據(jù)更加接近真實(shí)值。

      國(guó)外學(xué)者對(duì)缺失值填補(bǔ)的研究要早于國(guó)內(nèi),最早關(guān)于缺失值的相關(guān)研究可以追溯到1976年Rubin[1]對(duì)數(shù)據(jù)缺失三大機(jī)制的定義。近期,Gerhard等[2]提出了基于KNN的插補(bǔ)方法,將KNN算法中的鄰居改為按照距離進(jìn)行加權(quán)。Lei等人[3]利用多視圖矩陣完備的方法對(duì)缺失值進(jìn)行插補(bǔ),Zhang 等人[4]基于鏈?zhǔn)椒▌t對(duì)缺失值進(jìn)行填充,Verma 等人[5]利用 LSTM 對(duì)缺失值進(jìn)行處理等。

      1.1 SimpleImputer

      SimpleImputer缺失值填充方法是除了刪掉缺失值以外最簡(jiǎn)單的一種方法,包含了四種最常用的填充方式,分別是均值填充、中位數(shù)填充、眾數(shù)填充和常數(shù)填充。該方法可以在sklearn中直接調(diào)用。

      1.2 KNNImputer

      KNNImputer方法的思想是找到數(shù)據(jù)空間中距離最近的K個(gè)樣本,然后通過這K個(gè)樣本來(lái)估計(jì)缺失數(shù)據(jù)點(diǎn)的值。缺失值可以用K個(gè)相鄰樣本點(diǎn)的均值、中位數(shù)、眾數(shù)或者常數(shù)進(jìn)行填充。KNNImputer預(yù)測(cè)的步驟是選擇其他不存在缺失值的列,同時(shí)去除需要預(yù)測(cè)缺失值的列、存在缺失值的行,然后計(jì)算歐氏距離找到K個(gè)近鄰點(diǎn)。如果是離散的缺失值,則使用KNN分類器,投票選出K個(gè)鄰居中最多的類別進(jìn)行填補(bǔ);如果是連續(xù)的變量,則用KNN回歸器,使用K個(gè)鄰居的平均值進(jìn)行填補(bǔ)。

      1.3 IterativeImputer

      IterativeImputer采用的是回歸的思想通過無(wú)缺失的數(shù)據(jù)建立回歸模型,來(lái)預(yù)測(cè)缺失的數(shù)據(jù)。具體步驟為:將每個(gè)缺失值設(shè)為y,不含缺失值的特征設(shè)為x,構(gòu)建x和y的函數(shù)。通過循環(huán)迭代方式,使用一個(gè)回歸模型在已知y(未缺失)的樣本上對(duì)(X,y)進(jìn)行擬合。然后使用這個(gè)回歸模型來(lái)預(yù)測(cè)缺失的y值。以迭代的方式遍歷每個(gè)有缺失值的特征,然后重復(fù)n輪,最后一輪的計(jì)算結(jié)果被返回。

      二、實(shí)驗(yàn)過程及結(jié)果

      基于以上介紹的三種缺失值填充方法,本文將這三種方法應(yīng)用在電信寬帶客戶數(shù)據(jù)上,首先對(duì)客戶流失數(shù)據(jù)進(jìn)行預(yù)處理,選出有重要影響的特征,然后對(duì)存在缺失值的特征用三種方法分別進(jìn)行缺失值填充,建立隨機(jī)森林分類模型,最后通過評(píng)價(jià)指標(biāo)得出結(jié)論。

      2.1 數(shù)據(jù)預(yù)處理

      本文選取云南省某公司某月的寬帶客戶數(shù)據(jù)作為研究數(shù)。因?yàn)椴⒉皇撬刑卣鞫紝?duì)客戶是否流失都有顯著的影響,所以需要進(jìn)行特征選擇。特征分為兩類,一類是分類特征,一類是數(shù)值型特征。

      針對(duì)分類特征,分別畫出特征在正負(fù)樣本上的餅圖,觀察其是否有顯著的差異,若某特征在正負(fù)樣本上的差異超過10%,則認(rèn)為該特征對(duì)客戶是否流失有顯著的影響,否則認(rèn)為無(wú)影響。針對(duì)數(shù)值型特征,分別畫出特征在正負(fù)樣本上的箱線圖,若箱線圖有明顯的差異,則認(rèn)為該數(shù)值型特征對(duì)客戶是否流失有顯著的影響,否則認(rèn)為無(wú)影響。

      2.2 建立缺失值補(bǔ)充模型

      數(shù)據(jù)預(yù)處理后,發(fā)現(xiàn)電信寬帶客戶數(shù)據(jù)中AVG_IPTV_ACTIVE_CNT(近3月月均IPTV活躍天數(shù))、FLUX_MAX_TIME_PROP(流量使用峰值時(shí)段占全天流量占比)這兩個(gè)特征對(duì)客戶流失有重要影響,且這兩個(gè)特征存在缺失值,通過SimpleImputer、KNNImputer、IterativeImputer這三種方法分別對(duì)缺失值進(jìn)行填充,最后得到了完備的電信寬帶客戶數(shù)據(jù)。

      2.3 隨機(jī)森林

      本文選用隨機(jī)森林作為分類模型。隨機(jī)森林就是集成學(xué)習(xí)思想下的產(chǎn)物,將許多棵決策樹整合成森林,并合起來(lái)用來(lái)預(yù)測(cè)最終結(jié)果。首先,用bootstrap方法生成m個(gè)訓(xùn)練集,然后,對(duì)于每個(gè)訓(xùn)練集,構(gòu)造一顆決策樹,在節(jié)點(diǎn)找特征進(jìn)行分裂的時(shí)候,并不是對(duì)所有特征都能找到使得指標(biāo)(如信息增益)最大的,而是在特征中隨機(jī)抽取一部分特征,在抽到的特征中間找到最優(yōu)解,應(yīng)用于節(jié)點(diǎn),進(jìn)行分裂。隨機(jī)森林實(shí)際上對(duì)樣本和特征都進(jìn)行了采樣(如果把訓(xùn)練數(shù)據(jù)看成矩陣,那么就是一個(gè)行和列都進(jìn)行采樣的過程),這樣可以避免過擬合。

      2.4 評(píng)價(jià)指標(biāo)

      本文選用的指標(biāo)為精確率(precision)、召回率(recall)、F1-score。

      2.5 實(shí)驗(yàn)結(jié)果及分析

      此樣本為極度不平衡數(shù)據(jù),而基于現(xiàn)實(shí)問題,我們更關(guān)注模型對(duì)少數(shù)類樣本的預(yù)測(cè)能力,由于負(fù)樣本(多數(shù)類樣本)的效果都挺好,此處就不進(jìn)行展示,表中數(shù)據(jù)為正樣本(少數(shù)類樣本)的結(jié)果。

      2.5.1 SimpleImputer

      從表1的實(shí)驗(yàn)數(shù)據(jù)可以看出負(fù)樣本的各項(xiàng)指標(biāo)均高于正樣本的各項(xiàng)指標(biāo)。SimpleImputer的三種數(shù)據(jù)填充方法均比直接刪掉缺失值的效果好,召回率提高了0.8-0.9,雖然精度下降了0.13-0.14,但是綜合指標(biāo)提高了0.5-0.6??偟膩?lái)說SimpleImputer數(shù)據(jù)填充方法是有效果的。

      從上表的數(shù)據(jù)可以看出KNNImputer數(shù)據(jù)填充方法和SimpleImputer的效果差不多,都比直接刪掉缺失值的效果好。

      2.5.3 IterativeImputer

      從上表的實(shí)驗(yàn)數(shù)據(jù)可以看出IterativeImputer數(shù)據(jù)填充方法是三種方法中效果最好的,精確率值比直接刪掉缺失值只降低了0.01,比SimpleImputer和KNNImputer方法提高了0.03-0.05,召回率提高到了0.54,比直接刪掉缺失值提高了0.11,比其他兩種數(shù)據(jù)填充方法提高了0.02-0.03,綜合指標(biāo)F1-score比直接刪掉缺失值提高了0.09,比其他兩種方法提高了0.03-0.04。

      三、結(jié)束語(yǔ)

      數(shù)據(jù)的質(zhì)量影響著模型的效果,既然數(shù)據(jù)缺失不可避免,我們可以力所能及的補(bǔ)充缺失的數(shù)據(jù)。上述實(shí)驗(yàn)結(jié)果證明了補(bǔ)充缺失數(shù)據(jù)建立的模型要優(yōu)于直接刪掉缺失值的模型,其中IterativeImputer數(shù)據(jù)補(bǔ)充方法最好,綜合指標(biāo)F1-score值達(dá)到了0.68,提高了隨機(jī)森林模型的預(yù)測(cè)效果。還有諸多從不同個(gè)角度研究補(bǔ)充缺失值的方法,后續(xù)可以繼續(xù)閱讀相關(guān)論文,嘗試其他補(bǔ)充缺失值的方法,看能否進(jìn)一步的提高模型的效果。

      參? 考? 文? 獻(xiàn)

      [1] RUBIN D B. Inference and? Missing Data[J].Biometrika,1976,63(3):581-592.DOI:10.1093/biomet/63.3.581.

      [2] Tutz G,Ramzan S.Improved methods for the imputation of missing data by nearest neighbor method [J] . Computationl Statistics & Data Analysis, 2015,90(C):84-99.

      [3] ZHANG L, ZHAO Y, ZHU Z, et? al. Multi-View Missing Data Completion[J]. IEEE Transactions on Knowledge and? Data Engineering, 2018, 30(7):? 1296–1309.? DOI:10.1109/TKDE.2018.2791607.

      [4] ZHANG Z.Multiple? Imputation with Multivariate Imputation by Chained Equation (MICE) Package [J]. Annals of Translational Medicine,2016,4(2):1-5. Doi:10.3978/j.issn.2305-5839.2015.12.63

      [5] VERMA H, KUMAR S. An? Accurate Missing Data Prediction Method Using LSTM Based Deep Learning for? Health Care[C]//Proceedings of the 20th International Conference on Distributed? Computing and Networking. . DOI:10.1145/3288599.3295580.

      猜你喜歡
      森林分類樣本
      分類算一算
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      分類討論求坐標(biāo)
      推動(dòng)醫(yī)改的“直銷樣本”
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      哈Q森林
      哈Q森林
      哈Q森林
      黎川县| 宝鸡市| 哈巴河县| 玛纳斯县| 麻江县| 鹤岗市| 横峰县| 定边县| 潼南县| 曲阜市| 绍兴市| 谷城县| 达孜县| 临海市| 四会市| 从江县| 民县| 朝阳县| 阜康市| 东源县| 东乡县| 巢湖市| 太仓市| 剑阁县| 远安县| 玉溪市| 富民县| 惠州市| 奉新县| 界首市| 凉山| 儋州市| 监利县| 苍山县| 靖西县| 天门市| 广水市| 安仁县| 南部县| 滦南县| 登封市|