• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      不平衡數(shù)據(jù)分類研究及在銀行營銷中的應(yīng)用

      2018-11-09 02:58:06季晨雨
      山西電子技術(shù) 2018年5期
      關(guān)鍵詞:查全率準(zhǔn)確率分類

      季晨雨

      (北京衛(wèi)星信息工程研究所,北京 100000)

      0 引言

      不平衡數(shù)據(jù)分類是分類問題中比較特殊的問題,主要特點是樣本類分布不平衡。在不平衡的二分類問題中,表現(xiàn)為其中一類的學(xué)習(xí)樣本遠(yuǎn)多于另一類的樣本[1]。不平衡數(shù)據(jù)集分類會存在偏向多數(shù)類,對少數(shù)類誤分比率很高的問題。這是因為多數(shù)類的樣本數(shù)目明顯多于少數(shù)類,但有時候少數(shù)類恰恰是我們關(guān)注的重點。

      本文利用了銀行營銷人員以電話方式對其定期存款業(yè)務(wù)進(jìn)行推銷的案例。隨著市場競爭的加劇,銀行需要識別目標(biāo)用戶并進(jìn)行精準(zhǔn)營銷以擴(kuò)大收益,提高工作效率。在本例中,需要根據(jù)以往營銷積累下的數(shù)據(jù)集構(gòu)建客戶是否會購買定期存款的預(yù)測模型,幫助銀行識別目標(biāo)客戶群體,進(jìn)行精準(zhǔn)營銷,提高營銷的成功率,避免非目標(biāo)客戶因電話營銷對銀行產(chǎn)生負(fù)面印象。在該案例中,以客戶是否購買定期存款為目標(biāo)屬性,該屬性中“是”和“否”的數(shù)據(jù)集樣本數(shù)目比為4640∶36548,屬于典型的不平衡分類問題。如果在構(gòu)建分類模型時不考慮數(shù)據(jù)集的平衡性,模型會出現(xiàn)對少數(shù)類誤分率很高的問題,但少數(shù)類恰恰是我們關(guān)心的目標(biāo)客戶群體。因此,在構(gòu)建分類模型時需要解決不平衡數(shù)據(jù)分類的問題。

      1 不平衡數(shù)據(jù)分類問題解決辦法

      解決不平衡數(shù)據(jù)分類問題,可以從數(shù)據(jù)、算法、評價指標(biāo)三個層面著手[2]。

      1) 從數(shù)據(jù)的角度:通過改變原始數(shù)據(jù)集的分布,采用過采樣或欠采樣,即增加少數(shù)類樣本或減少多數(shù)類樣本,使不平衡數(shù)據(jù)集的正負(fù)類樣本數(shù)達(dá)到平衡[3]。

      2) 在算法上:修改已有的分類器,使之適應(yīng)不平衡數(shù)據(jù)的特征。主要包括代價敏感分類器,集成學(xué)習(xí)等方法。其中,代價敏感分類器對少數(shù)類樣本和多數(shù)類樣本分類錯誤的代價區(qū)別開來,將少數(shù)類錯誤地分到多數(shù)類將付出更大的代價。集成學(xué)習(xí)是在訓(xùn)練集上訓(xùn)練多個分類模型,預(yù)測時根據(jù)每個分類器的分類結(jié)果進(jìn)行投票,得到最終的預(yù)測結(jié)果。常用的組合分類方法,包括Bagging,Boosting以及隨機(jī)森林Random Forest等[4]。

      3) 從評價指標(biāo)上:對于一般的分類模型通常使用模型的準(zhǔn)確率進(jìn)行評估。分類模型的準(zhǔn)確率反映了分類模型對數(shù)據(jù)集整體的分類性能。但只使用準(zhǔn)確率來衡量對不平衡數(shù)據(jù)集的分類效果,并不能反映對少數(shù)類的分類性能。利用少數(shù)類的召回率(查全率)可以反映正確判別的少數(shù)類占所有少數(shù)類的比例。 F1分?jǐn)?shù)同時考慮了分類模型的準(zhǔn)確率和召回率,是處理不平衡數(shù)據(jù)分類問題時的有效評價指標(biāo)[5]。

      F1分?jǐn)?shù)可以看作是模型準(zhǔn)確率和召回率的一種加權(quán)平均,F(xiàn)1分?jǐn)?shù)的分布在0-1之間。

      還可以采用ROC曲線下的面積AUC作為評價指標(biāo)。因為ROC曲線有一個很好的性能,當(dāng)測試集中的正負(fù)樣本的分布變化時,ROC曲線能夠保持不變,因此適合作為不平衡數(shù)據(jù)集分類時的評價指標(biāo)[6]。

      2 銀行營銷中的不平衡數(shù)據(jù)分類

      2.1 數(shù)據(jù)集說明

      本文所研究的數(shù)據(jù)集來源為UCI所提供的Bank Marketing Data Set數(shù)據(jù)集,該數(shù)據(jù)與葡萄牙銀行機(jī)構(gòu)實施電話直銷向客戶推銷其定期存款業(yè)務(wù)有關(guān)。數(shù)據(jù)集收集的時間自2008年5月至2010年10月,共包括41188個樣本和21個屬性,其中目標(biāo)屬性為是否購買定期存款,分別用“yes”和“no”代表是和否。輸入變量在結(jié)構(gòu)上有數(shù)值型和類別型,還可以按屬性的含義分為客戶信息屬性、銀行營銷行為屬性、社會經(jīng)濟(jì)背景屬性和其他屬性。

      表1 數(shù)據(jù)集屬性列表

      2.2 數(shù)據(jù)預(yù)處理

      由于數(shù)據(jù)集中存在類別型屬性,需要對類別型屬性進(jìn)行數(shù)值化操作,即編碼處理。對housing、loan等二分類屬性,進(jìn)行0-1編碼,對education等有序分類屬性,按影響由小到大的順序編碼,對job,marital等無序分類屬性進(jìn)行啞變量編碼。

      表2 marital屬性啞變量編碼

      對于數(shù)值型特征,需要進(jìn)行連續(xù)型特征離散化處理,以便減小極端值和異常值對模型的影響。例如,duration屬性最大值為4918,平均數(shù)為258,中位數(shù)為259,75%分位數(shù)為319,均遠(yuǎn)遠(yuǎn)小于最大值,所以需要對duration變量進(jìn)行離散化。為了應(yīng)對不同屬性度量單位不同的情況,減小對基于距離度量的分類模型的影響,進(jìn)行數(shù)據(jù)規(guī)范化,將數(shù)據(jù)壓縮到一個范圍內(nèi)。

      由于數(shù)據(jù)集的某些類別型屬性存在取值為unknown的樣本,需要進(jìn)行缺失值處理。在job和marital屬性上的缺失值較少,可以直接把含有缺失值的樣本刪除。對于education、loan等缺失值較多的屬性,利用各屬性值完整的樣本作為訓(xùn)練集,以缺失值所在的屬性作為目標(biāo)屬性進(jìn)行分類,以此預(yù)測缺失值。

      2.3 實驗結(jié)果與分析

      原數(shù)據(jù)集樣本個數(shù)41188,其中包括4640個正類樣本,即購買定期存款的客戶樣本和36548個負(fù)類樣本,即沒有購買定期存款的客戶樣本。

      為了解決樣本的不平衡問題,我們需要對訓(xùn)練集進(jìn)行SMOTE過采樣。對于SVM模型,需要設(shè)置class_weight參數(shù)為‘balanced’來進(jìn)行樣本均衡。

      對訓(xùn)練集采取5-fold交叉驗證,并以準(zhǔn)確率最高的模型使用的超參數(shù)作為最終模型的超參數(shù)。將訓(xùn)練并驗證好的模型應(yīng)用在測試集上,以得到的分類結(jié)果作為分類模型性能的比較依據(jù)。

      考慮到數(shù)據(jù)集的不平衡性,單獨使用準(zhǔn)確率已經(jīng)不能正確評價分類模型的好壞,因此選擇召回率(查全率)、F1分?jǐn)?shù)和ROC_AUC作為客戶購買預(yù)測模型的評價指標(biāo),三個評價指標(biāo)均是值越大,分類模型的性能越好。

      分別利用邏輯回歸模型、決策樹模型、SVM模型、隨機(jī)森林模型、GBDT模型得到的分類結(jié)果如表3所示。

      表3 各模型分類結(jié)果

      根據(jù)各模型的分類結(jié)果可知,經(jīng)過SMOTE重采樣后的決策樹模型、邏輯回歸模型、隨機(jī)森林模型和GBDT模型在召回率(查全率)、F1分?jǐn)?shù)和ROC_AUC評價指標(biāo)上均有提升,說明SMOTE重采樣可以在一定程度上減少樣本的不平衡帶來的影響。設(shè)置‘balanced’后的SVM模型比不設(shè)置的SVM模型召回率(查全率)、F1分?jǐn)?shù)和ROC_AUC評價指標(biāo)上有所改進(jìn),但付出了準(zhǔn)確率降低的代價。

      總的來說設(shè)置‘balanced’后的SVM模型在召回率(查全率)上表現(xiàn)最佳,基本可以識別大部分的目標(biāo)客戶,即選擇購買定期存款的客戶。而采用SMOTE重采樣后的GBDT模型在召回率(查全率)、F1分?jǐn)?shù)和ROC_AUC評價指標(biāo)上的綜合表現(xiàn)最好。

      3 總結(jié)

      本文對不平衡數(shù)據(jù)分類問題進(jìn)行了研究,從數(shù)據(jù)、算法、評價指標(biāo)三個層面介紹了不平衡數(shù)據(jù)分類的解決辦法,并將其應(yīng)用于銀行營銷中客戶購買定期存款的預(yù)測任務(wù)。對原始數(shù)據(jù)集進(jìn)行了數(shù)據(jù)預(yù)處理,構(gòu)建了邏輯回歸、決策樹、SVM、隨機(jī)森林和GBDT預(yù)測模型,并對模型進(jìn)行參數(shù)優(yōu)化和評估。其中,設(shè)置‘balanced’后的SVM模型在召回率(查全率)上表現(xiàn)最佳,基本可以識別大部分的目標(biāo)客戶,即選擇購買定期存款的客戶。而采用SMOTE重采樣后的GBDT模型在召回率(查全率)、F1分?jǐn)?shù)和ROC_AUC評價指標(biāo)上的綜合表現(xiàn)最好。將訓(xùn)練好的預(yù)測模型應(yīng)用于銀行營銷中,可以幫助銀行識別目標(biāo)客戶群體,進(jìn)行精準(zhǔn)營銷,提高營銷的成功率,提高工作效率,擴(kuò)大收益。

      猜你喜歡
      查全率準(zhǔn)確率分類
      分類算一算
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      分類討論求坐標(biāo)
      海量圖書館檔案信息的快速檢索方法
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      數(shù)據(jù)分析中的分類討論
      基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
      教你一招:數(shù)的分類
      临朐县| 紫阳县| 台湾省| 藁城市| 高邑县| 巴东县| 军事| 隆化县| 日照市| 环江| 偃师市| 民和| 乌恰县| 蓬溪县| 涡阳县| 那曲县| 安吉县| 祥云县| 象山县| 贵定县| 甘泉县| 延长县| 逊克县| 通许县| 潢川县| 荆州市| 尉犁县| 曲阳县| 瑞金市| 游戏| 连云港市| 通州区| 文登市| 定边县| 江华| 佛冈县| 涞水县| 资阳市| 萝北县| 阜康市| 卢氏县|