• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于BL-SMOTE和隨機森林的不平衡數(shù)據(jù)分類

      2019-05-16 08:12:26張宸寧李國成
      關(guān)鍵詞:福特權(quán)值機器

      張宸寧,李國成

      (北京信息科技大學(xué) 理學(xué)院,北京市 100192)

      0 引言

      數(shù)據(jù)不平衡問題已經(jīng)成為訓(xùn)練分類模型乃至數(shù)據(jù)挖掘的關(guān)鍵問題。類別不平衡數(shù)據(jù)會導(dǎo)致分類模型的準(zhǔn)確率衰弱,從而導(dǎo)致實際效果受到影響。近年來,學(xué)者們提出了許多處理這類問題的方法。剖析這些方法可以將它們大致分為兩類:一類是從數(shù)據(jù)層面處理不平衡數(shù)據(jù);另一類是從算法層面處理不平衡數(shù)據(jù)。

      在數(shù)據(jù)層面,主要是對數(shù)據(jù)進行重采樣,重建其訓(xùn)練集使樣本數(shù)據(jù)分布更加真實,主要包含欠采樣技術(shù)和過采樣技術(shù)。過采樣技術(shù)的基本思想是增加少數(shù)類樣本,使其原始分類信息能夠得到較好的保留。過采樣的算法主要有SMOTE算法[1]、LN-SMOTE算法[2]、SMOTE-RSB算法[3]等。欠采樣技術(shù)主要是刪除部分多數(shù)類樣本,但會造成分類信息不完整,數(shù)據(jù)丟失嚴(yán)重。在欠采樣技術(shù)中,有區(qū)分使用K-NN分類器識別多數(shù)類中相關(guān)實例的方法[4],還有遺傳算法中的一個分支演化的進化算法[5]以及Tomek鏈接的相互鄰近關(guān)系方法[6]等。在對某些類樣本分類準(zhǔn)確率要求較高的領(lǐng)域,通常選擇過采樣技術(shù)。在算法層面,主要是修改在數(shù)據(jù)集上算法的偏置,使決策平面偏向于少數(shù)類,提高對少數(shù)類的識別率,并對現(xiàn)有問題通過重新設(shè)計算法來解決不平衡數(shù)據(jù)問題。通常情況下,使用過采樣技術(shù)來實現(xiàn)機器學(xué)習(xí)分類器的多樣化。其中使用過采樣技術(shù)的算法主要有SMOTEBoost算法[7]、SMOTEBagging 算法[8]以及RAMOBoost 算法[9]等。在提前執(zhí)行每一個欠采樣來調(diào)整集成方法中有Under-Bagging算法[10]、粗糙平衡Bagging算法[11]以及RUSBoost算法[12]。除了基于集成方法外,還有其他內(nèi)部平衡方法,例如主動學(xué)習(xí)策略[13]以及粒度計算等。這些方法在一定程度提高了SMOTE的性能。但SMOTE算法沒有對少數(shù)類樣本進行有區(qū)別的選擇,即使Borderline-SMOTE算法通過設(shè)置邊界點集來實現(xiàn)對少數(shù)類樣本的區(qū)別選擇,這種設(shè)置也存在著一定的不合理。

      本文針對類別不平衡本身的性質(zhì),在SMOTE算法基礎(chǔ)上,融合檢驗數(shù)據(jù)準(zhǔn)確性的常用統(tǒng)計方法——本福特法則,提出一種新的數(shù)據(jù)處理方法,即BL-SMOTE算法。利用本福特法則對少數(shù)類樣本進行有區(qū)別的選擇,使用本福特法則對近鄰樣本進行合成,使其數(shù)據(jù)分布更真實。同時,用隨機森林進行分類,并采用3種最為常見的評價指標(biāo),對我國上市公司財務(wù)數(shù)據(jù)集進行實證研究。最后,與證監(jiān)會公布的造假公司信息進行對比,結(jié)果表明BL-SMOTE算法的分類效果優(yōu)于SMOTE算法,同時驗證了在數(shù)據(jù)分類方面,相比于邏輯回歸、決策樹、梯度提升樹,隨機森林的效果更優(yōu)。

      1 相關(guān)知識

      1.1 SMOTE算法

      SMOTE(synthetic minority over-sampling technique)算法[1,14]在2002年提出并得到認(rèn)可,它的基本思想是通過人工合成新的少數(shù)類樣本來降低類別不平衡性。其中基本原理是在近鄰少數(shù)類樣本之間進行線性差值,合成新的少數(shù)類樣本。具體做法是:假設(shè)鄰近參數(shù)為k,首先從每個少數(shù)類樣本的x個同類最近鄰中隨機選擇k個樣本;然后將每個少數(shù)類樣本分別與選中的k個樣本按式(1)合成k少數(shù)類新樣本;最后,將新樣本添加至訓(xùn)練樣本集中,形成新的訓(xùn)練樣本集。

      xnew=x+δ(y[i]-x)

      (1)

      式中:xnew為合成的新樣本;x為少數(shù)類樣本;δ為0到1之間的隨機數(shù);y[i]為x的第i個近鄰樣本。

      值得注意的是,在SMOTE算法中鄰近參數(shù)k是否能夠合理設(shè)置將直接影響最終的分類性能。通常設(shè)置鄰近參數(shù)k=5。

      1.2 本福特法則

      在實際數(shù)據(jù)中,普遍認(rèn)為所有數(shù)字應(yīng)該隨機出現(xiàn)并且具有相同的概率。然而實驗表明并非所有數(shù)字出現(xiàn)的概率都是相等的,而是像{1,2,3}這樣的低位數(shù)比{7,8,9}這樣的高位數(shù)更頻繁地出現(xiàn)。這種數(shù)字現(xiàn)象被稱為本福特法則。在十進制中,本福特法則即為首位數(shù)字出現(xiàn)的概率,即

      (2)

      式中pd為通過數(shù)據(jù)樣本點首位第d個數(shù)字的概率。

      本福特定律廣泛運用于地質(zhì)學(xué)、化學(xué)、天文學(xué)、物理學(xué)和工程學(xué)有關(guān)數(shù)據(jù),以及會計、財務(wù)、計量經(jīng)濟學(xué)和人口統(tǒng)計學(xué)的集中數(shù)據(jù)。尤其在檢測欺詐行為中,可以檢查財務(wù)報告中的數(shù)據(jù)是否符合本福特法則,從而能夠規(guī)避逃稅、金融詐騙等風(fēng)險。這是由于欺詐者通常不了解這種數(shù)字模式,并傾向于人為修改具有近似相等頻率的數(shù)字。同樣,由于SMOTE算法是人工合成新樣本數(shù)據(jù)的算法,在選取新樣本數(shù)據(jù)的權(quán)重時,采用0~1之間的隨機數(shù)作為選取新樣本數(shù)據(jù)的權(quán)重,卻未考慮到人工生成的數(shù)據(jù)是否違背自然界規(guī)律。因此,本文借助于本福特法則能夠檢測欺詐行為以及符合自然規(guī)律的特點,運用本福特法則的卡方值替換SMOTE算法中生成新樣本數(shù)據(jù)的權(quán)值,設(shè)計了一種新的算法——BL-SMOTE算法。相比SMOTE算法,該算法借助本福特法則本身特性,更精準(zhǔn)地模擬出符合自然規(guī)律的新樣本數(shù)據(jù)。

      1.3 隨機森林

      隨機森林[15](random-forest)是由多個決策樹組成的集成分類器,它是用來解決預(yù)測問題的學(xué)習(xí)模型。采用{h(x,θk),k=1,2,…,m}表示m個決策樹,其中θk為獨立同分布的隨機向量。針對自變量,從m個決策樹中選出一個最優(yōu)分類結(jié)果:

      (3)

      式中:H(x)為隨機森林模型;I(*)為示性函數(shù);hi為單個分類模型;Y為輸出變量。

      從式(3)中可以看出類別對評估變數(shù)的重要性。另外,在創(chuàng)建隨機森林時,它可以在內(nèi)部對于一般化后的誤差產(chǎn)生不偏差的估計;對于不平衡分類,可以平衡誤差。以上特點使得隨機森林對處理樣本量級小的數(shù)據(jù)集具有優(yōu)勢。

      2 BL-SMOTE算法

      針對SMOTE算法的不足,本文結(jié)合本福特法則提出了一種改進型SMOTE算法,即BL-SMOTE算法。BL-SMOTE算法主要思想是給少數(shù)異常類樣本(即負(fù)樣本)有選擇地建立權(quán)值,樣本權(quán)值服從本福特法則的概率卡方值(即本福特選擇方法),并人工合成近鄰的負(fù)樣本。

      不同于SMOTE算法,在生成樣本數(shù)據(jù)時,選取的權(quán)重為隨機數(shù)??紤]到本福特法則的有效性在各個領(lǐng)域已得到證明和驗證,本文為改善權(quán)重的準(zhǔn)確性,利用本福特法則的卡方值替代SMOTE算法中隨機數(shù)產(chǎn)生虛擬負(fù)樣本數(shù)據(jù)。

      2.1 本福特選擇方法

      效仿遺傳算法選擇算子,按照一定的規(guī)則從當(dāng)前種群中選擇出一些符合要求的個體遺傳到下一代種群中,其原則是權(quán)值高的個體以較高的概率成為下一代個體。BL-SMOTE算法中的本福特選擇方法繼承了這一思想,它是從少數(shù)類樣本中以較高的概率選擇出權(quán)值較高的樣本,使得新合成的樣本聚集在該樣本附近。

      本福特選擇方法步驟如下:

      (4)

      (5)

      式中:pcd為數(shù)據(jù)樣本點首位第d個數(shù)字的實際概率,pnewd為數(shù)據(jù)新生成的樣本點首位第d個數(shù)字的實際概率。

      步驟2按照式(4)和式(5)計算少數(shù)類樣本的選擇概率:

      (6)

      步驟3按照本福特選擇方法,將δnew作為BL-SMOTE算法中的權(quán)值。

      2.2 BL-SMOTE算法流程

      通過本福特選擇方法計算出樣本權(quán)值,再通過以下步驟,形成BL-SMOTE算法。BL-SMOTE算法具體流程如下:

      輸入: 訓(xùn)練集

      st={(xi,yi),i=1,2,…,n,yi∈{+,-}};正樣本為樣本數(shù)量級多的n+,負(fù)樣本為樣本量級少的n-,n++n-=n;不平衡比率rm=n+/n-;采樣率為rs;近鄰參數(shù)為k.

      輸出:過采樣后的訓(xùn)練集

      算法步驟:

      1. 提取所有正負(fù)樣本到訓(xùn)練集st中,組成st+與st-集合;

      fori=1∶n-×rs

      xnew=x-δnew(xnew-x)

      圖1進一步說明了BL-SMOTE算法的基本原理。圖中五邊形代表少數(shù)類負(fù)樣本,圓圈代表多數(shù)類正樣本。選中少數(shù)類樣本,其近鄰集合由最近的5個五邊形組成,按照本福特選擇方法作為新算法的權(quán)值,小五邊形表示合成更準(zhǔn)確的新樣本。

      圖1 新樣本的生成圖示

      3 實驗結(jié)果與分析

      3.1 不平衡數(shù)據(jù)的評價指標(biāo)

      通常采用分類準(zhǔn)確性(xacc)來評估衡量分類模型的性能。分類準(zhǔn)確性的數(shù)值越大數(shù)據(jù)準(zhǔn)確率越高,算法效果越好。表1為分類結(jié)果的混淆矩陣。

      表1 分類結(jié)果的混淆矩陣

      在表1中,tp、tn分別表示原本就是正類、負(fù)類,并判斷正確的樣本數(shù)量;fp、fn分別表示樣本真實類為負(fù)、正樣本,卻標(biāo)記錯誤的樣本個數(shù)。分類精度為

      (7)

      為了全面地對數(shù)據(jù)處理的效果進行評價,通常采用查準(zhǔn)率:

      (8)

      查全率:

      (9)

      真負(fù)率:

      (10)

      為了平衡查準(zhǔn)率、查全率的關(guān)系,采用信息檢索(IR)領(lǐng)域常用的一種評價指標(biāo)fmeasure進行性能評價測度,它常用于評價分類模型的好壞,其計算公式如下:

      (11)

      另外,為平衡真正率xTPR以及真負(fù)率xTNR的關(guān)系,采用Gmean進行性能評價測度:

      (12)

      Gmean是僅有在正負(fù)樣本的分類精度同時都高的情況下,其值才會最大。本文使用fmeasure來衡量負(fù)樣本的分類性能,使用Gmean來衡量數(shù)據(jù)集整體的分類性能。

      3.2 實驗結(jié)果與分析

      為了驗證算法的有效性,本文數(shù)據(jù)集采用wind中2007年至2017年所有上市公司的各季度的財務(wù)報表。其中財務(wù)報表也稱為三張表,即利潤表、現(xiàn)金流量表以及資產(chǎn)負(fù)債表。由于財務(wù)三張報表指標(biāo)相對較多,且有些指標(biāo)相互之間關(guān)聯(lián),本文選取影響財務(wù)數(shù)據(jù)最重要的46種指標(biāo)作為特征,其中選取利潤表10個特征,現(xiàn)金流量表20個特征,資產(chǎn)負(fù)債表15個特征以及日期。同時為了使正負(fù)樣本不平衡程度有所差別,本文對數(shù)據(jù)集進行不同數(shù)量的隨機劃分,用以確定訓(xùn)練集和測試集。

      以下所有實驗結(jié)果均為循環(huán)200次所取得的平均值。本文采用Python 3.7實現(xiàn)了SMOTE算法、BL-SMOTE算法以及邏輯回歸(LR)、ID3算法、分類回歸樹(CART)、隨機森林(RF)、梯度提升樹(GBDT)。將SMOTE算法和BL-SMOTE算法的鄰近參數(shù)設(shè)置為同一樹數(shù)值,保證它們合成的樣本數(shù)目相同,然后使用以上5種機器學(xué)習(xí)方法進行分類。

      圖2至圖4分別為某家上市公司在未處理不平衡數(shù)據(jù)集、使用SMOTE算法處理不平衡數(shù)據(jù)集以及使用BL-SMOTE算法處理數(shù)據(jù)集的混淆矩陣的示意圖。

      圖2 某家上市公司未處理不平衡數(shù)據(jù)集的混淆矩陣

      圖3 某家上市公司使用SMOTE算法處理不平衡數(shù)據(jù)集的混淆矩陣

      圖4 某家上市公司使用BL-SMOTE算法處理不平衡數(shù)據(jù)集的混淆矩陣

      將圖2~4數(shù)據(jù)代入式(6)計算出某家上市公司未處理數(shù)據(jù)時xacc為0.192 0,在使用SMOTE算法處理數(shù)據(jù)時xacc=0.931 6,在使用BL-SMOTE算法處理數(shù)據(jù)時xacc=0.944 3??梢姡瑢τ谕慌鷶?shù)據(jù),采用BL-SMOTE算法處理時,分類準(zhǔn)確性最高,即數(shù)據(jù)處理的效果最優(yōu)。然而在工程應(yīng)用中,樣本真實類為負(fù),錯誤標(biāo)記成正類的樣本相比于樣本真實類為正,標(biāo)記成負(fù)類的樣本代價會更高,但是這一點無法從分類準(zhǔn)確性xacc取值作出判斷。

      因此,通過3種評價指標(biāo)的計算結(jié)果,綜合判斷5種機器學(xué)習(xí)算法在3種不同的處理數(shù)據(jù)情況下(即在未進行生成新數(shù)據(jù)的處理的情況、以及使用SMOTE算法和BL-SMOTE算法進行生成新數(shù)據(jù)的處理的情況)數(shù)值,數(shù)值越接近于1,效果越好。通過計算3種指標(biāo)驗證BL-SMOTE算法在處理不平衡數(shù)據(jù)的方面效果最優(yōu),并且驗證相比其他4種機器學(xué)習(xí)算法,隨機森林而分類方法最好。表2~4為3種不同情況下,5種機器學(xué)習(xí)的xacc、fmeasure、Gmean值:

      表2 五種機器學(xué)習(xí)算法在不同情況下的xacc值

      表3 五種機器學(xué)習(xí)算法在不同情況下的fmeasure值

      表4 五種機器學(xué)習(xí)算法在不同情況下的Gmean值

      從表2~4可以看出,在3種不同情況下,隨機森林算法較其他4種機器學(xué)習(xí)算法更接近于1,即效果最佳。因此選取隨機森林算法作為數(shù)據(jù)分類器效果更好。

      實驗結(jié)果表明在隨機森林機器學(xué)習(xí)分類器基礎(chǔ)上,使用BL-SMOTE算法處理的不平衡數(shù)據(jù)xacc=0.944 3、fmeasure=0.944 3、Gmean=0.754 2,各項評價指標(biāo)均高于其他情況。使用BL-SMOTE算法處理不平衡數(shù)據(jù)集準(zhǔn)確率最高,從而驗證了本文所提算法的有效性。

      4 結(jié)束語

      本文提出了一種新型的過采樣技術(shù),利用本福特法則在自然處理中的優(yōu)勢作為SMOTE算法的權(quán)值使數(shù)據(jù)更具真實性。在對所提出的解決方案進行更徹底的分析背景下,對所選數(shù)據(jù)集進行的初步實驗的結(jié)果很重要。不同于以往使用UCI的數(shù)據(jù)進行模擬實驗,本文運用更貼近于現(xiàn)代生活的真實數(shù)據(jù),即上市公司近幾年財務(wù)數(shù)據(jù)作為數(shù)據(jù)集,選取真實數(shù)據(jù)作為數(shù)據(jù)集的同時,數(shù)據(jù)的噪聲也隨之增大,清洗過程難度加大。通過比較BL-SMOTE和SMOTE以及機器學(xué)習(xí)算法本身的結(jié)果驗證了BL-SMOTE算法的優(yōu)勢。不僅如此我們還考慮機器學(xué)習(xí)算法本身特性,在驗證BL-SMOTE有效性和準(zhǔn)確性,同時驗證了多種機器學(xué)習(xí)算法的組合即決策樹的集成算法,隨機森林比單個機器學(xué)習(xí)算法(決策樹)的效果更好。對于未來的工作,我們計劃運用單個神經(jīng)網(wǎng)絡(luò)或者集群神經(jīng)網(wǎng)絡(luò)算法繼續(xù)評估所提出的類別不平衡數(shù)據(jù)對來自各個領(lǐng)域的海量數(shù)據(jù)集的影響。另外,我們還希望將所提出的方法擴展到數(shù)字特征,使用高斯分布建模等。

      猜你喜歡
      福特權(quán)值機器
      一種融合時間權(quán)值和用戶行為序列的電影推薦模型
      機器狗
      探索未知——2022款福特BRONCO EVERGLADES
      世界汽車(2022年3期)2022-05-23 13:42:10
      機器狗
      福特領(lǐng)裕
      汽車觀察(2021年11期)2021-04-24 20:47:38
      福特EVOS
      汽車觀察(2021年11期)2021-04-24 20:47:38
      CONTENTS
      未來機器城
      電影(2018年8期)2018-09-21 08:00:06
      基于權(quán)值動量的RBM加速學(xué)習(xí)算法研究
      無敵機器蛛
      舒城县| 通州区| 上虞市| 兴安县| 大田县| 湘潭县| 东莞市| 易门县| 福建省| 汾西县| 互助| 佳木斯市| 沙雅县| 合作市| 湖南省| 靖西县| 临沂市| 镇赉县| 浦北县| 南岸区| 烟台市| 奇台县| 金川县| 千阳县| 织金县| 榆中县| 高淳县| 南京市| 壤塘县| 锦屏县| 苍梧县| 抚州市| 西和县| 岚皋县| 保定市| 额尔古纳市| 聂荣县| 台北县| 搜索| 南澳县| 西乌|