• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      不平衡數(shù)據(jù)分類(lèi)問(wèn)題解決辦法

      2018-02-26 07:53季晨雨
      電子技術(shù)與軟件工程 2018年15期
      關(guān)鍵詞:采樣分類(lèi)

      季晨雨

      摘要

      不平衡數(shù)據(jù)分類(lèi)是指數(shù)據(jù)集中某一類(lèi)的樣本數(shù)量遠(yuǎn)小于其他類(lèi)的樣本數(shù)量。由于傳統(tǒng)分類(lèi)算法在設(shè)計(jì)時(shí),通常假定用于訓(xùn)練的數(shù)據(jù)集各類(lèi)樣本數(shù)大致相等,所以利用傳統(tǒng)的分類(lèi)方法對(duì)數(shù)據(jù)集進(jìn)行分類(lèi)時(shí),會(huì)出現(xiàn)少數(shù)類(lèi)的分類(lèi)準(zhǔn)確率較低的問(wèn)題因此,如何解決不平衡數(shù)據(jù)分類(lèi)問(wèn)題是數(shù)據(jù)挖掘研究領(lǐng)域的一個(gè)熱點(diǎn)和難點(diǎn)。本文對(duì)不平衡數(shù)據(jù)分類(lèi)問(wèn)題進(jìn)行了研究,從數(shù)據(jù)層面、算法層面、評(píng)價(jià)指標(biāo)三個(gè)層面分別對(duì)目前存在的各種解決不平衡數(shù)據(jù)分類(lèi)問(wèn)題的方法進(jìn)行介紹及比較,最后指出了不平衡數(shù)據(jù)分類(lèi)在未來(lái)研究中的值得關(guān)注的一些研究方向。

      【關(guān)鍵詞】分類(lèi) 不平衡數(shù)據(jù) 采樣 集成學(xué)習(xí)

      1 引言

      不平衡數(shù)據(jù)分類(lèi)問(wèn)題,是指數(shù)據(jù)集中某類(lèi)樣本的數(shù)目遠(yuǎn)遠(yuǎn)少于其他類(lèi)的樣本數(shù)目,即樣本分布不平衡。由于傳統(tǒng)分類(lèi)算法在設(shè)計(jì)時(shí),通常假定用于訓(xùn)練的數(shù)據(jù)集各類(lèi)樣本數(shù)大致相等,所以利用傳統(tǒng)的分類(lèi)方法對(duì)數(shù)據(jù)集進(jìn)行分類(lèi)時(shí),會(huì)出現(xiàn)少數(shù)類(lèi)的分類(lèi)準(zhǔn)確率較低的情況。然而,在現(xiàn)實(shí)生活中,我們往往關(guān)注的是少數(shù)類(lèi)樣本是否能被正確分類(lèi)。例如在信用卡欺詐識(shí)別中,屬于欺詐行為的交易樣本的數(shù)量要遠(yuǎn)遠(yuǎn)小于正常交易的樣本數(shù)量,屬于不平衡分類(lèi)問(wèn)題,且關(guān)注的重點(diǎn)是欺詐行為的交易樣本能否被正確識(shí)別。

      在實(shí)際應(yīng)用中,還有許多分類(lèi)問(wèn)題,屬于不平衡分類(lèi)問(wèn)題,比如網(wǎng)絡(luò)入侵檢測(cè),醫(yī)療疾病診斷、客戶流失預(yù)測(cè)、廣告點(diǎn)擊預(yù)測(cè)、衛(wèi)星圖像油井噴發(fā)檢測(cè)等等。

      2 不平衡數(shù)據(jù)分類(lèi)問(wèn)題解決辦法

      不平衡數(shù)據(jù)的分類(lèi)器性能較差的原因主要包括絕對(duì)樣本缺失、相對(duì)樣本缺失,評(píng)價(jià)指標(biāo)選取不當(dāng),噪聲數(shù)據(jù)影響,不恰當(dāng)?shù)臍w納偏置以及分而治之的分類(lèi)算法帶來(lái)的數(shù)據(jù)碎片問(wèn)題。

      解決不平衡數(shù)據(jù)分類(lèi)問(wèn)題,可以從數(shù)據(jù)、算法、評(píng)價(jià)指標(biāo)三個(gè)層面著手。

      2.1 從數(shù)據(jù)的角度

      通過(guò)改變?cè)紨?shù)據(jù)集的樣本分布,采用過(guò)采樣方法或欠采樣方法,即對(duì)少數(shù)類(lèi)樣本數(shù)目進(jìn)行增加或?qū)Χ鄶?shù)類(lèi)樣本數(shù)目進(jìn)行減少,使不平衡數(shù)據(jù)集的正負(fù)類(lèi)樣本數(shù)達(dá)到平衡。欠采樣包括隨機(jī)欠采樣,即隨機(jī)選擇部分多數(shù)類(lèi)樣本作為訓(xùn)練集中的多數(shù)類(lèi)樣本,但隨機(jī)選擇多數(shù)類(lèi)樣本會(huì)使整個(gè)數(shù)據(jù)集多數(shù)類(lèi)的信息不完整,可能丟失一些很重要的多數(shù)類(lèi)樣本,比如一些恰好處于決策邊界的樣本,對(duì)決策邊界的確定有很大影響。因此又提出了根據(jù)少數(shù)類(lèi)樣本相鄰的多數(shù)類(lèi)樣本來(lái)訓(xùn)練決策邊界。隨機(jī)過(guò)采樣作為最簡(jiǎn)單的過(guò)采樣方法,生成的樣本和原數(shù)據(jù)集的相似程度過(guò)大,可能會(huì)出現(xiàn)比較嚴(yán)重的過(guò)擬合問(wèn)題,為了避免這一問(wèn)題,提出了樣本生成技術(shù)SMOTE。但是由于SMOTE在生成新樣本時(shí)沒(méi)有參考多數(shù)類(lèi)樣本,因此可能會(huì)出現(xiàn)新生成的樣本與原有的多數(shù)類(lèi)樣本發(fā)生重疊的現(xiàn)象。Borderline-SMOTE方法通過(guò)區(qū)分邊界樣本、安全樣本和噪聲樣本,僅對(duì)邊界少數(shù)類(lèi)樣本進(jìn)行過(guò)采樣,有利于識(shí)別多數(shù)類(lèi)和少數(shù)類(lèi)的決策邊界。

      2.2 在算法上

      修改己有的分類(lèi)器,使之適應(yīng)不平衡數(shù)據(jù)的特征。主要包括代價(jià)敏感分類(lèi)器,集成學(xué)習(xí)等方法。代價(jià)敏感分類(lèi)器區(qū)分少數(shù)類(lèi)樣本和多數(shù)類(lèi)樣本誤分代價(jià),對(duì)少數(shù)類(lèi)樣本誤分將付出更大代價(jià)。集成學(xué)習(xí)是在訓(xùn)練集上訓(xùn)練多個(gè)分類(lèi)模型,預(yù)測(cè)時(shí)根據(jù)每個(gè)分類(lèi)器的分類(lèi)結(jié)果進(jìn)行投票,得到最終的預(yù)測(cè)結(jié)果。常用的組合方法,包括Bagging,Boosting以及隨機(jī)森林等。

      SMOTEBoost算法是一種通過(guò)將SMOTE與Boosting技術(shù)融合來(lái)處理類(lèi)不平衡問(wèn)題的方法,相比于傳統(tǒng)的Boosting算法通過(guò)改變每一個(gè)樣本的權(quán)重調(diào)整訓(xùn)練集樣本的分布策略,SMOTEBoosting算法利用SMOTE過(guò)采樣來(lái)增加新的少數(shù)類(lèi)樣本來(lái)改變樣本的分布。

      J.V.Hulse等人對(duì)EasyEnsemble、Partition和RUSBoost二種方法進(jìn)行了對(duì)比和驗(yàn)證,實(shí)驗(yàn)證明這二種算法與RUS算法相比,在不平衡數(shù)據(jù)集分類(lèi)問(wèn)題上表現(xiàn)更好。P.Yao針對(duì)傳統(tǒng)的分類(lèi)方法沒(méi)有區(qū)別對(duì)待多數(shù)類(lèi)樣本與少數(shù)類(lèi)樣本的不足之處,提出了對(duì)C4.5支持向量化模型進(jìn)行加權(quán)的算法。X.Y.Liu等人基于欠抽樣法的不足,提出了兩種欠抽樣法的改進(jìn)算法EasyEnsemble和BalancdCascadeoEasyEnsemble算法多次利用隨機(jī)欠抽樣生成多個(gè)訓(xùn)練子集來(lái)構(gòu)建分類(lèi)子模型,再將構(gòu)建的分類(lèi)子模型組成最終的分類(lèi)模型;BalancedCascade算法依靠分類(lèi)器反復(fù)預(yù)測(cè)訓(xùn)練集,將預(yù)測(cè)正確的多數(shù)類(lèi)樣本去除生成新的訓(xùn)練集,再通過(guò)新訓(xùn)練集訓(xùn)練新分類(lèi)器,經(jīng)過(guò)多次重復(fù)訓(xùn)練形成最終分類(lèi)器。潘俊等人通過(guò)減少過(guò)擬合及控制少數(shù)類(lèi)的F-measure值來(lái)改進(jìn)Boosting算法,提出了一種改進(jìn)算法RIFBoost。

      2.3 從評(píng)價(jià)指標(biāo)上

      分類(lèi)模型的評(píng)價(jià)指標(biāo)包括:

      (1)正確率(Precision),TP/(TP+FP),給出的是預(yù)測(cè)為正類(lèi)的樣本中實(shí)際為正樣本的比例。

      (2)召回率(Recall),又稱(chēng)查全率,TP/(TP+FN),給出的是預(yù)測(cè)為正類(lèi)的真實(shí)正樣本占所有真實(shí)正樣本的比例。

      (3)準(zhǔn)確率(accuracy),(TP+TN)/(P+N),即模型預(yù)測(cè)正確的樣本占所有樣本的比例

      傳統(tǒng)的分類(lèi)模型通常使用模型的準(zhǔn)確率進(jìn)行評(píng)估。分類(lèi)模型的準(zhǔn)確率反映了分類(lèi)模型對(duì)數(shù)據(jù)集整體的分類(lèi)性能。但只使用準(zhǔn)確率來(lái)衡量對(duì)不平衡數(shù)據(jù)集的分類(lèi)效果,并不能反映對(duì)少數(shù)類(lèi)的分類(lèi)性能。利用少數(shù)類(lèi)的召回率(查全率)可以反映正確判別的少數(shù)類(lèi)占所有少數(shù)類(lèi)的比例。F1分?jǐn)?shù)同時(shí)考慮了分類(lèi)模型的準(zhǔn)確率和召回率,是處理不平衡數(shù)據(jù)分類(lèi)問(wèn)題時(shí)的有效評(píng)價(jià)指標(biāo)。

      F1分?jǐn)?shù)可以看作是模型準(zhǔn)確率和召回率的一種加權(quán)平均,F(xiàn)1分?jǐn)?shù)的分布在0-1之間。

      還可以采用ROC曲線下的面積AUC作為評(píng)價(jià)指標(biāo)。因?yàn)镽OC曲線有一個(gè)很好的性能,當(dāng)測(cè)試集中的正負(fù)樣本的分布變化時(shí),ROC曲線能夠保持不變,因此適合作為不平衡數(shù)據(jù)集分類(lèi)時(shí)的評(píng)價(jià)指標(biāo)。

      ROC曲線是一系列threshold下的(FPR,TPR)數(shù)值點(diǎn)的連線。

      其中,

      AUC被定義為ROC曲線下的面積,使用AUC值作為評(píng)價(jià)標(biāo)準(zhǔn)是因?yàn)楹芏鄷r(shí)候ROC曲線并不能清晰的說(shuō)明哪個(gè)分類(lèi)器的效果更好,而作為一個(gè)數(shù)值,對(duì)應(yīng)AUC更大的分類(lèi)器效果更好

      3 總結(jié)

      本文對(duì)不平衡數(shù)據(jù)分類(lèi)問(wèn)題進(jìn)行了研究,從數(shù)據(jù)層面、算法層面、評(píng)價(jià)指標(biāo)二個(gè)層面分別對(duì)目前存在的各種解決不平衡數(shù)據(jù)分類(lèi)問(wèn)題的方法進(jìn)行介紹及比較。對(duì)于不平衡數(shù)據(jù)集分類(lèi)問(wèn)題,以后的研究可以從以下幾個(gè)方面進(jìn)行:

      (1)當(dāng)前的研究大多著眼于采樣方法、決策樹(shù)、支持向量機(jī)算法以及Boosting等集成方法,很少?gòu)钠渌麄鹘y(tǒng)分類(lèi)算法的原理入手研究傳統(tǒng)分類(lèi)算法如何處理不平衡數(shù)據(jù)分類(lèi)問(wèn)題,因此如何利用決策樹(shù),支持向量機(jī)之外的傳統(tǒng)分類(lèi)算法解決不平衡數(shù)據(jù)分類(lèi)問(wèn)題有待研究;

      (2)不平衡數(shù)據(jù)分類(lèi)問(wèn)題的研究大多是針一對(duì)類(lèi)間樣本數(shù)目不平衡的問(wèn)題而很少關(guān)注類(lèi)內(nèi)樣本數(shù)目不平衡問(wèn)題,因此可以圍繞類(lèi)內(nèi)樣本的不平衡問(wèn)題進(jìn)行研究。

      參考文獻(xiàn)

      [1]李元菊.數(shù)據(jù)不平衡分類(lèi)研究綜述[J].現(xiàn)代計(jì)算機(jī),2016(04):30-33.

      [2]陳湘濤,高亞靜.不平衡數(shù)據(jù)分類(lèi)研究綜述[J].邵陽(yáng)學(xué)院學(xué)報(bào)(自然科學(xué)版),2017,14(02):1-11.

      [3]溫雪巖,陳家男,景維鵬等.面向不平衡數(shù)據(jù)集分類(lèi)模型的優(yōu)化研究[J].計(jì)算機(jī)工程,2018,44(04).

      [4]易未,毛力,孫俊,改進(jìn)Smote算法在不平衡數(shù)據(jù)集上的分類(lèi)研究[J].計(jì)算機(jī)與現(xiàn)代化,2018(03).

      [5]徐麗麗.面向不平衡數(shù)據(jù)集的分類(lèi)算法研究[D].遼寧師范大學(xué),2016.

      [6]葉楓,丁鋒.不平衡數(shù)據(jù)分類(lèi)研究及其應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2018(01):132-136.

      猜你喜歡
      采樣分類(lèi)
      分類(lèi)算一算
      垃圾分類(lèi)的困惑你有嗎
      分類(lèi)討論求坐標(biāo)
      數(shù)據(jù)分析中的分類(lèi)討論
      基層動(dòng)物抗體監(jiān)測(cè)采樣注意事項(xiàng)
      都兰县| 洱源县| 许昌市| 女性| 四川省| 内江市| 聂拉木县| 澄迈县| 台安县| 琼中| 云龙县| 招远市| 泰州市| 阿鲁科尔沁旗| 浮山县| 沐川县| 佛教| 南城县| 白玉县| 盘山县| 金阳县| 绥中县| 兴文县| 天气| 天津市| 靖安县| 方城县| 合肥市| 库尔勒市| 措美县| 湘潭县| 青阳县| 阜阳市| 江油市| 石景山区| 修文县| 辽中县| 印江| 乐清市| 台前县| 泰州市|