• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于R的過采樣方法在非平衡數(shù)據(jù)中的應(yīng)用

      2012-09-19 03:44:50蘇加強丁柳云
      常州工學(xué)院學(xué)報 2012年6期
      關(guān)鍵詞:樸素貝葉斯報表

      蘇加強 丁柳云

      (1.寧德職業(yè)技術(shù)學(xué)院計算機系,福建 寧德 355000;2.寧德職業(yè)技術(shù)學(xué)院教務(wù)處,福建 寧德 355000)

      1 背景

      R是一個有著統(tǒng)計分析功能及強大制圖功能的軟件系統(tǒng),是由奧克蘭大學(xué)統(tǒng)計學(xué)系的Ross Ihaka和Robert Gentleman共同創(chuàng)立的。該軟件屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件,用于統(tǒng)計計算和統(tǒng)計制圖。R以包的形式內(nèi)建多種統(tǒng)計學(xué)及數(shù)字分析功能,透過安裝套件Packages增強。KDnuggets曾調(diào)查了實際項目使用了哪些數(shù)據(jù)挖掘軟件,底層語言使用頻率最高的依舊是 R語言、SQL、Java和Python。而從軟件工具角度上看,R、Excel和RapidMiner則名列三甲。

      傳統(tǒng)的分類實驗中,都假定學(xué)習(xí)的數(shù)據(jù)集為分布平衡的,即數(shù)據(jù)集中各類樣本的數(shù)目大體一致。但是在現(xiàn)實情況中平衡數(shù)據(jù)集幾乎是不存在的。在真實世界中,通常標號不同的類所含有的樣本數(shù)目是不等的,甚至有著很大的差別,這樣的數(shù)據(jù)集為不平衡數(shù)據(jù)集。

      在不平衡數(shù)據(jù)集的分類學(xué)習(xí)過程中,少數(shù)類樣本被誤分的幾率通常要高于多數(shù)類。現(xiàn)實應(yīng)用中,少數(shù)類樣本通常比多數(shù)類樣本重要,故少數(shù)類被誤分所帶來的損失相對較大。因此,對不平衡數(shù)據(jù)分類的研究就致力于提高數(shù)據(jù)集中少數(shù)類的識別效率,以減少少數(shù)類被錯分所帶來的損失。

      2 數(shù)據(jù)挖掘任務(wù)和所用數(shù)據(jù)

      一些公司售貨員要報告商品的交易情況,公司需檢測售貨員所提交的交易情況報表中的異常值,目的是檢查售貨員所提交的交易報表中的異?,F(xiàn)象,給出一種異常概率排序,該排序可以讓公司以優(yōu)化的方法應(yīng)用于檢查工作。售貨員出售公司產(chǎn)品,每月末,售貨員需向公司提交交易情況。售貨員可以根據(jù)營銷策略和市場情況自由設(shè)定產(chǎn)品的交易價格。數(shù)據(jù)挖掘應(yīng)用的目的是幫助公司根據(jù)過去的檢測錯誤和異常交易報表的經(jīng)驗來核實報表的真實性,提供交易報表異常概率排序,此排序使公司將有限的檢查資源用于系統(tǒng)給出的可疑報表。

      如,以某公司售貨員提交的交易報表為分析數(shù)據(jù),數(shù)據(jù)總共401 146行,每行信息包括售貨員ID(ID)、產(chǎn)品 ID(Prod)、產(chǎn)品數(shù)量(Quant)和總價(Val)。這些數(shù)據(jù)已經(jīng)通過公司的一些分析,并把分析的結(jié)果顯示在最后一列(Insp)。Insp可能有以下情況:ok,即交易被檢查并認為有效;fraud,即交易被發(fā)現(xiàn)是異常的;unkn,即交易未檢查。

      R語言中提供一個包DMwR,里面有需要的數(shù)據(jù)。首先通過以下命令加載包和數(shù)據(jù)。

      然后查看sales數(shù)據(jù)的前6行,如表1所示。

      表1 實驗所用數(shù)據(jù)結(jié)構(gòu)

      數(shù)據(jù)集報表中正常和異常的比例非常不平衡,異常報表為少數(shù),只有8.1%。在獲取預(yù)測模型的任務(wù)中,這種類型的問題可以導(dǎo)致各種困難。首先,它們需要恰當?shù)脑u定指標,因為本領(lǐng)域中標準誤差是明顯不足的。實際上,應(yīng)用可較易得到大約90%的精確度。類型不平衡的另一問題是對缺少統(tǒng)計的支持而趨向忽略少數(shù)類的學(xué)習(xí)算法的性能有強烈的影響。應(yīng)用中,重點研究對象是不平衡數(shù)據(jù)集中的少數(shù)樣本時,就特別成問題。

      3 樸素貝葉斯和ORh方法

      3.1 樸素貝葉斯

      樸素貝葉斯(Naive Bayes)是基于貝葉斯定理的概率分類器,其嚴格限定預(yù)測器之間的獨立性。這些限定很少適用于真實世界的問題,所以命名為樸素。

      貝葉斯定理:

      使用這一定理,樸素貝葉斯分類器用式(2)計算給定測試集用例每個類的概率:

      c為一個類;X1,…,Xp為給定測試用例預(yù)測器的觀察值;P(c)的概率可以視為類c的先驗期望;P(X1,…,Xp|c)是類c中給定測試用例的似然;分母是觀察證據(jù)的概率。用式(2)計算所有可能的類的值來判定測試用例的最可能的類,這一判定取決于式(2)的分子,因為分母在所有的用例中是常量。利用條件概率和預(yù)測器間樸素的條件獨立的統(tǒng)計定義,把分數(shù)的分子變?yōu)?

      樸素貝葉斯使用相對頻率評價訓(xùn)練樣本的概率,使用這些評價,根據(jù)式(2)輸出每個測試用例的類概率。

      R有幾種方法實現(xiàn)樸素貝葉斯方法,它們分別是:使用包e1071中的函數(shù)Naive Bayes();使用樸素貝葉斯來獲得報表測試集的排序值;使用給定訓(xùn)練樣本中檢查過的報表來建立一個樸素貝葉斯模型。

      從Hold-out程序中調(diào)用函數(shù),獲得樸素貝葉斯預(yù)測器的選擇評價統(tǒng)計。

      最后,調(diào)用holdOut()函數(shù)來執(zhí)行此模型的實驗。

      3.2 ORh方法

      基于聚類算法ORh方法,使用層次凝聚聚類算法來獲得給定數(shù)據(jù)的系統(tǒng)樹圖,系統(tǒng)樹圖是聚類方法融合過程的可視化表現(xiàn)形式。不同高度等級的消減樹產(chǎn)生數(shù)據(jù)的不同聚類,在最低等級有個解,給定的訓(xùn)練集數(shù)據(jù)中每個觀察值都是一個組,這是這個模型迭代算法的初始解。算法的下一步是決定前面第一步中哪兩組合并成一個簡單聚類,這個融合過程被試圖把彼此間有相似性放到一起的準則操縱,直到所有觀察值的最后兩組被合并成一個簡單聚類迭代過程才停止,基本包stats中函數(shù)hclust()實現(xiàn)了這種類型的聚類方法。

      樸素貝葉斯模型對10%檢查結(jié)果如表2所示。

      表2 樸素貝葉斯模型對10%檢查結(jié)果

      與未監(jiān)督式ORh方法獲取的最好的分數(shù)相比,就查準率和查全率而言結(jié)果不理想。圖1清晰地顯示,在本應(yīng)用中,樸素貝葉斯方法劣于ORh方法。

      圖1 樸素貝葉斯和ORh性能對比圖

      4SMOTE算法及應(yīng)用

      用于幫助學(xué)習(xí)算法克服類型不平衡問題的技術(shù)通??蓺w為兩類:一類是傾向于用對少數(shù)類采樣敏感的特別的評定指標評定學(xué)習(xí)過程;另一類是處理訓(xùn)練數(shù)據(jù)來改變類型分布的采樣方法。在使用監(jiān)督式分類方法的嘗試中,使用第二類方法。

      有多種采樣方法可以改變一個數(shù)據(jù)集的類型不平衡。如,欠采樣方法(Under-sampling methods),即選擇多數(shù)類的一小部分,并添加到少數(shù)類用例中,因此建立一個平衡類分布的數(shù)據(jù)集;過采樣(Over-sampling),即用一些方法來重復(fù)少數(shù)類采樣。然而以上方法的許多變種已經(jīng)存在。由Chawla等人提出的SMOTE(Synthetic Minority O-ver-sampling Technique)算法是一種成功的采樣方法,該方法的主要思想是利用k近鄰和線性插值,在相距較近的兩少數(shù)類樣本間按照一定的規(guī)則人為地插入新的樣本,以達到使少數(shù)類樣本數(shù)目增加,數(shù)據(jù)集趨于平衡的目的?;舅枷胧怯脴永淖罱従尤藶榈禺a(chǎn)生少數(shù)類的新樣本,而且多數(shù)類樣例也是欠采樣的,產(chǎn)生一個平衡的數(shù)據(jù)集。

      使用函數(shù)SMOTE()實現(xiàn)這種采樣方法,給定一個不平衡的采樣,此函數(shù)產(chǎn)生一個較平衡類分布的新的數(shù)據(jù)集。

      用iris創(chuàng)建一個帶有兩個預(yù)測變量和一個未平衡類分布的目標變量的人工數(shù)據(jù)集。調(diào)用函數(shù)SMOTE()時,變量perc.over賦值為600,即在屬于少數(shù)類的初始數(shù)據(jù)集的每個用例中創(chuàng)建6個采樣。這些新的用例通過用例和其最近領(lǐng)域之間的隨機插值創(chuàng)建。圖2為原始數(shù)據(jù)信和使用SMOTE后的數(shù)據(jù)集。

      圖2 原始數(shù)據(jù)集和使用SMOTE后的數(shù)據(jù)集圖

      在監(jiān)督式分類算法中,使用此方法的變形。首先用SMOTE方法獲取的訓(xùn)練集來應(yīng)用樸素貝葉斯分類器,然后用修改后的訓(xùn)練集應(yīng)用于navieBayes()函數(shù)來獲得異常值排序。

      下面的語句獲得SMOTE版本的樸素貝葉斯Hold-out評價。

      5 結(jié)果評價

      此版本樸素貝葉斯模型對10%檢查的結(jié)果如表3所示。

      表3 SMOTE方法的樸素貝葉斯模型檢查結(jié)果

      此結(jié)果與正常樸素貝葉斯結(jié)果基本相同,結(jié)果稍好,但仍低于未監(jiān)督式方法的最好結(jié)果。盡管SMOTE方法對少數(shù)類過采樣,樸素貝葉斯依然不能正確地預(yù)測哪些是異常的報表。用圖形方式以全局的視角來查看此變種方法的性能,如圖3所示。

      圖3 性能對比圖

      SMOTE算法提出前,對非平衡數(shù)據(jù)的處理一般采用隨機采樣方法,SMOTE算法在相距較近的少數(shù)類之間人為地增加其虛擬樣本,在某種程度上規(guī)避了過學(xué)習(xí)的問題,提高了數(shù)據(jù)集的分類性能。

      [1]Chawla N.The Data Mining and Knowledge Discovery Handbook:Data Mining for Imbalanced Datasets[M].Heidelberg:Springer,2005:853 -867.

      [2]Seeger M.Technicalreport:Learning With Labeled and Unlabeled Data:Institute for Adaptive and Neural Computation[J].U-niversity of Edinburgh,2002:5 -27.

      [3]Sing T,Sander O,Beerenwinkel N.ROCR:Visualizing the Performance of Scoring Classiers.R Package Version 1.0 - 4[J].Heidelberg:Springer,2012:2 - 10.

      [4]Breunig M,Kriegel H,NG R.Management of Data:LOF:Identifying Density-based Local Outliers[M].New York ACM,2000:93-104.

      [5]Chambers J.Software for Data Analysis:Programming With R[M].Heidelberg:Springer,2008:166 -221.

      猜你喜歡
      樸素貝葉斯報表
      隔離樸素
      樸素的安慰(組詩)
      他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
      當代陜西(2019年23期)2020-01-06 12:18:04
      最神奇最樸素的兩本書
      當代陜西(2019年9期)2019-05-20 09:47:38
      LabWindows/CVI中Excel報表技術(shù)研究
      從三大報表讀懂養(yǎng)豬人的成績單
      貝葉斯公式及其應(yīng)用
      基于貝葉斯估計的軌道占用識別方法
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      IIRCT下負二項分布參數(shù)多變點的貝葉斯估計
      隆德县| 长岛县| 利辛县| 满城县| 保康县| 黔西| 额济纳旗| 慈溪市| 黔江区| 密云县| 龙南县| 泌阳县| 阿坝县| 西吉县| 尼木县| 印江| 金堂县| 麻江县| 皮山县| 温泉县| 景谷| 融水| 乐亭县| 铁岭市| 梨树县| 丹江口市| 仁化县| 柘荣县| 东阿县| 磐安县| 许昌市| 静宁县| 阳春市| 华安县| 镇沅| 绥宁县| 呼玛县| 英超| 搜索| 武冈市| 衡水市|