• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)挖掘中離群點(diǎn)檢測(cè)的非參數(shù)方法研究

      2013-09-18 10:30:56李志云
      微型電腦應(yīng)用 2013年8期
      關(guān)鍵詞:離群事務(wù)直方圖

      李志云

      0 引言

      離群點(diǎn)檢測(cè)(又稱為異常檢測(cè))是找出其行為很不同于預(yù)期對(duì)象的過(guò)程。這種對(duì)象稱為離群點(diǎn)或異常。除欺詐檢測(cè)外,離群點(diǎn)檢測(cè)在許多應(yīng)用中都是重要的,如醫(yī)療處理、公共安全、工業(yè)損毀檢測(cè)、圖像處理、傳感器/視頻網(wǎng)絡(luò)監(jiān)視和入侵檢測(cè)。

      離群點(diǎn)檢測(cè)和聚類分析是兩項(xiàng)高度相關(guān)的任務(wù)。聚類發(fā)現(xiàn)數(shù)據(jù)集中的多數(shù)模式并據(jù)此組織數(shù)據(jù),而離群點(diǎn)檢測(cè)則試圖捕獲那些顯著偏離多數(shù)模式的異常情況。離群點(diǎn)檢測(cè)和聚類服務(wù)于不同的目的。

      1 離群點(diǎn)

      假定使用一個(gè)給定的統(tǒng)計(jì)過(guò)程來(lái)產(chǎn)生數(shù)據(jù)對(duì)象集。離群點(diǎn)(outlier)是一個(gè)數(shù)據(jù)對(duì)象,它顯著不同于其他數(shù)據(jù)對(duì)象,好像它是被不同的機(jī)制產(chǎn)生的一樣,如圖1所示:

      圖1 區(qū)域R中的對(duì)象是離群點(diǎn)

      大部分對(duì)象都粗略地服從高斯分布。然而,區(qū)域 R中的對(duì)象顯著不同。它不太可能與數(shù)據(jù)集中的其他對(duì)象服從相同的分布。因此,在該數(shù)據(jù)集中,R中的對(duì)象是離群點(diǎn)。

      離群點(diǎn)不同于噪聲數(shù)據(jù)。噪聲是被觀測(cè)變量的隨機(jī)誤差或方差。一般而言,噪聲在數(shù)據(jù)分析(包括離群點(diǎn)分析)中不是令人感興趣的。離群點(diǎn)是有趣的,因?yàn)閼岩僧a(chǎn)生它們的機(jī)制不同于產(chǎn)生其他數(shù)據(jù)的機(jī)制。因此,在離群點(diǎn)檢測(cè)時(shí),重要的是搞清楚為什么檢測(cè)到的離群點(diǎn)被某種機(jī)制產(chǎn)生。通常這樣做,在其余數(shù)據(jù)上做各種假設(shè),并且證明檢測(cè)到的離群點(diǎn)顯著違反了這些假設(shè)。離群點(diǎn)通??梢苑殖?類:全局離群點(diǎn)、情境(或條件)離群點(diǎn)和集體離群點(diǎn)。離群點(diǎn)檢測(cè)方法可以分為兩類:一類是根據(jù)用于分析的數(shù)據(jù)樣本是否具有領(lǐng)域?qū)<姨峁┑摹⒖梢杂脕?lái)構(gòu)建離群點(diǎn)檢測(cè)模型的標(biāo)號(hào),對(duì)離群點(diǎn)檢測(cè)方法進(jìn)行分類;一類是根據(jù)各方法關(guān)于正常對(duì)象和離群點(diǎn)的假定,對(duì)各方法分組。如果可以得到專家標(biāo)記的正常和離群點(diǎn)對(duì)象實(shí)例,則可以使用它們建立離群點(diǎn)檢測(cè)模型,所使用的方法可以劃分成監(jiān)督方法、半監(jiān)督和無(wú)監(jiān)督方法。如果對(duì)離群點(diǎn)檢測(cè)方法對(duì)離群點(diǎn)與其余數(shù)據(jù)做出假定,根據(jù)所做的假定,可以把離群點(diǎn)檢測(cè)方法分為3類:統(tǒng)計(jì)學(xué)方法、基于鄰近性的方法和基于聚類的方法。本文就統(tǒng)計(jì)學(xué)方法提出一種非參數(shù)方法檢測(cè)離群點(diǎn)。

      2 離群點(diǎn)檢測(cè)的非參數(shù)方法

      非參數(shù)方法并不假定先驗(yàn)統(tǒng)計(jì)模型,而是試圖從輸入數(shù)據(jù)確定模型。非參數(shù)方法通常假定參數(shù)的個(gè)數(shù)和性質(zhì)都是靈活的,不預(yù)先確定。

      可以使用直方圖作為非參數(shù)統(tǒng)計(jì)模型來(lái)捕獲離群點(diǎn)。使用直方圖表示了每個(gè)顧客事務(wù)的購(gòu)買金額,圖中60%事務(wù)的購(gòu)買金額為0~1000美元。按直方圖所示,一個(gè)購(gòu)買金額為7500美元的事務(wù)可能被視為離群點(diǎn),因?yàn)橹挥?1-(60%+20%+10%+6.7%+3.1%)=0.2%事務(wù)的購(gòu)買量超過(guò)5000美元。另一方面,購(gòu)買量為385美元的事務(wù)可以看做正常的,因?yàn)樗淙氚?0%事務(wù)的箱中,如圖2所示:

      圖2 每個(gè)事務(wù)購(gòu)買量的直方圖

      使用直方圖檢測(cè)離群點(diǎn)的步驟如下:

      第一步:構(gòu)造直方圖。使用輸入數(shù)據(jù)構(gòu)造一個(gè)直方圖,該直方圖可以是一元的,也可以是多元的。

      第二步:檢測(cè)離群點(diǎn)。為了確定一個(gè)對(duì)象o是否是離群點(diǎn),可以對(duì)照直方圖檢查它。在最簡(jiǎn)單的方法中,如果該對(duì)象落入直方圖的一個(gè)箱中,則該對(duì)象被看做正常的,否則被認(rèn)為是離群點(diǎn)。

      使用直方圖作為離群點(diǎn)檢測(cè)的非參數(shù)模型的一個(gè)缺點(diǎn)是,很難選擇一個(gè)合適的箱尺寸。一方面,如果箱尺寸太小,則許多正常對(duì)象都會(huì)落入空的或稀疏箱,因而被誤識(shí)別為離群點(diǎn)。這將導(dǎo)致很高的假正例率和低精度。另一方面,如果箱尺寸太大,則離群點(diǎn)對(duì)象可能滲入某些頻繁的箱中,因而“假扮”成正常的。這將導(dǎo)致很高的假負(fù)例率和低召回率。

      為了解決這些問(wèn)題,可以采用核密度估計(jì)數(shù)據(jù)的概率密度分布。把每個(gè)觀測(cè)對(duì)象看做一個(gè)周圍區(qū)域中的高概率密度指示子。一個(gè)點(diǎn)上的概率密度依賴于該點(diǎn)到觀測(cè)對(duì)象的距離。使用核函數(shù)對(duì)樣本點(diǎn)對(duì)其鄰域內(nèi)的影響建模。核函數(shù)K()是一個(gè)非負(fù)實(shí)數(shù)值可積函數(shù),滿足如下兩個(gè)條件,如公式(1)、公式(2)

      一個(gè)頻繁使用的核函數(shù)是均值為0,方差為1的標(biāo)準(zhǔn)高斯函數(shù):

      設(shè)x1,…,xn是隨機(jī)變量f的獨(dú)立的、同分布的樣本。該概率密度函數(shù)的核函數(shù)近似為:

      其中,K()是核函數(shù);h是帶寬,充當(dāng)光滑參數(shù)。

      一旦通過(guò)核密度估計(jì)近似數(shù)據(jù)集的概率密度函數(shù),就可以使用估計(jì)的密度函數(shù) f來(lái)檢測(cè)離群點(diǎn)。對(duì)于對(duì)象 o,f(o)給出該對(duì)象被隨機(jī)過(guò)程產(chǎn)生的估計(jì)概率。如果f(o)大,則該對(duì)象可能是正常的;否則,o可能是離群點(diǎn)。這一步通常與參數(shù)方法的對(duì)應(yīng)步驟類似。

      4 總結(jié)

      離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法由數(shù)據(jù)學(xué)習(xí)模型,以區(qū)別正常的數(shù)據(jù)對(duì)象和離群點(diǎn)。使用統(tǒng)計(jì)學(xué)方法的一個(gè)優(yōu)點(diǎn)是,離群點(diǎn)檢測(cè)可以是統(tǒng)計(jì)上無(wú)可非議的。當(dāng)然,僅當(dāng)對(duì)數(shù)據(jù)所做的統(tǒng)計(jì)假定滿足實(shí)際約束時(shí)才為真。通常,非參數(shù)方法對(duì)數(shù)據(jù)做較少的假定,因而在更多情況下都可以使用。

      [1]Jiawei Han,Micheline Kamber等. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機(jī)械工業(yè)出版社,2012

      [2]潘章明,陳尹立. 基于共享反K近鄰的局部離群點(diǎn)檢測(cè)算法[J]. 計(jì)算機(jī)仿真.2013(2)269-271

      [3]劉耀宗,張宏等. 基于小波密度估計(jì)的數(shù)據(jù)流離群點(diǎn)檢測(cè)[J]. 計(jì)算機(jī)工程.2013(2)178-179

      [4]古平,劉海波等. 一種基于多重聚類的離群點(diǎn)檢測(cè)算法[J]. 計(jì)算機(jī)應(yīng)用研究.2013(3)751-753

      [5]趙潔. 統(tǒng)計(jì)模型中幾種異常點(diǎn)檢測(cè)方法簡(jiǎn)介[J].吉林教育. 2013(14)10-12

      [6]李龍姣,程國(guó)達(dá). 基于直方圖和 FP增長(zhǎng)的高維空間離群點(diǎn)挖掘[J].計(jì)算機(jī)與現(xiàn)代化.2013(1)47-49

      [7]王玉琳,薛安榮. 基于橢球模型的無(wú)線傳感器網(wǎng)絡(luò)的局部離群點(diǎn)檢測(cè)[J].計(jì)算機(jī)應(yīng)用研究.2013(2)547-549

      猜你喜歡
      離群事務(wù)直方圖
      統(tǒng)計(jì)頻率分布直方圖的備考全攻略
      “事物”與“事務(wù)”
      基于分布式事務(wù)的門架數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      符合差分隱私的流數(shù)據(jù)統(tǒng)計(jì)直方圖發(fā)布
      河湖事務(wù)
      用直方圖控制畫(huà)面影調(diào)
      離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
      基于直方圖平移和互補(bǔ)嵌入的可逆水印方案
      離群的小雞
      應(yīng)用相似度測(cè)量的圖離群點(diǎn)檢測(cè)方法
      岗巴县| 南郑县| 桂东县| 延边| 宁化县| 湛江市| 察哈| 乌拉特中旗| 廉江市| 郯城县| 乌拉特后旗| 万荣县| 易门县| 榕江县| 遵义市| 湘阴县| 元谋县| 宁德市| 鄯善县| 禄丰县| 四子王旗| 沧州市| 汉川市| 得荣县| 剑河县| 荔浦县| 马山县| 龙陵县| 苏尼特左旗| 博兴县| 金山区| 防城港市| 赣州市| 普宁市| 资阳市| 宁波市| 巧家县| 苍溪县| 汨罗市| 东乌珠穆沁旗| 吉隆县|