李志云
離群點(diǎn)檢測(cè)(又稱為異常檢測(cè))是找出其行為很不同于預(yù)期對(duì)象的過(guò)程。這種對(duì)象稱為離群點(diǎn)或異常。除欺詐檢測(cè)外,離群點(diǎn)檢測(cè)在許多應(yīng)用中都是重要的,如醫(yī)療處理、公共安全、工業(yè)損毀檢測(cè)、圖像處理、傳感器/視頻網(wǎng)絡(luò)監(jiān)視和入侵檢測(cè)。
離群點(diǎn)檢測(cè)和聚類分析是兩項(xiàng)高度相關(guān)的任務(wù)。聚類發(fā)現(xiàn)數(shù)據(jù)集中的多數(shù)模式并據(jù)此組織數(shù)據(jù),而離群點(diǎn)檢測(cè)則試圖捕獲那些顯著偏離多數(shù)模式的異常情況。離群點(diǎn)檢測(cè)和聚類服務(wù)于不同的目的。
假定使用一個(gè)給定的統(tǒng)計(jì)過(guò)程來(lái)產(chǎn)生數(shù)據(jù)對(duì)象集。離群點(diǎn)(outlier)是一個(gè)數(shù)據(jù)對(duì)象,它顯著不同于其他數(shù)據(jù)對(duì)象,好像它是被不同的機(jī)制產(chǎn)生的一樣,如圖1所示:
圖1 區(qū)域R中的對(duì)象是離群點(diǎn)
大部分對(duì)象都粗略地服從高斯分布。然而,區(qū)域 R中的對(duì)象顯著不同。它不太可能與數(shù)據(jù)集中的其他對(duì)象服從相同的分布。因此,在該數(shù)據(jù)集中,R中的對(duì)象是離群點(diǎn)。
離群點(diǎn)不同于噪聲數(shù)據(jù)。噪聲是被觀測(cè)變量的隨機(jī)誤差或方差。一般而言,噪聲在數(shù)據(jù)分析(包括離群點(diǎn)分析)中不是令人感興趣的。離群點(diǎn)是有趣的,因?yàn)閼岩僧a(chǎn)生它們的機(jī)制不同于產(chǎn)生其他數(shù)據(jù)的機(jī)制。因此,在離群點(diǎn)檢測(cè)時(shí),重要的是搞清楚為什么檢測(cè)到的離群點(diǎn)被某種機(jī)制產(chǎn)生。通常這樣做,在其余數(shù)據(jù)上做各種假設(shè),并且證明檢測(cè)到的離群點(diǎn)顯著違反了這些假設(shè)。離群點(diǎn)通??梢苑殖?類:全局離群點(diǎn)、情境(或條件)離群點(diǎn)和集體離群點(diǎn)。離群點(diǎn)檢測(cè)方法可以分為兩類:一類是根據(jù)用于分析的數(shù)據(jù)樣本是否具有領(lǐng)域?qū)<姨峁┑摹⒖梢杂脕?lái)構(gòu)建離群點(diǎn)檢測(cè)模型的標(biāo)號(hào),對(duì)離群點(diǎn)檢測(cè)方法進(jìn)行分類;一類是根據(jù)各方法關(guān)于正常對(duì)象和離群點(diǎn)的假定,對(duì)各方法分組。如果可以得到專家標(biāo)記的正常和離群點(diǎn)對(duì)象實(shí)例,則可以使用它們建立離群點(diǎn)檢測(cè)模型,所使用的方法可以劃分成監(jiān)督方法、半監(jiān)督和無(wú)監(jiān)督方法。如果對(duì)離群點(diǎn)檢測(cè)方法對(duì)離群點(diǎn)與其余數(shù)據(jù)做出假定,根據(jù)所做的假定,可以把離群點(diǎn)檢測(cè)方法分為3類:統(tǒng)計(jì)學(xué)方法、基于鄰近性的方法和基于聚類的方法。本文就統(tǒng)計(jì)學(xué)方法提出一種非參數(shù)方法檢測(cè)離群點(diǎn)。
非參數(shù)方法并不假定先驗(yàn)統(tǒng)計(jì)模型,而是試圖從輸入數(shù)據(jù)確定模型。非參數(shù)方法通常假定參數(shù)的個(gè)數(shù)和性質(zhì)都是靈活的,不預(yù)先確定。
可以使用直方圖作為非參數(shù)統(tǒng)計(jì)模型來(lái)捕獲離群點(diǎn)。使用直方圖表示了每個(gè)顧客事務(wù)的購(gòu)買金額,圖中60%事務(wù)的購(gòu)買金額為0~1000美元。按直方圖所示,一個(gè)購(gòu)買金額為7500美元的事務(wù)可能被視為離群點(diǎn),因?yàn)橹挥?1-(60%+20%+10%+6.7%+3.1%)=0.2%事務(wù)的購(gòu)買量超過(guò)5000美元。另一方面,購(gòu)買量為385美元的事務(wù)可以看做正常的,因?yàn)樗淙氚?0%事務(wù)的箱中,如圖2所示:
圖2 每個(gè)事務(wù)購(gòu)買量的直方圖
使用直方圖檢測(cè)離群點(diǎn)的步驟如下:
第一步:構(gòu)造直方圖。使用輸入數(shù)據(jù)構(gòu)造一個(gè)直方圖,該直方圖可以是一元的,也可以是多元的。
第二步:檢測(cè)離群點(diǎn)。為了確定一個(gè)對(duì)象o是否是離群點(diǎn),可以對(duì)照直方圖檢查它。在最簡(jiǎn)單的方法中,如果該對(duì)象落入直方圖的一個(gè)箱中,則該對(duì)象被看做正常的,否則被認(rèn)為是離群點(diǎn)。
使用直方圖作為離群點(diǎn)檢測(cè)的非參數(shù)模型的一個(gè)缺點(diǎn)是,很難選擇一個(gè)合適的箱尺寸。一方面,如果箱尺寸太小,則許多正常對(duì)象都會(huì)落入空的或稀疏箱,因而被誤識(shí)別為離群點(diǎn)。這將導(dǎo)致很高的假正例率和低精度。另一方面,如果箱尺寸太大,則離群點(diǎn)對(duì)象可能滲入某些頻繁的箱中,因而“假扮”成正常的。這將導(dǎo)致很高的假負(fù)例率和低召回率。
為了解決這些問(wèn)題,可以采用核密度估計(jì)數(shù)據(jù)的概率密度分布。把每個(gè)觀測(cè)對(duì)象看做一個(gè)周圍區(qū)域中的高概率密度指示子。一個(gè)點(diǎn)上的概率密度依賴于該點(diǎn)到觀測(cè)對(duì)象的距離。使用核函數(shù)對(duì)樣本點(diǎn)對(duì)其鄰域內(nèi)的影響建模。核函數(shù)K()是一個(gè)非負(fù)實(shí)數(shù)值可積函數(shù),滿足如下兩個(gè)條件,如公式(1)、公式(2)
一個(gè)頻繁使用的核函數(shù)是均值為0,方差為1的標(biāo)準(zhǔn)高斯函數(shù):
設(shè)x1,…,xn是隨機(jī)變量f的獨(dú)立的、同分布的樣本。該概率密度函數(shù)的核函數(shù)近似為:
其中,K()是核函數(shù);h是帶寬,充當(dāng)光滑參數(shù)。
一旦通過(guò)核密度估計(jì)近似數(shù)據(jù)集的概率密度函數(shù),就可以使用估計(jì)的密度函數(shù) f來(lái)檢測(cè)離群點(diǎn)。對(duì)于對(duì)象 o,f(o)給出該對(duì)象被隨機(jī)過(guò)程產(chǎn)生的估計(jì)概率。如果f(o)大,則該對(duì)象可能是正常的;否則,o可能是離群點(diǎn)。這一步通常與參數(shù)方法的對(duì)應(yīng)步驟類似。
離群點(diǎn)檢測(cè)的統(tǒng)計(jì)學(xué)方法由數(shù)據(jù)學(xué)習(xí)模型,以區(qū)別正常的數(shù)據(jù)對(duì)象和離群點(diǎn)。使用統(tǒng)計(jì)學(xué)方法的一個(gè)優(yōu)點(diǎn)是,離群點(diǎn)檢測(cè)可以是統(tǒng)計(jì)上無(wú)可非議的。當(dāng)然,僅當(dāng)對(duì)數(shù)據(jù)所做的統(tǒng)計(jì)假定滿足實(shí)際約束時(shí)才為真。通常,非參數(shù)方法對(duì)數(shù)據(jù)做較少的假定,因而在更多情況下都可以使用。
[1]Jiawei Han,Micheline Kamber等. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機(jī)械工業(yè)出版社,2012
[2]潘章明,陳尹立. 基于共享反K近鄰的局部離群點(diǎn)檢測(cè)算法[J]. 計(jì)算機(jī)仿真.2013(2)269-271
[3]劉耀宗,張宏等. 基于小波密度估計(jì)的數(shù)據(jù)流離群點(diǎn)檢測(cè)[J]. 計(jì)算機(jī)工程.2013(2)178-179
[4]古平,劉海波等. 一種基于多重聚類的離群點(diǎn)檢測(cè)算法[J]. 計(jì)算機(jī)應(yīng)用研究.2013(3)751-753
[5]趙潔. 統(tǒng)計(jì)模型中幾種異常點(diǎn)檢測(cè)方法簡(jiǎn)介[J].吉林教育. 2013(14)10-12
[6]李龍姣,程國(guó)達(dá). 基于直方圖和 FP增長(zhǎng)的高維空間離群點(diǎn)挖掘[J].計(jì)算機(jī)與現(xiàn)代化.2013(1)47-49
[7]王玉琳,薛安榮. 基于橢球模型的無(wú)線傳感器網(wǎng)絡(luò)的局部離群點(diǎn)檢測(cè)[J].計(jì)算機(jī)應(yīng)用研究.2013(2)547-549