簡(jiǎn)述芬 侯天子
摘要:信息技術(shù)進(jìn)入了數(shù)據(jù)時(shí)代,多屬性高維數(shù)據(jù)廣泛存在很多數(shù)據(jù)集中?;谂袆e分析的離群點(diǎn)檢測(cè)算法是一種新的離群點(diǎn)挖掘的思路,通過一個(gè)數(shù)據(jù)實(shí)例驗(yàn)證該算法可以檢測(cè)數(shù)據(jù)之中的異常數(shù)據(jù)。
關(guān)鍵詞:離群;判別分析;檢測(cè)算法
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)03-0090-02
Discriminate Analysis Based Outlier Detection Algorithm
JIAN Shu-fen1, HOU Tian-zi2
(1.Sichuan Police College,Luzhou 646000,China;2. The Procuratorate of Wuhou, Chengdu 610000,China)
Abstract:Information technology has entered a data era.Discriminate Analysis based outlier detection algorithm is a new outlier detection way,and the algorithm is proved that it can find out outlier in data by a instance.
Key words: outlier; discriminate analysis; detection algorithm
1 判別分析在基于離群點(diǎn)挖掘時(shí)的可行性
1.1判別分析方法的定義
有一種方法可以辨別所屬的類別,這種方法是判別分析。其有著潛在的應(yīng)用方面,比如說在預(yù)測(cè)新產(chǎn)品的成功率上,或者確定該學(xué)生能否被錄用等方面。一般存在某種關(guān)系,如某個(gè)被解釋的定性變量和定量的解釋變量,判別分析方法比較適合。
判別分析方法是應(yīng)用性很強(qiáng)的一種多元統(tǒng)計(jì)方法,判別分析方法對(duì)問題求解可以這樣描述:假設(shè)存在n個(gè)k維總體[G1,G2,...,Gk],分布函數(shù)或特征已知,(若已知的分布函數(shù)分別是[F1(x),F(xiàn)2(x),...,F(xiàn)k(x)]分布函數(shù)或特征已知),對(duì)于給定一個(gè)新的樣本x,要分析出樣本出自哪個(gè)總體。
1.2判別分析方法與分類的異同
判別分析與數(shù)據(jù)挖掘中的分類技術(shù)并不等同。分類與判別分析目的都是出于給數(shù)據(jù)分類的目的,在這上面是相似的。
判別分析方法是數(shù)學(xué)統(tǒng)計(jì)中一種方法,需要嚴(yán)謹(jǐn)?shù)倪壿嬐评韥硗茖?dǎo)每個(gè)步驟,這與分類有所不同。分類是挖掘中的廣泛應(yīng)用的技術(shù)之一,如決策樹、貝葉斯等,需構(gòu)造分類器或模型來預(yù)測(cè)類屬標(biāo)號(hào)/。其中,只有貝葉斯分類也同時(shí)應(yīng)用在統(tǒng)計(jì)學(xué)中。
1.3判別分析應(yīng)用于離群點(diǎn)挖掘
離群點(diǎn)數(shù)據(jù)由絕大多數(shù)的正常數(shù)據(jù)和少數(shù)的異常數(shù)據(jù)組成,將判別分析縮減優(yōu)化,優(yōu)化到兩個(gè)總體,將一個(gè)新樣品x設(shè)定,通過推算得出它屬于其中某個(gè)總體,如果判定結(jié)果是異常數(shù)據(jù)表示的總體,那么就可以判定某個(gè)樣品是離群點(diǎn),否則就屬于正常數(shù)據(jù)的樣品。這種離群點(diǎn)判別分析算法的優(yōu)點(diǎn)在于它的動(dòng)態(tài)性好。當(dāng)新來品種,就可以很快分析出數(shù)據(jù)所屬類別。
這種判別方法,類似貝葉斯分類法:利用貝葉斯原理構(gòu)造出貝葉斯分類器,將費(fèi)歇(Fisher)判別運(yùn)用到離群點(diǎn)數(shù)據(jù)挖掘,用這種判定分析,進(jìn)行離群點(diǎn)檢測(cè)。
2 判別分析方法步驟
對(duì)判別分析方法的實(shí)現(xiàn)可分5個(gè)步進(jìn)行。
第1步:檢測(cè)判別分析對(duì)象
第1步:檢測(cè)對(duì)象在提前分好的小組中的差異點(diǎn),對(duì)獲取進(jìn)行分類。在這些變量中,分析判別差異時(shí),觀察其中解釋較多的數(shù)據(jù),這些數(shù)據(jù)對(duì)判定樣品類別時(shí)起的作用比較大的。
第2步:判別分析設(shè)計(jì)
對(duì)解釋變量和被解釋變量,用判別分析加以摘選出來,設(shè)為定性變量。由于在判別分析中,對(duì)樣本量與預(yù)測(cè)變量的個(gè)數(shù)的比率是敏感的,因此也需要考慮到樣本的容量大小。
第3步:假定判別分析
在推算出判別分析函數(shù)前,首先假定解釋變量的正態(tài)性,協(xié)方差陣相等,這樣可以確保之后的計(jì)算滿足條件。
第4步:判別模型估計(jì)與整體擬合評(píng)估
選擇估計(jì)方法,推算判別分析函數(shù),并找出其中的差異性,確定函數(shù)的有效性。
第5步:解釋結(jié)論并驗(yàn)證
判別分析里有距離判別、貝葉斯判別、費(fèi)歇判別等都是判別分析中的分析方法,判別方法不同,臨界條件也不同。判別分析不僅對(duì)所判別的數(shù)據(jù)有成效,在另一方面也能夠?qū)σ呀?jīng)的分類數(shù)據(jù)進(jìn)行回判,從而驗(yàn)證數(shù)據(jù)的真實(shí)性。
關(guān)于判別分析的具體性質(zhì),詳細(xì)的數(shù)學(xué)推導(dǎo)過程與證明可參見文獻(xiàn)[1]。
3 費(fèi)歇判別
在費(fèi)歇判別中,投影是該判別方法的基本思想,假設(shè)k組p維數(shù)據(jù)向指定的一個(gè)方向投影,k個(gè)分組得到的投影分別放在k個(gè)不同地方,盡可能的縮短組內(nèi)的距離。
在這只是把k=2這個(gè)值表明,隨即分成兩個(gè)類別,由離群點(diǎn)的概念可得,可把數(shù)據(jù)分成兩類,分別是正常數(shù)據(jù)和異常數(shù)據(jù)。
樣本G總數(shù)為n,表示為
[G=G1?G2=x(1)1,x(1)2,...,x(1)n1,x(2)1,x(2)2,...,x(2)n2 n=n1+n2]
令[a=a1,a2,...,ap′],a是p維空間中的任一量,[ux=a′X]是X以a為法線的方向上的投影,則G1和G2的投影是:
[G1:a′x(1)1,a′x(1)2,...,a′x(1)n1 ]
[G2:a′x(2)1,a′x(2)2,...,a′x(2)n2]
? 組間關(guān)系[B0]:由第t組的平均值和與總均值的向量差的平方和 :
[B0=t=12nta′X(t)-a′X2=a′t=12ntX(t)-XX(t)-X′a=a′Ba] (1)
其中[X=1nt=12j=1ntX(t)j],[B=t=12ntX(t)-XX(t)-X′]。等式變換的原理參照矩陣的乘法規(guī)則。
? 組內(nèi)關(guān)系[A0]:指第i組內(nèi),用組內(nèi)第j個(gè)向量和第i組的均值向量差的平方和表示。
[A0=t=12j=1nta′X(t)j-a′X(t)2=a′t=12j=1ntX(t)j-X(t)X(t)j-X(t)′a=a′Aa] (2)
盡量分開不同組的所得投影,盡可能縮短組內(nèi)數(shù)值的距離。
定義 4 -3:已知a是在[a′Aa=1]條件下使得[Δa=a′Ba]達(dá)到極大值的方向,稱[ux=a′X]為線性判別函數(shù)。
據(jù)第二點(diǎn)的判別方法的過程表明,確定判別條件以后就可以進(jìn)行判別分析。
4 利用判別原理進(jìn)行離群點(diǎn)檢測(cè)
在離群點(diǎn)挖掘中[2]引入判別分析的原理,簡(jiǎn)化費(fèi)歇判別原理:
直到最后兩個(gè)樣本時(shí),將費(fèi)歇判別函數(shù)就可以寫成:
[uX=X(1)-X(2)′S-1pX] (3)
這時(shí)閾值的計(jì)算方法見公式(4)
[u=12X(1)-X(2)′S-1pX(1)+X(2)] (4)
計(jì)算出總體樣本的協(xié)方差矩陣
兩個(gè)總體均值有明顯差異需要檢驗(yàn),在檢驗(yàn)是否有差異后判別函數(shù)的有效性。驗(yàn)證統(tǒng)計(jì)量F,用公式(5),公式中的D2 可以用(6)的公式計(jì)算。
[F=n1+n2-p-1n1+n2-2pn1n2n1+n2D2],n1和n2分別為兩個(gè)總體的樣本數(shù) (5)
[D2=X(1)-X(2)′S-1pX(1)-X(2)] (6)
[Fα(p,n1+n2-p-1)]表示α水平下的卡方分別,當(dāng)[F>Fα(p,n1+n2-p-1)]時(shí),表明判別函數(shù)是有效的,具體推導(dǎo)步驟參見文獻(xiàn)[3],將判別標(biāo)準(zhǔn)推導(dǎo)出
判[X∈G1],當(dāng)[u(X)>u]
判[X∈G2],當(dāng)[u(X)
待判, 當(dāng)[u(X)=u]
針對(duì)高維數(shù)據(jù)中離群點(diǎn)檢測(cè)算法進(jìn)行了分析和研究,提出了高維數(shù)據(jù)中離群點(diǎn)檢測(cè)需要注意的一些問題,從而便于研究者以這些算法為基礎(chǔ),在此基礎(chǔ)上提出新的改進(jìn)算法。
參考文獻(xiàn):
[1] 高惠璇. 應(yīng)用多元統(tǒng)計(jì)分析[M]. 北京: 北京大學(xué)出版社, 2005.
[2] 張堯庭, 方開泰. 多元統(tǒng)計(jì)分析引論[M]. 北京: 北京科學(xué)出版社, 1982.