• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于判別分析原理的離群點(diǎn)檢測(cè)算法

      2015-09-09 19:00:24簡(jiǎn)述芬侯天子
      電腦知識(shí)與技術(shù) 2015年16期
      關(guān)鍵詞:離群

      簡(jiǎn)述芬 侯天子

      摘要:信息技術(shù)進(jìn)入了數(shù)據(jù)時(shí)代,多屬性高維數(shù)據(jù)廣泛存在很多數(shù)據(jù)集中?;谂袆e分析的離群點(diǎn)檢測(cè)算法是一種新的離群點(diǎn)挖掘的思路,通過一個(gè)數(shù)據(jù)實(shí)例驗(yàn)證該算法可以檢測(cè)數(shù)據(jù)之中的異常數(shù)據(jù)。

      關(guān)鍵詞:離群;判別分析;檢測(cè)算法

      中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)03-0090-02

      Discriminate Analysis Based Outlier Detection Algorithm

      JIAN Shu-fen1, HOU Tian-zi2

      (1.Sichuan Police College,Luzhou 646000,China;2. The Procuratorate of Wuhou, Chengdu 610000,China)

      Abstract:Information technology has entered a data era.Discriminate Analysis based outlier detection algorithm is a new outlier detection way,and the algorithm is proved that it can find out outlier in data by a instance.

      Key words: outlier; discriminate analysis; detection algorithm

      1 判別分析在基于離群點(diǎn)挖掘時(shí)的可行性

      1.1判別分析方法的定義

      有一種方法可以辨別所屬的類別,這種方法是判別分析。其有著潛在的應(yīng)用方面,比如說在預(yù)測(cè)新產(chǎn)品的成功率上,或者確定該學(xué)生能否被錄用等方面。一般存在某種關(guān)系,如某個(gè)被解釋的定性變量和定量的解釋變量,判別分析方法比較適合。

      判別分析方法是應(yīng)用性很強(qiáng)的一種多元統(tǒng)計(jì)方法,判別分析方法對(duì)問題求解可以這樣描述:假設(shè)存在n個(gè)k維總體[G1,G2,...,Gk],分布函數(shù)或特征已知,(若已知的分布函數(shù)分別是[F1(x),F(xiàn)2(x),...,F(xiàn)k(x)]分布函數(shù)或特征已知),對(duì)于給定一個(gè)新的樣本x,要分析出樣本出自哪個(gè)總體。

      1.2判別分析方法與分類的異同

      判別分析與數(shù)據(jù)挖掘中的分類技術(shù)并不等同。分類與判別分析目的都是出于給數(shù)據(jù)分類的目的,在這上面是相似的。

      判別分析方法是數(shù)學(xué)統(tǒng)計(jì)中一種方法,需要嚴(yán)謹(jǐn)?shù)倪壿嬐评韥硗茖?dǎo)每個(gè)步驟,這與分類有所不同。分類是挖掘中的廣泛應(yīng)用的技術(shù)之一,如決策樹、貝葉斯等,需構(gòu)造分類器或模型來預(yù)測(cè)類屬標(biāo)號(hào)/。其中,只有貝葉斯分類也同時(shí)應(yīng)用在統(tǒng)計(jì)學(xué)中。

      1.3判別分析應(yīng)用于離群點(diǎn)挖掘

      離群點(diǎn)數(shù)據(jù)由絕大多數(shù)的正常數(shù)據(jù)和少數(shù)的異常數(shù)據(jù)組成,將判別分析縮減優(yōu)化,優(yōu)化到兩個(gè)總體,將一個(gè)新樣品x設(shè)定,通過推算得出它屬于其中某個(gè)總體,如果判定結(jié)果是異常數(shù)據(jù)表示的總體,那么就可以判定某個(gè)樣品是離群點(diǎn),否則就屬于正常數(shù)據(jù)的樣品。這種離群點(diǎn)判別分析算法的優(yōu)點(diǎn)在于它的動(dòng)態(tài)性好。當(dāng)新來品種,就可以很快分析出數(shù)據(jù)所屬類別。

      這種判別方法,類似貝葉斯分類法:利用貝葉斯原理構(gòu)造出貝葉斯分類器,將費(fèi)歇(Fisher)判別運(yùn)用到離群點(diǎn)數(shù)據(jù)挖掘,用這種判定分析,進(jìn)行離群點(diǎn)檢測(cè)。

      2 判別分析方法步驟

      對(duì)判別分析方法的實(shí)現(xiàn)可分5個(gè)步進(jìn)行。

      第1步:檢測(cè)判別分析對(duì)象

      第1步:檢測(cè)對(duì)象在提前分好的小組中的差異點(diǎn),對(duì)獲取進(jìn)行分類。在這些變量中,分析判別差異時(shí),觀察其中解釋較多的數(shù)據(jù),這些數(shù)據(jù)對(duì)判定樣品類別時(shí)起的作用比較大的。

      第2步:判別分析設(shè)計(jì)

      對(duì)解釋變量和被解釋變量,用判別分析加以摘選出來,設(shè)為定性變量。由于在判別分析中,對(duì)樣本量與預(yù)測(cè)變量的個(gè)數(shù)的比率是敏感的,因此也需要考慮到樣本的容量大小。

      第3步:假定判別分析

      在推算出判別分析函數(shù)前,首先假定解釋變量的正態(tài)性,協(xié)方差陣相等,這樣可以確保之后的計(jì)算滿足條件。

      第4步:判別模型估計(jì)與整體擬合評(píng)估

      選擇估計(jì)方法,推算判別分析函數(shù),并找出其中的差異性,確定函數(shù)的有效性。

      第5步:解釋結(jié)論并驗(yàn)證

      判別分析里有距離判別、貝葉斯判別、費(fèi)歇判別等都是判別分析中的分析方法,判別方法不同,臨界條件也不同。判別分析不僅對(duì)所判別的數(shù)據(jù)有成效,在另一方面也能夠?qū)σ呀?jīng)的分類數(shù)據(jù)進(jìn)行回判,從而驗(yàn)證數(shù)據(jù)的真實(shí)性。

      關(guān)于判別分析的具體性質(zhì),詳細(xì)的數(shù)學(xué)推導(dǎo)過程與證明可參見文獻(xiàn)[1]。

      3 費(fèi)歇判別

      在費(fèi)歇判別中,投影是該判別方法的基本思想,假設(shè)k組p維數(shù)據(jù)向指定的一個(gè)方向投影,k個(gè)分組得到的投影分別放在k個(gè)不同地方,盡可能的縮短組內(nèi)的距離。

      在這只是把k=2這個(gè)值表明,隨即分成兩個(gè)類別,由離群點(diǎn)的概念可得,可把數(shù)據(jù)分成兩類,分別是正常數(shù)據(jù)和異常數(shù)據(jù)。

      樣本G總數(shù)為n,表示為

      [G=G1?G2=x(1)1,x(1)2,...,x(1)n1,x(2)1,x(2)2,...,x(2)n2 n=n1+n2]

      令[a=a1,a2,...,ap′],a是p維空間中的任一量,[ux=a′X]是X以a為法線的方向上的投影,則G1和G2的投影是:

      [G1:a′x(1)1,a′x(1)2,...,a′x(1)n1 ]

      [G2:a′x(2)1,a′x(2)2,...,a′x(2)n2]

      ? 組間關(guān)系[B0]:由第t組的平均值和與總均值的向量差的平方和 :

      [B0=t=12nta′X(t)-a′X2=a′t=12ntX(t)-XX(t)-X′a=a′Ba] (1)

      其中[X=1nt=12j=1ntX(t)j],[B=t=12ntX(t)-XX(t)-X′]。等式變換的原理參照矩陣的乘法規(guī)則。

      ? 組內(nèi)關(guān)系[A0]:指第i組內(nèi),用組內(nèi)第j個(gè)向量和第i組的均值向量差的平方和表示。

      [A0=t=12j=1nta′X(t)j-a′X(t)2=a′t=12j=1ntX(t)j-X(t)X(t)j-X(t)′a=a′Aa] (2)

      盡量分開不同組的所得投影,盡可能縮短組內(nèi)數(shù)值的距離。

      定義 4 -3:已知a是在[a′Aa=1]條件下使得[Δa=a′Ba]達(dá)到極大值的方向,稱[ux=a′X]為線性判別函數(shù)。

      據(jù)第二點(diǎn)的判別方法的過程表明,確定判別條件以后就可以進(jìn)行判別分析。

      4 利用判別原理進(jìn)行離群點(diǎn)檢測(cè)

      在離群點(diǎn)挖掘中[2]引入判別分析的原理,簡(jiǎn)化費(fèi)歇判別原理:

      直到最后兩個(gè)樣本時(shí),將費(fèi)歇判別函數(shù)就可以寫成:

      [uX=X(1)-X(2)′S-1pX] (3)

      這時(shí)閾值的計(jì)算方法見公式(4)

      [u=12X(1)-X(2)′S-1pX(1)+X(2)] (4)

      計(jì)算出總體樣本的協(xié)方差矩陣估計(jì)值[Sp]的逆矩陣。

      兩個(gè)總體均值有明顯差異需要檢驗(yàn),在檢驗(yàn)是否有差異后判別函數(shù)的有效性。驗(yàn)證統(tǒng)計(jì)量F,用公式(5),公式中的D2 可以用(6)的公式計(jì)算。

      [F=n1+n2-p-1n1+n2-2pn1n2n1+n2D2],n1和n2分別為兩個(gè)總體的樣本數(shù) (5)

      [D2=X(1)-X(2)′S-1pX(1)-X(2)] (6)

      [Fα(p,n1+n2-p-1)]表示α水平下的卡方分別,當(dāng)[F>Fα(p,n1+n2-p-1)]時(shí),表明判別函數(shù)是有效的,具體推導(dǎo)步驟參見文獻(xiàn)[3],將判別標(biāo)準(zhǔn)推導(dǎo)出

      判[X∈G1],當(dāng)[u(X)>u]

      判[X∈G2],當(dāng)[u(X)

      待判, 當(dāng)[u(X)=u]

      針對(duì)高維數(shù)據(jù)中離群點(diǎn)檢測(cè)算法進(jìn)行了分析和研究,提出了高維數(shù)據(jù)中離群點(diǎn)檢測(cè)需要注意的一些問題,從而便于研究者以這些算法為基礎(chǔ),在此基礎(chǔ)上提出新的改進(jìn)算法。

      參考文獻(xiàn):

      [1] 高惠璇. 應(yīng)用多元統(tǒng)計(jì)分析[M]. 北京: 北京大學(xué)出版社, 2005.

      [2] 張堯庭, 方開泰. 多元統(tǒng)計(jì)分析引論[M]. 北京: 北京科學(xué)出版社, 1982.

      猜你喜歡
      離群
      一種基于鄰域粒度熵的離群點(diǎn)檢測(cè)算法
      離群動(dòng)態(tài)性數(shù)據(jù)情報(bào)偵查方法研究
      基于自然鄰居鄰域圖的無參數(shù)離群檢測(cè)算法
      一種相似度剪枝的離群點(diǎn)檢測(cè)算法
      一種基于近鄰關(guān)系的新型離群評(píng)估算法
      候鳥
      離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
      離群的小雞
      應(yīng)用相似度測(cè)量的圖離群點(diǎn)檢測(cè)方法
      一種基于核空間局部離群因子的離群點(diǎn)挖掘方法
      兴安县| 西吉县| 卓尼县| 新兴县| 商城县| 伊通| 新沂市| 丹棱县| 鄂尔多斯市| 苗栗县| 南城县| 赣州市| 康马县| 阳曲县| 镇宁| 通州区| 榆树市| 宝丰县| 资阳市| 光山县| 伊金霍洛旗| 镶黄旗| 合作市| 孝感市| 东安县| 乐昌市| 仙桃市| 常宁市| 永丰县| 观塘区| 稻城县| 高邮市| 石狮市| 达拉特旗| 娱乐| 犍为县| 罗源县| 苏尼特右旗| 枣强县| 休宁县| 柏乡县|