• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于質(zhì)心的樣本加權(quán)聚類算法

      2011-01-10 03:36:50李志勇朱永繽
      關(guān)鍵詞:質(zhì)心權(quán)重聚類

      韋 相,李志勇,朱永繽

      (紅河學(xué)院計算機科學(xué)與技術(shù)系,云南蒙自 661100)

      0 引 言

      聚類分析在模式識別、圖像處理、機器學(xué)習(xí)等領(lǐng)域有著廣泛的應(yīng)用,其也是數(shù)據(jù)挖掘的重要研究領(lǐng)域之一[1].目前,用于數(shù)據(jù)挖掘的聚類算法主要有4類:以 k-means算法為代表的分割聚類法,以BIRCH為代表的分層聚類法,以DBSCAN算法為代表的密度聚類法和STING為代表的網(wǎng)格聚類法[2-5].其中, BIRCH算法能夠通過一遍掃描進行有效聚類,特別適合大規(guī)模的數(shù)據(jù)集,但該算法采用直徑來控制聚類的邊界,如果子簇非球形,則得不到較好的聚類效果;DBSCAN算法利用類的密度連通特性,可以快速地發(fā)現(xiàn)任意形狀的簇,但它效率較低,無法進行動態(tài)聚類.本文在 k-means算法基礎(chǔ)上提出了基于質(zhì)心的樣本加權(quán)的分割聚類算法,實驗表明,該算法提高了聚類的精確度.

      1 算法的具體描述

      1.1 算法的基本思想

      本文提出的聚類算法的基本思想是基于物質(zhì)的質(zhì)心及物質(zhì)質(zhì)心的運動定理.與 k-means聚類算法一樣,本算法聚類的過程就是給每個樣本尋找最近的質(zhì)心(聚類中心),但與 k-means聚類算法不同,本算法中,質(zhì)心不僅有位置信息,它還有質(zhì)量,它的質(zhì)量就是歸入該聚類中心的樣本的質(zhì)量總和,當(dāng)然,每個樣本也有它自己的質(zhì)量.聚類過程是給每個樣本尋找最近的質(zhì)心,當(dāng)某個樣本將歸入某個質(zhì)心時,該質(zhì)心的質(zhì)量就它原有的質(zhì)量和新歸入樣本質(zhì)量之和,同時該質(zhì)心的位置也要根據(jù)物質(zhì)質(zhì)心的運動定理發(fā)生改變.某個樣本原來屬于某個質(zhì)心,當(dāng)它要離開該質(zhì)心歸入新質(zhì)心時,原質(zhì)心的質(zhì)量及位置也發(fā)生相應(yīng)的改變.

      1.2 算法的定義

      定義1 樣本的特征:數(shù)據(jù)集的 n個d維樣本(xi),i=1,2,…,n,樣本的聚類特征CF有2個,CF =(mi,si),mi表示xi的質(zhì)量,它是由xi的非空間屬性決定,si表示xi的位置,由 xi的空間屬性來表示.

      定義2 聚類中心的特征:給定具有 n個樣本的數(shù)據(jù)集(xi),i=1,2,…,n,子簇聚類中心的特征定義為2維CF=(M,S),M表示子簇的質(zhì)量,它是屬于這個子簇所有樣本的質(zhì)量總和;S表示子簇聚類中心的位置,它由屬于這個子簇所有樣本的質(zhì)量和位置決定.

      定義3 聚類中心的運動:給定具有 n個樣本的數(shù)據(jù)集(xi),i=1,2,…,n,一個子簇含有n1個數(shù)據(jù)點,它的聚類中心特征是 CF=(M,S).

      假定有一個新的數(shù)據(jù)點 y歸入該子簇,那么該子簇的特征向量變化如下:

      假定某個數(shù)據(jù)點原先屬于這個子簇,現(xiàn)在要歸入別的子簇,那這個子簇特征的變化如下:

      1.3 算法的實現(xiàn)

      本文提出的聚類算法其實現(xiàn)的基本步驟如下:

      本算法和 k-means聚類算法的不同之處在于: k-means聚類算法在掃描完所有樣本之后,才調(diào)整聚類中心,而本算法是掃描一個樣本,就調(diào)整相關(guān)的聚類中心.本算法的具體描述如下:

      1.4 樣本的權(quán)重確定

      1.4.1 使用非空間屬性確定.

      當(dāng)對數(shù)據(jù)集中的樣本沒有任何先驗知識時,可以直接定義每個樣本的權(quán)重為1,這時,本算法的聚類效果 k-mean算法相似.本文提出確定樣本權(quán)重的方法可根據(jù)一些先驗知識,即2個樣本的相異性的計算并不一定要依賴所有的屬性,有些屬性可以用來計算相似度,而有些屬性則可從其他角度對聚類中心產(chǎn)生影響.

      對給定具有 n個樣本的d維數(shù)據(jù)集,(xi),i= 1,2,…,n,(包含d1個空間屬性,可以用來計算相似度,d2個非空間屬性,可以用來計算樣本的權(quán)重),可以從相關(guān)領(lǐng)域?qū)<夷抢铽@得每個非空間屬性的權(quán)重wi,然后再按下式計算樣本的權(quán)重,

      1.4.2 使用樣本密度確定權(quán)重.

      在一些數(shù)據(jù)集中,當(dāng)樣本只有空間屬性,而沒有用于計算權(quán)重的非空間屬性時,則可以用別的方法計算樣本的權(quán)重.對那些處于稠密區(qū)域中的樣本(即周圍被更多樣本包圍),其必將對聚類中心產(chǎn)生更大的影響.對此,可采用點密碼的思想:樣本 p的Eps鄰域密度,用N(p)表示,它表示在樣本 p的Eps鄰域的樣本數(shù)目,用它作為樣本 p的權(quán)重.

      2 實 驗

      在實驗中,我們將本文的算法和 k-means算法的聚類結(jié)果進行了比較.測試數(shù)據(jù)為 IRIS和Soybean-small數(shù)據(jù)(這2組測試數(shù)據(jù)都來自網(wǎng)站:http:// archive.ics.uci.edu,它們是用來進行聚類分析的標(biāo)準(zhǔn)數(shù)據(jù)集).IRIS有150個樣本,分為3個子類,每類有50個樣本,其中2個子類具有交叉的樣本,很難對這些交叉樣本進行準(zhǔn)確的分類.

      2.1 對IRIS數(shù)據(jù)的聚類結(jié)果

      采用本文提出算法對IRIS數(shù)據(jù)的聚類結(jié)果見表1.采用 k-means算法對IRIS數(shù)據(jù)的聚類結(jié)果見表2.

      表1 本文算法對IRIS的聚類結(jié)果

      表2 k-means算法對IRIS的聚類結(jié)果

      從表1、2可見,k-means算法把第2類的3個樣本,錯誤的歸入第3類,而把第3類14個樣本錯誤的歸入第2類,共有17個錯分的樣本,準(zhǔn)確度是88.7%;而本文提出的算法總共有14個錯分的樣本,算法的準(zhǔn)確度為90.7%.顯然,本文的算法有效且具有更高的精確度.

      2.2 對Soybean-small數(shù)據(jù)的聚類結(jié)果

      Soybean-small數(shù)據(jù)具有47個樣本,每個樣本有35個屬性,共分為4個子類,其中一個類包含17個樣本,另外3個類各有10個樣本.因為這些屬性中有14個屬性值是完全相同的,所以我們只使用另外21個屬性進行聚類分析.本文算法的聚類結(jié)果見表3,用 k-means算法的聚類結(jié)果見表4.

      表3 本文算法對Soybean-small數(shù)據(jù)的聚類結(jié)果

      表4 k-means算法對Soybean-small數(shù)據(jù)的聚類結(jié)果

      從表3、4可見,使用k-means算法,它錯分了15個樣本,準(zhǔn)確度是66%;而本文的算法僅錯分了12個樣本,準(zhǔn)確度是74.5%.同樣,本文算法的聚類結(jié)果精度更優(yōu).

      3 結(jié) 論

      依據(jù)不同樣本對聚類中心產(chǎn)生不同影響,我們提出了基于樣本加權(quán)的聚類算法,并針對具體數(shù)據(jù)集,把樣本屬性分為空間屬性和非空間屬性,這樣可以提高聚類算法的應(yīng)用領(lǐng)域.實驗表明,該算法比k-means聚類算法具有更高的精確度.下一步的研究方向為:一是引入模糊數(shù)學(xué),實現(xiàn)模糊聚類,提高邊界處理能力;二是把該算法應(yīng)用于圖像分割等領(lǐng)域.

      [1]Han J,Kamber M,Tung A K H.Spatial Clustering Methods in Data Mining:A Survey[M].New Y ork:John Wiley,2001.

      [2]Jain A K,Murty M N,Flynn1 P J.Data clustering:A review [J].ACM Computing Surveys,1999,31(3):1145-1149.

      [3]Zhang T,Ramakrishnan R,Linvy M.Birch:an Efficient Data Clustering Method for very Large Databases[C]//Proceeding of ACM SIGMOD International Conference.New Y ork:ACM Press, 1996.

      [4]Ester M,Kriegel H,Sander J,et al.A Density-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise [C]//Proceeding of2nd International Conference on Knowledge Discovery and Data Mining.Portland,Oregon:ACM Press,1996.

      [5]Wang W,YangJ,Myntz R.Sting:a Statistical Information Grid Approach to Spatial Data Mining[C]//Proceedings of the23International Conference on Very Large Databases Athens.New Y ork:ACM Press,1997.

      猜你喜歡
      質(zhì)心權(quán)重聚類
      重型半掛汽車質(zhì)量與質(zhì)心位置估計
      基于GNSS測量的天宮二號質(zhì)心確定
      權(quán)重常思“浮名輕”
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于公約式權(quán)重的截短線性分組碼盲識別方法
      基于改進的遺傳算法的模糊聚類算法
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      一種海洋測高衛(wèi)星質(zhì)心在軌估計算法
      航天器工程(2014年5期)2014-03-11 16:35:53
      層次分析法權(quán)重的計算:基于Lingo的數(shù)學(xué)模型
      河南科技(2014年15期)2014-02-27 14:12:51
      阿鲁科尔沁旗| 乌兰浩特市| 乐陵市| 武强县| 万荣县| 措勤县| 延川县| 沽源县| 新河县| 宁阳县| 吴桥县| 华亭县| 板桥市| 龙山县| 高碑店市| 永福县| 文化| 广宗县| 峨山| 广元市| 和静县| 武陟县| 宝应县| 镶黄旗| 孝昌县| 新邵县| 公安县| 项城市| 常德市| 邵东县| 泰来县| 南宫市| 政和县| 镇康县| 绵竹市| 阜平县| 循化| 全南县| 吴江市| 青铜峡市| 黔南|