• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于JAVA的聚類分析實(shí)現(xiàn)

      2013-04-29 14:29:59譚琳
      電腦知識(shí)與技術(shù) 2013年8期
      關(guān)鍵詞:清華大學(xué)出版社聚類對(duì)象

      譚琳

      摘要:由于聚類技術(shù)的不斷發(fā)展,近幾年運(yùn)用范圍越來越大,在生物學(xué)上,營銷分析學(xué)上,在對(duì)Internet上的Web中文檔管理上都有很大的運(yùn)用。但是這些跨領(lǐng)域,跨專業(yè)的運(yùn)用需要一個(gè)公用平臺(tái)來實(shí)現(xiàn),這就是本篇文章提倡的基于Java來實(shí)現(xiàn)聚類分析。

      關(guān)鍵詞:聚類技術(shù)、Java

      中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)08-1894-06

      1 研究背景

      JAVA是一種跨平臺(tái)的語言,靈活性比較大,運(yùn)用范圍廣,能運(yùn)用到各種系統(tǒng)和領(lǐng)域中。聚類技術(shù)最近幾年越來越受到大家的追捧,聚類算法的應(yīng)用也得到了推廣,在生物學(xué)上,聚類能通過基因和蛋白質(zhì)的這兩類的分類或者聚類,對(duì)種群中固定結(jié)果的重新認(rèn)識(shí)和分析,從而推導(dǎo)出不同的植物或者動(dòng)物種類:在市場關(guān)系上,市場分析人員也可以通過聚類發(fā)現(xiàn)客戶數(shù)據(jù)中不同的客戶群體,對(duì)這些群體的不相同類的特征進(jìn)行模式刻畫,從而能預(yù)測某客戶群體的購買類型。不僅如此,聚類也能對(duì)internet上的web中的文檔或者文件進(jìn)行分類,而發(fā)現(xiàn)對(duì)人們有價(jià)值的知識(shí),此外聚類還可以對(duì)其他方法進(jìn)行預(yù)處理過程,對(duì)這些方法起輔助作用。

      基于JAVA的聚類分析的實(shí)現(xiàn),給聚類技術(shù)的推廣起到推風(fēng)助浪的作用,使得聚類技術(shù)能在更多的領(lǐng)域中拓寬。

      2 聚類分析概念

      聚類是運(yùn)用數(shù)據(jù)對(duì)象之間的距離,并運(yùn)用相關(guān)的聚類分析原則將對(duì)象逐一劃分到多個(gè)簇(clusters)中。每一個(gè)簇中中也包含了多個(gè)相同類屬對(duì)象,同一個(gè)簇鐘的對(duì)象之間的相似度要比不同簇的相似度大,最終的聚類能使得各簇種對(duì)象的相似度最小,這樣就達(dá)到聚類的目的了。這樣的聚類分析不僅可以對(duì)數(shù)據(jù)分析和知道的挖掘提供數(shù)據(jù)依據(jù),也可以解開事物數(shù)據(jù)之間的內(nèi)在聯(lián)系和區(qū)分,這使得聚類分析愛成為數(shù)據(jù)挖掘技術(shù)中不可缺少的成員。

      3.2 層次聚類

      層次聚類是根據(jù)凝聚或分裂的層次分解形式對(duì)數(shù)據(jù)對(duì)象集合進(jìn)行層次分解。分裂的方法是自頂向下的方法,首先把所有的數(shù)據(jù)對(duì)象點(diǎn)歸為一類,然后以此分裂成更小的類,分裂到每個(gè)對(duì)象能夠單獨(dú)在一個(gè)類中為止。凝聚與分裂的方法相反,是一種自底向上的方法,“底”在這里指的是單個(gè)數(shù)據(jù)點(diǎn),首先以單個(gè)數(shù)據(jù)點(diǎn)作為一個(gè)類,然后對(duì)相近的數(shù)據(jù)對(duì)象進(jìn)行合并歸納成新的類,直到所有的數(shù)據(jù)對(duì)象合并成一個(gè)類為止,這個(gè)類在層次上面叫著的最上層,整個(gè)運(yùn)作過程是自底向上的方式運(yùn)作。常用的算法有利用層次方法的平衡迭代歸約和聚類—BIRCH。

      3.3 基于密度的方法

      基于密度的方法就是讓最近區(qū)域密度值達(dá)到一定的標(biāo)準(zhǔn),也就是有一個(gè)具體的閥值即對(duì)象的個(gè)數(shù),還有就是該區(qū)域半徑值,以這些標(biāo)準(zhǔn)來對(duì)對(duì)象進(jìn)行聚類。用這種方法的好處是避免了劃分方法中發(fā)現(xiàn)球狀簇的局限。例如基于高密度連接區(qū)域的密度聚類方法——DBSCAN。

      3.4 基于網(wǎng)格的方法

      基于網(wǎng)格的方法就是在網(wǎng)格接結(jié)構(gòu)的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行聚類,我們將采用量化的方式把空間對(duì)象分成有限的數(shù)目單元,這樣就是對(duì)空間對(duì)象進(jìn)行網(wǎng)格。這種算法有—CLIQUE算法。

      3.5 基于模型的方法

      基于模型的方式就是給定一個(gè)模型,根據(jù)模型的要求尋找最合適的對(duì)象的方法。在對(duì)象空間的密度數(shù)來構(gòu)建一個(gè)模型,通過統(tǒng)計(jì)數(shù)字自動(dòng)來決定聚類的數(shù)目,從而去掉不需要的噪聲數(shù)據(jù),使得聚類的方法更有力。這種方法有COBWEB算法,網(wǎng)絡(luò)神經(jīng)方法有SOM算法。

      3.6 基于約束的方法

      對(duì)數(shù)據(jù)的個(gè)體對(duì)象進(jìn)行約束,或者設(shè)置聚類參數(shù)來約束,來進(jìn)行聚類的方法。因?yàn)樵谖覀兊目陀^世界中聚類的問題存在很多的約束條件,但是這些條件都是很發(fā)雜的,往往不被有效的利用出來,從而不能對(duì)這方法進(jìn)行進(jìn)行廣泛的推廣和應(yīng)用。這種方法有COD (Clustering with Ob2structed Distance)。

      第三步:計(jì)算每個(gè)聚類中所有對(duì)象的均值,得出新的聚類中心。

      第四步:對(duì)新的聚類中心重復(fù)上面的第二和第三步,并得到新的聚類中心,直止新的聚類點(diǎn)不再更新。得出最終的聚類中心。

      初值的好壞直接影響到K—Means算法的最后結(jié)果,也可以因?yàn)槌踔档膯栴}導(dǎo)致聚類的結(jié)果有天差萬別,因此要改變K—Means算法的初值的取法,是K—Means算法的改進(jìn)的關(guān)鍵。

      中心點(diǎn)的選取不同直接影響到聚類結(jié)果不同,因此初始聚類中心的選擇在 K—Means算法中非常重要。實(shí)際應(yīng)用中,我們即希望中心點(diǎn)能夠盡量分散,也希望這些中心點(diǎn)具有一定的代表性,這也是我們聚類的目的。我們運(yùn)用一種基于試探性的算法---最大最小距離算法可以對(duì)初始聚類中心的選擇做出相對(duì)較好判斷,它能相對(duì)智能地確定最佳的初始聚類的中心,可以提高劃分初始數(shù)據(jù)集的效率,避免過去K—Means算法中選取初始聚類過于鄰近,而導(dǎo)致聚類結(jié)果不佳的情況。

      參考文獻(xiàn):

      [1] 朱福喜. Java程序設(shè)計(jì)技巧與開發(fā)實(shí)例[M].北京:人民郵電出版社,2004,2.

      [2] 陸惠恩.實(shí)用軟件工程[M].北京:清華大學(xué)出版社,2006,5.

      [3] (美)Bruce Eckel著,陳昊天譯.Java編程思想[M].北京:機(jī)械工業(yè)出版社,2007,6.

      [4] 朱福喜,黃昊.Java項(xiàng)目開發(fā)與畢業(yè)設(shè)計(jì)指導(dǎo)[M].北京:清華大學(xué)出版社,2008,6.

      [5] 鄭人杰,殷人昆.陶永雷.實(shí)用軟件工程[M].北京:清華大學(xué)出版社,2004,11.

      猜你喜歡
      清華大學(xué)出版社聚類對(duì)象
      神秘來電
      睿士(2023年2期)2023-03-02 02:01:09
      清華大學(xué)出版社期刊中心
      Desperate Love towards the Dark Lady in Shakespeare’s Sonnets
      世界家苑(2018年4期)2018-05-21 08:56:20
      攻略對(duì)象的心思好難猜
      意林(2018年3期)2018-03-02 15:17:24
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      《秘書工作手記》
      決策(2017年5期)2017-06-21 16:58:25
      基于熵的快速掃描法的FNEA初始對(duì)象的生成方法
      區(qū)間對(duì)象族的可鎮(zhèn)定性分析
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      喀什市| 屯门区| 通化县| 科技| 拜城县| 白城市| 昌江| 三门县| 航空| 天水市| 松溪县| 德阳市| 鄂温| 清水县| 衡山县| 南昌县| 乐亭县| 巨野县| 芜湖市| 兰西县| 宣化县| 北京市| 桐城市| 左云县| 哈尔滨市| 兰西县| 汕尾市| 淮阳县| 麻江县| 米泉市| 高陵县| 达州市| 漳平市| 巴南区| 西峡县| 乌兰察布市| 永顺县| 广安市| 柯坪县| 日照市| 榆林市|