• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘中聚類分析的算法研究

      2014-10-21 14:20:28陳柯伊
      新校園·上旬刊 2014年9期
      關(guān)鍵詞:聚類分析數(shù)據(jù)挖掘算法

      陳柯伊

      摘 要:數(shù)據(jù)挖掘技術(shù)已經(jīng)在企業(yè)決策中得到了廣泛的使用,這不僅能夠幫助企業(yè)管理人員進(jìn)行正確決策,也能夠提升企業(yè)的經(jīng)濟(jì)效益與社會(huì)效益。在數(shù)據(jù)挖掘技術(shù)中,聚類技術(shù)是其中的重要組成部分,應(yīng)用范圍也非常廣泛。聚類算法有著理想的可伸縮效果,在處理數(shù)據(jù)的時(shí)候,有著理想的優(yōu)勢(shì)與聚類質(zhì)量,該種分析方法是值得進(jìn)行大范圍推廣和使用的。本文主要分析數(shù)據(jù)挖掘中聚類分析的算法。

      關(guān)鍵詞:數(shù)據(jù)挖掘;聚類分析;算法

      數(shù)據(jù)挖掘即知識(shí)發(fā)現(xiàn)數(shù)據(jù)庫(kù),該種方法強(qiáng)調(diào)從大量不完全卻含有噪聲的數(shù)據(jù)中提取出對(duì)人們有用的信息,到目前為止,數(shù)據(jù)挖掘技術(shù)已經(jīng)在企業(yè)決策中得到了廣泛的應(yīng)用,這不僅能夠幫助企業(yè)管理人員進(jìn)行正確決策,也能夠提升企業(yè)的經(jīng)濟(jì)效益與社會(huì)效益。在數(shù)據(jù)挖掘技術(shù)中,聚類技術(shù)是其中的重要組成部分,應(yīng)用范圍也更加廣泛。本文就針對(duì)數(shù)據(jù)挖掘中聚類分析的算法進(jìn)行深入的分析。

      一、聚類的概念

      聚類分析是一種描述數(shù)據(jù)關(guān)系與描述對(duì)象的相關(guān)信息,數(shù)據(jù)分析強(qiáng)調(diào)數(shù)據(jù)對(duì)象的分析。進(jìn)行聚類分析的根本目標(biāo)就是在龐雜的數(shù)據(jù)中找出有用的數(shù)據(jù),一般情況下,組內(nèi)對(duì)象相關(guān)性越來(lái),聚類效果就會(huì)相對(duì)較差。目前,聚類分析藝術(shù)已經(jīng)成為一種重要的輔助性工具,開(kāi)始在市場(chǎng)營(yíng)銷、社會(huì)服務(wù)以及科學(xué)研究工作中得到了廣泛的應(yīng)用,聚類分析技術(shù)也成為現(xiàn)階段研究的重點(diǎn)與難點(diǎn)問(wèn)題。

      二、數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)類型

      1.數(shù)據(jù)矩陣

      數(shù)據(jù)矩陣是由對(duì)象—屬性結(jié)構(gòu)構(gòu)成,這種矩陣包括n個(gè)對(duì)象。例如,要用幾個(gè)屬性來(lái)描述人,這些屬性包括體重、身高、出生日期幾個(gè)屬性,這能夠使用如下的矩陣列表進(jìn)行表示:

      xll…xlf…xlpxil…xif…xipxnl…xnf…xip

      2.相異度矩陣

      相異度矩陣即對(duì)象—對(duì)象結(jié)構(gòu),在這個(gè)矩陣之中,有n個(gè)對(duì)象的差異,一般情況下,使用nXn來(lái)表達(dá)相異度矩陣:

      0d(2,1)0d(3,1)d(3,2)0……d(n,1)d(n,2)……0

      在具體的應(yīng)用工作中,數(shù)據(jù)挖掘任務(wù)的是各種復(fù)合數(shù)據(jù)與非數(shù)值型數(shù)據(jù),這些數(shù)據(jù)類型是多種多樣的,包括有序數(shù)據(jù)類型、標(biāo)稱型變量、布爾類型、分段數(shù)值變量、序數(shù)型、二元組合變量以及比例型變量等。

      三、數(shù)據(jù)挖掘主要聚類算法分析

      1.劃分方法

      劃分方法即將包含n個(gè)數(shù)據(jù)數(shù)據(jù)集劃分成為m個(gè)小組,其中每個(gè)小組都屬于聚類,這些小組是需要滿足幾個(gè)要素的:一方面,分析包含的數(shù)據(jù)對(duì)象需要在一個(gè)以上;另一方面,每一個(gè)數(shù)據(jù)對(duì)象只能夠在一個(gè)分組中出現(xiàn),嚴(yán)禁出現(xiàn)在不同的分組中。為了提升計(jì)算結(jié)果的準(zhǔn)確性,可以采用反復(fù)迭代法進(jìn)行計(jì)算。在完成最后一步時(shí),需要針對(duì)改進(jìn)分組方案進(jìn)行對(duì)比,在各個(gè)分組之中,數(shù)據(jù)對(duì)象越近,計(jì)算的準(zhǔn)確性就越高。在這種算法之中,k平均算法與k中心點(diǎn)算法的使用范圍最廣,在技術(shù)水平的發(fā)展之下,在這兩種算法基礎(chǔ)上又延伸出了集中新型計(jì)算方法。

      2.層次方法

      層次方法也是數(shù)據(jù)挖掘中聚類分析算法的重要類型,該種算法能夠?qū)?shù)據(jù)集進(jìn)行層次分解。層次方法主要有兩個(gè)類型,即從下而上凝聚的層次聚類與自上而下的分裂層次聚類,前者能夠?qū)?shù)據(jù)對(duì)象進(jìn)行單獨(dú)分組,再將其進(jìn)行合并處理。

      3.基于密度分析法

      在現(xiàn)階段下,非球形數(shù)據(jù)集巨變能夠采用基于距離的算法,但是,對(duì)于其余類型的巨變,是難以采用該種分析法進(jìn)行計(jì)算的。密度分析法能夠?qū)⒚芏染奂c相關(guān)區(qū)域進(jìn)行密切的連接,基于密度分析法不僅能夠發(fā)展不同形狀的簇,也能夠有效消除噪聲,這種密度算法有OPTICS、DBSCAN以及DENCLUE幾種類型。

      4.基于模型分析法

      基于模型分析法是能夠通過(guò)聚類設(shè)定模型的一種計(jì)算方法,該種算法建立在數(shù)據(jù)集基礎(chǔ)上,能夠?qū)σ恍?shù)據(jù)模型與給定數(shù)據(jù)的擬合實(shí)現(xiàn)優(yōu)化?;谀P头治龇ㄐ枰詳?shù)據(jù)概率建立假設(shè),常用的分析法有概念聚集分析法、神經(jīng)網(wǎng)絡(luò)分析法與EM分析法幾種類型。

      5.基于網(wǎng)絡(luò)分析法

      基于網(wǎng)絡(luò)分析法能夠?qū)⒘炕W(wǎng)絡(luò)空間實(shí)現(xiàn)聚類,有效優(yōu)化計(jì)算效果,同時(shí),該種方法也難以檢測(cè)到邊界聚類,計(jì)算對(duì)象主要針對(duì)水平聚類與垂直聚類?;诰W(wǎng)絡(luò)分析法與數(shù)據(jù)集大小并無(wú)密切的關(guān)系,其計(jì)算復(fù)雜性主要由網(wǎng)格單元數(shù)目來(lái)決定,常用的聚類算法包括STING、WaveCluster以及CLIQUE幾種類型。

      參考文獻(xiàn):

      [1]胡建軍,唐常杰,李川,彭京,元昌安,陳安龍,蔣永光.基于最近鄰優(yōu)先的高效聚類算法[J].四川大學(xué)學(xué)報(bào)(工程科學(xué)版),2004(6).

      [2]楊善林,李永森,胡笑旋,潘若愚. K-MEANS算法中的K值優(yōu)化問(wèn)題研究[J].系統(tǒng)工程理論與實(shí)踐,2006(2).

      猜你喜歡
      聚類分析數(shù)據(jù)挖掘算法
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于MapReduce的改進(jìn)Eclat算法
      Travellng thg World Full—time for Rree
      進(jìn)位加法的兩種算法
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      農(nóng)村居民家庭人均生活消費(fèi)支出分析
      基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
      基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
      科技視界(2016年20期)2016-09-29 12:32:48
      一種改進(jìn)的整周模糊度去相關(guān)算法
      “縣級(jí)供電企業(yè)生產(chǎn)經(jīng)營(yíng)統(tǒng)計(jì)一套”表輔助決策模式研究
      海晏县| 清水河县| 武城县| 新绛县| 晋州市| 东乡族自治县| 黔东| 阿坝县| 沂水县| 定结县| 赤城县| 呼伦贝尔市| 梅州市| 区。| 乌兰察布市| 嘉峪关市| 获嘉县| 和田市| 突泉县| 新竹市| 丹阳市| 瓮安县| 万全县| 康定县| 张家界市| 旅游| 正定县| 股票| 潮州市| 西宁市| 阿勒泰市| 霸州市| 兰溪市| 洛川县| 中超| 册亨县| 邵阳县| 大石桥市| 靖远县| 徐州市| 尼玛县|