• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)挖掘中聚類(lèi)分析算法及應(yīng)用研究

      2017-06-13 12:22張超群孟海東
      山東工業(yè)技術(shù) 2017年11期
      關(guān)鍵詞:數(shù)據(jù)挖掘應(yīng)用

      張超群+孟海東

      摘 要:聚類(lèi)分析算法在數(shù)據(jù)挖掘領(lǐng)域、設(shè)備學(xué)習(xí)領(lǐng)域以及統(tǒng)計(jì)學(xué)領(lǐng)域等均有著重要的研究和應(yīng)用意義,同時(shí)在實(shí)際的應(yīng)用中也有著廣泛的地位。對(duì)此,本文詳細(xì)分析數(shù)據(jù)挖掘中聚類(lèi)分析算法及應(yīng)用。

      關(guān)鍵詞:數(shù)據(jù)挖掘;聚類(lèi)分析算法;應(yīng)用

      DOI:10.16640/j.cnki.37-1222/t.2017.11.148

      聚類(lèi)分析算法是一種將給定數(shù)據(jù)實(shí)現(xiàn)集劃分為多個(gè)類(lèi)別的過(guò)程,同時(shí)同一種聚類(lèi)當(dāng)中數(shù)據(jù)的對(duì)象有著較高的相似性,不同的聚類(lèi)之間的數(shù)據(jù)對(duì)象具備較低的相似度。一般情況下,就使用距離來(lái)看,聚類(lèi)的數(shù)據(jù)之間有著較高的使用特性,能夠讓數(shù)據(jù)使用者更快的掌握更多的可實(shí)用性數(shù)據(jù)。對(duì)此,探討數(shù)據(jù)挖掘中聚類(lèi)分析算法及應(yīng)用具備顯著意義。

      1 聚類(lèi)分析算法

      1.1 數(shù)據(jù)挖掘?qū)垲?lèi)分析算法的主要要求

      就當(dāng)前的數(shù)據(jù)挖掘技術(shù)以及數(shù)據(jù)挖掘技術(shù)的應(yīng)用而言,當(dāng)前對(duì)聚類(lèi)分析算法的主要要求有以下幾點(diǎn):(1)可拓展性。聚類(lèi)分析算法必須對(duì)大數(shù)據(jù)、小數(shù)據(jù)都能夠?qū)崿F(xiàn)有效的計(jì)算和劃分,大至網(wǎng)絡(luò)數(shù)據(jù),小至企業(yè)人數(shù)數(shù)據(jù)等;(2)處理不同類(lèi)型的數(shù)據(jù)功能[1]。聚類(lèi)分析算法必須兼?zhèn)洳煌念?lèi)型數(shù)據(jù)處理功能,例如能夠處理經(jīng)濟(jì)數(shù)據(jù)也可以處理工程類(lèi)數(shù)據(jù);(3)發(fā)現(xiàn)任何關(guān)聯(lián)性的聚類(lèi)。聚類(lèi)分析算法不僅能夠發(fā)現(xiàn)具備類(lèi)似大小、密度的球狀聚類(lèi)或圓形聚類(lèi),還能夠發(fā)現(xiàn)各種任意形狀但是具備一定類(lèi)似性的聚類(lèi);(4)降低用戶(hù)的輸入?yún)?shù)兩。用戶(hù)在輸入?yún)?shù)量時(shí)必然帶有一定的主觀性,所以在參數(shù)量輸入得夠多時(shí)則整體分析結(jié)果也就更加主觀化,整體分析結(jié)果也就顯得越發(fā)不準(zhǔn)確。對(duì)于聚類(lèi)質(zhì)量而言,輸入?yún)?shù)量的大小有著直接性的影響,所以應(yīng)當(dāng)盡可能的降低用戶(hù)的輸入?yún)?shù)量,從而最大程度改進(jìn)聚類(lèi)分析算法的分析效果,同時(shí)降低用戶(hù)的分析負(fù)擔(dān);(5)對(duì)干擾數(shù)據(jù)具備較強(qiáng)處理能力。在實(shí)際應(yīng)用過(guò)程中,想要真正展現(xiàn)聚類(lèi)分析算法的使用能力,就必須最大程度降低干擾數(shù)據(jù)的影響,借助聚類(lèi)分析算法對(duì)干擾數(shù)據(jù)給予針對(duì)性的處理,促使處理對(duì)象當(dāng)中的質(zhì)量差盡可能控制到最低[2];(6)盡可能降低對(duì)輸入數(shù)據(jù)順序的敏感性。衡量聚類(lèi)分析算法的優(yōu)劣勢(shì)最重要指標(biāo)之一就是對(duì)輸入數(shù)據(jù)的順序是否存在敏感性,如果不存在敏感性,則說(shuō)明聚類(lèi)分析算法的使用特性較好,反之則較差;(7)高維問(wèn)題。聚類(lèi)分析算法在處理低維數(shù)據(jù)以及高維數(shù)據(jù)的過(guò)程中都必須具備較好的性能;(8)約束聚類(lèi)。聚類(lèi)分析算法能夠在特定的條件以及相應(yīng)的規(guī)律之下約束聚類(lèi)的質(zhì)量,從而確保聚類(lèi)之間有著較高的使用價(jià)值相似性;(9)高度可用性和可解釋性。聚類(lèi)分析算法應(yīng)當(dāng)和特定的解釋以及相應(yīng)的目標(biāo)之間有著較高的相似性,這也是確保聚類(lèi)分析算法實(shí)際使用能力的直接性表現(xiàn)。

      1.2 主要的聚類(lèi)分析算法

      在實(shí)際的應(yīng)用過(guò)程中,因?yàn)閿?shù)據(jù)類(lèi)型、目的以及要求之間的不同,對(duì)聚類(lèi)分析算法的需求也存在明顯的差異,所以在實(shí)際的應(yīng)用過(guò)程中應(yīng)當(dāng)選擇適當(dāng)?shù)木垲?lèi)算法,這也是非常重要的。應(yīng)用多種聚類(lèi)分析算法使用在同一個(gè)數(shù)據(jù)集當(dāng)中,能夠分析出數(shù)據(jù)潛在的使用價(jià)值以及可買(mǎi)搜狐性的特征,并為進(jìn)一步的數(shù)據(jù)挖掘以及探索提供有力基礎(chǔ)。典型的聚類(lèi)分析算法主要包含基礎(chǔ)的的密度方法、層次方法、劃分方法以及基于網(wǎng)格的方法。

      劃分方式:給予一定具體的數(shù)據(jù)集,例如其中包含一億個(gè)數(shù)據(jù)對(duì)象,劃分的方式就是將數(shù)據(jù)集劃分為多個(gè)聚類(lèi),例如100個(gè)聚類(lèi),每一個(gè)聚類(lèi)都應(yīng)當(dāng)符合下列的兩個(gè)條件。首先,每一個(gè)聚類(lèi)至少包含一個(gè)數(shù)據(jù)對(duì)象;其次,每一個(gè)數(shù)據(jù)對(duì)象只能夠?qū)儆谝粋€(gè)聚類(lèi)。簡(jiǎn)單而言,就是一億個(gè)數(shù)據(jù)對(duì)象按照相應(yīng)的規(guī)律被劃分在100個(gè)聚類(lèi)當(dāng)中,同時(shí)每一個(gè)數(shù)據(jù)只能夠存在在一個(gè)聚類(lèi)當(dāng)中。但是,在一些模糊劃分的方式當(dāng)中能夠適當(dāng)?shù)姆艑捪拗瞥潭?。所?gòu)建的聚類(lèi)應(yīng)當(dāng)成為最優(yōu)化的客觀劃分,進(jìn)而促使同一個(gè)聚類(lèi)當(dāng)中對(duì)象的距離最小,不同的聚類(lèi)之間對(duì)象的距離應(yīng)當(dāng)盡可能的擴(kuò)大。聚類(lèi)的相似度高低一般可以作為衡量劃分方法本身質(zhì)量的直接性標(biāo)準(zhǔn),有效的劃分方式可以促使同一個(gè)聚類(lèi)當(dāng)中的數(shù)據(jù)具備較高的相似性,而不同的聚類(lèi)之間具備最低的相似度,最常用的劃分方式主要為K-means和K-medoids算法。劃分方式必須具備處理數(shù)據(jù)集的一次性裝入內(nèi)存功能,從而最大程度的限制在大數(shù)據(jù)集當(dāng)中多方面應(yīng)用。劃分方式需要按照用戶(hù)的需求劃分為多個(gè)個(gè)數(shù)據(jù),這也會(huì)導(dǎo)致主觀判斷的因素對(duì)聚類(lèi)質(zhì)量形成應(yīng)想,劃分的方式只是用某一個(gè)固定的規(guī)則進(jìn)行聚類(lèi),就會(huì)導(dǎo)致聚類(lèi)的形狀不規(guī)律,聚類(lèi)的結(jié)果準(zhǔn)確率就比較低。

      層次方式的輸出能夠?yàn)閿?shù)據(jù)對(duì)象形成一個(gè)聚類(lèi)樹(shù),層次方式分為自上而下、自下而上的分析方式。但是無(wú)論是哪一種方式,其都可以獲得在不同粒度之上的多層次聚類(lèi)結(jié)構(gòu),但是也存在相應(yīng)的缺陷,例如在分裂以及合并之后,無(wú)法再回溯之前,這也缺陷同樣也具備相應(yīng)的積極性,所以在分裂以及合并的過(guò)程中,必須要考慮不同選擇而導(dǎo)致組合的分裂問(wèn)題。

      2 聚類(lèi)分析算法的應(yīng)用

      聚類(lèi)分析算法就是從給定的數(shù)據(jù)當(dāng)中探索出與數(shù)據(jù)對(duì)象具備關(guān)聯(lián)性使用價(jià)值的其他數(shù)據(jù),研究人員使用這一關(guān)聯(lián)方式能夠?qū)垲?lèi)當(dāng)中的數(shù)據(jù)對(duì)象實(shí)現(xiàn)統(tǒng)一性的分析處理。應(yīng)用聚類(lèi)分析作用在數(shù)據(jù)集當(dāng)中,能夠準(zhǔn)確的識(shí)別出數(shù)據(jù)集的稀疏、稠密程度,從而更好的掌握整體的分布狀況,并掌握數(shù)據(jù)屬性之間的價(jià)值關(guān)聯(lián)性。在商業(yè)領(lǐng)域當(dāng)中,聚類(lèi)分析能夠幫助營(yíng)業(yè)部門(mén)更好的掌握潛在的用戶(hù)特點(diǎn)以及群體關(guān)聯(lián)性,并按照不同的特性以及消費(fèi)心理制定針對(duì)性的營(yíng)銷(xiāo)方式,從而提升營(yíng)銷(xiāo)的成功性。在生物學(xué)的領(lǐng)域當(dāng)中,聚類(lèi)分析法主要是應(yīng)用在規(guī)劃動(dòng)植物的層次結(jié)構(gòu)當(dāng)中,并按照基因的功能實(shí)現(xiàn)分類(lèi),并對(duì)人類(lèi)的基因構(gòu)造有更加深入和全面的掌握。在經(jīng)濟(jì)領(lǐng)域當(dāng)中,聚類(lèi)分析算法能夠?qū)Σ煌貐^(qū)的經(jīng)濟(jì)發(fā)展情況進(jìn)行整體性評(píng)價(jià),并且對(duì)同一個(gè)地區(qū)的不同城市之間經(jīng)濟(jì)發(fā)展的能力實(shí)現(xiàn)準(zhǔn)確性規(guī)劃。聚類(lèi)分析算法還能夠應(yīng)用在挖掘網(wǎng)頁(yè)信息當(dāng)中的潛在價(jià)值信息之中,在數(shù)據(jù)挖掘應(yīng)用的領(lǐng)域中,聚類(lèi)分析算法既能夠成為一個(gè)獨(dú)立的使用工具,還能夠?qū)?shù)據(jù)對(duì)象實(shí)現(xiàn)合理的分類(lèi)和規(guī)劃,從而作為其他數(shù)據(jù)挖掘算法的首要處理手段,讓整個(gè)數(shù)據(jù)挖掘過(guò)程更加有效。

      3 結(jié)語(yǔ)

      綜上所述,伴隨著數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,企業(yè)、部門(mén)必須時(shí)刻掌握全新的數(shù)據(jù)挖掘技術(shù),其中也必然包含聚類(lèi)分析算法,借助聚類(lèi)分析算法,快速的掌握大量想關(guān)聯(lián)并且有使用價(jià)值的信息數(shù)據(jù),從而實(shí)現(xiàn)數(shù)據(jù)分析和數(shù)據(jù)挖掘的目的。

      參考文獻(xiàn):

      [1]焦亞召.基于多核函數(shù)FCM算法在數(shù)據(jù)挖掘聚類(lèi)中的應(yīng)用研究[D].昆明理工大學(xué),2015.

      [2]浦慧忠.基于數(shù)據(jù)挖掘的一種聚類(lèi)分析方法在PDM系統(tǒng)中的應(yīng)用研究[J].計(jì)算機(jī)與數(shù)字工程,2016,44(11):511-512.

      猜你喜歡
      數(shù)據(jù)挖掘應(yīng)用
      數(shù)據(jù)挖掘技術(shù)在內(nèi)河航道維護(hù)管理中的應(yīng)用研究
      數(shù)據(jù)挖掘綜述
      軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
      多媒體技術(shù)在小學(xué)語(yǔ)文教學(xué)中的應(yīng)用研究
      分析膜技術(shù)及其在電廠水處理中的應(yīng)用
      GM(1,1)白化微分優(yōu)化方程預(yù)測(cè)模型建模過(guò)程應(yīng)用分析
      煤礦井下坑道鉆機(jī)人機(jī)工程學(xué)應(yīng)用分析
      氣體分離提純應(yīng)用變壓吸附技術(shù)的分析
      會(huì)計(jì)與統(tǒng)計(jì)的比較研究
      基于R的醫(yī)學(xué)大數(shù)據(jù)挖掘系統(tǒng)研究
      阳西县| 嘉荫县| 天门市| 卢氏县| 仙游县| 扎兰屯市| 台湾省| 宾川县| 偃师市| 额尔古纳市| 佛坪县| 新巴尔虎左旗| 西宁市| 冕宁县| 商都县| 比如县| 日喀则市| 时尚| 监利县| 苍山县| 东阳市| 会昌县| 长春市| 远安县| 山东省| 泾源县| 旺苍县| 涞水县| 扬中市| 石门县| 调兵山市| 平利县| 顺义区| 日土县| 诸暨市| 德化县| 兴海县| 西青区| 额尔古纳市| 珠海市| 闵行区|