• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向大數(shù)據(jù)處理的劃分聚類新方法

      2017-12-27 03:58:18陳硒
      數(shù)碼世界 2017年1期
      關(guān)鍵詞:數(shù)據(jù)處理分組聚類

      陳硒

      中南大學(xué)湘雅二醫(yī)院信息網(wǎng)絡(luò)中心

      面向大數(shù)據(jù)處理的劃分聚類新方法

      陳硒

      中南大學(xué)湘雅二醫(yī)院信息網(wǎng)絡(luò)中心

      在大數(shù)據(jù)處理中,在物聯(lián)網(wǎng)的研究和應(yīng)用上還存在許多的難題,而且常用的聚類方法在大數(shù)據(jù)處理上還有許多不適應(yīng)的地方。因此,需要我們提出一些新的劃分聚類的方法。我們可以利用大數(shù)據(jù)的抽樣技術(shù),對(duì)多次進(jìn)行抽取的大規(guī)模樣本進(jìn)行聚類,然后來確定其自然簇質(zhì)心的初始位置。本文重點(diǎn)和大家分析和研究一下關(guān)于面向大數(shù)據(jù)的劃分聚類新方法的有關(guān)問題。

      大數(shù)據(jù) 劃分聚類 抽樣 質(zhì)心

      聚類分析是指將物理或抽象對(duì)象的集合分組為由類似對(duì)象組成的多個(gè)類的分析過程。它是一種重要的人類行為。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。

      1 大數(shù)據(jù)概述

      1.1 大數(shù)據(jù)的定義

      大數(shù)據(jù)(big data),是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

      1.2 大數(shù)據(jù)的發(fā)展趨勢(shì)

      大數(shù)據(jù)離不開云處理,云處理為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是產(chǎn)生大數(shù)據(jù)的平臺(tái)之一。自2013年開始,大數(shù)據(jù)技術(shù)已開始和云計(jì)算技術(shù)緊密結(jié)合,預(yù)計(jì)未來兩者關(guān)系將更為密切。除此之外,物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新興計(jì)算形態(tài),也將一齊助力大數(shù)據(jù)革命,讓大數(shù)據(jù)營銷發(fā)揮出更大的影響力。此外,在不久的將來數(shù)據(jù)科學(xué)將成為一門專門的學(xué)科,被越來越多的人所認(rèn)知。各大高校將設(shè)立專門的數(shù)據(jù)科學(xué)類專業(yè),也會(huì)催生一批與之相關(guān)的新的就業(yè)崗位。與此同時(shí),基于數(shù)據(jù)這個(gè)基礎(chǔ)平臺(tái),也將建立起跨領(lǐng)域的數(shù)據(jù)共享平臺(tái),之后,數(shù)據(jù)共享將擴(kuò)展到企業(yè)層面,并且成為未來產(chǎn)業(yè)的核心一環(huán)。

      2 劃分聚類方法

      劃分聚類是指給定一個(gè)有N個(gè)元組或者紀(jì)錄的數(shù)據(jù)集,用分裂法構(gòu)造K個(gè)分組,每一個(gè)分組就代表一個(gè)聚類,K<N。而且這K個(gè)分組滿足下列條件:每一個(gè)分組至少包含一個(gè)數(shù)據(jù)紀(jì)錄;每一個(gè)數(shù)據(jù)紀(jì)錄屬于且僅屬于一個(gè)分組。

      對(duì)于給定的K,算法首先給出一個(gè)初始的分組方法,以后通過反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好,而所謂好的標(biāo)準(zhǔn)就是:同一分組中的記錄越近越好,而不同分組中的紀(jì)錄越遠(yuǎn)越好。

      大部分劃分方法是基于距離的。給定要構(gòu)建的分區(qū)數(shù)k,劃分方法首先創(chuàng)建一個(gè)初始化劃分。然后,它采用一種迭代的重定位技術(shù),通過把對(duì)象從一個(gè)組移動(dòng)到另一個(gè)組來進(jìn)行劃分。一個(gè)好的劃分的一般準(zhǔn)備是:同一個(gè)簇中的對(duì)象盡可能相互接近或相關(guān),而不同的簇中的對(duì)象盡可能遠(yuǎn)離或不同。還有許多評(píng)判劃分質(zhì)量的其他準(zhǔn)則。傳統(tǒng)的劃分方法可以擴(kuò)展到子空間聚類,而不是搜索整個(gè)數(shù)據(jù)空間。當(dāng)存在很多屬性并且數(shù)據(jù)稀疏時(shí),這是有用的。為了達(dá)到全局最優(yōu),基于劃分的聚類可能需要窮舉所有可能的劃分,計(jì)算量極大。實(shí)際上,大多數(shù)應(yīng)用都采用了流行的啟發(fā)式方法,如k-均值和k-中心算法,漸近的提高聚類質(zhì)量,逼近局部最優(yōu)解。這些啟發(fā)式聚類方法很適合發(fā)現(xiàn)中小規(guī)模的數(shù)據(jù)庫中小規(guī)模的數(shù)據(jù)庫中的球狀簇。為了發(fā)現(xiàn)具有復(fù)雜形狀的簇和對(duì)超大型數(shù)據(jù)集進(jìn)行聚類,需要進(jìn)一步擴(kuò)展基于劃分的方法。

      使用這個(gè)基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。

      3 在大數(shù)據(jù)環(huán)境下聚類分析的應(yīng)用

      3.1 在商業(yè)方面的應(yīng)用

      聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細(xì)分市場(chǎng)的有效工具,同時(shí)也可用于研究消費(fèi)者行為,尋找新的潛在市場(chǎng)、選擇實(shí)驗(yàn)的市場(chǎng),并作為多元分析的預(yù)處理。

      3.2 在生物工程方面的應(yīng)用

      聚類分析被用來動(dòng)植物分類和對(duì)基因進(jìn)行分類,獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí),增強(qiáng)人們對(duì)生物的形成、演變和進(jìn)化了解和認(rèn)知。

      3.3 在地理方面的應(yīng)用

      聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫商趨于的相似性,合一利用其進(jìn)行天氣氣候的分析,以及地質(zhì)構(gòu)造和地殼運(yùn)動(dòng)的推演和預(yù)測(cè)。

      3.4 在商業(yè)方面的應(yīng)用

      聚類分析通過一個(gè)高的平均消費(fèi)來鑒定汽車保險(xiǎn)單持有者的分組,同時(shí)根據(jù)住宅類型,價(jià)值,地理位置來鑒定一個(gè)城市的房產(chǎn)分組。在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也有很重要的應(yīng)用,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務(wù)的用戶了解自己的客戶,向客戶提供更合適的服務(wù)。

      4 結(jié)束語

      大數(shù)據(jù)的世界不只是一個(gè)單一的、巨大的計(jì)算機(jī)網(wǎng)絡(luò),而是一個(gè)由大量活動(dòng)構(gòu)件與多元參與者元素所構(gòu)成的生態(tài)系統(tǒng)。而今,面向大數(shù)據(jù)的劃分種類的方法和系統(tǒng)的也已經(jīng)確立,接下來的發(fā)展將趨向于系統(tǒng)內(nèi)部角色的細(xì)分,也就是市場(chǎng)的細(xì)分;系統(tǒng)機(jī)制的調(diào)整,也就是商業(yè)模式的創(chuàng)新;系統(tǒng)結(jié)構(gòu)的調(diào)整,也就是競(jìng)爭環(huán)境的調(diào)整等等,從而使得數(shù)據(jù)生態(tài)系統(tǒng)復(fù)合化程度逐漸增強(qiáng)。

      [1]陳寧,陳安.基于密度的增量式網(wǎng)格聚類算法[J].軟件學(xué)報(bào),2002,13(1):1-7

      [2]劉銘,王曉龍,劉遠(yuǎn)超.一種大規(guī)模高維數(shù)據(jù)快速聚類算法[J].自動(dòng)化學(xué)報(bào),2009,35(7):859-866

      猜你喜歡
      數(shù)據(jù)處理分組聚類
      認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
      分組搭配
      怎么分組
      基于DBSACN聚類算法的XML文檔聚類
      分組
      基于改進(jìn)的遺傳算法的模糊聚類算法
      基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      保山市| 西藏| 海口市| 扬州市| 平山县| 乌鲁木齐县| 县级市| 蒙阴县| 资兴市| 南木林县| 航空| 乐东| 宁德市| 南召县| 前郭尔| 屏东县| 伊宁市| 石棉县| 明水县| 丘北县| 枝江市| 天镇县| 宝应县| 宜阳县| 栾城县| 长子县| 交城县| 丰顺县| 玉门市| 鸡东县| 西宁市| 宾川县| 蒙城县| 新绛县| 孝感市| 绥江县| 伊金霍洛旗| 竹山县| 阳西县| 沙田区| 明溪县|