• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)聚類算法的研究現(xiàn)狀與展望

      2018-12-22 03:32:51李慧敏
      無線互聯(lián)科技 2018年18期
      關(guān)鍵詞:聚類算法

      李慧敏

      (福建船政交通職業(yè)學(xué)院 信息工程系,福建 福州 350000)

      當(dāng)前,各個領(lǐng)域每時每刻都產(chǎn)生了大量的數(shù)據(jù),我們已進(jìn)入大數(shù)據(jù)時代。誰能有效分析和利用這些海量數(shù)據(jù),誰將掌握創(chuàng)新和轉(zhuǎn)型的關(guān)鍵。其中的一項關(guān)鍵技術(shù)就是大數(shù)據(jù)的聚類算法,在商業(yè)、農(nóng)業(yè)、移動網(wǎng)絡(luò)、醫(yī)療、科學(xué)、教育等應(yīng)用領(lǐng)域都具有重要應(yīng)用價值。

      1 大數(shù)據(jù)聚類算法介紹

      文中將已有的大數(shù)據(jù)聚類算法劃分成兩種:單機(jī)聚類算法和多機(jī)聚類算法[1]。

      1.1 單機(jī)聚類算法

      單機(jī)聚類算法主要有傳統(tǒng)聚類算法、基于抽樣的聚類以及基于降維的聚類3種。

      傳統(tǒng)聚類算法包含分區(qū)聚類算法、分層聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法、基于模型的聚類算法。其中,分區(qū)聚類算法根據(jù)點和點之間在單個分區(qū)中的分離距離聚類;分層聚類算法根據(jù)數(shù)據(jù)的層次進(jìn)行劃分;基于密度的聚類算法能發(fā)現(xiàn)不同密度的區(qū)域;基于網(wǎng)格的聚類能降低算法復(fù)雜度;基于模型的聚類算法可以較好地避免測量劃分的不確定性問題,但是速度較慢。

      基于抽樣的聚類算法先從大數(shù)據(jù)中抽取一個樣本,對樣本進(jìn)行聚類,再應(yīng)用到整個大數(shù)據(jù)上,提高了效率并節(jié)省了空間。抽樣聚類主要有以下3種聚類算法:基于隨機(jī)選擇的聚類算法(CLARANS)、利用層次方法的平衡迭代規(guī)約和聚類(BTRCH)和針對大型數(shù)據(jù)庫的高效的聚類算法(CURE)。其中,CLARANS的優(yōu)勢在動態(tài)處理上;BTRCH提高數(shù)據(jù)處理效率的方式是充分利用其自身的數(shù)據(jù)結(jié)構(gòu)節(jié)省空間;CURE的特點是用一組分散的數(shù)據(jù)點來表示聚類,這樣能較好地表示不同類型的聚類。

      基于降維的聚類算法是在聚類時先對兩個主要維度—變量的數(shù)量和實例的數(shù)量中的一個進(jìn)行預(yù)處理,通過降維可以消除無關(guān)信息和冗余信息,同時縮小樣本空間,有效改善高維度下的復(fù)雜性,降低失誤率。

      1.2 多機(jī)聚類

      多機(jī)聚類又分為并行聚類和基于Map Reduce的聚類。并行聚類是指將數(shù)據(jù)進(jìn)行分塊,然后分發(fā)給不同的機(jī)器,讓它們并行運行聚類算法,以此提高速率,并且后續(xù)可以很方便地進(jìn)行擴(kuò)展。

      Map Reduce是一種將任務(wù)分布在大量的服務(wù)器上執(zhí)行的任務(wù)分解機(jī)制。目前已有大量研究將各種傳統(tǒng)聚類算法改寫成Map Reduce版本,并通過實驗證明了可行性。

      2 各應(yīng)用領(lǐng)域研究現(xiàn)狀

      目前大數(shù)據(jù)聚類算法的應(yīng)用才剛起步,我們需要探索更多、更高效的應(yīng)用模式。商業(yè)、農(nóng)業(yè)、移動網(wǎng)絡(luò)、醫(yī)療、科學(xué)、工程、法律、教育等特定領(lǐng)域都能看到大數(shù)據(jù)聚類算法應(yīng)用的影子。下面從幾個關(guān)鍵領(lǐng)域來分析大數(shù)據(jù)聚類算法的研究現(xiàn)狀。

      2.1 商業(yè)應(yīng)用

      商業(yè)智能[2]可以說是大數(shù)據(jù)聚類應(yīng)用的“前輩”,對企業(yè)內(nèi)部的大數(shù)據(jù)進(jìn)行聚類分析,可以挖掘出很多隱藏的規(guī)律和知識,這可能是企業(yè)創(chuàng)新和轉(zhuǎn)型的關(guān)鍵。目前已經(jīng)廣泛應(yīng)用于客戶關(guān)系管理、異常消費行為檢測、股票數(shù)據(jù)分析等方面。比如說通過聚類從客戶基本信息庫中挖掘出不同的客戶群,更準(zhǔn)確地了解客戶的使用行為,以此制定新的策略。

      在金融領(lǐng)域,大數(shù)據(jù)聚類的應(yīng)用也在快速發(fā)展。在各大商業(yè)銀行中,利用大數(shù)據(jù)聚類的結(jié)果,針對性地制定個性化產(chǎn)品來滿足客戶的個性化金融需求,增加客戶忠誠性。海沫等[3]根據(jù)盈利能力指標(biāo)、償債能力指標(biāo)、資產(chǎn)管理質(zhì)量指標(biāo)等15項財務(wù)指標(biāo)對中國股票市場上所有上市公司進(jìn)行了聚類實驗,得到股票板塊分類,為投資者的投資決策提供有益參考。

      在通信領(lǐng)域,王海晶[4]將聚類結(jié)果結(jié)合運營商生命周期理論,分析得到了不同的用戶群,然后分別從用戶個性化營銷策略方面和用戶挽留策略方面提出了相關(guān)的對策建議,為黑龍江移動公司的發(fā)展提供決策參考。

      2.2 農(nóng)業(yè)應(yīng)用

      在農(nóng)業(yè)領(lǐng)域,大數(shù)據(jù)聚類算法也應(yīng)用廣泛,因為農(nóng)業(yè)數(shù)據(jù)具有沒有先驗知識的特點,通過有效聚類可以挖掘到隱藏其中的規(guī)律和知識,為農(nóng)民的種植、養(yǎng)殖等生產(chǎn)、銷售環(huán)節(jié)給出指導(dǎo)意見。

      徐勇[5]提出了改進(jìn)的譜聚類算法并應(yīng)用到農(nóng)業(yè)大數(shù)據(jù)平臺上,對黑龍江省的農(nóng)墾系統(tǒng)各個農(nóng)場的農(nóng)業(yè)機(jī)械裝備水平數(shù)據(jù)進(jìn)行聚類,將聚類結(jié)果結(jié)合黑龍江省墾區(qū)地理環(huán)境一同分析,提供解決方案應(yīng)對機(jī)械裝備水平差異大的問題;對全國豬肉價格聚類,通過聚類結(jié)果幫助養(yǎng)豬用戶根據(jù)市場走勢科學(xué)養(yǎng)豬,以取得更好的經(jīng)濟(jì)效益。

      2.3 移動網(wǎng)絡(luò)應(yīng)用

      隨著時代發(fā)展,移動終端(如手機(jī)、傳感器等)和應(yīng)用也越來越多,產(chǎn)生了大量的數(shù)據(jù)。其中,比較有價值的就是軌跡數(shù)據(jù),目前人們主要通過語義軌跡聚類挖掘相似性用戶、推薦用戶下一個目的地以及軌跡數(shù)據(jù)中熱點區(qū)域識別。

      于喆[6]提出了基于聚類的GSRM原型系統(tǒng),通過對原始數(shù)據(jù)的預(yù)處理找到具有語義的停留點,然后通過分布式聚類算法挖掘用戶公認(rèn)的“熱點”,最后通過對用戶行為模式的挖掘,對用戶進(jìn)行位置服務(wù)。

      廖律超等[7]提出了一種交通路網(wǎng)譜聚類方法(TSSC),其實現(xiàn)的路網(wǎng)網(wǎng)格聚類能跟實際交通路網(wǎng)相匹配,還可用于交通擁堵點發(fā)現(xiàn)等應(yīng)用場景。牟向偉等[8]將流式數(shù)據(jù)兩階段方法,應(yīng)用在北京市出租車的定位數(shù)據(jù)上,聚類得到出租車活動較為頻繁的熱點區(qū)域和線路,與日常出行經(jīng)驗相符合,還可應(yīng)用到交通活動情況實時分析、交通規(guī)劃和擁堵治理等方面。

      2.4 醫(yī)療應(yīng)用

      醫(yī)療數(shù)據(jù)的產(chǎn)生具有持續(xù)性、高增長性、復(fù)雜性,同樣其中蘊(yùn)涵可觀的信息價值。故在醫(yī)療領(lǐng)域,大數(shù)據(jù)聚類算法也得到快速發(fā)展。

      2013年,張煥君等[9]提出了基于模糊聚類分析的臨床路徑?jīng)Q策方法,栗偉等[10]使用短文本自適應(yīng)聚類算法解決電子病歷中醫(yī)學(xué)名詞的識別問題。Lenart等[11]對患者的血壓、血紅蛋白等生理指標(biāo)進(jìn)行聚類,聚類結(jié)果將慢性腎病患者劃分成幾個群,分別對應(yīng)慢性腎病發(fā)展的不同階段。孫磊磊[12]使用改進(jìn)的AP聚類算法對電子病歷進(jìn)行數(shù)據(jù)挖掘,將人口統(tǒng)計學(xué)信息和診斷信息進(jìn)行聚類得到病人分組,將聯(lián)合用藥網(wǎng)絡(luò)進(jìn)行聚類挖掘出聯(lián)合用藥模塊,對治療記錄進(jìn)行聚類得到典型治療方案,最后對照病人分組和治療記錄評估典型治療方案的可行性。

      3 結(jié)語

      隨著技術(shù)進(jìn)步和應(yīng)用的需要,大數(shù)據(jù)聚類算法發(fā)展迅速,越來越多,主要有下面3個研究方向:(1)對大數(shù)據(jù)進(jìn)行抽樣或降維得到樣本,采用傳統(tǒng)聚類算法進(jìn)行聚類,再應(yīng)用到大數(shù)據(jù)上,主要缺點是樣本可能會出現(xiàn)偏差,精確性低。(2)并行聚類算法的優(yōu)點是效率高、可擴(kuò)展性好,但同樣復(fù)雜性也高。(3)基于Map Reduce實現(xiàn)的大數(shù)據(jù)聚類算法具有高可擴(kuò)展性,但在任務(wù)分解過程中會占用較多的軟硬件資源??梢娂毙柩芯亢唵?、高效、可擴(kuò)展、低耗和精確的大數(shù)據(jù)聚類算法。另外,各個領(lǐng)域的數(shù)據(jù)都有各自的特點,需要針對各個領(lǐng)域,探索更多、更高效的應(yīng)用模式,科學(xué)、商業(yè)、農(nóng)業(yè)、工程、醫(yī)學(xué)、醫(yī)療、法律、教育、運輸、零售、電信等特定領(lǐng)域的大數(shù)據(jù)聚類算法應(yīng)用都是重點研究方向。

      猜你喜歡
      聚類算法
      基于MapReduce的改進(jìn)Eclat算法
      基于K-means聚類的車-地?zé)o線通信場強(qiáng)研究
      Travellng thg World Full—time for Rree
      進(jìn)位加法的兩種算法
      算法初步兩點追蹤
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于增強(qiáng)隨機(jī)搜索的OECI-ELM算法
      條紋顏色分離與聚類
      一種改進(jìn)的整周模糊度去相關(guān)算法
      基于改進(jìn)的遺傳算法的模糊聚類算法
      攀枝花市| 西乌珠穆沁旗| 固安县| 东港市| 凤翔县| 临泉县| 阿巴嘎旗| 南康市| 西充县| 大洼县| 栖霞市| 富民县| 基隆市| 沐川县| 古丈县| 乌兰县| 东乡| 康保县| 肇东市| 伽师县| 历史| 拜城县| 张掖市| 东城区| 科技| 孙吴县| 同仁县| 惠水县| 徐汇区| 晋中市| 拜城县| 东山县| 句容市| 沁水县| 塔河县| 青川县| 文登市| 二连浩特市| 邮箱| 安新县| 阳信县|