• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)背景下機器學(xué)習(xí)算法的綜述

      2018-02-16 16:51:34李成錄
      信息記錄材料 2018年5期
      關(guān)鍵詞:數(shù)據(jù)處理機器聚類

      李成錄

      (青海師范大學(xué) 青海 西寧 810008)

      1 引言

      大數(shù)據(jù)概念自1980年被托夫勒提出后,其發(fā)展前景不斷擴大,滲透到生活、工作、學(xué)習(xí)的方方面面。當(dāng)下,在信息技術(shù)的推動下,某些零散、碎片化的數(shù)據(jù)被搜集起來,逐漸凝聚為紛繁錯亂的大數(shù)據(jù)。大數(shù)據(jù)的快速發(fā)展,給高新技術(shù)產(chǎn)業(yè)帶來豐厚的回報,引起一大批實力雄厚企業(yè)的追捧。在2017年阿里巴巴、騰訊、京東等IT公司斥巨資從事大數(shù)據(jù)研究,從中享受到大數(shù)據(jù)賦予的金融回報。例如,滴滴打車、ofo共享單車、淘寶等,它們企業(yè)運轉(zhuǎn)效率在大數(shù)據(jù)的推動下得到質(zhì)的提升。因此,研究大數(shù)據(jù)背景下的機器學(xué)習(xí)算法對國家、企業(yè)、社會發(fā)展都有較大的促進作用,需要有適合的算法來滿足大數(shù)據(jù)時代的需求。本研究立足于當(dāng)下社會發(fā)展新形勢,為促進社會更好發(fā)展做出重要推動力。

      2 大數(shù)據(jù)基本內(nèi)涵與特點

      大數(shù)據(jù)(Big Data),是指在一定時間內(nèi)無法用常規(guī)數(shù)據(jù)處理軟件進行分析管理的數(shù)據(jù)集合。它以超出用MB、GB的形式來存儲。在這種新型大數(shù)據(jù)背景下,需要有更好地數(shù)據(jù)處理模式進行數(shù)據(jù)運算,才能從數(shù)據(jù)中形成更為科學(xué)的決策系統(tǒng)。被稱為大數(shù)據(jù)它具有不同于傳統(tǒng)數(shù)據(jù)的特點,與其他數(shù)據(jù)有清晰的界限。首先,大數(shù)據(jù)最鮮明的特點為“大”,它凝聚著海量資料,從多個維度、多個方面、多類型進行歸納匯總,形成一批難以用普通數(shù)據(jù)處理方法來解決的數(shù)據(jù);其次,傳輸速度快。大數(shù)據(jù)是由互聯(lián)的機器產(chǎn)生的,它們以秒、毫秒、微秒的形式瞬間形成,不斷去輸入、輸出來完成其基本功能;緊接著,數(shù)據(jù)類型多種多樣,數(shù)據(jù)分類難度較大。大數(shù)據(jù)已經(jīng)不能用傳統(tǒng)的分類方式進行歸納,它們往往是非結(jié)構(gòu)化的,造成存儲、分析、探勘難度提升;最后,大數(shù)據(jù)具有真實性。在處理大數(shù)據(jù)時,要從紛繁錯亂的數(shù)據(jù)中剔除錯誤數(shù)據(jù)、虛假數(shù)據(jù),保證大數(shù)據(jù)系統(tǒng)的真實客觀性。這樣,不僅可以降低據(jù)處理的難度,同時便于得出正確的應(yīng)對策略,讓大數(shù)據(jù)更好地為人服務(wù)。

      3 機器學(xué)習(xí)在大數(shù)據(jù)背景下的必要性

      機器學(xué)習(xí)是當(dāng)下處理大數(shù)據(jù)的重要途徑,它可以將多種優(yōu)勢凝聚起來,面對實際問題選擇最為合適的解決途徑。例如,在2017年AlphaGo對弈柯潔圍棋比賽中,以3比0的比分贏得了比賽,它正是機器學(xué)習(xí)的重要標(biāo)志。機器學(xué)習(xí)克服人為因素的局限性,通過神經(jīng)網(wǎng)絡(luò)、決策樹、深度學(xué)習(xí),對數(shù)據(jù)進行科學(xué)有效地處理,全面提高數(shù)據(jù)的運算效率。當(dāng)下,信息網(wǎng)絡(luò)、商業(yè)活動、調(diào)查統(tǒng)計都會產(chǎn)生海量數(shù)據(jù),這些數(shù)據(jù)以超出傳統(tǒng)的處理手段,迫切需要機器學(xué)習(xí)進行解決。傳統(tǒng)機器學(xué)習(xí)面臨的問題為:首先,機器算法較為固定,讀取大數(shù)據(jù)困難突出;其次,自動學(xué)習(xí)推理能力較低,得到數(shù)據(jù)結(jié)論不夠科學(xué);最后,機器自我學(xué)習(xí)能力不足,不能迎合大數(shù)據(jù)對機器學(xué)習(xí)的需求。因此,探究出適合大數(shù)據(jù)背景下的機器學(xué)習(xí),對未來發(fā)展有著不可估量的社會效益。

      4 機器學(xué)習(xí)算法在處理大數(shù)據(jù)的重要手段

      4.1 運用分治算法對大數(shù)據(jù)進行篩選剔除

      分治算法在處理大數(shù)據(jù)上具有較好的優(yōu)勢,它可以被運用與分布式計算和并行運算。對大數(shù)據(jù)進行機器學(xué)習(xí),樣本不同的數(shù)據(jù)對其影響比較顯著,不僅會徒增數(shù)據(jù)運算量,同時還會制約著學(xué)習(xí)效率,不利于更好地對數(shù)據(jù)進行分析判斷。而運用分治算法后,它對原始樣本進行預(yù)處理,將無效數(shù)據(jù)、冗余數(shù)據(jù)進行剔除,形成能夠很好表示原始樣本的數(shù)據(jù)集合。這樣,機器學(xué)習(xí)的目標(biāo)更為明確,學(xué)習(xí)難度得到有效降低,有助于形成正確的判斷。在選擇代表性數(shù)據(jù)集合時,通常采用的方法為壓縮近鄰法、約減法等等。它的原理就是要找到大數(shù)據(jù)所對應(yīng)的最小集合,通過一系列測試完成對子集的加工完善。此時,他們找到的集合是可以代表全體樣本的,具有較高的科學(xué)性,從而為大數(shù)據(jù)分析提供可能。運用分治算法首先要有符合要求的置信區(qū)間,在規(guī)定的區(qū)間內(nèi)進行數(shù)據(jù)的篩選、剔除。例如,借助Bag ofLittle Bootstraps,它可以降低抽樣所帶來的數(shù)據(jù)錯誤,從而提高數(shù)據(jù)預(yù)處理的準(zhǔn)確性。

      4.2 引入聚類算法對大數(shù)據(jù)分布式計算

      聚類算法在數(shù)據(jù)挖掘和數(shù)據(jù)處理中是最常用的方法,它在處理大型數(shù)據(jù)上有較好的應(yīng)用效果。首先,聚類算法對大數(shù)據(jù)進行類型劃分,將數(shù)據(jù)分為若干個子數(shù)據(jù)節(jié)點。在這時,對各節(jié)點數(shù)據(jù)進行機器學(xué)習(xí)效率更高,更有針對性地完成數(shù)據(jù)處理。聚類算法在機器學(xué)習(xí)的具體方法可以歸納為三種。第一種,采用非迭代化數(shù)據(jù)擴展。它利用模糊集概念,對數(shù)據(jù)進行FCM均值聚類分析,快速準(zhǔn)確地將數(shù)據(jù)分離開來;第二種為連續(xù)擴充子集合技術(shù);第三種為抽樣估計均值算法。這三種可以有效解決大數(shù)據(jù)在時間上、空間上、處理速度、運轉(zhuǎn)效率的問題,達到對上至億萬的大數(shù)據(jù)分析。

      4.3 數(shù)據(jù)并行算法優(yōu)化數(shù)據(jù)處理效率

      傳統(tǒng)的機器學(xué)習(xí)在處理大數(shù)據(jù)上捉襟見肘,主要是由于各機器學(xué)習(xí)方法沒有做到并行化處理。單一數(shù)據(jù)處理機器不能獨立完成大數(shù)據(jù)處理,而是需要聯(lián)動各個數(shù)據(jù)處理部分,將其并行化運轉(zhuǎn),從而達到對大數(shù)據(jù)的整體處理。它的思想就是將大數(shù)據(jù)“碎片化”,分成機器可以單純處理的數(shù)據(jù)模塊,最終通過綜合各個數(shù)據(jù)來達到對整體的把握。比如,在圖像處理平臺上,它正是利用并行算法,大大降低各數(shù)據(jù)處理的壓力,有效提升數(shù)據(jù)的運算能力。并行算法需要與聚類算法、分治算法進行有機統(tǒng)一,將三者算法融合在一起,讓大數(shù)據(jù)處理變得更為簡潔、輕松,同時也較好地保證機器學(xué)習(xí)的準(zhǔn)確性。

      5 結(jié)語

      大數(shù)據(jù)作為當(dāng)下的熱門,需要有一套科學(xué)合理的機器學(xué)習(xí)算法來滿足社會需求,讓數(shù)據(jù)處理變得更具效率。針對大數(shù)據(jù)的各個特點,通過運用分布式計算、聚類算法、分治算法,讓數(shù)據(jù)變得更具條理,數(shù)據(jù)處理分析難度得到有效降低,大大提高機器學(xué)習(xí)的能力。因此,要想在大數(shù)據(jù)有所突破,就需要對傳統(tǒng)機器學(xué)習(xí)算法進行優(yōu)化升級,讓其在大數(shù)據(jù)時代迸發(fā)出強勁活力。

      [1]吳睿智,馬致遠,羅光春,劉貴松,秦科.大數(shù)據(jù)融合、分析與價值[J].信息通信技術(shù),2016(06):123-130.

      [2] Yang Y M,Wang X N,Yuan X F.Bidirectional Extreme Learning Machine for Regression Problem and Its Learning Effectiveness.IEEE Trans on Neural Networks and Learning Systems,2012,23(9):1498-1505.

      猜你喜歡
      數(shù)據(jù)處理機器聚類
      機器狗
      認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
      機器狗
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
      未來機器城
      電影(2018年8期)2018-09-21 08:00:06
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于改進的遺傳算法的模糊聚類算法
      基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
      無敵機器蛛
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      万荣县| 舟山市| 遵义县| 三台县| 花莲市| 桐梓县| 寿光市| 那坡县| 乌兰察布市| 榆社县| 余干县| 开平市| 卫辉市| 和平区| 出国| 工布江达县| 山丹县| 沅陵县| 莱阳市| 双鸭山市| 赤城县| 剑川县| 岳西县| 本溪市| 新竹市| 建始县| 榆中县| 崇阳县| 潞城市| 龙里县| 余姚市| 垣曲县| 泰宁县| 峨眉山市| 卢氏县| 西和县| 喀喇| 乌鲁木齐县| 徐汇区| 盐亭县| 三江|