大數(shù)據(jù)背景下機器學(xué)習(xí)算法的綜述

2018-02-16 16:51:34李成錄

信息記錄材料 2018年5期

李成錄

（青海師范大學(xué) 青海西寧 810008）

1 引言

大數(shù)據(jù)概念自1980年被托夫勒提出后，其發(fā)展前景不斷擴大，滲透到生活、工作、學(xué)習(xí)的方方面面。當(dāng)下，在信息技術(shù)的推動下，某些零散、碎片化的數(shù)據(jù)被搜集起來，逐漸凝聚為紛繁錯亂的大數(shù)據(jù)。大數(shù)據(jù)的快速發(fā)展，給高新技術(shù)產(chǎn)業(yè)帶來豐厚的回報，引起一大批實力雄厚企業(yè)的追捧。在2017年阿里巴巴、騰訊、京東等IT公司斥巨資從事大數(shù)據(jù)研究，從中享受到大數(shù)據(jù)賦予的金融回報。例如，滴滴打車、ofo共享單車、淘寶等，它們企業(yè)運轉(zhuǎn)效率在大數(shù)據(jù)的推動下得到質(zhì)的提升。因此，研究大數(shù)據(jù)背景下的機器學(xué)習(xí)算法對國家、企業(yè)、社會發(fā)展都有較大的促進作用，需要有適合的算法來滿足大數(shù)據(jù)時代的需求。本研究立足于當(dāng)下社會發(fā)展新形勢，為促進社會更好發(fā)展做出重要推動力。

2 大數(shù)據(jù)基本內(nèi)涵與特點

大數(shù)據(jù)（Big Data），是指在一定時間內(nèi)無法用常規(guī)數(shù)據(jù)處理軟件進行分析管理的數(shù)據(jù)集合。它以超出用MB、GB的形式來存儲。在這種新型大數(shù)據(jù)背景下，需要有更好地數(shù)據(jù)處理模式進行數(shù)據(jù)運算，才能從數(shù)據(jù)中形成更為科學(xué)的決策系統(tǒng)。被稱為大數(shù)據(jù)它具有不同于傳統(tǒng)數(shù)據(jù)的特點，與其他數(shù)據(jù)有清晰的界限。首先，大數(shù)據(jù)最鮮明的特點為“大”，它凝聚著海量資料，從多個維度、多個方面、多類型進行歸納匯總，形成一批難以用普通數(shù)據(jù)處理方法來解決的數(shù)據(jù)；其次，傳輸速度快。大數(shù)據(jù)是由互聯(lián)的機器產(chǎn)生的，它們以秒、毫秒、微秒的形式瞬間形成，不斷去輸入、輸出來完成其基本功能；緊接著，數(shù)據(jù)類型多種多樣，數(shù)據(jù)分類難度較大。大數(shù)據(jù)已經(jīng)不能用傳統(tǒng)的分類方式進行歸納，它們往往是非結(jié)構(gòu)化的，造成存儲、分析、探勘難度提升；最后，大數(shù)據(jù)具有真實性。在處理大數(shù)據(jù)時，要從紛繁錯亂的數(shù)據(jù)中剔除錯誤數(shù)據(jù)、虛假數(shù)據(jù)，保證大數(shù)據(jù)系統(tǒng)的真實客觀性。這樣，不僅可以降低據(jù)處理的難度，同時便于得出正確的應(yīng)對策略，讓大數(shù)據(jù)更好地為人服務(wù)。

3 機器學(xué)習(xí)在大數(shù)據(jù)背景下的必要性

機器學(xué)習(xí)是當(dāng)下處理大數(shù)據(jù)的重要途徑，它可以將多種優(yōu)勢凝聚起來，面對實際問題選擇最為合適的解決途徑。例如，在2017年AlphaGo對弈柯潔圍棋比賽中，以3比0的比分贏得了比賽，它正是機器學(xué)習(xí)的重要標(biāo)志。機器學(xué)習(xí)克服人為因素的局限性，通過神經(jīng)網(wǎng)絡(luò)、決策樹、深度學(xué)習(xí)，對數(shù)據(jù)進行科學(xué)有效地處理，全面提高數(shù)據(jù)的運算效率。當(dāng)下，信息網(wǎng)絡(luò)、商業(yè)活動、調(diào)查統(tǒng)計都會產(chǎn)生海量數(shù)據(jù)，這些數(shù)據(jù)以超出傳統(tǒng)的處理手段，迫切需要機器學(xué)習(xí)進行解決。傳統(tǒng)機器學(xué)習(xí)面臨的問題為：首先，機器算法較為固定，讀取大數(shù)據(jù)困難突出；其次，自動學(xué)習(xí)推理能力較低，得到數(shù)據(jù)結(jié)論不夠科學(xué)；最后，機器自我學(xué)習(xí)能力不足，不能迎合大數(shù)據(jù)對機器學(xué)習(xí)的需求。因此，探究出適合大數(shù)據(jù)背景下的機器學(xué)習(xí)，對未來發(fā)展有著不可估量的社會效益。

4 機器學(xué)習(xí)算法在處理大數(shù)據(jù)的重要手段

4.1 運用分治算法對大數(shù)據(jù)進行篩選剔除

分治算法在處理大數(shù)據(jù)上具有較好的優(yōu)勢，它可以被運用與分布式計算和并行運算。對大數(shù)據(jù)進行機器學(xué)習(xí)，樣本不同的數(shù)據(jù)對其影響比較顯著，不僅會徒增數(shù)據(jù)運算量，同時還會制約著學(xué)習(xí)效率，不利于更好地對數(shù)據(jù)進行分析判斷。而運用分治算法后，它對原始樣本進行預(yù)處理，將無效數(shù)據(jù)、冗余數(shù)據(jù)進行剔除，形成能夠很好表示原始樣本的數(shù)據(jù)集合。這樣，機器學(xué)習(xí)的目標(biāo)更為明確，學(xué)習(xí)難度得到有效降低，有助于形成正確的判斷。在選擇代表性數(shù)據(jù)集合時，通常采用的方法為壓縮近鄰法、約減法等等。它的原理就是要找到大數(shù)據(jù)所對應(yīng)的最小集合，通過一系列測試完成對子集的加工完善。此時，他們找到的集合是可以代表全體樣本的，具有較高的科學(xué)性，從而為大數(shù)據(jù)分析提供可能。運用分治算法首先要有符合要求的置信區(qū)間，在規(guī)定的區(qū)間內(nèi)進行數(shù)據(jù)的篩選、剔除。例如，借助Bag ofLittle Bootstraps，它可以降低抽樣所帶來的數(shù)據(jù)錯誤，從而提高數(shù)據(jù)預(yù)處理的準(zhǔn)確性。

4.2 引入聚類算法對大數(shù)據(jù)分布式計算

聚類算法在數(shù)據(jù)挖掘和數(shù)據(jù)處理中是最常用的方法，它在處理大型數(shù)據(jù)上有較好的應(yīng)用效果。首先，聚類算法對大數(shù)據(jù)進行類型劃分，將數(shù)據(jù)分為若干個子數(shù)據(jù)節(jié)點。在這時，對各節(jié)點數(shù)據(jù)進行機器學(xué)習(xí)效率更高，更有針對性地完成數(shù)據(jù)處理。聚類算法在機器學(xué)習(xí)的具體方法可以歸納為三種。第一種，采用非迭代化數(shù)據(jù)擴展。它利用模糊集概念，對數(shù)據(jù)進行FCM均值聚類分析，快速準(zhǔn)確地將數(shù)據(jù)分離開來；第二種為連續(xù)擴充子集合技術(shù)；第三種為抽樣估計均值算法。這三種可以有效解決大數(shù)據(jù)在時間上、空間上、處理速度、運轉(zhuǎn)效率的問題，達到對上至億萬的大數(shù)據(jù)分析。

4.3 數(shù)據(jù)并行算法優(yōu)化數(shù)據(jù)處理效率

傳統(tǒng)的機器學(xué)習(xí)在處理大數(shù)據(jù)上捉襟見肘，主要是由于各機器學(xué)習(xí)方法沒有做到并行化處理。單一數(shù)據(jù)處理機器不能獨立完成大數(shù)據(jù)處理，而是需要聯(lián)動各個數(shù)據(jù)處理部分，將其并行化運轉(zhuǎn)，從而達到對大數(shù)據(jù)的整體處理。它的思想就是將大數(shù)據(jù)“碎片化”，分成機器可以單純處理的數(shù)據(jù)模塊，最終通過綜合各個數(shù)據(jù)來達到對整體的把握。比如，在圖像處理平臺上，它正是利用并行算法，大大降低各數(shù)據(jù)處理的壓力，有效提升數(shù)據(jù)的運算能力。并行算法需要與聚類算法、分治算法進行有機統(tǒng)一，將三者算法融合在一起，讓大數(shù)據(jù)處理變得更為簡潔、輕松，同時也較好地保證機器學(xué)習(xí)的準(zhǔn)確性。

5 結(jié)語

大數(shù)據(jù)作為當(dāng)下的熱門，需要有一套科學(xué)合理的機器學(xué)習(xí)算法來滿足社會需求，讓數(shù)據(jù)處理變得更具效率。針對大數(shù)據(jù)的各個特點，通過運用分布式計算、聚類算法、分治算法，讓數(shù)據(jù)變得更具條理，數(shù)據(jù)處理分析難度得到有效降低，大大提高機器學(xué)習(xí)的能力。因此，要想在大數(shù)據(jù)有所突破，就需要對傳統(tǒng)機器學(xué)習(xí)算法進行優(yōu)化升級，讓其在大數(shù)據(jù)時代迸發(fā)出強勁活力。

[1]吳睿智，馬致遠，羅光春，劉貴松，秦科.大數(shù)據(jù)融合、分析與價值[J].信息通信技術(shù)，2016(06)：123-130.

[2] Yang Y M,Wang X N,Yuan X F.Bidirectional Extreme Learning Machine for Regression Problem and Its Learning Effectiveness.IEEE Trans on Neural Networks and Learning Systems,2012,23(9):1498-1505.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看