彭艷林
成都理工大學(xué)管理科學(xué)學(xué)院,四川 成都 610000
大數(shù)據(jù)下的機器學(xué)習(xí)算法分析及研究
彭艷林
成都理工大學(xué)管理科學(xué)學(xué)院,四川 成都 610000
隨著我國社會經(jīng)濟的不斷發(fā)展,電子商務(wù)、網(wǎng)絡(luò)社交、衛(wèi)星導(dǎo)航等各類領(lǐng)域都獲得了長足發(fā)展,并產(chǎn)生了大量的數(shù)據(jù)信息,大數(shù)據(jù)也在長期的數(shù)據(jù)積累中形成,受到各個企業(yè)的關(guān)注。大數(shù)據(jù)機器學(xué)習(xí)算法已經(jīng)逐漸取代了小數(shù)據(jù)機器學(xué)習(xí)算法,能夠有效提高數(shù)據(jù)查找、計算、處理的效率。基于此,重點探究了大數(shù)據(jù)機器學(xué)習(xí)算法分類,提出了大數(shù)據(jù)背景下的機器學(xué)習(xí)算法模型。
大數(shù)據(jù);機器學(xué)習(xí)算法;效率;計算
現(xiàn)如今,人類已經(jīng)進入到了信息時代。我國信息產(chǎn)業(yè)飛速發(fā)展,數(shù)據(jù)量也在突飛猛進,大數(shù)據(jù)也應(yīng)運而生。大數(shù)據(jù)資源中含有很多重要信息,有著極大的價值,給企業(yè)帶來了豐厚收入,讓各行各業(yè)都認識到了大數(shù)據(jù)的重要性。大數(shù)據(jù)不僅能夠作為信息搜集器,同時還能夠利用IT技術(shù)對數(shù)據(jù)進行感知、捕獲、處理、存儲等。在整個機器學(xué)習(xí)領(lǐng)域中,就好比分類器,能夠擴大分類面積和樣本間的距離,這樣就能夠減少判斷失誤的問題,將數(shù)據(jù)風(fēng)險降到最低。其中的支持向量是將一個數(shù)據(jù)空間變成另一個高維度空間,通過分類得到更加精準(zhǔn)的數(shù)據(jù)。
大數(shù)據(jù)在長期的發(fā)展中,從最初的3 V發(fā)展到了4 V,其中,3 V更多表現(xiàn)出多樣性、速度性、容量大等特點;4 V更多展現(xiàn)了不同意義上的含義,例如價值性、虛擬性、時效性、變化性等特點[1]。對于大數(shù)據(jù)的理解和分析,學(xué)者們認為需要將智能化技術(shù)和計算機技術(shù)相互融合,保障整個數(shù)據(jù)流的順暢性。在大數(shù)據(jù)的分析和研究中,人類智慧和機器智能在其中發(fā)揮著巨大的作用。隨著人們對數(shù)據(jù)信息的需求量的不斷增加,大數(shù)據(jù)在整個收集、傳遞、處理、應(yīng)用中不斷改進,讓一些結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)發(fā)揮自身的價值。大數(shù)據(jù)可以從以下幾點進行分類:
第一,支持向量機分類。大數(shù)據(jù)如果采用傳統(tǒng)機器學(xué)習(xí)形式進行分類,可以發(fā)現(xiàn)兩點問題:計算機非常密集,不利于信息的收集和大規(guī)模處理;存在著隨機性問題,主要是非參數(shù)空間的模擬形式。這就有了在線學(xué)習(xí)的方法。根據(jù)順序原理進行數(shù)據(jù)處理,該方法的計算速度更快,并且具備更加廣泛的收集能力,但是支持數(shù)據(jù)的處理數(shù)量會減少。面對大規(guī)模分類問題,通常采用最小乘二支持向量算法和增量算法為主,通過大數(shù)據(jù)的分類算法進行數(shù)據(jù)提取。這樣的方法不僅所占內(nèi)存較小,而且能夠更好地解決大數(shù)據(jù)分類問題。
第二,決策樹分類。傳統(tǒng)決策樹處理方法存在著占用空間大等問題,這就提出了一種新型的方式,也就是通過大數(shù)據(jù)構(gòu)造決策樹的思想,解決機器學(xué)習(xí)算法中的限制性條件,并且計算速度要比之前快很多。同時也能夠采用增量優(yōu)化的形式,提高決策樹算法效率。該類算法形式具有實時性特點,挖掘能力也非常強,具備非常高的預(yù)測精度,保證了數(shù)據(jù)的精準(zhǔn)性。
第三,神經(jīng)網(wǎng)絡(luò)和極端學(xué)習(xí)機。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)采用梯度下降算法對權(quán)值參數(shù)進行調(diào)整,存在著計算速度慢、泛化性差、效率低等問題。為了解決此類問題,可以采用ELM算法。該方法主要通過隨機賦值神經(jīng)網(wǎng)絡(luò)中的偏差項輸入權(quán)值,這就在很大程度上計算出了網(wǎng)絡(luò)輸出權(quán)值。相比傳統(tǒng)的算法,該類算法形式的計算效率更加明顯。
第四,應(yīng)用領(lǐng)域分類。現(xiàn)如今,應(yīng)用領(lǐng)域?qū)用鎸Ψ诸愃惴ǖ难芯糠浅V泛,例如醫(yī)學(xué)專家采用機器學(xué)習(xí)獲得先進的診斷知識,通過計算機輔助診斷,但是樣本獲取相對較難。因此,可以利用半監(jiān)督的學(xué)習(xí)方法,對診斷樣本進行估算,提高估算內(nèi)容的精準(zhǔn)度,從而獲得相關(guān)的知識。該類方法在基礎(chǔ)數(shù)據(jù)集中能夠更好地結(jié)合基礎(chǔ)數(shù)據(jù),所獲得的新數(shù)據(jù)也更加貼近實際。
第五,監(jiān)督和非監(jiān)督學(xué)習(xí)分類。其中,監(jiān)督學(xué)習(xí)是分類和學(xué)習(xí);非監(jiān)督學(xué)習(xí)是聚類。監(jiān)督學(xué)習(xí)是我們對輸入樣本經(jīng)過模型訓(xùn)練后有明確的預(yù)期輸出,非監(jiān)督學(xué)習(xí)是我們對輸入樣本經(jīng)過模型訓(xùn)練后得到什么輸出完全沒有預(yù)期。
通過不同的模型形式和定量標(biāo)準(zhǔn)合理選擇算法。評價函數(shù)可以采用不同的數(shù)據(jù)模型,應(yīng)用相關(guān)性的多項指標(biāo),用來測量某個特征和類別之間的關(guān)聯(lián)性。在選取數(shù)據(jù)模型的過程中,不需要限制各類參數(shù),同時要保障不同參數(shù)之間的獨立性,避免在數(shù)據(jù)獲取過程中出現(xiàn)偏差。采用特征分布形式進行有效選擇,這樣就能夠在選擇過程中減少噪聲帶來的負面影響。常見的算法有以下幾種:
第一,共享存儲模型。可以簡稱為共享內(nèi)存模型,在某個進程對共享內(nèi)存數(shù)據(jù)進行改動時,會影響訪問共享系統(tǒng)中的其他進程。數(shù)據(jù)共享不需要經(jīng)過進程之間的數(shù)據(jù)傳遞,而是通過直接訪問的形式,這樣就大大提高了效率。共享存儲模型根據(jù)線程鎖機制劃分為同步形式和異步形式。同步形式就是各線程更新相關(guān)參數(shù),并對參數(shù)信息進行計算,計算完畢后分享到內(nèi)存中進行聚合操作,之后讀取全局參數(shù)實現(xiàn)劃分;異步形式主要更新部分參數(shù),更新完畢后即可共享到內(nèi)存參數(shù)值當(dāng)中,在其他線程讀取模型參數(shù)過程中,可以直接獲取更新完畢的參數(shù)。由于當(dāng)今計算機都是采用4核、8核的CPU,因此大多數(shù)分布系統(tǒng)的單一節(jié)點就是采用異步計算機模型。該模型在校園機房中的應(yīng)用非常廣泛,也就是教師操作終端進行子計算機的控制,通過同步、異步共享信息對子計算機進行數(shù)據(jù)更新,之后開展教學(xué)工作[2]。
第二,整體同步計算。該模式是通過局部內(nèi)存部分形式和不同處理單元同步路障組成,其更新流程為多個處理單元逐漸對系統(tǒng)模型進行更新,根據(jù)路障機制節(jié)點處理要求進行同步等待,之后主節(jié)點會對各個線程信息進行統(tǒng)一更新,將所更新信息傳遞到各類處理單元當(dāng)中,從而進行新一輪的數(shù)據(jù)迭代。結(jié)合數(shù)據(jù)劃分原理可以解釋成:各個節(jié)點通過本地數(shù)據(jù)對數(shù)據(jù)模型數(shù)據(jù)進行更新,待到計算機各個節(jié)點信息獲取完畢后,主節(jié)點要對各類信息進行匯總,并發(fā)生新一輪的全局模型參數(shù)更新。該模型通常應(yīng)用于企業(yè)財務(wù)管理系統(tǒng)當(dāng)中,通過對各個部門的財務(wù)信息進行匯總和整合,進行統(tǒng)一核算處理。
第三,異步并行計算。該模型主要是通過處理器和全局參數(shù)總結(jié)點構(gòu)成。異步更新通過不同節(jié)點采用不同步調(diào)對主節(jié)點模型參數(shù)進行更新,并結(jié)合數(shù)據(jù)劃分進行數(shù)據(jù)更新處理。從數(shù)據(jù)劃分可以解釋為:各個節(jié)點采用本地數(shù)據(jù)對整個模型參數(shù)進行單獨計算,待到完成一輪之后對模型參數(shù)進行更新,并在主節(jié)點獲取新一輪的參數(shù)信息進行二次計算和二次更新。各個節(jié)點在進行更新過程中會造成最終結(jié)果缺乏收斂性。為了解決ASP模型計算不穩(wěn)定問題,可以融入延遲同步計算模型,也就是從不規(guī)則迭代轉(zhuǎn)換為根據(jù)快慢速度迭代的方法[3]。該模型在氣象系統(tǒng)(類似需要不斷更新信息的系統(tǒng))當(dāng)中應(yīng)用比較頻繁,主要是為了能夠進行實時更新和替換,并保證系統(tǒng)更新的穩(wěn)定性。
綜上所述,大數(shù)據(jù)的到來給機器學(xué)習(xí)算法帶來了很大的改變。通過研究機器學(xué)習(xí)算法理論和相關(guān)技術(shù),可以針對性地提出不同分類方法和數(shù)據(jù)模型。根據(jù)不同數(shù)據(jù)模型的優(yōu)缺點進行分析和改良,提高數(shù)據(jù)獲取和更新的效率。
[1]黃一鳴,雷航,李曉瑜.量子機器學(xué)習(xí)算法綜述[J].計算機學(xué)報,2017(40):20-21.
[2]亢良伊,王建飛,劉杰,葉丹.可擴展機器學(xué)習(xí)的并行與分布式優(yōu)化算法綜述[J].軟件學(xué)報,2015(2):21-23.
[3]肖紅.大數(shù)據(jù)下的機器學(xué)習(xí)算法探討[J].通訊世界,2017(6):265-266.
Analysis and Research of Machine Learning Algorithm under Big Data
Peng Yanlin
School of Management Science, Chengdu University of Technology, Sichuan Chengdu 610000
With China’s social and economic development, e-commerce, social networking, satellite navigation and other fields have achieved great progress, and produced a large amount of data information, the formation of large data in the long-term accumulation of data, wide attention of various enterprises. The large data machine learning algorithm has gradually replaced the small data machine learning algorithm, which can effectively improve the efficiency of data search,calculation and processing. Based on this, this paper focuses on the classification of big data machine learning algorithms,and then proposes a machine learning algorithm model in the context of big data.
big data; machine learning algorithm; efficiency; calculation
TP181
A
1009-6434(2017)7-0115-02
彭艷林(1996—),男,四川崇州人,漢族,本科在讀。