肖堅(jiān)
摘? 要:近年來,隨著我國經(jīng)濟(jì)的不斷發(fā)展,信息技術(shù)的快速更新,使互聯(lián)網(wǎng)社交、衛(wèi)星導(dǎo)航、電子商務(wù)及交通運(yùn)輸?shù)榷鄠€(gè)領(lǐng)域都取得了較快的發(fā)展,并產(chǎn)生了大量的數(shù)據(jù)信息。隨著數(shù)據(jù)的不斷積累,會(huì)逐漸形成大數(shù)據(jù)的同時(shí)也開始受到各個(gè)企業(yè)的關(guān)注。而數(shù)據(jù)在進(jìn)行分析的過程中,機(jī)器學(xué)習(xí)是數(shù)據(jù)分析的常用方法之一,而本文則主要對(duì)大數(shù)據(jù)下的在線機(jī)器學(xué)習(xí)算法研究與應(yīng)用進(jìn)行詳細(xì)分析和介紹。
關(guān)鍵詞:大數(shù)據(jù)? 機(jī)器學(xué)習(xí)? 數(shù)據(jù)分析? 算法? 研究
中圖分類號(hào):TP181? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1674-098X(2020)08(b)-0134-03
Abstract: In recent years, with the continuous development of China's economy and the rapid update of information technology, Internet social networking, satellite navigation, e-commerce, transportation and other fields have achieved rapid development and generated a large amount of data information.As data continues to accumulate, it will gradually form big data and begin to attract the attention of various enterprises. In the process of data analysis, machine learning is one of the common methods of data analysis, and this article mainly analyzes and introduces the research and application of online machine learning algorithms under big data.
Key Words: Big data; Machine learning; Data analysis; Algorithm; Research
隨著計(jì)算機(jī)的問世,人類開始進(jìn)入信息化時(shí)代,而信息化產(chǎn)業(yè)得到空前發(fā)展的同時(shí)數(shù)據(jù)量也出現(xiàn)前所未有的增長,從而使大數(shù)據(jù)應(yīng)運(yùn)而生。實(shí)際上,大數(shù)據(jù)指的是一種利用傳統(tǒng)IT技術(shù)及軟硬件工具對(duì)數(shù)據(jù)進(jìn)行有感知、獲取、管理、處理及存儲(chǔ)的收集,或指的是一種無法裝載到計(jì)算機(jī)內(nèi)存儲(chǔ)器的數(shù)據(jù)集,機(jī)器學(xué)習(xí)算法初期相當(dāng)于一架模式分類器,可將樣本間的距離和分類面積進(jìn)行有效擴(kuò)大,降低判斷失誤的幾率,從而使數(shù)據(jù)風(fēng)險(xiǎn)降到最低,而其中的支持向量是將一個(gè)數(shù)據(jù)空間轉(zhuǎn)變?yōu)榱硪粋€(gè)高維度空間,并通過分類而得到更加精準(zhǔn)的數(shù)據(jù)。
1? 大數(shù)據(jù)的特點(diǎn)與分類
1.1 大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)在發(fā)展過程中,已從最初的3V模式發(fā)展到4V模式。其中,3V模式在速度、容量及多樣性方面具有一定優(yōu)點(diǎn),4V模式則具有各種不同的說法,如價(jià)值性、時(shí)效性、虛擬性、變化性及效率性等等。想要對(duì)于大數(shù)據(jù)的這些特性進(jìn)行分析和理解,有關(guān)專家一般認(rèn)為,應(yīng)將計(jì)算機(jī)技術(shù)與智能化技術(shù)進(jìn)行融合,使數(shù)據(jù)流的順暢性得到保證。而對(duì)于大數(shù)據(jù)的知識(shí)分析和處理,則人類智能和機(jī)器智能起到了十分關(guān)鍵的作用。此外,隨著人們對(duì)數(shù)據(jù)信息需求的不斷增加,使大數(shù)據(jù)在收集、傳遞、處理及應(yīng)用等有關(guān)技術(shù)得到不斷改變,從而讓一些半結(jié)構(gòu)化、結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的自身價(jià)值得到有效發(fā)揮。
1.2 大數(shù)據(jù)的分類
1.2.1 支持向量機(jī)分類
若對(duì)大數(shù)據(jù)應(yīng)用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行分類的話,一方面計(jì)算機(jī)會(huì)存在密集現(xiàn)象,對(duì)信息的大規(guī)模收集和處理較為不利;另一方面非參數(shù)空間模擬形式等方面會(huì)存在隨機(jī)性問題。因此,想要避免以上問題的出現(xiàn),就有了在線機(jī)器學(xué)習(xí)的方法。在線機(jī)器學(xué)習(xí)方法根據(jù)順序原理對(duì)數(shù)據(jù)進(jìn)行處理,使計(jì)算速度變得更快的同時(shí)也具有更加廣泛的收集能力,但這種方法有可能會(huì)降低支持?jǐn)?shù)據(jù)的處理數(shù)量,所以在對(duì)大數(shù)據(jù)進(jìn)行大規(guī)模分類時(shí),可以增量算法和最小二乘支持向量算法為基礎(chǔ),然后利用大數(shù)據(jù)分類算法對(duì)數(shù)據(jù)進(jìn)行提取,以此減少內(nèi)存需求量,同時(shí)也能使大數(shù)據(jù)得到更好分類。
1.2.2 神經(jīng)網(wǎng)絡(luò)和極端學(xué)習(xí)機(jī)
極限學(xué)習(xí)機(jī)(ELM ,Extreme Learning Machine),是由南洋理工大學(xué)黃廣斌教授提出來的求解單隱層神經(jīng)網(wǎng)絡(luò)的算法。 ELM最大的特點(diǎn)是對(duì)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),尤其是單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFNs),在保證學(xué)習(xí)精度的前提下比傳統(tǒng)的學(xué)習(xí)算法速度更快。在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,其通過梯度下降算法來對(duì)權(quán)值參數(shù)進(jìn)行相應(yīng)調(diào)整,但該算法具有泛化性差、效率低及計(jì)算速度慢等缺點(diǎn)。而想要對(duì)這些問題進(jìn)行解決,可通過ELM算法,隨機(jī)賦值神經(jīng)網(wǎng)絡(luò)中的偏差項(xiàng)及輸入權(quán)值,從而在一定程度上計(jì)算出網(wǎng)絡(luò)輸出權(quán)值。因此,ELM算法與傳統(tǒng)算法相比,計(jì)算效率可得到顯著提高。
1.2.3 決策樹分類
因傳統(tǒng)決策樹處理方法具有占用內(nèi)存過大的缺點(diǎn),所以在對(duì)大數(shù)據(jù)進(jìn)行處理時(shí),可通過新型大數(shù)據(jù)處理方式,對(duì)大數(shù)據(jù)構(gòu)造決策樹思路加以利用,使機(jī)器學(xué)習(xí)算法的限制性條件得到有效解決,同時(shí)計(jì)算速度與之前相比也有了一定的提升。另外,通過增量優(yōu)化方法,也能使決策樹算法的效率有效提高,并且這種方法具有一定的精確度,可確保數(shù)據(jù)精準(zhǔn)性的同時(shí)還能對(duì)帶有噪音的大數(shù)據(jù)加以處理。