趙偉杰 陳海軍 張毅
摘 ? 要:在大數(shù)據(jù)時(shí)代悄然來臨之際,如何從海量數(shù)據(jù)中提取有價(jià)值信息,為生產(chǎn)生活的高效運(yùn)轉(zhuǎn)提供幫助,成了當(dāng)前科研領(lǐng)域的關(guān)鍵問題。尤其是在社會(huì)轉(zhuǎn)型的關(guān)鍵時(shí)期,充分借助于大數(shù)據(jù)優(yōu)勢(shì)以促進(jìn)新時(shí)期經(jīng)濟(jì)快速發(fā)展,是現(xiàn)代化建設(shè)中的重要途徑。機(jī)器學(xué)習(xí)是機(jī)器對(duì)人類行為的模仿,并在知識(shí)體系的持續(xù)更新中獲得性能提升,是人工智能發(fā)展中不可或缺的一項(xiàng)功能。機(jī)器學(xué)習(xí)算法的復(fù)雜程度較高,而且也會(huì)涉及多個(gè)學(xué)科。本文將通過分析大數(shù)據(jù)的相關(guān)內(nèi)容,研究大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法,以拓展其應(yīng)用領(lǐng)域。
關(guān)鍵詞:大數(shù)據(jù) ?機(jī)器學(xué)習(xí) ?算法
中圖分類號(hào):TP311.13;TP181 ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào):1674-098X(2019)08(c)-0250-02
在社會(huì)的各個(gè)領(lǐng)域當(dāng)中,大數(shù)據(jù)的概念已經(jīng)被人們所熟知,正在成為改變社會(huì)生產(chǎn)生活方式的關(guān)鍵因素。數(shù)據(jù)的海量性與變化性,是大數(shù)據(jù)的基本特點(diǎn),為了實(shí)現(xiàn)對(duì)數(shù)據(jù)信息的有效應(yīng)用,必須對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法加以優(yōu)化與改進(jìn),使其適應(yīng)大數(shù)據(jù)的變化特點(diǎn),以更好地被人們所應(yīng)用。大數(shù)據(jù)下機(jī)器學(xué)習(xí)算法的研究,不僅是學(xué)術(shù)界的關(guān)鍵工作,也受到了產(chǎn)業(yè)界的廣泛關(guān)注,這是促進(jìn)社會(huì)產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)型升級(jí)的關(guān)鍵途徑。機(jī)器學(xué)習(xí)涉及了多類學(xué)科,包括了統(tǒng)計(jì)學(xué)、概率論和逼近論等,因此其算法的復(fù)雜性也就相對(duì)較高。在數(shù)據(jù)挖掘、搜索引擎、語音與手寫識(shí)別、計(jì)算機(jī)視覺和機(jī)器人當(dāng)中,機(jī)器學(xué)習(xí)算法得到廣泛應(yīng)用。隨著大數(shù)據(jù)時(shí)代的進(jìn)一步發(fā)展,還應(yīng)該對(duì)機(jī)器學(xué)習(xí)算法中存在的問題進(jìn)行逐步改進(jìn)。
1 ?大數(shù)據(jù)的基本概念與機(jī)器學(xué)習(xí)理論
大數(shù)據(jù)在發(fā)展歷程中經(jīng)歷了多個(gè)階段,速度、體積和多樣,是3V模型的主要內(nèi)容,而在4V模型當(dāng)中,則增加了虛擬化、變化性和價(jià)值等。在計(jì)算機(jī)與人類的交互當(dāng)中,需要以智能分析接口為媒介,實(shí)現(xiàn)對(duì)大數(shù)據(jù)的充分利用。在大數(shù)據(jù)時(shí)代來臨之際,傳統(tǒng)機(jī)器學(xué)習(xí)算法面臨著較大的挑戰(zhàn),包括了自動(dòng)規(guī)劃問題、可發(fā)現(xiàn)新事物和自然語言接口研究等[1]。
2 ?大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法類型概述
目前,在大數(shù)據(jù)背景下機(jī)器學(xué)習(xí)主要的算法分為五種,分別是大數(shù)據(jù)分治策略與抽樣算法、大數(shù)據(jù)特征選擇算法、大數(shù)據(jù)分類算法、大數(shù)據(jù)聚類算法和大數(shù)據(jù)關(guān)聯(lián)分析。下面對(duì)這五種類型作簡(jiǎn)要分析。
2.1 大數(shù)據(jù)分治策略與抽樣
在龐大的樣本之中根據(jù)一定的性能標(biāo)準(zhǔn)選擇代表性樣本構(gòu)成一個(gè)子集,在此同時(shí)要保證樣本的分布、拓?fù)浣Y(jié)構(gòu)以及保持分類精度等確保子集樣本的數(shù)據(jù)的準(zhǔn)確性。然后在這個(gè)子集上進(jìn)行數(shù)據(jù)的分析統(tǒng)計(jì)和計(jì)算,即大數(shù)據(jù)分治策略與抽樣算法。在大數(shù)據(jù)相關(guān)問題的處理中,分治策略的應(yīng)用較為常見,為分布式與并行計(jì)算奠定了保障[2]。
2.2 大數(shù)據(jù)特征維度提取
大數(shù)據(jù)集被廣泛應(yīng)用于文檔分類、數(shù)據(jù)挖掘和多媒體索引當(dāng)中,由于數(shù)據(jù)量的持續(xù)增加,使得處理算法的執(zhí)行效率面臨較大挑戰(zhàn),為了促進(jìn)運(yùn)行時(shí)間的縮短,應(yīng)對(duì)特征維度進(jìn)行提取。維度上通常有一類維度、二類維度和多類維度之分,一類維度為初級(jí)分類,只需要設(shè)定一個(gè)閾值把數(shù)據(jù)分為AB兩類即可完成。二維以及二維以上的維度,一般采用歐氏距離進(jìn)行度量。二維的計(jì)算公式為:
2.3 大數(shù)據(jù)分類
在對(duì)決策樹分類學(xué)習(xí)算法進(jìn)行創(chuàng)新時(shí),可以采用在大數(shù)據(jù)中構(gòu)造決策樹的方法,以促進(jìn)計(jì)算速度的提升[4]。在神經(jīng)網(wǎng)絡(luò)與極端學(xué)習(xí)機(jī)的權(quán)值參數(shù)調(diào)整中,通常是采用梯度下降算法,但是其泛化性能不佳,而且也會(huì)對(duì)學(xué)習(xí)速度產(chǎn)生較大的限制。迭代調(diào)整策略的運(yùn)用,是解決此類問題的關(guān)鍵方法,在對(duì)網(wǎng)絡(luò)權(quán)值進(jìn)行確定時(shí)需要經(jīng)過多次迭代調(diào)整。
2.4 大數(shù)據(jù)聚類
在模式識(shí)別和數(shù)據(jù)挖掘當(dāng)中,聚類學(xué)習(xí)的應(yīng)用較為廣泛,非迭代擴(kuò)展、增量技術(shù)和核模糊c均值算法,是聚類算法的基礎(chǔ)。在并行處理大數(shù)據(jù)的過程中,MapReduce模型的應(yīng)用較為廣泛,其執(zhí)行引擎雖然結(jié)構(gòu)簡(jiǎn)單,但是性能優(yōu)越,是解決大數(shù)據(jù)分析難題的關(guān)鍵方法[5]。降維聚類、基于圖的聚類和子空間聚類等,是高維數(shù)據(jù)的常用聚類方法,在此過程中應(yīng)該重視對(duì)聚類性能的有效維持。
2.5 大數(shù)據(jù)關(guān)聯(lián)分析
并行與增量是解決大數(shù)據(jù)關(guān)聯(lián)分析的主要方法,其中Apriori算法是一種較為先進(jìn)的并行算法,其伸縮性與加速比較好,是促進(jìn)運(yùn)行效率提升的有效算法。頻繁序列挖掘算法、增量挖掘算法和增量序列挖掘算法等,能夠?qū)崿F(xiàn)約束的有效修改[6]。在更新序列模式的時(shí)間確定中,可以采用性能與差異均衡算法,促進(jìn)大數(shù)據(jù)實(shí)際運(yùn)行效果的增強(qiáng)。
3 ?結(jié)語
基于內(nèi)存的大數(shù)據(jù)機(jī)器學(xué)習(xí)是一種常見的機(jī)器學(xué)習(xí)算法類型,在計(jì)算機(jī)內(nèi)存中無法實(shí)現(xiàn)大數(shù)據(jù)的裝載,只有加強(qiáng)對(duì)現(xiàn)有算法的優(yōu)化,才能滿足當(dāng)前社會(huì)發(fā)展對(duì)大數(shù)據(jù)的應(yīng)用需求。大數(shù)據(jù)分治策略與抽樣能夠?qū)崿F(xiàn)樣本的分類處理,是提升運(yùn)算速度的基礎(chǔ);大數(shù)據(jù)特征選擇,能夠以不同特征屬性為依據(jù),實(shí)現(xiàn)數(shù)據(jù)的挖掘與文檔的分類;而在泛化性能的提升當(dāng)中,則需要依靠大數(shù)據(jù)分類算法,如支持向量機(jī)分類和決策樹分類等等;在多種應(yīng)用中的大數(shù)據(jù)模式識(shí)別中,則需要采用大數(shù)據(jù)聚類算法;在交易數(shù)據(jù)庫中不同項(xiàng)間聯(lián)系的分析中,則需要借助于關(guān)聯(lián)分析算法。在實(shí)際應(yīng)用中要根據(jù)情況靈活使用不同算法進(jìn)行處理,促進(jìn)大數(shù)據(jù)處理運(yùn)算速度的提升。
參考文獻(xiàn)
[1] 姜娜,顧慶傳,楊海燕,等.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法[J].電腦與信息技術(shù),2019,27(3):30-33.
[2] 顧潤龍.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法探討[J].通訊世界,2019,26(5):279-280.
[3] 趙詣.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述——以AlphaGO為例[J].信息記錄材料,2019,20(1):10-12.
[4] 劉志強(qiáng).大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法探討[J].中國新通信,2018,20(21):183.
[5] 朱熙文.大數(shù)據(jù)下的在線機(jī)器學(xué)習(xí)算法研究與應(yīng)用[D].西南交通大學(xué),2017.
[6] 肖紅.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法探討[J].通訊世界,2017(6):265-266.