• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)支撐下的機器學(xué)習(xí)算法

      2018-06-06 10:14姜紹俊
      電腦知識與技術(shù) 2018年7期
      關(guān)鍵詞:機器學(xué)習(xí)大數(shù)據(jù)算法

      姜紹俊

      摘要:大數(shù)據(jù)和機器學(xué)習(xí)都是現(xiàn)代計算機領(lǐng)域中重大的技術(shù)變革,這些技術(shù)對各行各業(yè)都產(chǎn)生了巨大的影響。目前,隨著互聯(lián)網(wǎng)、移動通信、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)的快速發(fā)展,這些網(wǎng)絡(luò)每天都會產(chǎn)生大量的數(shù)據(jù),數(shù)據(jù)成為當今最重要的信息資源。一些研究表明,在很多情況下數(shù)據(jù)規(guī)模越大,利用這些數(shù)據(jù)進行機器學(xué)習(xí)的效果會越好。因此在大數(shù)據(jù)支撐下的機器學(xué)習(xí)成為全球?qū)W術(shù)界和工業(yè)界高度關(guān)注的熱點研究領(lǐng)域。本文介紹了在大數(shù)據(jù)支撐下的一些經(jīng)典機器學(xué)習(xí)算法。

      關(guān)鍵詞:大數(shù)據(jù);機器學(xué)習(xí);信息;算法;系統(tǒng)

      中圖分類號:TP3 文獻標識碼:A 文章編號:1009-3044(2018)07-0164-02

      Abstract: Big Data and Machine Learning are the major technological changes in the modern computer field, which have a great impact on all walks of life. At present, with the rapid development of Internet, Mobile Communication, Social Networking Services and Internet of Things, these networks generate a large of data everyday. These data become the most important information resources nowadays. Some researches show that, in many cases, the greater size of the data, the better the effect of using these data for Machine Learning. Therefore, Machine Learning under the support of Big Data has become a hot research field in the global academia and industry. In this paper, some classical Machine Learning algorithms under the support of Big Data are introduced.

      Key words: Dig Data; Machine Learning; Information; Algorithms; Systems

      1 大數(shù)據(jù)概述

      近年來隨著互聯(lián)網(wǎng)、移動通信、社交媒體、物聯(lián)網(wǎng)的快速發(fā)展,各種網(wǎng)絡(luò)應(yīng)用每天都會產(chǎn)生大量的數(shù)據(jù),導(dǎo)致全球數(shù)據(jù)總量呈現(xiàn)爆炸式的增長,數(shù)據(jù)成為當今最重要的基礎(chǔ)信息資源,人類社會加快了進入信息化的步伐。隨著產(chǎn)業(yè)界數(shù)據(jù)量的爆炸式增長,數(shù)據(jù)以前所未有的速度積累,大數(shù)據(jù)(Big Data)概念受到越來越多的關(guān)注。大數(shù)據(jù)正在給數(shù)據(jù)密集型企業(yè)帶來豐厚的利潤,據(jù)估計僅Google公司在2009年就為美國經(jīng)濟貢獻540億美元[1]。國際數(shù)據(jù)公司IDC的數(shù)字宇宙研究報告稱:2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量超過1.8ZB,且增長趨勢遵循新摩爾定律(全球數(shù)據(jù)量大約每兩年翻一番),預(yù)計2020年將達到35ZB。大數(shù)據(jù)包含了互聯(lián)網(wǎng)、醫(yī)療設(shè)備、視頻監(jiān)控、移動設(shè)備、智能設(shè)備、非傳統(tǒng)IT設(shè)備等渠道產(chǎn)生的海量結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。[2]

      人類在這么多的數(shù)據(jù)面前到底可以獲得什么有價值的信息,成為人類社會關(guān)注的焦點。2012年,美國政府就在繼高速公路、國際互聯(lián)網(wǎng)之后宣布,大數(shù)據(jù)將成為美國未來重要的技術(shù)發(fā)展領(lǐng)域?,F(xiàn)在許多國家和國際跨國公司也都加入到大數(shù)據(jù)的發(fā)展中來,比如Google、IBM、微軟、阿里巴巴和百度等。對于大數(shù)據(jù)的基本定義可以從大數(shù)據(jù)具有多方面的特征來進行概述。大數(shù)據(jù)的基本模型就是以大數(shù)據(jù)的特點來概括的。在基本的大數(shù)據(jù)定義中包括數(shù)據(jù)的規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)、變化性(Variability)、虛擬性(Virtual)、價值性(Value)。針對這些特點,王飛躍[3]認為在大數(shù)據(jù)時代知識解析、機器智能與人類智能協(xié)調(diào)工作及智能分析系統(tǒng)將會扮演重要角色,人們需要一種智能分析接口將人類與計算機世界連接,否則將被淹沒在大數(shù)據(jù)的洪流中。

      隨著時間的推移大數(shù)據(jù)技術(shù)將應(yīng)用到人類社會的各個領(lǐng)域,并對其帶來巨大的技術(shù)變革,會帶給各個領(lǐng)域前所未有的發(fā)展機遇。大數(shù)據(jù)技術(shù)包括數(shù)據(jù)生成、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)處理等。數(shù)據(jù)分析是大數(shù)據(jù)技術(shù)中的核心技術(shù),利用它可以直接產(chǎn)生有價值的信息。目前數(shù)據(jù)分析技術(shù)包括:數(shù)據(jù)挖掘、分類和聚類、關(guān)聯(lián)規(guī)則、遺傳算法、回歸分析、神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)等。

      2 機器學(xué)習(xí)及其相關(guān)知識

      人類的一種重要智能行為就是學(xué)習(xí)能力,目前計算機也已經(jīng)初步具有這樣的能力了。正如Tom M. Mitchell在其著作《Machine Learning》中指出,機器學(xué)習(xí)就是指“計算機利用經(jīng)驗自動改善系統(tǒng)自身性能的行為”。[4]機器學(xué)習(xí)通過對已有數(shù)據(jù)中的信息進行分析、處理,形成新的經(jīng)驗和知識,對未知的信息進行判斷、預(yù)測,使計算機像人一樣具有學(xué)習(xí)能力。

      在傳統(tǒng)意義下,機器學(xué)習(xí)可以表示為:令Rn為一個問題空間,(x,y)∈Rn,稱為樣本或?qū)ο?,其中,x是一個n維矢量,y是一個類別域中的一個值。[5]根據(jù)概率論和數(shù)理統(tǒng)計的基礎(chǔ)知識,我們知道Rn即為整個要考察問題的總體空間。隨著人們認識的不斷發(fā)展,在這個總體空間中所發(fā)生的客觀現(xiàn)象大體上可以分成兩大類:一類為確定性現(xiàn)象,另一類為非確定性現(xiàn)象。確定性現(xiàn)象的共同點是在準確重復(fù)某些條件或是根據(jù)它過去的狀態(tài),可以對結(jié)果做出準確的預(yù)測。非確定性現(xiàn)象則剛好相反,即使在相同條件下對其做重復(fù)試驗或是知道它過去的狀態(tài)也很難知道它未來的結(jié)果。但是我們可以根據(jù)確定性現(xiàn)象建立一個模型M,然后期望這個模型M不僅對整個總體空間Rn中的確定性現(xiàn)象可以做出準確的預(yù)測,也可以對整個總體空間中的不確定現(xiàn)象做出一個準確率大于一個閾值的預(yù)測。這個閾值越小,證明我們的模型M越好。模型M對于整個總體空間Rn的預(yù)測準確率也被稱為模型M對總體空間Rn的泛化能力。

      近幾年,由于數(shù)據(jù)分析、信息安全、圖像處理等需求使得機器學(xué)習(xí)研究的觀念發(fā)生了很多變化。機器學(xué)習(xí)需要更多地去處理非線性問題、海量數(shù)據(jù)、提高泛化能力與直接面向用戶,這些成為機器學(xué)習(xí)面臨的新挑戰(zhàn)。大多數(shù)的確定性現(xiàn)象與非確定性現(xiàn)象在總體空間Rn中不能滿足一致性的假設(shè)。我們只希望了解當前這些確定性現(xiàn)象的真實反映,如果這樣的數(shù)據(jù)集合占我們收集到的數(shù)據(jù)集合的大多數(shù),也就滿足了總體空間Rn中的一致性假設(shè)了。相關(guān)研究表明在很多情況下,計算機處理的數(shù)據(jù)規(guī)模越大,機器學(xué)習(xí)模型的效果就會越好。

      目前,國內(nèi)外許多學(xué)術(shù)界和工業(yè)界專家普遍認同的觀點是,隨著數(shù)據(jù)信息資源越來越多再加上計算機計算速度越來越快,大數(shù)據(jù)時代的人工智能將進一步的向前推進,在大數(shù)據(jù)支撐下的機器學(xué)習(xí)將迎來新一輪的發(fā)展浪潮,大數(shù)據(jù)支撐下的機器學(xué)習(xí)將成為全球?qū)W術(shù)界和工業(yè)界高度關(guān)注的熱點研究領(lǐng)域。隨著大數(shù)據(jù)時代的來臨,Google,F(xiàn)acebook、微軟、百度、騰訊等國內(nèi)外著名企業(yè)均紛紛成立專門的基于大數(shù)據(jù)的機器學(xué)習(xí)與人工智能研發(fā)機構(gòu),深入系統(tǒng)地研究在大數(shù)據(jù)支撐下的機器學(xué)習(xí)和智能化計算技術(shù)。[6]最近,由谷歌旗下DeepMind公司開發(fā)的智能圍棋程序AlphaGo以4:1的懸殊比分戰(zhàn)勝了世界圍棋冠軍韓國人李世石,這讓人們充分感受到了機器學(xué)習(xí)的強大學(xué)習(xí)能力和巨大發(fā)展?jié)摿Α?/p>

      3 在大數(shù)據(jù)支撐下的機器學(xué)習(xí)經(jīng)典算法

      對于目前大部分機器學(xué)習(xí)算法來說,不同的數(shù)據(jù)樣本對相同的機器學(xué)習(xí)算法得到的結(jié)果影響程度是不一樣的。一些存在冗余和含有噪聲的數(shù)據(jù)不僅造成存儲空間的大量浪費,而且還會降低整個算法的運行效率和學(xué)習(xí)結(jié)果。因此更希望采用大數(shù)據(jù)的相關(guān)技術(shù)來對海量的數(shù)據(jù)進行采樣處理,依據(jù)相關(guān)標準選擇具有代表性的數(shù)據(jù)組成計算機需要的樣本空間,之后在這個樣本空間上構(gòu)造學(xué)習(xí)方法,完成學(xué)習(xí)任務(wù)。由于有了大數(shù)據(jù)技術(shù)在數(shù)據(jù)采樣處理方面的保證,機器學(xué)習(xí)可以更好地完成我們設(shè)定的學(xué)習(xí)任務(wù),得到更好的學(xué)習(xí)結(jié)果,智能圍棋程序AlphaGo就是在這個方面的一個最好案例。

      3.1 貝葉斯機器學(xué)習(xí)

      貝葉斯方法是20世紀50年代之后逐步建立起來,是概率論與數(shù)理統(tǒng)計學(xué)中最重要的一個組成部分。貝葉斯分析方法(Bayesian Analysis)是貝葉斯學(xué)習(xí)方法的基礎(chǔ),它提供了一種基于給定假設(shè)下觀察到不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身計算假設(shè)概率的方法。貝葉斯學(xué)習(xí)方法為,將關(guān)于未知參數(shù)的先驗信息與樣本信息綜合,再根據(jù)貝葉斯公式得出后驗信息,然后根據(jù)后驗信息去推斷未知參數(shù)的方法。貝葉斯模型所需估計的參數(shù)較少,當屬性相關(guān)性較少時,該模型算法簡單,分類誤差率較小,總體性能較好。

      貝葉斯方法的缺點在于實際情況下類別總體的概率分布和各類樣本的概率分布常常是不知道的,為了獲得更精確的總體概率分布和各類樣本的概率分布,這就需要對總體知道的越多越好,對樣本要求越大越好。貝葉斯機器學(xué)習(xí)通過計算事件過去發(fā)生的頻率來預(yù)測該事件未來發(fā)生的頻率,預(yù)測結(jié)果完全取決于收集到的數(shù)據(jù),收集到的數(shù)據(jù)越多預(yù)測的結(jié)果也就越好。大數(shù)據(jù)作為越來越多海量數(shù)據(jù)產(chǎn)生、存儲、處理的主要技術(shù)手段,恰好可以在這方面給貝葉斯機器學(xué)習(xí)提供足夠好的樣本數(shù)據(jù)來進行學(xué)習(xí)。大數(shù)據(jù)技術(shù)加上貝葉斯機器學(xué)習(xí)方法已經(jīng)在一些研究和應(yīng)用中取得了不錯的成果。

      3.2 K最近鄰(KNN)學(xué)習(xí)

      K最近鄰學(xué)習(xí)方法是按照一定的規(guī)則將相似的數(shù)據(jù)樣本分為一類,類似于現(xiàn)實生活中的一句成語“物以類聚,人以群分”。K最近鄰學(xué)習(xí)方法的基本思想是,對于要進行分類或是測試的新數(shù)據(jù),首先提取它的特征并與原樣本中的每一個數(shù)據(jù)的特征進行比較,然后從比較的結(jié)果中選擇K個最相近的樣本數(shù)據(jù),統(tǒng)計在這K個樣本數(shù)據(jù)中,哪種分類出現(xiàn)的次數(shù)多,那么要進行分類的數(shù)據(jù)就是哪一類。

      K最近鄰學(xué)習(xí)方法的不足在于如果某些類的樣本容量很大,即已知樣本數(shù)量不均衡,有可能造成數(shù)據(jù)集中小容量樣本被大容量樣本給淹沒,本來是小容量樣本的類別卻被分到了大容量樣本的類別中去。因此在大數(shù)據(jù)的環(huán)境下,如何更好地進行樣本選取成為了更迫切的工作。已有的大部分樣本選取方法只適用于較小規(guī)模的數(shù)據(jù)集,而大數(shù)據(jù)的數(shù)據(jù)分析處理方法給在大數(shù)據(jù)的背景下,K最近鄰學(xué)習(xí)方法的發(fā)展提供了更為廣闊的發(fā)展前景。

      3.3 回歸學(xué)習(xí)

      回歸學(xué)習(xí)是經(jīng)典實用的預(yù)測方法,可以從偶然中發(fā)現(xiàn)必然。回歸學(xué)習(xí)又稱為回歸分析,是一種從未知概率分布的隨機樣本中獲得目標函數(shù)的近似方法。變量之間的相互關(guān)系可分為確定性和非確定性兩大類,前者變量之間存在明確的函數(shù)關(guān)系,后者的變量之間有關(guān)系但是不完全確定,在某種隨機干擾下產(chǎn)生統(tǒng)計關(guān)系,無法用準確的函數(shù)表示。對于這種統(tǒng)計關(guān)系,可以通過大量的試驗獲得相關(guān)的統(tǒng)計數(shù)據(jù),并構(gòu)造目標函數(shù)去逼近該關(guān)系即為回歸學(xué)習(xí)。

      在使用回歸學(xué)習(xí)時,要求待分析變量之間存在相關(guān)關(guān)系,在合適的試驗數(shù)據(jù)下回歸學(xué)習(xí)可以準確地計算出各個因素之間的相關(guān)程度與回歸擬合程度的高低。在回歸學(xué)習(xí)中使用何種因子和表達式只是一種推測,對于不同的數(shù)據(jù)會產(chǎn)生差異很大的擬合曲線。對于在大數(shù)據(jù)的情況下采用回歸算法,就需要根據(jù)大數(shù)據(jù)的分析給出合適的變元和影響變元的因素,如果變元選擇的好,影響變元的因素考慮的全面,那么在大數(shù)據(jù)支撐下的回歸學(xué)習(xí)效果會達到更好。

      3.4 人工神經(jīng)網(wǎng)絡(luò)

      人工神經(jīng)網(wǎng)絡(luò)(ANN)是有眾多的隱藏結(jié)點通過權(quán)值連接而形成的數(shù)學(xué)模型,它具有大規(guī)模并行處理、分布式信息存儲、良好的自組織學(xué)習(xí)能力等特點。反向傳播算法(BP)是人工神經(jīng)網(wǎng)絡(luò)中的一種監(jiān)督式的學(xué)習(xí)算法。人工神經(jīng)網(wǎng)絡(luò)在理論上可以逼近任意函數(shù),其基本結(jié)構(gòu)取決于該網(wǎng)絡(luò)中的隱藏結(jié)點,因此它具有很強的非線性映射能力。人工神經(jīng)網(wǎng)絡(luò)的中間層數(shù)、各層的結(jié)點數(shù)以及網(wǎng)絡(luò)中各個結(jié)點的初始權(quán)重等參數(shù)可根據(jù)具體情況進行設(shè)置靈活性很大。人工神經(jīng)網(wǎng)絡(luò)對于訓(xùn)練數(shù)據(jù)具有較好的擬合效果,且在醫(yī)學(xué)、生理學(xué)、哲學(xué)、信息學(xué)、計算機科學(xué)等眾多領(lǐng)域有著不錯的應(yīng)用結(jié)果。

      盡管人工神經(jīng)網(wǎng)絡(luò)已經(jīng)在一些領(lǐng)域取得了不錯的應(yīng)用成果,但是在大數(shù)據(jù)支撐下的人工神經(jīng)網(wǎng)絡(luò)還處于初期階段,仍然有很多問題需要解決。例如如何確定人工神經(jīng)網(wǎng)絡(luò)的層數(shù)、結(jié)點數(shù),如何提高網(wǎng)絡(luò)的訓(xùn)練速度,特別是在海量數(shù)據(jù)的環(huán)境下,數(shù)據(jù)呈現(xiàn)高維屬性和數(shù)據(jù)類型的多樣性。大數(shù)據(jù)技術(shù)正好是解決這些難題的關(guān)鍵技術(shù),可以通過大數(shù)據(jù)的分布式計算、并行計算來給人工神經(jīng)網(wǎng)絡(luò)帶來更加令人驚喜的學(xué)習(xí)效果。

      4 總結(jié)

      大數(shù)據(jù)具有屬性稀疏、超高維、關(guān)系復(fù)雜等特點,傳統(tǒng)的機器學(xué)習(xí)算法在這樣的數(shù)據(jù)規(guī)模面前顯得無能為力。為此本主要探討了幾種經(jīng)典的機器學(xué)習(xí)算法在大數(shù)據(jù)環(huán)境下的理論研究。(1)在大數(shù)據(jù)環(huán)境下如何選擇學(xué)習(xí)樣本,如何選擇樣本的屬性特征。(2)如何利用大數(shù)據(jù)的分布式計算和并行計算來提供機器學(xué)習(xí)算法的執(zhí)行效率與速度。總之,大數(shù)據(jù)支撐下的機器學(xué)習(xí)算法擁有廣闊的研究與應(yīng)用前景,二者交相輝映一定能夠把大數(shù)據(jù)機器學(xué)習(xí)推向更高的境界。

      參考文獻:

      [1] Labrinidis A, Jagadish H V. Challenges and Opportunities with Big Data[J]. Proc of the VLDB Endowment, 2012, 5(12).

      [2] 馮芷艷, 郭迅華, 曾大軍, 等. 大數(shù)據(jù)背景下商務(wù)管理研究若干前沿課題[J]. 管理科學(xué)學(xué)報, 2013(1).

      [3] Wang F Y. A Big-Data Perspective on AI: Newton, Merton, and Analytics Intelligence[J]. IEEE Intelligent Systems, 2012, 27(5).

      [4] 張潤, 王永濱. 機器學(xué)習(xí)及其算法和發(fā)展研究[J].中國傳媒大學(xué)學(xué)報自然科學(xué)版,2016(4).

      [5] 王玨, 石純一. 機器學(xué)習(xí)研究[J].廣西師范大學(xué)學(xué)報:自然科學(xué)版,2003(6).

      [6] 黃宜華. 大數(shù)據(jù)機器學(xué)習(xí)系統(tǒng)研究進展[J].大數(shù)據(jù),2015(4).

      猜你喜歡
      機器學(xué)習(xí)大數(shù)據(jù)算法
      基于MapReduce的改進Eclat算法
      Travellng thg World Full—time for Rree
      進位加法的兩種算法
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于支持向量機的金融數(shù)據(jù)分析研究
      一種改進的整周模糊度去相關(guān)算法
      织金县| 墨江| 富宁县| 丰顺县| 冕宁县| 华宁县| 桦甸市| 蓬安县| 田东县| 广汉市| 桃源县| 西平县| 建德市| 承德市| 平舆县| 若羌县| 辽宁省| 克拉玛依市| 白银市| 吴桥县| 泸水县| 铜山县| 阿图什市| 齐齐哈尔市| 东方市| 巴林右旗| 天全县| 西畴县| 阜新| 伊宁县| 论坛| 涿州市| 会昌县| 屏山县| 绥宁县| 武定县| 大化| 托克逊县| 五常市| 东明县| 平远县|