李莎莎+董思妤
摘 要 大數(shù)據(jù)學(xué)習(xí)成為大數(shù)據(jù)領(lǐng)域的一個(gè)熱點(diǎn)研究問題。本文從大數(shù)據(jù)時(shí)代背景出發(fā),總結(jié)當(dāng)前大數(shù)據(jù)分析所面臨的機(jī)遇和挑戰(zhàn),闡述大數(shù)據(jù)學(xué)習(xí)系統(tǒng)相關(guān)的前沿技術(shù),并就大數(shù)據(jù)分析的發(fā)展方向和未來前景進(jìn)行討論。
關(guān)鍵詞 大數(shù)據(jù) 學(xué)習(xí)系統(tǒng) 數(shù)據(jù)挖掘
中圖分類號:C829.29 文獻(xiàn)標(biāo)識碼:A
當(dāng)今社會,數(shù)據(jù)量正在以爆炸方式迅猛增長,數(shù)據(jù)表示形式千變?nèi)f化,標(biāo)志著我們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。云計(jì)算、三網(wǎng)融合、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的出現(xiàn),更加催生了大數(shù)據(jù)時(shí)代的產(chǎn)生。在大數(shù)據(jù)時(shí)代下,其所需存儲、處理的數(shù)據(jù)量驚人,為大數(shù)據(jù)的分析和應(yīng)用帶來很多挑戰(zhàn)。若想充分發(fā)揮大數(shù)據(jù)所賦予的機(jī)遇和優(yōu)勢,必須采取有效的數(shù)據(jù)學(xué)習(xí)與處理方法,從高質(zhì)量的大規(guī)模數(shù)據(jù)中提取隱含的、有用的信息,才能做出更加精準(zhǔn)、更加符合市場和客戶需求的決策。本文就當(dāng)前大數(shù)據(jù)分析技術(shù)面臨的挑戰(zhàn)和機(jī)遇,介紹大數(shù)據(jù)學(xué)習(xí)系統(tǒng)的關(guān)鍵技術(shù),最后對大數(shù)據(jù)分析技術(shù)的未來發(fā)展進(jìn)行討論。
1大數(shù)據(jù)帶來的機(jī)遇和挑戰(zhàn)
大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)革命。大數(shù)據(jù)挖掘和應(yīng)用可創(chuàng)造出超萬億美元的價(jià)值,使人們可以利用以前不能有效利用的多種數(shù)據(jù)潛在信息,抓住被忽略的機(jī)遇。隨著數(shù)據(jù)存儲技術(shù)的成熟,大數(shù)據(jù)的重心將從存儲和傳輸,過渡到如何選擇高效的數(shù)據(jù)學(xué)習(xí)形式對數(shù)據(jù)進(jìn)行處理和利用,這需要根據(jù)大數(shù)據(jù)特點(diǎn)對傳統(tǒng)的常規(guī)數(shù)據(jù)處理技術(shù)進(jìn)行變革。此外,大數(shù)據(jù)的海量數(shù)據(jù),通常采用云端存儲,數(shù)據(jù)管理比較分散,如何保證大數(shù)據(jù)的安全以及學(xué)習(xí)結(jié)果的可靠性對大數(shù)據(jù)學(xué)習(xí)技術(shù)提出了更高的要求。
2大數(shù)據(jù)學(xué)習(xí)關(guān)鍵技術(shù)
伴隨著需要處理的數(shù)據(jù)量多且增長速度迅速的特點(diǎn),對數(shù)據(jù)學(xué)習(xí)的實(shí)時(shí)性、有效性提出了更高要求。大數(shù)據(jù)學(xué)習(xí)核心即為挖掘,從技術(shù)角度看,就是從大量的、復(fù)雜的、不規(guī)則的、隨機(jī)的、模糊的數(shù)據(jù)中獲取隱含的、人們事先未發(fā)覺的、有潛在價(jià)值的信息和知識的過程。有關(guān)智能計(jì)算中的大數(shù)據(jù)學(xué)習(xí)關(guān)鍵技術(shù)常見的有神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘和回歸分析等。
(1)神經(jīng)網(wǎng)絡(luò)。受生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和運(yùn)作的啟發(fā),模擬動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。應(yīng)用實(shí)例包括識別高價(jià)值客戶離開特定公司的風(fēng)險(xiǎn),以及識別欺詐性的保險(xiǎn)理賠行為等。
(2)數(shù)據(jù)挖掘。結(jié)合統(tǒng)計(jì)數(shù)據(jù)和機(jī)器學(xué)習(xí)、使用數(shù)據(jù)庫管理技術(shù)從大型數(shù)據(jù)集中提取有用信息和知識的技術(shù)。根據(jù)其它屬性的值預(yù)測特定(目標(biāo))屬性的值,如回歸、分類、異常檢測等,或?qū)ふ腋爬〝?shù)據(jù)中潛在聯(lián)系的模式,如關(guān)聯(lián)分析、演化分析、聚類分析、序列模式挖掘等。
(3)回歸分析。確定當(dāng)一個(gè)或多個(gè)獨(dú)立變量值被修改時(shí)相關(guān)變量如何變化的統(tǒng)計(jì)方法。通常用于預(yù)測或預(yù)報(bào)。應(yīng)用實(shí)例如基于不同的市場和經(jīng)濟(jì)變量,或通過確定何種制造業(yè)參數(shù)對客戶滿意度影響最大來預(yù)測銷售量等。
(4)分類分析。在訓(xùn)練集包含的數(shù)據(jù)點(diǎn)已經(jīng)被歸類的基礎(chǔ)上,確定新的數(shù)據(jù)點(diǎn)所屬類別的方法。典型應(yīng)用是在明確假設(shè)或客觀結(jié)果前提下,預(yù)測部分特定客戶行為(例如,購買決策、流失率、消費(fèi)率等)。因?yàn)槭褂糜?xùn)練集,屬于監(jiān)督學(xué)習(xí),是無監(jiān)督學(xué)習(xí)類型聚類分析的反面。
(5)聚類分析。一種多元化群體的分類統(tǒng)計(jì)方法。在事先不知道的前提下,將一個(gè)集合分成較小的對象組,組內(nèi)對象具有相似特點(diǎn)。聚類分析的典型例子是將消費(fèi)者分割成具有自相似性的群體做針對性營銷。因?yàn)椴皇褂糜?xùn)練數(shù)據(jù),屬于無監(jiān)督學(xué)習(xí)類型,是監(jiān)督學(xué)習(xí)類型分類分析的反面。
(6)關(guān)聯(lián)規(guī)則學(xué)習(xí)。在大數(shù)據(jù)集變量中發(fā)現(xiàn)感興趣關(guān)系(即“關(guān)聯(lián)規(guī)則”)的方法,包括多種生成和測試可能規(guī)則的算法。典型應(yīng)用是市場購物籃分析,其中零售商可以決定哪些產(chǎn)品經(jīng)常一起購買和如何使用這種營銷信息。
(7)數(shù)據(jù)融合與集成。集成和分析來自多個(gè)源的數(shù)據(jù)的方法。典型應(yīng)用如,使用來自互聯(lián)網(wǎng)的傳感器數(shù)據(jù)綜合分析如煉油廠這樣的復(fù)雜分布式系統(tǒng)的性能。使用社會媒體數(shù)據(jù),經(jīng)過自然語言處理分析,并結(jié)合實(shí)時(shí)銷售數(shù)據(jù),確定營銷活動如何影響顧客的情緒和購買行為等。
(8)機(jī)器學(xué)習(xí)。研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)并不斷改善自身的性能,是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑。自然語言處理是機(jī)器學(xué)習(xí)的一個(gè)例子。
3大數(shù)據(jù)分析未來趨勢
當(dāng)前的數(shù)據(jù)分析技術(shù)的研究可以分為6個(gè)重要方向:結(jié)構(gòu)化數(shù)據(jù)分析、文本數(shù)據(jù)分析、多媒體數(shù)據(jù)分析、Web數(shù)據(jù)分析、網(wǎng)絡(luò)數(shù)據(jù)分析和移動數(shù)據(jù)分析。在今后大數(shù)據(jù)技術(shù)面臨的主要發(fā)展趨勢:大數(shù)據(jù)與人工智能的融合;跨學(xué)科領(lǐng)域交叉的數(shù)據(jù)分析應(yīng)用;數(shù)據(jù)科學(xué)帶動多學(xué)科融合。今后,深度學(xué)習(xí)成為大數(shù)據(jù)智能分析的核心技術(shù),利用大數(shù)據(jù)學(xué)習(xí)技術(shù)構(gòu)建大規(guī)模、有序化開放式的知識體系成為大數(shù)據(jù)處理的關(guān)鍵。大數(shù)據(jù)與云計(jì)算、移動互聯(lián)網(wǎng)等的綜合應(yīng)用,大數(shù)據(jù)技術(shù)課程體系建設(shè)和人才培養(yǎng)快速發(fā)展都將成為未來趨勢。
4總結(jié)
保證大數(shù)據(jù)的質(zhì)量,如何建模、提取并利用隱藏在大數(shù)據(jù)中的信息成為擺在業(yè)界和學(xué)術(shù)界面前的重大難題。面對當(dāng)前大數(shù)據(jù)來源眾多、數(shù)據(jù)量大、數(shù)據(jù)增長速度快等特點(diǎn),大數(shù)據(jù)學(xué)習(xí)面臨著極大的挑戰(zhàn)。闡述了大數(shù)據(jù)學(xué)習(xí)系統(tǒng)中的關(guān)鍵技術(shù),對大數(shù)據(jù)分析的未來發(fā)展趨勢進(jìn)行了討論,為選擇數(shù)據(jù)學(xué)習(xí)方式提供依據(jù)。
參考文獻(xiàn)
[1] 顧君忠.大數(shù)據(jù)與大數(shù)據(jù)分析[J].軟件產(chǎn)業(yè)與工程,2013(4):17-21.
[2] 任磊,杜一,馬帥,等.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報(bào),2014,25(9):1909-1936.
[3] 中國計(jì)算機(jī)學(xué)會大數(shù)據(jù)專家委員會.2015年中國大數(shù)據(jù)發(fā)展趨勢預(yù)測[J].中國計(jì)算機(jī)學(xué)會通訊,2015,11(1):48-52.