李成錄
(青海師范大學(xué) 青海 西寧 810008)
大數(shù)據(jù)概念自1980年被托夫勒提出后,其發(fā)展前景不斷擴大,滲透到生活、工作、學(xué)習(xí)的方方面面。當(dāng)下,在信息技術(shù)的推動下,某些零散、碎片化的數(shù)據(jù)被搜集起來,逐漸凝聚為紛繁錯亂的大數(shù)據(jù)。大數(shù)據(jù)的快速發(fā)展,給高新技術(shù)產(chǎn)業(yè)帶來豐厚的回報,引起一大批實力雄厚企業(yè)的追捧。在2017年阿里巴巴、騰訊、京東等IT公司斥巨資從事大數(shù)據(jù)研究,從中享受到大數(shù)據(jù)賦予的金融回報。例如,滴滴打車、ofo共享單車、淘寶等,它們企業(yè)運轉(zhuǎn)效率在大數(shù)據(jù)的推動下得到質(zhì)的提升。因此,研究大數(shù)據(jù)背景下的機器學(xué)習(xí)算法對國家、企業(yè)、社會發(fā)展都有較大的促進作用,需要有適合的算法來滿足大數(shù)據(jù)時代的需求。本研究立足于當(dāng)下社會發(fā)展新形勢,為促進社會更好發(fā)展做出重要推動力。
大數(shù)據(jù)(Big Data),是指在一定時間內(nèi)無法用常規(guī)數(shù)據(jù)處理軟件進行分析管理的數(shù)據(jù)集合。它以超出用MB、GB的形式來存儲。在這種新型大數(shù)據(jù)背景下,需要有更好地數(shù)據(jù)處理模式進行數(shù)據(jù)運算,才能從數(shù)據(jù)中形成更為科學(xué)的決策系統(tǒng)。被稱為大數(shù)據(jù)它具有不同于傳統(tǒng)數(shù)據(jù)的特點,與其他數(shù)據(jù)有清晰的界限。首先,大數(shù)據(jù)最鮮明的特點為“大”,它凝聚著海量資料,從多個維度、多個方面、多類型進行歸納匯總,形成一批難以用普通數(shù)據(jù)處理方法來解決的數(shù)據(jù);其次,傳輸速度快。大數(shù)據(jù)是由互聯(lián)的機器產(chǎn)生的,它們以秒、毫秒、微秒的形式瞬間形成,不斷去輸入、輸出來完成其基本功能;緊接著,數(shù)據(jù)類型多種多樣,數(shù)據(jù)分類難度較大。大數(shù)據(jù)已經(jīng)不能用傳統(tǒng)的分類方式進行歸納,它們往往是非結(jié)構(gòu)化的,造成存儲、分析、探勘難度提升;最后,大數(shù)據(jù)具有真實性。在處理大數(shù)據(jù)時,要從紛繁錯亂的數(shù)據(jù)中剔除錯誤數(shù)據(jù)、虛假數(shù)據(jù),保證大數(shù)據(jù)系統(tǒng)的真實客觀性。這樣,不僅可以降低據(jù)處理的難度,同時便于得出正確的應(yīng)對策略,讓大數(shù)據(jù)更好地為人服務(wù)。
機器學(xué)習(xí)是當(dāng)下處理大數(shù)據(jù)的重要途徑,它可以將多種優(yōu)勢凝聚起來,面對實際問題選擇最為合適的解決途徑。例如,在2017年AlphaGo對弈柯潔圍棋比賽中,以3比0的比分贏得了比賽,它正是機器學(xué)習(xí)的重要標(biāo)志。機器學(xué)習(xí)克服人為因素的局限性,通過神經(jīng)網(wǎng)絡(luò)、決策樹、深度學(xué)習(xí),對數(shù)據(jù)進行科學(xué)有效地處理,全面提高數(shù)據(jù)的運算效率。當(dāng)下,信息網(wǎng)絡(luò)、商業(yè)活動、調(diào)查統(tǒng)計都會產(chǎn)生海量數(shù)據(jù),這些數(shù)據(jù)以超出傳統(tǒng)的處理手段,迫切需要機器學(xué)習(xí)進行解決。傳統(tǒng)機器學(xué)習(xí)面臨的問題為:首先,機器算法較為固定,讀取大數(shù)據(jù)困難突出;其次,自動學(xué)習(xí)推理能力較低,得到數(shù)據(jù)結(jié)論不夠科學(xué);最后,機器自我學(xué)習(xí)能力不足,不能迎合大數(shù)據(jù)對機器學(xué)習(xí)的需求。因此,探究出適合大數(shù)據(jù)背景下的機器學(xué)習(xí),對未來發(fā)展有著不可估量的社會效益。
分治算法在處理大數(shù)據(jù)上具有較好的優(yōu)勢,它可以被運用與分布式計算和并行運算。對大數(shù)據(jù)進行機器學(xué)習(xí),樣本不同的數(shù)據(jù)對其影響比較顯著,不僅會徒增數(shù)據(jù)運算量,同時還會制約著學(xué)習(xí)效率,不利于更好地對數(shù)據(jù)進行分析判斷。而運用分治算法后,它對原始樣本進行預(yù)處理,將無效數(shù)據(jù)、冗余數(shù)據(jù)進行剔除,形成能夠很好表示原始樣本的數(shù)據(jù)集合。這樣,機器學(xué)習(xí)的目標(biāo)更為明確,學(xué)習(xí)難度得到有效降低,有助于形成正確的判斷。在選擇代表性數(shù)據(jù)集合時,通常采用的方法為壓縮近鄰法、約減法等等。它的原理就是要找到大數(shù)據(jù)所對應(yīng)的最小集合,通過一系列測試完成對子集的加工完善。此時,他們找到的集合是可以代表全體樣本的,具有較高的科學(xué)性,從而為大數(shù)據(jù)分析提供可能。運用分治算法首先要有符合要求的置信區(qū)間,在規(guī)定的區(qū)間內(nèi)進行數(shù)據(jù)的篩選、剔除。例如,借助Bag ofLittle Bootstraps,它可以降低抽樣所帶來的數(shù)據(jù)錯誤,從而提高數(shù)據(jù)預(yù)處理的準(zhǔn)確性。
聚類算法在數(shù)據(jù)挖掘和數(shù)據(jù)處理中是最常用的方法,它在處理大型數(shù)據(jù)上有較好的應(yīng)用效果。首先,聚類算法對大數(shù)據(jù)進行類型劃分,將數(shù)據(jù)分為若干個子數(shù)據(jù)節(jié)點。在這時,對各節(jié)點數(shù)據(jù)進行機器學(xué)習(xí)效率更高,更有針對性地完成數(shù)據(jù)處理。聚類算法在機器學(xué)習(xí)的具體方法可以歸納為三種。第一種,采用非迭代化數(shù)據(jù)擴展。它利用模糊集概念,對數(shù)據(jù)進行FCM均值聚類分析,快速準(zhǔn)確地將數(shù)據(jù)分離開來;第二種為連續(xù)擴充子集合技術(shù);第三種為抽樣估計均值算法。這三種可以有效解決大數(shù)據(jù)在時間上、空間上、處理速度、運轉(zhuǎn)效率的問題,達到對上至億萬的大數(shù)據(jù)分析。
傳統(tǒng)的機器學(xué)習(xí)在處理大數(shù)據(jù)上捉襟見肘,主要是由于各機器學(xué)習(xí)方法沒有做到并行化處理。單一數(shù)據(jù)處理機器不能獨立完成大數(shù)據(jù)處理,而是需要聯(lián)動各個數(shù)據(jù)處理部分,將其并行化運轉(zhuǎn),從而達到對大數(shù)據(jù)的整體處理。它的思想就是將大數(shù)據(jù)“碎片化”,分成機器可以單純處理的數(shù)據(jù)模塊,最終通過綜合各個數(shù)據(jù)來達到對整體的把握。比如,在圖像處理平臺上,它正是利用并行算法,大大降低各數(shù)據(jù)處理的壓力,有效提升數(shù)據(jù)的運算能力。并行算法需要與聚類算法、分治算法進行有機統(tǒng)一,將三者算法融合在一起,讓大數(shù)據(jù)處理變得更為簡潔、輕松,同時也較好地保證機器學(xué)習(xí)的準(zhǔn)確性。
大數(shù)據(jù)作為當(dāng)下的熱門,需要有一套科學(xué)合理的機器學(xué)習(xí)算法來滿足社會需求,讓數(shù)據(jù)處理變得更具效率。針對大數(shù)據(jù)的各個特點,通過運用分布式計算、聚類算法、分治算法,讓數(shù)據(jù)變得更具條理,數(shù)據(jù)處理分析難度得到有效降低,大大提高機器學(xué)習(xí)的能力。因此,要想在大數(shù)據(jù)有所突破,就需要對傳統(tǒng)機器學(xué)習(xí)算法進行優(yōu)化升級,讓其在大數(shù)據(jù)時代迸發(fā)出強勁活力。
[1]吳睿智,馬致遠,羅光春,劉貴松,秦科.大數(shù)據(jù)融合、分析與價值[J].信息通信技術(shù),2016(06):123-130.
[2] Yang Y M,Wang X N,Yuan X F.Bidirectional Extreme Learning Machine for Regression Problem and Its Learning Effectiveness.IEEE Trans on Neural Networks and Learning Systems,2012,23(9):1498-1505.