胡勇 內(nèi)蒙古科技大學(xué)
大數(shù)據(jù)處理系統(tǒng)的研究進(jìn)展與展望
胡勇 內(nèi)蒙古科技大學(xué)
隨著計算機(jī)技術(shù)發(fā)展與計算機(jī)應(yīng)用普及,數(shù)據(jù)如果對其加以利用就可以將其變?yōu)橛行У馁Y源,從而產(chǎn)生價值增值。數(shù)據(jù)分析與利用技術(shù)正是基于此種情況發(fā)展起來的,大數(shù)據(jù)技術(shù)的應(yīng)用對社會生活的多個方面都產(chǎn)生了影響,已經(jīng)是當(dāng)下社會發(fā)展的熱點。本文就大數(shù)據(jù)處理系統(tǒng)的研究進(jìn)展與展望作簡要闡述。
大數(shù)據(jù)處理系統(tǒng) 研究進(jìn)展 展望
移動互聯(lián)網(wǎng),移動設(shè)備,物聯(lián)網(wǎng)發(fā)展產(chǎn)生了大量數(shù)據(jù),如何對大量數(shù)據(jù)加以利用,找到其中有價值的數(shù)據(jù),從而為社會發(fā)展帶來積極影響,是數(shù)據(jù)分析工作者需要面對的問題。由于數(shù)據(jù)量大,因此其潛藏的價值量大,要實現(xiàn)對大量數(shù)據(jù)的有效利用,就需要通過一定技術(shù),從海量數(shù)據(jù)中準(zhǔn)確定位有價值的數(shù)據(jù),提升工作效率,并以此推動社會向前發(fā)展。
大數(shù)據(jù)并不是近年發(fā)展的新事物,早在四十多年前,智利政府就實施了一項計劃,將各地工廠的數(shù)據(jù)傳輸?shù)竭\(yùn)營中心,通過對其中某些領(lǐng)域數(shù)據(jù)進(jìn)行分析,以此來對生產(chǎn)活動開展情況實施監(jiān)督,對經(jīng)濟(jì)發(fā)展情況進(jìn)行預(yù)估。該模式與當(dāng)下大數(shù)據(jù)模式相似。由于當(dāng)時的技術(shù)條件無法為工作開展有效的服務(wù),因此工作開展的效果也不是特別明顯。后來有科學(xué)家在研究工作首次提出了大數(shù)據(jù)這一概念,在當(dāng)前對于大數(shù)據(jù)其定義也不相同。數(shù)據(jù)量需要達(dá)到一定的規(guī)模,并且利用傳統(tǒng)方法無法對其進(jìn)行有效管理與利用。在發(fā)展的過程中逐漸變成了一個十分寬泛的概念,包含了數(shù)據(jù)采集,歸納,整理,分析等一系列環(huán)節(jié),以及工作開展所應(yīng)用到的手段,技術(shù)與方法。
大數(shù)據(jù)處理系統(tǒng)類別非常多,因此其分類方法也比較多,未能得出統(tǒng)一公認(rèn)的方法。比如可以從數(shù)據(jù)類型與負(fù)載類型兩個角度對其進(jìn)行分類。
從負(fù)載類型方面對其進(jìn)行分類,可以將系統(tǒng)分為流式計算,批處理,交互式查詢。批處理重點在于系統(tǒng)數(shù)據(jù)處理的量,而流計算則注重于產(chǎn)品時效性,能夠在較短時間內(nèi)完成工作。
從數(shù)據(jù)類型方面來分,系統(tǒng)能夠提供表,圖,集合,矩陣不同數(shù)據(jù)抽象,通常情況下一個編程框架只能夠解決某一類型問題,不具有普通適用性。對編程框架進(jìn)行分類,批處理能夠有效適用于多種數(shù)據(jù)類型,其研究領(lǐng)域也最為寬泛。交互式處理則主要針對關(guān)系型數(shù)據(jù)。
某些編程框架可以將其歸結(jié)到數(shù)據(jù)流模型,該模型利用有向無環(huán)圖表達(dá)計算,頂點表示計算任務(wù),數(shù)據(jù)依賴則利用邊來表示。
實際式作中通常會有大規(guī)模圖計算分析的需求,比如互聯(lián)網(wǎng)網(wǎng)頁所形成的圖,頂點規(guī)??梢赃_(dá)到千億級別,針對此類型分析和挖掘工作須借助于大規(guī)模集群才能夠有效完成。圖數(shù)據(jù)結(jié)構(gòu)不規(guī)則,由此會導(dǎo)致其訪問的局部性差,現(xiàn)實工作中許多圖都與冪律分布相符合,頂點分布不均勻,通過邊與其它頂點發(fā)生聯(lián)系的頂點非常少,導(dǎo)致數(shù)據(jù)圖難以切分均勻,從而會導(dǎo)致機(jī)器負(fù)載不均,風(fēng)絡(luò)通信開銷量大等問題,對計算機(jī)整體運(yùn)行效率造成嚴(yán)重影響。
大圖分割作為圖計算基礎(chǔ)性問題,圖數(shù)據(jù)切分可以應(yīng)用兩種方法,切點與切邊。采用第一種方法,切割線只能通過圖的頂點,如果利用該方法將頂點切割成兩份,則意味著頂點會出現(xiàn)在兩臺機(jī)器上,并且是同時的,機(jī)器間的網(wǎng)絡(luò)通信量會明顯減少。由于算法迭代需要持續(xù)對圖頂點值進(jìn)行更新,頂點數(shù)據(jù)進(jìn)行一致性維護(hù)會對通信開銷造成影響。如果利用切邊法,則只能通過圖的邊。
大數(shù)據(jù)時代,受到處理器與內(nèi)存條件限制,傳統(tǒng)單版機(jī)器算法無法對海量數(shù)據(jù)進(jìn)行處理,分布式機(jī)器學(xué)習(xí)就成為了研究領(lǐng)域關(guān)注的重點,機(jī)器學(xué)習(xí)算法應(yīng)用的是迭代計算,從而在巨大參數(shù)空間中尋找到最優(yōu)解,但是其計算特點會對機(jī)器學(xué)習(xí)帶來嚴(yán)重挑戰(zhàn)。主要體現(xiàn)在并發(fā)問任務(wù)存在并且數(shù)量眾多時,由于其它影響因素存在,執(zhí)行速度會產(chǎn)生影響,負(fù)載不均衡會導(dǎo)致其影響到整體工作效率。
大規(guī)模深度學(xué)習(xí)在實際工作中應(yīng)用取得了巨大成功,尤其是在圖像識別與語音識別方面,深度學(xué)習(xí)通過深層神經(jīng)網(wǎng)絡(luò)對大腦工作原理進(jìn)行模擬,其組成包括了輸入層,隱含層,輸出層。
大數(shù)據(jù)處理系統(tǒng)研究工作雖然已經(jīng)取得了一定成果,但是仍然存在許多方面需要進(jìn)一步探索,技術(shù)還未能達(dá)到成熟階段。在未來發(fā)展過程中,大數(shù)據(jù)處理系統(tǒng)研究工作要關(guān)注的重點問題包括,異構(gòu)硬件平臺,串行代碼自動化并行,現(xiàn)有的編程框架提供了標(biāo)準(zhǔn)數(shù)據(jù)操作接口,程序員編寫接口,底層系統(tǒng)執(zhí)行代碼,與傳統(tǒng)編程方式存在較大差異。大數(shù)據(jù)處理技術(shù)多樣豐富,但是也對實際應(yīng)用工作帶來了一定難度,全能通用型計算框架基本不存在,因此需要多種編程框架協(xié)同工作才能有效完成任務(wù)。
大數(shù)據(jù)處理正處于快速發(fā)展過程中,并且其應(yīng)用于生活實際產(chǎn)生了巨大的價值。大數(shù)據(jù)處理系統(tǒng)與處理技術(shù)一樣處于發(fā)展的過程,雖然已經(jīng)取得了一定成果,但是在未來仍然需要結(jié)合到實現(xiàn)情況變化解決不斷出現(xiàn)的新問題。
[1]王鵬;張利.大數(shù)據(jù)處理系統(tǒng)的研究進(jìn)展與展望[J].高技術(shù)通訊,2015(Z1)
[2]李曉飛.基于云計算技術(shù)的大數(shù)據(jù)處理系統(tǒng)的研究[J].長春工程學(xué)院學(xué)報(自然科學(xué)版),2014(01)