?
云計算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術
王欣
廣州工程技術職業(yè)學院 廣東廣州 510000
[摘要]隨著不斷發(fā)展科學技術,已經逐漸進入到高科技時代,大力發(fā)展計算機技術,經過數(shù)年的發(fā)展得到了很大成果。云計算技術是完美結合互聯(lián)網技術和計算機技術的一種技術形式,引發(fā)IT行業(yè)的改革和進步,此外,經過不斷深入研究生物信息網絡技術等,已經能夠廣泛應用大規(guī)模圖數(shù)據(jù)處理技術,充分符合社會發(fā)展實際需求。本文主要分析了云計算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術。
[關鍵詞]云計算;大規(guī)模圖數(shù)據(jù);處理技術
計算機技術中比較常用的抽象數(shù)據(jù)結構就包括圖,相比較樹和線性表來說,語言以及結構變得更復雜,存在一定表示能力,實際生活中不少領域都在合理應用圖結構,到處都能發(fā)現(xiàn)與圖有關的應用以及處理,例如傳統(tǒng)應用,科技文獻引用、預測疾病爆發(fā)路徑、確定最合理運輸線路等。新應用,生物信息網分析、分析語義Web、分析社交網路等。雖然已經過很長時間的發(fā)展和應用,但是隨著不斷發(fā)展科學技術,使得出現(xiàn)更多、更大的圖規(guī)模,需要不斷完善理論基礎,確保可以高效處理大規(guī)模圖。
在高速發(fā)展互聯(lián)技術的基礎上形成了云計算技術,屬于全新計算方式,主要核心就是互聯(lián)網。在2007年云計算被美國IBM提出,這也是第一次提出云計算,依據(jù)此,云計算主要就是用來描述一種類型或者一個系統(tǒng)平臺中的應用程序,具備數(shù)據(jù)存儲量大、處理能力強、靈活性高以及可擴展性和通用性的優(yōu)勢和特點,目前已經得到廣泛應用[1]。
圖實際上是非線性數(shù)據(jù)結構,具備一定多對多關系,在圖數(shù)據(jù)中,可以通過零個或者多個直接后繼和直接前趨構成相關元素,相比較其他形式結構來說,圖數(shù)據(jù)具備相對更加豐富的語義,已經被大量運用到工程、科研等方面,因為圖數(shù)據(jù)具備非常多的數(shù)據(jù)量,因此,分析和研究對大規(guī)模圖數(shù)據(jù)處理技術已經逐漸發(fā)展成為廣泛關注的重點。通過不斷的研究和分析,已經具備一定水平的圖處理技術,日益完善相關技術理論,為應用大規(guī)模圖技術提供基礎和保障,但是由于不斷發(fā)展信息技術,促使快速發(fā)展多種多樣的信息,導致存在越來越大規(guī)模的圖數(shù)據(jù),因此,需要適當提高研究而大規(guī)模圖數(shù)據(jù)處理技術的力度,為有效處理大規(guī)模圖數(shù)據(jù)提供平臺[2]。可以從以下幾方面進行分析:
(一)云計算環(huán)境下存儲圖數(shù)據(jù)的方式
在充分研究和分析大量資料和文獻之后得到,目前,在應用以及管理大規(guī)模圖數(shù)據(jù)處理技術的時候,其中主要包括超圖數(shù)據(jù)模型、單圖數(shù)據(jù)模型兩種常用數(shù)據(jù)模型,上述兩種數(shù)據(jù)模型都可以在一定程度上對無向圖和有向圖進行相應處理,但是兩種方式最根本區(qū)別就是不同的存儲格式。大規(guī)模體數(shù)據(jù)進行存儲的時候,最基本的就是云計算分布式存儲系統(tǒng),可以把云計算分布系統(tǒng)分為分布式數(shù)據(jù)庫以及分布式文件系統(tǒng)兩種形式。分布式文件系統(tǒng)中最重要就是HDFS和GFS,能夠直接存放臨接矩陣和對接表;分布式數(shù)據(jù)庫,也就是說NoSQL,其中最重要的就是Hbase和Big Tabl。分布式數(shù)據(jù)庫可以分為以下將基本數(shù)據(jù)模型:主要包括KV存儲模型、CFS列族存儲模型、DS文檔存儲模型。DS模型具備方便、靈活的優(yōu)勢,比較適合使用存儲結構化數(shù)據(jù),此模型不適合對圖數(shù)據(jù)進行存儲。經過大量數(shù)據(jù)分析研究表明,KV存儲模型十分適合存儲大規(guī)模圖數(shù)據(jù),KV存儲模型存在支持哈量存儲、高并發(fā)查詢以及模式結構簡單的特點,在處理Page Rank等圖數(shù)據(jù)的時候,一般情況不會出現(xiàn)復雜操作,能夠符合數(shù)據(jù)處理的基本需求,如果是利用鄰接表的方式形成圖數(shù)據(jù),Key就是圖的源頂點,Value就是出邊信息和點的值,可以更加方便的遷移和合并數(shù)據(jù),增加空間局部性,大幅度降低處理查詢過程中讀取數(shù)據(jù)的次數(shù),可以在一定程度上提高效率[3]。
(二)云計算環(huán)境下分割圖數(shù)據(jù)
一般來說,云計算環(huán)境中處理大規(guī)模圖數(shù)據(jù),處理方式應該是分布式并行,因為圖計算存在一定強耦合性、圖數(shù)據(jù)具備連通性,為了能夠更加高效的處理圖數(shù)據(jù),應該適當降低子圖數(shù)據(jù)之間耦合度,圖分割是有效實現(xiàn)目標的主要方式。基本流程是:首先需要分給具備相對比較完整邏輯結構的大圖,然后在分布存儲系統(tǒng)節(jié)點中分別放置分割部分,進行適當處理,并且每個子圖啟動以后都需要能夠具備與之對應的計算服務,在處理完子圖以后,就達到處理大圖的目的。在上述處理過程總,分割大圖以后,能夠得到相對比較好的分割效果,但是在對大圖進行分割的時候,需要重合分析圖規(guī)模均衡性以及內部連通性,保證能夠降低子圖連通性,增加內部連通性,可以在一定程度上影響分布并行處理大數(shù)據(jù)機制的運行。此外,也應該降低子圖規(guī)模均衡性,不能形成比較大的偏斜,避免由于過大時間差距影響系統(tǒng)同步性[4]。
(三)云計算環(huán)境下的圖數(shù)據(jù)計算模型
現(xiàn)階段,基于云計算基礎上具備兩種應用廣泛的模型,包括BSP模型以及Map Reduce模型。
1、Map Reduce模型
Map Reduce模型主要包括由多個reduce、map共同形成的并行處理方式,可以把執(zhí)行任務階段分為兩部分,一是Reduce階段,在此過程中,Reduce任務會聚集處理接收到的數(shù)據(jù),從而得到相關輸出結果,并且能夠在分布式文件中保存數(shù)據(jù)。二是Map階段,此過程中,Map任務會合理計算分配到系統(tǒng)的數(shù)據(jù),輸出與之對應的key值,然后在reduce任務中映射出相對應的數(shù)據(jù)信息。
2、BSP模型
BSP模型主要就是說在并行執(zhí)行消息通信的時候,具備好、數(shù)據(jù)競爭以及免鎖死的運行特點,在云計算環(huán)境下處理大規(guī)模圖數(shù)據(jù)需要合理使用上述模型,在迭代處理的時候,相比較Map Reduce模型來說,BSP模型具備相對比較高的執(zhí)行效率。
(四)云計算環(huán)境下處理查詢圖數(shù)據(jù)
基于云計算基礎上,主要存在兩種能夠支持處理查詢大規(guī)模圖數(shù)據(jù)的驅動模式,也就是被動遍歷模式和主動遍歷模式。上述兩種模式具存在圖頂點是操作對象的共同特點,也就是說操作處理技術的基本關鍵就是圖頂點。第一,被動模式。上述處理模式能夠不進行調用處理函數(shù),可以適當降低處理不必要頂點,大量節(jié)約資源。第二,主動遍歷模式。上述處理模式,具備比較強實用性,但是應用在特定情況下,會形成浪費資源的問題。
總之,依據(jù)云計算為基礎,充分分析和研究大規(guī)模圖數(shù)據(jù)處理技術,可以發(fā)現(xiàn),在處理大規(guī)模圖數(shù)據(jù)中應用云計算技術,能夠有效提高處理效率。
參考文獻
[1]于戈,谷峪,鮑玉斌等.云計算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術[J].計算機學報,2011,34(10):1753-1767.
[2]李健,黃慶佳,劉一陽等.云計算環(huán)境下基于粒子群優(yōu)化的大規(guī)模圖處理任務調度算法[C].//2012年第三屆中國計算機學會服務計算學術會議論文集.2012:1-8..
[3]趙小換.云計算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術分析[J].中國外資(下半月),2012(5):275.
[4]李東升.云計算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術[J].信息與電腦,2015(8):35-35,40.