• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      集群重復數(shù)據(jù)刪除策略的研究

      2016-03-17 06:01:58張龍軍武警工程大學信息工程系陜西西安71008
      電子制作 2016年4期
      關鍵詞:副本哈希全局

      陳 曉 張龍軍 王 謙 武警工程大學信息工程系 陜西西安 71008

      ?

      集群重復數(shù)據(jù)刪除策略的研究

      陳曉張龍軍王謙武警工程大學信息工程系陜西西安71008

      【文章摘要】

      提出了集群內(nèi)的全局重復數(shù)據(jù)刪除方案,運用 Bloom Filter 技術為集群中存儲的所有數(shù)據(jù)塊建立快速索引的摘要信息,組成一個可以檢測重復數(shù)據(jù)的指紋摘要陣列(FSA),分布在存儲節(jié)點前端的控制服務器,控制服務器節(jié)點將客戶端發(fā)送到的數(shù)據(jù)塊指紋合并成若干粒度大小均勻的超塊,進行重復數(shù)據(jù)的檢測,然后將超塊有狀態(tài)地路由到各個存儲節(jié)點進行數(shù)據(jù)刪重。利用FSA檢測全局范圍內(nèi)所有存儲節(jié)點之間的重復數(shù)據(jù),獲取較高的重復數(shù)據(jù)刪除率,極大的提高了內(nèi)存空間的利用率。

      【關鍵詞】

      重復數(shù)據(jù)刪除;指紋摘要陣列;超塊

      0 引言

      隨著大數(shù)據(jù)時代的發(fā)展,數(shù)據(jù)量正在爆炸式增長,數(shù)據(jù)更新變化也在時刻進行。數(shù)據(jù)量從TB上升到PB甚至EB,隨著數(shù)據(jù)集關聯(lián)性的日益繁雜,面向云環(huán)境的集群中心會產(chǎn)生大量冗余數(shù)據(jù)。調(diào)查發(fā)現(xiàn)云端數(shù)據(jù)中心有60%以上數(shù)據(jù)是冗余的,這就為數(shù)據(jù)同步提出了巨大挑戰(zhàn)。為支持云環(huán)境下分布式存儲的特點,單一的數(shù)據(jù)同步技術已難以滿足節(jié)省存儲空間和系統(tǒng)擴展的需求,集群內(nèi)所有節(jié)點之間進行數(shù)據(jù)去重的數(shù)據(jù)同步技術應運而生。集群重復數(shù)據(jù)刪除是在存儲系統(tǒng)全局范圍內(nèi)進行分布并行的數(shù)據(jù)刪重技術。它通過有效的數(shù)據(jù)路由指導策略將客戶端上傳的數(shù)據(jù)分發(fā)到集群內(nèi)的存儲節(jié)點進行數(shù)據(jù)刪重。

      1 Bloom Filter

      我們假設 Bloom Filter 使用一個長度為 n的位數(shù)組 N,首先將位數(shù)組N的所有位初始化為0。設定一個包含 m 個元素的集合 S={x1, x2,…xm},Bloom Filter 使用 k 個相互獨立的哈希函數(shù)h1, h2,…,hk,它們分別將集合 S 中的每一個元素映射到位數(shù)組{1, 2, …,n}的范圍中,當有任意一個x元素進入集合S 中,第 i個獨立哈希函數(shù)映射的位置N [hi(x)](i =1, …, k)就會被置為 1。對于不同的元素,其獨立的哈希函數(shù)可能會映射到同一位置,即某一位被重復地置為 1。例中采用 3 個相互獨立的哈希函數(shù),即 k = 3,當元素x1和 x2先后被插入到位數(shù)組N時,有兩個哈希函數(shù)映射到位數(shù)組中的第 8 位,此時只有第一次映射起作用,即位數(shù)組第8位映射的是先進入集合的元素x1。

      判斷一個未知的元素 y 是否屬于集合 S,需要對元素y 應用 k 次哈希函數(shù)得到k個哈希值,檢查所有的哈希值對應的位 N [hi(y)](i =1, …, k)是否都被置為了 1。如果都為 1,則y 可能是集合中的元素,此時將這種情況視為Positive,否則 元素y 就不屬于集合S,這種情況為 Negative。y1不是集合 S 中的元素,而 y2可能屬于集合 S。

      DDFS重復數(shù)據(jù)刪除系統(tǒng)設計使用一個Bloom Filter 來表示整個集群中全部的數(shù)據(jù)塊指紋,并被抽象成指紋摘要向量,它具有常量級的時間復雜度,是建立在磁盤索引訪問之前的快速索引機制,能夠較快的查詢并判斷重復數(shù)據(jù)塊,可以較高的提升系統(tǒng)吞吐率。

      2 基于 Bloom Filter的全局數(shù)據(jù)刪重策略

      2.1全局去重策略的設計與實現(xiàn)

      利用Bloom Filter機制,可以將集群內(nèi)所有存儲節(jié)點上存儲的數(shù)據(jù)塊指紋表示成Bloom Filter指紋摘要(Fingerprint Summary),形成全局的快速索引序列。例如集群中有p個存儲服務器節(jié)點,假設所有節(jié)點的 Bloom Filter長度全部為 n,并且所有節(jié)點采用k個相同且相互獨立的哈希函數(shù)。為實現(xiàn)全局的重復數(shù)據(jù)刪除,將集群內(nèi)每一個節(jié)點的Bloom Filter指紋摘要聚合到一塊,組成Bloom Filter代表的陣列(Bloom Filter Array,BFA),保存到數(shù)據(jù)存儲節(jié)點前端的控制服務器節(jié)點中心并分發(fā)到每個存儲節(jié)點,BFA又可稱作指紋摘要陣列,即Fingerprint Summary Arra,簡稱FSA,如下圖 1所示:

      圖1 指紋摘要陣列

      當集群服務器中心接受客戶端發(fā)送的數(shù)據(jù)塊指紋時,此指紋信息首先會傳輸?shù)酱鎯Ψ掌鞴?jié)點前端的控制服務器中,并將數(shù)據(jù)塊指紋按照均勻的粒度組成超塊Q,根據(jù)Bloom Filter 陣列依次進行重復數(shù)據(jù)檢測。檢測完成后刪除重復的數(shù)據(jù),將可能不重復的數(shù)據(jù)有狀態(tài)的路由到存儲節(jié)點進行細粒度的檢測,最后確定數(shù)據(jù)塊是否是新塊或是已存在的數(shù)據(jù)塊。數(shù)據(jù)中心接收到客戶端發(fā)送來的數(shù)據(jù)塊指紋時,檢測該塊是新塊還是已存儲的數(shù)據(jù)塊,其流程如圖2 所示:

      圖2 重復數(shù)據(jù)檢測流程

      2.2存儲節(jié)點的去重策略

      DDFS系統(tǒng)為保持冗余的局部性,采取了基于流的塊排列(SISL)技術,在容器(Container)中根據(jù)先后的邏輯關系存儲一個文件的數(shù)據(jù)塊及相應指紋。冗余局部性是指一個數(shù)據(jù)塊是重復塊的時候,其附近的數(shù)據(jù)塊極可能也是重復快。

      控制中心服務器將超快指紋分發(fā)到存儲節(jié)點之前,必須進行存儲節(jié)點的選擇。選取存儲節(jié)點時,常用的方法是利用數(shù)據(jù)塊指紋取模的算法,這樣就會存在比較大的弊端,由于數(shù)據(jù)塊在存儲之前被置亂,所以一個存儲節(jié)點存儲的數(shù)據(jù)塊可能來自于不同的文件,刪重后的數(shù)據(jù)仍然會存儲到此節(jié)點,數(shù)據(jù)的局部性便會受到一定的影響,進而影響后續(xù)數(shù)據(jù)刪重的效果及效率。另一種方法是利用指紋前綴來選擇存儲節(jié)點,將屬于同一類指紋前綴的數(shù)據(jù)塊存放到一個節(jié)點,但是指紋前綴不能判斷表數(shù)據(jù)塊是否來自同一文件,因而數(shù)據(jù)的局部性也不能得到改善。

      設計在選取存儲節(jié)點時,首先,計算出節(jié)點內(nèi)已存在的數(shù)據(jù)塊指紋數(shù){r1,r2,r3,…,rm},所有的 m個值可以反映出超塊Q與存儲節(jié)點中數(shù)據(jù)的相似度。然后,計算各節(jié)點的相對存儲使用率,以一個存儲節(jié)點的存儲使用率比整個服務器集群內(nèi)所有節(jié)點的平均存儲率來計算各個節(jié)點的相對存儲使用率{w1,w2,w3,…,wm},利用節(jié)點相對存儲使用率可以為存儲節(jié)點的相似度加權{ r1/w1, r2/w2, r3/w3,…rm,/wm, }。最后,在存儲節(jié)點中選取滿足Idi滿足ri/wi=max{ r1/ w1, r2/w2, r3/w3,…rm,/wm, }的重復數(shù)據(jù)刪除節(jié)點作為超塊Q的路由目標節(jié)點。

      2.3指紋摘要陣列FSA的同步

      在前文敘述中,本章節(jié)結合Summary Cache的協(xié)議保持各節(jié)點之間以及控制服務器節(jié)點的FSA的數(shù)據(jù)同步,維護FSA的一致性。在每個存儲服務器節(jié)點都會保存一個全局的指紋摘要陣列FSA的副本,這樣當有新數(shù)據(jù)塊存儲到相應的存儲節(jié)點時,該節(jié)點就會查詢(讀操作)此前存儲的FSA副本,并動態(tài)地更新(寫操作)本地保存的FSA副本陣列,即新數(shù)據(jù)塊運用k個哈希函數(shù)計算得出的值在指紋摘要陣列相應的行中置為1。此時數(shù)據(jù)中心前端的控制服務器節(jié)點中地FSA保存的數(shù)據(jù)依然是之前存儲的。這樣,控制服務器節(jié)點與所有存儲節(jié)點間的FSA副本數(shù)據(jù)同步問題就變得尤為重要,它直接關系著集群內(nèi)數(shù)據(jù)塊的縮減率及去重的效果。

      控制服務器節(jié)點的FSA與各存儲節(jié)點間的FSA 副本的可以進行實時數(shù)據(jù)同步,也可以采取周期性數(shù)據(jù)同步的方式維護數(shù)據(jù)的一致性。實時性的數(shù)據(jù)同步需要在每次數(shù)據(jù)存儲時,所有存儲節(jié)點中的FSA陣列都需要即時更新,可以運用基于副本的信息一致性策略[96]進行個節(jié)點FSA陣列的實時同步,但由于用戶眾多且更新頻率較快的事實,會引起節(jié)點間數(shù)據(jù)實時同步的一致性維護策略較大的開銷。本文采取了周期性數(shù)據(jù)同步的策略進行數(shù)據(jù)的一致性維護。周期性的方法則是指設置一定的時間間隔進行FSA 副本的同步操作。但周期性同步數(shù)據(jù)的過程中,可能有多個節(jié)點存儲了新的數(shù)據(jù)塊,即FSA中有多條記錄進行了修改

      3 結束語

      文章主要研究了集群內(nèi)部的全局重復數(shù)據(jù)刪除。刪除集群內(nèi)重復的數(shù)據(jù),以節(jié)省存儲空間。通過 FSA 可以在所有存儲節(jié)點間進行全局范圍的重復數(shù)據(jù)檢測,以消除各節(jié)點間的冗余數(shù)據(jù),獲取較高的重復數(shù)據(jù)刪除率,最大程度地節(jié)省集群系統(tǒng)的存儲空間。

      【參考文獻】

      [1] Mitzenmacher M. Compressed Bloom filters[J]. Networking IEEE/ACM Transactions on, 2002, 10(5):604-612.

      [2] 魏建生. 高性能重復數(shù)據(jù)檢測與刪除技術研究[D]. 華中科技大學, 2012.

      [3] 王龍翔, 張興軍, 朱國鋒等. 重復數(shù)據(jù)刪除中的無向圖遍歷分組預測方法[J]. 西安交通大學學報, 2013, 47(10): 51-56.

      陳曉(1991-),男,在讀碩士研究生,主要研究領域為云計算.

      張龍軍,教授,主要研究方向為網(wǎng)絡安全、云計算.

      【作者簡介】

      基金項目:國家自然科學基金(NO.61003250)

      猜你喜歡
      副本哈希全局
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      面向流媒體基于蟻群的副本選擇算法①
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      副本放置中的更新策略及算法*
      基于OpenCV與均值哈希算法的人臉相似識別系統(tǒng)
      基于維度分解的哈希多維快速流分類算法
      計算機工程(2015年8期)2015-07-03 12:20:04
      樹形網(wǎng)絡中的副本更新策略及算法*
      新思路:牽一發(fā)動全局
      基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗證算法
      計算機工程(2014年6期)2014-02-28 01:25:40
      四子王旗| 清远市| 江城| 定襄县| 安远县| 新昌县| 永泰县| 永城市| 科尔| 班玛县| 彩票| 同仁县| 石屏县| 金湖县| 呼伦贝尔市| 太和县| 克什克腾旗| 太仓市| 哈尔滨市| 菏泽市| 林州市| 大新县| 志丹县| 自贡市| 安福县| 静安区| 庄浪县| 郧西县| 乡城县| 遂昌县| 丰原市| 阳江市| 大余县| 雅安市| 南通市| 南丹县| 临泉县| 富阳市| 贵港市| 大田县| 南川市|