張海勇,王白羽,夏冬梅,龔紅燕,張麗
(新疆油田公司,新疆克拉瑪依 834000)
油氣行業(yè)中存儲快照保護數(shù)據(jù)技術(shù)研究
張海勇,王白羽,夏冬梅,龔紅燕,張麗
(新疆油田公司,新疆克拉瑪依 834000)
通過對數(shù)據(jù)快照技術(shù)保護方式進行了技術(shù)分析比較,結(jié)合油氣行業(yè)的數(shù)據(jù)特點,提出了快照技術(shù)在油氣行業(yè)數(shù)據(jù)保護中的應(yīng)用建議。
數(shù)據(jù)存儲;數(shù)據(jù)保護;存儲快照
隨著油氣行業(yè)的“高密度寬方位地震技術(shù)”大規(guī)模應(yīng)用,當前油氣勘探、解釋數(shù)據(jù)量越來越大,TB級的數(shù)據(jù)量已經(jīng)成為常態(tài)。目前油氣行業(yè)的各企業(yè)的信息部門都需要對現(xiàn)有HPC環(huán)境進行改進以應(yīng)對海量數(shù)據(jù)處理。但是目前業(yè)界的的研究一般考慮到大數(shù)據(jù)量存儲系統(tǒng)的性能和容量,很少對大數(shù)據(jù)量下的存儲數(shù)據(jù)保護技術(shù)進行更加深入的研究。
眾所周知,油氣勘探在進行數(shù)據(jù)處理、解釋時涉及到海量的數(shù)據(jù)。對數(shù)據(jù)的安全性要求非常高。傳統(tǒng)的數(shù)據(jù)保護方式如備份技術(shù),不論內(nèi)采用諸如源端及目的端去重、壓縮、NDMP等手段,但在海量數(shù)據(jù)規(guī)模下,這些技術(shù)的缺點是備份、恢復(fù)時間長。冷備份需要暫停應(yīng)用服務(wù),暫停接受用戶數(shù)據(jù)更新;熱備份技術(shù)又不能保證數(shù)據(jù)完整性。而快照技術(shù)的應(yīng)用能夠大大改善上述的缺點,同時能夠保證數(shù)據(jù)邏輯的安全性。
本文通過分析對比常用的快照技術(shù),根據(jù)油氣行業(yè)數(shù)據(jù)存儲的主要特點,推薦一套快照技術(shù)應(yīng)用于數(shù)據(jù)保護的方式。
1.1 快照概念及原理介紹
快照技術(shù),按照SNIA的標準定義:關(guān)于指定數(shù)據(jù)集合的一個完全可用拷貝,該拷貝包括相應(yīng)數(shù)據(jù)在某個時間點的映像??梢酝ㄋ桌斫鉃檎障鄼C的照片,不過與照片保存的是人物、景色的留底不同,存儲系統(tǒng)中快照保存的是數(shù)據(jù)的狀態(tài)留底。如同照片留住了過去當時的場景一樣,快照把數(shù)據(jù)在某一時刻的映像也保留了下來。
1.2 快照技術(shù)分類
目前業(yè)界較常用的快照技術(shù)主要有三大類,鏡像分離(split m irror),改變塊(changed block),并發(fā)(concurrent),分別對應(yīng)的快照技術(shù)是是鏡像分離(splitmirror)技術(shù),寫時拷貝(copy on write)技術(shù),指針重定向(pointer remapping)技術(shù)。
2.1 快照技術(shù)比較
油氣勘探行業(yè)中的海量數(shù)據(jù)主要保存于存儲系統(tǒng)中,就是俗稱的磁盤陣列上,目前存儲廠商采用的基于卷的快照技術(shù)主要有兩種:寫時拷貝技術(shù)COW(Copy-On-Write)和重定向?qū)懣煺占夹g(shù)ROW(Redirect-On-Write)。
2.1.1 寫時拷貝快照技術(shù)COW
在快照時間點之前,如圖1(a)所示,每個源數(shù)據(jù)卷都具有一個數(shù)據(jù)指針表,每條記錄保存著指向相對應(yīng)的數(shù)據(jù)塊的指針。當快照點來臨時,如圖1(b)所示,存儲系統(tǒng)的快照功能會為源數(shù)據(jù)卷的指針表創(chuàng)建一個副本,該副本作為快照卷的數(shù)據(jù)指針表。當快照時間點結(jié)束后,快照卷成為一個能夠被上層應(yīng)用訪問的邏輯卷。也就是說,快照卷與源數(shù)據(jù)卷通過各自的數(shù)據(jù)指針表共享一份物理數(shù)據(jù)??煺战⒅螅绻磾?shù)據(jù)卷中的數(shù)據(jù)被更新了,比如圖1(c)中2位置的數(shù)據(jù)要更新,那么系統(tǒng)會首先將舊數(shù)據(jù)拷貝到新的物理地址,并修改快照卷中的數(shù)據(jù)指針,然后再將新數(shù)據(jù)寫入2的位置。這樣通過快照卷的數(shù)據(jù)指針表訪問的還是快照點的那個數(shù)據(jù),而源數(shù)據(jù)卷讀的則是新數(shù)據(jù)。這種快照技術(shù)稱為寫時拷貝。
圖1 快照技術(shù)原理圖
這種技術(shù)最大的缺點是對卷的寫性能有影響。當每次更新數(shù)據(jù)時都要先復(fù)制數(shù)據(jù),然后才更新數(shù)據(jù)。如若寫入頻繁,則需要等待較長的時間。優(yōu)點是不影響數(shù)據(jù)讀取性能,這樣想要恢復(fù)到快照點是很容易的,而且這種快照方式只需要復(fù)制數(shù)據(jù)指針,復(fù)制也只是針對增量數(shù)據(jù),因此存儲空間利用率相當高。
2.1.2 重定向快照技術(shù)ROW
重定向快照技術(shù)的快照創(chuàng)建與寫時拷貝技術(shù)相同。不同之處是如果要將2修改為2′,那么系統(tǒng)不會像寫時拷貝技術(shù)那樣復(fù)制舊數(shù)據(jù),而是直接將新數(shù)據(jù)寫入新物理塊中,然后將源數(shù)據(jù)的數(shù)據(jù)指針指向這個新的塊的地址,如圖1(d)所示。這個動作非常塊,快照卷也不用做任何改變。
ROW技術(shù)在寫數(shù)據(jù)時性能不會有損耗,只是修改指針,實現(xiàn)效率很高。但是當多次寫入新數(shù)據(jù)后,源數(shù)據(jù)卷的數(shù)據(jù)會分布在存儲系統(tǒng)各個地方,相對會影響讀取性能,因此相比較COW技術(shù),這時的ROW的讀取性能會降低較多。
2.2 應(yīng)用于油氣行業(yè)業(yè)務(wù)中的大數(shù)據(jù)存儲快照選型分析
大數(shù)據(jù)量存儲在構(gòu)建時要考慮到性能、容量、安全性等因素,常采用多節(jié)點橫向擴展集群式存儲架構(gòu),這種架構(gòu)在底層數(shù)據(jù)存儲分布上與一般傳統(tǒng)規(guī)模的存儲存在明顯的區(qū)別。相應(yīng)的快照技術(shù)也有著不同的應(yīng)用業(yè)務(wù)場景以及不同的技術(shù)構(gòu)成,而同樣的快照技術(shù)在使用管理上也有著不盡相同的方式。
油氣行業(yè)中業(yè)務(wù)的數(shù)據(jù)類型主要分為兩類:
(1)大文件類型為主的應(yīng)用:原始采集數(shù)據(jù)文件、解釋過程文件、結(jié)果文件等等以文件類型為主的數(shù)據(jù)。在油氣行業(yè)中這部分數(shù)據(jù)的數(shù)據(jù)量均非常龐大。
針對大文件的讀寫操作在大數(shù)據(jù)存儲這種集群架構(gòu)下,都是由多個存儲控制器共同完成,數(shù)據(jù)實際上是被打散存放在不同的硬盤上的,如果是大數(shù)據(jù)的寫入,可以分散到很多個條帶里面,寫性能影響較小。如果使用ROW技術(shù),基本不影響寫性能,由于數(shù)據(jù)本身是打散存放的,也不會對讀有太大影響,所以建議針對此類的大文件讀寫應(yīng)用,最好采用ROW技術(shù)實施數(shù)據(jù)保護。
(2)小文件類型數(shù)據(jù)為主的應(yīng)用:油氣行業(yè)中的此類數(shù)據(jù)常見于各油井工況分析、功圖計產(chǎn)系統(tǒng)、單井生命周期等信息系統(tǒng)數(shù)據(jù)庫中。另一種情況是業(yè)務(wù)系統(tǒng)相關(guān)聯(lián)的某些油井的示功圖,此類數(shù)據(jù)相較于上面所述文件類型數(shù)據(jù)的數(shù)據(jù)量小很多,通常作為外部文件保存,但由于時間推移,示功圖張數(shù)增加,其數(shù)據(jù)占用存儲空間也會增加。
通常對大量的小文件應(yīng)用不會有大量的隨機數(shù)據(jù)更新操作,也并沒有高并發(fā)性操作。由于底層存儲采用了集群式的存儲架構(gòu),高級別的數(shù)據(jù)分布和保護方式使得其底層的條帶大小往往超過這些單一文件大小。因此,如果比較小的I/O,如每次只寫幾十kB,那么這些數(shù)據(jù)在使用ROW進行快照重寫時,是會寫到新的地方,造成數(shù)據(jù)分散而影響讀的性能,ROW的優(yōu)勢就沒有了。因此在集群存儲架構(gòu)下,處理海量小文件的快照應(yīng)用采用COW這種技術(shù)。
快照技術(shù)已經(jīng)廣泛應(yīng)用于各種應(yīng)用場景,建議在規(guī)劃、設(shè)計、部署海量數(shù)據(jù)存儲時,存儲系統(tǒng)盡可能既具備ROW技術(shù),也具備COW技術(shù),并且最好能夠做到針對不同的業(yè)務(wù)場景,底層系統(tǒng)能夠自動識別,進而根據(jù)不同場景選擇不同快照技術(shù)。
10.3969/j.issn.1673-0194.2015.19.039
F272.7;TE9
A
1673-0194(2015)19-0070-02
2015-05-29