全秋浩,楊鶴,馬云飛
(吉林省氣象信息網(wǎng)絡(luò)中心,吉林長春130062)
隨著信息技術(shù)的發(fā)展和氣象信息化的深入發(fā)展,省級(jí)氣象部門已經(jīng)搭建了多項(xiàng)數(shù)據(jù)縱向貫通、橫向集成的多元化氣象信息系統(tǒng),而且業(yè)務(wù)系統(tǒng)對(duì)信息技術(shù)的依賴性也越來越強(qiáng),同時(shí),支撐業(yè)務(wù)系統(tǒng)的氣象數(shù)據(jù)越來越重要,氣象數(shù)據(jù)的丟失和業(yè)務(wù)的中斷,往往意味著巨大損失。如何應(yīng)對(duì)不確定環(huán)境下的氣象數(shù)據(jù)丟失的風(fēng)險(xiǎn),如何在軟件和硬件故障后讓業(yè)務(wù)系統(tǒng)快速恢復(fù),如何保證氣象數(shù)據(jù)萬無一失等,這些課題已經(jīng)擺在氣象部門的運(yùn)維和管理人員面前。
氣象數(shù)據(jù)保護(hù)就是結(jié)合氣象部門自身的氣象實(shí)時(shí)和歷時(shí)資料的數(shù)據(jù)保護(hù)和業(yè)務(wù)連續(xù)性需求,制定適合于氣象信息部門自身的容災(zāi)方案和恢復(fù)策略,在遇到突發(fā)的系統(tǒng)故障和氣象數(shù)據(jù)部分或全部丟失的情況時(shí),以最短的時(shí)間恢復(fù)業(yè)務(wù)系統(tǒng)的正常運(yùn)行。
氣象數(shù)據(jù)保護(hù)的范疇很廣,從技術(shù)角度來看,要建立一套有效的氣象數(shù)據(jù)保護(hù)方案和數(shù)據(jù)丟失時(shí)的恢復(fù)策略,其需要考慮以下幾個(gè)問題:氣象數(shù)據(jù)的完整性和一致性、氣象數(shù)據(jù)傳輸?shù)木W(wǎng)絡(luò)連通性和網(wǎng)絡(luò)帶寬、氣象數(shù)據(jù)傳輸?shù)陌踩砸约皻庀髠浞輸?shù)據(jù)存儲(chǔ)媒介等;從實(shí)現(xiàn)方法來看,有拷貝、備份、復(fù)制、快照、鏡像等;從實(shí)現(xiàn)位置上來看,可以在主機(jī)層、網(wǎng)絡(luò)層、存儲(chǔ)層實(shí)現(xiàn)。
無論采用哪種數(shù)據(jù)保護(hù)方案,數(shù)據(jù)保護(hù)的核心都是建立一份或多份數(shù)據(jù)副本,一旦出現(xiàn)數(shù)據(jù)故障,可以通過備份的氣象數(shù)據(jù)進(jìn)行恢復(fù)或進(jìn)入短時(shí)間的替代使用。
恢復(fù)時(shí)間目標(biāo)和恢復(fù)點(diǎn)目標(biāo)是數(shù)據(jù)保護(hù)的兩個(gè)通用的衡量指標(biāo)?;謴?fù)時(shí)間目標(biāo)指的是從發(fā)生數(shù)據(jù)丟失時(shí)到恢復(fù)數(shù)據(jù)使用所需要的時(shí)間,這一指標(biāo)體現(xiàn)了數(shù)據(jù)恢復(fù)能力;恢復(fù)點(diǎn)目標(biāo)指的是業(yè)務(wù)系統(tǒng)在發(fā)生數(shù)據(jù)丟失的情況下能接受的最大數(shù)據(jù)丟失量,這一指標(biāo)體現(xiàn)了數(shù)據(jù)的冗余能力。
恢復(fù)時(shí)間的目標(biāo)越小,意味著業(yè)務(wù)系統(tǒng)允許的數(shù)據(jù)丟失到恢復(fù)的時(shí)間越短。對(duì)于氣象業(yè)務(wù)部分肯定希望由于數(shù)據(jù)丟失造成的業(yè)務(wù)系統(tǒng)無法使用的時(shí)間越短越好,但是這意味著需要在數(shù)據(jù)備份和恢復(fù)上投入更多的成本,而對(duì)于省級(jí)、市級(jí)和縣級(jí)的氣象部門來說,其恢復(fù)時(shí)間目標(biāo)一般是不相同的。在考慮氣象數(shù)據(jù)保護(hù)方案和數(shù)據(jù)丟失時(shí)的恢復(fù)策略時(shí),要評(píng)估自身對(duì)氣象數(shù)據(jù)丟失到恢復(fù)能接受的最大允許時(shí)間,在考慮到投入成本的前提下,制定適合的、性價(jià)比高的氣象數(shù)據(jù)保護(hù)方案、數(shù)據(jù)備份方式、數(shù)據(jù)恢復(fù)策略以及數(shù)據(jù)容災(zāi)系統(tǒng)。
目前,數(shù)據(jù)保護(hù)的技術(shù)有很多種,按照實(shí)現(xiàn)位置的不同,可以分為主機(jī)層、網(wǎng)絡(luò)層、存儲(chǔ)層。主機(jī)層數(shù)據(jù)保護(hù):通過主機(jī)上的通用或特定軟件來實(shí)現(xiàn)數(shù)據(jù)保護(hù),例如,經(jīng)常使用的拷貝,就是一種數(shù)據(jù)保護(hù)手段。此外,基于主機(jī)的復(fù)制軟件(如Veritas VVR軟件)或特定應(yīng)用軟件(如Oracle Data-Guard),也都是基于主機(jī)層的容災(zāi);網(wǎng)絡(luò)層數(shù)據(jù)保護(hù):主要是通過一些智能網(wǎng)絡(luò)交換機(jī)或存儲(chǔ)網(wǎng)絡(luò)虛擬化引擎的復(fù)制、鏡像、快照來實(shí)現(xiàn),例如,IBM SVC等;存儲(chǔ)層數(shù)據(jù)保護(hù):最主流的就是基于盤陣來實(shí)現(xiàn),主要包括鏡像、復(fù)制、快照三大功能,這些是各大存儲(chǔ)廠家都可以提供的相應(yīng)實(shí)現(xiàn)方案。
大家經(jīng)常使用的拷貝,也是一種數(shù)據(jù)保護(hù)手段??截惣夹g(shù)的數(shù)據(jù)保護(hù)方式僅支持文件格式的數(shù)據(jù)拷貝,無法拷貝正在使用的文件,且需要手動(dòng)操作,無法判斷數(shù)據(jù)增量,每次數(shù)據(jù)備份時(shí)都需要拷貝全部數(shù)據(jù),且備份數(shù)據(jù)僅與當(dāng)時(shí)拷貝的原數(shù)據(jù)一致,當(dāng)需要備份的數(shù)據(jù)量較大時(shí),拷貝和數(shù)據(jù)恢復(fù)都將占用大量的業(yè)務(wù)服務(wù)器資源??截惣夹g(shù)的恢復(fù)時(shí)間目標(biāo)和恢復(fù)點(diǎn)目標(biāo)無法預(yù)估,一次性投入成本較低,但人力和維護(hù)成本相對(duì)較高。適用于對(duì)業(yè)務(wù)連續(xù)性無要求的業(yè)務(wù)系統(tǒng),且備份數(shù)據(jù)量較小的場景。
數(shù)據(jù)的復(fù)制技術(shù)指的是通過使用復(fù)制軟件或硬件把數(shù)據(jù)從一個(gè)存儲(chǔ)區(qū)域傳輸?shù)搅硪粋€(gè)存儲(chǔ)區(qū)域,生成一個(gè)數(shù)據(jù)副本。網(wǎng)絡(luò)層的復(fù)制技術(shù)可以精確的判斷增量數(shù)據(jù),在實(shí)現(xiàn)數(shù)據(jù)異地備份的同時(shí),所花費(fèi)的鏈路帶寬很小。使用復(fù)制技術(shù)可以保證數(shù)據(jù)格式和原數(shù)據(jù)的一致性,減少了格式轉(zhuǎn)換的環(huán)節(jié),極大地縮短了業(yè)務(wù)系統(tǒng)的恢復(fù)時(shí)間。
服務(wù)器將IO寫到存儲(chǔ)中,通過復(fù)制引擎(復(fù)制軟件),將增量的數(shù)據(jù)塊發(fā)送到異地的災(zāi)備中心的存儲(chǔ)中,寫入完成后,返回一個(gè)確認(rèn)信息。復(fù)制是一種異步的數(shù)據(jù)保護(hù)手段,所以會(huì)有少量的數(shù)據(jù)丟失。網(wǎng)絡(luò)層和存儲(chǔ)層復(fù)制對(duì)數(shù)據(jù)傳輸帶寬要求相對(duì)較低,且數(shù)據(jù)的提取過程不影響業(yè)務(wù)服務(wù)器的性能,而服務(wù)器層的復(fù)制對(duì)業(yè)務(wù)服務(wù)器性能影響較為明顯。
復(fù)制方式數(shù)據(jù)保護(hù)恢復(fù)時(shí)間目標(biāo)和恢復(fù)點(diǎn)目標(biāo)可達(dá)分鐘級(jí)。服務(wù)器層的復(fù)制成本與服務(wù)器數(shù)量成正比例相關(guān),且復(fù)制過程對(duì)服務(wù)器性能影響較大,而存儲(chǔ)層復(fù)制成本為一次性投入,與服務(wù)器數(shù)量無關(guān)。適用于對(duì)業(yè)務(wù)連續(xù)性要求較高的氣象核心業(yè)務(wù)系統(tǒng),且傳輸距離較遠(yuǎn)或傳輸鏈路條件不高的場景。
鏡像技術(shù)是指在存儲(chǔ)系統(tǒng)中通過同樣的讀寫操作,在兩個(gè)獨(dú)立的存儲(chǔ)空間中存儲(chǔ)相同的數(shù)據(jù)。鏡像技術(shù)適用于近距離傳輸且對(duì)網(wǎng)絡(luò)帶寬要求較高,具有維護(hù)低成本、數(shù)據(jù)丟失后切換快等特點(diǎn),基本可以達(dá)到數(shù)據(jù)零丟失。適用于對(duì)業(yè)務(wù)連續(xù)性要求高的氣象核心業(yè)務(wù)系統(tǒng),且數(shù)據(jù)的提取不影響業(yè)務(wù)服務(wù)器系統(tǒng)資源的場景。
存儲(chǔ)系統(tǒng)中的數(shù)據(jù)快照與生活中所說的照片非常相似,不同的是存儲(chǔ)系統(tǒng)中的快照對(duì)象是數(shù)據(jù),快照相當(dāng)于一個(gè)數(shù)據(jù)的副本或是復(fù)制品??煺盏闹饕攸c(diǎn)包括:瞬間生成,存儲(chǔ)系統(tǒng)可以在幾秒鐘內(nèi)生成一個(gè)快照,獲取源數(shù)據(jù)的一致性副本,占用存儲(chǔ)空間少,生成的快照數(shù)據(jù)并非完整的物理數(shù)據(jù)拷貝,不會(huì)占用大量存儲(chǔ)空間。所以,即使源數(shù)據(jù)量很大,也只會(huì)占用很少的存儲(chǔ)空間。
快照部署的方式:單一集中存儲(chǔ)情況下,快照軟件部署在生產(chǎn)存儲(chǔ),應(yīng)對(duì)人工誤刪除、病毒等軟故障。在存儲(chǔ)系統(tǒng)中存在備份存儲(chǔ)的情況下,快照軟件部署在備份存儲(chǔ),這樣部署的好處是不會(huì)影響生產(chǎn)存儲(chǔ)性能,部署快照的優(yōu)點(diǎn):可恢復(fù)任意快照點(diǎn)數(shù)據(jù),不需要在主機(jī)上安裝軟件,不影響主機(jī)性能,能夠快速生成快照 ,且恢復(fù)速度快。適用于用戶的業(yè)務(wù)系統(tǒng)對(duì)恢復(fù)點(diǎn)目標(biāo)和恢復(fù)時(shí)間目標(biāo)要求一般,數(shù)據(jù)丟失后進(jìn)行數(shù)據(jù)恢復(fù)時(shí)允許業(yè)務(wù)短暫停機(jī)的場景。
備份軟件保護(hù)方案需要在一臺(tái)備份服務(wù)器上安裝備份軟件,并且在每一臺(tái)有數(shù)據(jù)保護(hù)需求的服務(wù)器上安裝備份客戶端,根據(jù)策略將數(shù)據(jù)拷貝至備份存儲(chǔ),既可以包括操作系統(tǒng)和虛擬機(jī)數(shù)據(jù),也可以包括數(shù)據(jù)庫、郵件系統(tǒng)數(shù)據(jù)等。當(dāng)生產(chǎn)數(shù)據(jù)發(fā)生故障時(shí),可以從備份存儲(chǔ)中進(jìn)行恢復(fù)。這種方案的優(yōu)點(diǎn)是比較簡單易用,投資也較少,適用于對(duì)恢復(fù)點(diǎn)目標(biāo)、恢復(fù)時(shí)間目標(biāo)要求不高,且服務(wù)器和應(yīng)用數(shù)量不多的情況。這是因?yàn)閭浞蒈浖臄?shù)據(jù)備份對(duì)業(yè)務(wù)連續(xù)性有影響,一般都是在夜里進(jìn)行,而且在數(shù)據(jù)量比較大的情況下,例如幾十TB,恢復(fù)的時(shí)間也會(huì)比較長,甚至可能達(dá)到 2~3天,這對(duì)很多氣象部門來講是不能容忍的。而且因?yàn)閭浞蒈浖歉鶕?jù)服務(wù)器數(shù)量收費(fèi)的,所以,在應(yīng)用和服務(wù)器比較多的情況下,投資成本也會(huì)線性增長到一個(gè)非常高的程度。
了解了備份軟件的保護(hù)方式后,基于存儲(chǔ)的CDP本地?cái)?shù)據(jù)保護(hù)方案也是解決方案之一,即復(fù)制和快照保護(hù)。存儲(chǔ)復(fù)制是通過一臺(tái)生產(chǎn)存儲(chǔ)和一臺(tái)備份存儲(chǔ)實(shí)現(xiàn)的,它通過存儲(chǔ)控制器內(nèi)置的復(fù)制軟件將數(shù)據(jù)按策略從生產(chǎn)存儲(chǔ)拷貝至備份存儲(chǔ)中,當(dāng)生產(chǎn)存儲(chǔ)出現(xiàn)故障停機(jī)或數(shù)據(jù)丟失時(shí),可以通過備份存儲(chǔ)進(jìn)行業(yè)務(wù)接管和數(shù)據(jù)恢復(fù)。
其和備份軟件的一個(gè)很大區(qū)別是,因?yàn)閮膳_(tái)存儲(chǔ)的數(shù)據(jù)格式是一樣的,所以,在發(fā)生故障時(shí),只需要把備份存儲(chǔ)成功掛載在服務(wù)器上,業(yè)務(wù)就可以恢復(fù),而不需要像備份軟件一樣去花大量的時(shí)間做數(shù)據(jù)回滾,所以,恢復(fù)起來比較方便,時(shí)間也較快。此外,由于是基于存儲(chǔ)實(shí)現(xiàn)的,不需要在主機(jī)端安裝軟件,不僅節(jié)省了一臺(tái)備份服務(wù)器,不影響主機(jī)的性能和帶寬,而且不管服務(wù)器的數(shù)量如何增長,其投資成本都是固定的,這也是復(fù)制解決方案的優(yōu)勢之一。最后復(fù)制方案也不需要業(yè)務(wù)停機(jī),所以時(shí)間上比較靈活,用戶選擇1~2個(gè)小時(shí)做一次復(fù)制都是可以的。
在快照保護(hù)上,其通過保存某個(gè)時(shí)間點(diǎn)的數(shù)據(jù),可以有效預(yù)防很多軟故障,包括誤刪除、文件損壞、病毒攻擊等。例如,每半小時(shí)做一次快照,在20點(diǎn)10分的時(shí)候誤刪了一個(gè)文件,在幾分鐘后發(fā)現(xiàn)了,那么就可以通過20點(diǎn)鐘時(shí)候的快照,將刪除的文件恢復(fù)出來。
前面的所有本地災(zāi)備方案,都會(huì)有不小的數(shù)據(jù)丟失,而數(shù)據(jù)鏡像方案真正實(shí)現(xiàn)了恢復(fù)點(diǎn)目標(biāo)為零,因?yàn)槿魏我粋€(gè)數(shù)據(jù)IO的寫入,都會(huì)在對(duì)端鏡像存儲(chǔ)中寫入完整后,才會(huì)接受下一個(gè)數(shù)據(jù)IO的寫入,這樣可以最大程度地避免數(shù)據(jù)丟失。為了降低應(yīng)用延遲,兩臺(tái)存儲(chǔ)之間需要通過萬兆網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)鏡像。與復(fù)制技術(shù)一樣,鏡像保護(hù)也是基于存儲(chǔ)層面實(shí)現(xiàn),所以不會(huì)占用主機(jī)的性能和帶寬資源,而且還具備實(shí)時(shí)切換能力,相比復(fù)制技術(shù)的故障恢復(fù)時(shí)間又提升了一個(gè)級(jí)別。鏡像方案需要兩臺(tái)性能規(guī)格相當(dāng)?shù)拇鎯?chǔ),其恢復(fù)點(diǎn)目標(biāo)和恢復(fù)時(shí)間目標(biāo)可以達(dá)到很高級(jí)別,適用于對(duì)數(shù)據(jù)安全性和業(yè)務(wù)連續(xù)性要求較高的氣象用戶。
本地雙活保護(hù)是數(shù)據(jù)保護(hù)方案中最高安全級(jí)別的解決方案,通過兩臺(tái)相同配置的存儲(chǔ)搭建雙活系統(tǒng),每個(gè)控制器上配置兩個(gè)10GE或40GE接口卡,兩兩交叉互連,作為數(shù)據(jù)鏡像的專用通道。兩臺(tái)存儲(chǔ)的數(shù)據(jù)卷通過雙活軟件組成一個(gè)虛擬卷,統(tǒng)一對(duì)外提供存儲(chǔ)服務(wù),服務(wù)器看到的是一個(gè)數(shù)據(jù)卷,在任何一臺(tái)存儲(chǔ)發(fā)生故障時(shí)可以自動(dòng)切換到另一臺(tái)存儲(chǔ),保證數(shù)據(jù)零丟失、業(yè)務(wù)不停機(jī),而且服務(wù)器感知不到這種切換,是完全透明的。在正常情況下,兩臺(tái)存儲(chǔ)可以同時(shí)對(duì)外提供讀寫服務(wù),既提升了應(yīng)用性能,也保證了設(shè)備利用率。雙活方案不需要增加任何第三方軟硬件,投資成本低,部署管理簡單,而且沒有兼容性風(fēng)險(xiǎn),此外性能和可靠性也更高,是一種非常領(lǐng)先的雙活解決方案,適用于對(duì)業(yè)務(wù)連續(xù)性要求較高、不允許業(yè)務(wù)停機(jī)和數(shù)據(jù)丟失的環(huán)境。
通過以上幾種數(shù)據(jù)保護(hù)技術(shù)和保護(hù)方案的對(duì)比分析,省級(jí)氣象部門可以根據(jù)自身的實(shí)際情況選擇適合的數(shù)據(jù)保護(hù)方案。