薛雁丹 李功梅 卜言彬
【摘 ?要】當(dāng)前,金融、電信、制造等行業(yè)的大部分大型組織依舊采用傳統(tǒng)的存儲解決方案定期備份其任務(wù)關(guān)鍵型數(shù)據(jù)庫。傳統(tǒng)的解決方案無法滿足任務(wù)關(guān)鍵型企業(yè)數(shù)據(jù)庫的備份要求,存在數(shù)據(jù)丟失、備份窗口長、生產(chǎn)環(huán)境負(fù)擔(dān)重、防勒索及數(shù)據(jù)庫級別的可恢復(fù)性驗證能力弱、難于滿足不斷增長的數(shù)據(jù)庫需求等問題。論文提出,需要引入新的數(shù)據(jù)保護技術(shù),提升備份效率,確保數(shù)據(jù)零丟失,滿足現(xiàn)代組織在業(yè)務(wù)和合規(guī)上對RPO和RTO的苛刻要求。
【關(guān)鍵詞】數(shù)據(jù)保護;零數(shù)據(jù)丟失保護;實時推送;永久增量;虛擬全量;RTO;RPO
【中圖分類號】TP311 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻(xiàn)標(biāo)志碼】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號】1673-1069(2024)04-0131-03
1 引言
在數(shù)字化轉(zhuǎn)型和AI技術(shù)大爆發(fā)的今天,各類組織都高度依賴IT系統(tǒng)支撐其業(yè)務(wù)的開展,特別是大型組織,服務(wù)著千萬級,甚至十億級的用戶,一旦IT系統(tǒng)失效導(dǎo)致業(yè)務(wù)停頓與癱瘓,甚至核心業(yè)務(wù)數(shù)據(jù)的損壞或丟失,則勢必帶來災(zāi)難性的后果,在經(jīng)濟受損的同時,可能引發(fā)社會群體性事件。
調(diào)查發(fā)現(xiàn),金融、電信、制造等行業(yè)的大型組織的任務(wù)關(guān)鍵型數(shù)據(jù)庫高可用主要依賴本地數(shù)據(jù)庫集群、傳統(tǒng)的數(shù)據(jù)備份技術(shù)、本地或遠(yuǎn)程容災(zāi),在應(yīng)對機房設(shè)備物理故障與自然災(zāi)難方面有所建樹。但是,傳統(tǒng)的數(shù)據(jù)庫備份技術(shù)在確保數(shù)據(jù)的安全性、完整性、準(zhǔn)確性、可驗證性和可恢復(fù)性方面面臨諸多挑戰(zhàn),需引入新的數(shù)據(jù)保護技術(shù),消除數(shù)據(jù)丟失風(fēng)險,滿足任務(wù)關(guān)鍵型企業(yè)數(shù)據(jù)庫的RPO和RTO要求。
2 任務(wù)關(guān)鍵型企業(yè)數(shù)據(jù)庫數(shù)據(jù)保護的挑戰(zhàn)
目前,市場上用于保護業(yè)務(wù)數(shù)據(jù)的存儲解決方案均無法滿足任務(wù)關(guān)鍵型數(shù)據(jù)庫的應(yīng)用需求,這些解決方案的問題根源在于:第一,備份和恢復(fù)方法基于已使用數(shù)十年的全量、增量、加歸檔日志夜間備份的模式,每次恢復(fù)都可能丟失多達(dá)一天的數(shù)據(jù),無法實現(xiàn)RPO=0;第二,數(shù)據(jù)庫全量備份,無論數(shù)據(jù)是否更改,生產(chǎn)服務(wù)器、存儲和網(wǎng)絡(luò)在每次備份時都要處理所有數(shù)據(jù)庫數(shù)據(jù),開銷極高;第三,數(shù)據(jù)不斷增長導(dǎo)致備份窗口越來越長,恢復(fù)時間更是漫長,無法滿足RTO的要求;第四,備份設(shè)備擴展性、數(shù)據(jù)消重與壓縮能力有限,無法為組織內(nèi)所有數(shù)據(jù)庫提供保護;第五,缺乏權(quán)限控制機制,對刪庫、刪備份跑路及勒索防范能力不足;第六,缺乏對整個數(shù)據(jù)保護生命周期的可見性和控制力,黑盒備份,無法驗證數(shù)據(jù)庫的可恢復(fù)性。
3 零數(shù)據(jù)丟失保護技術(shù)
當(dāng)前,97%的《財富》500強公司都在使用Oracle解決方案。截至2021年,以業(yè)務(wù)系統(tǒng)數(shù)量為計數(shù)單位,我國金融行業(yè)Oracle數(shù)據(jù)庫占比為55%[1],電信、制造等行業(yè)的業(yè)務(wù)系統(tǒng)也普遍基于Oracle數(shù)據(jù)庫開發(fā)[2]。為解決這類任務(wù)關(guān)鍵型企業(yè)數(shù)據(jù)庫的數(shù)據(jù)保護難題,Oracle研發(fā)了一個突破性的數(shù)據(jù)保護解決方案,即零數(shù)據(jù)丟失恢復(fù)一體機(以下簡稱“恢復(fù)一體機”)。
恢復(fù)一體機與Oracle數(shù)據(jù)庫中相應(yīng)的功能以及Recovery Manager(RMAN)備份工具緊密集成,通過實時重做傳輸、永久增量備份、自動合成虛擬全備、自動端到端持續(xù)驗證數(shù)據(jù)、分布式軟硬件優(yōu)化集成、靈活復(fù)制架構(gòu)等創(chuàng)新技術(shù),實現(xiàn)了真正的零數(shù)據(jù)丟失保護,并且大幅降低生產(chǎn)服務(wù)器的負(fù)載。零數(shù)據(jù)丟失保護總體技術(shù)架構(gòu)如圖1所示。
3.1 消除數(shù)據(jù)丟失技術(shù)
零數(shù)據(jù)丟失恢復(fù)一體化解決方案,創(chuàng)新性地引入了實時備份數(shù)據(jù)庫重做日志、保護備份數(shù)據(jù)免遭災(zāi)難和確保備份數(shù)據(jù)可恢復(fù)等技術(shù)。
3.1.1 實時備份數(shù)據(jù)庫重做日志
重做日志(Redo Log)是在Oracle數(shù)據(jù)庫內(nèi)實施事務(wù)性變化的基本手段。所有Oracle 11g及更高版本的數(shù)據(jù)庫都可以從內(nèi)存日志緩沖區(qū)中直接向恢復(fù)一體機持續(xù)發(fā)送重做日志,恢復(fù)一體機實時接收重做日志并自動生成歸檔日志。這提供了獨特的、類似于Data Guard保護程度的實時數(shù)據(jù)保護,可確保數(shù)據(jù)庫受到亞秒級的保護。
3.1.2 保護備份數(shù)據(jù)免遭災(zāi)難
本地恢復(fù)一體機的備份通過集成的備份軟件和相關(guān)的技術(shù)可快捷地復(fù)制到遠(yuǎn)程恢復(fù)一體機、云端、磁帶、NAS等設(shè)備中,以防站點中斷和區(qū)域性災(zāi)難。其支持多種靈活復(fù)制拓?fù)浼軜?gòu),例如,兩個恢復(fù)一體機之間可以單向或者雙向?qū)崟r復(fù)制,還可以多對一復(fù)制等。用戶可以根據(jù)合規(guī)的要求對復(fù)制拓?fù)浣Y(jié)構(gòu)進(jìn)行量身定制。在所有拓?fù)浣Y(jié)構(gòu)中,恢復(fù)一體機均僅復(fù)制更改的塊,從而極大地減少了網(wǎng)絡(luò)和存儲的占用。如果本地恢復(fù)一體機不可用,可以直接從遠(yuǎn)程恢復(fù)一體機或者磁帶中運行恢復(fù)操作。
3.1.3 確保備份數(shù)據(jù)可恢復(fù)
與Oracle數(shù)據(jù)庫深度集成,恢復(fù)一體機可識別Oracle數(shù)據(jù)塊的格式,支持深度數(shù)據(jù)驗證,所有備份數(shù)據(jù)和重做塊在發(fā)送至恢復(fù)一體機、復(fù)制到磁帶及遠(yuǎn)程復(fù)制時都會自動接受驗證。此外,恢復(fù)一體機存儲軟件會定期對磁盤上的備份塊進(jìn)行驗證,還會定期檢查底層硬盤,如在驗證過程中發(fā)現(xiàn)數(shù)據(jù)損壞,則自動讀取鏡像副本中的正常數(shù)據(jù)塊,并立即修復(fù)受損數(shù)據(jù)塊,確保恢復(fù)操作始終恢復(fù)有效數(shù)據(jù),相當(dāng)于定期進(jìn)行恢復(fù)演練。
3.2 永久增量備份技術(shù)
為了將生產(chǎn)數(shù)據(jù)庫系統(tǒng)上與備份相關(guān)的處理減少至最低,恢復(fù)一體機采用一次全量、永久增量的備份架構(gòu)。該架構(gòu)以增量推送和增量存儲兩項創(chuàng)新技術(shù)為基礎(chǔ),只傳輸和存儲生產(chǎn)庫發(fā)生更改的數(shù)據(jù),消除不必要的備份處理,由此極大地降低了對生產(chǎn)系統(tǒng)的影響。
增量存儲可對傳入的更改數(shù)據(jù)塊進(jìn)行驗證,然后執(zhí)行壓縮、編制索引和存儲操作。數(shù)據(jù)庫虛擬完全備份是截至某個增量備份時間點,對物理完全備份的一種基于指針的表示,即每次增量備份后,基于指針生成一個虛擬全備。當(dāng)需要執(zhí)行恢復(fù)操作時,可以按需恢復(fù)某個時間點虛擬完全備份,然后恢復(fù)歸檔日志。
另外,恢復(fù)一體機將所有與備份相關(guān)的處理都卸載到本機上,包括耗時的壓縮、備份刪除、驗證和維護操作等,釋放生產(chǎn)系統(tǒng)資源。
3.3 具備云級的數(shù)據(jù)庫保護及服務(wù)能力
恢復(fù)一體機通過基于策略的數(shù)據(jù)保護管理、數(shù)據(jù)庫感知的空間管理和大規(guī)模云級基礎(chǔ)架構(gòu)等多種創(chuàng)新技術(shù)為數(shù)據(jù)中心成百上千個數(shù)據(jù)庫提供云級數(shù)據(jù)庫保護服務(wù)。
根據(jù)每個數(shù)據(jù)庫的恢復(fù)目標(biāo)制定保護策略,并進(jìn)行分組。恢復(fù)一體機可以根據(jù)各個數(shù)據(jù)庫的恢復(fù)窗口目標(biāo),全面地管理所有備份存儲空間。如果存儲空間允許,恢復(fù)一體機將保留比恢復(fù)窗口目標(biāo)更早的備份,從而提供更長的恢復(fù)窗口。在出現(xiàn)任何空間壓力之前,恢復(fù)一體機會主動根據(jù)歷史空間占用自動清理恢復(fù)窗口目標(biāo)之外的備份,并為各個數(shù)據(jù)庫重新供應(yīng)空間,以便達(dá)到每個受保護數(shù)據(jù)庫的恢復(fù)窗口目標(biāo)。
恢復(fù)一體機單個機架可提供PB級的可用存儲容量,并可提供12~24 TB/h的數(shù)據(jù)備份與恢復(fù)速率,可多個機架級聯(lián)組成更大的備份資源池。
3.4 抗擊勒索及人為故意破壞的復(fù)原力和恢復(fù)能力
恢復(fù)一體機被設(shè)計成與生產(chǎn)數(shù)據(jù)庫故障隔離,自動驗證所有傳入的、磁盤上的和復(fù)制的備份數(shù)據(jù)塊的正確性和可恢復(fù)性,任何被惡意破壞的備份數(shù)據(jù)會被檢測、記錄,并告警,強制執(zhí)行不可改變的備份,嚴(yán)格按DBA和設(shè)備管理員職責(zé)分工進(jìn)行系統(tǒng)訪問控制,傳輸加密,實時重做傳輸允許恢復(fù)到攻擊發(fā)生前的最后一筆交易等。因此,如果勒索軟件或者人為攻擊生產(chǎn)數(shù)據(jù)庫,恢復(fù)一體機不會受到影響,不會導(dǎo)致數(shù)據(jù)丟失。
4 通用數(shù)據(jù)保護方案與零數(shù)據(jù)丟失保護方案對比
各類組織的任務(wù)關(guān)鍵型數(shù)據(jù)庫的保護都有嚴(yán)苛的要求,當(dāng)前的通用存儲備份方案與零數(shù)據(jù)丟失保護方案對數(shù)據(jù)保護的關(guān)鍵需求響應(yīng)如表1所示。
5 零數(shù)據(jù)丟失保護技術(shù)應(yīng)用示例
當(dāng)前,越來越多的組織采用零數(shù)據(jù)丟失保護技術(shù)保護其核心數(shù)據(jù)資產(chǎn),以便在遭遇災(zāi)難性故障、邏輯故障、人為刪除、勒索加密、合規(guī)稽核等情況下,確保數(shù)據(jù)可快速恢復(fù),并保證數(shù)據(jù)的完整性和準(zhǔn)確性。
以下為一個大型組織采用零數(shù)據(jù)丟失保護技術(shù)方案的真實情況。該組織的IT系統(tǒng)服務(wù)著上億客戶,數(shù)據(jù)庫實時備份到恢復(fù)一體機上,同時,卸載備份到容災(zāi)中心的磁帶機上,并定期復(fù)制磁帶異地保存。零數(shù)據(jù)丟失保護技術(shù)的管理界面如圖2所示。
從管理界面可以看出,該組織納入零數(shù)據(jù)丟失保護的數(shù)據(jù)庫有5個CDB(名稱和保護策略已模糊處理)。所有數(shù)據(jù)庫采用相同的保護策略,即目標(biāo)恢復(fù)窗口為60天,實際上當(dāng)前恢復(fù)窗口均在60天以上,其中,最大的數(shù)據(jù)庫恢復(fù)窗口已達(dá)112天,即該庫可以恢復(fù)到過去的112天以內(nèi)的任何時間點。數(shù)據(jù)未受保護的窗口均小于1 s,即RPO為亞秒級,甚至為0。當(dāng)前,最大的數(shù)據(jù)庫達(dá)到102 TB,在保留112天恢復(fù)窗口后,實際使用存儲空間62 TB,數(shù)據(jù)去重比達(dá)到124倍,存儲空間使用效率非常高。
恢復(fù)一體機引入永久增量備份、自動合成虛擬全量備份技術(shù),每天在40 min內(nèi),只需備份500 GB以內(nèi)的有效變化的數(shù)據(jù)即可得到百TB級的全庫備份。
單臺恢復(fù)一體機可提供12~24 TB/h的數(shù)據(jù)備份與恢復(fù)速率,可同時并行備份與恢復(fù)多個數(shù)據(jù)庫。實際備份與恢復(fù)速度受數(shù)據(jù)庫基礎(chǔ)平臺能力的影響較大,特別是IO、網(wǎng)絡(luò)帶寬的影響,實測基本可達(dá)到數(shù)據(jù)庫平臺短板硬件能力的上限。
6 結(jié)論
使用傳統(tǒng)的數(shù)據(jù)庫備份解決方案,只是把數(shù)據(jù)庫當(dāng)作簡單的通用文件來復(fù)制副本和存儲,并不是當(dāng)作具有特定數(shù)據(jù)完整性、性能和可用性要求的交易系統(tǒng)來處理,會出現(xiàn)業(yè)務(wù)數(shù)據(jù)丟失、備份恢復(fù)時間過長、很難保證RPO和RTO要求等問題。另外,備份部署和管理復(fù)雜,備份數(shù)據(jù)的安全性和有效性難以保證。零數(shù)據(jù)丟失保護技術(shù)可以很好地解決傳統(tǒng)數(shù)據(jù)庫備份與恢復(fù)所遇到的挑戰(zhàn)。
零數(shù)據(jù)丟失保護技術(shù)以一種創(chuàng)新的、先進(jìn)的方法重新定義了數(shù)據(jù)庫保護領(lǐng)域。其通過將先進(jìn)的數(shù)據(jù)保護技術(shù)與數(shù)據(jù)庫技術(shù)、高性能硬件深度優(yōu)化融合,以軟硬件一體化的方式快速提供數(shù)據(jù)庫備份服務(wù)。通過實時備份消除數(shù)據(jù)丟失,永久增量備份消除對生產(chǎn)的影響,高效的復(fù)制架構(gòu)保護數(shù)據(jù)免遭災(zāi)難和防勒索,自動合成虛擬全量及重做日志,實時備份允許恢復(fù)到恢復(fù)目標(biāo)窗口期內(nèi)的任何時間點。
零數(shù)據(jù)丟失保護技術(shù)可以很好地解決客戶嚴(yán)苛的RPO和RTO要求,越來越多的客戶案例也證明了其有效性。
【參考文獻(xiàn)】
【1】中國信通院.數(shù)據(jù)庫發(fā)展研究報告(2021年)[R].北京:中國信息通信研究院云計算與大數(shù)據(jù)研究所,2021.
【2】中國信通院.數(shù)據(jù)庫發(fā)展研究報告(2023年)[R].北京:中國信息通信研究院云計算與大數(shù)據(jù)研究所,2023.