摘 要:針對制造企業(yè)24 h連續(xù)不間斷的生產(chǎn)系統(tǒng),基于其虛擬機環(huán)境,設計了基于Veeam Backup & Replication V11的持續(xù)數(shù)據(jù)保護(Continuous Data Protection)架構,給出了系統(tǒng)的架構設計圖、數(shù)據(jù)保留原理圖以及測試流程圖。該系統(tǒng)主要由備份服務器、主備機房虛擬化系統(tǒng)、I/O過濾器、VMware CDP代理組成,經(jīng)測試,系統(tǒng)切換時間短,數(shù)據(jù)同步快,操作簡單。
關鍵詞:持續(xù)數(shù)據(jù)保護;CDP;虛擬化;24 h生產(chǎn)
中圖分類號:TP309? ? 文獻標志碼:A? ? 文章編號:1671-0797(2022)12-0024-05
DOI:10.19514/j.cnki.cn32-1628/tm.2022.12.007
0? ? 引言
數(shù)據(jù)保護一直都是各個企業(yè)基礎架構的重中之重,對于某些行業(yè),如金融、生產(chǎn)制造、醫(yī)療等,每一分鐘的數(shù)據(jù)停機都會造成直接的經(jīng)濟損失,給企業(yè)帶來重大影響。
進入IT行業(yè)以來,筆者一直服務于政府、金融、生產(chǎn)制造行業(yè),根據(jù)筆者的經(jīng)驗,從最初單一的數(shù)據(jù)備份,到之后的采用本地共享存儲方式的數(shù)據(jù)保護,再到后期高級的異地存儲鏡像數(shù)據(jù)保護,這些初級或高級的數(shù)據(jù)保護技術,每一個都有其不足之處,或是實施成本昂貴,或是恢復時間較長,或是技術難度太高。隨著IT技術的不斷發(fā)展,一個新的名詞——“持續(xù)數(shù)據(jù)保護”(Continuous Data Protection,簡稱CDP),開始出現(xiàn)在我們的視野中。
1? ? 持續(xù)數(shù)據(jù)保護介紹
持續(xù)數(shù)據(jù)保護,也稱連續(xù)備份或實時備份,是指通過自動保存對該數(shù)據(jù)所做的每次更改的副本來備份計算機數(shù)據(jù),實質上是捕獲用戶保存的每個版本的數(shù)據(jù)。以其真實形式,它允許用戶或管理員將數(shù)據(jù)恢復到任何時間點[1]。該技術在1989年被英國企業(yè)家皮特·馬爾科姆(Peter Malcolm)申請為“一種備份系統(tǒng),在該系統(tǒng)中,對存儲介質所做的每個更改的副本都會在更改發(fā)生時記錄下來”。
CDP作為一項服務運行,可將數(shù)據(jù)更改捕獲到單獨的存儲位置,有多種方法可以捕獲涉及滿足不同需求的不同技術的連續(xù)實時數(shù)據(jù)變化。真正的基于CDP的解決方案可以提供精細粒度的可恢復對象,范圍從崩潰一致的圖像到邏輯對象,如文件、郵箱、消息以及數(shù)據(jù)庫文件和日志[1]。
Veeam公司成立于2006年,從成立至今一直致力于研究數(shù)據(jù)備份、恢復及管理的解決方案,是行業(yè)的領軍者。在其2021年最新推出的Veeam Backup & Replication V11版本中,終于實現(xiàn)了針對虛擬機平臺的CDP(持續(xù)數(shù)據(jù)保護)技術,可以實現(xiàn)秒級的虛擬機CDP數(shù)據(jù)同步,為用戶提供精確到秒級的RTO(Recovery Time Objective,時間恢復目標)和RPO(Recovery Point Objec-
tive,數(shù)據(jù)恢復點目標)。
2? ? 系統(tǒng)架構設計(針對××中國投資有限公司)
××中國投資有限公司是一家大型制造企業(yè),其工廠位于上海市奉賢區(qū),廠區(qū)內有一期、二期兩幢生產(chǎn)大樓,每期大樓內都建設有機房。在兩個機房中分別部署了VMware虛擬化環(huán)境,其中一期機房為生產(chǎn)環(huán)境,二期機房為災備環(huán)境,兩個機房之間采用萬兆光纖網(wǎng)絡連接。通過Veeam CDP進行持續(xù)數(shù)據(jù)保護,當一期機房虛擬化環(huán)境發(fā)生故障時,可以在0.5 h內將全部虛擬機切換到二期機房,并恢復到15 s之前的數(shù)據(jù)。整體CDP架構設計如圖1所示。
2.1? ? 備份服務器(Backup server)
備份服務器上安裝Veeam Backup & Replication軟件平臺,其上運行有Veeam CDP調度服務。該服務負責管理虛擬機之間的I/O數(shù)據(jù)的對比、復制和傳輸,并控制資源分配。
2.2? ? 源集群和目標集群(Source cluster & Target cluster)
源集群由一期機房的vCenter服務器管理,目標集群由二期的vCenter服務器管理,分別包含了各自的物理主機,每臺虛擬機數(shù)據(jù)從源集群的主機復制到目標集群的主機上。
源集群的主機讀取虛擬機磁盤數(shù)據(jù),通過I/O過濾器處理I/O操作并將數(shù)據(jù)發(fā)送到源VMware CDP代理。目標集群的主機從目標VMware CDP代理接收數(shù)據(jù),并在目標主機上的虛擬機副本上保留數(shù)據(jù)。
此外,目標集群的主機還負責管理虛擬機副本、保留還原點等任務[2]。
2.3? ? I/O過濾器(I/O filter)
在源和目標集群上安裝I/O過濾器后,Veeam Backup &
Replication會自動在添加到集群的所有主機上安裝I/O過濾器。
I/O過濾器負責讀取和處理在源集群主機中受保護的虛擬機數(shù)據(jù)的I/O操作,并向目標集群的VMware CDP代理發(fā)送數(shù)據(jù)。
此外,I/O過濾器與備份服務器上的Veeam CDP Coordinator Service通信,并通知該服務,如果源集群和目標集群的VMware CDP代理有任意一個不可用,則CDP同步失敗。此I/O過濾器是在vSphere API for I/O過濾(VAIO)的基礎上構建的[2]。
2.4? ? VMware CDP代理(VMware CDP Proxy)
VMware CDP代理是負責數(shù)據(jù)移動的組件,運行在源集群主機和目標集群主機之間傳輸數(shù)據(jù)。需要配置兩個代理:一個(源集群代理)在一期生產(chǎn)站點,一個(目標集群代理)在二期災備站點。B38838FF-7371-4061-8A06-23ACEAFF21C7
源集群代理從源集群主機接收的數(shù)據(jù)為短期還原點準備數(shù)據(jù),壓縮和加密數(shù)據(jù),然后將其發(fā)送給目標集群代理。目標集群代理接收數(shù)據(jù),解壓縮和解密,然后發(fā)送到目標集群主機。
3? ? Veeam CDP工作原理
3.1? ? 初始同步時期的數(shù)據(jù)算法
在源主機上,I/O過濾器從虛擬機磁盤讀取所有數(shù)據(jù)并將其發(fā)送到源VMware CDP代理。由于原始虛擬機仍在運行,已傳輸數(shù)據(jù)塊的數(shù)據(jù)可能會發(fā)生變化。I/O過濾器攔截這些更改并將它們發(fā)送給代理。發(fā)送更改而不是整個更改的數(shù)據(jù)塊有助于最大限度地減少通過網(wǎng)絡發(fā)送的流量。源代理上的Veeam CDP代理服務對接收到的數(shù)據(jù)進行壓縮、加密并將其發(fā)送到目標代理。目標代理上的Veeam CDP代理服務對收到的數(shù)據(jù)進行解壓縮和解密,然后向目標主機發(fā)送數(shù)據(jù)。目標主機上的I/O過濾器將接收到的數(shù)據(jù)保存到虛擬磁盤中。初始同步完成后,Veeam Backup & Replication開始增量同步。
3.2? ? 增量同步時期的數(shù)據(jù)算法
在增量同步期間,Veeam Backup & Replication會創(chuàng)建短期和長期還原點。為了創(chuàng)建短期還原點,Veeam Backup & Replication攔截虛擬機磁盤上的事務所做的更改,并將這些更改發(fā)送到目標數(shù)據(jù)存儲。更改會不斷傳輸并保存到目標數(shù)據(jù)存儲上的事務日志中。為了創(chuàng)建長期還原點,Veeam Backup & Replication使用短期還原點的數(shù)據(jù)并將還原點保存到增量磁盤。長期還原點按計劃創(chuàng)建。
當Veeam Backup & Replication為短期還原點傳輸數(shù)據(jù)時,在源主機上,I/O過濾器攔截所有I/O操作的數(shù)據(jù),并將這些數(shù)據(jù)發(fā)送到源VMware CDP代理。進入RPO后,源代理上的Veeam CDP代理服務會準備短期恢復點所需的數(shù)據(jù)。為此,Veeam CDP代理服務獲取源VMware CDP代理所累積數(shù)據(jù)的最新狀態(tài)。源Veeam CDP代理服務壓縮、加密數(shù)據(jù)并將其發(fā)送到目標代理。目標Veeam CDP代理服務對接收到的數(shù)據(jù)進行解壓縮和解密,然后向目標主機發(fā)送數(shù)據(jù)。目標主機上的I/O過濾器將接收到的數(shù)據(jù)保存到事務日志中。
當計劃創(chuàng)建長期還原點時,如果為CDP策略啟用,應用感知處理技術,Veeam Backup & Replication連接到虛擬機操作系統(tǒng),部署非持久運行時組件或在虛擬機操作系統(tǒng)上連接/部署持久代理組件并執(zhí)行處理任務,例如靜默虛擬機上的應用程序并創(chuàng)建一致的應用程序數(shù)據(jù)視圖。在目標數(shù)據(jù)存儲上,I/O過濾器使用自上一個長期還原點創(chuàng)建以來創(chuàng)建的短期還原點的數(shù)據(jù)形成長期還原點。新的長期還原點的數(shù)據(jù)將保存到增量磁盤。
4? ? 保留策略
Veeam Backup & Replication提供兩種虛擬機還原點保留策略方案:短期留存和長期保留。
××中國投資有限公司生產(chǎn)線24 h運行,考慮到生產(chǎn)數(shù)據(jù)的重要性,采用8 h內15 s RPO同步周期的短期留存,由于每天晚上所有虛擬機服務器還有備份作業(yè),因此長期保留采用24 h/個保留一天的策略。超過一天的數(shù)據(jù)損失從備份中恢復。
4.1? ? 短期留存的數(shù)據(jù)原理
Veeam Backup & Replication檢查復制鏈是否包含過時的短期還原點。如果存在過時的還原點,Veeam Backup & Replication會將短期還原點的數(shù)據(jù)從事務日志文件提交到最近的技術點(TP),如圖2所示。
如果事務日志文件不包含更多短期恢復點的數(shù)據(jù),Veeam Backup & Replication會將事務日志文件刪除為冗余——其數(shù)據(jù)已提交到技術增量磁盤文件中,如圖3所示。
在沒有相關事務日志文件的技術點仍然存在時,Veeam Backup & Replication會認為該技術點已過時,并將較新的技術點的數(shù)據(jù)提交到過時的技術點中,如圖4所示。
4.2? ? 長期保留的數(shù)據(jù)原理
Veeam Backup & Replication檢查復制鏈是否包含過時的長期還原點。如果存在過時的恢復點,Veeam Backup & Replication會重建過時的長期恢復點(LTRP)的文件,以包含更新的長期恢復點的數(shù)據(jù)。為此,Veeam
Backup & Replication將與長期還原點相關的最早增量磁盤文件中的數(shù)據(jù)提交到基礎磁盤文件中?;A磁盤文件在復制鏈中向前“移動”,如圖5所示。
Veeam Backup & Replication會從鏈中刪除最早的增量磁盤文件作為冗余——該數(shù)據(jù)已提交到基礎磁盤文件中,如圖6所示。
5? ? 切換測試
CDP的切換測試模擬某臺虛擬機故障前15 s在桌面新建文本文件,使用Failover功能切換到CDP備機,檢驗15 s前的文本文件存在,之后運行一段時間修改CDP備機文件內容,模擬原虛擬機修復,使用Failback to production功能將增量數(shù)據(jù)回遷到原虛擬機,確認文本文件修改內容無誤,使用Commit failback永久回遷。
5.1? ? 切換(Failover)
將原虛擬機關機,在Veeam中選擇已經(jīng)ready的CDP備機,右鍵選擇Failover now,選擇最近的一個系統(tǒng)還原點15 s前,等待切換完成,花費時間65 s。可以發(fā)現(xiàn)CDP備機已經(jīng)自動啟動,打開CDP備機,檢查桌面上在17:06:21新建文本文檔存在(圖7),說明15 s前新建的數(shù)據(jù)同步正常。
5.2? ? 回遷(Failback)
在新建文本文件上加入當前時間內容,針對CDP備機選擇Failback to production,等待回遷過程對比磁盤變化量后回遷完成,花費時間100 min。此時CDP備機已自動關機,原虛擬機自動啟動,打開原虛擬機,檢查桌面新建文本文件新增內容存在(圖8),證明新增數(shù)據(jù)已同步回原虛擬機。
5.3? ? 永久回遷(Failback)
確認數(shù)據(jù)正確無誤后,選擇Commit failback,將原虛擬機狀態(tài)置為生產(chǎn),CDP同步作業(yè)將自動繼續(xù),永久回遷完成時間75 s。
6? ? 結語
本設計中,通過Veeam Backup & Replication V11的持續(xù)數(shù)據(jù)保護功能,實現(xiàn)了15 s內的即時數(shù)據(jù)同步,當生產(chǎn)環(huán)境發(fā)生故障時,能夠在分鐘級別的切換時間內,將××中國投資有限公司的全部虛擬化系統(tǒng)遷移到災備機房,保證了生產(chǎn)線的持續(xù)工作及數(shù)據(jù)不丟失,是對各類24 h生產(chǎn)及數(shù)據(jù)敏感企業(yè)非常有效的保護機制。
[參考文獻]
[1] 趙學軍.數(shù)據(jù)容災技術介紹[J].電子世界,2012(9):98-100.
[2] 薄鵬,王春海.使用Veeam實現(xiàn)vSphere虛擬機的CDP復制[J].網(wǎng)絡安全和信息化,2021(7):53.
收稿日期:2022-03-10
作者簡介:陳越東(1977—),男,上海人,工程師,研究方向:計算機系統(tǒng)集成。B38838FF-7371-4061-8A06-23ACEAFF21C7