■
目前筆者單位數(shù)據(jù)中心機房有二三百臺PC服務器,網(wǎng)站及重要的業(yè)務系統(tǒng)許多都運行在不同互聯(lián)網(wǎng)接入的局域網(wǎng)中,業(yè)務系統(tǒng)安全持續(xù)運營問題日益突出,諸如病毒感染破壞、黑客攻擊、誤操作破壞、硬盤故障、人為破壞等安全問題,往往造成系統(tǒng)失常、文件損壞、文件丟失事故等問題。日常運維中發(fā)現(xiàn)例如服務器的主板、RAID控制器、網(wǎng)卡、電源、內(nèi)置/外置存儲等硬件出現(xiàn)問題,數(shù)據(jù)誤刪除、黑客/病毒攻擊、系統(tǒng)崩潰、死機等軟件問題都會造成業(yè)務系統(tǒng)的中斷,造成用戶數(shù)據(jù)、業(yè)務數(shù)據(jù)丟失,有時短時間內(nèi)難以恢復運行, 長時間停止運行會造成不可挽回和難以估量的損失,政府對外服務形象的大打折扣,造成政治和社會等一系列負面影響。
為了保證業(yè)務系統(tǒng)的連續(xù)運行,各種主動被動防范的技術(shù)手段都會采用,包括防病毒、入侵檢測、防火墻、雙機熱備、虛擬集群、數(shù)據(jù)備份等等,而磁帶備份、基于磁盤的備份、Cluster/HA等傳統(tǒng)的數(shù)據(jù)保護機制對于上述災難都只能提供有限的保護,由于傳統(tǒng)的保護模式成本高,恢復時間長,難以滿足業(yè)務連續(xù)性的要求。
業(yè)務應急系統(tǒng)采用數(shù)據(jù)存儲、數(shù)據(jù)復制、iSCSI及網(wǎng)絡啟動等多項技術(shù),為業(yè)務系統(tǒng)提供從系統(tǒng)到數(shù)據(jù)的全方位保護和快速恢復。它可以在業(yè)務系統(tǒng)正常運行時,對操作系統(tǒng)、應用軟件以及數(shù)據(jù)進行全方位的復制,并形成多時間點、多版本的歷史快照??梢酝瑫r對多個服務器進行保護。如果多個服務器上的業(yè)務同時出現(xiàn)故障,業(yè)務應急系統(tǒng)可同時應急頂替多個業(yè)務系統(tǒng)工作,并由系統(tǒng)管理員選擇在網(wǎng)絡相對空閑時將故障業(yè)務系統(tǒng)恢復到正常狀態(tài)。對多個業(yè)務系統(tǒng)應急恢復時,仍然可以通過快照版本回滾功能選擇最合適的版本做應急和恢復使用。
業(yè)務應急系統(tǒng)對業(yè)務系統(tǒng)的保護分為兩個階段:業(yè)務系統(tǒng)正常運行階段和業(yè)務系統(tǒng)應急階段。
當業(yè)務系統(tǒng)正常運行時,對業(yè)務系統(tǒng)進行在線復制,業(yè)務應急系統(tǒng)能自動掃描各服務器的本地磁盤信息(如C、D、E等及其各盤大小),然后對應每臺服務器的磁盤在網(wǎng)絡存儲上為其分配相應的空間。根據(jù)預先設定的規(guī)則,業(yè)務應急系統(tǒng)自動對各服務器的操作系統(tǒng)、應用軟件、數(shù)據(jù)及數(shù)據(jù)庫實施動態(tài)差異量復制,并形成多版本鏡像數(shù)據(jù),供恢復時選用。
當業(yè)務系統(tǒng)中斷時,由業(yè)務應急系統(tǒng)接替業(yè)務主機的硬盤并啟動,恢復業(yè)務系統(tǒng)的運行。當業(yè)務系統(tǒng)出現(xiàn)中斷時,將業(yè)務主機網(wǎng)絡啟動操作系統(tǒng)、應用軟件,并使用原有的復制的數(shù)據(jù),數(shù)據(jù)庫數(shù)據(jù);由于在網(wǎng)絡存儲里保存著可用的操作系統(tǒng)、應用軟件、數(shù)據(jù)及數(shù)據(jù)庫等多版本鏡像,因此可在數(shù)分鐘內(nèi)由網(wǎng)絡啟動來恢復多臺服務器的運營,屏蔽各服務器本地盤的故障與問題。若所選擇的某時刻的文件、備份數(shù)據(jù)有問題,則可通過回滾到其他不同時刻的版本而快速恢復到可用數(shù)據(jù)狀態(tài)。
當實施網(wǎng)絡啟動操作系統(tǒng)、應用軟件并恢復業(yè)務運營后,可在系統(tǒng)I/O比較少的時間(如深夜),使用業(yè)務應急系統(tǒng)的恢復功能,對各服務器原有的磁盤進行恢復操作;將存放在網(wǎng)絡存儲里的可用的操作系統(tǒng)、應用軟件、數(shù)據(jù)及數(shù)據(jù)庫恢復(回寫)到本地盤,該操作支持對數(shù)十臺服務器的自動恢復,非常便于運營管理。當完成對本地盤的全部系統(tǒng)和數(shù)據(jù)的恢復后,根據(jù)需要只需重啟系統(tǒng),并選擇本地啟動即可將運營切換到本地盤上。
業(yè)務應急系統(tǒng)與備份系統(tǒng)的區(qū)別如表1所示。
考慮數(shù)據(jù)中心業(yè)務應用的現(xiàn)狀和技術(shù)人員數(shù)量、資金等多方面因素,主要能滿足以下4點應用需求:
(1)在數(shù)據(jù)中心的業(yè)務應用系統(tǒng)發(fā)生中斷時,可以通過應急啟動的方式快速恢復業(yè)務的運行,縮短停機時間,提高業(yè)務系統(tǒng)的可用性。
(2)在進行數(shù)據(jù)中心的業(yè)務應用系統(tǒng)升級、補丁修補等操作時,可以利用業(yè)務應急系統(tǒng)的多版本回滾功能,當升級出現(xiàn)問題時,快速地將業(yè)務系統(tǒng)恢復到升級前的版本,避免因升級而造成的長時間業(yè)務停頓,有效降低業(yè)務系統(tǒng)升級的風險。
表1 業(yè)務應急系統(tǒng)與備份系統(tǒng)的區(qū)別
(3)考慮到數(shù)據(jù)中心的舊PC服務器更成新服務器,其他業(yè)務應用系統(tǒng)遷移到數(shù)據(jù)中心機房時,可以使用業(yè)務應急系統(tǒng)的虛擬機啟動功能,將業(yè)務系統(tǒng)先在業(yè)務應急系統(tǒng)上運行,再對業(yè)務服務器進行遷移,完成后進行將業(yè)務系統(tǒng)重新運行,這樣就可以大大縮短系統(tǒng)遷移所需要的停機時間或者遷移前的準備時間,降低系統(tǒng)遷移的風險。
(4)為了保障在業(yè)務應用系統(tǒng)7×24不間斷正常運行,在日常運維工作中,使用業(yè)務應急系統(tǒng)具備的自動多主機在線復制、鏡像的功能,能夠制定靈活的備份策略,全面高效地備份數(shù)據(jù);降低系統(tǒng)運維人員在備份、備份介質(zhì)管理等相關的維護難度,降低工作強度。
通過調(diào)研,我們選購了北京智網(wǎng)科技有限公司公司開發(fā)的BES業(yè)務應急系統(tǒng),通過與SNS iSCSI相配合,利用基于邏輯層文件復制技術(shù),可以用來保護用戶的操作系統(tǒng)和數(shù)據(jù)(包括數(shù)據(jù)庫和普通文件)。使用BES業(yè)務應急系統(tǒng),當用戶的系統(tǒng)崩潰時,可以在分鐘級時間內(nèi)將用戶系統(tǒng)恢復正常,使之繼續(xù)對外運營,如圖1.
圖1 軟件界面
2010年部署了一套BES軟硬結(jié)合的業(yè)務應急系統(tǒng),保護數(shù)據(jù)中心機房重要的20多臺服務器業(yè)務系統(tǒng),涉及到 Windows 2000、Windows 2003、Windows 2008、等 系列Microsoft Windows服務器系統(tǒng)及RedHat Enterprise Linux 5以上版本平臺的主機保護,系統(tǒng)運行了三年多時間,解決了數(shù)據(jù)中心重要業(yè)務系統(tǒng)的數(shù)據(jù)備份與恢復,服務器軟硬件出現(xiàn)故障時能快速處理,起到了一定的“應急”效果。特別是運行網(wǎng)站及重要業(yè)務系統(tǒng)的服務器出現(xiàn)發(fā)生硬件故障時,如主板、CPU、電源、內(nèi)存、網(wǎng)卡等,可以通過BES業(yè)務應急系統(tǒng)的虛擬機啟動,將被保護服務器的系統(tǒng)及數(shù)據(jù)及時遷移到業(yè)務應急系統(tǒng)上運行,通過虛擬機啟動模式,快速恢復運營。據(jù)統(tǒng)計該系統(tǒng)運行期間共發(fā)生了6次服務器硬件故障即2次主板,1次電源、2次內(nèi)存,1次CPU故障,使用BES業(yè)務應急系統(tǒng)都進行了快速處理。又例如政府網(wǎng)站線訪談節(jié)目即將開始前,發(fā)現(xiàn)在線訪談系統(tǒng)無法打開,經(jīng)檢查系清理垃圾文件時誤將D盤的應用程序和圖片文件刪除,此時已經(jīng)沒有時間重新部署程序并找回丟失的圖片文件。我們采用BES系統(tǒng)的應急啟動功能,發(fā)現(xiàn)服務器的windows 2000操作系統(tǒng)未有被損壞,只需恢復程序和圖片數(shù)據(jù),所以無需用BES系統(tǒng)中的C盤備份代替本地系統(tǒng)盤啟動,通過點擊:快照管理→選定主機→掛/卸載網(wǎng)絡盤,將BES系統(tǒng)中的最新版本的D盤掛到系統(tǒng)中。然后在計算機管理的磁盤管理中更改盤符,將原系統(tǒng)中的D盤更變?yōu)槠渌P符,將BES掛載的D盤盤符G更變?yōu)镈盤。啟動D盤在線訪談程序,程序成功運行,圖片也全部恢復。等此次訪談圓滿結(jié)束后,將D盤的圖片數(shù)據(jù)拷貝到原D盤,改回盤符,在BES系統(tǒng)中卸載掛載的D盤,最后重新安裝部署在線訪談程序,整個系統(tǒng)全部恢復,表2為主機管理列表。
數(shù)據(jù)中心的業(yè)務應用系統(tǒng)和數(shù)據(jù)必須要重點監(jiān)控和保護,保障業(yè)務系統(tǒng)7 X 24持續(xù)運轉(zhuǎn),因此需要突破傳統(tǒng)數(shù)據(jù)保護僅僅對文件及數(shù)據(jù)庫的保護,通過對操作系統(tǒng)、應用軟件、數(shù)據(jù)庫、數(shù)據(jù)文件進行復制,實現(xiàn)了對系統(tǒng)的全方位的保護,使得信息系統(tǒng)能夠在遭到破壞時,利用其“多版本回滾”技術(shù),使系統(tǒng)迅速恢復到故障前的正常運行狀態(tài)。在實現(xiàn)傳統(tǒng)意義上的安全產(chǎn)品(如:防火墻、防病毒、VPN等)基礎上,利用數(shù)據(jù)保護技術(shù),豐富和完善了數(shù)據(jù)中心現(xiàn)有的安全防護體系,提高了系統(tǒng)的可用性;因此,業(yè)務應急系統(tǒng)不是傳統(tǒng)安全產(chǎn)品的替代品,而是作為數(shù)據(jù)安全體系的補充和擴展。由于業(yè)務應急系統(tǒng)本身可抗拒任何病毒和攻擊,可有效保護業(yè)務系統(tǒng)和數(shù)據(jù),特別是基于IP SAN的集中存儲,成本低、容量大,擴展容易,支持RAID方式的數(shù)據(jù)保護等特點,可以大幅度提高數(shù)據(jù)中心業(yè)務系統(tǒng)和數(shù)據(jù)的安全性和可用性。
表2 主機管理列表