龍志勇
摘要:在安裝RAID5 的單服務(wù)器的工作環(huán)境中,迅速安全地恢復(fù)崩潰的操作系統(tǒng)是十分必要的。利用存儲系統(tǒng)恢復(fù)崩潰的操作系統(tǒng)和業(yè)務(wù)數(shù)據(jù)庫,是一種安全可行、用時最少的恢復(fù)方法。
關(guān)鍵詞:服務(wù)器故障;存儲系統(tǒng);備份;恢復(fù)
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)25-0195-02
Abstract:In the work environment of the single server installed RAID5, it is very necessary to quickly and safely restore the operating system. It is a safe and feasible method to use storage systems to restore a crashed operating system and business database.
Key words:server fault;storage system;backup restore
在信息化的時代,服務(wù)器的正常運轉(zhuǎn)是至關(guān)重要的,一旦出現(xiàn)故障,將導(dǎo)致應(yīng)用系統(tǒng)停止運行,業(yè)務(wù)停辦。因此,運維人員如何在最短時間內(nèi)采取最優(yōu)方法,安全地將服務(wù)器系統(tǒng)恢復(fù)正常,并將應(yīng)用系統(tǒng)恢復(fù)運轉(zhuǎn),把業(yè)務(wù)停辦的不良影響減小到最小程度,是十分關(guān)鍵的。
某日早上8點,體檢中心來電反映多個體檢工作點不能使用從業(yè)人員體檢系統(tǒng),體檢大廳聚集了300多人,客戶怨言很多,要求我部門立刻解決故障??滩蝗菥?,筆者馬上進行故障排查。
1 設(shè)備參數(shù)及工作環(huán)境
本單位的服務(wù)器是IBM X460,安裝有IBM serverraid-8iRAID卡,并做了RAID5,操作系統(tǒng)是windows 2000 server,數(shù)據(jù)庫系統(tǒng)是SQL 2000,數(shù)據(jù)庫是從業(yè)人員體檢數(shù)據(jù)庫,有全市4萬多從業(yè) 人員的數(shù)據(jù);存儲系統(tǒng)是愛數(shù)PX1200,該存儲系統(tǒng)基于CDP持續(xù)數(shù)據(jù)保護技術(shù),支持Windows平臺下的SQL Server及支持完整的RAID 級別的實時復(fù)制。
IBM服務(wù)器和愛數(shù)存儲系統(tǒng)在本單位局域網(wǎng)中同處于一個VLAN中,同一個網(wǎng)段。IBM服務(wù)器的IP是192.168.0.27(以下稱為27服務(wù)器),愛數(shù)存儲系統(tǒng)的IP是192.168.0.253,網(wǎng)關(guān)都是192.168.0.254。
2 故障原因分析
首先到一個體檢工作點檢查,發(fā)現(xiàn)確實不能登錄系統(tǒng),然后ping 27服務(wù)器,網(wǎng)絡(luò)鏈路是通的;隨后又檢查了兩個工作點,情況一樣。因此斷定網(wǎng)絡(luò)鏈路沒有問題,應(yīng)該是27服務(wù)器出故障,于是回到機房檢查,發(fā)現(xiàn)27服務(wù)器居然是關(guān)機狀態(tài)。問了后勤部門,才知前一天晚上長時間停電,今早6點才恢復(fù)供電。筆者估計,單位的在線式UPS一定是有問題了,不能在停電的時候供電給27服務(wù)器,致使27服務(wù)器關(guān)機了。UPS的問題先不處理,當務(wù)之急是在最短的時間內(nèi)安全地把27服務(wù)器恢復(fù)正常。于是打開27服務(wù)器,誰知系統(tǒng)藍屏,不能進入windows 2000 server!重新啟動27服務(wù)器兩次都是如此。筆者斷定,應(yīng)該是由于突然停電造成windows 2000 server的系統(tǒng)文件損壞,導(dǎo)致不能正常進入系統(tǒng)。
3 故障恢復(fù)方案的選擇
1)一般的系統(tǒng)軟故障恢復(fù)
在一般情況下,對于系統(tǒng)產(chǎn)生的軟性故障, 在開機時按F8快捷鍵,在BIOS后就會有安全模式等系統(tǒng)選項,其中就有windows最后一次正確配置。選擇后等待加載完成后,可正常進入系統(tǒng)。但這次試了兩次都不能恢復(fù)系統(tǒng) ,而且不能進入安全模式,再次證明windows 2000 server的系統(tǒng)文件損壞了,因此必須選擇其他方式恢復(fù)了。
2)GHOST恢復(fù)
對于一般的微機故障,可以用GHOST迅速地恢復(fù)系統(tǒng),但服務(wù)器就不一定能由GHOST恢復(fù)系統(tǒng)。由于本單位的27服務(wù)器安裝了IBM serverraid-8iRAID卡,并建立了RAID5, GHOST在DOS下無法加載陣列卡驅(qū)動,無法識別陣列卡,因此不能用GHOST軟件做27服務(wù)器操作系統(tǒng)的備份和恢復(fù)。
3)重裝系統(tǒng)
重新用Wwindwos 2000 server安裝盤安裝操作系統(tǒng)肯定是可以解決故障的,但在安裝過程中必須解決IBM serverraid-8iRAID卡的驅(qū)動問題。由于單位搬家,RAID卡的驅(qū)動找不見了,在IBM官網(wǎng)也找不到;之前第一次安裝windwos2000 server時,用NLITE制作的整合了RAID卡驅(qū)動的windwos 2000 server盤也找不到了。即使找到那張安裝光碟,重新安裝完操作系統(tǒng)后,還要安裝SQL,部署應(yīng)用系統(tǒng)。整個過程估計要一個工作日才能完成。這是正在等待的300多個客戶不能允許的。
4)利用存儲系統(tǒng)恢復(fù)
之前單位購置了愛數(shù)存儲系統(tǒng)PX1200,在啟用PX1200后,我們用它備份了27服務(wù)器的操作系統(tǒng)及應(yīng)用系統(tǒng),并對SQL數(shù)據(jù)庫作了實時備份(不包含從業(yè)人員體檢數(shù)據(jù)庫)。由于27服務(wù)器一直在運行關(guān)鍵業(yè)務(wù),所以做完備份后,一直沒有驗證所做的備份是否能成功恢復(fù)。
經(jīng)過分析,對于這次27服務(wù)器故障,筆者決定用愛數(shù)存儲系統(tǒng)PX1200來恢復(fù)操作系統(tǒng),驗證一下PX1200是否能在最短時間內(nèi)安全地將操作系統(tǒng)恢復(fù),無損地恢復(fù)數(shù)據(jù)庫,將故障造成的影響降到最小。
4 恢復(fù)過程
1)在27服務(wù)器上接上外置光驅(qū),并將愛數(shù)存儲系統(tǒng)自帶的系統(tǒng)恢復(fù)光盤放入光驅(qū)通電開機,選擇光驅(qū)啟動優(yōu)先,恢復(fù)光盤在調(diào)用一連串環(huán)境參數(shù)后,進入“恢復(fù)系統(tǒng)”。
2)本地網(wǎng)絡(luò)配置:在請選擇你需要的網(wǎng)絡(luò)設(shè)備中點擊eth0,再點擊使用下面的網(wǎng)絡(luò)地址,填寫服務(wù)器IP地址:192.168.0.25,掩碼:255.255.255.0,網(wǎng)關(guān):192.168.0.254。單擊“下一步”。
3)設(shè)置管理控制臺信息:此處應(yīng)填寫介質(zhì)服務(wù)器即愛數(shù)存儲系統(tǒng)的相關(guān)配置信息。填寫介質(zhì)服務(wù)器地址,192.168.0.253,端口為9900(此端口為管理端口),登陸賬號為admin,密碼123456。單擊“下一步”。
4)選擇需要恢復(fù)系統(tǒng)的介質(zhì)服務(wù)器-備份任務(wù)-客戶端-時間點:在這個設(shè)置窗內(nèi),依次雙擊,樹型選擇項便會層層展開,直至出現(xiàn)所做系統(tǒng)備份的時間點并點擊選擇。單擊“下一步”,在確認恢復(fù)窗中,點擊OK。
5)創(chuàng)建分區(qū):在這個窗內(nèi),會顯示27服務(wù)器硬盤的相關(guān)信息,中間是27服務(wù)器硬盤的原有分區(qū),編號從0-TH開始,先選擇0號分區(qū),再點擊右側(cè)的創(chuàng)建分區(qū),此時會彈出一個分區(qū)確認框,點擊OK。還原過程中,會提示“是否恢復(fù)在系統(tǒng)還原過程中的IO操作”,選擇NO,因為考慮到系統(tǒng)已經(jīng)崩潰,業(yè)務(wù)系統(tǒng)沒有出現(xiàn)數(shù)據(jù)IO操作,之后會提示恢復(fù)完成,是否重啟,點擊“yes”。
很快27服務(wù)器的操作系統(tǒng)恢復(fù)完成,整個過程大約20多分鐘。等系統(tǒng)進入后,檢查了一下SQL 2000,能正常運行。由于此次恢復(fù)系統(tǒng),只是還原27服務(wù)器的C盤,不影響之前其他盤的數(shù)據(jù),存儲在其它盤從業(yè)人員體檢數(shù)據(jù)庫絲毫不受影響。
5 應(yīng)用數(shù)據(jù)庫的恢復(fù)
由于當時備份系統(tǒng)時,并未在SQL加載從業(yè)人員體檢數(shù)據(jù)庫,因此在27服務(wù)器操作系統(tǒng)恢復(fù)后,還得將此應(yīng)用數(shù)據(jù)庫附加上去。附加數(shù)據(jù)庫過程非常簡單。打開SQL2000的企業(yè)管理器,右健點擊數(shù)據(jù)庫,依次選擇所有任務(wù)、附加應(yīng)用數(shù)據(jù)庫即可。隨后對應(yīng)用系統(tǒng)進行了測試,完全能正常運行,而且最后存入的數(shù)據(jù)也沒有丟失。
至此,這次由于操作系統(tǒng)藍屏而導(dǎo)致27服務(wù)器不能正常運行的故障得以完美解決,整個恢復(fù)過程大約30分鐘。利用愛數(shù)存儲系統(tǒng)恢復(fù)服務(wù)器系統(tǒng)確實是一種快捷、安全地方法。
6 總結(jié)
在這次27服務(wù)器系統(tǒng)故障的解決過程中,由于很快地恢復(fù)了應(yīng)用系統(tǒng)的正常運行,將這次故障的影響降到最低,所以沒有演化成重大的工作事故。在這次恢復(fù)過程中,筆者常常地感到:1)作為一名運維人員,必須將所有設(shè)備的資料和驅(qū)動盤保管好;2)故障處理從軟到硬,從最簡單的情況入手;3)面對故障現(xiàn)象不慌亂,保持頭腦清醒,冷靜的判斷問題并充分利用擁有的資源,選擇最優(yōu)的解決辦法,才能在最短的時間內(nèi)解決故障。4)運維人員要定期檢查各設(shè)備的運行狀態(tài),熟悉各設(shè)備的功能及各設(shè)備的配置參數(shù),發(fā)現(xiàn)問題要及時處理。本次故障的產(chǎn)生就是沒有及時發(fā)現(xiàn)在線式UPS不能在停電時供電而引起的。