引言: 筆者單位部分用戶出現(xiàn)不能訪問網(wǎng)絡(luò)故障,登錄檢查之后發(fā)現(xiàn)存儲的一個控制器損壞。當(dāng)控制器損壞之后,服務(wù)器丟失到存儲的連接,導(dǎo)致部分虛擬機(jī)不能啟動。本文介紹更換控制器并替換即將失效磁盤的操作過程。
某日一早接到電話,說單位內(nèi)部分用戶不能訪問網(wǎng)絡(luò),登錄檢查之后發(fā)現(xiàn)存儲的一個控制器損壞,主要原因概述如下。
當(dāng)前客戶核心業(yè)務(wù)運(yùn)行在vSphere虛擬化平臺,該單位有3臺HP服務(wù)器+1臺IBM 3524存儲,服務(wù)器與存儲之間采用SAS接口連接,其中2臺HP服務(wù)器使用SAS線連接到A控制器,另一臺HP服務(wù)器使用SAS線連接到B控制器,服務(wù)器與存儲之間無冗余連接。3臺HP服務(wù)器安裝ESXi 6.0配置成HA,所有虛擬機(jī)都保存在IBM 3524存儲中,當(dāng)A控制器損壞之后,前兩臺HP服務(wù)器丟失到存儲的連接導(dǎo)致部分虛擬機(jī)不能啟動,因?yàn)镠A中損壞了兩臺服務(wù)器,HA失效。
圖1 已經(jīng)離線
知道原因之后,讓客戶將其中1臺HP服務(wù)器的SAS線連接到B控制器的空閑端口(當(dāng)前IBM 3524有兩個控制器,每個控制器有兩個SAS接口,所以B控制器當(dāng)前有一個端口空閑),將這臺服務(wù)器重新啟動,此時會有兩臺服務(wù)器可以正常工作,之后將業(yè)務(wù)虛擬機(jī)啟動,此時單位應(yīng)用暫時恢復(fù)。
業(yè)務(wù)恢復(fù)后,因當(dāng)前的存儲已經(jīng)過保,所以申請購買新的同型號控制器。控制器到貨后更換損壞的A控制器。更換過程中發(fā)現(xiàn)Slot 8磁盤即將失效,在更換控制器后同時替換了即將失效的磁盤,下面介紹操作過程。
1.進(jìn) 入IBM DS Storage Manager管理軟件,可以看到A控制器已經(jīng)離線,同時有兩塊盤有黃色的五星符號(如圖 1)。
說明:當(dāng)前示意圖中Slot 3與Slot 8都有黃色的五星符號,其中Slot 3里面有一塊磁盤,因?yàn)樽畛踉摫P位有點(diǎn)故障,此盤位未分配到陣列中,故當(dāng)前磁盤未分配未使用,但此磁盤是一塊可用的磁盤,可以將其從盤位取出,放到其他需要的位置。而Slot 8分配為Array-2邏輯磁盤,該磁盤有數(shù)據(jù)丟失的風(fēng)險。
2.在“Recovery Guru”的進(jìn)一步檢查中,看到第8盤位的磁盤即將失效,有數(shù)據(jù)丟失的風(fēng)險(如圖2)。
3.將損壞的A控制器從存儲中拆下,更換上新購置的控制器。
4.在存儲管理中,右擊A控制器,在彈出的快捷菜單中選擇“Advanced→Place→Online”將其置于在線狀態(tài)。
5.控制器在線后,連接A控制器的服務(wù)器沒有發(fā)現(xiàn)LUN,近一步檢查發(fā)現(xiàn)A控制器的flash狀態(tài)不對。
估計控制器在快遞過來的過程中,可能有顛簸或其他原因?qū)е驴刂破髦械腟D卡(是一個8GB的高速緩存卡)松動,或者有問題。將新安裝上的控制器設(shè)置為“離線狀態(tài)”,打開控制器,將原來損壞的控制器的SD卡插到新購置的控制器中。
6.右 擊A控制器,在彈出的快捷菜單中選擇“Advanced→ Place→Offline”將其置于離線狀態(tài)。
7.在彈出的“Confirm Place Offline”對話框中單擊“yes”按鈕確認(rèn)。
8.當(dāng)控制器A處于離線之后,拆下控制器。換上原來損壞控制器的SD卡,重新插上控制器。
9.再次將控制器設(shè)置為在線狀態(tài),此時看到SD卡狀態(tài)正常。
此時連接到A控制器的服務(wù)器應(yīng)該能發(fā)現(xiàn)存儲分配的LUN,如果不能,則可以在“Storage & Copy Services”,右擊LUN,選擇“Change→Ownership/Preferred Path”選擇“Controller in Slot A”(如圖3)。
圖2 slot 8磁盤
圖3 更換LUN到A控制器
圖4 磁盤重建
對于盤位8即將失效的磁盤,可以將其置于“Fail”,然后用熱備磁盤代替,在盤位8換上新的磁盤即可,主要步驟如下。
1.右擊Slot 8的磁盤在彈出的快捷菜單中選擇“Advanced→Fail”。
2.在彈出的“Confirm Fail Drive”對話框中輸入yes然后單擊“OK”按鈕。
3.右擊Slot 6(這個盤位的磁盤是熱備磁盤),在彈出的快捷菜單中選擇“Hot Spare Converage”。
4.在彈出的“Hot Spare Drive Options”對話框中選擇“Automatically assign drives”,然后單擊“OK”按鈕。
5. 在“Replace Drives”對話框中將顯示將Slot 8的失效的磁盤替換到Slot 6。
6.返回到“Storage &Copy services”對話框,瀏覽LUN可以看到涉及到邏輯磁盤會重建(如圖4)。當(dāng)時的時間是10點(diǎn)02。
7.此時可以將盤位8的磁盤拆下,換上新的同容量的磁盤。等重構(gòu)完成之后,盤位8的磁盤會被替換回來。此時盤位8的磁盤有個黃色的五星標(biāo)志,而盤位6的有個紅色的十字標(biāo)志。
8.在“Storage & Copy services”對話框?yàn)g覽涉及到的LUN,可以看到狀態(tài)變 為“Copyback Progress data unavailable”,當(dāng)前時間是22:23分,復(fù)制過程進(jìn)行了大約60%。因?yàn)樵谔鎿QSlot 8的時間大約是上 午10點(diǎn),時間到現(xiàn)在大約過了12小時,以此計算,整個更換、替換磁盤所需要時間大約15小時。
9.第二天早晨7點(diǎn)33分檢查,復(fù)制進(jìn)度已經(jīng)完成。
圖5 系統(tǒng)狀態(tài)正常
10.在“Hardware” 選項(xiàng)卡中單擊Slot 8,可以看到當(dāng)前磁盤已經(jīng)分配到Array-2,原來 Slot 6仍然變?yōu)闊醾浯疟P(如圖5)。至此整個維護(hù)完成。