一個2節(jié)點的vSAN延伸群集,節(jié)點主機配置 了 1個CPU、16GB內(nèi) 存、1塊萬兆網(wǎng)卡、2個磁盤組組成2節(jié)點直連的vSAN延伸群集。在使用一段時間之后,其中一個節(jié)點主機出現(xiàn)問題,管理員進入控制臺將這個主機進行了“系統(tǒng)重置”,重置之后,再次進入控制臺,將IP地址、密碼設(shè)置為與原來相同。登錄vSphere Web Client重新連接、配置主機之后,在“配置→磁盤管理”中看到,這臺主機磁盤組的“vSAN健康狀況”為-(如圖 1),同時,在“網(wǎng)絡(luò)分區(qū)組”列表中,這臺主機沒有分區(qū)信息。
圖1 vSAN健康狀態(tài)不正常
圖2 vSAN健康狀態(tài)正常
正常情況下的“vSAN健康狀況”應(yīng)該顯示為“正?!保ㄈ鐖D2)。
此時當前的vSAN數(shù)據(jù)存儲容量降為原來的一半。
對于出現(xiàn)圖1所示狀態(tài)的故障,解決的思路如下。
(1)如果當前vSAN群集中有正在運行的虛擬機,重要的虛擬機可以備份或遷移到其他群集中繼續(xù)運行。不太重要的虛擬機,可以暫時先關(guān)閉。
(2)禁用 HA。
(3)將出故障的主機進入維護模式(當前主機是172.18.96.36),并 從 vSAN群集中移除。
(4)將172.18.96.36重新加入vSAN群集,并退出維護模式。
(5)重新啟用HA。
下面介紹詳細步驟。
(1)在導(dǎo)航器中選中vSAN群集(當前群集名稱為T630-vSAN),在右側(cè)單擊“配置→故障域和延伸群集”,在“故障域/主機”中可以看到,當前缺少“首選”主機(或缺少輔助主機)。
(2)在“配 置 → 服 務(wù)→vSphere可用性”中單擊“編輯”按鈕。
(3)在打開的“編輯群集設(shè)置”對話框的“vSphere可用性”中,取消“打開vSphere HA”的選擇然后單擊“確定”按鈕。
(4)在vSphere導(dǎo)航器中,將故障主機進入維護模式,然后將其移除。移除完成之后如圖3所示。
(5)將故障主機再次加入群集,并將故障主機退出維護模式。
(6)在“配置→vSAN→故障域和延伸群集”中單擊+號按鈕(如圖4)。
圖3 移除故障主機之后
圖4 添加故障域
圖5 故障域信息正常
(7)在“新建故障域”對話框中的“名稱”文本框中為新添加的故障域設(shè)置缺失的故障域名稱。根據(jù)圖4所示,當前缺失“首選”故障域,故設(shè)置名稱為首選,選中再次添加的主機172.18.96.36,單擊“確定”按鈕。
(8)添加故障域之后,如圖5所示。
(9) 為 172.18.96.36的主機啟用SSH服務(wù),使 用xshell登 錄 到172.18.96.36,執(zhí)行如下命令,為在vmk0添加vSAN見證流量。
esxcli vsan network ip add -i vmk0 -T=witness
(10)在“配置→vSAN→磁盤管理”中,可以看到172.18.96.36的主機磁盤組正常。
(11)在“數(shù)據(jù)存儲→數(shù)據(jù)存儲”中可以看到容量恢復(fù)正常(當前為3.68TB)。
(12)在“配置→vSphere可用性”中,啟用vSphere HA。
在重新添加節(jié)點主機之后見證主機可能出錯,這表示為在“配置→磁盤管理”中的“網(wǎng)絡(luò)分區(qū)組”中,見證主機沒有分組信息,vSAN健康狀況顯示為-。
對于這種問題,只要更改見證主機,并重新選擇見證主機即可解決。
(1)在“配置→vSAN→故障域和延伸群集”中單擊“更改見證主機”。
(2)在“更改見證主機”對話框的“選擇見證主機”選項中,仍然選擇原來的見證主機172.18.96.39即可。
(3)重新選擇見證主機之后,整個vSAN群集恢復(fù)正常,在“網(wǎng)絡(luò)分區(qū)組”中可以看到每個節(jié)點主機及見證主機都在組1,vSAN健康狀況為正常。