一日,筆者在工作群收到信息,得知業(yè)務(wù)系統(tǒng)(信息交換平臺)不能訪問,群里同事你一言我一語,影響較大。筆者很快遠(yuǎn)程登錄服務(wù)器,發(fā)現(xiàn)連接不上,通過Ping,網(wǎng)絡(luò)不通。趕緊進(jìn)入機(jī)房,發(fā)現(xiàn)服務(wù)器已經(jīng)宕機(jī)。
服務(wù)器是Sun Fire V240,安裝的 Solaris 9系統(tǒng),筆者自承擔(dān)該機(jī)房運(yùn)維以來,此臺服務(wù)器一直運(yùn)行穩(wěn)定,未出現(xiàn)過宕機(jī)。關(guān)閉電源,重新開機(jī),還好服務(wù)器啟動了。查看服務(wù)器日志(messages等日志文件),沒有異常,通過prtdiag檢查硬件狀態(tài)全部是OK或Good,查看服務(wù)器各指示燈和部件,未發(fā)現(xiàn)硬件方面異常。重新啟動業(yè)務(wù)系統(tǒng),沒有問題。
考慮到硬件沒有異常,可能是應(yīng)用方面的問題,而且服務(wù)器只是業(yè)務(wù)系統(tǒng)的Web服務(wù)器,無業(yè)務(wù)數(shù)據(jù)方面的信息。由于近期工作較忙,筆者決定先觀察服務(wù)器一段時間,再查看相關(guān)資料或咨詢專業(yè)公司查找原因來解決。
很快到了第二天,剛到單位就接到電話,告知業(yè)務(wù)系統(tǒng)上不去了,請查看解決。很快進(jìn)入機(jī)房后,按照昨天的“經(jīng)驗”重啟服務(wù)器,先保障業(yè)務(wù)系統(tǒng)可用。但是實際上,手動重啟服務(wù)器后,等了十幾分鐘服務(wù)器也沒有啟動起來,Ping服務(wù)器,網(wǎng)絡(luò)不通。
通過串口線連接服務(wù)器,發(fā)現(xiàn)啟動過程中出現(xiàn)錯誤,描述內(nèi)容屬于硬件故障。幸好,我們單位技術(shù)人員一起討論并編制了一份“網(wǎng)絡(luò)應(yīng)急預(yù)案”操作手冊,按照應(yīng)急預(yù)案的操作,找到業(yè)務(wù)系統(tǒng)備用服務(wù)器,開機(jī),遠(yuǎn)程連接,通過telnet連不上服務(wù)器,Ping服務(wù)器網(wǎng)絡(luò)不通,接上顯示器、鼠標(biāo)和鍵盤,顯示器無信號。
通過串口線連接服務(wù)器,可以訪問維護(hù)系統(tǒng),發(fā)現(xiàn)var目錄不見了??紤]到如果重建操作系統(tǒng),需要備份數(shù)據(jù),會花費(fèi)很長時間,業(yè)務(wù)系統(tǒng)就需要中斷很長時間。筆者急中生智,想到兩臺服務(wù)器型號、操作系統(tǒng)版本等都是一樣,而且應(yīng)用方面,主要是運(yùn)行iPlanet服務(wù)組件,提供Web服務(wù)、Web頁面、主服務(wù)器宕機(jī),屬于硬件故障,操作系統(tǒng)應(yīng)該沒問題,業(yè)務(wù)系統(tǒng)應(yīng)用也在。筆者想了想可以試試將主服務(wù)器硬盤按順序插入到備用服務(wù)器上面,只要操作系統(tǒng)能啟動,業(yè)務(wù)系統(tǒng)應(yīng)用估計也沒有問題。
按照上面的想法操作了一下,將主服務(wù)器四塊磁盤全部按順序插入到備用服務(wù)器上,備用服務(wù)器可以正常啟動,但遠(yuǎn)程telnet連不上備用設(shè)備??紤]到可能是網(wǎng)絡(luò)問題,本地登錄備用服務(wù)器,清除arp信息,清除相關(guān)網(wǎng)絡(luò)設(shè)備arp信息,嘗試遠(yuǎn)程登錄服務(wù)器,可以登錄。啟動iPlanet,通過瀏覽器訪問業(yè)務(wù)系統(tǒng),輸入用戶名密碼登錄,業(yè)務(wù)系統(tǒng)可用。
雖然筆者急中生智靈活應(yīng)對了這次故障,保障了業(yè)務(wù)系統(tǒng)可用,但還是暴露了很多管理和技術(shù)問題。一是備用服務(wù)器的日常檢查不到位,建立的機(jī)房巡視檢查制度一定要落到實處。二是服務(wù)器上的應(yīng)用數(shù)據(jù)一定要及時備份。此外,雖然Solaris操作系統(tǒng)比較穩(wěn)定,但考慮到特殊情況,也應(yīng)定期備份,可以采用每月或幾個月等大周期備份。三是多掌握操作系統(tǒng)修復(fù)的技術(shù)方法。四是制定的應(yīng)急預(yù)案要定期演練實操。