引言: 筆者單位因工作需要,購置了4臺(tái)服務(wù)器連接到網(wǎng)絡(luò)中。將4臺(tái)服務(wù)器裝好系統(tǒng),連接好網(wǎng)絡(luò)的時(shí)候,發(fā)現(xiàn)整個(gè)服務(wù)器局域網(wǎng)網(wǎng)絡(luò)延時(shí)非常高,甚至經(jīng)常有丟包現(xiàn)象,而且發(fā)生延時(shí)的服務(wù)器還在變化。經(jīng)一步步測(cè)試排查,終于解決了問題。本文向大家介紹故障排查及解決的過程。
公司近期采購了4臺(tái)服務(wù)器(聯(lián) 想X3850X6),用 作虛擬化服務(wù)器,安裝了VMware ESXi系統(tǒng),每臺(tái)服務(wù)器均有4個(gè)RJ45千兆網(wǎng)口(以下簡(jiǎn)稱電口),2個(gè)光適配器,每個(gè)光適配器有2個(gè)萬兆光纖口,總計(jì)4個(gè)萬兆光口(以下簡(jiǎn)稱光口)。為了保證業(yè)務(wù)連續(xù),每臺(tái)服務(wù)器管理網(wǎng)絡(luò)與應(yīng)用網(wǎng)絡(luò)需要分開,并且管理網(wǎng)絡(luò)與應(yīng)用網(wǎng)絡(luò)均需要做負(fù)載均衡。公司擁有兩臺(tái)HP5406企業(yè)級(jí)交換機(jī),用作機(jī)房服務(wù)器匯聚。每臺(tái)HP5406匯聚交換機(jī)均擁有1個(gè)光模塊(HP J9538A),5 個(gè)電模塊 (HP J9534A),如圖1所示。
圖1 模塊信息圖
每個(gè)光模塊擁有8個(gè)光插槽,最多可以8個(gè)萬兆光纖收發(fā)器;每個(gè)電模塊擁有24個(gè)千兆網(wǎng)口;兩臺(tái)交換機(jī)的A1-A4都已經(jīng)用作上聯(lián)核心交換機(jī),剩余A5-A8光口可以用,正好可以連4臺(tái)服務(wù)器,用作服務(wù)器的應(yīng)用網(wǎng)絡(luò)(運(yùn)行應(yīng)用業(yè)務(wù)數(shù)據(jù)),交換機(jī)的電口F3-F6連4臺(tái)服務(wù)器的電口,用作管理網(wǎng)絡(luò)(管理ESXi機(jī)和用作VMotion)。連線情況如表1、表2所示。
簡(jiǎn)單來說就是每臺(tái)主機(jī)都接了2根網(wǎng)線和2根光纖,2根網(wǎng)線分別上聯(lián)2臺(tái)交換機(jī)用作管理,2根光纖分別上聯(lián)2臺(tái)交換機(jī)用作跑應(yīng)用,都用2根線則是為了負(fù)載均衡或防止單點(diǎn)故障。
4臺(tái)服務(wù)器都裝好系統(tǒng),連接好網(wǎng)絡(luò)的時(shí)候,發(fā)現(xiàn)整個(gè)服務(wù)器局域網(wǎng)網(wǎng)絡(luò)延時(shí)非常高(通過Ping命令測(cè)試),高達(dá)幾百毫秒,甚至經(jīng)常有丟包現(xiàn)象,而且奇怪的是不是這四臺(tái)聯(lián)想服務(wù)器卡,是局域網(wǎng)內(nèi)其他服務(wù)器延時(shí)(如域控、RTX、PDM、K3、CAD等),并且不是所有服務(wù)器一起延時(shí),而是一會(huì)這臺(tái)服務(wù)器卡,一會(huì)另外一臺(tái)服務(wù)器卡,并且本人Ping CAD卡的時(shí)候,別人Ping CAD又正常,但是他可能Ping k3卡,而且延時(shí)的服務(wù)器還在變化,一會(huì)又變成另外一臺(tái)機(jī)器卡,現(xiàn)象非常神奇。
表1 與交換機(jī)1連線說明
表2 與交換機(jī)2連線說明
1.由于是新連接了服務(wù)器之后網(wǎng)絡(luò)才開始出現(xiàn)這種延時(shí)現(xiàn)象,所以首先把4臺(tái)服務(wù)器連接到交換機(jī)上的網(wǎng)線光纖全部拔掉,果然網(wǎng)絡(luò)延時(shí)現(xiàn)象立馬消失,由此可以判斷,是這4臺(tái)服務(wù)器引起的故障。
2.為了定位到底是哪臺(tái)機(jī)器引起的,采取逐步接入的方法找出故障點(diǎn)。先接入ESXi3的VNET04到huiju1的A5口,觀察發(fā)現(xiàn)網(wǎng)絡(luò)正常。再接入ESXi4的VNET04到huiju1的A6口,沒過幾分鐘,網(wǎng)絡(luò)延時(shí)現(xiàn)象出現(xiàn),拔掉A6口光纖,延時(shí)現(xiàn)象立刻消失。難道是交換機(jī)承受不了同時(shí)2臺(tái)萬兆網(wǎng)卡服務(wù)器接入?細(xì)細(xì)想來不太可能,畢竟HP5406是企業(yè)級(jí)交換機(jī),不應(yīng)該在性能上承受不了。
繼續(xù)測(cè)試,在ESXi3連接A5,ESXi24不連A6的時(shí)候,再將ESXi25的VNET04口連接到huiju1的A7口,觀察后發(fā)現(xiàn)網(wǎng)絡(luò)也正常,之后A8口接入也正常。同樣的方法測(cè)試第二臺(tái)HP交換機(jī),現(xiàn)象類似,也是再接入A6口之后,就網(wǎng)絡(luò)延時(shí),只要不接A6端口,網(wǎng)絡(luò)就正常,唯一不同的是,二臺(tái)交換機(jī)的A5口接入之后,會(huì)有少量的延時(shí),但是問題不大,只有幾十毫秒的延時(shí)。問題集中在A6端口,與此同時(shí)連接A6端口的都是第二臺(tái)聯(lián)想服務(wù)器ESXi4,懷疑它有問題。
3.此時(shí)分析,雖然接入兩臺(tái)交換機(jī)A6都有問題,且問題相似,應(yīng)該是同一個(gè)問題,只要解決一個(gè),另外一個(gè)也就好解決了。為了防止環(huán)路導(dǎo)致的情況影響測(cè)試,故采取只連一臺(tái)服務(wù)器的方式繼續(xù)尋找根源。根據(jù)線路走勢(shì),懷疑對(duì)象分別為:服務(wù)器ESXi4、光纖、光纖收發(fā)器、HP交換機(jī)。
4.為了測(cè)試聯(lián)想服務(wù)器是否有問題,采取交差測(cè)試的方法,將ESXi4連到之前測(cè)試正常的端口A7,觀察一段時(shí)間,發(fā)現(xiàn)網(wǎng)絡(luò)正常,此時(shí)A5、A8端口也都連著設(shè)備,網(wǎng)絡(luò)依然正常,排除聯(lián)想主機(jī)問題、排除光纖問題(因?yàn)楣饫w用的是原來的光纖)。
5.此時(shí)只剩下光纖收發(fā)器和HP交換機(jī)需要測(cè)試,再交換測(cè)試光纖收發(fā)器,發(fā)現(xiàn)只要不連接A6端口,網(wǎng)絡(luò)就正常,不管哪個(gè)光纖收發(fā)器只要插到A6口,連上設(shè)備,網(wǎng)絡(luò)就發(fā)生故障,排除光纖收發(fā)器故障,問題集中到交換機(jī)上,并且兩臺(tái)交換機(jī)都在A6的地方有問題,可能是這款交換機(jī)有問題。
6.撥打800電話咨詢,客服建議報(bào)修交換機(jī)的光模塊板卡J9538A。再咨詢HP總代的HP工程師,建議對(duì)交換機(jī)的系統(tǒng)版本降低測(cè)試。一個(gè)從硬件角度一個(gè)從軟件角度懷疑,由于備件發(fā)貨需要時(shí)間,3天后才能到貨,故優(yōu)先采取刷ROM系統(tǒng)版本的方法測(cè)試。
7.向總代工程師要來系統(tǒng)ROM文件,詳細(xì)的操作手冊(cè)以及相關(guān)工具,征求相關(guān)領(lǐng)導(dǎo)的同意,在下班之后,開始實(shí)施交換機(jī)版本降級(jí)。
圖2 系統(tǒng)版本圖
8.首先備份好兩臺(tái)交換機(jī)的配置文件,然后再開始正式實(shí)施。
在一臺(tái)PC機(jī)器上允許TFTP.exe程序,將相關(guān)ROM文件放入TFTP當(dāng)前目錄,登錄匯聚交換機(jī)huiji1,運(yùn)行copy flash tftp
提示要?jiǎng)h除primary image,按Y執(zhí)行刪除操作,交換機(jī)開始重裝系統(tǒng)讀秒,剛重裝好系統(tǒng)的時(shí)候,Ping 交換機(jī)延時(shí)會(huì)比較高,CPU使用率也比較高,此時(shí)不要著急,慢慢會(huì)降下來,等一切都穩(wěn)定下來之后,代表系統(tǒng)安裝結(jié)束,執(zhí)行reboot命令重啟交換機(jī)即可。
運(yùn)行show version,如圖2所示,已經(jīng)順利刷新到我們想要的版本。
9.再將各服務(wù)器連入交換機(jī)測(cè)試,發(fā)現(xiàn)網(wǎng)絡(luò)一切正常,同樣的方法對(duì)第二臺(tái)交換機(jī)更換系統(tǒng)版本,再測(cè)試,網(wǎng)絡(luò)仍然一切正常,故障徹底解決。
1.故障發(fā)生,運(yùn)維的第一個(gè)任務(wù),把故障恢復(fù)到正常狀態(tài),因?yàn)槭亲隽俗兏鼘?dǎo)致,那么就恢復(fù)到變更之前。
2.開始尋找原因,逐步變更,為分析問題提供資料,爭(zhēng)取定位故障點(diǎn)。
3.分析故障,羅列可能發(fā)生故障的模塊。
4.交差測(cè)試與排除法減小懷疑對(duì)象范圍。
5.反復(fù)測(cè)試,再分析,直到找到最有可能故障的模塊。
6.電話咨詢800、與其他專家(故障處理求助)。
7.之前所述,故障處理一起都以對(duì)業(yè)務(wù)影響最小為前提,所以必須在下班以后操作,并且恢復(fù)系統(tǒng)本身也是一個(gè)變更操作,需要得到領(lǐng)導(dǎo)的同意方可。
8.因?yàn)榻?jīng)過電話求助,有詳細(xì)的操作說明,實(shí)施反而是最簡(jiǎn)單的了,當(dāng)然也如之前所述,備份工作是恢復(fù)網(wǎng)絡(luò)故障的關(guān)鍵,所以備份操作必不可少。
9.測(cè)試驗(yàn)證問題是否還存在。后經(jīng)詢問,這兩臺(tái)交換機(jī)在之前曾經(jīng)有同事給交換機(jī)升級(jí)過系統(tǒng)版本。