吳 丹,孟 娜
由于靜態(tài)鏈路聚合自身的缺陷造成交換機無法感知到光纖模塊已損壞,數(shù)據(jù)繼續(xù)經(jīng)此鏈路轉(zhuǎn)發(fā)就會出現(xiàn)嚴(yán)重的網(wǎng)絡(luò)丟包現(xiàn)象,影響正常通信工作。該類非典型故障發(fā)生概率低且迷惑性強,信息工程人員很難及時判斷并排除故障,勢必會造成正常醫(yī)療工作的中斷。筆者將類似非典型網(wǎng)絡(luò)故障的排查方法、步驟做一梳理,以期為醫(yī)院信息網(wǎng)絡(luò)工作人員提供類似故障的處理經(jīng)驗,并提示網(wǎng)絡(luò)維護(hù)人員應(yīng)當(dāng)結(jié)合設(shè)備的使用年限定期測試、更換臨界設(shè)備,預(yù)防類似故障再次發(fā)生[1]。
筆者所在醫(yī)院院內(nèi)網(wǎng)絡(luò)經(jīng)歷過多次升級改造,形成了以2臺H3C 9512E為核心,使用第二代智能彈性架構(gòu)技術(shù)(IRF2)的三層網(wǎng)絡(luò)架構(gòu)[2-4],各匯聚層連接核心層采用靜態(tài)鏈路聚合方式,主干網(wǎng)絡(luò)達(dá)到萬兆級別,經(jīng)過多年運行始終保持平穩(wěn)狀態(tài)。但由于靜態(tài)鏈路聚合自身的缺陷造成交換機無法感知已損壞的光纖模塊,數(shù)據(jù)繼續(xù)經(jīng)此鏈路轉(zhuǎn)發(fā)會出現(xiàn)嚴(yán)重的網(wǎng)絡(luò)丟包現(xiàn)象,從而可能會造成內(nèi)網(wǎng)通訊中斷。
與故障相關(guān)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖1所示。(1)核心層:由2臺9512E交換機組成,各有兩塊主控業(yè)務(wù)板互為冗余,使用IRF2(第二代智能彈性構(gòu)架技術(shù))對外虛擬成1臺交換機,2臺核心之間通過心跳線相連用于同步配置和數(shù)據(jù)傳輸[3]。下連設(shè)備方式和地址分別是,9512E-1單鏈路連接服務(wù)器端匯聚層交換機,服務(wù)器地址132.X.X.200、132.X.2.88;鏈路1與鏈路2配置成靜態(tài)鏈路聚合模式聯(lián)通匯聚層與核心層[4]。(2)匯聚層:采用靜態(tài)鏈路聚合實現(xiàn),匯聚組的創(chuàng)建、成員接口的加入完全由手工來配置,不允許系統(tǒng)自動添加或刪除。靜態(tài)聚合模式下的成員端口選中狀態(tài)不受網(wǎng)絡(luò)環(huán)境的影響,穩(wěn)定性較高[5]。S5800-1上行端口號分別是:①鏈路1上Ten-GigabitEthernet 1/0/25,聚合組顯示XGE1/0/25;②鏈路2上Ten-GigabitEthernet 1/0/26,聚合組顯示XGE1/0/26。(3)接入層:樓層交換機作為接入層使用并按樓層劃分網(wǎng)段,上行單鏈路到S5800-1,下行連接客戶端。該次故障發(fā)生的保健樓7層包含客戶端地址136.X.7.7、136.X.7.17,8層包含客戶端地址136.X.8.7。
圖1 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
最早接到的報修電話是醫(yī)院保健樓7層護(hù)士站,反映地址為136.X.7.7的客戶端處理和保存醫(yī)囑過程緩慢。檢測發(fā)現(xiàn)136.X.7.7和136.X.7.17大量丟包,同時8層136.X.8.7客戶端無丟包現(xiàn)象。陸續(xù)接到保健樓其他樓層的報修電話反映同樣問題,再次確認(rèn)8層客戶端業(yè)務(wù)運行正常,如圖2所示。
圖2 通信故障測試結(jié)果
由于正常工作時間各樓層之間數(shù)據(jù)訪問頻繁,分析故障節(jié)點在保健樓,與核心層、服務(wù)器無關(guān),開始逐項排查。(1)排查保健樓7層交換機。7層客戶端之間訪問正常,實測上行端口通訊正常,排除故障可能。(2)排查保健樓廣播風(fēng)暴。查看匯聚層S5800-1的CPU占用率和Ten-GigabitEthernet 1/0/25、Ten-GigabitEthernet 1/0/26端口廣播包的增長情況,排除此項可能。操作如下:①第一步:鍵入代碼
圖3 CPU占用率
圖4 端口狀態(tài)
圖5 歷史數(shù)據(jù)清零后端口狀態(tài)
圖6 鏈路聚合狀態(tài)
以上潛在故障點都排除以后,在S5800-1中鍵入命令關(guān)閉鏈路1上行端口Ten-GigabitEthernet 1/0/25,強制數(shù)據(jù)包經(jīng)鏈路2轉(zhuǎn)發(fā),此時監(jiān)測到7層客戶端不再丟包,業(yè)務(wù)運行恢復(fù)正常[7]。同時檢測8層客戶端業(yè)務(wù)運行正常。對調(diào)Ten-GigabitEthernet 1/0/25和Ten-GigabitEthernet 1/0/26的光纖跳線,業(yè)務(wù)運行正常。確定Ten-GigabitEthernet 1/0/25端口的光纖模塊損壞,更換光纖模塊并啟用Ten-GigabitEthernet 1/0/25端口,故障排除[8]。后期檢測此模塊光通率低于正常值。