上官敏樂(lè) 龔誠(chéng)剛
[摘要]LTE網(wǎng)絡(luò)結(jié)構(gòu)較之前的網(wǎng)絡(luò)更加扁平化,網(wǎng)絡(luò)維護(hù)管理只能通過(guò)網(wǎng)管服務(wù)器進(jìn)行。網(wǎng)管服務(wù)器更加重要,所以需要更高效可靠的網(wǎng)管服務(wù)器的容災(zāi)方法。
[關(guān)鍵詞]LTE 4G 網(wǎng)管服務(wù)器 容災(zāi)
隨著數(shù)據(jù)通信與多媒體業(yè)務(wù)需求的發(fā)展,適應(yīng)移動(dòng)數(shù)據(jù)、移動(dòng)計(jì)算及移動(dòng)多媒體運(yùn)作需要的第四代移動(dòng)通信開(kāi)始興起,因此有理由期待這種第四代移動(dòng)通信技術(shù)給人們帶來(lái)更加美好的未來(lái)。4G是第四代通訊技術(shù)的簡(jiǎn)稱,G是generation(一代)的簡(jiǎn)稱。4G系統(tǒng)能夠以100Mbps的速度下載,比目前的撥號(hào)上網(wǎng)快2000倍,上傳的速度也能達(dá)到20Mbps,并能夠滿足幾乎所有用戶對(duì)于無(wú)線服務(wù)的要求。另一方面,4G也因?yàn)槠鋼碛械某邤?shù)據(jù)傳輸速度,被中國(guó)物聯(lián)網(wǎng)校企聯(lián)盟譽(yù)為機(jī)器之間當(dāng)之無(wú)愧的“高速對(duì)話”。隨著4G網(wǎng)絡(luò)的發(fā)展,移動(dòng)用戶增長(zhǎng)更為迅猛。我國(guó)4G用戶規(guī)模已達(dá)到11.49億戶。隨著人們使用手機(jī)方式的改變,手機(jī)的主要業(yè)務(wù)已從打電話業(yè)務(wù)變成數(shù)據(jù)流量業(yè)務(wù)。而4G網(wǎng)絡(luò)在數(shù)據(jù)流量業(yè)務(wù)方面具有很大的優(yōu)勢(shì)。因此,4G網(wǎng)絡(luò)受到了運(yùn)營(yíng)商格外重視。然而4G網(wǎng)絡(luò)更加扁平化,只能通過(guò)網(wǎng)管服務(wù)器監(jiān)控維護(hù)網(wǎng)絡(luò),所以對(duì)網(wǎng)管服務(wù)器的容災(zāi)要求更高。LTE(Long Term Evolution,長(zhǎng)期演進(jìn))項(xiàng)目是3G的演進(jìn),它改進(jìn)并增強(qiáng)了3G的空中接入技術(shù),采用OFDM和MIMO作為其無(wú)線網(wǎng)絡(luò)演進(jìn)的唯一標(biāo)準(zhǔn)。主要特點(diǎn)是在20MHz頻譜帶寬下能夠提供下行100Mbit/s與上行50Mbit/s的峰值速率,相對(duì)于3G網(wǎng)絡(luò)大大的提高了小區(qū)的容量,同時(shí)將網(wǎng)絡(luò)延遲大大降低:內(nèi)部單向傳輸時(shí)延低于5ms,控制平面從睡眠狀態(tài)到激活狀態(tài)遷移時(shí)間低于50ms,從駐留狀態(tài)到激活狀態(tài)的遷移時(shí)間小于100ms。并且這一標(biāo)準(zhǔn)也是3GPP長(zhǎng)期演進(jìn)(LTE)項(xiàng)目,是近兩年來(lái)3GPP啟動(dòng)的最大的新技術(shù)研發(fā)項(xiàng)目。經(jīng)統(tǒng)計(jì)發(fā)現(xiàn)目前只有板卡級(jí)的容災(zāi),當(dāng)板卡發(fā)生故障后系統(tǒng)自動(dòng)倒換到備用板卡,然后人工更換故障板卡。根據(jù)4G的網(wǎng)絡(luò)特點(diǎn)以及重要性,這樣的容災(zāi)系統(tǒng)可靠性不高。LTE網(wǎng)管服務(wù)器急需設(shè)備級(jí)容災(zāi)。
一、設(shè)定目標(biāo)及目標(biāo)可行性分析
目前華為ATAE服務(wù)器都有板卡備份,經(jīng)統(tǒng)計(jì)全國(guó)范圍內(nèi)沒(méi)有發(fā)生過(guò)華為L(zhǎng)TE網(wǎng)管服務(wù)器設(shè)備級(jí)故障。小組經(jīng)過(guò)討論并確定目標(biāo)值:實(shí)現(xiàn)容災(zāi)新方法后LTE網(wǎng)管中斷的恢復(fù)時(shí)長(zhǎng)小于30分鐘。
目標(biāo)測(cè)算:小組成員借鑒新技術(shù)、結(jié)合現(xiàn)有技術(shù)模擬了建立應(yīng)急容災(zāi)系統(tǒng)后,小組成員在現(xiàn)有是4套華為L(zhǎng)TE網(wǎng)管服務(wù)器測(cè)試網(wǎng)元數(shù)據(jù)提取和新建網(wǎng)元,并統(tǒng)計(jì)分析了時(shí)長(zhǎng)。平均網(wǎng)元數(shù)量;6774個(gè);平均網(wǎng)元數(shù)據(jù)提取和新建網(wǎng)元時(shí)長(zhǎng):26.7分鐘(為貼近實(shí)際情況,考慮各種誤差,需增加10%的冗余時(shí)長(zhǎng))。推算時(shí)長(zhǎng)=26.7x(1+10%)=29.37≈30分鐘(預(yù)算時(shí)長(zhǎng)取近似值不可四舍五入,應(yīng)采取進(jìn)一法)。因此,目標(biāo)可以實(shí)現(xiàn)。
方案對(duì)比選擇:圍繞課題,經(jīng)過(guò)頭腦風(fēng)暴,確定三個(gè)可選方案:①基于云平臺(tái)的LTE網(wǎng)管服務(wù)器容災(zāi)方法;②基于雙機(jī)熱備的LTE網(wǎng)管服務(wù)器容災(zāi)方法;③基于一對(duì)多熱備的LTE網(wǎng)管服務(wù)器容災(zāi)方法。
方案評(píng)估標(biāo)準(zhǔn):小組成員制定了方案的評(píng)估標(biāo)準(zhǔn):①成本:小于5萬(wàn);②安全:內(nèi)外網(wǎng)分離;③倒換時(shí)長(zhǎng):小于30分鐘;④建設(shè)時(shí)長(zhǎng):小于3個(gè)月。
總體方案對(duì)比介紹:小組成員對(duì)上述三個(gè)方案進(jìn)行了詳細(xì)的對(duì)比分析。
方案一:基于云平臺(tái)的LTE網(wǎng)管服務(wù)器容災(zāi)方法:
實(shí)現(xiàn)原理:云服務(wù)器(Elastic Compute Service,ECS)是一種簡(jiǎn)單高效、安全可靠、處理能力可彈性伸縮的計(jì)算服務(wù)。其管理方式比物理服務(wù)器更簡(jiǎn)單高效。其核心是虛擬化平臺(tái)技術(shù)。虛擬化平臺(tái)將一定數(shù)量的服務(wù)器集群虛擬為多個(gè)性能可配的虛擬機(jī)(KVM),并根據(jù)實(shí)際資源使用情況靈活分配和調(diào)度資源池。
理論分析與對(duì)比:建立LTE網(wǎng)管云容災(zāi)服務(wù)器有兩種方式:①購(gòu)買(mǎi)使用公有云平臺(tái)。②運(yùn)維部自建云平臺(tái)。這兩種方式都要舍棄現(xiàn)有的服務(wù)器。
小組成員對(duì)這兩種方式分別進(jìn)行了評(píng)估:購(gòu)買(mǎi)使用公有云平臺(tái):小組成員經(jīng)過(guò)了解發(fā)現(xiàn)聯(lián)通公司是公有云運(yùn)營(yíng)商,在公有云技術(shù)和市場(chǎng)均處于全國(guó)領(lǐng)先。小組成員進(jìn)行了統(tǒng)計(jì)分析。
結(jié)果及評(píng)估:小組從成本、安全、倒換時(shí)長(zhǎng)、建設(shè)時(shí)長(zhǎng)等方面進(jìn)行評(píng)估,發(fā)成本達(dá)到100萬(wàn)元,安全無(wú)法物理層面無(wú)法實(shí)現(xiàn)內(nèi)外網(wǎng)分離,因此改方案無(wú)法滿足要求。運(yùn)維部自建云平臺(tái):小組成員查閱各設(shè)備制造商的相關(guān)技術(shù)資料后發(fā)現(xiàn)華為的云平臺(tái)服務(wù)器符合我們的要求。根據(jù)華為的報(bào)價(jià)一套華為E9000云服務(wù)器的價(jià)格約為600萬(wàn)元。
結(jié)果及評(píng)估:小組從成本、安全、倒換時(shí)長(zhǎng)、建設(shè)時(shí)長(zhǎng)等方面進(jìn)行評(píng)估,發(fā)成本達(dá)到600萬(wàn)元,建設(shè)時(shí)長(zhǎng)達(dá)到5個(gè)月,因此改方案無(wú)法滿足要求。
方案二:基于雙機(jī)熱備的LTE網(wǎng)管服務(wù)器容災(zāi)方法:
實(shí)現(xiàn)原理:雙機(jī)熱備特指基于高可用系統(tǒng)中的兩臺(tái)服務(wù)器的熱備。目前雙機(jī)熱備主要有三種形式:?jiǎn)未鎯?chǔ)方式、存儲(chǔ)熱備方式、數(shù)據(jù)同步方式。無(wú)論采用哪種方式,都需要新增服務(wù)器。目前2G網(wǎng)絡(luò)空出一套ATAE服務(wù)器,如按照全省4套服務(wù)器都實(shí)行雙機(jī)熱備則還需購(gòu)買(mǎi)3套服務(wù)器,成本約為600萬(wàn)元。
結(jié)果及評(píng)估:小組從成本、安全、倒換時(shí)長(zhǎng)、建設(shè)時(shí)長(zhǎng)等方面進(jìn)行評(píng)估,發(fā)成本達(dá)到600萬(wàn)元,建設(shè)時(shí)長(zhǎng)達(dá)到5個(gè)月,因此改方案無(wú)法滿足要求。
方案三:基于一對(duì)多熱備的LTE網(wǎng)管服務(wù)器容災(zāi)方法:
實(shí)現(xiàn)原理:小組成員在學(xué)習(xí)磁盤(pán)陣列知識(shí)中發(fā)現(xiàn)在RAID5技術(shù)中一塊硬盤(pán)可以對(duì)多塊硬盤(pán)實(shí)現(xiàn)備份。受該技術(shù)的啟發(fā),小組認(rèn)為可以用一套設(shè)備容災(zāi)現(xiàn)網(wǎng)的四套服務(wù)器。
小組成員統(tǒng)計(jì)了現(xiàn)網(wǎng)服務(wù)器的性能:小組成員通過(guò)網(wǎng)管工具查看并統(tǒng)計(jì)了現(xiàn)有服務(wù)器一個(gè)星期的運(yùn)行性能指標(biāo)。發(fā)現(xiàn)現(xiàn)網(wǎng)服務(wù)器的平均CPU占用率為39.3%,平均內(nèi)存占用率為35.9%,不僅可完全勝任現(xiàn)有的網(wǎng)絡(luò)規(guī)模且仍有冗余。
實(shí)驗(yàn)一:小組成員對(duì)部分新建工程期站點(diǎn)進(jìn)行了跨服務(wù)器容災(zāi)倒換測(cè)試。測(cè)試步驟:將其中一套網(wǎng)管服務(wù)器(IP:172.23.0.2)現(xiàn)網(wǎng)的測(cè)試工程期站點(diǎn)斷連,然后將備份數(shù)據(jù)導(dǎo)出,拷貝到另外一套網(wǎng)管服務(wù)器(IP:172.23.0.34),連接網(wǎng)元,網(wǎng)元恢復(fù)監(jiān)控。實(shí)驗(yàn)二:由于GSM網(wǎng)絡(luò)在網(wǎng)用戶逐漸減少,全省在逐步進(jìn)行GSM基站和BSC退服工作。原全省有4套GSM網(wǎng)管服務(wù)器,今年年初退服了1套。小組成員發(fā)現(xiàn)該服務(wù)器與LTE最新的服務(wù)器配置完全一樣。這套服務(wù)器可以利舊用于華為L(zhǎng)TE網(wǎng)管服務(wù)器的容災(zāi)。小組成員用了一根跨機(jī)房的飛線將該GSM服務(wù)器連接到LTE服務(wù)器的交換機(jī),然后進(jìn)行了容災(zāi)倒換測(cè)試。測(cè)試步驟:小組成員選了4個(gè)網(wǎng)管服務(wù)器上的新建工程期的網(wǎng)元在容災(zāi)服務(wù)器上建立了斷連網(wǎng)元。然而在測(cè)試中發(fā)現(xiàn)網(wǎng)元無(wú)法在容災(zāi)網(wǎng)管服務(wù)器(IP:172.23.0.130)上建立連接。為什么原先新建工程期站點(diǎn)測(cè)試可以,現(xiàn)在測(cè)試范圍擴(kuò)大后大部分站點(diǎn)就不行了呢?圍繞著這個(gè)問(wèn)題,小組進(jìn)行了多次頭腦風(fēng)暴。通過(guò)網(wǎng)管收集數(shù)據(jù)并進(jìn)行了統(tǒng)計(jì)分析。查看基站的路由發(fā)現(xiàn),由于原先規(guī)劃的問(wèn)題,去往M2000的子網(wǎng)過(guò)小,基站數(shù)據(jù)無(wú)法到達(dá)容災(zāi)網(wǎng)管服務(wù)器。所以需修改華為L(zhǎng)TE基站網(wǎng)管路由的掩碼。經(jīng)統(tǒng)計(jì)表可以看出杭州這一套網(wǎng)管就有6500多個(gè)基站需要修改且對(duì)應(yīng)的IPRAN鏈路的IP掩碼也需要修改。即杭州就需要修改數(shù)據(jù)13000多次,全省則更多,工程量非常巨大。無(wú)論是逐個(gè)手工修改還是制作批量執(zhí)行腳本都風(fēng)險(xiǎn)很大。為此小組成員又進(jìn)行了多次頭腦風(fēng)暴,根據(jù)ATAE服務(wù)器特殊性找到了另外一個(gè)方法:由于ATAE網(wǎng)管服務(wù)器是刀片式服務(wù)器。其中OSMU板卡是整個(gè)服務(wù)器的管理板卡,登錄該板卡可以對(duì)U2000板卡的IP進(jìn)行修改。當(dāng)現(xiàn)網(wǎng)某套華為ATAE服務(wù)器整機(jī)發(fā)生故障時(shí),將容災(zāi)服務(wù)器的U2000板卡IP修改成故障服務(wù)器的相應(yīng)IP,然后在容災(zāi)服務(wù)器上建立網(wǎng)元連接,即可恢復(fù)故障服務(wù)器。
實(shí)驗(yàn)驗(yàn)證:小組成員在后半夜利用拔出網(wǎng)線的方式模擬LTE服務(wù)器整機(jī)故障,然后在容災(zāi)服務(wù)器上進(jìn)行相應(yīng)的修改IP和連接網(wǎng)元等工作。經(jīng)測(cè)試容災(zāi)時(shí)長(zhǎng)在30分鐘以內(nèi)。結(jié)果及評(píng)估:小組從成本、安全、倒換時(shí)長(zhǎng)、建設(shè)時(shí)長(zhǎng)等方面進(jìn)行評(píng)估,發(fā)現(xiàn)均滿足要求。最終確定第三種方案“基于一對(duì)多熱備的LTE網(wǎng)管服務(wù)器容災(zāi)方法”為最優(yōu)實(shí)施方案。
二、容災(zāi)系統(tǒng)建立
(一)實(shí)施一:容災(zāi)服務(wù)器與現(xiàn)網(wǎng)服務(wù)器使用網(wǎng)線連通
①制作三條網(wǎng)線;②容災(zāi)服務(wù)器與交換機(jī)連接兩條網(wǎng)線,一條網(wǎng)線備用。小組成員將三條網(wǎng)線放于機(jī)房間的走線架上,按規(guī)定綁扎好。容災(zāi)服務(wù)器與LTE網(wǎng)管服務(wù)器端交換機(jī)采用雙網(wǎng)線連接。為防止形成廣播風(fēng)暴,在3層交換機(jī)上配置了VRRP。小組成員特地多放了一條網(wǎng)線,當(dāng)出現(xiàn)網(wǎng)線故障時(shí)可以快速替換,因此網(wǎng)絡(luò)又多了一層保護(hù)。③聯(lián)網(wǎng)測(cè)試:完成后,小組成員使用PING以及內(nèi)網(wǎng)測(cè)速工具LAN Speed Test測(cè)試了網(wǎng)絡(luò)的性能。網(wǎng)速到達(dá)100Mbps。綜上所述,網(wǎng)線數(shù)量到達(dá)2主1備,滿足鏈路≥2條的要求,滿足網(wǎng)速≥100Mbps。
(二)對(duì)策實(shí)施二:建立斷連網(wǎng)元備份
①在容災(zāi)服務(wù)器建立4套服務(wù)器的斷連網(wǎng)元:小組成員從現(xiàn)網(wǎng)四套網(wǎng)管服務(wù)器上導(dǎo)出網(wǎng)元備份,導(dǎo)入容災(zāi)服務(wù)器建立網(wǎng)元并設(shè)置為斷連狀態(tài)。②定期網(wǎng)元備份:由于目前不是網(wǎng)絡(luò)建設(shè)的高峰期,小組統(tǒng)計(jì)了最近6個(gè)月的新增華為L(zhǎng)TE站點(diǎn)數(shù)。經(jīng)統(tǒng)計(jì)每月平均新建站點(diǎn)約為14個(gè),新增站點(diǎn)數(shù)占現(xiàn)網(wǎng)站點(diǎn)數(shù)的0.22%左右。③當(dāng)月新增網(wǎng)元超過(guò)60個(gè)時(shí)啟動(dòng)緊急網(wǎng)元備份:小組成員研究決定,當(dāng)某個(gè)月新增站點(diǎn)數(shù)超過(guò)60個(gè)時(shí),臨時(shí)增加一次網(wǎng)元備份,以確保網(wǎng)元備份率≥99%。
(三)對(duì)策實(shí)施三:服務(wù)器板卡開(kāi)啟標(biāo)準(zhǔn)制定
①容災(zāi)服務(wù)器軟件版本與現(xiàn)網(wǎng)服務(wù)器保持一致:確保每次網(wǎng)管版本升級(jí)和打補(bǔ)丁時(shí)同步對(duì)容災(zāi)服務(wù)器進(jìn)行操作。②制定板卡開(kāi)啟標(biāo)準(zhǔn)流程。③定期網(wǎng)元備份時(shí)檢查板卡健康性以及統(tǒng)計(jì)板卡開(kāi)啟時(shí)長(zhǎng)。小組成員制定了網(wǎng)元備份規(guī)范,嚴(yán)格規(guī)定每次網(wǎng)元備份時(shí)統(tǒng)計(jì)板卡開(kāi)啟時(shí)間并對(duì)每塊板卡進(jìn)行健康性檢查。④聯(lián)網(wǎng)測(cè)試:小組成員進(jìn)行了多次板卡開(kāi)啟測(cè)試:板卡開(kāi)啟時(shí)長(zhǎng)≤8分鐘。
(四)對(duì)策實(shí)施四:人工倒換標(biāo)準(zhǔn)制定
①制定啟動(dòng)人工倒換的故障程度標(biāo)準(zhǔn):小組成員經(jīng)過(guò)頭腦風(fēng)暴決定當(dāng)滿足:現(xiàn)網(wǎng)網(wǎng)管斷連;所有機(jī)房均無(wú)法ping通該服務(wù)器;容災(zāi)服務(wù)器能連上時(shí)啟動(dòng)人工倒換。②制定華為L(zhǎng)TE網(wǎng)管服務(wù)器人工倒換應(yīng)急容災(zāi)流程:小組成員經(jīng)過(guò)研究對(duì)原來(lái)的矢線圖進(jìn)行優(yōu)化,作為人工倒換應(yīng)急容災(zāi)流程。我們用紅色重點(diǎn)標(biāo)出了關(guān)鍵路線,在實(shí)施中必須嚴(yán)格控制關(guān)鍵路線各個(gè)階段的時(shí)長(zhǎng)。③聯(lián)網(wǎng)測(cè)試:經(jīng)過(guò)測(cè)試人工倒換的時(shí)長(zhǎng)可以控制在30分鐘以內(nèi)。
(五)實(shí)驗(yàn)驗(yàn)證
小組成員在后半夜利用拔出網(wǎng)線的方式模擬LTE服務(wù)器整機(jī)故障,然后在容災(zāi)服務(wù)器上進(jìn)行相應(yīng)的修改IP和連接網(wǎng)元等工作。小組成員對(duì)全省4套LTE服務(wù)器均實(shí)施了該方案。實(shí)施后小組成員在之后3個(gè)月內(nèi)利用其他割接時(shí)段進(jìn)行了多次測(cè)試。均實(shí)現(xiàn)了將華為L(zhǎng)TE網(wǎng)管服務(wù)器應(yīng)急容災(zāi)時(shí)長(zhǎng)降低至30分鐘以內(nèi)的目標(biāo),該新方法穩(wěn)定可靠、切實(shí)可行。
三、結(jié)論
實(shí)施該方案后,LTE網(wǎng)管服務(wù)器可在30分鐘內(nèi)實(shí)現(xiàn)整機(jī)容災(zāi),并實(shí)現(xiàn)了節(jié)能減排的要求。項(xiàng)目完成后,為各措施形成標(biāo)準(zhǔn)化流程。本次項(xiàng)目利舊一套空閑服務(wù)器,該套服務(wù)器的原價(jià)約為200萬(wàn)元,折舊后的價(jià)值約為75.5萬(wàn)元。
同時(shí)本次活動(dòng)也提高了華為L(zhǎng)TE網(wǎng)管服務(wù)器安全性,可減少備件數(shù)量。減少備件價(jià)值30萬(wàn)元。同時(shí)本次活動(dòng)減少設(shè)備運(yùn)行功率5090瓦。按一元一度電計(jì)算,活動(dòng)期間3個(gè)月節(jié)省電費(fèi)支出月1萬(wàn)元。本次全部活動(dòng)利用現(xiàn)有設(shè)備和場(chǎng)地,沒(méi)有產(chǎn)生活動(dòng)費(fèi)用。通過(guò)計(jì)算本次QC活動(dòng)期間給浙江省聯(lián)通帶來(lái)的經(jīng)濟(jì)效益約為106.5萬(wàn)元。