彭麗恩+鄧雄雷+何少萍
【摘要】 愛立信OSS系統(tǒng)當(dāng)前一般采用冷備份的容災(zāi)方式,主備用服務(wù)器上無數(shù)據(jù)同步功能,應(yīng)急操作依賴于管理員手工切換,容災(zāi)效果大打折扣。作為移動(dòng)通信網(wǎng)中專用的設(shè)備操作管理系統(tǒng),OSS系統(tǒng)的可用性至關(guān)重要,直接影響了對網(wǎng)絡(luò)的操作維護(hù)。因此,本論文提出一種有效的解決方案,實(shí)現(xiàn)冷備份系統(tǒng)“準(zhǔn)熱備份”的容災(zāi)效果。該解決方案也可用于其它冷備份系統(tǒng),提升容災(zāi)效果。
【關(guān)鍵詞】 冷備份 數(shù)據(jù)同步 一鍵切換 軟切換
一、背景情況
OSS系統(tǒng)是移動(dòng)通信網(wǎng)中專用的愛立信設(shè)備操作管理系統(tǒng),提供集中式的無線網(wǎng)絡(luò)和核心網(wǎng)絡(luò)的操作維護(hù)功能,主要提供故障管理、配置管理、性能管理、鑒權(quán)管理四大功能,包含OSS主服務(wù)器、備用服務(wù)器、COMINF服務(wù)器、UAS接口機(jī)、OMBS服務(wù)器、ENIQ服務(wù)器、交換機(jī)等設(shè)備,這些設(shè)備各施其能、各管其職,協(xié)同工作,為用戶提供愛立信網(wǎng)元的網(wǎng)管服務(wù)。OSS系統(tǒng)采用冷備份的容災(zāi)方式,當(dāng)該服務(wù)器的軟件或硬件出現(xiàn)故障的時(shí)候,需要切換到備用服務(wù)器上,由系統(tǒng)管理員前往機(jī)房操作,同時(shí)需要重啟備用服務(wù)器上的進(jìn)程,更新備用服務(wù)器上的數(shù)據(jù)。當(dāng)前OSS的容災(zāi)方式和應(yīng)急操作手段的不足,直接影響了OSS的冷備份容災(zāi)效果。
1、主備機(jī)間無數(shù)據(jù)同步機(jī)制,數(shù)據(jù)不同步直接影響了切換后OSS用戶的某些維護(hù)操作。OSS系統(tǒng)上精確地配置了每個(gè)用戶的權(quán)限,存儲(chǔ)了每一個(gè)網(wǎng)絡(luò)設(shè)備的配置信息,包括IP地址、帳號權(quán)限、網(wǎng)絡(luò)配置等,以及用戶自己的文件。如果主備機(jī)切換前用戶的權(quán)限、網(wǎng)元的配置或者網(wǎng)絡(luò)參數(shù)修發(fā)生了變化,而備機(jī)沒有及時(shí)更新,切換后用戶就會(huì)因權(quán)限問題無法進(jìn)行某些操作,網(wǎng)元出現(xiàn)斷連、參數(shù)不對無法進(jìn)行網(wǎng)絡(luò)優(yōu)化等問題。雖然切換到了備用服務(wù)器,但對于用戶來說,OSS的網(wǎng)管服務(wù)還是不可用的。
2、人工切換耗時(shí)長,需要OSS系統(tǒng)管理員前往機(jī)房進(jìn)行操作,容災(zāi)效果不明顯。若故障發(fā)生在非工作時(shí)間,OSS系統(tǒng)管理員趕到機(jī)房所耗費(fèi)的時(shí)間,可能比起系統(tǒng)管理員直接修復(fù)主機(jī)故障所用的時(shí)間還長,備機(jī)的冷備份容災(zāi)方式便形同虛設(shè)。
從上面的兩點(diǎn)可以看出,當(dāng)前OSS系統(tǒng)采用的冷備份容災(zāi)方式的效果受限于當(dāng)前容災(zāi)操作的數(shù)據(jù)維護(hù)方式和切換方式。而廠家也沒有任何解決辦法。為此,如何解決當(dāng)前OSS系統(tǒng)冷容災(zāi)方式的不足成為亟待解決的技術(shù)難題。
二、技術(shù)解決方案
1、備用服務(wù)器數(shù)據(jù)同步解決方案。
在備用服務(wù)器上開發(fā)數(shù)據(jù)準(zhǔn)實(shí)時(shí)同步工具,實(shí)現(xiàn)備用服務(wù)器主動(dòng)更新TSS、ARNE、HOME三大數(shù)據(jù)庫的數(shù)據(jù),保持與主用服務(wù)器一致。
(1)增設(shè)主備用服務(wù)器間數(shù)據(jù)同步的專用網(wǎng)絡(luò)。
OSS系統(tǒng)內(nèi)部原有3個(gè)獨(dú)立隔離的網(wǎng)絡(luò):業(yè)務(wù)網(wǎng)絡(luò)、管理網(wǎng)絡(luò)和備份網(wǎng)絡(luò),分別負(fù)責(zé)系統(tǒng)內(nèi)部的業(yè)務(wù)通信、系統(tǒng)管理和系統(tǒng)備份。為避免相互干擾,提供安全可靠的傳輸通道,增設(shè)一個(gè)專用的數(shù)據(jù)同步網(wǎng)絡(luò),使用C類IP地址,使用主備服務(wù)器上的備用網(wǎng)卡和冗余網(wǎng)口??紤]成本問題,采用在交換機(jī)上劃分VLAN的方式而非增加一臺(tái)交換機(jī)來實(shí)現(xiàn)。
(2)主用服務(wù)器自動(dòng)備份相關(guān)數(shù)據(jù)。
從效率、資源成本的角度從發(fā),選用Shell腳本與CRONTAB定時(shí)任務(wù)結(jié)合實(shí)現(xiàn)數(shù)據(jù)備份的功能。SHELL腳本實(shí)現(xiàn)的功能是檢測數(shù)據(jù)的變化和將相關(guān)數(shù)據(jù)備份到指定目錄。與現(xiàn)網(wǎng)關(guān)聯(lián)的數(shù)據(jù)主要是網(wǎng)元的連接數(shù)據(jù),存儲(chǔ)在ARNE數(shù)據(jù)庫里,與用戶操作權(quán)限相關(guān)的數(shù)據(jù)存儲(chǔ)在TSS數(shù)據(jù)庫里,其他還需要實(shí)時(shí)更新的數(shù)據(jù)也包括用戶自己的數(shù)據(jù),存儲(chǔ)在/ossrc/home/路徑下,還有一些定時(shí)任務(wù)CRONTAB的數(shù)據(jù)。這些數(shù)據(jù)是備機(jī)需要與主機(jī)同步的,因?yàn)樗麄冎苯佑绊慜SS的服務(wù)。Shell腳本的功能就是定期備份這些數(shù)據(jù)到指定目錄,對于數(shù)據(jù)量大的用戶數(shù)據(jù),采用增量備份方式,即只備份在上一次備份之后有變化的新數(shù)據(jù)。由于TSS是Sybase數(shù)據(jù)庫,和ARNE的Versant數(shù)據(jù)庫類型和架構(gòu)不一樣,而HOME下的數(shù)據(jù)采用增量備份方式,所以主用服務(wù)器上需要配置多個(gè)SHELL腳本,實(shí)現(xiàn)不同的功能:TSS數(shù)據(jù)庫備份腳本實(shí)現(xiàn)賬號權(quán)限全量數(shù)據(jù)備份;ARNE數(shù)據(jù)備份腳本實(shí)現(xiàn)網(wǎng)元配置數(shù)據(jù)全量備份;HOME文件變更檢測腳本通過對文件的名字、大小、變更時(shí)間的比對發(fā)現(xiàn)文件的變更信息,檢測出所有用戶的文件變更情況和用戶CRONTAB任務(wù)表變更情況;HOME數(shù)據(jù)備份腳本將檢測到的變更文件備份到指定目錄。
綜合考慮服務(wù)器性能、數(shù)據(jù)變更頻率、數(shù)據(jù)重要性和對用戶的影響程度,并錯(cuò)開網(wǎng)絡(luò)工程時(shí)間,在CRONTAB設(shè)置各個(gè)腳本的執(zhí)行頻率與時(shí)間:
在主用服務(wù)器上上配置了這些Shell腳本后,主用服務(wù)器便可自動(dòng)備份指定的數(shù)據(jù),并存儲(chǔ)到專用的特定目錄下。備份周期可根據(jù)實(shí)際情況調(diào)整。例如,用戶變更的數(shù)據(jù)量不大但對用戶的操作影響大,每天早上上班前備份一次,而網(wǎng)元連接數(shù)據(jù)、用戶權(quán)限等變化少但數(shù)據(jù)量大的,則每周備份一次。為了使備份數(shù)據(jù)的工作對OSS主服務(wù)器的負(fù)荷影響降到最低,可將備份時(shí)間設(shè)為OSS業(yè)務(wù)量少,網(wǎng)絡(luò)工程已結(jié)束但日常維護(hù)還未開始的早上。同時(shí),若系統(tǒng)管理員進(jìn)行了大量的數(shù)據(jù)修改,可在數(shù)據(jù)修改后手動(dòng)啟動(dòng)以上各個(gè)腳本備份好數(shù)據(jù)。
(3)備用服務(wù)器自動(dòng)獲取主用服務(wù)器上的備份數(shù)據(jù)并更新自身數(shù)據(jù)。
在備用服務(wù)器上布置定時(shí)Shell腳本,在主用服務(wù)器開始備份數(shù)據(jù)的30分鐘后,采用FTP技術(shù)通過專用數(shù)據(jù)同步網(wǎng)絡(luò)獲取主用服務(wù)器上備份好的數(shù)據(jù),然后導(dǎo)入到本機(jī)上相應(yīng)的數(shù)據(jù)庫和文件目錄下,進(jìn)行數(shù)據(jù)更新。
2、主備服務(wù)器一鍵切換解決方案。
將主備用服務(wù)器同時(shí)接入OSS系統(tǒng)的業(yè)務(wù)網(wǎng)絡(luò),劃分在同一個(gè)VLAN上面。平時(shí),交換機(jī)上備用服務(wù)器的業(yè)務(wù)端口處于down的狀態(tài),主用服務(wù)器的業(yè)務(wù)端口處于up狀態(tài),對外提供服務(wù)。當(dāng)啟動(dòng)一鍵切換功能,通過交換機(jī)上的管理網(wǎng)絡(luò),將OSS的主用服務(wù)器的業(yè)務(wù)端口狀態(tài)改為down狀態(tài),將備用服務(wù)器的業(yè)務(wù)端口狀態(tài)改為up,由備用服務(wù)器對外提供網(wǎng)管服務(wù)。
一鍵切換功能部署在管理主機(jī)上。該功能由系統(tǒng)管理員啟動(dòng),通過Shell腳本實(shí)現(xiàn)。Shell腳本登陸到交換機(jī)上利用管理網(wǎng)絡(luò)進(jìn)行操作,改變業(yè)務(wù)網(wǎng)絡(luò)的端口狀態(tài)實(shí)現(xiàn)主備用服務(wù)器間的切換。切換后,腳本將檢查備用服務(wù)器上的數(shù)據(jù)是否最新,若否則啟動(dòng)數(shù)據(jù)同步功能,更新備用服務(wù)器上的數(shù)據(jù),然后啟動(dòng)備用服務(wù)器上的ldap-client和cron的守護(hù)進(jìn)程,最后重啟所有UAS 接口機(jī)。
三、總結(jié)
實(shí)踐證明本文提出的方案有效解決了冷備容災(zāi)方式數(shù)據(jù)不同步的問題,實(shí)現(xiàn)了硬切換到軟切換的轉(zhuǎn)變,達(dá)到了快速切換的目標(biāo)。該解決方案適合于有數(shù)據(jù)同步需求或需要在服務(wù)器間進(jìn)行切換的系統(tǒng)引入,尤其適合于想將冷備份容災(zāi)方式轉(zhuǎn)化成“準(zhǔn)熱備份”容災(zāi)方式的系統(tǒng)。
【摘要】 愛立信OSS系統(tǒng)當(dāng)前一般采用冷備份的容災(zāi)方式,主備用服務(wù)器上無數(shù)據(jù)同步功能,應(yīng)急操作依賴于管理員手工切換,容災(zāi)效果大打折扣。作為移動(dòng)通信網(wǎng)中專用的設(shè)備操作管理系統(tǒng),OSS系統(tǒng)的可用性至關(guān)重要,直接影響了對網(wǎng)絡(luò)的操作維護(hù)。因此,本論文提出一種有效的解決方案,實(shí)現(xiàn)冷備份系統(tǒng)“準(zhǔn)熱備份”的容災(zāi)效果。該解決方案也可用于其它冷備份系統(tǒng),提升容災(zāi)效果。
【關(guān)鍵詞】 冷備份 數(shù)據(jù)同步 一鍵切換 軟切換
一、背景情況
OSS系統(tǒng)是移動(dòng)通信網(wǎng)中專用的愛立信設(shè)備操作管理系統(tǒng),提供集中式的無線網(wǎng)絡(luò)和核心網(wǎng)絡(luò)的操作維護(hù)功能,主要提供故障管理、配置管理、性能管理、鑒權(quán)管理四大功能,包含OSS主服務(wù)器、備用服務(wù)器、COMINF服務(wù)器、UAS接口機(jī)、OMBS服務(wù)器、ENIQ服務(wù)器、交換機(jī)等設(shè)備,這些設(shè)備各施其能、各管其職,協(xié)同工作,為用戶提供愛立信網(wǎng)元的網(wǎng)管服務(wù)。OSS系統(tǒng)采用冷備份的容災(zāi)方式,當(dāng)該服務(wù)器的軟件或硬件出現(xiàn)故障的時(shí)候,需要切換到備用服務(wù)器上,由系統(tǒng)管理員前往機(jī)房操作,同時(shí)需要重啟備用服務(wù)器上的進(jìn)程,更新備用服務(wù)器上的數(shù)據(jù)。當(dāng)前OSS的容災(zāi)方式和應(yīng)急操作手段的不足,直接影響了OSS的冷備份容災(zāi)效果。
1、主備機(jī)間無數(shù)據(jù)同步機(jī)制,數(shù)據(jù)不同步直接影響了切換后OSS用戶的某些維護(hù)操作。OSS系統(tǒng)上精確地配置了每個(gè)用戶的權(quán)限,存儲(chǔ)了每一個(gè)網(wǎng)絡(luò)設(shè)備的配置信息,包括IP地址、帳號權(quán)限、網(wǎng)絡(luò)配置等,以及用戶自己的文件。如果主備機(jī)切換前用戶的權(quán)限、網(wǎng)元的配置或者網(wǎng)絡(luò)參數(shù)修發(fā)生了變化,而備機(jī)沒有及時(shí)更新,切換后用戶就會(huì)因權(quán)限問題無法進(jìn)行某些操作,網(wǎng)元出現(xiàn)斷連、參數(shù)不對無法進(jìn)行網(wǎng)絡(luò)優(yōu)化等問題。雖然切換到了備用服務(wù)器,但對于用戶來說,OSS的網(wǎng)管服務(wù)還是不可用的。
2、人工切換耗時(shí)長,需要OSS系統(tǒng)管理員前往機(jī)房進(jìn)行操作,容災(zāi)效果不明顯。若故障發(fā)生在非工作時(shí)間,OSS系統(tǒng)管理員趕到機(jī)房所耗費(fèi)的時(shí)間,可能比起系統(tǒng)管理員直接修復(fù)主機(jī)故障所用的時(shí)間還長,備機(jī)的冷備份容災(zāi)方式便形同虛設(shè)。
從上面的兩點(diǎn)可以看出,當(dāng)前OSS系統(tǒng)采用的冷備份容災(zāi)方式的效果受限于當(dāng)前容災(zāi)操作的數(shù)據(jù)維護(hù)方式和切換方式。而廠家也沒有任何解決辦法。為此,如何解決當(dāng)前OSS系統(tǒng)冷容災(zāi)方式的不足成為亟待解決的技術(shù)難題。
二、技術(shù)解決方案
1、備用服務(wù)器數(shù)據(jù)同步解決方案。
在備用服務(wù)器上開發(fā)數(shù)據(jù)準(zhǔn)實(shí)時(shí)同步工具,實(shí)現(xiàn)備用服務(wù)器主動(dòng)更新TSS、ARNE、HOME三大數(shù)據(jù)庫的數(shù)據(jù),保持與主用服務(wù)器一致。
(1)增設(shè)主備用服務(wù)器間數(shù)據(jù)同步的專用網(wǎng)絡(luò)。
OSS系統(tǒng)內(nèi)部原有3個(gè)獨(dú)立隔離的網(wǎng)絡(luò):業(yè)務(wù)網(wǎng)絡(luò)、管理網(wǎng)絡(luò)和備份網(wǎng)絡(luò),分別負(fù)責(zé)系統(tǒng)內(nèi)部的業(yè)務(wù)通信、系統(tǒng)管理和系統(tǒng)備份。為避免相互干擾,提供安全可靠的傳輸通道,增設(shè)一個(gè)專用的數(shù)據(jù)同步網(wǎng)絡(luò),使用C類IP地址,使用主備服務(wù)器上的備用網(wǎng)卡和冗余網(wǎng)口??紤]成本問題,采用在交換機(jī)上劃分VLAN的方式而非增加一臺(tái)交換機(jī)來實(shí)現(xiàn)。
(2)主用服務(wù)器自動(dòng)備份相關(guān)數(shù)據(jù)。
從效率、資源成本的角度從發(fā),選用Shell腳本與CRONTAB定時(shí)任務(wù)結(jié)合實(shí)現(xiàn)數(shù)據(jù)備份的功能。SHELL腳本實(shí)現(xiàn)的功能是檢測數(shù)據(jù)的變化和將相關(guān)數(shù)據(jù)備份到指定目錄。與現(xiàn)網(wǎng)關(guān)聯(lián)的數(shù)據(jù)主要是網(wǎng)元的連接數(shù)據(jù),存儲(chǔ)在ARNE數(shù)據(jù)庫里,與用戶操作權(quán)限相關(guān)的數(shù)據(jù)存儲(chǔ)在TSS數(shù)據(jù)庫里,其他還需要實(shí)時(shí)更新的數(shù)據(jù)也包括用戶自己的數(shù)據(jù),存儲(chǔ)在/ossrc/home/路徑下,還有一些定時(shí)任務(wù)CRONTAB的數(shù)據(jù)。這些數(shù)據(jù)是備機(jī)需要與主機(jī)同步的,因?yàn)樗麄冎苯佑绊慜SS的服務(wù)。Shell腳本的功能就是定期備份這些數(shù)據(jù)到指定目錄,對于數(shù)據(jù)量大的用戶數(shù)據(jù),采用增量備份方式,即只備份在上一次備份之后有變化的新數(shù)據(jù)。由于TSS是Sybase數(shù)據(jù)庫,和ARNE的Versant數(shù)據(jù)庫類型和架構(gòu)不一樣,而HOME下的數(shù)據(jù)采用增量備份方式,所以主用服務(wù)器上需要配置多個(gè)SHELL腳本,實(shí)現(xiàn)不同的功能:TSS數(shù)據(jù)庫備份腳本實(shí)現(xiàn)賬號權(quán)限全量數(shù)據(jù)備份;ARNE數(shù)據(jù)備份腳本實(shí)現(xiàn)網(wǎng)元配置數(shù)據(jù)全量備份;HOME文件變更檢測腳本通過對文件的名字、大小、變更時(shí)間的比對發(fā)現(xiàn)文件的變更信息,檢測出所有用戶的文件變更情況和用戶CRONTAB任務(wù)表變更情況;HOME數(shù)據(jù)備份腳本將檢測到的變更文件備份到指定目錄。
綜合考慮服務(wù)器性能、數(shù)據(jù)變更頻率、數(shù)據(jù)重要性和對用戶的影響程度,并錯(cuò)開網(wǎng)絡(luò)工程時(shí)間,在CRONTAB設(shè)置各個(gè)腳本的執(zhí)行頻率與時(shí)間:
在主用服務(wù)器上上配置了這些Shell腳本后,主用服務(wù)器便可自動(dòng)備份指定的數(shù)據(jù),并存儲(chǔ)到專用的特定目錄下。備份周期可根據(jù)實(shí)際情況調(diào)整。例如,用戶變更的數(shù)據(jù)量不大但對用戶的操作影響大,每天早上上班前備份一次,而網(wǎng)元連接數(shù)據(jù)、用戶權(quán)限等變化少但數(shù)據(jù)量大的,則每周備份一次。為了使備份數(shù)據(jù)的工作對OSS主服務(wù)器的負(fù)荷影響降到最低,可將備份時(shí)間設(shè)為OSS業(yè)務(wù)量少,網(wǎng)絡(luò)工程已結(jié)束但日常維護(hù)還未開始的早上。同時(shí),若系統(tǒng)管理員進(jìn)行了大量的數(shù)據(jù)修改,可在數(shù)據(jù)修改后手動(dòng)啟動(dòng)以上各個(gè)腳本備份好數(shù)據(jù)。
(3)備用服務(wù)器自動(dòng)獲取主用服務(wù)器上的備份數(shù)據(jù)并更新自身數(shù)據(jù)。
在備用服務(wù)器上布置定時(shí)Shell腳本,在主用服務(wù)器開始備份數(shù)據(jù)的30分鐘后,采用FTP技術(shù)通過專用數(shù)據(jù)同步網(wǎng)絡(luò)獲取主用服務(wù)器上備份好的數(shù)據(jù),然后導(dǎo)入到本機(jī)上相應(yīng)的數(shù)據(jù)庫和文件目錄下,進(jìn)行數(shù)據(jù)更新。
2、主備服務(wù)器一鍵切換解決方案。
將主備用服務(wù)器同時(shí)接入OSS系統(tǒng)的業(yè)務(wù)網(wǎng)絡(luò),劃分在同一個(gè)VLAN上面。平時(shí),交換機(jī)上備用服務(wù)器的業(yè)務(wù)端口處于down的狀態(tài),主用服務(wù)器的業(yè)務(wù)端口處于up狀態(tài),對外提供服務(wù)。當(dāng)啟動(dòng)一鍵切換功能,通過交換機(jī)上的管理網(wǎng)絡(luò),將OSS的主用服務(wù)器的業(yè)務(wù)端口狀態(tài)改為down狀態(tài),將備用服務(wù)器的業(yè)務(wù)端口狀態(tài)改為up,由備用服務(wù)器對外提供網(wǎng)管服務(wù)。
一鍵切換功能部署在管理主機(jī)上。該功能由系統(tǒng)管理員啟動(dòng),通過Shell腳本實(shí)現(xiàn)。Shell腳本登陸到交換機(jī)上利用管理網(wǎng)絡(luò)進(jìn)行操作,改變業(yè)務(wù)網(wǎng)絡(luò)的端口狀態(tài)實(shí)現(xiàn)主備用服務(wù)器間的切換。切換后,腳本將檢查備用服務(wù)器上的數(shù)據(jù)是否最新,若否則啟動(dòng)數(shù)據(jù)同步功能,更新備用服務(wù)器上的數(shù)據(jù),然后啟動(dòng)備用服務(wù)器上的ldap-client和cron的守護(hù)進(jìn)程,最后重啟所有UAS 接口機(jī)。
三、總結(jié)
實(shí)踐證明本文提出的方案有效解決了冷備容災(zāi)方式數(shù)據(jù)不同步的問題,實(shí)現(xiàn)了硬切換到軟切換的轉(zhuǎn)變,達(dá)到了快速切換的目標(biāo)。該解決方案適合于有數(shù)據(jù)同步需求或需要在服務(wù)器間進(jìn)行切換的系統(tǒng)引入,尤其適合于想將冷備份容災(zāi)方式轉(zhuǎn)化成“準(zhǔn)熱備份”容災(zāi)方式的系統(tǒng)。
【摘要】 愛立信OSS系統(tǒng)當(dāng)前一般采用冷備份的容災(zāi)方式,主備用服務(wù)器上無數(shù)據(jù)同步功能,應(yīng)急操作依賴于管理員手工切換,容災(zāi)效果大打折扣。作為移動(dòng)通信網(wǎng)中專用的設(shè)備操作管理系統(tǒng),OSS系統(tǒng)的可用性至關(guān)重要,直接影響了對網(wǎng)絡(luò)的操作維護(hù)。因此,本論文提出一種有效的解決方案,實(shí)現(xiàn)冷備份系統(tǒng)“準(zhǔn)熱備份”的容災(zāi)效果。該解決方案也可用于其它冷備份系統(tǒng),提升容災(zāi)效果。
【關(guān)鍵詞】 冷備份 數(shù)據(jù)同步 一鍵切換 軟切換
一、背景情況
OSS系統(tǒng)是移動(dòng)通信網(wǎng)中專用的愛立信設(shè)備操作管理系統(tǒng),提供集中式的無線網(wǎng)絡(luò)和核心網(wǎng)絡(luò)的操作維護(hù)功能,主要提供故障管理、配置管理、性能管理、鑒權(quán)管理四大功能,包含OSS主服務(wù)器、備用服務(wù)器、COMINF服務(wù)器、UAS接口機(jī)、OMBS服務(wù)器、ENIQ服務(wù)器、交換機(jī)等設(shè)備,這些設(shè)備各施其能、各管其職,協(xié)同工作,為用戶提供愛立信網(wǎng)元的網(wǎng)管服務(wù)。OSS系統(tǒng)采用冷備份的容災(zāi)方式,當(dāng)該服務(wù)器的軟件或硬件出現(xiàn)故障的時(shí)候,需要切換到備用服務(wù)器上,由系統(tǒng)管理員前往機(jī)房操作,同時(shí)需要重啟備用服務(wù)器上的進(jìn)程,更新備用服務(wù)器上的數(shù)據(jù)。當(dāng)前OSS的容災(zāi)方式和應(yīng)急操作手段的不足,直接影響了OSS的冷備份容災(zāi)效果。
1、主備機(jī)間無數(shù)據(jù)同步機(jī)制,數(shù)據(jù)不同步直接影響了切換后OSS用戶的某些維護(hù)操作。OSS系統(tǒng)上精確地配置了每個(gè)用戶的權(quán)限,存儲(chǔ)了每一個(gè)網(wǎng)絡(luò)設(shè)備的配置信息,包括IP地址、帳號權(quán)限、網(wǎng)絡(luò)配置等,以及用戶自己的文件。如果主備機(jī)切換前用戶的權(quán)限、網(wǎng)元的配置或者網(wǎng)絡(luò)參數(shù)修發(fā)生了變化,而備機(jī)沒有及時(shí)更新,切換后用戶就會(huì)因權(quán)限問題無法進(jìn)行某些操作,網(wǎng)元出現(xiàn)斷連、參數(shù)不對無法進(jìn)行網(wǎng)絡(luò)優(yōu)化等問題。雖然切換到了備用服務(wù)器,但對于用戶來說,OSS的網(wǎng)管服務(wù)還是不可用的。
2、人工切換耗時(shí)長,需要OSS系統(tǒng)管理員前往機(jī)房進(jìn)行操作,容災(zāi)效果不明顯。若故障發(fā)生在非工作時(shí)間,OSS系統(tǒng)管理員趕到機(jī)房所耗費(fèi)的時(shí)間,可能比起系統(tǒng)管理員直接修復(fù)主機(jī)故障所用的時(shí)間還長,備機(jī)的冷備份容災(zāi)方式便形同虛設(shè)。
從上面的兩點(diǎn)可以看出,當(dāng)前OSS系統(tǒng)采用的冷備份容災(zāi)方式的效果受限于當(dāng)前容災(zāi)操作的數(shù)據(jù)維護(hù)方式和切換方式。而廠家也沒有任何解決辦法。為此,如何解決當(dāng)前OSS系統(tǒng)冷容災(zāi)方式的不足成為亟待解決的技術(shù)難題。
二、技術(shù)解決方案
1、備用服務(wù)器數(shù)據(jù)同步解決方案。
在備用服務(wù)器上開發(fā)數(shù)據(jù)準(zhǔn)實(shí)時(shí)同步工具,實(shí)現(xiàn)備用服務(wù)器主動(dòng)更新TSS、ARNE、HOME三大數(shù)據(jù)庫的數(shù)據(jù),保持與主用服務(wù)器一致。
(1)增設(shè)主備用服務(wù)器間數(shù)據(jù)同步的專用網(wǎng)絡(luò)。
OSS系統(tǒng)內(nèi)部原有3個(gè)獨(dú)立隔離的網(wǎng)絡(luò):業(yè)務(wù)網(wǎng)絡(luò)、管理網(wǎng)絡(luò)和備份網(wǎng)絡(luò),分別負(fù)責(zé)系統(tǒng)內(nèi)部的業(yè)務(wù)通信、系統(tǒng)管理和系統(tǒng)備份。為避免相互干擾,提供安全可靠的傳輸通道,增設(shè)一個(gè)專用的數(shù)據(jù)同步網(wǎng)絡(luò),使用C類IP地址,使用主備服務(wù)器上的備用網(wǎng)卡和冗余網(wǎng)口??紤]成本問題,采用在交換機(jī)上劃分VLAN的方式而非增加一臺(tái)交換機(jī)來實(shí)現(xiàn)。
(2)主用服務(wù)器自動(dòng)備份相關(guān)數(shù)據(jù)。
從效率、資源成本的角度從發(fā),選用Shell腳本與CRONTAB定時(shí)任務(wù)結(jié)合實(shí)現(xiàn)數(shù)據(jù)備份的功能。SHELL腳本實(shí)現(xiàn)的功能是檢測數(shù)據(jù)的變化和將相關(guān)數(shù)據(jù)備份到指定目錄。與現(xiàn)網(wǎng)關(guān)聯(lián)的數(shù)據(jù)主要是網(wǎng)元的連接數(shù)據(jù),存儲(chǔ)在ARNE數(shù)據(jù)庫里,與用戶操作權(quán)限相關(guān)的數(shù)據(jù)存儲(chǔ)在TSS數(shù)據(jù)庫里,其他還需要實(shí)時(shí)更新的數(shù)據(jù)也包括用戶自己的數(shù)據(jù),存儲(chǔ)在/ossrc/home/路徑下,還有一些定時(shí)任務(wù)CRONTAB的數(shù)據(jù)。這些數(shù)據(jù)是備機(jī)需要與主機(jī)同步的,因?yàn)樗麄冎苯佑绊慜SS的服務(wù)。Shell腳本的功能就是定期備份這些數(shù)據(jù)到指定目錄,對于數(shù)據(jù)量大的用戶數(shù)據(jù),采用增量備份方式,即只備份在上一次備份之后有變化的新數(shù)據(jù)。由于TSS是Sybase數(shù)據(jù)庫,和ARNE的Versant數(shù)據(jù)庫類型和架構(gòu)不一樣,而HOME下的數(shù)據(jù)采用增量備份方式,所以主用服務(wù)器上需要配置多個(gè)SHELL腳本,實(shí)現(xiàn)不同的功能:TSS數(shù)據(jù)庫備份腳本實(shí)現(xiàn)賬號權(quán)限全量數(shù)據(jù)備份;ARNE數(shù)據(jù)備份腳本實(shí)現(xiàn)網(wǎng)元配置數(shù)據(jù)全量備份;HOME文件變更檢測腳本通過對文件的名字、大小、變更時(shí)間的比對發(fā)現(xiàn)文件的變更信息,檢測出所有用戶的文件變更情況和用戶CRONTAB任務(wù)表變更情況;HOME數(shù)據(jù)備份腳本將檢測到的變更文件備份到指定目錄。
綜合考慮服務(wù)器性能、數(shù)據(jù)變更頻率、數(shù)據(jù)重要性和對用戶的影響程度,并錯(cuò)開網(wǎng)絡(luò)工程時(shí)間,在CRONTAB設(shè)置各個(gè)腳本的執(zhí)行頻率與時(shí)間:
在主用服務(wù)器上上配置了這些Shell腳本后,主用服務(wù)器便可自動(dòng)備份指定的數(shù)據(jù),并存儲(chǔ)到專用的特定目錄下。備份周期可根據(jù)實(shí)際情況調(diào)整。例如,用戶變更的數(shù)據(jù)量不大但對用戶的操作影響大,每天早上上班前備份一次,而網(wǎng)元連接數(shù)據(jù)、用戶權(quán)限等變化少但數(shù)據(jù)量大的,則每周備份一次。為了使備份數(shù)據(jù)的工作對OSS主服務(wù)器的負(fù)荷影響降到最低,可將備份時(shí)間設(shè)為OSS業(yè)務(wù)量少,網(wǎng)絡(luò)工程已結(jié)束但日常維護(hù)還未開始的早上。同時(shí),若系統(tǒng)管理員進(jìn)行了大量的數(shù)據(jù)修改,可在數(shù)據(jù)修改后手動(dòng)啟動(dòng)以上各個(gè)腳本備份好數(shù)據(jù)。
(3)備用服務(wù)器自動(dòng)獲取主用服務(wù)器上的備份數(shù)據(jù)并更新自身數(shù)據(jù)。
在備用服務(wù)器上布置定時(shí)Shell腳本,在主用服務(wù)器開始備份數(shù)據(jù)的30分鐘后,采用FTP技術(shù)通過專用數(shù)據(jù)同步網(wǎng)絡(luò)獲取主用服務(wù)器上備份好的數(shù)據(jù),然后導(dǎo)入到本機(jī)上相應(yīng)的數(shù)據(jù)庫和文件目錄下,進(jìn)行數(shù)據(jù)更新。
2、主備服務(wù)器一鍵切換解決方案。
將主備用服務(wù)器同時(shí)接入OSS系統(tǒng)的業(yè)務(wù)網(wǎng)絡(luò),劃分在同一個(gè)VLAN上面。平時(shí),交換機(jī)上備用服務(wù)器的業(yè)務(wù)端口處于down的狀態(tài),主用服務(wù)器的業(yè)務(wù)端口處于up狀態(tài),對外提供服務(wù)。當(dāng)啟動(dòng)一鍵切換功能,通過交換機(jī)上的管理網(wǎng)絡(luò),將OSS的主用服務(wù)器的業(yè)務(wù)端口狀態(tài)改為down狀態(tài),將備用服務(wù)器的業(yè)務(wù)端口狀態(tài)改為up,由備用服務(wù)器對外提供網(wǎng)管服務(wù)。
一鍵切換功能部署在管理主機(jī)上。該功能由系統(tǒng)管理員啟動(dòng),通過Shell腳本實(shí)現(xiàn)。Shell腳本登陸到交換機(jī)上利用管理網(wǎng)絡(luò)進(jìn)行操作,改變業(yè)務(wù)網(wǎng)絡(luò)的端口狀態(tài)實(shí)現(xiàn)主備用服務(wù)器間的切換。切換后,腳本將檢查備用服務(wù)器上的數(shù)據(jù)是否最新,若否則啟動(dòng)數(shù)據(jù)同步功能,更新備用服務(wù)器上的數(shù)據(jù),然后啟動(dòng)備用服務(wù)器上的ldap-client和cron的守護(hù)進(jìn)程,最后重啟所有UAS 接口機(jī)。
三、總結(jié)
實(shí)踐證明本文提出的方案有效解決了冷備容災(zāi)方式數(shù)據(jù)不同步的問題,實(shí)現(xiàn)了硬切換到軟切換的轉(zhuǎn)變,達(dá)到了快速切換的目標(biāo)。該解決方案適合于有數(shù)據(jù)同步需求或需要在服務(wù)器間進(jìn)行切換的系統(tǒng)引入,尤其適合于想將冷備份容災(zāi)方式轉(zhuǎn)化成“準(zhǔn)熱備份”容災(zāi)方式的系統(tǒng)。