周 谞,王 娟,魯婉婕,金 宇,李升男(百度在線網(wǎng)絡(luò)技術(shù)有限公司,北京 100089)
新型的云計算將多個物理分離的數(shù)據(jù)中心看成一個整體的云數(shù)據(jù)中心,所有計算節(jié)點虛擬成一個大型的計算資源池,云計算不僅可以跨服務(wù)器運行,也可以跨數(shù)據(jù)中心運行,而光傳輸網(wǎng)絡(luò)是實現(xiàn)數(shù)據(jù)中心高質(zhì)量互聯(lián)的重要技術(shù)。
數(shù)據(jù)中心光互聯(lián)網(wǎng)絡(luò)從2010年左右逐步興起,從最初的10G DWDM 80 波(50 GHz/grid)系統(tǒng)發(fā)展到當前的800G DWDM 40波系統(tǒng)(150 GHz/grid),單波速率經(jīng)歷10G 到800G 的升級,系統(tǒng)容量從800G 快速提升到32T,增長到原來的40 倍。伴隨著速率和容量的快速增長,針對數(shù)據(jù)中心的應(yīng)用場景,數(shù)據(jù)中心互聯(lián)光傳輸系統(tǒng)在網(wǎng)絡(luò)架構(gòu)、系統(tǒng)設(shè)計[1-3]、設(shè)備硬件形態(tài)、軟件接口定義[4-6]、系統(tǒng)保護、網(wǎng)絡(luò)管理和自動化運維方面都有著持續(xù)的發(fā)展和創(chuàng)新。
云計算是由一個區(qū)域(Region)內(nèi)多個不同的可用區(qū)(availability zone,AZ)共同提供服務(wù),每個AZ 的物理位置不同。為了容災備份的需求,不同的AZ之間的距離需要足夠遠,從而降低多個AZ同時受到地區(qū)停電或極端天氣(如洪水等)影響的可能性。每個AZ 都具有獨立的電源、制冷設(shè)備和網(wǎng)絡(luò)基礎(chǔ)架構(gòu),從而保證在一個AZ 數(shù)據(jù)中心出現(xiàn)故障時,其余的AZ 仍然可以支持該區(qū)域的云計算服務(wù)正常的工作,提供區(qū)域云服務(wù)的高可用性。
對于同一個區(qū)域,云計算需要支撐計算、存儲和數(shù)據(jù)資源的高性能互訪,因此同一個區(qū)域內(nèi)的不同AZ需要通過高性能網(wǎng)絡(luò)連接,往返延遲需要小于2 ms,對應(yīng)光纖傳輸距離約為200 km。預留20%的時延冗余用于交換機轉(zhuǎn)發(fā)和業(yè)務(wù)處理時延,一般最長傳輸距離控制在160 km 以內(nèi)。綜合考慮災備需求和網(wǎng)絡(luò)延遲的互訪體驗,典型的光纖傳輸距離為80 km,對應(yīng)單跨段的光傳輸系統(tǒng)。
云網(wǎng)絡(luò)在一個區(qū)域內(nèi),一般由3~4 個AZ 組成,每個AZ 之間采用點到點直連,相互之間形成Mesh 全連接結(jié)構(gòu),這樣可以保證在不同AZ 之間的訪問延遲最低。如果區(qū)域內(nèi)的AZ 數(shù)量比較多,在傳輸時延不超過2 ms 的前提下,2個AZ的互聯(lián)也可以通過第3個AZ進行中轉(zhuǎn)。
在傳統(tǒng)的電信傳輸網(wǎng)絡(luò)中,光傳輸網(wǎng)絡(luò)需要覆蓋從骨干網(wǎng)、城域網(wǎng)到接入網(wǎng)的全場景,網(wǎng)絡(luò)結(jié)構(gòu)包括骨干的點到點結(jié)構(gòu)、城域的環(huán)形結(jié)構(gòu)和接入網(wǎng)的星形結(jié)構(gòu)。針對電信網(wǎng)絡(luò),光傳輸系統(tǒng)的光層和電層需要進行聯(lián)合系統(tǒng)設(shè)計,追求端到端的最佳系統(tǒng)性能,因此更加注重光層性能的聯(lián)合調(diào)優(yōu),包括光放大器、合分波、波長選擇開關(guān)等,這導致光傳輸系統(tǒng)一般采用封閉系統(tǒng)設(shè)計。如圖1(a)所示,即光層和電層采用同一廠商,這同時也利于實際工程的快速建設(shè)和業(yè)務(wù)部署。此外,在電信網(wǎng)絡(luò)中OTN 設(shè)備需要支持多種上層業(yè)務(wù)或協(xié)議,如SDH、ATM、以太網(wǎng)等,業(yè)務(wù)粒度從1 Mbit/s 到100 Gbit/s,同時需要支撐從小粒度的多元化業(yè)務(wù)到大粒度的光通道傳輸單元(optical channel transport unit,OTU)的映射,這導致傳輸電層板卡的類型和結(jié)構(gòu)更加復雜。
圖1 開放光傳輸系統(tǒng)結(jié)構(gòu)示意
如1.1 節(jié)中所述,數(shù)據(jù)中心互聯(lián)的光網(wǎng)絡(luò)一般以點到點的光傳輸系統(tǒng)為主,傳輸場景限定在160 km 以內(nèi),對于大容量相干光通信系統(tǒng)來說,系統(tǒng)有充足的光信噪比余量。由于數(shù)據(jù)中心光互聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)簡單,可以獨立地設(shè)計高性能的開放光層設(shè)備,即可保證不同的電層設(shè)備能夠平滑地接入到系統(tǒng)中,不同廠商的電層信號可以在同一套系統(tǒng)的不同波道進行并行和高質(zhì)量傳輸,如圖1(b)所示。在業(yè)務(wù)承載方面,數(shù)據(jù)中心光互聯(lián)主要承載的業(yè)務(wù)類型為單一的以太網(wǎng)業(yè)務(wù),因此,電層傳輸設(shè)備的結(jié)構(gòu)也更簡單,在2.1 節(jié)設(shè)備硬件設(shè)計中會重點介紹。
如圖2 所示,由于數(shù)據(jù)中心互聯(lián)光傳輸系統(tǒng)的結(jié)構(gòu)和業(yè)務(wù)簡單,除了傳統(tǒng)的OTN 傳輸設(shè)備,還可以采用IP over WDM 的方案承載業(yè)務(wù)。傳統(tǒng)的OTN 傳輸設(shè)備互聯(lián)具有業(yè)務(wù)接入速率靈活的特點,可以很好地解決傳輸系統(tǒng)單波長速率和IP 設(shè)備(交換機、路由器等)接口速率不匹配的問題。例如,當前數(shù)據(jù)中心互聯(lián)光傳輸系統(tǒng)典型的單波速率為400 Gbit/s,下一代單波長速率800 Gbit/s的設(shè)備即將大規(guī)模商用,而數(shù)據(jù)中心互聯(lián)的存量IP 網(wǎng)絡(luò)設(shè)備接口大部分還在100GE,400GE 接口的占比較小,因此,采用OTN 電層板卡可以很好地完成從低速率的以太網(wǎng)業(yè)務(wù)到高速率的OTN 業(yè)務(wù)的匯聚和轉(zhuǎn)換。同時,由于OTN 設(shè)備形態(tài)對電層板卡功耗、體積、散熱等方面要求較為寬松,OTN 傳輸設(shè)備的系統(tǒng)性能一般可以覆蓋DCI 全場景的應(yīng)用。
圖2 IP over WDM 互聯(lián)方案示意
針對數(shù)據(jù)中心互聯(lián)80 km 的場景,光互聯(lián)網(wǎng)絡(luò)論壇(optical Internetworking forum,OIF)還推出了基于100G ZR/400G ZR 標準的IP over WDM 方案[7],該方案利用硅光等光子集成技術(shù)的發(fā)展,可以實現(xiàn)低功耗、小體積的相干彩光光模塊封裝接口QSFP-DD 或OSFP,該封裝功耗和體積都可以直接兼容交換機接口,典型功耗低于20 W。100G ZR/400G ZR 光模塊可以直接插入交換機端口,接入開放光層設(shè)備,從而實現(xiàn)IP over WDM 的業(yè)務(wù)承載。但是對功耗的嚴格要求,限制了光模塊的傳輸性能,因此該方案一般適用于單跨段、低損耗的點到點傳輸系統(tǒng)。例如,微軟在2023 年OFC 上報道其400G ZR 的主要應(yīng)用場景在40 km以內(nèi),跨段光纖衰減<12 dB[8]。
數(shù)據(jù)中心開放光傳輸系統(tǒng)的創(chuàng)新包括硬件創(chuàng)新、標準的軟件接口和統(tǒng)一的網(wǎng)絡(luò)控制器等,其中硬件創(chuàng)新分為光層設(shè)計和電層設(shè)計2個方面。
光層設(shè)備的定義是指負責在光域內(nèi)進行信號處理的設(shè)備,例如完成光信號合分波、光功率放大、光保護、光監(jiān)控等功能。傳統(tǒng)的框式電信設(shè)備,由于追求場景覆蓋的多樣性,一般以器件類型和參數(shù)為中心進行設(shè)計和開發(fā)光層板卡。典型的光層板卡如光放大板卡,根據(jù)光放大器的類型開發(fā)設(shè)計摻鉺光纖放大器(EDFA)和拉曼放大器的光放板卡,又根據(jù)光放增益的范圍設(shè)計不同型號的EDFA 放大板卡。根據(jù)不同應(yīng)用場景的實際特點,使用不同的板卡組合從而達到最優(yōu)的效果,導致板卡的種類和型號較多。
開放光傳輸系統(tǒng)多采用高集成的方案,如圖3 所示,一套點到點的開放光傳輸系統(tǒng),只有光保護板卡、合分波板卡和光放大板卡3種類型器件組成。光放板卡集成了可變增益(switched gain)的EDFA 模塊(覆蓋不同的增益范圍)、光監(jiān)控通道(OSC)模塊和光頻譜監(jiān)控模塊等。高集成化的設(shè)計,最大程度地減少光層板卡的類型,減少了系統(tǒng)內(nèi)部連纖工作,從而提高工程人員施工便利性,同時也降低運維人員的學習門檻。
圖3 開放光傳輸設(shè)備硬件設(shè)計
電層設(shè)備主要負責在電域內(nèi)進行信號處理,主要將各種客戶側(cè)的業(yè)務(wù)信號轉(zhuǎn)換成線路側(cè)的標準OTN幀格式信號,從而在光纖中進行傳輸。同時,在接收端完成OTN 信號的接收,轉(zhuǎn)換為各種業(yè)務(wù)信號。傳統(tǒng)框式設(shè)備需要承載多類型、多速率的業(yè)務(wù),在傳輸線路側(cè)和業(yè)務(wù)客戶側(cè)往往需要一個電交叉板卡,完成業(yè)務(wù)的匯聚和交換等操作。
在數(shù)據(jù)中心互聯(lián)中,盒式電層設(shè)備只需要完成簡單的高速率線路側(cè)到低速率客戶側(cè)的映射,承載業(yè)務(wù)為單一的以太網(wǎng)業(yè)務(wù),業(yè)務(wù)映射簡單,這導致盒式設(shè)備的電層板卡可以去除電交叉單元。如圖3 所示,只需要將OTN 的高速率信號映射為多個低速以太網(wǎng)信號即可,由于結(jié)構(gòu)簡單,線路側(cè)和支路側(cè)常常可以在一塊板卡上實現(xiàn),被稱為支線合一板卡。由于板卡結(jié)構(gòu)和業(yè)務(wù)承載簡單,盒式電層板卡的成本更具有優(yōu)勢,從而被廣泛使用。
在傳統(tǒng)的電信傳輸網(wǎng)絡(luò)中,設(shè)備軟件對用戶來說是一個黑盒,用戶只能通過網(wǎng)管界面和有限功能的網(wǎng)管北向接口和設(shè)備進行交互,以實現(xiàn)對光傳輸系統(tǒng)的配置、管理和維護。不同廠商設(shè)備接口協(xié)議的私有屬性和多樣化,增加了光傳輸系統(tǒng)的運維復雜度和成本,也使得網(wǎng)絡(luò)運維自動化的開發(fā)受限于廠商的研發(fā)投入和時間進度,不利于光傳輸系統(tǒng)的智能化發(fā)展。
針對上述傳統(tǒng)設(shè)備軟件存在的問題,由互聯(lián)網(wǎng)及云服務(wù)提供商為主推動的開源項目OpenConfig定義實現(xiàn)了一套通用的、供應(yīng)商中立的設(shè)備軟件接口模型。該方案使用數(shù)據(jù)建模語言YANG為設(shè)備的配置數(shù)據(jù)和狀態(tài)數(shù)據(jù)提供了一致的結(jié)構(gòu)語義,結(jié)合以數(shù)據(jù)模型為驅(qū)動的網(wǎng)絡(luò)設(shè)備管控協(xié)議如NETCONF、RESTCONF、gNMI 等,屏蔽不同廠商硬件的差異,給網(wǎng)絡(luò)設(shè)備的管控提供標準化和一致的接口。除了同時涵蓋了IP 網(wǎng)絡(luò)設(shè)備與光網(wǎng)絡(luò)設(shè)備的OpenConifg 項目,同樣基于YANG 語言實現(xiàn)的、由北美運營商為主推動并開源的項目OpenROADM 定義的另一套標準化接口與數(shù)據(jù)模型則主要致力于推動網(wǎng)絡(luò)設(shè)備、支持可重構(gòu)光分插復用器(ROADM)設(shè)備的開放和互聯(lián)標準。
OpenConfig 與OpenROADM 項目對設(shè)備數(shù)據(jù)模型和軟件接口做出了標準化的定義與規(guī)范,降低了多供應(yīng)商網(wǎng)絡(luò)中設(shè)備管控的復雜度。但這種“灰盒”解決方案沒有對設(shè)備的操作系統(tǒng)提出標準化的要求,設(shè)備軟件功能的具體實現(xiàn)仍依賴于各個廠商各自封閉的操作系統(tǒng)與底層驅(qū)動。為進一步增強光傳輸系統(tǒng)軟硬件解耦程度、提升光傳輸系統(tǒng)開放性,SONiC-OTN項目被提出。該項目定義了光傳輸抽象接口(OTAI)來對光傳輸網(wǎng)絡(luò)特有的硬件操作進行抽象,使能了開源網(wǎng)絡(luò)操作系統(tǒng)SONiC在光傳輸系統(tǒng)中的應(yīng)用。
綜上,從OpenConfig 和OpenROADM 定義的設(shè)備數(shù)據(jù)模型與軟件接口形成的灰盒方案,到開源光傳輸操作系統(tǒng)SONiC-OTN 形成的白盒方案,隨著開放光傳輸網(wǎng)絡(luò)設(shè)備軟件設(shè)計的不斷深入,開放程度不斷提升。
為了實現(xiàn)對開放光傳輸系統(tǒng)的管理和監(jiān)控,傳輸網(wǎng)管仍然是運維人員與設(shè)備交互的主要界面。但是與傳統(tǒng)網(wǎng)管不同的是,應(yīng)用于開放光傳輸系統(tǒng)的網(wǎng)管必須實現(xiàn)多廠商設(shè)備的無差別納管,即統(tǒng)一網(wǎng)管。
雖然開放光傳輸設(shè)備在硬件上白盒化和軟件上標準化,屏蔽了各傳輸廠商帶來的差異性,為統(tǒng)一網(wǎng)管采用標準的接口和協(xié)議管理各廠商設(shè)備奠定基礎(chǔ),但是統(tǒng)一網(wǎng)管對各廠商設(shè)備的軟件適配和測試工作是必不可少的。
統(tǒng)一網(wǎng)管對設(shè)備的適配工作并不僅停留在設(shè)備軟件模型的驗收上,還需從運維人員的角度,對日常建設(shè)和運維過程中的全部應(yīng)用場景進行模擬操作和測試。適配測試工作可以重點分為子網(wǎng)/網(wǎng)元維護、網(wǎng)元/板卡操作、告警/事件上報、系統(tǒng)功能優(yōu)化4個方面。
子網(wǎng)/網(wǎng)元維護能夠展示傳輸拓撲,協(xié)助管理者梳理并掌控傳輸設(shè)備的部署以及其系統(tǒng)級別的性能指標,并聯(lián)動告警,比如光纜染色等,實現(xiàn)快速定位設(shè)備和光纜故障等;網(wǎng)元/板卡操作是統(tǒng)一網(wǎng)管通過標準軟件接口對設(shè)備狀態(tài)的配置和查詢,比如光層光放、倒換保護板卡、電層OTU 板卡以及風扇、電源、主控等公共單元板卡;告警/事件上報是設(shè)備以訂閱的方式將設(shè)備的重要行為事件(比如上/下電、重啟等)和故障狀態(tài)提交,除了日常運維關(guān)注的故障部件、發(fā)生時間、恢復時間以外,統(tǒng)一網(wǎng)管多采用當前告警、歷史告警等形式來區(qū)分長期積累的大量告警,以保證管理者不遺漏現(xiàn)網(wǎng)故障。
統(tǒng)一網(wǎng)管的系統(tǒng)功能優(yōu)化包含工程建設(shè)和運維2個方面,比如工程建設(shè)涉及到的設(shè)備上線、網(wǎng)管設(shè)備接入、軟件升級、傳輸業(yè)務(wù)路徑建立等。日常運維涉及到板卡/模塊故障替換、故障環(huán)回定位、光纜故障業(yè)務(wù)倒換、當前/歷史性能監(jiān)控、設(shè)備下線/利舊等,針對這些工程運維操作,實現(xiàn)相應(yīng)的自動化功能,設(shè)計友好的交互界面,是提升統(tǒng)一網(wǎng)管易用性的主要工作。
數(shù)據(jù)中心互聯(lián)傳輸系統(tǒng)的光纖敷設(shè)在戶外開放環(huán)境中,戶外的施工會導致光纖中斷或裂化等故障,因此開放光傳輸系統(tǒng)通常采用光層保護技術(shù),保證承載業(yè)務(wù)的不中斷。在開放光傳輸系統(tǒng)中典型的系統(tǒng)保護方式包括光通道保護(OCH-P)和光復用段保護(OMS-P)2 種,OCH-P 的保護板卡位于電層板卡線路側(cè)輸出端,主要保護單個光波長通道的業(yè)務(wù)。OMS-P的保護板卡位于波分復用器后,用于保護所有波分復用信號。
相比傳統(tǒng)的電信業(yè)務(wù),云計算服務(wù)在同一個區(qū)域內(nèi)的不同AZ 機房內(nèi)進行分布式的計算和存儲等操作,因此,區(qū)域內(nèi)不同AZ 之間的互聯(lián)傳輸系統(tǒng)對穩(wěn)定性提出了更高的要求。幾十年來,電信行業(yè)一直遵守著50 ms的ITU 標準保護倒換恢復時間[9],但近年來在DCI 互聯(lián)高速光保護系統(tǒng)上出現(xiàn)了更多的創(chuàng)新[10-11]。依靠新型的高速光開關(guān)和更高效的相干數(shù)字信號處理(DSP)業(yè)務(wù)恢復算法,可以實現(xiàn)5 ms 的光層高速保護倒換和業(yè)務(wù)恢復,讓業(yè)務(wù)層丟包數(shù)量減少90%。傳統(tǒng)的光層保護板卡一般采用機械式或MEMS 光開關(guān),光開關(guān)切換時間在1~10 ms,高速保護倒換系統(tǒng)一般需要光開關(guān)的切換時間在微秒級別,例如磁光開關(guān)的典型時間為30 μs。應(yīng)用于長途光傳輸?shù)腄SP 模塊在處理光層保護倒換時,一般需要考慮到幾百或上千千米的主備路由傳輸長度差,這導致DSP 模塊內(nèi)部色散處理單元需要進行大范圍的掃描和鎖定,但是對于點到點單跨段為主的DCI 互聯(lián),DSP 可以針對性地進行色散優(yōu)化處理,從而實現(xiàn)3~4 ms的業(yè)務(wù)恢復時間。
此外,為了防止傳輸保護倒換的中斷引起IP 設(shè)備的端口震蕩和協(xié)議收斂,傳輸電層設(shè)備一般采用電層告警延遲發(fā)送技術(shù)。在常規(guī)模式下,因為傳輸設(shè)備線路側(cè)中斷時,傳輸電層設(shè)備在客戶側(cè)會向IP 設(shè)備發(fā)送LF(local fault)信號,防止網(wǎng)絡(luò)設(shè)備端口單向通信,造成數(shù)據(jù)黑洞現(xiàn)象。但是一般傳輸保護倒換時間極短(ms級別),遠小于協(xié)議收斂的秒級別,因此,傳輸設(shè)備會采用LF告警延遲發(fā)送技術(shù),在保護倒換的業(yè)務(wù)中斷期間,持續(xù)向交換機發(fā)送凈荷為空的以太網(wǎng)包,超出一定的設(shè)置時間,才認為業(yè)務(wù)是真正中斷,再向IP 設(shè)備發(fā)送LF告警,防止IP層的協(xié)議收斂丟包。
光傳輸網(wǎng)絡(luò)的可靠運行需要依賴故障發(fā)現(xiàn)、故障定位和及時的故障止損。由于開放光傳輸系統(tǒng)在底層設(shè)備軟件層面實現(xiàn)了標準化,因此在自動化故障定位和自動止損上具有天然優(yōu)勢。
故障定位需要通過檢測和分析設(shè)備的告警信號、采集設(shè)備的性能指標、檢查設(shè)備的配置變化等方式來確定故障的具體位置和原因。光傳輸系統(tǒng)中最常見的故障類型包括光纖故障、設(shè)備故障、電力故障等。其中,設(shè)備故障和電力故障通常會在設(shè)備側(cè)有明確的告警信號,因此定位相對容易;光纖故障伴隨著線路側(cè)收光丟失、倒換保護等告警信號以及收光功率抖動等性能指標的變化,因此在復雜的組網(wǎng)中需要結(jié)合時空信息關(guān)聯(lián)進行故障定位。
自動止損作為一種高階的運維功能在開放光傳輸系統(tǒng)中也得到了應(yīng)用。在一個具備雙路由保護的系統(tǒng)中,如果單個路由出現(xiàn)異常,可以通過光功率監(jiān)測、電信號質(zhì)量監(jiān)測的方式觸發(fā)倒換保護,從而實現(xiàn)故障止損;如果已有監(jiān)測指標設(shè)置不合理導致倒換保護失效,則可以通過在軟件層面監(jiān)測特定告警的產(chǎn)生觸發(fā)光路切換,避免信號完全中斷;如果多個路由同時故障導致信號質(zhì)量劣化,可以與IP 設(shè)備聯(lián)動直接關(guān)閉對應(yīng)網(wǎng)絡(luò)端口,或者選擇直接關(guān)閉光傳輸鏈路避免丟包率持續(xù)走高。自動止損的第2 個思路是配置調(diào)整:如果故障的產(chǎn)生是由于光鏈路衰耗異常增大或系統(tǒng)配置異常,則可以通過上層控制器進行全局配置優(yōu)化,保證信號質(zhì)量。
除了在故障發(fā)生后才做相應(yīng)處理外,通過日常巡檢來及時發(fā)現(xiàn)和解決潛在問題,降低故障發(fā)生的概率,也是保證系統(tǒng)穩(wěn)定運行的一個重要方面。最常見的方法是做信號質(zhì)量檢測,主要包括光纖鏈路的輸入輸出光功率變化(評估鏈路衰耗變化)、pre-FEC 和post-FEC 誤碼率(評估系統(tǒng)的信號傳輸質(zhì)量)、光譜信號分析(保證所有波道都處于可用狀態(tài))。
除此之外,常見的設(shè)備狀態(tài)檢查(溫度變化、電力情況、風扇與冷卻)在故障預防中也起到了關(guān)鍵作用。盡管日常巡檢可以手動運行,但通常會選擇自動化工具實現(xiàn)定期巡檢,提高效率和準確性。
開放光傳輸系統(tǒng)實現(xiàn)光層與電層設(shè)備的解耦,可以充分考慮系統(tǒng)保有成本、技術(shù)路徑選擇,靈活地進行系統(tǒng)建設(shè)和擴容,波分系統(tǒng)也具有波長間異廠商、多速率混傳的特點。在系統(tǒng)靈活度增加的同時,由于不同波長來自不同的供應(yīng)商以及不同的線路側(cè)速率對系統(tǒng)性能要求不同,為保證各波長的性能在開放光傳輸系統(tǒng)的全生命周期中處于最優(yōu)水平,因此要求網(wǎng)絡(luò)規(guī)劃者具備精準傳輸性能估計(QoT-E)[12]的能力,用以指導系統(tǒng)中的波長新增與刪減。
在光傳輸系統(tǒng)運行過程中,難以避免地會出現(xiàn)光纖中斷、設(shè)備硬件失效等故障,為保證網(wǎng)絡(luò)的整體高可用性,在做好系統(tǒng)冗余保護、故障快速止損的同時,更加需要對潛在的風險進行有效預警與解除,從而減少故障的發(fā)生。
精準性能估計與風險預測的統(tǒng)一手段是為光傳輸系統(tǒng)建立數(shù)字孿生體[13-14],在系統(tǒng)規(guī)劃、建設(shè)、運行的全生命周期內(nèi)對傳輸性能、健康度進行表征。光傳輸系統(tǒng)的數(shù)字孿生體一般由物理理論模型以及數(shù)據(jù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)模型共同組成,在系統(tǒng)規(guī)劃階段,物理理論模型占主導作用,配合廠商測試的電層、光層特性數(shù)據(jù)以及預訓練的光組件、端到端等通用神經(jīng)網(wǎng)絡(luò)模型形成孿生體的雛形;系統(tǒng)建設(shè)上線后,根據(jù)telemetry 實時采集的電層、光層數(shù)據(jù),如各波長收發(fā)光功率、糾前誤碼率、色散、光鏈路中各節(jié)點光功率等,進行光鏈路的物理參數(shù)校準以及各類任務(wù)的神經(jīng)網(wǎng)絡(luò)模型的訓練及微調(diào)。光傳輸系統(tǒng)的完整數(shù)字孿生體建立后,數(shù)字空間則存在與物理實體高度一致的鏡像模型,可以方便地進行各類操作預演并評估操作結(jié)果,還可以對系統(tǒng)各部分的未來狀態(tài)進行預測。下面舉例說明數(shù)字孿生體在性能估計和風險預測方面的作用。
波道擴容過程中的入纖功率優(yōu)化。相鄰2次系統(tǒng)擴容建設(shè)間,隨著技術(shù)的發(fā)展會涉及更高線路速率、多波段(例如L波段)的擴容。為保證擴容后各波長的接收仍處于最佳性能狀態(tài),需考慮SRS效應(yīng)、克爾非線性效應(yīng)后對各波長的入纖功率進行調(diào)優(yōu),此時可通過數(shù)字孿生模型并結(jié)合尋優(yōu)算法為波長確定最佳的入纖功率。
OTU 故障預測。光傳輸系統(tǒng)中的設(shè)備故障率最高的部分為電層OTU,且電層部分故障后光層的所有冗余保護將失效。通過長周期監(jiān)測OTU 各關(guān)鍵參數(shù)來訓練故障預測神經(jīng)網(wǎng)絡(luò),可主動發(fā)現(xiàn)電層故障,有效提高業(yè)務(wù)穩(wěn)定性。
總的來看,開放光傳輸系統(tǒng)相較于傳統(tǒng)封閉的光傳輸系統(tǒng),更需要建立數(shù)字孿生體,以進行全生命周期的精準性能估計、風險預測及隱患處理。
數(shù)據(jù)中心互聯(lián)開放光傳輸系統(tǒng)作為近年來的研究熱點,從硬件、軟件和系統(tǒng)層面均有了較大的技術(shù)創(chuàng)新,這些技術(shù)在國內(nèi)外的云計算網(wǎng)絡(luò)中得到了廣泛的應(yīng)用。隨著以通用大模型為代表的人工智能技術(shù)的突破進展,當前開放光傳輸系統(tǒng)正在向高速率、高容量、自動化和智能化發(fā)展,更多的創(chuàng)新技術(shù)將被研究和應(yīng)用。