趙現(xiàn)綱 林曼筠 謝利子 衛(wèi)蘭 范存群
(國家衛(wèi)星氣象中心,北京 100081)
風云衛(wèi)星地面應(yīng)用系統(tǒng)計算機網(wǎng)絡(luò)平臺(Computer Network and Storage,以下簡稱CNS)為整個地面應(yīng)用系統(tǒng)提供計算、網(wǎng)絡(luò)、存儲支撐,是風云衛(wèi)星地面應(yīng)用系統(tǒng)的基石[1-2]。計算機網(wǎng)絡(luò)平臺的架構(gòu)設(shè)計與整個風云地面系統(tǒng)運行的穩(wěn)定性、可靠性、安全性、時效性等有著直接的關(guān)系。
自第一顆風云氣象衛(wèi)星發(fā)射以來,風云衛(wèi)星地面應(yīng)用系統(tǒng)計算機網(wǎng)絡(luò)平臺架構(gòu)經(jīng)歷了30多年的滾動發(fā)展和持續(xù)改進,計算設(shè)備經(jīng)歷了從大型機到小型機,再到通用X86計算平臺的變革過程。網(wǎng)絡(luò)互聯(lián)帶寬也由10 MB逐步提升至100 GB。所采用的存儲技術(shù)也由單一的磁帶、磁盤發(fā)展到目前磁盤陣列、網(wǎng)絡(luò)存儲以及分布式存儲等多種存儲技術(shù)共存的局面。數(shù)據(jù)存檔量也由原來的GB級增長到現(xiàn)在的10 PB級。
目前,C N S 通過采用先進的云計算、S D N(Software-Defined Network)網(wǎng)絡(luò)互聯(lián)、存儲虛擬化、高性能并行計算、資源調(diào)度等技術(shù),解決了快速、穩(wěn)定、實時處理海量衛(wèi)星觀測數(shù)據(jù)的難題,實現(xiàn)了平臺高效、可靠運行,很好地支撐了風云氣象衛(wèi)星的工程建設(shè)和業(yè)務(wù)運行。
圖1 CNS架構(gòu)Fig. 1 Structure of CNS
風云氣象衛(wèi)星地面系統(tǒng)新一代IT平臺是云計算就緒的基礎(chǔ)平臺,平臺架構(gòu)如圖1所示。為了兼顧IT資源的共享和安全性,平臺中資源池被設(shè)計成專用資源池和共享資源池兩大類。專用資源池更側(cè)重安全穩(wěn)定性,用來保障氣象衛(wèi)星遙感數(shù)據(jù)的接收、運行控制和前端數(shù)據(jù)處理任務(wù)穩(wěn)定運行;共享資源池更側(cè)重使用效率和靈活性,為后端產(chǎn)品處理、遙感應(yīng)用和服務(wù)等業(yè)務(wù)提供高效支撐。新一代風云IT平臺的主要特點是采用云計算、大數(shù)據(jù)等技術(shù),大量采用通用性強、性價比高的X86服務(wù)器替代以往的UNIX小型機,由扁平化SDN網(wǎng)絡(luò)實現(xiàn)互聯(lián),以統(tǒng)一的資源管理和作業(yè)調(diào)度軟件、一體化運維軟件和應(yīng)用分析與優(yōu)化軟件等一系列軟件統(tǒng)籌管理。通過這樣軟硬件結(jié)合的方式,構(gòu)建了高效、靈活、可管理、可持續(xù)發(fā)展的IT基礎(chǔ)平臺設(shè)施。該平臺為日益發(fā)展的氣象衛(wèi)星地面應(yīng)用系統(tǒng)業(yè)務(wù)運行提供可靠的支撐,能滿足多星、全球、全天候數(shù)據(jù)接收處理任務(wù)以及高時效國內(nèi)外產(chǎn)品服務(wù)等復(fù)雜多樣的業(yè)務(wù)需求。
目前風云衛(wèi)星地面系統(tǒng)計算資源規(guī)模約為8萬計算核心,其中95%以上都是X86 CPU計算核心。為了充分利用這些計算能力,風云衛(wèi)星地面系統(tǒng)計算資源采用池化設(shè)計理念,池內(nèi)資源可以為多用戶、多應(yīng)用共享,計算資源的使用對用戶透明。風云衛(wèi)星地面系統(tǒng)的應(yīng)用按照數(shù)據(jù)流程可分為數(shù)據(jù)接收與傳輸、運行控制、數(shù)據(jù)處理、產(chǎn)品生成、數(shù)據(jù)存檔與服務(wù)以及遙感應(yīng)用等幾個部分,按照各部分業(yè)務(wù)應(yīng)用以及硬件設(shè)備的特點,劃分為專用和共享兩類計算資源池[3-4],具體如圖2所示。
圖2 CNS計算資源池設(shè)計Fig. 2 CNS computing resource pool design
專用計算資源池主要用于承載各地面站衛(wèi)星數(shù)據(jù)接收及運行控制業(yè)務(wù)。對于衛(wèi)星數(shù)據(jù)接收而言,由于其中涉及的專業(yè)設(shè)備較多,如調(diào)制解調(diào)、進機分包、信道設(shè)備等,目前該資源池內(nèi)計算資源均為物理裸機加專用設(shè)備卡的形式。由于數(shù)據(jù)接收資源池位于地面數(shù)據(jù)處理的最前端,其肩負著保證數(shù)據(jù)完整、數(shù)據(jù)高質(zhì)量以及數(shù)據(jù)傳輸高效三大使命,故而該資源池內(nèi)所有設(shè)備采用“2+1”方式運行,即一主一備雙機運行,同時1機冷備的方式。運行控制系統(tǒng)作為地面系統(tǒng)運行指揮的大腦,其對可靠性要求最高。因此,運行控制資源池主要通過高端服務(wù)器雙機HA實現(xiàn),且應(yīng)用獨占計算資源。
共享計算資源池主要用于承載衛(wèi)星數(shù)據(jù)處理、存檔與服務(wù)以及面向社會各類終端用戶的遙感應(yīng)用服務(wù)。數(shù)據(jù)處理資源池和數(shù)據(jù)存檔與服務(wù)資源池要求保證產(chǎn)品生產(chǎn)、存檔和數(shù)據(jù)服務(wù)的高時效。該資源池規(guī)模龐大,通過靈活的資源調(diào)度軟件實現(xiàn)了各類產(chǎn)品生產(chǎn)作業(yè)實時調(diào)度、海量資源的優(yōu)化分配,該池內(nèi)同時擁有物理資源和虛擬資源。應(yīng)用資源池用于支撐各類對外服務(wù)業(yè)務(wù),通過計算資源虛擬化實現(xiàn)資源的靈活調(diào)度以及應(yīng)用的靈活部署,通過虛擬機動態(tài)遷移確保硬件故障下的不間斷服務(wù)。
在風云衛(wèi)星地面系統(tǒng)中部署有自主開發(fā)的資源調(diào)度系統(tǒng)FYRSS(圖3),該系統(tǒng)實現(xiàn)了用戶使用資源的便捷性,用戶使用底層的資源時就像使用水電一樣方便,只需要通過標準接口向資源池提交作業(yè),不用關(guān)心底層資源細節(jié)。
圖3 基于資源調(diào)度的資源池化技術(shù)Fig. 3 Resource scheduling based resource pooling technology
FYRSS實現(xiàn)了用戶服務(wù)的標準資源接口,實現(xiàn)了圖形化、命令行和API作業(yè)提交及資源管理接口,定義了接口標準規(guī)范,用戶使用標準接口提交和管理作業(yè)。用戶無需關(guān)心作業(yè)運行在哪臺機器上,無需考慮硬件故障處理和系統(tǒng)負載均衡。FYRSS設(shè)計了資源調(diào)度算法,實現(xiàn)跨異構(gòu)負載均衡調(diào)度集群(如UNIX、Linux物理機集群,UNIX、Linux虛擬機集群,大數(shù)據(jù)、人工智能資源池等)的統(tǒng)一計算資源調(diào)度和故障處理。資源調(diào)度軟件從地面應(yīng)用系統(tǒng)各系統(tǒng)的二級業(yè)務(wù)調(diào)度接受其提交的單個作業(yè),根據(jù)作業(yè)的輸入、輸出和約束條件等生成可運行的作業(yè)指令,并根據(jù)當前資源實際負載、作業(yè)資源需求、資源池特性等情況分配作業(yè)到具體的資源池以及計算資源上運行,在作業(yè)運行過程中監(jiān)視作業(yè)狀態(tài)并根據(jù)需要將作業(yè)狀態(tài)返回給各系統(tǒng)二級調(diào)度,將重大作業(yè)運行故障或異常上報到運行控制系統(tǒng),對異常作業(yè)和調(diào)度故障能夠根據(jù)提前定義好的故障處理策略進行自動或半自動處理。
目前該資源調(diào)度系統(tǒng)很好地支撐了FY-4A衛(wèi)星的業(yè)務(wù)運行,實現(xiàn)了業(yè)務(wù)與資源的解耦、異構(gòu)資源的統(tǒng)一調(diào)度以及動態(tài)計算資源擴展。
風云衛(wèi)星地面應(yīng)用系統(tǒng)中大多數(shù)據(jù)處理作業(yè)都需要并行處理大量數(shù)據(jù),屬于IO密集型計算,對網(wǎng)絡(luò)帶寬和靈活性要求很高。CNS的網(wǎng)絡(luò)平臺設(shè)計遵循了滾動設(shè)計的原則,以高擴展、高性能和高可靠性為目標,建成了技術(shù)先進的網(wǎng)絡(luò)系統(tǒng)。
衛(wèi)星各地面接收站接收到數(shù)據(jù)后通過專線高速傳輸?shù)奖本?shù)據(jù)中心進行數(shù)據(jù)處理和服務(wù),然后再通過專線或內(nèi)部高速網(wǎng)絡(luò)把數(shù)據(jù)分發(fā)給行業(yè)內(nèi)外用戶。
北京數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)采用“VXLAN(Virtual Extensible LAN)+SDN(Software Defined Network)”的網(wǎng)絡(luò)架構(gòu)體系(圖4)。VXLAN用于實現(xiàn)Overlay網(wǎng)絡(luò),實現(xiàn)基于設(shè)備無關(guān)的部署方式,SDN用于實現(xiàn)網(wǎng)絡(luò)統(tǒng)一管理與配置自動下發(fā)。網(wǎng)絡(luò)系統(tǒng)分為Underlay與Overlay兩部分,Overlay網(wǎng)絡(luò)主要通過隧道封裝的方式在物理網(wǎng)絡(luò)(Underlay網(wǎng)絡(luò))之上構(gòu)建一個虛擬網(wǎng)絡(luò),應(yīng)用系統(tǒng)將源主機發(fā)出的原始二層報文封裝后在現(xiàn)有網(wǎng)絡(luò)中進行透明傳輸,到達目的地之后再解封裝得到原始報文,轉(zhuǎn)發(fā)給目標主機,從而實現(xiàn)主機之間的二層通信,相當于Overlay疊加在現(xiàn)有的基礎(chǔ)網(wǎng)絡(luò)之上[5]。
圖4 網(wǎng)絡(luò)系統(tǒng)架構(gòu)Fig. 4 Network system architecture
這種橫向延伸、分布組網(wǎng)、集中控制的網(wǎng)絡(luò)系統(tǒng)實現(xiàn)了“轉(zhuǎn)發(fā)—接入”兩層扁平化拓撲結(jié)構(gòu),有效縮短了各業(yè)務(wù)系統(tǒng)之間的信息傳輸路徑。分布式組網(wǎng)模式使網(wǎng)關(guān)下移至接入層,采用以太網(wǎng)虛擬專用網(wǎng)絡(luò)技術(shù)實現(xiàn)同一業(yè)務(wù)網(wǎng)關(guān)在不同接入層設(shè)備之間多活,設(shè)備接入不再受限于物理位置,從而使跨機房、跨批次、跨型號的設(shè)備靈活組網(wǎng)成為可能,為計算和存儲資源池化奠定基礎(chǔ)。采用軟件定義網(wǎng)絡(luò)架構(gòu)將網(wǎng)絡(luò)數(shù)據(jù)平面和控制平面解耦合,通過控制器對上百臺交換機進行統(tǒng)一平面的策略配置和下發(fā),實現(xiàn)對大規(guī)模網(wǎng)絡(luò)設(shè)備的集中管理和靈活控制。
為保障網(wǎng)絡(luò)的安全性和靈活性,實現(xiàn)精細化分區(qū)管理,根據(jù)承載業(yè)務(wù)特點設(shè)計了分區(qū)域網(wǎng)絡(luò)安全隔離和防護策略,實現(xiàn)了業(yè)務(wù)區(qū)和互聯(lián)網(wǎng)物理隔離,具體如圖5和圖6所示。在業(yè)務(wù)區(qū)中設(shè)計了用于衛(wèi)星測控、L0、L1和L2數(shù)據(jù)處理的生產(chǎn)區(qū),用于工程開發(fā)、科學仿真、數(shù)據(jù)服務(wù)和內(nèi)網(wǎng)辦公的服務(wù)區(qū),以及用于平臺監(jiān)控、系統(tǒng)運維的運維區(qū)。對核心生產(chǎn)區(qū)進行邊界嚴格管控,其他區(qū)對生產(chǎn)區(qū)的訪問按需開通,根據(jù)業(yè)務(wù)訪問需求設(shè)計網(wǎng)絡(luò)服務(wù)鏈。同時,生產(chǎn)區(qū)同一系統(tǒng)內(nèi)部互訪不受限制,以保證業(yè)務(wù)系統(tǒng)的高效運行。對服務(wù)區(qū)開放訪問,確??蒲?、開發(fā)和辦公用戶的便利使用。對人員流動性較大且會對系統(tǒng)運行造成潛在影響的運維區(qū)進行接入授權(quán)和行為審計,將運維出現(xiàn)問題后的被動追查轉(zhuǎn)變?yōu)橹鲃拥氖虑胺婪?、事中控制,確保運維安全。
各網(wǎng)絡(luò)分區(qū)架設(shè)了堡壘機、日志審計系統(tǒng)、補丁分發(fā)系統(tǒng)、漏洞掃描系統(tǒng)、準入控制系統(tǒng)、安全審計系統(tǒng)、防病毒軟件、網(wǎng)頁防篡改軟件、操作系統(tǒng)加固軟件等安全設(shè)備和系統(tǒng),保證整個網(wǎng)絡(luò)的安全性。
CNS存儲資源的管理設(shè)計,充分從統(tǒng)一管理、分配、靈活配置等方面考慮,通過采用資源池技術(shù)和存儲虛擬化技術(shù),對各存儲系統(tǒng)設(shè)備進行統(tǒng)一規(guī)劃管理,從而簡化存儲管理、提高利用率和效率,改善服務(wù)水平。針對地面系統(tǒng)數(shù)據(jù)處理、服務(wù)和存檔等業(yè)務(wù)對存儲的不同需求,存儲資源池主要由熱數(shù)據(jù)資源池、溫數(shù)據(jù)資源池、冷數(shù)據(jù)資源池三部分組成,其架構(gòu)如圖7所示。
熱數(shù)據(jù)資源池采用全閃陣列或高端FC構(gòu)建,提供高速的IO帶寬和IOPS能力。采用高端盤陣結(jié)合磁盤分層技術(shù),提供高性能和高可靠的在線存儲資源,保障業(yè)務(wù)處理時效和運行成功率;采用數(shù)據(jù)鏡像技術(shù),確保關(guān)鍵數(shù)據(jù)的安全。該資源池當前規(guī)模已達近10 PB,主要用來支撐數(shù)據(jù)接收、預(yù)處理、產(chǎn)品生產(chǎn)等實時業(yè)務(wù)。
溫數(shù)據(jù)資源池采用中端FC、分布式存儲、對象存儲等構(gòu)建,提供一定的IO能力以及海量數(shù)據(jù)存儲空間。該資源池當前規(guī)模已超過10 PB,用來支撐準實時業(yè)務(wù)、測試仿真以及存檔服務(wù)。風云衛(wèi)星所有觀測資料已經(jīng)全部整合到該資源池,實現(xiàn)了衛(wèi)星數(shù)據(jù)全在線,為數(shù)據(jù)服務(wù)和應(yīng)用提供了高效的數(shù)據(jù)支撐。溫數(shù)據(jù)資源池采用了存儲虛擬化技術(shù),實現(xiàn)了資源靈活配置與統(tǒng)一管理。
冷數(shù)據(jù)資源池采用磁帶庫、光盤庫構(gòu)建,實現(xiàn)數(shù)據(jù)歸檔功能,實現(xiàn)氣象衛(wèi)星數(shù)據(jù)的永久保存。高端磁帶庫,采用多驅(qū)動器和大容量磁帶技術(shù),提供高可用和高可靠性。該資源池當前規(guī)模已超過100 PB,保證了未來幾年內(nèi)衛(wèi)星數(shù)據(jù)安全存檔的需求。
除了本地存儲,CNS中還使用了公有云存儲資源池提供對外數(shù)據(jù)服務(wù)以提升數(shù)據(jù)分發(fā)的效率。
為了保證數(shù)據(jù)的安全性,CNS在西安建設(shè)了異地數(shù)據(jù)備份和服務(wù)支撐平臺,形成了衛(wèi)星數(shù)據(jù)異地備份、雙中心服務(wù)支撐能力。
圖5 網(wǎng)絡(luò)安全分區(qū)(業(yè)務(wù)與辦公區(qū))Fig. 5 Cyber security zone (business and office area)
圖6 網(wǎng)絡(luò)安全分區(qū)(互聯(lián)網(wǎng)區(qū))Fig. 6 Cyber security zone (internet zone)
只有通過高效的軟件才能發(fā)揮出硬件的整體性能。CNS系統(tǒng)管理軟件的設(shè)計,首先從一體化運維管理著手,保障系統(tǒng)平穩(wěn)運行和設(shè)備故障及時處理;其次,通過應(yīng)用特征分析軟件為應(yīng)用運行優(yōu)化提供決策支持并輔助故障診斷。
圖7 存儲資源池Fig. 7 Storage resource pool
目前,同時在軌業(yè)務(wù)運行的風云衛(wèi)星多達7顆,地面系統(tǒng)業(yè)務(wù)數(shù)據(jù)量巨大,處理流程復(fù)雜,每天運行超過100萬個作業(yè)。應(yīng)用對IT平臺的可靠性、運算能力、存儲容量和網(wǎng)絡(luò)帶寬要求都很高。同時,新一代風云IT平臺大量采用了單機功能相對弱化的通用服務(wù)器,設(shè)備數(shù)量劇增,平臺系統(tǒng)管理難度大。為了解決這一問題,CNS設(shè)計了一體化運維管理軟件,對IT平臺及其所支撐應(yīng)用運行信息進行統(tǒng)一收集、處理和存儲,并結(jié)合技術(shù)人員運維經(jīng)驗進行分析、報警。該軟件通過定制的配置庫,實現(xiàn)對IT平臺資產(chǎn)信息和配置信息的管理。通過可靈活擴展的采集器插件采集平臺和應(yīng)用各類信息,實現(xiàn)對各類平臺資源和應(yīng)用軟件運行狀態(tài)的實時、準實時監(jiān)視。所有運維信息都存儲于ElasticSearch集群中,為智能運維統(tǒng)一提供數(shù)據(jù)支撐;監(jiān)視信息以可視化的方式統(tǒng)一展現(xiàn);系統(tǒng)通過結(jié)合運維人員的工作經(jīng)驗,設(shè)置故障報警閾值,實現(xiàn)對各類故障的分級報警與及時上報,有效確保了平臺平穩(wěn)運行。
應(yīng)用分析與優(yōu)化軟件對風云衛(wèi)星地面應(yīng)用系統(tǒng)各應(yīng)用軟件的資源使用合理性進行評估和優(yōu)化,它通過系統(tǒng)監(jiān)視和特定采集工具獲取系統(tǒng)運行的特征數(shù)據(jù),并在此基礎(chǔ)上融合大數(shù)據(jù)分析技術(shù)對系統(tǒng)資源使用情況分析評估,繼而以知識庫為依據(jù)判斷應(yīng)用使用資源的合理性并形成資源優(yōu)化建議。
未來十年內(nèi),氣象衛(wèi)星數(shù)據(jù)量還會有上百倍的增長,如何及時、高效、可靠地處理海量數(shù)據(jù)將會是CNS一直面對的問題。CNS的設(shè)計將會一直緊跟信息化技術(shù)浪潮,建設(shè)技術(shù)先進的IT平臺支撐風云氣象衛(wèi)星業(yè)務(wù)穩(wěn)定運行。
人工智能技術(shù)目前發(fā)展迅速,尤其涉及的一些深度學習算法已經(jīng)較為成熟[6]。風云衛(wèi)星IT設(shè)備體量大,數(shù)據(jù)規(guī)模大且不斷增長,人工智能技術(shù)將來會在數(shù)據(jù)處理、數(shù)據(jù)質(zhì)量控制、智能運維方面得到應(yīng)用,用以提升系統(tǒng)智能水平和平臺使用效率,為智慧氣象發(fā)展提供支撐。
云計算技術(shù)已成功應(yīng)用于CNS中,解決了資源的標準化問題。然而這種以虛擬機為載體的云平臺虛擬資源管理方式存在著諸多弊端。首先虛擬機本身耗費著物理資源,這在一定程度上造成了物理資源的浪費;其次,虛擬機較為重載,不適合細粒度靈活地分配資源[7-8]。
容器是一種內(nèi)核虛擬化技術(shù),可提供輕量級的虛擬化,使得資源和進程得到隔離,通過對應(yīng)用組件的封裝、分發(fā)、部署、運行等生命周期的管理,可以實現(xiàn)應(yīng)用的標準化[9]。因此在容器技術(shù)的支持下,軟件應(yīng)用可采用分模塊部署的方式,根據(jù)不同模塊的負載進行伸縮性調(diào)整,并且實現(xiàn)內(nèi)部的負載均衡調(diào)節(jié),提高服務(wù)整體性能[10],提升應(yīng)用部署的靈活性。
風云衛(wèi)星地面應(yīng)用系統(tǒng)計算機網(wǎng)絡(luò)系統(tǒng)隨著信息化浪潮歷經(jīng)了多次技術(shù)變革,衛(wèi)星數(shù)據(jù)的處理和存儲能力已得到很大程度的提高。隨著風云衛(wèi)星的發(fā)展,對其IT支撐平臺的要求也越來越高,這就需要在合理架構(gòu)計算機網(wǎng)絡(luò)體系的基礎(chǔ)上保持系統(tǒng)的魯棒性,以云計算技術(shù)、大數(shù)據(jù)技術(shù)等作為技術(shù)核心,并在此基礎(chǔ)上研究容器技術(shù)、深度學習技術(shù)、軟件定義存儲等前沿技術(shù)以進一步應(yīng)用到計算機網(wǎng)絡(luò)系統(tǒng)中,進而為風云衛(wèi)星地面應(yīng)用系統(tǒng)提供更為高效穩(wěn)定的IT支撐環(huán)境。