劉衛(wèi)宏
(中廣電廣播電影電視設(shè)計研究院,北京 100045)
隨著我國經(jīng)濟快速增長及“新基建”的需求,云計算、大數(shù)據(jù)、AI以及SDN網(wǎng)絡(luò)等信息技術(shù)推動了數(shù)據(jù)中心的變革,其中也包括廣播電視數(shù)據(jù)中心的變革。當前,廣播電視數(shù)據(jù)中心正在從傳統(tǒng)的數(shù)據(jù)中心向云化的、應(yīng)用驅(qū)動的云數(shù)據(jù)中心轉(zhuǎn)型。新建云化的應(yīng)用驅(qū)動云數(shù)據(jù)中心建設(shè)過程中如何保證數(shù)據(jù)中心的可靠性是必須高度關(guān)注的問題[1]。一般地,決定數(shù)據(jù)中心可靠性的因素分為人的可靠性和物的可靠性,人的可靠性指數(shù)據(jù)中心運行過程中與人的素質(zhì)和管理相關(guān)的因素,物的可靠性主要有數(shù)據(jù)中心建筑可靠性、供電可靠性、空調(diào)系統(tǒng)可靠性以及IT設(shè)備可靠性。本文主要針對IT設(shè)備可靠性這一領(lǐng)域,對廣播電視云數(shù)據(jù)中心IT設(shè)備層的可靠性進行全面的分析與設(shè)計,并基于H3Cloud設(shè)備與技術(shù)進行實現(xiàn)。
廣播電視云數(shù)據(jù)中心有別于傳統(tǒng)數(shù)據(jù)中心,主要體現(xiàn)在以下3個方面。
(1)數(shù)據(jù)存儲量大。一般廣播電視云數(shù)據(jù)中心以存儲音視頻節(jié)目為主,音視頻節(jié)目占用存儲空間較大,一般數(shù)據(jù)中心都需要PB級存儲容量[2]。除音視頻數(shù)據(jù)外,數(shù)據(jù)中心還要存儲大量用戶數(shù)據(jù),用于大眾服務(wù)的數(shù)據(jù)中心的用戶量多在百萬級以上。
(2)網(wǎng)絡(luò)傳輸帶寬要求高。廣播電視云數(shù)據(jù)中心多以給用戶提供音視頻節(jié)目流為主,一般標清節(jié)目要求帶寬 4 MB·s-1,高清節(jié)目 8 ~ 20 MB·s-1,超高清節(jié)目30~50 MB·s-1,源碼節(jié)目帶寬達到100 MB·s-1以上,如果多套節(jié)目同時傳輸,對帶寬的需求達到GB級以上。
(3)實時性強。廣播電視數(shù)據(jù)音視頻節(jié)目流在傳輸時要求不間斷,需保證節(jié)目流暢,要求IT設(shè)備數(shù)據(jù)實時穩(wěn)定傳輸。
此外,廣播電視云數(shù)據(jù)中心可靠性要求極高。廣播電視云數(shù)據(jù)中心一般服務(wù)于廣播電視播出及相關(guān)業(yè)務(wù),系統(tǒng)失效可能造成廣播電視數(shù)據(jù)丟失或業(yè)務(wù)中斷,會對黨政宣傳造成較大的危害和社會影響。因此,必須確保數(shù)據(jù)中心整體運行具有較高的可靠性[3]。
廣播電視云數(shù)據(jù)中心系統(tǒng)的可靠性主要包括數(shù)據(jù)中心建筑可靠性、供電可靠性、空調(diào)系統(tǒng)可靠性以及IT設(shè)備可靠性,其中,IT設(shè)備層的可靠性與廣播電視應(yīng)用直接相關(guān),是廣播電視應(yīng)用的基礎(chǔ),其可靠性需求最高?;诋斍皬V播電視云應(yīng)用發(fā)展需求和信息技術(shù)發(fā)展現(xiàn)狀,對廣播電視云數(shù)據(jù)中心IT設(shè)備層可靠性進行全面的分析及設(shè)計。
廣播電視云數(shù)據(jù)中心IT設(shè)備層的可靠性需求主要包括3個方面。
(1)設(shè)備務(wù)必可靠,要確保承擔某一功能的硬件設(shè)備穩(wěn)定可靠,以備份或集群形式,保證任何時刻都有可保持業(yè)務(wù)正常開展所需的最少設(shè)備正常運行。
(2)鏈路務(wù)必可靠,網(wǎng)絡(luò)保持連接,寬帶能保障業(yè)務(wù)正常開展。
(3)業(yè)務(wù)務(wù)必可靠,支撐業(yè)務(wù)的正常開展。
根據(jù)以上可靠性需求,以H3Cloud云架構(gòu)為基礎(chǔ),設(shè)計廣播電視云數(shù)據(jù)中心IT設(shè)備層可靠性總體架構(gòu),如圖1所示。
圖1 基于H3Cloud云的廣播電視云數(shù)據(jù)中心架構(gòu)圖
將廣播電視云數(shù)據(jù)中心IT設(shè)備層按數(shù)據(jù)流向進行分層,從下到上分為計算接入層、基礎(chǔ)設(shè)施層、網(wǎng)絡(luò)控制與智能保障層以及業(yè)務(wù)交付層等4層,針對每一層系統(tǒng)進行具體的可靠性設(shè)計。
計算接入層的網(wǎng)絡(luò)接入對象為數(shù)據(jù)中心中不同形態(tài)的計算資源和存儲資源,如虛擬化服務(wù)器、容器計算資源、裸金屬服務(wù)器以及存儲設(shè)備[4]。網(wǎng)絡(luò)資源可以自動化按需配置相關(guān)策略,多種多樣的接入對象可以無差異化地接入網(wǎng)絡(luò),做到接入即可用。
數(shù)據(jù)中心網(wǎng)絡(luò)的基礎(chǔ)設(shè)施以轉(zhuǎn)發(fā)設(shè)備和網(wǎng)絡(luò)增值服務(wù)設(shè)備為主,為數(shù)據(jù)中心提供高性能、高可靠性、高可用性以及安全服務(wù)的能力,支持硬件交換機、軟件交換機、NFV以及物理防火墻等多種形態(tài)的網(wǎng)絡(luò)組件。
平臺配置智能網(wǎng)關(guān)組以保證基礎(chǔ)設(shè)施層的可靠性。智能網(wǎng)關(guān)組內(nèi)部采用無狀態(tài)轉(zhuǎn)發(fā)設(shè)計,所有網(wǎng)關(guān)信息同步,實現(xiàn)VXLAN網(wǎng)絡(luò)與傳統(tǒng)網(wǎng)絡(luò)的互聯(lián)互通;支持多臺網(wǎng)關(guān)組成網(wǎng)關(guān)組,網(wǎng)關(guān)組內(nèi)的VXLAN IP GW設(shè)置相同的VTEP IP地址,設(shè)置相同的VNI接口IP地址及MAC地址,VTEP IP地址通過三層路由協(xié)議發(fā)布到內(nèi)部網(wǎng)絡(luò)。
網(wǎng)關(guān)與內(nèi)外網(wǎng)設(shè)備連接,采用聚合或ECMP方式,某條鏈路故障時,網(wǎng)關(guān)自動切換鏈路,無需人工干預(yù)。單個網(wǎng)關(guān)設(shè)備采用雙主控板設(shè)計,如果原主控板故障,新主控板接管設(shè)備管理。所有處理由網(wǎng)關(guān)自動完成,整個過程中網(wǎng)關(guān)上的流量轉(zhuǎn)發(fā)不受影響。
H3Cloud架構(gòu)云平臺以先知分析器(SeerAnalyzer)和先知控制器(SeerEngine)為核心,作為網(wǎng)絡(luò)智能分析平臺,基于大數(shù)據(jù)分析以及AI等能力提供網(wǎng)絡(luò)可視化和精細化管理,支持網(wǎng)絡(luò)故障精準定位以及網(wǎng)絡(luò)趨勢預(yù)測等能力,幫助網(wǎng)絡(luò)管理者輕松、高效地運維管理數(shù)據(jù)中心網(wǎng)絡(luò)。網(wǎng)絡(luò)控制器為網(wǎng)絡(luò)架構(gòu)的核心,由先知控制器完成網(wǎng)絡(luò)的設(shè)計建模、網(wǎng)絡(luò)自動化部署、設(shè)備管理、配置管理以及策略管理等工作、將網(wǎng)絡(luò)能力資源池化,以服務(wù)的形式提供給上層平臺,是數(shù)據(jù)中心核心組件。
數(shù)據(jù)中心在智能保障與網(wǎng)絡(luò)控制層配置了H3C先知控制器和先知分析器。通過H3C先知控制器和先知分析器形成數(shù)據(jù)中心的SDN。先知控制器利用雙網(wǎng)卡機制保證了SDN網(wǎng)絡(luò)的可靠性。在控制器發(fā)生故障時,利用先知分析器進行網(wǎng)絡(luò)逃生。
多個先知控制器可組成一個Team。Team成員按功能分工的不同分為Leader和Member角色。Leader負責集群的總體管理,Member負責南向連接OpenFlow轉(zhuǎn)發(fā)設(shè)備,通過SSL協(xié)議或者直接基于TCP相連。Team成員共同實現(xiàn)集群功能:在集群當前Leader控制器上修改的配置,會自動同步給Team中其他成員控制器;Team中所有的控制器位于一個二層或三層網(wǎng)絡(luò)中,對外提供一個統(tǒng)一的北向IP地址。
可靠性一般通過逃生機制、業(yè)務(wù)保障以及集群管理提高網(wǎng)絡(luò)控制層可靠性。
(1)逃生機制。在控制器發(fā)生故障時,網(wǎng)絡(luò)設(shè)備可切換為自轉(zhuǎn)發(fā)模式。
(2)業(yè)務(wù)可靠性。為確保業(yè)務(wù)層數(shù)據(jù)可靠性,控制器使用系統(tǒng)的配置參數(shù)文件備份和配置參數(shù)導(dǎo)入導(dǎo)出功能,定期備份控制器配置參數(shù),以便在系統(tǒng)配置修改錯誤或丟失的情況下通過導(dǎo)入配置文件恢復(fù)系統(tǒng)配置。
(3)集群IP高可靠性??刂破鲃?chuàng)建集群時,Leader控制器為該集群設(shè)定一個虛擬的集群IP地址,集群通過該IP地址與上層平臺對接并提供服務(wù)。如果當前Leader控制器發(fā)生故障,按照Leader選舉機制產(chǎn)生的新的集群Leader自動接管該集群IP,集群在初始時與其他設(shè)備間的通信由新Leader接管分配,從而實現(xiàn)負載均衡。在控制器更換Leader全過程中,各層平滑過渡。
廣播電視云數(shù)據(jù)中心業(yè)務(wù)交付層面以云管平臺為主要組件,面向數(shù)據(jù)中心最終用戶或管理人員提供服務(wù)界面,管理著數(shù)據(jù)中心內(nèi)部的計算資源、網(wǎng)絡(luò)資源以及存儲資源。云平臺保證在平臺內(nèi)從進程、容器、虛擬機以及物理機發(fā)生四級故障的情況下,平臺的計算資源、網(wǎng)絡(luò)資源及存儲資源不會因為這些故障而導(dǎo)致業(yè)務(wù)中斷。業(yè)務(wù)交付層各個模塊支持集群HA和動態(tài)資源調(diào)度等策略,以滿足平臺的高可靠性和高可用性要求。云管平臺主要依靠雙機集群HA和動態(tài)資源調(diào)整技術(shù)保證業(yè)務(wù)交付層可靠性。
廣播電視云數(shù)據(jù)中心在IT設(shè)備的業(yè)務(wù)交付層、智能保障和網(wǎng)絡(luò)控制層、網(wǎng)絡(luò)基礎(chǔ)設(shè)施層以及計算接入層的可靠性決定著整個數(shù)據(jù)中心IT設(shè)備的可靠性,各層都有不同的設(shè)備和技術(shù)手段為其提供可靠性保障,如果要使數(shù)據(jù)中心的整體可靠性達到一定程度,需要對各層使用不同的硬件支持、軟件支持以及策略保障,才能保證數(shù)據(jù)中心IT設(shè)備整體的可靠性。目前國內(nèi)外數(shù)據(jù)中心IT設(shè)備供應(yīng)商都開發(fā)了各具特色的云數(shù)據(jù)中心平臺,在可靠性方面采用不同的處理策略,因此廣播電視云數(shù)據(jù)中心在設(shè)計和建設(shè)過程中,需要根據(jù)數(shù)據(jù)中心業(yè)務(wù)自身對可靠性的需求,對不同廠家的產(chǎn)品特性進行深入分析和論證,必要時進行可靠性測試,最終選定科學(xué)合理的建設(shè)方案,這樣才能保證廣播電視云數(shù)據(jù)中心建成后在IT設(shè)備層具有較高的可靠性。