【摘要】? ? 隨著大數(shù)據(jù)時代的到來,傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)的層次結(jié)構(gòu)已經(jīng)不能滿足新技術(shù)發(fā)展的需要。為了解決這個問題,本文介紹了以網(wǎng)絡(luò)為數(shù)據(jù)中心的方案,包括Monsoon、基于樹的結(jié)構(gòu)、基于CLOS的結(jié)構(gòu)、VL2網(wǎng)絡(luò)結(jié)構(gòu)、PortLand和Jellyfish模型,有效增強(qiáng)分層數(shù)據(jù)傳輸機(jī)制,提高了網(wǎng)絡(luò)結(jié)構(gòu)擴(kuò)展性,并提出了未來數(shù)據(jù)中心網(wǎng)絡(luò)的發(fā)展方向。
【關(guān)鍵詞】? ? 大數(shù)據(jù)? ? 數(shù)據(jù)中心? ? 網(wǎng)絡(luò)結(jié)構(gòu)? ? 架構(gòu)
引言:
隨著大數(shù)據(jù)時代的到來,一些大型搜索引擎數(shù)據(jù)中心網(wǎng)絡(luò)在承載了越來越多應(yīng)用的同時,[1]也對傳統(tǒng)數(shù)據(jù)中心提出了眾多挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)主要是大量服務(wù)器通過數(shù)據(jù)中心內(nèi)的高速鏈路與交換機(jī)相連。這種網(wǎng)絡(luò)架構(gòu)是通過層次結(jié)構(gòu)實(shí)現(xiàn)的,[2]其托管的應(yīng)用模式為客戶端/服務(wù)器模式。然而,傳統(tǒng)的網(wǎng)絡(luò)中心結(jié)構(gòu)已經(jīng)無法滿足網(wǎng)絡(luò)日益發(fā)展的需求,主要涉及以下幾個方面:1.現(xiàn)在網(wǎng)絡(luò)規(guī)模發(fā)展非常迅速,對服務(wù)器的需求越來越多;2.MapReduce和虛擬機(jī)遷移的應(yīng)用非常廣泛,這些技術(shù)都是帶寬密集型應(yīng)用,因此對數(shù)據(jù)中心的內(nèi)部流量要求非常高;[3]3.傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)只能用于輔助高效路由算法的設(shè)計,與許多新型數(shù)據(jù)中心結(jié)構(gòu)傳統(tǒng)結(jié)構(gòu)有很大區(qū)別;4.現(xiàn)有數(shù)據(jù)中心應(yīng)用最廣泛的技術(shù)是虛擬化技術(shù);5.現(xiàn)有數(shù)據(jù)中心有很多服務(wù)器和交換機(jī),在這種情況下,數(shù)據(jù)中心網(wǎng)絡(luò)必須實(shí)現(xiàn)即插即用的功能;6.就全球網(wǎng)絡(luò)資源而言,現(xiàn)有數(shù)據(jù)中心網(wǎng)絡(luò)的能耗最高,數(shù)據(jù)中心80%以上的鏈路負(fù)載很小,而傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)的能耗較高。
如何讓新的數(shù)據(jù)中心網(wǎng)絡(luò)滿足不斷發(fā)展的應(yīng)用需求,已成為當(dāng)前和未來在架構(gòu)、兼容性和協(xié)議等方面的研究方向。[4]目前對此的研究涉及兩個方面:一是中心即網(wǎng)絡(luò),二是中心即服務(wù)器。本文主要分析了以網(wǎng)絡(luò)為中心的方案,并給出了存在的缺陷和對未來的研究方向提出了展望。
一、現(xiàn)代數(shù)字城市概述
科技的發(fā)展和中國城市化進(jìn)程的發(fā)展,也帶動了數(shù)字城市的建設(shè)。數(shù)字城市的發(fā)展對人們的生活方式和文化習(xí)俗產(chǎn)生了巨大的影響,全面推動了創(chuàng)新城市規(guī)劃方法、城市管理方法現(xiàn)代化和城市可持續(xù)發(fā)展。此外,協(xié)助政府決策,推進(jìn)城市信息數(shù)字化,打造社會經(jīng)濟(jì)新體系,提升城市政府決策質(zhì)量,[5]搭建“一站式”服務(wù),電子政務(wù)、信息社區(qū)、科技信息網(wǎng)絡(luò)、遠(yuǎn)程醫(yī)療、遠(yuǎn)程教育等平臺,具有深遠(yuǎn)的發(fā)展前景和意義。
二、以網(wǎng)絡(luò)為中心的方案
在以網(wǎng)絡(luò)為中心的解決方案中,本文選擇的方案主要涉及6種。
(一)Monsoon
Monsoon[6]架構(gòu)見圖 1。在這種架構(gòu)中,所有服務(wù)器共享一個 2 層網(wǎng)絡(luò),系統(tǒng)中所有服務(wù)器都可以與任何服務(wù)器的網(wǎng)絡(luò)接口進(jìn)行快速通信。本系統(tǒng)通過第三層部分實(shí)現(xiàn)數(shù)據(jù)中心與Internet的通信,其中超過 100 000 臺服務(wù)器鏈接在一個兩層網(wǎng)絡(luò)中而沒有過度收斂。 核心邊界路由器和接入路由器使用ECMP進(jìn)行多路徑傳輸,使用VLB機(jī)制進(jìn)行負(fù)載均衡,如VL2。
Monsoon 使用 MAC-in-MAC 技術(shù)創(chuàng)建 MAC 層隧道,將傳統(tǒng)的地址解析協(xié)議 (ARP) 修改為用戶態(tài)進(jìn)程,并允許新的 MAC 接口轉(zhuǎn)發(fā)加密的以太網(wǎng)幀。 然而,這些機(jī)制和解決方案與現(xiàn)有的以太網(wǎng)架構(gòu)不兼容。
(二)基于樹的結(jié)構(gòu)
傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò)是典型的多根樹狀架構(gòu),一般由三層交換機(jī)(three-tier)組成。在架構(gòu)中,以根為根的頂層稱為核心層,中間層稱為匯聚層,底層稱為接入層。更高層的設(shè)備具有更高的性能和價值。核心層通常由多臺冗余路由器組成,一側(cè)接入外部網(wǎng)絡(luò),執(zhí)行外部邊界網(wǎng)關(guān)協(xié)議(EBGP)或靜態(tài)路由協(xié)議,另一側(cè)接入內(nèi)部網(wǎng)絡(luò),執(zhí)行內(nèi)部網(wǎng)關(guān)協(xié)議(IGP) .接入層交換機(jī)通常分別提供 1 GB/s 和 10 GB/s 的下行鏈路和上行鏈路接口。聚合層交換機(jī)通常具有 10 GB/s 接口,并允許在接入層交換機(jī)之間聚合和轉(zhuǎn)發(fā)數(shù)據(jù)。
在 DCN 中,來自 Internet 的請求由核心層路由器接收并轉(zhuǎn)發(fā)到匯聚層的負(fù)載均衡服務(wù)器。負(fù)載平衡服務(wù)器維護(hù)一個映射表,其中包括虛擬 IP 地址(VIP,用于請求接受)和直接 IP 地址(DIP,用于請求處理)。負(fù)載均衡服務(wù)器根據(jù)該表將Internet請求轉(zhuǎn)發(fā)到訪問層的應(yīng)用池進(jìn)行處理。傳統(tǒng)的樹狀架構(gòu)有很多缺點(diǎn)。第一,樹根附近帶寬大幅增加,需要部署高性能的網(wǎng)絡(luò)設(shè)備,可能會增加成本。第二,網(wǎng)絡(luò)規(guī)模受到交換機(jī)端口的嚴(yán)重限制。第三,一旦上層交換失敗,下層節(jié)點(diǎn)就會失去與其他節(jié)點(diǎn)的連接。此外,隨著設(shè)備處理能力的增加,毫無疑問數(shù)據(jù)中心的功耗也會增加。因此,研究人員開始為 DCN 設(shè)計替代架構(gòu)。
(三)基于CLOS的架構(gòu)
CLOS 是一種基于 Tree 的增強(qiáng)架構(gòu),目前廣泛應(yīng)用于許多企業(yè)級數(shù)據(jù)中心。 CLOS 的數(shù)學(xué)理論由貝爾實(shí)驗室的 Charles Clos 于 1953 年引入,用于創(chuàng)建非阻塞、多級拓?fù)?,該拓?fù)涮峁┍葐蝹€交換機(jī)能夠提供的帶寬更高的帶寬。該架構(gòu)的一個主要特點(diǎn)是多層交換,因為輸入和輸出流的增加,其中每個交換單元連接到下層的所有單元,以減少交叉節(jié)點(diǎn)的數(shù)量。在 CLOS中,葉層負(fù)責(zé)將服務(wù)器子網(wǎng)廣播到網(wǎng)絡(luò)結(jié)構(gòu)中。葉層決定了收斂比,從而決定了骨干的大小。骨干層負(fù)責(zé)互連所有葉子。由于CLOS采用了類似的基于樹的分層數(shù)據(jù)傳輸機(jī)制,這里不再贅述。盡管 CLOS 中的多層交換有效減少了聚合層帶寬限制的壓力,而不是樹狀層次結(jié)構(gòu),但是兩種架構(gòu)之間存在相同的特征和問題。
上述 Tree 和 CLOS 架構(gòu)最初是為中小型網(wǎng)絡(luò)設(shè)計的。然而,在云計算時代,面向云的數(shù)據(jù)中心不同于傳統(tǒng)的企業(yè)級數(shù)據(jù)中心,隨著數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備數(shù)量的快速增長,對大規(guī)模分布式計算提出了新的要求。
(四)VL2網(wǎng)絡(luò)結(jié)構(gòu)
該系統(tǒng)的結(jié)構(gòu)類似于傳統(tǒng)拓?fù)浣Y(jié)構(gòu),在該系統(tǒng)中,機(jī)架(ToR)交換機(jī)連接到兩個匯聚交換機(jī)。[7]但是,存在一個重要問題:兩個匯聚交換機(jī)必須連接中繼交換機(jī), 所以會有很多可能的路徑。VL2 是 Greenberg 等人介紹的另一種基于樹的架構(gòu),用于 DCN 中的動態(tài)資源分配。 與FatTree不同的是,VL2通過一個虛擬的二層以太網(wǎng)連接所有服務(wù)器,與服務(wù)器位于同一個局域網(wǎng)內(nèi)。 在這種情況下,所有服務(wù)器都可以分配給上層應(yīng)用程序,因為不會發(fā)生資源碎片。 VL2采用CLOS拓?fù)湓黾舆B接,VLB機(jī)制分配路由實(shí)現(xiàn)負(fù)載均衡。 此外,VL2 實(shí)現(xiàn)了等價多路徑 (ECMP) 路由,通過多個最優(yōu)路徑轉(zhuǎn)發(fā)數(shù)據(jù),解決 VM 遷移中的地址重新分配問題。 因此,VL2 被視為 VLB 類別。由于VL2在連接上遵循傳統(tǒng)的樹狀架構(gòu),因此被廣泛用于增強(qiáng)現(xiàn)有的DCN。但是,其網(wǎng)絡(luò)可靠性并沒有提高,在可擴(kuò)展性和單節(jié)點(diǎn)故障方面仍然存在問題。
(五)PortLand 結(jié)構(gòu)
PortLand有關(guān)架構(gòu)如圖2所示。該架構(gòu)是從 FatTree 網(wǎng)絡(luò)結(jié)構(gòu)演變而來的。兩者最大的不同是PortLand結(jié)構(gòu)使用了一個重要參數(shù);[8]這個參數(shù)是結(jié)構(gòu)管理器;同時,它負(fù)責(zé)通過分層虛擬MAC地址進(jìn)行分組和轉(zhuǎn)發(fā)。
PortLand 邊緣交換機(jī)在每個 Pod 中學(xué)習(xí)唯一的 Pod 編號和唯一的位置編號。使用位置發(fā)現(xiàn)協(xié)議來分配這些值。對于所有直接連接的主機(jī),邊緣交換機(jī)分配一個 48 位 PMAC。 PMAC的格式為pod.position.port.vmid,其中'pod'(16位)表示邊緣交換機(jī)的pod編號,'position'(8位)反映了交換機(jī)在pod中的位置,'port' (8 位)和“vmid”(16 位)分別描述主機(jī)連接到的端口數(shù)和部署在同一物理機(jī) (PM) 上的 VM 數(shù)。
每當(dāng)源主機(jī)希望與另一臺主機(jī)通信時,它就會通過結(jié)構(gòu)管理器搜索目標(biāo) PMAC。一旦數(shù)據(jù)包到達(dá)目的節(jié)點(diǎn),入口交換機(jī)將 PMAC 修改為目標(biāo)的實(shí)際 MAC (AMAC)。完成從一個 PM 到另一個 PM 的 VM 遷移后,結(jié)構(gòu)管理器維護(hù)新的 PMAC 到 AMAC 的映射,并向 VM 之前所在的先前 PM 廣播。PortLand基于樹架構(gòu)部署了全新的基于兩層的路由機(jī)制,支持更好的容錯路由轉(zhuǎn)發(fā)、VM遷移和網(wǎng)絡(luò)可擴(kuò)展性。
(六)Jellyfish拓?fù)?/p>
Jellyfish架構(gòu)見圖3。傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)在很大程度上限制了網(wǎng)絡(luò)的擴(kuò)展。為了得到更短的平均路由長度,降低網(wǎng)絡(luò)成本,Jellyfish拓?fù)浔惶岢?,該系統(tǒng)的一個重要特性是可以在 ToR 交換層上構(gòu)建隨機(jī)圖。[9]
三、數(shù)據(jù)中心網(wǎng)絡(luò)未來發(fā)展方向
上面介紹了幾種常用數(shù)據(jù)中心網(wǎng)絡(luò)的架構(gòu),通過現(xiàn)有的數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計,我們指出了一些可以作為未來研究主題的開放研究問題。
(一)新型 DCN 架構(gòu)
數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)是數(shù)據(jù)中心的重要組成部分,由大量通過高速通信鏈路連接的托管服務(wù)器和交換機(jī)組成。 DCN實(shí)現(xiàn)了資源集中部署,用戶按需訪問數(shù)據(jù)中心的信息和服務(wù)。近年來,隨著基于云的服務(wù)的廣泛使用以及數(shù)據(jù)中心內(nèi)部/之間前所未有的數(shù)據(jù)傳輸量,DCN 的規(guī)模不斷擴(kuò)大,而傳統(tǒng)的 DCN 架構(gòu)缺乏應(yīng)對的聚合帶寬、可擴(kuò)展性和成本效益。隨著租戶對云數(shù)據(jù)中心服務(wù)的需求不斷增加。因此,需要設(shè)計一種具有可擴(kuò)展性、低成本、魯棒性和節(jié)能性的新型 DCN 架構(gòu)。
(二)兼容性
在面向云的DCN的實(shí)際部署和升級中,為了節(jié)約成本,往往會考慮在不同批次時間購買不同容量的設(shè)備。因此,如何在保證新DCN與現(xiàn)有網(wǎng)絡(luò)高效協(xié)作的同時,實(shí)現(xiàn)大規(guī)模異構(gòu)設(shè)備的互聯(lián),是一個亟待解決的問題。
(三)DCN協(xié)議的研究和改進(jìn)
DCN架構(gòu)的管理與現(xiàn)有的互聯(lián)網(wǎng)架構(gòu)有很大不同。DCN的管理往往是在一個實(shí)例中完成的,從而可以獲取其全局拓?fù)?、?shù)據(jù)流、故障和各種日志信息,以輔助協(xié)議設(shè)計和網(wǎng)絡(luò)架構(gòu)設(shè)計適用于特定 DCN 架構(gòu)的新型協(xié)議,可以提高執(zhí)行效率。
(四)自動分配IP地址
Port-Land中的位置和網(wǎng)絡(luò)拓?fù)湫畔⒋鎯υ诜?wù)器或交換機(jī)上,提高了路由的性能。 因此,動態(tài)主機(jī)配置協(xié)議 (DHCP) 等傳統(tǒng)協(xié)議無法在這種情況下部署。此外,由于手動配置如此大量的交換機(jī)或服務(wù)器是一項耗時且煩瑣的工作,因此需要自動分配IP地址機(jī)制以降低人工成本和配置錯誤的風(fēng)險。
因此,無論已知或未知的 DCN 架構(gòu),提出低成本、高可靠性和可管理的自動地址配置方法是一個具有挑戰(zhàn)性的研究視角。
三、結(jié)束語
近年來,隨著基于云的服務(wù)的廣泛使用以及數(shù)據(jù)中心內(nèi)/數(shù)據(jù)中心之間前所未有的數(shù)據(jù)傳輸量,DCN的規(guī)模不斷擴(kuò)大,而傳統(tǒng)的DCN架構(gòu)由于缺乏聚合帶寬而不適用于面向云的DCN和可擴(kuò)展性,論文描述了傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu),提出了傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)存在的問題,展示了 Monsoon、基于樹的結(jié)構(gòu)、基于CLOS的結(jié)構(gòu)、VL2、PortLand 和 Jellyfish 等架構(gòu),并提出了未來數(shù)據(jù)中心網(wǎng)絡(luò)的發(fā)展方向。
作者單位:王其凱? ? 北京可為高科信息技術(shù)有限責(zé)任公司
參? 考? 文? 獻(xiàn)
[1] Andrew Putnam, Adrian M.Caulfield, Eric S.Chung,等. 加快大型數(shù)據(jù)中心服務(wù)的可重構(gòu)結(jié)構(gòu)[J]. 中國集成電路, 2015, 24(Z1):55-68.
[2] 謝佩博. 數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)的研究[D]. 西安電子科技大學(xué).
[3] Xia, Hui. Research on Data Mining Optimization and Security Based on MapReduce[J]. Applied Mechanics & Materials, 2014, 631-632:1053-1056.
[4] 李嶸. 如何構(gòu)建新型數(shù)據(jù)中心不斷滿足新的應(yīng)用需求[J]. 通訊世界, 2012(05):48-49.
[5] 龔俊榮. 現(xiàn)代數(shù)字城市研究[D]. 北京郵電大學(xué), 2010.
[6] Wang B ,? Tim L I . EAST ASIAN MONSOON-ENSO INTERACTIONS[M]. SP Science Press, 2019.
[7] 潘赟. 數(shù)據(jù)中心網(wǎng)絡(luò)的體系結(jié)構(gòu)研究[J]. 無線互聯(lián)科技, 2016(12期):34-35.
[8] Pofale A D ,? Wanjari S P . Study of bond strength between various grade of Ordinary Portland Cement(OPC)and Portland Pozzolane Cement(PPC)mixes and different diameter of TMT bars by using pullout test[J]. 結(jié)構(gòu)與土木工程前沿:英文版, 7(1):7.
[9] Alzaid Z ,? X? Yuan,? Bhowmik S . Multi-Path Routing on the Jellyfish Networks[J].? 2020.
[10] 薄楊, 黃存東, 董坤. SDN新型網(wǎng)絡(luò)架構(gòu)業(yè)務(wù)流量監(jiān)控研究[J]. 賀州學(xué)院學(xué)報, 2018, v.34;No.114(02):163-166.