隨著IT的不斷發(fā)展,數(shù)據(jù)中心內(nèi)的系統(tǒng)越來(lái)越多,從而導(dǎo)致需要更多的服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備。設(shè)備的不斷增多,所帶來(lái)的管理和運(yùn)維壓力和復(fù)雜度也隨之增加。
后來(lái),服務(wù)器虛擬化技術(shù)(即軟件定義計(jì)算)的應(yīng)用雖然減緩了隨著應(yīng)用系統(tǒng)的增加而導(dǎo)致服務(wù)器數(shù)量增加的問(wèn)題,實(shí)現(xiàn)了計(jì)算資源的按需提供,并且將之前要為業(yè)務(wù)系統(tǒng)上線而準(zhǔn)備服務(wù)器從最初的按天計(jì)甚至按月計(jì)(含采購(gòu)流程)縮短至幾分鐘。
但是,仍沒(méi)有解決存儲(chǔ)和網(wǎng)絡(luò)的按需提供。而軟件定義數(shù)據(jù)中心就是綜合了服務(wù)器虛擬化(軟件定義計(jì)算)、存儲(chǔ)虛擬化(軟件定義存儲(chǔ))、網(wǎng)絡(luò)虛擬化(軟件定義網(wǎng)絡(luò))等技術(shù),在數(shù)據(jù)中心將傳統(tǒng)的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等設(shè)備通過(guò)軟件抽象成各種對(duì)應(yīng)的資源,實(shí)現(xiàn)了各種資源的按需分配。例如:數(shù)據(jù)中心內(nèi)網(wǎng)絡(luò)不需要重新連線就可以被劃分成不同的隔離區(qū)域、實(shí)現(xiàn)應(yīng)用的負(fù)載均衡也不再需要變動(dòng)硬件,需要VPN也不再需要購(gòu)買(mǎi)單獨(dú)的設(shè)備,唯一需要的僅是管理員點(diǎn)幾下鼠標(biāo)。
在2015年時(shí),除了火熱的軟件定義數(shù)據(jù)中心概念,還有超融合架構(gòu)、云計(jì)算等熱門(mén)概念,所以當(dāng)時(shí)在規(guī)劃2016年數(shù)據(jù)中心架構(gòu)時(shí)比較彷徨,不知道數(shù)據(jù)中心該怎么去改造,才能適合單位的發(fā)展需求,同時(shí)也能便于以后的擴(kuò)展。
當(dāng)時(shí)單位數(shù)據(jù)中心面臨的問(wèn)題就是:業(yè)務(wù)系統(tǒng)逐年不斷增多,需要不斷增加計(jì)算資源和存儲(chǔ)資源,隨之也需要不斷的增加網(wǎng)絡(luò)設(shè)備,以滿足新設(shè)備的互聯(lián),同時(shí)網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大,安全策略也越來(lái)越龐大和復(fù)雜。由于一直采用服務(wù)器虛擬化技術(shù),虛擬機(jī)創(chuàng)建的便捷性,也導(dǎo)致虛擬機(jī)越來(lái)越多,從最初幾十個(gè)到目前五六百個(gè)虛擬機(jī),對(duì)虛擬機(jī)的管理維護(hù)難度也越來(lái)越大。
所以筆者當(dāng)時(shí)在做數(shù)據(jù)中心改造方案時(shí),一方面詳細(xì)了解當(dāng)時(shí)各種新興的技術(shù),另一方面也從所面臨的主要問(wèn)題著手,才逐步地形成最終而可行的改造方案,當(dāng)然也走了不少?gòu)澛罚旅婀P者將自己的經(jīng)歷與大家分享下, 以供參考。
當(dāng)時(shí)單位數(shù)據(jù)中心最突出的問(wèn)題是存儲(chǔ)的問(wèn)題,數(shù)據(jù)中心內(nèi)早已采用了服務(wù)器虛擬化技術(shù),采用的就是常見(jiàn)的前端服務(wù)器加后端集中共享存儲(chǔ)的傳統(tǒng)部署模式。隨著虛擬機(jī)數(shù)量的增加,在服務(wù)器可利用資源還剩余很多的情況下,存儲(chǔ)首先出現(xiàn)了瓶頸,所導(dǎo)致的現(xiàn)象就是虛擬機(jī)響應(yīng)變慢。但存儲(chǔ)的采購(gòu)、部署、以及后續(xù)資源的分配都不是那么容易。
當(dāng)時(shí)融合架構(gòu)的出現(xiàn),給這問(wèn)題的解決帶來(lái)了新的思路,于是接下來(lái)對(duì)融合架構(gòu)做了詳細(xì)了解,才發(fā)現(xiàn)融和架構(gòu)也不是一個(gè)標(biāo)準(zhǔn)的定義,各個(gè)廠商對(duì)其定義解讀都不一樣,所提供的產(chǎn)品解決方案也差距很大。
不過(guò),超融合解決方案大致可以分類兩類:一類是超融合設(shè)備,一類是純軟件解決方案。前一個(gè)解決方案就是在單個(gè)機(jī)箱內(nèi)提供完整的虛擬機(jī)平臺(tái)解決方案的設(shè)備,實(shí)質(zhì)就是一個(gè)部署了多個(gè)虛擬管理程序的商用X86服務(wù)器,并利用相關(guān)軟件將本地存儲(chǔ)匯聚到一個(gè)大的共享池里,以供上層虛擬化平臺(tái)使用。
當(dāng)時(shí)典型的產(chǎn)品有Nutanix、Scale Computing等。如Nutanix,就是在一個(gè)2U的機(jī)箱里集成了4臺(tái)主機(jī),向上層虛擬化平臺(tái)同時(shí)提供計(jì)算和存儲(chǔ)資源。其優(yōu)點(diǎn)就是上線時(shí)間短、易于管理和集成、能同時(shí)在容量和性能上進(jìn)行橫向擴(kuò)展。但缺點(diǎn)就是因?yàn)槭且惑w化架構(gòu),軟件和硬件都是來(lái)自于同一廠商,受制于廠商的發(fā)展。
后一個(gè)解決方案就是純軟件解決方案,其實(shí)現(xiàn)也是利用軟件將底層的物理資源池化為一個(gè)共享的存儲(chǔ)設(shè)備,不過(guò)硬件只要在軟件要求的兼容列表即可。
2015年筆者專門(mén)去上??疾炝薔utanix,了解了其具體運(yùn)行機(jī)制和細(xì)節(jié),Nutanix能在超融合做到國(guó)際前列,確實(shí)有其超強(qiáng)的專有技術(shù),當(dāng)時(shí)軟件銷(xiāo)售除了綁定一款Dell的服務(wù)器,也開(kāi)始有綁定的第三方服務(wù)器,后來(lái)考慮到價(jià)格及其綁定服務(wù)器銷(xiāo)售的模式而放棄了這種方案。因?yàn)楣P者所在單位是一所高校,在選擇技術(shù)方案時(shí),一般都傾向于更靈活,限制少的技術(shù)方案。
隨后,筆者也考查了國(guó)內(nèi)的一些解決方案,諸如H3C、華為等,不過(guò)當(dāng)時(shí)兩家公司在存儲(chǔ)虛擬化上還不是很成熟,僅建議用于小規(guī)模環(huán)境,撰寫(xiě)該文時(shí),不知不覺(jué)已過(guò)去兩年了,不知道現(xiàn)在技術(shù)是否已成熟。
經(jīng)過(guò)反復(fù)的調(diào)研和了解,最后存儲(chǔ)虛擬化最終鎖定了 VMware的 VSAN,因?yàn)?當(dāng)時(shí)VSAN商業(yè)版已正式推出一年多,在部分行業(yè)已經(jīng)大規(guī)模運(yùn)用,其技術(shù)很類似于Nutanix,但是以純軟件的方式銷(xiāo)售,可以自行選擇或組裝符合其兼容性列表要求的服務(wù)器。
由于單位之前服務(wù)器虛擬化一直采用VMware的vSphere,在存儲(chǔ)虛擬化鎖定VSAN后,其網(wǎng)絡(luò)虛擬化就開(kāi)始鎖定為VMware的NSX。
其間也了解過(guò)微軟的虛擬化解決方案,微軟的方案也很好,而且如果服務(wù)器環(huán)境是純Windows或Windows占絕大多數(shù)的情況下,購(gòu)買(mǎi)了其底層虛擬化平臺(tái),上面虛擬化機(jī)運(yùn)行的Windows系統(tǒng)可以不用再購(gòu)買(mǎi)License,如果是新建數(shù)據(jù)中心或數(shù)據(jù)中心Window系統(tǒng)很多,可以詳細(xì)了解下微軟解決方案。
通過(guò)反復(fù)的考查和了解,在技術(shù)方案方向基本確定后,就開(kāi)始了一系列的測(cè)試,特別是針對(duì)網(wǎng)絡(luò)虛擬化的測(cè)試。
因?yàn)榫W(wǎng)絡(luò)虛擬化在2015年落地的項(xiàng)目很少,唯一看到的案例都是電信行業(yè),其具體使用如何不得而知。通過(guò)大量長(zhǎng)時(shí)間的測(cè)試,對(duì)整體方案的確定和實(shí)施是很有幫助的。2015年下半年所做的工作主要就是測(cè)試項(xiàng)目實(shí)施時(shí)會(huì)用到的相關(guān)產(chǎn)品,除了存儲(chǔ)虛擬化、網(wǎng)絡(luò)虛擬化等,同時(shí)還考察了數(shù)據(jù)中心相關(guān)的其它解決方案,例如虛擬化環(huán)境下的數(shù)據(jù)容災(zāi)備份、系統(tǒng)的防病毒、安全、用戶的自主式管理等。
經(jīng)過(guò)2015年的反復(fù)考察和測(cè)試確定技術(shù)方案后,2016年上半年就開(kāi)始了項(xiàng)目的實(shí)施。項(xiàng)目主要分了幾個(gè)階段:第一階段,相關(guān)硬件設(shè)備的采購(gòu),如服務(wù)器和交換機(jī)。第二階段,相關(guān)軟件產(chǎn)品的采購(gòu)。第三階段,軟件的部署和相關(guān)功能、性能、穩(wěn)定性的測(cè)試。第四階段,現(xiàn)有系統(tǒng)的遷移。第五階段,容災(zāi)和安全實(shí)施。
因?yàn)閱挝滑F(xiàn)有服務(wù)器、存儲(chǔ)、交換機(jī)等設(shè)備幾乎都是2010年左右的,所以改造價(jià)值不高,主要利舊用于災(zāi)備環(huán)境,所以為了數(shù)據(jù)中心的建設(shè),專門(mén)采購(gòu)了一批新的服務(wù)器和交換機(jī)。
服務(wù)器均是按照VMware VSAN的硬件兼容列表進(jìn)行配置的,選擇的是2U的機(jī)架式X86服務(wù)器,每臺(tái)服務(wù)器前端有24個(gè)2.5寸的硬盤(pán)插槽,每臺(tái)服務(wù)器分別配置了3塊SSD硬盤(pán)和21塊SAS硬盤(pán),SSD硬盤(pán)用于讀寫(xiě)緩存,21塊SAS用于數(shù)據(jù)存儲(chǔ)。最終,每臺(tái)服務(wù)器除了能提供計(jì)算資源,還能提供幾十TB的存儲(chǔ)空間。由于VSAN對(duì)網(wǎng)絡(luò)要求較高,為了獲得更好的性能,所以交換機(jī)均采用的是純?nèi)f兆交換設(shè)備。
由于軟件定義數(shù)據(jù)中心方案主要采用的是VMware的解決方案,所以支撐這個(gè)數(shù)據(jù)中心的主要幾款軟件分別是VMware的vSphere(服務(wù)器虛擬化)、VSAN(存儲(chǔ)虛擬化)、NSX(網(wǎng)絡(luò)虛擬化)。
為了輔助這些產(chǎn)品的運(yùn)維管理,還需要vRealize Operations、vRealize Log Insight等軟 件,vRealize Operations主要用于虛擬化平臺(tái)使用的性能監(jiān)控和分析,而vRealize Log Insight是一款強(qiáng)大的可視化日志系統(tǒng),除了可以搜集主機(jī)、vCenter等的相關(guān)日志信息,如果采用了網(wǎng)絡(luò)虛擬化,主要能用于查看軟件防火墻策略的相關(guān)命中和詳細(xì)信息。
為了解決容災(zāi)備份和虛擬機(jī)的防病毒、安全等,還采購(gòu)了備份軟件Veeam Backup&Replication,以 及防病毒和安全防護(hù)產(chǎn)品亞信的Deep Security。
Veeam備份軟件是從虛擬化環(huán)境起家的,雖然公司成立時(shí)間不是很長(zhǎng),但由于純粹是從虛擬化環(huán)境起家,所以其獨(dú)有的許多技術(shù)和功能設(shè)計(jì)都超過(guò)了老牌備份方案,像Syamantec的NBU等。
Veeam,筆者在2013年左右就對(duì)該產(chǎn)品功能做過(guò)測(cè)試,當(dāng)時(shí)感覺(jué)到該產(chǎn)品許多功能令人耳目一新,讓備份和恢復(fù)及災(zāi)備演練都變得很輕松。所以此次解決方案中,果斷地選擇了該產(chǎn)品。而亞信的Deep Security前期也做了測(cè)試,主要采用其防病毒模塊、IPS等。
當(dāng)采購(gòu)的硬件和軟件產(chǎn)品到位后,就開(kāi)始了整套系統(tǒng)的部署,由于前期規(guī)劃和測(cè)試比較充分,所以整個(gè)系統(tǒng)部署都比較順利。當(dāng)整個(gè)系統(tǒng)部署完畢后,就利用相關(guān)工具做了一周左右的壓力和穩(wěn)定性測(cè)試。其間,個(gè)別主機(jī)也出現(xiàn)過(guò)問(wèn)題,主要就是主機(jī)部分硬件的驅(qū)動(dòng)版本和軟件不兼容導(dǎo)致,最后升級(jí)相關(guān)硬件的驅(qū)動(dòng)以及主機(jī)的BIOS,問(wèn)題都得到了解決。
總之,在部署系統(tǒng)時(shí),最容易出現(xiàn)問(wèn)題的地方就是采用存儲(chǔ)虛擬化后,對(duì)硬件的兼容性要求比較高,軟件兼容這塊兒容易出現(xiàn)問(wèn)題。所以在部署的時(shí)候,要按照軟件的兼容性列表來(lái)采購(gòu)硬件,并且將相關(guān)硬件的驅(qū)動(dòng)以及主機(jī)的BIOS升級(jí)到與軟件平臺(tái)相兼容的版本。
而服務(wù)器虛擬化都是很成熟的產(chǎn)品,不太容易出現(xiàn)問(wèn)題,至于網(wǎng)絡(luò)虛擬化,由于是部署在虛擬化平臺(tái)之上,屬于純軟件產(chǎn)品,和硬件不存在任何兼容性問(wèn)題,如果出問(wèn)題的基本都是軟件的一些小bug,都可以通過(guò)升級(jí)軟件版本或打補(bǔ)丁輕松解決。
當(dāng)整個(gè)新的平臺(tái)部署完畢,并且經(jīng)驗(yàn)證測(cè)試以后,就開(kāi)始業(yè)務(wù)系統(tǒng)從舊平臺(tái)向新平臺(tái)的遷移,這是整個(gè)項(xiàng)目里最耗時(shí)間和最費(fèi)精力的工作。
當(dāng)時(shí)現(xiàn)有業(yè)務(wù)系統(tǒng)已超過(guò)了400多個(gè)虛擬機(jī),且數(shù)據(jù)容量也超過(guò)了100TB,所以整個(gè)業(yè)務(wù)系統(tǒng)的遷移花了差不多1個(gè)月的時(shí)間。
在業(yè)務(wù)系統(tǒng)的遷移時(shí),其經(jīng)驗(yàn)就是提前最好規(guī)劃,分批遷移,先遷移重要度最低的業(yè)務(wù)系統(tǒng),最后再遷移最重要的業(yè)務(wù)系統(tǒng),每遷移完一批業(yè)務(wù)系統(tǒng),都要對(duì)遷移后的系統(tǒng)進(jìn)行測(cè)試,保證其運(yùn)行安全可靠。
由于采用網(wǎng)絡(luò)虛擬化后,需要將服務(wù)器網(wǎng)段網(wǎng)關(guān)下移至虛擬化平臺(tái)上,所以網(wǎng)絡(luò)虛擬化的相關(guān)設(shè)置除了測(cè)試驗(yàn)證配置外,在業(yè)務(wù)系統(tǒng)遷移之前是沒(méi)有按照最終需求進(jìn)行配置,主要是為了減少業(yè)務(wù)系統(tǒng)遷移的復(fù)雜度。
當(dāng)所有業(yè)務(wù)系統(tǒng)都遷移到新的平臺(tái)后,才開(kāi)始網(wǎng)絡(luò)虛擬化的配置,將現(xiàn)有業(yè)務(wù)系統(tǒng)的網(wǎng)關(guān)從硬件設(shè)備上遷移至虛擬化平臺(tái)上,由于網(wǎng)關(guān)下移,虛擬機(jī)到網(wǎng)關(guān)的網(wǎng)絡(luò)會(huì)臨時(shí)中斷,所以網(wǎng)絡(luò)拓?fù)浼軜?gòu)的變更最好放在業(yè)務(wù)不太繁忙的時(shí)間進(jìn)行。
當(dāng)所有業(yè)務(wù)系統(tǒng)遷移完畢且網(wǎng)絡(luò)拓?fù)湟哺耐戤吅?,就可以推進(jìn)容災(zāi)和安全配置等工作,進(jìn)一步完善數(shù)據(jù)中心。前面所做的工作主要是新環(huán)境的建設(shè)及業(yè)務(wù)系統(tǒng)的遷移,剩下的是為了讓數(shù)據(jù)中心能夠更好更完善。
大家對(duì)災(zāi)備應(yīng)該都很熟悉,其過(guò)程和傳統(tǒng)的很類似,就不在這里贅述。唯一的區(qū)別就是現(xiàn)在是在純虛擬化的環(huán)境之下,所采用的平臺(tái)不一樣,依然都是根據(jù)業(yè)務(wù)系統(tǒng)的重要性制定相應(yīng)的數(shù)據(jù)備份計(jì)劃,以及異地或不同數(shù)據(jù)中心業(yè)務(wù)平臺(tái)的恢復(fù)或者雙活之類,在虛擬化環(huán)境下是較容易實(shí)現(xiàn)的。
除了業(yè)務(wù)系統(tǒng)的災(zāi)備外,剩下的就是各個(gè)業(yè)務(wù)系統(tǒng)安全策略的設(shè)置,之前數(shù)據(jù)中心主要是通過(guò)硬件防火墻、IPS、WAF等設(shè)備在數(shù)據(jù)中心出口進(jìn)行防護(hù),采用網(wǎng)絡(luò)虛擬化后,很多安全策略就已經(jīng)下移到虛擬機(jī)層面,即可以細(xì)化到每個(gè)虛擬機(jī)。
所以當(dāng)業(yè)務(wù)系統(tǒng)很多的時(shí)候,細(xì)化每個(gè)業(yè)務(wù)系統(tǒng)需要對(duì)外開(kāi)放的端口也是一件非常繁瑣但意義重大的工作。在安全這方面,筆者所在單位主要采用了NSX的分布式防火墻,精確控制每個(gè)虛擬機(jī)的通訊,以及通過(guò)Deep Security的防病毒和IPS等進(jìn)一步防護(hù)每一個(gè)虛擬機(jī)。
筆者所在單位將現(xiàn)有數(shù)據(jù)中心改造成軟件定義的數(shù)據(jù)中心之后,主要解決了以下一些問(wèn)題:
當(dāng)硬件性能不足時(shí),可以通過(guò)升級(jí)單臺(tái)服務(wù)器內(nèi)部組件實(shí)現(xiàn)性能的縱向擴(kuò)展,也可以通過(guò)增加服務(wù)器的數(shù)量實(shí)現(xiàn)整體性能的橫向擴(kuò)展。數(shù)據(jù)中心整體架構(gòu)擴(kuò)展的靈活性決定了可以很好的滿足以后各種業(yè)務(wù)需求的變更。
例如,數(shù)據(jù)中心可以不再需要硬件的防火墻、WAF、VPN、負(fù)載等諸多硬件設(shè)備,都可以通過(guò)網(wǎng)絡(luò)虛擬化本身的軟件功能實(shí)現(xiàn),而且其功能會(huì)隨著軟件的發(fā)展而不斷地豐富和完善,不再像以前過(guò)幾年就因?yàn)樾阅芑蚬δ艿脑蛐枰?jí)替換諸多網(wǎng)絡(luò)安全設(shè)備。
在軟件定義的數(shù)據(jù)中心環(huán)境下,數(shù)據(jù)中心僅僅需要的是高性能的網(wǎng)絡(luò)交換設(shè)備,甚至純二層交換設(shè)備都可以,很大程度上降低了網(wǎng)絡(luò)的復(fù)雜度以及對(duì)網(wǎng)絡(luò)設(shè)備高級(jí)功能的依賴。
在沒(méi)有實(shí)現(xiàn)網(wǎng)絡(luò)虛擬化之前,可能會(huì)因?yàn)閮?nèi)部業(yè)務(wù)系統(tǒng)存在漏洞被攻破后,其它主機(jī)都被暴露在被攻破的主機(jī)前,因?yàn)閭鹘y(tǒng)的安全防護(hù)都在數(shù)據(jù)中心出口,數(shù)據(jù)中心內(nèi)部很難實(shí)現(xiàn)精細(xì)化的管控。雖然之前也有廠商通過(guò)一些技術(shù)和方案解決了虛擬化環(huán)境下內(nèi)部安全問(wèn)題,但基本都是讓所有虛擬機(jī)流量必須出去到安全設(shè)備繞一圈再回來(lái)。不論通訊的虛擬機(jī)是否在同一臺(tái)主機(jī),這樣所導(dǎo)致的結(jié)果就是數(shù)據(jù)流量的途徑并不是最優(yōu)路徑,而成了常說(shuō)的發(fā)卡彎路徑。
說(shuō)了這么多好處,下面說(shuō)一說(shuō)目前不足的地方。其實(shí)不足的地方并不是軟件定義數(shù)據(jù)中心本身的問(wèn)題,而是相關(guān)的一些產(chǎn)品或者輔助產(chǎn)品仍然存在待完善的地方。
例如Deep Security的防病毒,目前要使用防病毒功能,需要在每個(gè)虛擬機(jī)安裝VMware Tools,并需要選擇相應(yīng)的組件,另外當(dāng)某個(gè)虛擬機(jī)真被感染時(shí),有大量文件被刪除或隔離時(shí),常會(huì)超出其緩存限制,需要人為手動(dòng)的干預(yù)。
Deep Security為了保證性能,對(duì)每臺(tái)物理主機(jī)上運(yùn)行的虛擬機(jī)數(shù)量有建議值,但該建議值有點(diǎn)偏小,所以不適合配置很高的服務(wù)器,單臺(tái)運(yùn)行上百個(gè)虛擬機(jī)的環(huán)境。
Deep Security的IPS功能目前偏弱,和硬件IPS相比還有差距。當(dāng)然這些問(wèn)題并不是軟件定義數(shù)據(jù)中心本身的問(wèn)題,軟件定義數(shù)據(jù)中心將硬件和軟件解耦,通過(guò)軟件的發(fā)展來(lái)完善數(shù)據(jù)中心所需功能,以及其靈活的擴(kuò)展方式注定會(huì)吸引越來(lái)越多的用戶。
未來(lái),數(shù)據(jù)中心管理工作將越來(lái)越自動(dòng)化和簡(jiǎn)單化。