鄭海勇
本文以省級單位數(shù)據(jù)中心建設云計算基礎設施平臺的探索實踐為例,探討云計算基礎設施平臺的建設思路,以期探索出一條特色的節(jié)能高效硬件管理現(xiàn)代化之路,為落實“互聯(lián)網(wǎng)+”行動及大數(shù)據(jù)應用提供重要基礎保障。
一、平臺搭建背景
隨著經(jīng)濟的發(fā)展,現(xiàn)代數(shù)據(jù)中心規(guī)模不斷擴大,數(shù)據(jù)量隨之急速增長,計算存儲設備數(shù)量與規(guī)模呈幾何級別的增長,數(shù)據(jù)中心的維護與管理開始出現(xiàn)以下問題:
1.1服務器增長對機房容量消耗快
短短幾年間,服務器由原來的幾十臺迅速增長到了幾百臺,呈現(xiàn)出幾何級的增長速度,其他外設、存儲、網(wǎng)絡設備也快速增長,對機房空間和電力的消耗非常大。
1.2服務器部署管理難度大
應用系統(tǒng)往往要求在極短的時間內(nèi)甚至需求當天完成計算機環(huán)境準備和部署,對服務器資源調(diào)撥提出了極高的管理要求,操作系統(tǒng)、軟件、應用、配置的重復安裝浪費了大量時間精力,使日常維護變得更為復雜繁瑣。
1.3服務器資源利用率低
據(jù)統(tǒng)計,目前數(shù)據(jù)中心小型機的利用率一般在10%到20%,服務器普遍低于3%。即便是在每月、每年的業(yè)務高峰期、高峰時段,業(yè)務的壓力主要在數(shù)據(jù)庫、小型機,而前端應用服務器CPU利用率一般也不高于10%,造成原本就不充足的服務器資源大量浪費虛置。
1.4硬件故障恢復時間長
目前大部分數(shù)據(jù)中心除了采取雙機熱備的少部分服務器和小型機外,設備一旦有任何硬件故障,都必須停機檢查、更換零件,耗費的時間少則半個小時,多則一兩天,直接影響到應用系統(tǒng)的可持續(xù)服務。
二、平臺搭建與管理的具體實踐
經(jīng)過前期的摸索和測試,通過采取新、老結(jié)合的方式,對傳統(tǒng)基礎設施體系進行改造,積極探索搭建云計算基礎設施平臺,推動高效率、低能耗的綠色數(shù)據(jù)中心建設。
2.1前期調(diào)研籌備
在這個階段主要明確三點:平臺能做什么、需要做什么、該怎么建設。經(jīng)過充分調(diào)研,確定了云計算基礎設施平臺的架構(gòu)圖,如圖1所示,并決定先搭建底層的虛擬化平臺,為云計算基礎設施平臺奠定重要基礎。
2.2虛擬化平臺的搭建
虛擬化平臺按功能定位,細分為“測試應用集群”“核心內(nèi)網(wǎng)應用集群…‘核心外網(wǎng)應用集群”,每個集群(cluster)由若干臺物理服務器組成。如圖2所示:
2.3虛擬化平臺的使用與管理
1.虛擬化平臺的使用。虛擬化平臺投入使用后,第一步是對舊平臺資源進行整合,淘汰老舊物理主機,將較重要的應用系統(tǒng)遷入到核心內(nèi)網(wǎng)集群中,保障其性能與穩(wěn)定性。第二步則從兩方面著手,一方面根據(jù)新應用系統(tǒng)的上線需求,將符合“準入標準”的新應用系統(tǒng)部署到虛擬化平臺中,另一方面對年代久遠、不能下線又無法重新部署的舊應用系統(tǒng)進行虛擬化遷移,下架故障率高的舊物理服務器,降低對機房的資源消耗和空間占用。2.虛擬化平臺的管理。當前采取的管理措施包括:一是虛擬機管理。登記每臺虛擬機的資源配置、運載應用系統(tǒng)、使用部門和使用人等資料,并及時升級操作系統(tǒng)的虛擬機模板,安裝漏洞補丁。二是硬件資源管理。跟蹤分析現(xiàn)有硬件資源消耗情況,提前增加硬件資源,并對物理服務器進行定期巡檢、修復故障。此外,監(jiān)控虛擬機資源實際使用情況并動態(tài)調(diào)整每臺虛擬機的資源配置,提高資源使用效率。三是制度流程管理。建立虛擬化平臺巡檢制度、虛擬機增刪改流程、故障應急處理流程、性能監(jiān)控分析報告制度,使虛擬化工作管理有據(jù)可依。
2.4虛擬化平臺成效初步凸顯
1.提高資源利用率,省電省錢省空間。目前物理服務器與虛擬機達到1:10的使用比例,即平均每臺物理服務器上能運行10個應用系統(tǒng),直接節(jié)約物理服務器資源達90%,服務器數(shù)量的大幅減少,一方面節(jié)約了大量的服務器購置費用,另一方面有效降低了電耗和機房空間占有率。以100臺服務器的數(shù)據(jù)中心為例,使用云平臺后可節(jié)約39%的電力,節(jié)省約203平方米的空間。隨著虛擬化和云計算技術(shù)的進一步推廣使用,經(jīng)費、電力和空間的節(jié)省效果將會更加明顯,利于推進節(jié)能省電綠色可持續(xù)發(fā)展。
2.提高系統(tǒng)可用性,稅收業(yè)務不間斷。除了完善的VDP數(shù)據(jù)備份保護外,平臺還實現(xiàn)了對應用系統(tǒng)的HA故障保護。經(jīng)上百次的測試結(jié)果表明,故障服務器上的虛擬機能全部自動轉(zhuǎn)移到正常的服務器上,以保證應用系統(tǒng)不間斷。目前未出現(xiàn)因物理服務器故障而導致虛擬機服務中斷的情況。
3.資源優(yōu)化再配置,系統(tǒng)提速又增效。據(jù)監(jiān)測數(shù)據(jù)分析,調(diào)整后,以100臺虛擬機為例,可節(jié)約了18%的資源,物理服務器有效利用率從原來的61%提高到73%以上,各應用系統(tǒng)的運行效率也有了明顯提高。
4.延長軟件生命期,應用安全更穩(wěn)定。利用虛擬機的熱遷移功能,將已使用較久、應用系統(tǒng)暫時又無法下線的舊服務器進行完整克隆、生成虛擬機,大大提高了信息應用的安全性和穩(wěn)定性。
三、深化虛擬化和云計算應用探索的思考
1、完善優(yōu)化“集群化”的構(gòu)成模式?;谔摂M化平臺每個集群內(nèi)的物理服務器型號配置相同,因此若配置不同時,可能導致大型虛擬機占用的資源可能是小型虛擬機的數(shù)倍,導致小型虛擬機的請求無法實時響應的情況,造成“性能下降”的假象。此外,越是多路多核的CPU、空間越大的內(nèi)存,尋址時間偏長,影響小型虛擬機,并隨著虛擬機數(shù)量增加,矛盾隨之加劇。為此,需要進一步合理優(yōu)化硬件資源,提高虛擬機實際性能。
2、合理部署“一對多”的業(yè)務模式。在設計虛擬化平臺時,必須考慮性能優(yōu)化的問題,具體又分為兩種情況:功能相同性,即是幾個應用終端虛擬機的功能是相同的,就必須盡量將它們分散到不同的物理服務器上,分散風險,避免相互搶占資源。另一種情況是,功能連續(xù)性,即同一個業(yè)務系統(tǒng)的幾個應用終端相互之間要頻繁交流數(shù)據(jù),應將它們都放到一個物理服務器上,避免占用物理網(wǎng)絡資源,提高數(shù)據(jù)交換效率。為此,在大型應用系統(tǒng)上線之前,系統(tǒng)管理員要加強對應用的了解,合理部署終端虛擬機,提高系統(tǒng)性能。
3、深入挖掘“可還原”的備份模式?;谔摂M機的熱遷移技術(shù)(VMotion)、HA技術(shù)、VDP備份技術(shù)、克隆和快照、Replication技術(shù)的技術(shù)缺陷,在未來需通過反復細致的研究和試驗,綜合運用虛擬化平臺的各種還原功能,使特殊應用系統(tǒng)的故障還原時間、數(shù)據(jù)丟失風險與資源占用達到最佳平衡點。
4、搭建應用“虛擬化”的開發(fā)環(huán)境。在未來逐步搭建起一個“虛擬化開發(fā)環(huán)境”平臺,安裝開發(fā)人員需要使用的所有開發(fā)工具,使應用系統(tǒng)從開發(fā)起就在虛擬化的環(huán)境中進行,降低應用系統(tǒng)在虛擬機環(huán)境中出錯的概率。
5、打造全新“云計算”的基礎環(huán)境。繼續(xù)深入探索存儲虛擬化、網(wǎng)絡虛擬化、物理設備與虛擬設備互融組合、計算資源規(guī)?;渴鸬?,積極利用先進技術(shù),對傳統(tǒng)IT基礎環(huán)境進行完善,為大數(shù)據(jù)時代創(chuàng)造一套基礎設備資源優(yōu)化、互融、規(guī)模化部署管理的新模式,以技術(shù)革新開創(chuàng)“互聯(lián)網(wǎng)+”行動的新局面。