戶利利
(深圳大學(xué)信息中心 廣東省深圳市 518060)
隨著信息技術(shù)的不斷發(fā)展,各行各業(yè)都在信息化的基礎(chǔ)上不斷發(fā)展,對信息化基礎(chǔ)設(shè)施的需求也不斷增強(qiáng),高校作為國家科研機(jī)構(gòu)的重要部分對信息化的需求也不斷增強(qiáng)。目前大部分高校沒有針對科研提供的IT資源池。各課題組根據(jù)需要各自購買計(jì)算、存儲(chǔ)等設(shè)備,設(shè)備購買后,各科研組對這些資源進(jìn)行維護(hù)和保管。這樣粗放的采購和保管模式存在幾個(gè)問題:
各課題組缺乏專業(yè)的機(jī)房環(huán)境,只能將設(shè)備放置在辦公室或者實(shí)驗(yàn)室等非機(jī)房環(huán)境,但是這些地方并不能滿足設(shè)備需要的大功率電源以及恒溫,恒濕,防塵的要求,存在電安全風(fēng)險(xiǎn)和消防風(fēng)險(xiǎn);同時(shí)服務(wù)器的噪音和輻射比較大,不利于工作人員的健康。
各課題組缺乏專業(yè)運(yùn)維人員,缺乏對IT設(shè)備故障的處理經(jīng)驗(yàn),難以進(jìn)行有效的固定資產(chǎn)管理,存在IT設(shè)備丟失風(fēng)險(xiǎn);
IT基礎(chǔ)設(shè)施利用率低,利用科研項(xiàng)目經(jīng)費(fèi)采購的設(shè)備,在項(xiàng)目空閑期,無法供他人加以利用,項(xiàng)目結(jié)束后,所購IT設(shè)備通常雖尚未到達(dá)報(bào)廢年限,但普遍缺乏有效利用。
本文探索在校內(nèi)搭建一個(gè)專業(yè)的軟件定義的科研私有云,對科研組的硬件資產(chǎn)提供統(tǒng)一管理和運(yùn)維。該私有云采用軟硬件解耦的架構(gòu),保證課題組設(shè)備選型的靈活性。各科研組提供硬件資源給信息中心,信息中心將這些硬件資源進(jìn)行折算作為科研組在私有云平臺(tái)上的充值費(fèi)用,同時(shí)將這些硬件資源加入到私有云中,通過計(jì)費(fèi)服務(wù)的方式向課題組提供計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等多種資源。學(xué)校信息中心負(fù)責(zé)對私有云資源池進(jìn)行管理和運(yùn)維,并根據(jù)各課題組的實(shí)際需求不斷擴(kuò)充科研云資源池。這種方式建立的科研生態(tài)云,既解決了科研工作者對IT資源維護(hù)的難題,實(shí)現(xiàn)IT資源的有效利用,又保證了平臺(tái)后期的不斷發(fā)展和壯大。
不同的人對云計(jì)算的理解是不同,從技術(shù)的角度來說云計(jì)算(cloud computing)是 基 于 分 布 式 計(jì) 算(distributed computing)、網(wǎng)格計(jì)算(grid computing)、 并行計(jì)算(parallel computing)等技術(shù)發(fā)展而來的一種新型計(jì)算模式[1]。從管理和使用的角度來說,云計(jì)算是指通過網(wǎng)絡(luò)訪問的可擴(kuò)展的、靈活的物理或虛擬共享的資源池,同時(shí)這種資源池需要具有自助獲取和管理的模式。云計(jì)算的資源是集中、共享且動(dòng)態(tài)易擴(kuò)展的,通過搭建一個(gè)統(tǒng)一的平臺(tái),實(shí)現(xiàn)對所有資源的統(tǒng)一管理和調(diào)配,提高了硬件資源的利用率。用戶通過互聯(lián)網(wǎng)獲得自己需要的資源和服務(wù),不需要了解云中的具體的技術(shù)細(xì)節(jié),不需要自己去維護(hù)和管理這些硬件設(shè)施,用戶只需要關(guān)注自己需要什么樣的資源,以及如何得到這些資源。
根據(jù)云計(jì)算的部署方式和服務(wù)對象范圍,云計(jì)算可以分為公有云、私有云、社區(qū)云以及混合云。私有云是為一個(gè)客戶使用而創(chuàng)建的云計(jì)算平臺(tái),只允許該客戶的內(nèi)部成員使用和管理,私有云的管理員對私有云的基礎(chǔ)設(shè)施具有絕對的控制權(quán),因此私有云具有安全性高、私密性強(qiáng)等優(yōu)點(diǎn)。私有云可部署在企業(yè)數(shù)據(jù)中心的防火墻內(nèi),也可以將它們部署在一個(gè)安全的主機(jī)托管場所。私有云可由公司自己的IT機(jī)構(gòu),也可由云提供商進(jìn)行構(gòu)建[2]。
考慮到高校各個(gè)科研課題組已經(jīng)擁有的IT資產(chǎn)以及對IT資源安全性、可靠性、和穩(wěn)定性等方面的需求,高校信息中心應(yīng)以建設(shè)科研私有云為主要方向。在建設(shè)初期,建設(shè)的重點(diǎn)是搭建云架構(gòu),將各個(gè)科研課題組現(xiàn)有的IT資源接入到云架構(gòu)中,通過私有云管理平臺(tái)實(shí)現(xiàn)對這些現(xiàn)有IT資源的集中管理和分配。平臺(tái)搭建好后,如果需要擴(kuò)容,新申請入私有云的課題組可以根據(jù)云平臺(tái)提供的硬件兼容表進(jìn)行硬件購買,信息中心負(fù)責(zé)將這些新購買的硬件設(shè)施加入到私有云下,對私有云進(jìn)行擴(kuò)容和維護(hù)。信息中心將云平臺(tái)上各個(gè)科研課題組購買的硬件的價(jià)值折合為課題組在私有云平臺(tái)上的服務(wù)可用額度,當(dāng)課題組的服務(wù)可用額度不滿足項(xiàng)目需求時(shí),各個(gè)課題組可以通過購買私有云相關(guān)硬件的方式實(shí)現(xiàn)對私有云平臺(tái)服務(wù)的充值操作,通過硬件換取服務(wù)的方式實(shí)現(xiàn),構(gòu)建科研云生態(tài)體系。根據(jù)科研云構(gòu)建的需求,我們可以得出科研私有云需要滿足以下條件:
硬件兼容性要強(qiáng),由于各個(gè)科研課題組購買的IT資源型號(hào)和廠商都不相同,這就要求我們的私有云平臺(tái)要與硬件進(jìn)行解耦,可以很好的與各個(gè)廠商主流的產(chǎn)品進(jìn)行兼容。
部署簡單、使用方便,易于維護(hù)和管理,尤其是升級(jí)和擴(kuò)展??蒲性破脚_(tái)的目的就是為了減輕各個(gè)科研課題組硬件維護(hù)的工作,如果科研云平臺(tái)過于復(fù)雜,對管理員不友好,就會(huì)大大增加信息中心的工作量。并且科研云需要經(jīng)常性的對系統(tǒng)進(jìn)行升級(jí)擴(kuò)容,如果擴(kuò)容的操作復(fù)雜,會(huì)造成擴(kuò)容工作的出錯(cuò)率高,影響平臺(tái)上用戶的使用。
數(shù)據(jù)的可靠性和安全性。各個(gè)課題組的科研數(shù)據(jù)是非常重要不能丟失的,并且在發(fā)布之前都是保密的,這就需要我們的系統(tǒng)能夠提供備份、快照等功能,并且具有安全保護(hù)機(jī)制。
平臺(tái)可以對物理GPU進(jìn)行共享和調(diào)度,創(chuàng)建GPU計(jì)算加速的云主機(jī)。實(shí)際科研過程中,有些對計(jì)算能力要求特別高,GPU能夠提供強(qiáng)大的浮點(diǎn)計(jì)算能力,應(yīng)對高實(shí)時(shí)、高并發(fā)的計(jì)算場景。
平臺(tái)可以同時(shí)具有計(jì)算節(jié)點(diǎn)、存儲(chǔ)節(jié)點(diǎn)、還有計(jì)算存儲(chǔ)融合節(jié)點(diǎn)。
平臺(tái)具有分級(jí)計(jì)費(fèi)的功能??蒲性破脚_(tái)的持續(xù)發(fā)展依賴于各科研項(xiàng)目組購買的硬件資源,平臺(tái)的計(jì)費(fèi)功能是信息中心要求科研課題組購買硬件資源的依據(jù)。
為了增強(qiáng)科研數(shù)據(jù)的安全性,平臺(tái)要求提供日志審計(jì)功能。平臺(tái)可以記錄用戶對所有資源和服務(wù)的操作日志。
平臺(tái)具有運(yùn)維監(jiān)控中心。私有云平臺(tái)可以對平臺(tái)運(yùn)行時(shí)的各項(xiàng)指標(biāo)進(jìn)行試試監(jiān)控,使運(yùn)維人員能夠在第一時(shí)間了解各類資源的使用情況和各項(xiàng)服務(wù)的運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)平臺(tái)的可能出現(xiàn)的問題。
微服務(wù)架構(gòu)是將一個(gè)整體的應(yīng)用劃分為一些小的服務(wù),每個(gè)服務(wù)關(guān)注于完成一個(gè)功能,運(yùn)行在其獨(dú)立的進(jìn)程中,各個(gè)服務(wù)之間相互協(xié)調(diào)配合,為用戶提供服務(wù)。各個(gè)微服務(wù)之間是松耦合的,互相不依賴。分布式系統(tǒng)是多個(gè)處理機(jī)通過通信線路互聯(lián)而構(gòu)成的松耦合的系統(tǒng)。分布式微服務(wù)通過去中心化的方式,實(shí)現(xiàn)微服務(wù)跨物理硬件和空間的重復(fù)部署和跨硬件遷移。
分布式存儲(chǔ)系統(tǒng)采用冗余架構(gòu),隨著集群節(jié)點(diǎn)橫向擴(kuò)展,系統(tǒng)的性能和容量線性增加。整個(gè)系統(tǒng)不存在集中管理控制節(jié)點(diǎn),節(jié)點(diǎn)之間通過內(nèi)部高效的分布式協(xié)議實(shí)現(xiàn)通信。分布式存儲(chǔ)分為四層,第一層存儲(chǔ)硬件,通過通用的服務(wù)器構(gòu)建統(tǒng)一的存儲(chǔ)資源;第二層存儲(chǔ)引擎,提供分布式存儲(chǔ)的基本功能,包括強(qiáng)一致性協(xié)議、數(shù)據(jù)多副本、數(shù)據(jù)智能分布,以及在節(jié)點(diǎn)故障時(shí)候,集群狀態(tài)監(jiān)測與故障自愈、數(shù)據(jù)并行重建等;第三層存儲(chǔ)服務(wù),提供快照、容災(zāi)備份、遷移、自動(dòng)精簡配置等高級(jí)功能;第四層存儲(chǔ)運(yùn)維管理,實(shí)現(xiàn)分布式存的全局配置、升級(jí),系統(tǒng)監(jiān)測等。
虛擬化技術(shù)是云計(jì)算中的核心技術(shù),虛擬化包括了三層含義:虛擬化的對象是各種各樣的資源;經(jīng)過虛擬化后的邏輯資源對用戶隱藏了不必要的細(xì)節(jié);用戶可以在虛擬化環(huán)境中實(shí)現(xiàn)其在真實(shí)環(huán)境中的部分或者全部功能[3]。虛擬化平臺(tái)是利用虛擬化技術(shù),將各類硬件資源虛擬化成統(tǒng)一的資源池,簡化了資源配置和管理,具有高可靠性、高彈性的同時(shí)提高了硬件的利用率。
目前已經(jīng)有的虛擬化技術(shù)有超過了60中,基于X86體系的也已經(jīng)超過50中,目前比較廣泛使用的有vmware的ESX,微軟的Hyper-V、開源的XEN和KVM。通過這些方案,用戶可以實(shí)現(xiàn)物理資源的虛擬化。
高??蒲性仆ㄟ^將項(xiàng)目組的硬件資源加入到私有云上,由信息中心統(tǒng)一管理和運(yùn)維的方式,既可以將科研工作者從硬件資源管理的工作中解放出來,又可以有效的提高硬件的資源利用率。本文依據(jù)云計(jì)算的特點(diǎn),對科研私有云的架構(gòu)進(jìn)行設(shè)計(jì),該結(jié)構(gòu)主要分為物理資源池、軟件定義資源池、云管平臺(tái)和云服務(wù)四層架構(gòu)。
物理資源池是由各課題組提供的基于標(biāo)準(zhǔn)X86的硬件設(shè)備和各種網(wǎng)絡(luò)交換機(jī)組成的分布式集群。由于科研云的硬件來自于各個(gè)課題組,廠商和型號(hào)都不相同,這就要求平臺(tái)要兼容HP、浪潮、華為、華三等廠商的主流產(chǎn)品,且硬件的配置也要求更為靈活,可以是只提供計(jì)算能力的服務(wù)器,可以是提供存儲(chǔ)能力的設(shè)備,也可以是計(jì)算和存儲(chǔ)融合的服務(wù)器。
軟件定義資源池由虛擬化計(jì)算資源池、軟件定義的分布式存儲(chǔ)資源池和軟件定義的網(wǎng)絡(luò)資源池組成。計(jì)算虛擬化需要采用主流的虛擬機(jī)化技術(shù),存儲(chǔ)虛擬化需要采用分布式冗余架構(gòu),要求系統(tǒng)具有可靠性、擴(kuò)展性和自恢復(fù)能力,并且要求系統(tǒng)具有多副本保存機(jī)制,保證數(shù)據(jù)的可靠性,同時(shí)采用緩存加速的技術(shù),提高存儲(chǔ)的性能。網(wǎng)絡(luò)虛擬化采用SDN網(wǎng)絡(luò)提供多種靈活組網(wǎng)方案。
科研私有云平臺(tái)中,需要對用戶所用的資源進(jìn)行計(jì)費(fèi),對用戶的身份進(jìn)行認(rèn)證管理以及對資源進(jìn)行監(jiān)控等功能,為了能有效利用已有的硬件設(shè)備,我們可以采用第三方的云管平臺(tái),要求這個(gè)第三方的云管平臺(tái)能夠支持較多的虛擬化技術(shù)和硬件平臺(tái),也就是我們的科研云的第三層控制平臺(tái)層。
云管平臺(tái)對科研云的創(chuàng)建影響很大??蒲性频牡讓佑布Y源型號(hào)和廠商豐富,而這些型號(hào)和廠商不同的硬件資源由不同的虛擬機(jī)管理程序服務(wù)器(Hypervisor或者 VMM)管理,而這些Hypervisor之間的差異性較大,很多平臺(tái)只提供部分Hypervisor的適配。如何支持管理大部分主流的 Hypervisor,如KVM、Xen Server、Vmware等成為云管平臺(tái)中的關(guān)鍵技術(shù)[4]。
云管平臺(tái)提供一系列服務(wù)治理功能,實(shí)現(xiàn)云服務(wù)的全局控制、調(diào)度和管理,包括計(jì)算管理服務(wù),存儲(chǔ)管理服務(wù),網(wǎng)絡(luò)管理服務(wù),認(rèn)證授權(quán)服務(wù),配額管理、計(jì)費(fèi)服務(wù)等,不同的控制服務(wù)管理之間相互獨(dú)立,單個(gè)組件升級(jí)不能影響其他組件。同時(shí),云管平臺(tái)要能夠?qū)崿F(xiàn)集群管理和資源調(diào)度,且服務(wù)要求具有自愈能力,以保障服務(wù)的高可靠性。
多租戶技術(shù)和計(jì)費(fèi)服務(wù)是科研云生態(tài)系統(tǒng)建立的關(guān)鍵,多租戶技術(shù)使得多個(gè)的租戶能夠共享同一套程序資源的同時(shí),也保證了用戶間數(shù)據(jù)的隔離。各個(gè)科研單位通過購買云平臺(tái)相關(guān)的硬件資源實(shí)現(xiàn)對平臺(tái)的充值,信息中心根據(jù)各類服務(wù)的成本、供需關(guān)系等因素制定計(jì)費(fèi)策略,對用戶使用的硬件資源、網(wǎng)絡(luò)服務(wù)等計(jì)算服務(wù)費(fèi)用,以此為基礎(chǔ),生成賬單。同時(shí)因?yàn)橛?jì)費(fèi)功能,用戶也會(huì)更加合理有效的使用平臺(tái)。
云基礎(chǔ)服務(wù)主要包括計(jì)算服務(wù)、存儲(chǔ)服務(wù)以及網(wǎng)絡(luò)服務(wù),提供云主機(jī)、容器、云硬盤、VPC等資源給用戶。
科研云平臺(tái)的運(yùn)維是由信息中心負(fù)責(zé),考慮到信息中心人員和技術(shù)有限,而科研云平臺(tái)可能需要不斷進(jìn)行擴(kuò)容,這就要求我們的云平臺(tái)的部署和擴(kuò)容要做到自動(dòng)化,可以通過圖形化向?qū)讲僮?,?shí)現(xiàn)快捷部署和擴(kuò)容。
科研私有云可以提高硬件資源的利用率,降低資源消耗,提升科研工作者的工作環(huán)境,減少了科研工作者的IT運(yùn)維工作??蒲薪M提供科研云平臺(tái)硬件資源,科研云平臺(tái)通過計(jì)費(fèi)的方式提供給科研組計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)等服務(wù),信息中心負(fù)責(zé)對科研云平臺(tái)的日常運(yùn)維和擴(kuò)容,通過這種方式建立科研云平臺(tái)的生態(tài)系統(tǒng),本文根據(jù)科研私有云相關(guān)的功能要求,給出了科研私有云的解決方案,參考云計(jì)算的架構(gòu)提出了科研私有云的架構(gòu)設(shè)計(jì)。