孔昭煜,齊釩宇,賈麗瓊,高學正,郭 磊
(1.中國地質調查局發(fā)展研究中心,北京 100037; 2.全國地質資料館,北京 100037)
在信息技術高速發(fā)展的當下,隨著人工智能、大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)等信息技術的不斷成熟,以及區(qū)塊鏈技術的興起,推動和改變了現(xiàn)有IT基礎設施建設使用和管理模式。全國地質資料館正借助開展數(shù)字地質資料館建設工作,將傳統(tǒng)的資料檔案管理工作利用新興技術向新管理理念和服務模式轉變。同時將館藏海量的地質調查成果資料數(shù)據(jù),更高效、更準確、更可信地向社會公眾提供便捷服務,從而將這些具有豐富的資料、檔案和科研價值屬性的數(shù)據(jù),更細粒度的開發(fā)利用提供必備的基礎支撐環(huán)境,是地質資料信息化工作者的核心任務之一[1-2]。
本文以全國地質資料館開展的數(shù)字地質資料館建設工作為基礎,結合虛擬化、云計算和大數(shù)據(jù)技術進行綜合分析,重點對虛擬化技術的現(xiàn)狀和建設原則與意義進行了系統(tǒng)闡述,以選擇一套更加便捷、可行和低成本的虛擬化建設方案為目標,促進地質資料信息化建設工作更精準,為開展國家地質資料數(shù)據(jù)中心奠定必要的技術基礎。同時,本文對數(shù)字地質資料館虛擬化系統(tǒng)建設進行一些研究與思考,以期能對各省級地質資料館藏機構和行業(yè)館藏機構的基礎設施建設規(guī)劃和信息化工作起到指導和借鑒作用[2]。
全國地質資料館自1952年成立以來,是我國館藏地質資料最全的國家級地質資料館,截止到2019年底館藏量超過17萬檔,單套數(shù)據(jù)超過260 TB。這些海量地質調查成果資料最早可追溯到1894年,涵蓋了區(qū)域地質調查、海洋地質調查、礦產勘查、水工環(huán)勘查、物化遙勘查、地質科學研究、技術方法研究和信息技術等領域。這些地質調查成果數(shù)據(jù)包括了文字、圖表、聲像、樣本、樣品、信息系統(tǒng)、數(shù)據(jù)庫、軟件等內容,同時按照資料內容的特殊性,可劃分為公開、內部、秘密、機密和絕密等。這些成果數(shù)據(jù)是廣大地質工作者的勞動結晶,具有極高的科研價值、歷史檔案價值和重要資料價值。在信息技術高速發(fā)展變革的當下,全國地質資料館為更好地應對社會公眾對地質調查成果資料數(shù)據(jù)的日益增長的使用需求,特開展建設數(shù)字地質資料館來更好地為社會公眾提供及時準確的服務,同時也是作為地質資料工作向新時代轉型的有力抓手[3-5]。
數(shù)字地質資料館基礎設施完全滿足相關主要業(yè)務需求,以業(yè)務需求促基礎設施建設,以基礎設施建設保業(yè)務需求,分別完成了物理隔離網(wǎng)絡和互聯(lián)網(wǎng)兩套不同環(huán)境不同使用需求的基礎設施環(huán)境。其中,物理隔離工作網(wǎng)絡環(huán)境重點完成核心數(shù)據(jù)存儲備份系統(tǒng)建設,同時滿足日常數(shù)據(jù)生產加工需求,互聯(lián)網(wǎng)重點完成了在線服務運行能力建設和計算能力建設。
全國地質資料館自2012年起全面啟動數(shù)字地質資料館建設,其中,2013~2015年集中開展了基礎設施建設,確保了數(shù)據(jù)日常生產和互聯(lián)網(wǎng)在線服務的基本需求,2016年至今進行了少量的設備補充和替換。通過近年多次的關鍵應用設備性能升級,目前基本能夠滿足數(shù)據(jù)管理生產和在線服務業(yè)務需求。目前,全部服務器均為機架式PC服務器,近80臺中的95.24%為2012年后購置的,74.6%為2U設備、14.29%為4U設備、11.11%為1U設備。在硬件配置方面CPU為服務器主要運算能力全部為X64架構,其中,9.52%為單路、71.43%為雙路、19.05%為四路整體運算能力基本能夠滿足要求。綜合存儲能力超過PB級,全部由專業(yè)NAS存儲系統(tǒng)和SAN存儲系統(tǒng)提供支撐,徹底改變了存儲空間不足和性能不足的局面。備份系統(tǒng)由專業(yè)大型帶庫提供保障實現(xiàn)在線備份能力1.2 PB的大容量能力。操作系統(tǒng)全部為Windows平臺,少量Linux平臺,結合GIS專業(yè)平臺完成了一體化數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)服務平臺的建設,實現(xiàn)了全國地質資料館業(yè)務數(shù)字化升級,改善了地質資料管理工作向全業(yè)務信息化轉型[3-5]。
在信息技術高速發(fā)展的時代下,云計算技術不斷成熟與完善,虛擬化技術成為了基礎的應用平臺,從而徹底改變著IT基礎架構和應用方式,有效地降低了基礎設施建設投入成本。同時,隨著軟件技術的不斷升級,數(shù)字地質資料館的結構和服務模式需要大量的基礎支撐設備來提供相應的服務和保障,傳統(tǒng)的架構已不能完全滿足業(yè)務需求,因此,開展私有云建設勢在必行,虛擬化技術在此起到了重要的支撐保障作用。
虛擬化技術核心作用是將計算機的物理資源轉變?yōu)榭杀憬莨芾淼倪壿嬞Y源,徹底打破了物理結構直接的硬件壁壘,將虛擬計算機運行在物理資源上,最大程度發(fā)揮物理設備的硬件資源,減少物理資源對應用平臺的影響,降低館藏機構的設備購置費用和使用成本。 同時實現(xiàn)更簡化的應用系統(tǒng)部署和后期的維護,動態(tài)地滿足全國地質資料館的業(yè)務需求。
在數(shù)字地質資料館虛擬化平臺的建設中,需要選擇更為適合的虛擬化技術。目前各類不同的虛擬化技術超過60種,其中,基于X86架構的就超過50種,目前5種虛擬化技術相對較為成熟,且使用較為廣泛,同時也是當前數(shù)據(jù)中心主流使用,主要有KVM、XEN、ESXi、Hyper-V、Docker[4-8]。
ESX虛擬化架構是VMware的企業(yè)級虛擬化產品,在目前市場主流技術占有市場比例很大,該平臺可將虛擬機通過相關技術直接訪問CPU和內存資源,更加高效地直接訪問和使用物理設備的資源,能夠更好地發(fā)揮硬件資源的性能。
該虛擬化的特點是總性能高,能夠最大程度的發(fā)揮硬件資源的性能,同時是成熟的商業(yè)軟件平臺,相對比較容易管理和維護,是市場占有率最高的產品。缺點是除采購操作系統(tǒng)外該平臺需要單獨進行采購,且采購費用相對較高,需要投入成本相對較大,適用于經(jīng)費、硬件資源較為豐富的館藏機構使用[6]。
Hyper-V虛擬化架構是微軟虛擬化產品,該產品于2008年首次發(fā)布,集成在Windows Server 2008版本中,是操作系統(tǒng)的一個功能模塊,該虛擬化技術實現(xiàn)了對CPU的調度和內存的使用分配,同時可以直接訪問網(wǎng)卡、存儲等物理設備。同樣作為ESX最大的競爭對手,Hyper-V虛擬化技術占有一定的市場份額,該技術總體運行性能高。
該虛擬化技術同樣作為成熟的商業(yè)軟件平臺,部署、使用相對容易,使用便捷后期維護可隨操作系統(tǒng)一同維護。同時目前各館藏機構大部分采購的服務器設備都預裝了Windows Server基礎系統(tǒng),因此在實際使用中該虛擬化平臺其實是已隨操作系統(tǒng)完成了購置的,無需單獨進行采購,但如需搭建集中管理平臺,需要單獨購置System Center管理平臺??傮w來看,Hyper-V虛擬化架構已基于現(xiàn)有服務器的操作系統(tǒng)中,其總體采購需要額外支出的費用是相對較低的。同時,該虛擬化架構由于使用Windows Server模塊之一,進行科學的系統(tǒng)規(guī)劃后,可在現(xiàn)有物理環(huán)境中進行搭建,無需單獨購置相應設備,更大程度地利用老舊設備進行改造搭建,更加高效地降低建設費用,同時通過簡單學習自行搭建該虛擬化平臺。缺點是由于是系統(tǒng)的功能模塊之一,在后期使用中隨系統(tǒng)故障的發(fā)生,對該虛擬化平臺穩(wěn)定存在一定運行隱患,后期維護該平臺的同時需要維護相應的操作系統(tǒng)[3-5]。
XEN虛擬化架構是劍橋大學的開源研究項目后有Citrix公司收購,該虛擬化架構理論支持更廣泛的計算資源,目前使用的范圍是公有云廠商,其需要相對專業(yè)人員進行部署和使用維護。
該虛擬化架構總體運行性能較好,由于是開源產品因此無采購費用,但使用需要專業(yè)程序員進行配置、使用和維護,其管理和操作復雜程度較高,直接造成其運行維護成果高,目前很少有最終用戶自行搭建。
KVM虛擬化架構自2007年起被整合到Linux系統(tǒng)中,該平臺為開源平臺,無須額外的采購費用投入,在硬件方面除了支持X86結構的CPU架構外,還支持大型機、小型機和ARM等。由于需要專業(yè)人員使用,因此目前的使用范圍集中在云廠商中,由此對非云廠商的用戶來講,后期的維護費用相對較高,且維護難易程度大。
該虛擬化架構總體運行能力一般,隨Linux系統(tǒng)部署其穩(wěn)定性相對較高,同時該產品為開源產品無采購投入。 缺點是隨Linux系統(tǒng)占用一定的計算資源,同時使用和維護成本較高不易非專業(yè)人士使用。
Docker虛擬化架構是2014年新興技術,其主要目標是構建輕量級的操作系統(tǒng)虛擬化解決方案。核心基礎是Linux容器(LXC)等技術,在操作系統(tǒng)層面上進行虛擬化,實現(xiàn)復用本地主機的操作系統(tǒng),從而構建快捷輕量級的虛擬機,將系統(tǒng)、開發(fā)軟件包、依賴環(huán)境等集中打包到容器中,部署僅須講容器部署至虛擬化平臺活服務器中。
改虛擬化架構的總體運行性能較高,為開源平臺無需進行相應的建設經(jīng)費。同時輕量化架構能夠提供更多的虛擬化服務,依托輕量化結構去除了大繁雜的操作系統(tǒng)環(huán)境,在運行室性能獲得了極大的提升所有的管理操作均為秒或毫秒計量。缺點是由于是新興技術知道了解的人相對較少,需要專業(yè)人員進行部署和維護,相關技術資料缺乏等。
隨著數(shù)字地質資料館建設的不斷完善,提供的在線服務不斷豐富和內容不斷的增加,原有的基礎設施不能完全滿足業(yè)務發(fā)展的需求,由于數(shù)據(jù)的特殊性須建設適用于數(shù)字地質資料館的私有云確保滿足業(yè)務需求的最佳解決方案。同時,傳統(tǒng)的實體服務器存在購置投入費用高、占用機房空間大、熱排放和耗電量大等缺點,通過虛擬化技術可以有效的降低建設費用和后期的使用費用[6-9]。
在開展虛擬化技術平臺的選型中,首要的目標是在確保能夠滿足數(shù)字地質資料館全部業(yè)務需求的基礎上,選擇技術成熟、管理簡便、部署相對容易、使用維護成本低、建設投入少的虛擬化平臺。綜合上述主流的虛擬化結合現(xiàn)有的基礎設施環(huán)境,相對成熟、部署和投入成本核算使用微軟Hyper-V虛擬化架構最為合適。
在建設過程中可以完全利用現(xiàn)有的普通PC服務器、SAN存儲和交換機設備,通過簡單適當?shù)膬却婧途W(wǎng)絡環(huán)境的補充升級,完成私有云環(huán)境建設。利用已購置6臺PC服務器進行內存、HBA卡的升級擴容,使用已購置存儲系統(tǒng)構建完成生產環(huán)境的私有云環(huán)境建設,經(jīng)過近1年的試運行,發(fā)現(xiàn)由于傳統(tǒng)硬盤讀寫能力存在瓶頸,當虛擬機并發(fā)數(shù)達到峰值后嚴重影響虛擬機使用效率。隨后進行了私有云核心存儲SSD閃盤分層技術升級,將熱點數(shù)據(jù)自動遷移至閃盤中大幅度提高了虛擬機使用效能,降低了虛擬機并發(fā)過多對存儲的運行壓力,切實提高了虛擬機使用體驗感,保障了服務支撐質量。后經(jīng)擴容該套虛擬化平臺共10臺物理服務器完成了生產環(huán)境、測試環(huán)境和備用環(huán)境的有力支撐,總虛機數(shù)接近百臺。其中,35%為研發(fā)與測試使用,15%為基礎支撐服務,50%為主要業(yè)務服務。切實有效地保障了互聯(lián)網(wǎng)業(yè)務不斷擴展和增強,同時建立了相對完整的在線服務集群、測試環(huán)境和備用環(huán)境。
該項私有云建設總體投入不足百萬,其經(jīng)濟價值遠超建設投入,同時該項建設無專業(yè)私有云設備采購,全部利用現(xiàn)有基礎設施設備進行建設。截至2019年底,生產環(huán)私有云節(jié)點CPU為388顆、內存2.5 TB目前正式投入使用虛擬機97臺,可增加虛擬機30臺以上。
通過對數(shù)字地質資料館私有云的建設,選擇了較為適合本次建設的微軟Hyper-V虛擬化架構,在實現(xiàn)基本功能的基礎上,有效地節(jié)省了用于基礎設施建設的經(jīng)費投入,節(jié)省了機房的占用空間、用電消耗和散熱等運行壓力。同時,通過建設和運行積累了一定的建設經(jīng)驗,在充分利用已有基礎設施環(huán)境的基礎上,通過合理的設備改造,標準和規(guī)范的建設規(guī)劃,實現(xiàn)一套低成本的虛擬化平臺建設方案,相比采購成熟產品和使用免費的開源技術更為經(jīng)濟、便捷和可靠。該經(jīng)驗可對省級館藏機構和行業(yè)館藏機構進行技術指導和經(jīng)驗分享,切實推動地質資料信息化建設管理水平,提高地質資料社會化服務保障支撐能力[3,6-9]。