于耳
摘 要:作者研究分析了當前高校數字化圖書館的特點、任務需求,剖析了當前主流的存儲解決方案優(yōu)缺點,運用VMware公司最新發(fā)布的vSAN分布式存儲系統(tǒng)技術,以上海公安高專數字化圖書館存儲建設為實例,探索當前存儲擴容最佳解決方案。
關鍵詞:VMware;虛擬化;vSAN;分布式存儲;存儲協(xié)議
中圖分類號:TP393 文獻標志碼:A 文章編號:1673-8454(2014)16-0072-04
一、引言
網絡化、自動化、數字化等計算機技術日新月異,加快了各行各業(yè)現(xiàn)代化改革的步伐,圖書館業(yè)界也面臨著從傳統(tǒng)圖書館向由傳統(tǒng)文獻信息資源與數字化信息資源相結合的現(xiàn)代化圖書館轉變的新階段。高校圖書館的數字資源建設主要包括引進數據庫、自建數據庫兩方面。而在后者當中,各館特色資源的數字化以及數字特色資源的建設尤其重要,并已經逐步成為主流。高校由于其職業(yè)的特殊性,數字資源建設由于對知識和文獻數據相關內容進行整理、使用、傳播、共享、保存,其對于教學、培訓、科研的輔助作用,乃至整體提高文化和專業(yè)素質,意義深遠。
上海公安高專數字化圖書館系統(tǒng)信息基礎平臺一直處于建設完善過程中,隨著數字圖書數據批量化錄入,同步還引進了各類現(xiàn)成的專業(yè)數圖資源檢索系統(tǒng),數字圖書資源每年容量擴充需求約10TB,隨著存儲大數據需求的增加,其存儲需求容量隨之快速增長,同時還要求擴展維護方便,快捷、保持業(yè)務不中斷,安全穩(wěn)定,性價比高等等,反而對存儲的性能(尤其是對IOPS)沒有太多太高的要求。面對需求,持續(xù)建設也刻不容緩。
二、傳統(tǒng)的存儲解決方案和面臨的問題
對于高校數字化圖書館的存儲現(xiàn)狀,目前通常采用以下兩種傳統(tǒng)方法來解決數據量快速增長問題:
1.在原有的生產存儲上進行擴容
如果已經具備了統(tǒng)一存儲數據中心,可以在其架構上進行磁盤柜的擴展。按照16盤位計算,滿配2TB SATA盤的擴展柜設計,考慮到安全性、RAID、熱備盤以及后續(xù)擴展需求,如此配置的擴展柜可以滿足圖書館系統(tǒng)的容量和安全需求。但這種方案也面臨了以下問題:
(1)由于高校核心生產存儲一般都會采用知名品牌,其產品價格成本高(尤其是硬件產品過保后的成本)。
(2)應對存儲的數據安全問題,會采用增加磁盤(采用RAID技術、熱備盤、多LUN)來保證,均要消耗存儲磁盤,而專業(yè)存儲的磁盤價格非常高。
(3)雖然存儲的統(tǒng)一和整合能夠提高管理的方便性,但同時核心存儲的穩(wěn)定性和高可用性愈發(fā)重要。任何存儲故障發(fā)生,都將導致所有業(yè)務系統(tǒng)的停止。
(4)現(xiàn)在已有很多高校數字圖書館系統(tǒng)采用了虛擬化技術,如果現(xiàn)有核心存儲已經承載了整個院校虛擬化的核心服務,比如上海公安高專的在線虛擬機數量達150臺,已經承載了全校70%信息化平臺服務。在此基礎上若再增加數字圖書系統(tǒng)內的多業(yè)務系統(tǒng)的接入,不僅現(xiàn)有的統(tǒng)一存儲中心的性能受到影響,資源也將過度的消耗。
2.新購數字化圖書館的專用存儲
根據數字化圖書館存儲的實際需求,有的高校還會選擇性價比更高的中低端存儲(如國產存儲),雖然從容量、性價比來說可以一時滿足目前高校的需求,但從長遠來看,同樣也會存在以下問題:
(1)后續(xù)擴展性和安全問題。隨著后續(xù)存儲空間容量的需求,需要增加新的擴展柜,但存儲機頭的性能不會增加,逐步會形成“煙囪式”的存儲架構,低性能存儲機頭后面連接很多擴展柜。不僅僅存儲會面臨存儲性能問題,同時只要存儲機頭發(fā)生故障,所有數據都會無法訪問。
(2)性能問題。中低端存儲能否應對數字化圖書館后期批量導入或者突發(fā)式的訪問高峰,都是疑問。到時一旦發(fā)生性能問題,在中低端存儲上沒有太多可以擴展的技術手段,后續(xù)風險較大。
(3)管理問題。后期維護和管理都無法與現(xiàn)有存儲進行融合,也將降低管理效率。
傳統(tǒng)存儲解決方案都存在這樣那樣的問題,有沒有一種嶄新的技術,既可以解決存儲容量、擴展性、安全性問題,又有性價比較高的存儲解決方案呢?此時新發(fā)布的VMware vSAN技術步入筆者視野。
三、vSAN(Virtual Store Area Network)技術介紹
VMware Virtual SAN是全新的軟件定義的存儲層,可以擴展vSphere虛擬化管理程序以將計算和直連存儲池化。通過建立服務器直連硬盤和固態(tài)硬盤(HDD和SSD)集群,Virtual SAN可創(chuàng)建專門針對虛擬機設計和優(yōu)化的分布式共享數據存儲。
Virtual SAN內置在vSphere內核中并采用分布式體系結構:利用SSD提供高性能讀/寫緩存,利用HDD確保經濟高效的數據持久性。該技術基于高度可用的體系結構并且無單點故障。它可以應對磁盤、服務器和網絡級別的故障并且不丟失數據,因為它內置了冗余機制,可以為磁盤和主機上的數據透明地存儲多個副本。
Virtual SAN實現(xiàn)了基于策略的存儲管理方法??梢酝ㄟ^將簡單策略與各個虛擬機或虛擬磁盤關聯(lián)起來指定存儲屬性,如容量、性能和可用性。存儲可以根據指定的策略立即完成資源調配和自動配置。無論位于集群中的什么物理位置,虛擬機都會維持自己的獨特策略。工作負載條件變化時,Virtual SAN會動態(tài)地自行調整并實現(xiàn)負載平衡,以遵守每個虛擬機的策略。
分布式存儲的主要特點是:
1.Hypervisor層實現(xiàn):無需其他硬件和軟件,與vSphere管理無縫整合,簡化了存儲層的管理,充分利用DRS實現(xiàn)對運算、存儲和網絡資源的全面優(yōu)化分配,存儲策略的制定可以具體到某個虛擬服務器。內嵌在VMware vSphere內核的VMware Virtual SAN將提供最佳性能和可擴展性。
2.分布式架構:VMware Virtual SAN利用SSD硬盤實現(xiàn)高性能的讀/寫緩存,并利用硬盤實現(xiàn)高性價比的數據長期保存。endprint
3.讀/寫I/O緩存:Virtual SAN通過在服務器端SSD硬盤中內置緩存,加快讀/寫磁盤I/O的速度,將存儲延遲降到最低限度。
4.內置故障防護:該技術利用分布式RAID和緩存鏡像確保磁盤、主機或網絡發(fā)生故障時絕不丟失數據。
5.無中斷容量可擴展性:我們可以通過為集群添加主機或為主機添加磁盤,可無中斷的對Virtual SAN數據存儲的容量進行擴展。
6.以虛擬機為中心的基于策略的管理:該技術采用可自動轉換為系統(tǒng)配置的策略信息,將存儲要求與各個虛擬機或虛擬磁盤關聯(lián)起來。
7.自行調節(jié)存儲和動態(tài)存儲負載平衡:Virtual SAN自動無中斷地保持為每個虛擬機指定的存儲容量、性能和可用性級別。該技術可以與VMware vSphere Distributed Resource Scheduler進行互操作,實現(xiàn)端到端計算和存儲平衡。
8.與vSphere數據服務集成:該解決方案利用vSphere快照、vSphere克隆、VMware vSphere Data Protection和vSphere Replication,跨集群或站點提供數據保護、備份、快速克隆和數據傳輸以便進行災難恢復。
9.廣泛的硬件兼容性:Virtual SAN是獨立于硬件的解決方案,可以在所有服務器OEM廠商提供的硬件上部署。
四、vSAN分布式存儲在上海公安高專數字化圖書館中的部署
對于以上vSAN的理解,如僅僅從字面上看,vSAN是指虛擬的SAN(Store Area Network),常常會被誤以為是SAN的替代品。其實vSAN只是將物理的存儲資源轉化成虛擬的存儲資源池,物理存儲資源是存儲虛擬化的基礎。這就好比是服務器虛擬化,并不是要替代物理的服務器,而是要提升物理服務器的使用效率。
從vSAN分布式存儲的特點來看,其完全符合上海公安高專數字化圖書館對目前存儲的要求,而且上海公安高?;赩Mware的服務器虛擬化已經歷經了三期的部署,虛擬化平臺的先進性、穩(wěn)定性、安全性都取得了非常大的成效。在此基礎上部署vSAN分布式存儲,與原有服務器虛擬化進行無縫的融合,又大大提升了安全性和運維的高效性。
結合上海公安高專數字化圖書館對存儲的要求,此次vSAN存儲服務器硬件配置設計如上表。
由于vSAN可以實現(xiàn)存儲服務器之間Raid的技術,不計高速緩沖SSD空間,每臺服務器可以提供18TB可用容量,采用N-1的模式,4臺服務器可以提供3臺服務器的存儲空間容量,即3×18TB=54TB容量可用。
結合公安高專的實際硬件和網絡特點,我們最終設計的拓撲結構圖如圖2。
在每個服務器中配置2個萬兆的端口,交換機配置方案中采用2臺24口的萬兆二層交換機,來保證內部的高速通訊。
1.實施過程中注意的事項
在vSAN部署過程中,需要注意以下幾點:
(1)vSAN 要求提供存儲的主機上的每個磁盤組都至少有 1 塊 SSD 和 1 塊磁盤。每個磁盤組最多可以包含 1 塊 SSD 和 6 塊磁盤。如果 HDD 超過 6 塊或 SSD 達到或超過2塊,則需要另行創(chuàng)建一個磁盤組。為 vSAN 數據存儲提供容量的每個主機都至少有一個本地磁盤組。每個主機最多可以包含 5 塊磁盤組。
(2)SSD硬盤的容量不計入 vSAN 數據存儲總容量。調整環(huán)境大小時,不要在總容量計算中計入 SSD 容量。建議將每個磁盤組中 SSD 容量與 HDD 容量的最小比例設定為 1:10,換句話說,如果我們有 1TB 的 HDD 容量,則建議 SSD 容量至少為 100GB。如果所選 SSD 的性能合適,則很容易使 vSAN 的性能提高 5 倍到 10 倍。默認情況下,可用 SSD 容量的 70% 將用作讀取緩存,30% 將用作寫入緩沖區(qū)。因為在vSAN規(guī)劃設計中,緩存容量最好大于緩沖區(qū)容量。
Virtual SAN(vSAN) 群集目前最多可以包含 8 臺主機,最少為 3 臺。(請注意,這是目前vSAN的限制,以后會有所變化)。
(3)建議使用兩個 10GbE 網卡處理vSAN VMkernel 流量,雖然 1GbE 就完全夠用了,但在 I/O 密集型環(huán)境下可能會有一定的局限性。VSS和 VDS 均受支持。建議每個物理網卡上都有一個 vSAN VMkernel,一定將其配置為“活動/待機”兩種狀態(tài),這樣如果有 2 塊物理網卡端口,則 2 個vSAN VMkernel 都有自己的端口。還要注意到,不支持一個主機上的多個 vSAN VMkernel 網卡位于同一個子網中,要求不同的vSAN VMkernel位于不同的子網。
(4)調整環(huán)境大小時,一定要把數據副本考慮在內。
(5)定義虛擬機存儲策略時,請避免使用不必要的“閃存讀取緩存預留”。vSAN 具有內部讀取緩存優(yōu)化算法,可以完全依靠該算法來實現(xiàn)緩存操作。
2.vSAN不足之處
由于vSAN是當今IT領域里,運用純軟件技術將軟、硬件界限變模糊的一種最新概念的技術, 所以使用中發(fā)現(xiàn)vSAN還存在一些相關的不足,有待完善。
(1)vSAN 目前不支持容量大于 2TB 的虛擬機。
(2)vSAN 不支持 FT、DPM、Storage DRS 或 Storage I/O Control。但應注意,vSAN 會根據需要進行內部調度和平衡控制。Storage DRS 和 SIOC 適用于 SAN/NAS 環(huán)境。
(3)vSAN采用基于TCP/IP的存儲協(xié)議RDT(Reliable Datagram Transport),以提供類似iSCSI的存儲訪問方式。這種方式的存儲訪問,需要消耗部分主機端的系統(tǒng)資源(需要進行相關數據包的拆包和存儲協(xié)議信息的組合),當IO吞吐量比較大的時候,基于TCP/IP協(xié)議的存儲訪問,其效率肯定不及FC協(xié)議的訪問效率。
(4)作為一種比較新的分布式存儲,其產品成熟度也有待提升。因此在部署此種存儲架構的同時,需要對數據安全性考慮更加完善(例如需要配合常規(guī)數據備份保護方式)。
五、vSAN分布式存儲部署最終實現(xiàn)的效果
以上海公安高專數字化圖書館實施vSAN分布式存儲部署實例,在數字化圖書館存儲系統(tǒng)中應用情況判斷,歸結起來有以下好處:
1.可以在原有VMware架構體系內實現(xiàn)大容量存儲的需求,與VMware sphere無縫結合,可以大大提高使用范圍和管理效率,并可保護現(xiàn)有的軟硬件投資。
2.可以通過增加副本數量的設置,保證圖書館數據保留多份,提升數據的安全性。
3.vSAN存儲與成本相對較高的IP SAN集中存儲性能相當,完全可以擔當中高端IP SAN存儲的任務。 實際使用下來,由于vSAN存儲服務器配置的SSD和SATA硬盤互相呼應,當多個圖情數字業(yè)務系統(tǒng)有多任務高并發(fā)的突發(fā)流量產生時,在IOPS比較大或者吞吐量增大的情況下,與理論上完全能自動實現(xiàn)先將數據緩存到SSD高速硬盤,再寫入到普通SATA硬盤結果相符,沒有出現(xiàn)當多個檢索系統(tǒng)服務器在同時多任務高并發(fā)運行時,存儲后端有讀寫速度緩慢或減慢現(xiàn)象。
4.方便的海量擴展性。對于后續(xù)存儲空間的增加,只需要配置普通的PC服務器,按照之前的配置要求加入到相應的存儲服務器組即可完成,無需停機或者業(yè)務停頓,業(yè)務的連續(xù)性也得到了保證。
5.前景最為看好的是:采用了vSAN分布式存儲后,可以不再依賴某種存儲或者幾種存儲。后續(xù)擴容可以避免高昂的存儲硬件服務成本和硬件擴容成本。只需考慮普通PC服務器的服務和硬件擴容成本,后續(xù)存儲投入成本幾乎是對半,具有很高的性價比;幾乎支持所有的圖情數字業(yè)務系統(tǒng)的擴容需求。對于高校的數字圖書館存儲中心來說,如需要部署方式簡單、快捷,業(yè)務又不中斷,更不用考慮對已有的存儲架構產生性能等方面的影響,vSAN非常有吸引力。
(編輯:魯利瑞)endprint