楊翠翠 邵大鵬 周濤 呂美敬
摘? ?要:隨著信息技術(shù)的高速發(fā)展,網(wǎng)絡(luò)用戶迅猛增加。如今的互聯(lián)網(wǎng)正處于一個(gè)信息爆炸的時(shí)代,對(duì)信息的存儲(chǔ)和處理導(dǎo)致了海量數(shù)據(jù)的產(chǎn)生。海量分布式云安全存儲(chǔ)系統(tǒng)主要是對(duì)海量信息進(jìn)行存儲(chǔ)和處理,通過(guò)多項(xiàng)安全技術(shù)的融合,最終實(shí)現(xiàn)安全性高、性能高、業(yè)務(wù)連續(xù)性高的分布式存儲(chǔ)系統(tǒng)。論文在對(duì)分布式云安全存儲(chǔ)系統(tǒng)的特點(diǎn)進(jìn)行深入分析的基礎(chǔ)上,就分布式云安全存儲(chǔ)系統(tǒng)的關(guān)鍵性技術(shù)的實(shí)現(xiàn)細(xì)節(jié)和設(shè)計(jì)模式進(jìn)行了詳盡的分析和闡述。同時(shí),基于其技術(shù)理論,構(gòu)建了實(shí)際的云安全存儲(chǔ)系統(tǒng),并進(jìn)行了環(huán)境實(shí)測(cè),最終實(shí)現(xiàn)了預(yù)期的目標(biāo)。
關(guān)鍵詞:分布式;云安全;存儲(chǔ)系統(tǒng);研究;應(yīng)用
中圖分類號(hào):TP302.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract: With the rapid development of information technology, Internet users are increasing rapidly. Nowadays, the Internet is in an era of information explosion, and the storage and processing of information leads to the generation of massive data. Massive distributed cloud security storage system mainly stores and processes massive information, and finally realizes the distributed storage system with high security, high performance and high business continuity through the integration of many security technologies. Based on the in-depth analysis of the characteristics of the distributed cloud security storage system, this paper analyzes and expounds the implementation details and design patterns of the key technologies of the distributed cloud security storage system. At the same time, based on its technical theory, the actual cloud security storage system is constructed, and the environment is measured. Finally, the expected goal is achieved.
Key words: distributed; cloud security; storage system; research; application
1 引言
隨著信息技術(shù)的高速發(fā)展,網(wǎng)絡(luò)用戶迅猛增加。如今的互聯(lián)網(wǎng)正處于一個(gè)信息爆炸的時(shí)代,對(duì)信息的存儲(chǔ)和處理導(dǎo)致了海量數(shù)據(jù)的產(chǎn)生。所謂海量數(shù)據(jù),是指數(shù)據(jù)量極大,一般是TB(1012bytes)、PB(1015bytes)、EB(1018bytes)級(jí)別的數(shù)據(jù)集合。針對(duì)互聯(lián)網(wǎng)中的海量數(shù)據(jù),傳統(tǒng)的存儲(chǔ)技術(shù)和C/S存儲(chǔ)模式已經(jīng)難承其重。
對(duì)于海量數(shù)據(jù)而言,幾乎無(wú)法實(shí)現(xiàn)在單一設(shè)備上的存儲(chǔ)方式,采用分布式的存儲(chǔ)技術(shù)是一種合適的解決方案,其顯現(xiàn)了強(qiáng)大的生命力,得到了企業(yè)界和科學(xué)界的廣泛認(rèn)可。海量信息的存儲(chǔ)不僅對(duì)存儲(chǔ)設(shè)備的儲(chǔ)存容量有要求,還需要大規(guī)模數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和處理這些信息。因此,在滿足通用關(guān)系數(shù)據(jù)庫(kù)技術(shù)要求的前提下,還需要對(duì)影響海量數(shù)據(jù)存儲(chǔ)系統(tǒng)性能的存儲(chǔ)模式、安全架構(gòu)、數(shù)據(jù)庫(kù)策略和應(yīng)用體系等進(jìn)行更進(jìn)一步的設(shè)計(jì)考慮。分布式云安全存儲(chǔ)系統(tǒng)主要是對(duì)海量信息進(jìn)行存儲(chǔ)和處理,通過(guò)多項(xiàng)安全技術(shù)的融合,最終實(shí)現(xiàn)安全性高、性能高、業(yè)務(wù)連續(xù)性高的分布式云安全存儲(chǔ)系統(tǒng)。
2 分布式云安全存儲(chǔ)系統(tǒng)的特點(diǎn)
分布式云安全存儲(chǔ)系統(tǒng)在存儲(chǔ)模式、數(shù)據(jù)庫(kù)策略以及安全性方面均具有自身的特點(diǎn),這些是實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的高效、安全存儲(chǔ)的重中之重。
2.1 存儲(chǔ)模式
分布式云安全存儲(chǔ)系統(tǒng)采用的是對(duì)象存儲(chǔ)(Object-Based Storage, OBS)的存儲(chǔ)模式,其綜合了NAS和SAN的優(yōu)點(diǎn),且同時(shí)具有SAN的高速直接訪問(wèn)和NAS的數(shù)據(jù)共享等優(yōu)勢(shì),提供了具有高性能、高安全性、跨平臺(tái)以及安全的數(shù)據(jù)共享的存儲(chǔ)體系結(jié)構(gòu)。不同存儲(chǔ)模式的比較分析如表1所示。
2.2 數(shù)據(jù)庫(kù)策略
數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)是分布式云安全存儲(chǔ)系統(tǒng)的核心部件,所有對(duì)數(shù)據(jù)的控制都需要通過(guò)DBMS來(lái)實(shí)現(xiàn)。針對(duì)海量數(shù)據(jù),高性能且安全有效的數(shù)據(jù)存儲(chǔ)方法中可采取的數(shù)據(jù)庫(kù)策略主要有分區(qū)技術(shù)和并行處理技術(shù)兩種。所謂分區(qū)技術(shù),就是為了更精細(xì)的對(duì)數(shù)據(jù)庫(kù)對(duì)象進(jìn)行管理和訪問(wèn),可以對(duì)這些數(shù)據(jù)庫(kù)對(duì)象進(jìn)行深入的劃分。其中的數(shù)據(jù)庫(kù)對(duì)象主要指表、索引以及索引編排表等。所謂并行處理技術(shù),是指為了提高數(shù)據(jù)庫(kù)系統(tǒng)的性能,讓其多個(gè)處理器協(xié)同工作來(lái)執(zhí)行單個(gè)SQL語(yǔ)句。
2.3 安全性
隨著數(shù)據(jù)的爆炸式增長(zhǎng),存儲(chǔ)系統(tǒng)的規(guī)模不斷擴(kuò)大,而存儲(chǔ)設(shè)備的安全性卻一直沒(méi)有顯著改善,這給數(shù)據(jù)的持久化存儲(chǔ)帶來(lái)了巨大的困難。SSD從SLC到MLC和TLC的安全性一直下滑,磁盤隨著單位面積寫(xiě)入數(shù)據(jù)越來(lái)越多導(dǎo)致安全性無(wú)法提高。此外,存儲(chǔ)系統(tǒng)中的冷數(shù)據(jù)的增加遠(yuǎn)遠(yuǎn)超過(guò)了熱數(shù)據(jù)的增加,冷數(shù)據(jù)的安全保存及獲取是存儲(chǔ)系統(tǒng)的重要環(huán)節(jié)。分布式云安全存儲(chǔ)系統(tǒng)采用三副本、跨機(jī)器做EC等安全相關(guān)技術(shù)提高了存儲(chǔ)系統(tǒng)中數(shù)據(jù)的冗余度、容錯(cuò)度和安全性。
3 分布式云安全存儲(chǔ)系統(tǒng)的關(guān)鍵技術(shù)
存儲(chǔ)系統(tǒng)的安全性主要取決于硬盤壽命、容錯(cuò)度和單位修復(fù)時(shí)間。硬盤壽命比較難調(diào)整,且與采購(gòu)成本掛鉤;容錯(cuò)度通常與系統(tǒng)的冗余度有關(guān),且直接關(guān)系成本;單位修復(fù)時(shí)間是指單塊硬盤損壞的修復(fù)時(shí)間,不同的實(shí)現(xiàn)方式存在很大差異。以上三點(diǎn)是存儲(chǔ)系統(tǒng)安全性的關(guān)鍵指標(biāo)。其中,系統(tǒng)的冗余度作為存儲(chǔ)系統(tǒng)安全性指標(biāo)的重中之重,其實(shí)現(xiàn)方式是分布式云安全存儲(chǔ)系統(tǒng)的關(guān)鍵技術(shù)。
保證數(shù)據(jù)冗余度的兩個(gè)重要方法是編碼策略和副本策略。在原始數(shù)據(jù)發(fā)生部分丟失的情況下,這兩種策略都可以保證數(shù)據(jù)獲取的正確性。編碼策略是將原始數(shù)據(jù)分塊并編碼生成冗余數(shù)據(jù)塊,其可以保證即使丟失一定量?jī)?nèi)的數(shù)據(jù)塊,原始數(shù)據(jù)仍舊可以獲取到。副本策略是將原始數(shù)據(jù)拷貝一份或者多份進(jìn)行存儲(chǔ)。
在保證存儲(chǔ)系統(tǒng)冗余度方面,分布式云安全存儲(chǔ)系統(tǒng)可以進(jìn)行不同的配置方式,主要包括基本模式和高級(jí)模式兩種。
3.1 基本模式——三副本方式
三副本方式系統(tǒng)冗余度為3塊硬盤,容錯(cuò)度為允許3塊硬盤同時(shí)損壞2塊,在單位修復(fù)時(shí)間內(nèi),同時(shí)損壞3塊盤以上,則發(fā)生數(shù)據(jù)丟失。三副本方式是將同一份數(shù)據(jù)拷貝成三份存儲(chǔ)在不同的數(shù)據(jù)節(jié)點(diǎn)上。三副本方式的存儲(chǔ)系統(tǒng)結(jié)構(gòu)圖如圖1所示。
采用三副本模式后,分布式云安全存儲(chǔ)系統(tǒng)的具體實(shí)現(xiàn)方式如圖2所示。其中,NameNode節(jié)點(diǎn)為元數(shù)據(jù)節(jié)點(diǎn),里面主要保存元數(shù)據(jù)信息,例如文件系統(tǒng)目錄樹(shù)信息、文件和塊的對(duì)應(yīng)關(guān)系、文件系統(tǒng)的更改記錄等內(nèi)容。DataNode節(jié)點(diǎn)為數(shù)據(jù)節(jié)點(diǎn),主要保存具體的數(shù)據(jù)塊信息。由圖2可知,每個(gè)數(shù)據(jù)塊同時(shí)存在于三個(gè)不同的數(shù)據(jù)節(jié)點(diǎn)中,三個(gè)數(shù)據(jù)節(jié)點(diǎn)中同時(shí)損壞兩個(gè)及以下的數(shù)量,均不會(huì)造成數(shù)據(jù)丟失。
DFS的讀操作流程同寫(xiě)操作流程是相呼應(yīng)的,具體的流程描述有五步驟:
(1)客戶端與NameNode通訊獲取文件的塊位置信息,其中包括了塊的所有冗余備份的位置信息,即所在DataNode的列表;
(2)客戶端獲取文件位置信息后直接同有文件塊的DataNode通訊,讀取文件;
(3)如果第一個(gè)DataNode無(wú)法連接,客戶端將自動(dòng)聯(lián)系下一個(gè)DataNode;
(4)如果塊數(shù)據(jù)的校驗(yàn)值出錯(cuò),則客戶端需要向NameNode報(bào)告,并自動(dòng)聯(lián)系下一個(gè)DataNode;
(5)重復(fù)第(2)、(3)、(4)步過(guò)程,直至數(shù)據(jù)讀取成功,讀操作完成。
3.2 高級(jí)模式——跨機(jī)器做EC
在技術(shù)層面上,存儲(chǔ)系統(tǒng)的核心需求是安全性和成本,而這兩者又是相互矛盾的。提升系統(tǒng)安全性降低丟失數(shù)據(jù)的風(fēng)險(xiǎn),勢(shì)必要增加數(shù)據(jù)拷貝的份數(shù),而增加每份數(shù)據(jù)拷貝的份數(shù),又勢(shì)必會(huì)造成成本的增加。分布式云安全存儲(chǔ)系統(tǒng)采用EC冗余算法來(lái)平衡這個(gè)核心需求。EC冗余算法是將一份數(shù)據(jù)拆分成M份,并將這M份數(shù)據(jù)代入一個(gè)多元線性方程組,算出N份校驗(yàn)數(shù)據(jù),然后將這M+N份數(shù)據(jù)存儲(chǔ)。在存儲(chǔ)下來(lái)的M+N份數(shù)據(jù)中,有任何一份或者多份數(shù)據(jù)發(fā)生損壞,都可以通過(guò)這個(gè)多元線性方程組將損壞的數(shù)據(jù)算回。使用EC冗余算法的存儲(chǔ)系統(tǒng)最多支持N份數(shù)據(jù)損毀而不丟失數(shù)據(jù)。
采用跨機(jī)器做EC的高級(jí)模式后,分布式云安全存儲(chǔ)系統(tǒng)的冗余度為(N+M)/N,容錯(cuò)度為允許N+M塊硬盤同時(shí)損壞M塊,在單位修復(fù)時(shí)間內(nèi),同時(shí)損壞M+1塊盤,才會(huì)發(fā)生數(shù)據(jù)丟失。分布式云安全存儲(chǔ)系統(tǒng)通過(guò)計(jì)算,將M和N均做到比較大的數(shù)值,且M遠(yuǎn)遠(yuǎn)大于N,這樣使得系統(tǒng)的冗余度很高、容錯(cuò)度很大,且備份數(shù)又非常低。在一定程度上,很好地平衡了存儲(chǔ)系統(tǒng)的安全性和建設(shè)成本。
4 分布式云安全存儲(chǔ)系統(tǒng)的應(yīng)用
在對(duì)分布式云安全存儲(chǔ)系統(tǒng)深入研究的基礎(chǔ)之上,以中央財(cái)經(jīng)大學(xué)為應(yīng)用場(chǎng)景,將分布式云安全存儲(chǔ)系統(tǒng)進(jìn)行了實(shí)際業(yè)務(wù)環(huán)境的測(cè)試和使用。中央財(cái)經(jīng)大學(xué)全校師生共有2萬(wàn)人左右,涉及的科研、學(xué)工、教務(wù)、人事、組織、財(cái)務(wù)、招生、校園卡等信息,數(shù)據(jù)量較大,且數(shù)據(jù)塊較小,因此海量分布式云安全存儲(chǔ)系統(tǒng)是適合該應(yīng)用場(chǎng)景的。具體的配置流程是:采用10臺(tái)型號(hào)為NS3000-16的存儲(chǔ)服務(wù)器搭建了分布式云安全存儲(chǔ)系統(tǒng),配置為三副本的基本模式,同時(shí)對(duì)存儲(chǔ)系統(tǒng)的冗余度、容錯(cuò)度進(jìn)行了配置?;诜植际皆瓢踩鎯?chǔ)系統(tǒng)之上,構(gòu)建了云安全管理平臺(tái),實(shí)現(xiàn)了對(duì)近200臺(tái)虛擬化服務(wù)器的配置、使用和管理,該200臺(tái)虛擬服務(wù)器主要部署了中央財(cái)經(jīng)大學(xué)廣大師生相關(guān)的應(yīng)用系統(tǒng)。在構(gòu)建之初,對(duì)分布式云安全存儲(chǔ)系統(tǒng)的容量、冗余度和容錯(cuò)度分別進(jìn)行了驗(yàn)證性測(cè)試,均達(dá)到預(yù)期效果。系統(tǒng)啟用至今已經(jīng)2年多了,雖出現(xiàn)過(guò)硬件損壞但均未造成數(shù)據(jù)丟失,具有良好的穩(wěn)定性和安全性。由于該存儲(chǔ)系統(tǒng)主要是面向中央財(cái)經(jīng)大學(xué)的全體師生,數(shù)據(jù)來(lái)源較為單一,其在海量數(shù)據(jù)的存儲(chǔ)和安全管理方面的優(yōu)勢(shì)還有待在實(shí)際使用中進(jìn)一步驗(yàn)證和測(cè)試。
5 結(jié)束語(yǔ)
本文在對(duì)分布式云安全存儲(chǔ)系統(tǒng)的特點(diǎn)進(jìn)行深入分析的基礎(chǔ)上,就分布式云安全存儲(chǔ)系統(tǒng)的關(guān)鍵性技術(shù)的實(shí)現(xiàn)細(xì)節(jié)和設(shè)計(jì)模式進(jìn)行了詳盡的分析和闡述。同時(shí),基于其技術(shù)理論,構(gòu)建了實(shí)際的存儲(chǔ)系統(tǒng),并進(jìn)行了環(huán)境實(shí)測(cè),最終實(shí)現(xiàn)了預(yù)期的目標(biāo)。通過(guò)對(duì)分布式云安全存儲(chǔ)系統(tǒng)的細(xì)致研究,將其應(yīng)用到了實(shí)際的工作環(huán)境中,并計(jì)劃在今后的實(shí)際使用過(guò)程中不斷的完善之前的研究?jī)?nèi)容,繼續(xù)攻克新的技術(shù)難點(diǎn),推動(dòng)分布式云安全存儲(chǔ)系統(tǒng)的進(jìn)一步發(fā)展和完善。
參考文獻(xiàn)
[1] Fay Chang, Jeffrey Dean, Sanjay Ghemawat, et al.. Google BigTable—A Distributed Storage System for Data[C]. OSDI, 2006.
[2] 劉琨,李愛(ài)菊,董龍江.基于Hadoop的云存儲(chǔ)的研究及實(shí)現(xiàn)[J].微計(jì)算機(jī)信息, 2011.
[3] Jeffrey Dean, Sanjay Ghemawat. MapReduce:Simplied data processing on large clusters [C]. Proceedings of the 6th Symposium on Operating System Design and Implementation. New York: ACM Press. 2004.
作者簡(jiǎn)介:
楊翠翠(1985-),女,漢族,河北衡水人,北京工業(yè)大學(xué),研究生,工程師;主要研究方向和關(guān)注領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò)與應(yīng)用。
邵大鵬(1984-),男,漢族,吉林德惠人,北京工業(yè)大學(xué),研究生,工程師;主要研究方向和關(guān)注領(lǐng)域:信息安全。
周濤(1972-),男,漢族,吉林長(zhǎng)春人,西安電子科技大學(xué),本科,工程師;主要研究方向和關(guān)注領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò)與應(yīng)用。
呂美敬(1988-),女,漢族,山東濟(jì)寧人,華北電力大學(xué),研究生,工程師;主要研究方向和關(guān)注領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò)與應(yīng)用。