顧 勤
(景德鎮(zhèn)學院,江西 景德鎮(zhèn) 333400)
大數(shù)據(jù)時代下,人們的生活和社會各類產(chǎn)業(yè)的發(fā)展都離不開不斷發(fā)展的計算機技術和互聯(lián)網(wǎng)技術,云計算也因為海量數(shù)據(jù)而不斷完善與發(fā)展,與此同時,傳統(tǒng)的存儲信息技術逐漸跟不上時代發(fā)展的步伐,不能很好地滿足人們在日常生活和各領域生產(chǎn)中的要求,分布式存儲技術應運而生,為解決這一問題做出了巨大貢獻。分布式存儲技術包括軟件和硬件,二者各自發(fā)揮作用,共同促進了分布式存儲技術的發(fā)展[1]。
近年來,互聯(lián)網(wǎng)的發(fā)展迎來了新高峰,相關的網(wǎng)絡技術在不斷革新、進步,互聯(lián)網(wǎng)中不斷有移動終端、傳感設備等設備進入,相關數(shù)據(jù)量越來越大,數(shù)據(jù)值只增不減。云計算在我國許多領域都被廣泛應用,據(jù)相關調查顯示,阿里云應用了分布式存儲技術,促使業(yè)績飛速增長;國家對云計算也越來越重視,甚至出臺了許多與分布式存儲技術相關的戰(zhàn)略。一直以來,云計算之所以能夠有快速發(fā)展,核心在于分布式存儲技術,它一直都是云計算系統(tǒng)平穩(wěn)和安全運行的“保護傘”,但是云計算在發(fā)展中還是暴露了一些問題,需要相關人員去研究和解決[2]。
1.2.1 對分布式存儲系統(tǒng)數(shù)據(jù)安全性技術的研究
分布式存儲系統(tǒng)因為低成本的優(yōu)勢被許多領域的企業(yè)青睞,但缺點是在安全性方面存在重要問題。因為分布式存儲系統(tǒng)對數(shù)據(jù)的機密性和完整性有比較高的要求,同時也有強烈的需求,但其大多是在云端部署自己的一些基礎設備,所以安全程度較低。傳統(tǒng)的密碼學對于保證分布式存儲系統(tǒng)中數(shù)據(jù)的機密性有著十分重要的作用,想要確保數(shù)據(jù)的完整性,主要是通過在分布式存儲系統(tǒng)中引入安全技術實現(xiàn)的[3]。
1.2.2 對分布式存儲系統(tǒng)容納錯誤技術的研究
容錯技術并不是單一的,而是有很多種類型,不同容錯技術的基礎不同。基于研究現(xiàn)狀發(fā)現(xiàn),容錯技術主要有3種:(1)以復制為基礎的容錯技術,比較簡單,在實現(xiàn)過程中也很簡單,但是也有致命的缺點——存儲開銷過大,如果多臺服務器同時發(fā)生故障,可能會使大量信息丟失。(2)以糾刪碼為基礎的容錯技術,要同時對多個數(shù)據(jù)編碼產(chǎn)生編碼現(xiàn)象,可以很好地解決對于以復制為基礎的容錯技術產(chǎn)生開銷過大的問題;缺陷在于,如果某一節(jié)點發(fā)生了問題,需要連接多個節(jié)點才能恢復數(shù)據(jù),對寬帶是十分耗費的。(3)以網(wǎng)絡編碼為基礎的容錯技術,保留了以糾刪碼為基礎容錯技術的優(yōu)勢,同時,引進了與網(wǎng)絡編碼有關的先進思想,對分布式存儲系統(tǒng)有很大的作用[4]。
文件系統(tǒng)和數(shù)據(jù)庫是面向大數(shù)據(jù)存儲的信息數(shù)據(jù)的主要內容,但是一般需要彈性很強的擴展能力進行支撐,而分布式的存儲技術能夠滿足各種需要。分布式存儲技術容易在設計與具體實施過程中產(chǎn)生差異,主要原因是數(shù)據(jù)庫對分布式存儲技術系統(tǒng)的要求過高,但是文件系統(tǒng)主要是要求氣存儲空間的質量能夠更高。
“雙十一”瘋狂購物、春運搶票等事件,會導致數(shù)據(jù)總量十分龐大,而且各網(wǎng)絡用戶也會對數(shù)據(jù)頻繁操作,但是并不是所有的數(shù)據(jù)都有人訪問的,有的數(shù)據(jù)訪問量過大,有的數(shù)據(jù)幾乎無人問津,幾乎沒有被訪問的數(shù)據(jù)占據(jù)很大的存儲空間,會大大提高存儲技術的成本,降低性價比,使許多企業(yè)望而卻步。另外,傳統(tǒng)存儲技術過于復雜,新的分布式存儲技術要克服傳統(tǒng)存儲技術的復雜以及擴展度低的問題。
在大數(shù)據(jù)時代,分布式存儲技術如果想要獲得更好的發(fā)展,就必須要積極改革和創(chuàng)新,技術人員要分析當下在傳統(tǒng)存儲技術和新的分布式存儲技術中各自存在的問題,然后盡力在解決問題的基礎上發(fā)展自身。接下來,本文將詳細分析面向大數(shù)據(jù)時代實現(xiàn)分布式存儲技術更好發(fā)展的策略。
完善極限數(shù)據(jù)分布式存儲技術是指通過業(yè)務邏輯和復雜查詢來對總量龐雜的數(shù)據(jù)進行操作,此外,還要分析處理數(shù)據(jù)訪問量,其很關鍵的作用是提高信息訪問的速度。所以,極限數(shù)據(jù)分布式存儲技術要實現(xiàn)大力度的架構作用調整。NoSQL與NewSQL是極限數(shù)據(jù)分布式存儲的兩大主要架構技術,兩者共同點在于都是面向極限數(shù)據(jù)分布式存儲技術,各有優(yōu)勢,但也有很多不同點;最關鍵的是兩大主要架構技術都有不足之處,且都是關于極限性能方面的。所以,極限數(shù)據(jù)分布式存儲技術不僅要注重外存方面的改變,也要注重內存方面的改變,尤其是內存方面的改變,主要可以通過改變節(jié)點來實現(xiàn)。
存儲技術一直在努力控制成本,但是當下數(shù)據(jù)信息量的極速增長導致成本控制越來越難。低成本分布式存儲技術與極限數(shù)據(jù)分布存儲技術有所不同,主要體現(xiàn)在對訪問量較低的數(shù)據(jù)信息的分析和處理上。低成本分布式存儲技術對低訪問數(shù)據(jù)信息的實時性要求并不高,但是成本控制問題卻給相關人員提出了一個大難題。許多相關技術企業(yè)都注重使用對象存儲方法,目的就是控制成本。對象存儲主要就是一個相應的對象為一個訪問單元,主要以對象存儲設備為基礎去構建存儲系統(tǒng),能夠實現(xiàn)對相關數(shù)據(jù)的自動化管理及保存。對象存儲系統(tǒng)在當下已經(jīng)發(fā)展得比較完備,Swift就是一種比較典型的對象存儲系統(tǒng)。
軟件自定義分布式存儲技術能夠對存儲系統(tǒng)進行分布式的統(tǒng)一存儲,在統(tǒng)一存儲的過程中,主要通過軟件應用的方式進行。Ceph是比較典型的自定義分布式存儲技術,一個十分顯著的特點是訪問接口多樣化,對具體的數(shù)據(jù)塊能夠通過算法定位,使其使用性和擴展性不斷得到提高。Ceph的分布式存儲方法具有強一致性,所以,如果是跨地區(qū)甚至是跨機房使用,都可能會引起一些不適用的問題。另外,技術人員要注意不斷將Ceph系統(tǒng)中納入更多的存儲模式,以滿足更多客戶的數(shù)據(jù)需求,而且其設計要能夠滿足不同客戶的需求,為客戶提供高質量、高效率的存儲管理服務。
大數(shù)據(jù)空間管理系統(tǒng)主要是4層架構:(1)數(shù)據(jù)資源層。負責存儲和管理各類數(shù)據(jù),可以說是整個系統(tǒng)的比較數(shù)據(jù)資源層。特點是能夠快速讀取和高效計算空間大數(shù)據(jù),滿足空間信息瀏覽過程中的各種需求,例如,進行高效分析處理和應用。(2)基礎設施層。是整個系統(tǒng)的支持基礎,功能是對各種資源進行計算、存儲,此外,還包括安全設備和網(wǎng)絡資源,因此十分豐富。(3)系統(tǒng)應用層。以組件服務層提供的服務接口和功能組件為基礎,對Web端、桌面端等模式進行應用構建。Web應用和桌面應用包括的數(shù)據(jù)種類都很多,Web端包括對信息的查詢檢索、展示成果數(shù)據(jù)等;而桌面應用包括更新維護數(shù)據(jù)、管理好系統(tǒng)安全等。(4)組件服務層。體現(xiàn)著整個系統(tǒng)的基本服務能力,不僅能夠對應用層的應用構件進行支撐,還能夠對數(shù)據(jù)層的數(shù)據(jù)資源進行操作,既可以向上也可以向下,當然,相關操作都是通過服務接口和功能組件完成的。
分布式文件系統(tǒng)是指在文件系統(tǒng)管理中,物理存儲資源的連接點不確定,既有可能連接在本地的節(jié)點上,也有可能通過計算機網(wǎng)絡媒介與節(jié)點相連。對于分布在網(wǎng)絡任何位置的資源數(shù)據(jù),分布式文件系統(tǒng)都能夠為其提供樹形文件系統(tǒng)結構。分布式文件系統(tǒng)存儲技術能夠在不同節(jié)點上存儲數(shù)據(jù),因此,有一個十分明顯的優(yōu)勢:能夠保證數(shù)據(jù)安全,減少丟失數(shù)據(jù)的可能性。
我國社會與經(jīng)濟的不斷發(fā)展、進步,促使互聯(lián)網(wǎng)以及計算機的各類技術在不斷改革,許多新型數(shù)據(jù)模式誕生,存儲信息數(shù)據(jù)的技術也在不斷進步,力求能夠滿足用戶各種各樣的需求。從分布式數(shù)據(jù)存儲技術的研究現(xiàn)狀來看,該技術目前受到各領域的青睞,其優(yōu)勢決定了它還有很大的發(fā)展空間;但是對于分布式數(shù)據(jù)存儲技術中存在的問題,相關技術人員也不能忽視,而是要從各方面去解決,促進該技術更加完善、先進。