歐艷鵬
摘 要云計(jì)算技術(shù)、物聯(lián)網(wǎng)等技術(shù)快速發(fā)展,多樣化已經(jīng)成為數(shù)據(jù)信息的一項(xiàng)顯著特點(diǎn),如圖片、音頻、視頻信息等。為充分發(fā)揮信息應(yīng)用價(jià)值,有效存儲(chǔ)已經(jīng)成為人們關(guān)注的熱點(diǎn)。為了有效應(yīng)對現(xiàn)實(shí)世界中復(fù)雜多樣性的大數(shù)據(jù)處理需求,需要針對不同的大數(shù)據(jù)應(yīng)用特征,從多個(gè)角度、多個(gè)層次對大數(shù)據(jù)進(jìn)行存儲(chǔ)和管理。本文主要分析了大數(shù)據(jù)面臨的存儲(chǔ)管理問題以及簡述了存儲(chǔ)管理關(guān)鍵技術(shù)。
【關(guān)鍵詞】大數(shù)據(jù) 分布式文件系統(tǒng) 分布式數(shù)據(jù)庫 NoSQL數(shù)據(jù)庫 云數(shù)據(jù)庫
1 大數(shù)據(jù)面臨的存儲(chǔ)管理問題
1.1 存儲(chǔ)規(guī)模大
大數(shù)據(jù)的一個(gè)顯著特征就是數(shù)據(jù)量大,起始計(jì)算量單位至少是PB,甚至?xí)捎酶蟮膯挝籈B或ZB,導(dǎo)致存儲(chǔ)規(guī)模相當(dāng)大。
1.2 種類和來源多樣化,存儲(chǔ)管理復(fù)雜
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)技術(shù)的發(fā)展,以電子商務(wù)(如京東、天貓、阿里巴巴等)、社交網(wǎng)絡(luò)(微信、微博等)為代表的新型web2.0 應(yīng)用迅速普及,大數(shù)據(jù)主要來源于搜索引擎服務(wù)、電子商務(wù)、社交網(wǎng)絡(luò)、音視頻、在線服務(wù)、個(gè)人數(shù)據(jù)業(yè)務(wù)、地理信息數(shù)據(jù)、傳統(tǒng)企業(yè)、公共機(jī)構(gòu)等領(lǐng)域,因此數(shù)據(jù)呈現(xiàn)方法眾多,可以是結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)形態(tài),不僅使原有的存儲(chǔ)模式無法滿足數(shù)據(jù)時(shí)代的需求,還導(dǎo)致存儲(chǔ)管理更加復(fù)雜。
1.3 對數(shù)據(jù)服務(wù)的種類和水平要求高
大數(shù)據(jù)的價(jià)值密度相對較低,以及數(shù)據(jù)增長速度快、處理速度快、時(shí)效性要求也高,在這種情況下如何結(jié)合實(shí)際的業(yè)務(wù),有效地組織管理、存儲(chǔ)這些數(shù)據(jù)以能從浩瀚的數(shù)據(jù)中,挖掘其更深層次的數(shù)據(jù)價(jià)值呢,需要亟待解決。
大規(guī)模的數(shù)據(jù)資源蘊(yùn)含著巨大的社會(huì)價(jià)值,有效管理數(shù)據(jù),對國家治理、社會(huì)管理、企業(yè)決策和個(gè)人生活、學(xué)習(xí)將帶來巨大的作用和影響,因此在大數(shù)據(jù)時(shí)代,必須解決海量數(shù)據(jù)的高效存儲(chǔ)問題。
2 大數(shù)據(jù)存儲(chǔ)管理的關(guān)鍵技術(shù)分析
2.1 分布式文件系統(tǒng)
分布式文件系統(tǒng)是一種通過計(jì)算機(jī)網(wǎng)絡(luò)實(shí)現(xiàn)在多臺機(jī)器上進(jìn)行分布式存儲(chǔ)的文件系統(tǒng),它把文件分布存儲(chǔ)到多個(gè)計(jì)算機(jī)節(jié)點(diǎn)上,成千上萬的計(jì)算機(jī)節(jié)點(diǎn)構(gòu)成計(jì)算機(jī)集群,設(shè)計(jì)一般所采用的是“客戶機(jī)/服務(wù)器”模式。分布式文件系統(tǒng)的設(shè)計(jì)需要重點(diǎn)考慮可擴(kuò)展性、可靠性、性能優(yōu)化、易用性及高效元數(shù)據(jù)管理等關(guān)鍵技術(shù)。
當(dāng)前大數(shù)據(jù)領(lǐng)域中,分布式文件系統(tǒng)的使用主要以Hadoop HDFS為主。HDFS采用了冗余數(shù)據(jù)存儲(chǔ),增強(qiáng)了數(shù)據(jù)可靠性,加快了數(shù)據(jù)傳輸速度,除此之外,HDFS還具有兼容的廉價(jià)設(shè)備、流數(shù)據(jù)讀寫、大數(shù)據(jù)集、簡單的數(shù)據(jù)模型、強(qiáng)大的跨平臺兼容性等特點(diǎn)。但HDFS也存在著自身的不足,比如不適合低延遲數(shù)據(jù)訪問、無法高效存儲(chǔ)大量小文件和不支持多用戶寫入及任意修改文件等。
2.2 分布式數(shù)據(jù)庫
分布式數(shù)據(jù)庫HBase是一個(gè)高可靠、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫,是谷歌BigTable的開源實(shí)現(xiàn),主要用來存儲(chǔ)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。HBase可以支持Native Java API、HBase Shell等多種訪問接口,可以根據(jù)具體應(yīng)用場合選擇相應(yīng)的訪問方式,而且相對于傳統(tǒng)的關(guān)系數(shù)據(jù)庫來說,HBase采用了更加簡單的數(shù)據(jù)模型,把數(shù)據(jù)存儲(chǔ)為未經(jīng)解釋的字符串,用戶可以把不同格式的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)都序列化成字符串保存到HBase中,除此之外在數(shù)據(jù)操作、存儲(chǔ)模式、數(shù)據(jù)索引、數(shù)據(jù)維護(hù)和可伸縮性等方面都有了更易于實(shí)現(xiàn)的方式。但HBase也存在著不支持事務(wù)等限制。
2.3 NoSQL數(shù)據(jù)庫
對于NoSQL,當(dāng)前比較流行的解釋是“Not Only SQL”,它所采用的數(shù)據(jù)模型并非傳統(tǒng)關(guān)系數(shù)據(jù)庫的關(guān)系模型,而是類似鍵值、列族、文檔等非關(guān)系模型。NoSQL數(shù)據(jù)庫沒有固定的表結(jié)構(gòu),一般也不會(huì)存在連接操作,也沒有嚴(yán)格遵守事務(wù)的原子性、一致性、隔離性和持久性。因此與傳統(tǒng)關(guān)系數(shù)據(jù)庫相比,NoSQL具有靈活的可擴(kuò)展性、靈活的數(shù)據(jù)模型、與云計(jì)算緊密融合和支持海量數(shù)據(jù)存儲(chǔ)等特點(diǎn)。但NoSQL數(shù)據(jù)庫也存在很難實(shí)現(xiàn)數(shù)據(jù)的完整性、NoSQL的應(yīng)用還不是很廣泛、成熟度不高、風(fēng)險(xiǎn)較大、缺乏難以體現(xiàn)業(yè)務(wù)的實(shí)際情況、增加了對于數(shù)據(jù)庫設(shè)計(jì)與維護(hù)的難度等問題。
目前NoSQL數(shù)據(jù)庫數(shù)量很多,典型的NoSQL數(shù)據(jù)庫通常包括鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫。鍵值數(shù)據(jù)庫系統(tǒng)的典型代表包括BigTable、 Dynamo、Redis、Cassandra等。列族數(shù)據(jù)庫系統(tǒng)的典型代表包括HadoopDB、GreenPlum等。文檔數(shù)據(jù)庫系統(tǒng)的代表包括MongoDB、Coudibase等。圖數(shù)據(jù)數(shù)據(jù)庫系統(tǒng)的代表是Neo4J、GraphDB等。
2.4 云數(shù)據(jù)庫
云數(shù)據(jù)庫技術(shù)是云計(jì)算的一項(xiàng)重要分支,是對云計(jì)算的具體運(yùn)用。云數(shù)據(jù)庫是部署和虛擬化在云計(jì)算環(huán)境中的數(shù)據(jù)庫。它極大地增強(qiáng)了數(shù)據(jù)庫的存儲(chǔ)能力,消除了人員、硬件和軟件的重復(fù)配置,讓軟硬件升級變得更加容易,同時(shí)也虛擬化了許多后端的功能。而且在云數(shù)據(jù)庫中,所有數(shù)據(jù)庫功能都是在云端提供的,客戶端可以通過網(wǎng)絡(luò)遠(yuǎn)程使用云數(shù)據(jù)庫提供的服務(wù),在使用中不需要了解云數(shù)據(jù)庫的具體的物理細(xì)節(jié),使用非常方便容易??砂凑沼脩魝€(gè)人的需求進(jìn)行數(shù)據(jù)和信息的存儲(chǔ),例如通過使用百度云、360云盤等眾多互聯(lián)網(wǎng)公司所開發(fā)的網(wǎng)絡(luò)儲(chǔ)存平臺,可實(shí)現(xiàn)較大的儲(chǔ)存容量,并且能夠借助搜索功能快速獲取目標(biāo)數(shù)據(jù)文件。因此云數(shù)據(jù)庫具有高可擴(kuò)展性、高可用性、較低的使用代價(jià)、易用性、高性能、免維護(hù)等特點(diǎn)。
3 結(jié)論
在大數(shù)據(jù)時(shí)代的背景下,海量的數(shù)據(jù)整理成為了各個(gè)企業(yè)急需解決的問題。而原有的存儲(chǔ)模式以及跟不上時(shí)代的步伐,無法滿足數(shù)據(jù)時(shí)代的需求,導(dǎo)致信息處理技術(shù)無法承載信息的負(fù)荷量,這就需要對數(shù)據(jù)的存儲(chǔ)技術(shù)和存儲(chǔ)模式進(jìn)行創(chuàng)新與研究,跟上數(shù)字化存儲(chǔ)的技術(shù)的發(fā)展步伐,給用戶提供一個(gè)具有高質(zhì)量的數(shù)據(jù)存儲(chǔ)體驗(yàn)。根據(jù)大數(shù)據(jù)的特點(diǎn)的每一種技術(shù)都各有所長,彼此都有各自的市場空間,在很長的一段時(shí)間內(nèi),滿足不同應(yīng)用的差異化需求。但為了更好的滿足大數(shù)據(jù)時(shí)代的各種非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)需求,數(shù)據(jù)管理和存儲(chǔ)技術(shù)仍需進(jìn)一步改進(jìn)和發(fā)展。
參考文獻(xiàn)
[1]謝光.數(shù)據(jù)庫大數(shù)據(jù)量存儲(chǔ)結(jié)構(gòu)的探索[J].通信設(shè)計(jì)與應(yīng)用,2017(06).
[2]梁鳳蘭大數(shù)據(jù)時(shí)代數(shù)據(jù)管理方式的研究[J].電腦開發(fā)與應(yīng)用,2013(26).
[3]劉若冰.面向大數(shù)據(jù)云存儲(chǔ)系統(tǒng)的關(guān)鍵技術(shù)研究[J].現(xiàn)代電子技術(shù),2016(06).
[4]王兵,崇陽,楊彬.大數(shù)據(jù)時(shí)代的大數(shù)據(jù)管理研究[J].無線互聯(lián)科技,2016,4(08).
作者單位
呼和浩特民族學(xué)院 內(nèi)蒙古自治區(qū)呼和浩特市 010051endprint