西安武警工程大學 楊濟華
分布式系統(tǒng)下的元數(shù)據(jù)管理研究
西安武警工程大學 楊濟華
網(wǎng)絡,通信,計算機等電子技術的飛快發(fā)展加快了信息化建設的腳步,而直線上升的信息量在給我們工作生活帶來便利和財富的同時,也讓我們陷入了深深的數(shù)據(jù)迷霧當中,隨著移動終端的發(fā)展,使人們對于網(wǎng)絡信息的依賴程度逐漸加深,因此對于信息資源的管理顯得尤為重要,元數(shù)據(jù),就在海量信息管理的難題中應運而生。
元數(shù)據(jù);分布式系統(tǒng);元數(shù)據(jù)分布策略
元數(shù)據(jù)是為了解決雜亂無章網(wǎng)絡數(shù)據(jù)而提出的,因此當前元數(shù)據(jù)就是為了解決數(shù)據(jù)管理問題。
區(qū)穎薇、吳開華、趙慧勤、王曄等人分別在自己的文章中對數(shù)據(jù)產(chǎn)生背景進行了論述,他們的觀點基本一致。他們指出網(wǎng)絡的出現(xiàn)使大量的信息以一種新的方式涌現(xiàn)在我們面前。而對這些無序的數(shù)字化信息的進行有效的檢索與控制是目前各界人士都十分關注的一個問題。目前網(wǎng)絡資源的管理、檢索有兩種類型,一種是機讀目錄(MARC),它是“用計算機識別與閱讀的目錄”。另一種是搜索引擎(Search engine),它是“一類自動搜索、組織網(wǎng)絡的信息資源,并提供檢索服務的信息服務系統(tǒng)”。數(shù)據(jù)制定簡單、方便,特別是它更新快,能幫助人們及時找到最新信息,但不夠精確,查全、查準率低。
在數(shù)據(jù)管理方式不夠健全的背景下,為了將數(shù)據(jù)有序化,提高查詢效率,元數(shù)據(jù)作為一種新的概念被提出。
關于元數(shù)據(jù)概念的認識,雖然存在層次高低的區(qū)別,但對其基本特性意見基本一致,劉嘉博士在她的論文中對元數(shù)據(jù)這一概念作了最有深度的探討,對元數(shù)據(jù)的含義作了詳盡的闡述, 認為“元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù),關于結(jié)構化數(shù)據(jù)的數(shù)據(jù)?!痹谖募到y(tǒng)中,元數(shù)據(jù)就是描述系統(tǒng)文件的屬性信息,記錄文件位置的數(shù)據(jù),我們可以理解為“一本書的目錄”。
元數(shù)據(jù)記錄了數(shù)據(jù)集群的特征信息和相對信息的映射,保證了查詢的準確性和數(shù)據(jù)定位的效率。
根據(jù)不同標準,可以將元數(shù)據(jù)劃分沖不同的類型
從數(shù)據(jù)組織上劃分,可以分為四類:
(1)知識描述型元數(shù)據(jù)(Intellectual Metadata)用來發(fā)現(xiàn)、鑒別和描述信息,如都柏林核心(Dublin Metadata Core Element Set,DC)、MARC是描述信息資源的特征信息;
(2)結(jié)構型元數(shù)據(jù)(Sturctural Metadata),用來描述數(shù)據(jù)的內(nèi)部特征,比如位置信息(目錄、章節(jié)等);
(3)存取控制型元數(shù)據(jù)(Access Control Metadata)用來描述信息資源的權限,如使用條件,使用期限等;
(4)評價型元數(shù)據(jù)(Critical Metadata)用來評價和管理數(shù)據(jù)在整個系統(tǒng)中的位置
從結(jié)構化程度上劃分,可以分為三類:
(1)非結(jié)構化元數(shù)據(jù),如Yahoo;
(2)簡單結(jié)構化元數(shù)據(jù),指其字段較少,如DC;
(3)高度結(jié)構化元數(shù)據(jù),如MARC;
從功能上劃分,可以分為三類:
(1)描述型元數(shù)據(jù),是用來描述基本信息,用來查詢的元數(shù)據(jù);
(2)結(jié)構型元數(shù)據(jù),是記錄數(shù)據(jù)的結(jié)構;
(3)管理型元數(shù)據(jù),是用來詳細記錄數(shù)據(jù)信息的元數(shù)據(jù)。
分布式系統(tǒng)是應對海量數(shù)據(jù)存儲管理,高擴展,高可靠的數(shù)據(jù)系統(tǒng)。而當今社會數(shù)據(jù)量在TB、PB 甚至 EB數(shù)量級的數(shù)據(jù)中心越來越多,因此需要大量的存儲資源來存儲和管理這些數(shù)據(jù),而高效簡潔的數(shù)據(jù)組織管理更是必不可少目前分布式文件系統(tǒng)(如GFS、HDFS、Dynamo)由于其內(nèi)在設計的簡潔性和通用性已成為解決大數(shù)據(jù)存儲管理的有效技術途徑。而對文件系統(tǒng)數(shù)據(jù)操作均要涉及到對元數(shù)據(jù)的操作,系統(tǒng)文件的訪問,首先就是要訪問其元數(shù)據(jù)進行定位,而后對服務器的數(shù)據(jù)塊進行訪問修改等。雖然元數(shù)據(jù)尺寸較小,大概占整個數(shù)據(jù)空間的0.1%~1%,但訪問頻率占所有數(shù)據(jù)訪問的50%—80%,可以看出,元數(shù)據(jù)在系統(tǒng)訪問中是十分重要的。
元數(shù)據(jù)的管理算法總的來說有兩種:第一種是子樹劃分,第二種是哈希算法,下面對這兩種算法進行介紹。
子樹劃分分為靜態(tài)和動態(tài)兩種,但動態(tài)子樹劃分不適合命名空間樹的性質(zhì)因而很少使用,在這里不做介紹,主要介紹靜態(tài)子樹劃分。
靜態(tài)子樹法是一種比較簡單的劃分方法,常出現(xiàn)在早期的分布式文件系統(tǒng)中,如NFS、AFS,而近來的分布式文件系統(tǒng)如HDFS也使用了靜態(tài)子樹劃分法,該方法一般需要系統(tǒng)管理員來決定如何將命名空間樹劃分并將每一個子樹賦給指定的元數(shù)據(jù)服務器。其優(yōu)點是元數(shù)據(jù)訪問數(shù)據(jù)服務器數(shù)量較少,因此重復訪問的效率高。而缺點則是無法動態(tài)分布數(shù)據(jù),容易產(chǎn)生局部負載過高的“熱點”問題,還有子樹的遷移比較麻煩。
基于散列函數(shù)映射的方法是將散列函數(shù)應用于文件的路徑名或文件名去定位文件的元數(shù)據(jù)服務器。這種方式不但可以減輕元數(shù)據(jù)服務器間工作負載不平衡,這種方法的主要問題是元數(shù)據(jù)訪問的局部性無法得以很好地保持。另外,路徑名的修改會導致大量的文件元數(shù)據(jù)在MDS集群中遷移,增大了網(wǎng)絡負載。
子樹散列混合法,是將兩種方法融合,子樹劃分對局部訪問負載問題無法解決,散列算法無法處理存儲負載,將兩種方法混合,Brandt等基于這個想法提出了一種名為懶惰更新的混合策略(Lazy Hybrid,LH)。利用散列函數(shù)實現(xiàn)元數(shù)據(jù)服務器集群中元數(shù)據(jù)分布均勻,通過命名空間子樹實現(xiàn)對信息資源的分布均勻,而兩者同時使用的后果是網(wǎng)絡的通訊開銷增大。
本文對元數(shù)據(jù)的背景,概念,分類及元數(shù)據(jù)在分布式系統(tǒng)中的作用和管理方式,而面對當前數(shù)據(jù)量的激增,無序化數(shù)據(jù)的管理存在巨大的挑戰(zhàn),這促使我們隊元數(shù)據(jù)進行更加深入,細致的研究。
[1]劉仲,周興銘.基于目錄路徑的元數(shù)據(jù)管理方法[J].軟件學報,2007,18(2):236-245.
[2]黃斌,彭宇行,彭小寧,云計算環(huán)境中高效可擴展的元數(shù)據(jù)管理方法[J].計算機工程與設計,2014,35(9):2991-2994.
[3]Xu L,Huang ZL,Jiang H,et al.VSFS:a searchable distributed file system[C]//Proceedings of the 9th Parallel Data Storage Workshop,2014:25-30.
楊濟華(1992—),男,陜西西安人,武警工程大學碩士研究生在讀,研究方向:武警信息化。