• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      分布式大數(shù)據(jù)管理系統(tǒng)的設計與實現(xiàn)研究

      2019-05-23 10:44:40朱蘭英
      電腦知識與技術 2019年5期
      關鍵詞:分布式管理系統(tǒng)大數(shù)據(jù)

      朱蘭英

      摘要:隨著計算機技術的高速發(fā)展,大數(shù)據(jù)、物聯(lián)網(wǎng)等領域在不斷地生長。大數(shù)據(jù)的興起,為海量的數(shù)據(jù)處理與存儲提供了平臺。而依靠傳統(tǒng)的數(shù)據(jù)庫已經(jīng)無法適應大數(shù)據(jù)的應用,分布式數(shù)據(jù)庫在大數(shù)據(jù)背景下得到了快速發(fā)展。大數(shù)據(jù)技術在實際的應用中容易存在一些現(xiàn)實難題,因此設計一款基于分布式大數(shù)據(jù)管理系統(tǒng)非常有必要,能夠為大數(shù)據(jù)的采集與存儲提供無限可能,同時還可以提高數(shù)據(jù)處理的能力。

      關鍵詞:分布式;大數(shù)據(jù);管理系統(tǒng)

      中圖分類號:TP315 文獻標識碼:A 文章編號:1009-3044(2019)05-0025-02

      大數(shù)據(jù)在檢索信息時,效率仍然是一個需要解決的重點問題,設計一種新型的分布式大數(shù)據(jù)管理系統(tǒng),提高大數(shù)據(jù)檢索的效率,將其應用到海量日志的檢索中,對海量數(shù)據(jù)進行分析,實現(xiàn)大數(shù)據(jù)的實時處理功能。

      1 分布式大數(shù)據(jù)管理系統(tǒng)結(jié)構(gòu)組成

      大數(shù)據(jù)對數(shù)據(jù)處理的要求非常高,在數(shù)據(jù)采集、數(shù)據(jù)存儲以及數(shù)據(jù)檢索方面的效率都有非常高的要求。一般情況下數(shù)據(jù)采集的效率要達到MB/s以上[1],數(shù)據(jù)存儲要達到PB級。傳統(tǒng)的關系型數(shù)據(jù)庫無法滿足這一高難度的要求,一些容量大的關系型數(shù)據(jù)庫應運而生,這些數(shù)據(jù)庫的特點都是在Key-Value的基礎上進行讀寫,缺少對多列數(shù)據(jù)的檢索,無法完成復雜的操作,同時還容易受到緩存條件的限制,無法快速地進行數(shù)據(jù)的采集和檢索,處理效率低下。為了更好地解決這種問題,提出了一種基于Hadoop和NoSQL兩種技術聯(lián)合的分布式大數(shù)據(jù)管理系統(tǒng)[2],能夠有效地解決其他關系型數(shù)據(jù)庫存在的效率低下以及存儲條件限制的問題。

      中央控制集群在整個系統(tǒng)運行過程中起到一定的控制功能,比如獲取用戶的檢索請求,并對用戶提出的請求進行檢索;對系統(tǒng)各個部分的狀態(tài)進行實時監(jiān)控,并及時處理系統(tǒng)異常;取消特定的集群任務;對整個網(wǎng)絡連接資源進行優(yōu)化,保證系統(tǒng)的安全穩(wěn)定運行;

      大數(shù)據(jù)采集集群是整個系統(tǒng)的入口,大數(shù)據(jù)采集集群中的進程作為執(zhí)行單元,能夠在多臺機器上同時開啟數(shù)據(jù)采集功能,提高系統(tǒng)的采集效率;還能夠?qū)Χ嗯_機器進行操作,開啟緩存,并在中央控制集群的幫助下實現(xiàn)周期性緩存寫入[3],讓存儲集群能夠永久的保存;

      大數(shù)據(jù)檢索集群是用戶與系統(tǒng)之間的交互接口,通過自定義的命令向中央控制集群提出請求,中央控制集群會根據(jù)大數(shù)據(jù)檢索集群提出的要求對系統(tǒng)的運行狀態(tài)進行快速檢索,讓永久存儲集群進行查詢,并將結(jié)果進行匯總后反饋給數(shù)據(jù)檢索集群,通過視圖的方式為用戶呈現(xiàn)最終的信息;

      大數(shù)據(jù)永久存儲集群是分布式大數(shù)據(jù)管理系統(tǒng)的倉庫,能夠?qū)?shù)據(jù)進行永久性的保存,通過數(shù)據(jù)采集集群的周期性特點對數(shù)據(jù)進行定時更新,利用數(shù)據(jù)采集的方式進行存儲,有利于提高工作效率;

      其他功能集群是為分布式大數(shù)據(jù)管理系統(tǒng)提供的一些可編程的拓展窗口,是為了方便日后根據(jù)用戶的需求增加新的集群功能。

      2分布式文件系統(tǒng)

      2.1 分布式文件系統(tǒng)的架構(gòu)組成

      Master/NameNade節(jié)點的任務主要是進行數(shù)據(jù)存儲,對文件系統(tǒng)的目錄以及日志進行管理,同時還要與ChunkServer進行通信,完成發(fā)送指令、搜集狀態(tài)的功能,保證數(shù)據(jù)塊的完整性,對狀態(tài)進行維護;創(chuàng)建數(shù)據(jù)塊并實現(xiàn)負載均衡;對DataNode的空間使用進行負載均衡;對訪問請求的數(shù)據(jù)進行負載均衡;對數(shù)據(jù)塊進行處理,并將其分布到ChunkServer中。如果數(shù)據(jù)庫的冗余量較小,需要進行復制;對冗余的日志記錄進行刪除;對隱藏的文件進行回收;同時對陳舊的數(shù)據(jù)塊進行檢測并刪除。

      Master/NameNade的性能優(yōu)化,對單點故障進行解決時,需要利用多個Master節(jié)點進行熱備,如果主節(jié)點出現(xiàn)損壞,需要即進行處理;支持多個映像文件,對映像文件進行操作后可以將其同步到副本中;Master不進行文件的傳輸,只保存原始的數(shù)據(jù);采用客戶端緩存的方式進行存儲;DateNode使用本地文件系統(tǒng)的方式進行數(shù)據(jù)塊的存儲;采用機架感知的方式可以進行數(shù)據(jù)冗余,這樣可以有效地提高系統(tǒng)的可靠性。

      2.2設計思路

      將文件進行劃分,將其分成若干塊進行存儲,每一個文件塊都有固定的大小,可以進行隨意配置;利用冗余的方式提高系統(tǒng)的可靠性,每一個數(shù)據(jù)塊上至少需要有三臺以上的服務器進行冗余,才能夠保證系統(tǒng)的可靠性;利用Master server對數(shù)據(jù)訪問進行協(xié)調(diào)和處理,保證數(shù)據(jù)的統(tǒng)一性;不對Cache進行集中設置,文件操作大部分是流式讀寫的方式,不能進行大量的重復讀寫;在Data Node上進行數(shù)據(jù)存儲,需要使用本地文件進行存儲。

      3分布式大數(shù)據(jù)管理系統(tǒng)的算法分析

      3.1 分布式大數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)

      分布式大數(shù)據(jù)管理系統(tǒng)作為數(shù)據(jù)結(jié)構(gòu)的主要組織數(shù)據(jù),數(shù)據(jù)存儲單元中的每一條記錄中都包含了多個字段,且每一張表中都包含了一個特殊的描述文件,這個特殊的描述文件是用來管理整張表的數(shù)據(jù)信息,比如表的結(jié)構(gòu)或者表的結(jié)構(gòu)類型等,這類文件主要存儲在中央控制集群中,當用戶對系統(tǒng)提交查詢請求時,中央控制集群會根據(jù)數(shù)據(jù)表進行查詢。系統(tǒng)會根據(jù)沒一張表都對語言進行統(tǒng)一改進,從而實現(xiàn)一種專用的數(shù)據(jù)查詢分析語言,保留標準的SQL格式,其語法格式為:

      create table T1

      drop table T1

      select*from T1 where name=”DBDMS”

      上述表示為創(chuàng)建新表;刪除新表;查詢符合特定條件的記錄。

      在分布式大數(shù)據(jù)管理系統(tǒng)中的永久存儲急群眾,數(shù)據(jù)是通過列的方式進行組織的,所有的字段都需要按照一定的順序進行排列,通過還要根據(jù)不同的類型進行保存,當容量過大時會以文件為存儲單元進行保存,此時這個文件就稱之為數(shù)據(jù)塊,數(shù)據(jù)塊就是作為數(shù)據(jù)采集和檢索的一個最基本的單元,用來存儲數(shù)據(jù)中的信息。分布式大數(shù)據(jù)管理系統(tǒng)中以分塊的方式進行分類整理,同時需要將數(shù)據(jù)塊都存儲到中央控制集群中,以提高數(shù)據(jù)查詢的效率。

      3.2分布式大數(shù)據(jù)管理系統(tǒng)的核心算法

      3.2.1系統(tǒng)數(shù)據(jù)查詢算法

      系統(tǒng)數(shù)據(jù)查詢算法流程如圖1所示,主要分為5個步驟進行:1)用戶需要提交檢索的請求,將檢索的請求發(fā)送給數(shù)據(jù)檢索集群中;2)將數(shù)據(jù)檢索集群中的信息反饋給中央控制集群,中央控制集群會對用戶提出的信息進行迅速定位;3)中央控制集群需要先在塊索引中進行目標查找,如果有索引信息直接發(fā)送查詢命令;如果沒有信息需要封裝查詢命令,通過廣播的方式將信息存儲到永久的存儲集群中;4)數(shù)據(jù)永久存儲集群根據(jù)查詢的條件進行查詢,如果找到需要將結(jié)構(gòu)進行反饋,如果沒有找到則繼續(xù)進行廣播查找,直到找到結(jié)果為止;5)中央控制集群需要將查詢的結(jié)果進行反饋。

      3.2.2塊索引查詢算法

      中央控制集群接收到用戶的請求后會進行數(shù)據(jù)的解析,然后對查詢的條件進行優(yōu)化,將優(yōu)化后的數(shù)據(jù)進行目標檢索,查詢算法流程如圖2所示:

      在圖2中,查詢條件解析與重新組合模塊有兩種查詢條件,一種是分類查詢條件,另一種是組合查詢條件,如果包含塊索引分類信息,可以直接找出緩存中相應的塊索引,對數(shù)據(jù)永久存儲集群發(fā)送查詢信息,等待目標數(shù)據(jù)的返回;如果不包含塊索引的信息,在常規(guī)的條件下需要進行條件查詢、分組查詢以及模糊查詢,根據(jù)某種特定的元素進行查詢,同時可編程的接口能夠為數(shù)據(jù)提供更多的查詢條件。使用塊索引查詢算法能夠大大地提高查詢的效率。

      4實驗分析

      為了對分布式大數(shù)據(jù)管理系統(tǒng)的性能進行測試,利用某一個網(wǎng)站作為被檢測的對象,對不同的時間段的日志記錄進行檢測。對分布式大數(shù)據(jù)管理系統(tǒng)中不同的集群系統(tǒng)進行環(huán)境的配置。配置完成后系統(tǒng)會持續(xù)運行兩個月,通過數(shù)據(jù)采集集群進行數(shù)據(jù)存儲的記錄多達上億條,在數(shù)據(jù)永久存儲集群中占據(jù)內(nèi)存為20TB。分析數(shù)據(jù)檢索的效率,在一天之內(nèi),該系統(tǒng)存儲的日志記錄多達5億條,檢索的效率與時間段在不斷增長,可見分布式大數(shù)據(jù)管理系統(tǒng)的檢索效率比傳統(tǒng)的關系型數(shù)據(jù)庫效率高出很多。

      5 結(jié)束語

      通過實驗結(jié)果進行分析,分布式數(shù)據(jù)管理系統(tǒng)對大數(shù)據(jù)進行檢索時優(yōu)勢明顯,在不同的時間段以及檢索條件的組合下,檢索的效率比傳統(tǒng)關系型數(shù)據(jù)庫,適用于海量數(shù)據(jù)的處理。

      參考文獻:

      [1]付華崢, 陳翀, 向勇,等. 分布式大數(shù)據(jù)采集關鍵技術研究與實現(xiàn)[J]. 廣東通信技術, 2015, 35(10):7-10.

      [2]基于大數(shù)據(jù)的日志管理系統(tǒng)的設計與實現(xiàn)[D].沈陽: 東北大學, 2014.

      [3]王偉, 廖正宇, 張輝,等. 基于大數(shù)據(jù)的鐵路信號系統(tǒng)數(shù)據(jù)存儲與分析系統(tǒng)設計與實現(xiàn)[J]. 信息網(wǎng)絡安全, 2017(1):29-37.

      【通聯(lián)編輯:謝媛媛】

      猜你喜歡
      分布式管理系統(tǒng)大數(shù)據(jù)
      基于James的院內(nèi)郵件管理系統(tǒng)的實現(xiàn)
      基于LED聯(lián)動顯示的違停管理系統(tǒng)
      分布式光伏熱錢洶涌
      能源(2017年10期)2017-12-20 05:54:07
      分布式光伏:爆發(fā)還是徘徊
      能源(2017年5期)2017-07-06 09:25:54
      海盾壓載水管理系統(tǒng)
      中國船檢(2017年3期)2017-05-18 11:33:08
      基于大數(shù)據(jù)背景下的智慧城市建設研究
      科技視界(2016年20期)2016-09-29 10:53:22
      基于DDS的分布式三維協(xié)同仿真研究
      雷達與對抗(2015年3期)2015-12-09 02:38:50
      基于RFID的倉儲管理系統(tǒng)實現(xiàn)
      西門子 分布式I/O Simatic ET 200AL
      邛崃市| 诏安县| 蒙城县| 沂源县| 阿合奇县| 都昌县| 巍山| 安新县| 白城市| 手机| 南昌市| 颍上县| 柞水县| 沙坪坝区| 秭归县| 会东县| 惠来县| 扎兰屯市| 宜兰县| 东乡族自治县| 嘉义县| 海南省| 清镇市| 新密市| 峨眉山市| 自治县| 胶南市| 鹤壁市| 麻江县| 奉贤区| 大足县| 通州市| 泾阳县| 桓仁| 广宁县| 盐亭县| 闽侯县| 西平县| 常德市| 定襄县| 正蓝旗|