• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)分析下分布式數(shù)據(jù)流處理技術(shù)研究

      2019-12-24 01:13劉琴
      軟件工程 2019年12期
      關(guān)鍵詞:分布式大數(shù)據(jù)

      劉琴

      摘? 要:由于數(shù)據(jù)流的不穩(wěn)定性,將數(shù)據(jù)流查詢安排在固定節(jié)點(diǎn)上就會(huì)造成分布式數(shù)據(jù)流處理技術(shù)很難對(duì)計(jì)算資源實(shí)現(xiàn)較高的處理效率,基于此,提出大數(shù)據(jù)分析下分布式數(shù)據(jù)流處理技術(shù)研究。具體流程是數(shù)據(jù)收集、歷史數(shù)據(jù)的存儲(chǔ)和查詢、Storm實(shí)時(shí)處理、智能索引、數(shù)據(jù)模型的建立。根據(jù)實(shí)驗(yàn)結(jié)果可知,本文提出的大數(shù)據(jù)分析下分布式數(shù)據(jù)流處理技術(shù)與傳統(tǒng)技術(shù)相比,在數(shù)據(jù)流的處理效率上占有較大優(yōu)勢(shì),一般維持在75%以上,能夠大大節(jié)省處理時(shí)間。

      關(guān)鍵詞:大數(shù)據(jù);分布式;數(shù)據(jù)流處理技術(shù);處理效率

      中圖分類號(hào):TP333? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

      Research on Distributed Data Flow Processing

      Technology under Big Data Analysis

      LIU Qin

      (School of Computer Science,Qinghai Nationalities University,Xining 810007,China)

      Abstract:Because of the instability of data flow,it is difficult for distributed data flow processing technology to achieve high processing efficiency for computing resources by arranging data flow query on fixed nodes.For this reason,this paper proposes the research of distributed data flow processing technology under big data analysis.The specific process is data collection,historical data storage and query,storm real-time processing,intelligent index,data model building.According to the experimental results,compared with the traditional technology,the distributed data flow processing technology proposed in this paper has a greater advantage in the efficiency of data flow processing,generally maintained at more than 75%,which can greatly save processing time.

      Keywords:big data;distributed;data flow processing technology;processing efficiency

      1? ?引言(Introduction)

      近幾年,隨著信息技術(shù)與計(jì)算機(jī)技術(shù)的迅猛發(fā)展及其大規(guī)模推廣應(yīng)用,越來越多的客戶逐漸加入互聯(lián)網(wǎng)世界中,全球范圍數(shù)據(jù)總量也呈現(xiàn)出了爆炸式增長(zhǎng)趨勢(shì)[1]。面對(duì)如此龐大的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理技術(shù)已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足人們對(duì)數(shù)據(jù)應(yīng)用的需求。主要是由于傳統(tǒng)數(shù)據(jù)處理技術(shù)以處理器為核心,利用數(shù)據(jù)移動(dòng)對(duì)其進(jìn)行一系列的操作。在大數(shù)據(jù)分析背景下,因?yàn)閿?shù)據(jù)總量過于龐大,給數(shù)據(jù)移動(dòng)也帶來了諸多不便,所以迫切需要采取以數(shù)據(jù)為中心的處理模式,以此降低因數(shù)據(jù)移動(dòng)而帶來的一系列開銷。除此之外,傳統(tǒng)的數(shù)據(jù)處理技術(shù)滿足不了大規(guī)模數(shù)據(jù)流的處理,無法提供充足的存儲(chǔ)空間,因而面向大規(guī)模數(shù)據(jù)流的處理技術(shù)已發(fā)展為一項(xiàng)全新的挑戰(zhàn)。

      對(duì)此,在大數(shù)據(jù)分析環(huán)境下,提出新型的分布式數(shù)據(jù)流處理技術(shù)。此技術(shù)主要是利用基于Map Reduce的Hadoop系統(tǒng)處理構(gòu)架實(shí)現(xiàn)的[2],因Hadoop系統(tǒng)在常規(guī)環(huán)境下的處理策略是先進(jìn)先出(FIFO),此類處理策略在運(yùn)行任務(wù)時(shí),以數(shù)據(jù)流到達(dá)時(shí)間點(diǎn)為依據(jù)進(jìn)行相關(guān)處理,基本不將數(shù)據(jù)的本地性和集聚拓?fù)錁?gòu)造列入考慮范圍之內(nèi),可避免因?yàn)槿蝿?wù)等待時(shí)間過長(zhǎng)、資源使用率較低、沒有考慮任務(wù)優(yōu)先級(jí)別等原因?qū)е碌木o急作業(yè)無法得到優(yōu)先處理的問題,所以針對(duì)基于Map Reduce的分布式數(shù)據(jù)流處理技術(shù)研究將會(huì)推動(dòng)大數(shù)據(jù)分析下Hadoop系統(tǒng)的廣泛應(yīng)用。

      2? 大數(shù)據(jù)分析下分布式數(shù)據(jù)流處理技術(shù)(Distributed data flow processing technology under big data analysis)

      2.1? ?數(shù)據(jù)收集

      海量數(shù)據(jù)是產(chǎn)生大數(shù)據(jù)的基本條件,然而數(shù)據(jù)的收集就成了大數(shù)據(jù)分析的基礎(chǔ)[3]。日志數(shù)據(jù)采集處于流數(shù)據(jù)集中一個(gè)很大比例,大部分公司的業(yè)務(wù)平臺(tái)每一天都將產(chǎn)生數(shù)量龐大的零散數(shù)據(jù),將這些業(yè)務(wù)日志數(shù)據(jù)集中進(jìn)行收集并加以整合,用來滿足客戶在線和離線情況下能夠同時(shí)使用。需考慮日志收集的基本特點(diǎn)是:可靠性能高、實(shí)用性強(qiáng)、可擴(kuò)展性強(qiáng)。“分散收集、統(tǒng)一處理”是目前主流的日志處理的技術(shù)手段。日志收集也變成了分布式日志數(shù)據(jù)處理的基礎(chǔ)和前提。只有在完成日志的實(shí)時(shí)收集和整合后,才能繼續(xù)跟蹤日志之后的相關(guān)操作。

      2.2? ?歷史數(shù)據(jù)的存儲(chǔ)和查詢

      有關(guān)分布式數(shù)據(jù)庫的歷史數(shù)據(jù)存儲(chǔ)和ORM技術(shù)的聯(lián)系,與傳統(tǒng)數(shù)據(jù)庫存儲(chǔ)區(qū)別較大,分布式數(shù)據(jù)庫的數(shù)據(jù)在硬盤中支持混合手段(依據(jù)行或列)進(jìn)行混合存儲(chǔ)和管理[4]。因?yàn)榱写鎯?chǔ)構(gòu)造對(duì)數(shù)據(jù)查詢、整理和分析類操作具有一定的優(yōu)勢(shì),所以在運(yùn)行分析管理系統(tǒng)等大數(shù)據(jù)分析背景下混合存儲(chǔ)時(shí)可以獲得較好的應(yīng)用效果。而傳統(tǒng)數(shù)據(jù)存儲(chǔ)主要根據(jù)數(shù)據(jù)大小進(jìn)行優(yōu)先分配進(jìn)行存儲(chǔ),存在存儲(chǔ)不佳的問題。有關(guān)混合存儲(chǔ)的優(yōu)勢(shì)主要表現(xiàn)在以下幾方面:

      首先具有更高的靈活性:對(duì)數(shù)據(jù)進(jìn)行混合存儲(chǔ)可根據(jù)列或行分別進(jìn)行,每張表或表分區(qū)可以被管理員按照現(xiàn)實(shí)需求或數(shù)據(jù)格式的不一樣進(jìn)行直接操作處理,選擇不同的存儲(chǔ)和壓縮方法。這種方式能夠在一定程度上有效提高系統(tǒng)整體配置的靈活性,具體如圖1所示。

      其次可以大大提高其響應(yīng)速度:在對(duì)語句進(jìn)行查詢時(shí),傳統(tǒng)的行存數(shù)據(jù)庫必須從硬盤上將整行數(shù)據(jù)全部提取出來,而列存儲(chǔ)只能夠讀取所需數(shù)列,不讀取其他列的數(shù)據(jù)[5]。這種方式能夠有效降低I/O的運(yùn)營成本,提高數(shù)據(jù)查詢功能和響應(yīng)速度。

      最后在高擴(kuò)展性,分布式數(shù)據(jù)庫獨(dú)特的存儲(chǔ)格式可以將列數(shù)據(jù)細(xì)劃為“數(shù)據(jù)包”的格式。不管一個(gè)表的內(nèi)存有多大,數(shù)據(jù)庫只會(huì)對(duì)有關(guān)的數(shù)據(jù)包進(jìn)行標(biāo)準(zhǔn)操作,其性能并不會(huì)隨著數(shù)據(jù)量的增多而降低,如此表數(shù)據(jù)就能夠?qū)崿F(xiàn)較高的可擴(kuò)展性。

      ORM(Object Relation Mapping)也叫作對(duì)象——關(guān)系直接式映射,是針對(duì)面向?qū)ο蟮能浖_發(fā)手段而出現(xiàn)的。它主要作用于程序?qū)ο笾陵P(guān)系數(shù)據(jù)庫內(nèi)數(shù)據(jù)的直接映射,ORM的引進(jìn)對(duì)于數(shù)據(jù)庫數(shù)據(jù)的相關(guān)操作有非常重要的作用,使數(shù)據(jù)處理與查詢能夠更加方便和迅速。ORM常常用于數(shù)據(jù)的長(zhǎng)久性工作,比較常用的ORM技術(shù)主要包括OJB、MFC-OODE、Hibernate、PDO、TJDO等。本文主要采取MFC-OODE進(jìn)行常規(guī)性的數(shù)據(jù)存儲(chǔ)與查詢處理,數(shù)據(jù)庫內(nèi)的表信息在該系統(tǒng)中均是以類對(duì)象的方式存在,而對(duì)于系統(tǒng)中在處理后出現(xiàn)的歷史數(shù)據(jù),可利用定時(shí)器進(jìn)行精準(zhǔn)控制,當(dāng)數(shù)據(jù)流超時(shí)或數(shù)據(jù)流緩沖區(qū)內(nèi)存被占滿時(shí),可以一次性將存儲(chǔ)數(shù)據(jù)即內(nèi)存中的類對(duì)象信息全部導(dǎo)入數(shù)據(jù)庫中方便數(shù)據(jù)查詢。利用該機(jī)制能夠?qū)⒍鄠€(gè)數(shù)據(jù)流一次性全部導(dǎo)入數(shù)據(jù)庫內(nèi),大大節(jié)省了相關(guān)數(shù)據(jù)表和數(shù)據(jù)庫的處理時(shí)間,有效地降低了I/O出現(xiàn)并發(fā)沖突的可能性,提升了系統(tǒng)的處理能力。有關(guān)數(shù)據(jù)查詢方面,數(shù)據(jù)查詢所提取到的數(shù)據(jù)能夠從系統(tǒng)硬盤中獲得,也能夠從數(shù)據(jù)庫中獲得,這是由于系統(tǒng)利用定時(shí)器對(duì)歷史數(shù)據(jù)進(jìn)行存儲(chǔ)操作,如果是對(duì)最近存儲(chǔ)的數(shù)據(jù)信息進(jìn)行相關(guān)查詢,則可以直接從硬盤內(nèi)中提取,這能夠大幅度提高查詢效率,同時(shí)也省去了對(duì)數(shù)據(jù)庫和數(shù)據(jù)表的一系列操作步驟節(jié)省操作時(shí)間。

      2.3? ?Storm實(shí)時(shí)處理

      在大數(shù)據(jù)分析的影響下,將數(shù)據(jù)實(shí)時(shí)進(jìn)行收集與整合,使其變成有效數(shù)據(jù)流之后,想要盡可能快的得到應(yīng)用系統(tǒng)實(shí)時(shí)需要數(shù)據(jù)結(jié)果,則數(shù)據(jù)解析系統(tǒng)一定要對(duì)原始數(shù)據(jù)迅速地完成一系列實(shí)時(shí)處理[6]。處理時(shí),一臺(tái)服務(wù)器不能在短暫的時(shí)間內(nèi)滿足整個(gè)系統(tǒng)能夠計(jì)算超大量數(shù)據(jù)的需求,主要是因?yàn)榭紤]到業(yè)務(wù)水準(zhǔn)和數(shù)據(jù)上升幅度的原因,需要數(shù)據(jù)處理系統(tǒng)具有很強(qiáng)的擴(kuò)展性。storm最開始是通過twitter開發(fā)來擴(kuò)源,以分布式實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)為基礎(chǔ),在twitter、Yahoo等眾多著名的互聯(lián)網(wǎng)公司得到了大力的推廣和應(yīng)用。具有良好的可擴(kuò)展和容錯(cuò)性,并能夠獲得次秒級(jí)的延遲,適用于延遲較低的應(yīng)用環(huán)境[7]。它的主要組成部分是:

      (1)Nimbus是數(shù)據(jù)集群的重要節(jié)點(diǎn),主要負(fù)責(zé)數(shù)據(jù)集群的資源管理、任務(wù)分配。

      (2)Supervisor主要用作接收Nimbus分配的任務(wù),能夠?qū)崟r(shí)結(jié)束系統(tǒng)工作管理的進(jìn)度。

      (3)Zookeeper是storm主要應(yīng)用的外部組件,提供Supervisor和Nimbus之間的協(xié)調(diào)服務(wù),Nimbus和Supervisor的資源任務(wù)管理狀況都存儲(chǔ)在Zookeeper內(nèi)。storm組合的數(shù)據(jù)流包括Topoloy(拓?fù)洌?,與Hadoop上的Map Reduce任務(wù)類似,節(jié)點(diǎn)間的數(shù)據(jù)流動(dòng)方向形成了標(biāo)準(zhǔn)形式下運(yùn)行的數(shù)據(jù)處理邏輯;Tuple(消息元組),也就是最小的消息處理和上傳單元,每個(gè)Tuple均為不可逆的數(shù)據(jù)消息組;Spout(噴嘴),主要的職責(zé)是把從storm外部獲取的數(shù)據(jù)轉(zhuǎn)換成內(nèi)部數(shù)據(jù)組件,并上傳初始數(shù)據(jù)到Tuple;Bolt(螺栓)的職責(zé)是接收來自Spout或者上個(gè)流程的Bolt的Tuple內(nèi)傳送的信息,在內(nèi)部進(jìn)行簡(jiǎn)單的數(shù)據(jù)轉(zhuǎn)換和計(jì)算以后,會(huì)產(chǎn)生很多的輸出Tuple數(shù)據(jù)流,再把它發(fā)送到別的Bolt,互相合作進(jìn)而實(shí)現(xiàn)更為復(fù)雜的計(jì)算邏輯。

      2.4? ?智能索引

      智能索引和以往數(shù)據(jù)庫在行數(shù)據(jù)上建立數(shù)據(jù)細(xì)粒度索引的技術(shù)比較,分布式數(shù)據(jù)庫的智能索引是一種建立在數(shù)據(jù)流基礎(chǔ)上的數(shù)據(jù)粗粒度索引。每一個(gè)數(shù)據(jù)流在完成數(shù)據(jù)加載后就會(huì)自動(dòng)建立,其中包含數(shù)據(jù)過濾信息和整合信息[8]。粗粒度的智能索引包含了預(yù)存數(shù)據(jù)之間互相依存關(guān)系的高級(jí)信息,可以精準(zhǔn)描繪和識(shí)別出數(shù)據(jù)流的實(shí)際需求,有效完成復(fù)雜多表區(qū)的連接和子查詢問題。表中所有列完成自動(dòng)建立后,無須用戶自行建立和人工維護(hù)。這就使得智能索引對(duì)數(shù)據(jù)存儲(chǔ)空間的占用較低,具備較高的擴(kuò)展性,可以在使用索引后不會(huì)發(fā)生數(shù)據(jù)膨脹。后續(xù)數(shù)據(jù)流構(gòu)建索引的速度也不會(huì)受到前面數(shù)據(jù)流的影響,加快索引構(gòu)建速度。

      2.5? ?數(shù)據(jù)流處理模型的建立

      數(shù)據(jù)流作為由數(shù)據(jù)元組構(gòu)成的無限序列,用表示。數(shù)據(jù)元組可以用表示,其中的代表數(shù)據(jù)元組的按鍵;代表數(shù)據(jù)元組的細(xì)分?jǐn)?shù)值;代表數(shù)據(jù)元組的作用時(shí)間段。數(shù)據(jù)元組的并不是唯一指定的,一般其經(jīng)常用來確保數(shù)據(jù)元組路由的順利。時(shí)間段主要是由一個(gè)持續(xù)遞增的邏輯時(shí)鐘在數(shù)據(jù)元組建立之初完成標(biāo)準(zhǔn)分配。數(shù)據(jù)元組在數(shù)據(jù)流處理過程中根據(jù)時(shí)間段有序排列。數(shù)據(jù)元組由諸多的操作符組成。一個(gè)操作符具體是以一條或多條數(shù)據(jù)流為輸入,處理輸入數(shù)據(jù)流中的主要元組,并產(chǎn)生一條或多條輸出數(shù)據(jù)流。操作符函數(shù)用表示操作符對(duì)輸入數(shù)據(jù)流元組的處理程序。操作符主要有兩種:無狀態(tài)操作符(比如過濾和映射)和有狀態(tài)操作符(比如連接和集聚)。有狀態(tài)操作符的操作函數(shù)以表示,其會(huì)在新的數(shù)據(jù)元組抵達(dá)時(shí)被調(diào)取。有狀態(tài)操作符保留了之前處理數(shù)據(jù)流元組的狀態(tài)。當(dāng)一個(gè)新的數(shù)據(jù)流元組抵達(dá)并被操作符函數(shù)完成處理后,就會(huì)產(chǎn)生新的數(shù)據(jù)流元組,而同時(shí)其狀態(tài)也會(huì)隨之被更換為,實(shí)現(xiàn)數(shù)據(jù)流的綜合處理。

      3? ?實(shí)驗(yàn)與效果分析(Experiment and effect analysis)

      為了更加直觀地看出大數(shù)據(jù)分析下,本文提出的分布式數(shù)據(jù)流處理技術(shù)的實(shí)際應(yīng)用效果,采用本文方法與傳統(tǒng)分布式數(shù)據(jù)流處理技術(shù)為對(duì)比,以處理效率作為標(biāo)準(zhǔn)進(jìn)行實(shí)驗(yàn)對(duì)比分析。

      3.1? ?實(shí)驗(yàn)準(zhǔn)備

      為確保實(shí)驗(yàn)的準(zhǔn)確性,把這兩種分布式數(shù)據(jù)流的處理技術(shù)處在同樣的服務(wù)器環(huán)境中,再進(jìn)行處理能力有關(guān)的實(shí)驗(yàn)。具體的服務(wù)器配置見表1所示。

      在實(shí)驗(yàn)中使用了三個(gè)數(shù)據(jù)集(S1,S2,S3),為了便于表述,使用Size(Si)(1≤i≤3)表示數(shù)據(jù)集的規(guī)模,Size(Si)的單位為數(shù)據(jù)條數(shù)。HadoopDB和HBase的數(shù)據(jù)文件格式不同,導(dǎo)致文件大小差異較大。各個(gè)數(shù)據(jù)集相關(guān)參數(shù)見表2。

      按照一定的文件格式生成所有的數(shù)據(jù),并載入相關(guān)數(shù)據(jù),由于數(shù)據(jù)的生成是ETL 階段,針對(duì)處理效率進(jìn)行對(duì)比。

      3.2? ?實(shí)驗(yàn)結(jié)果分析

      實(shí)驗(yàn)過程中,在相同配置環(huán)境下,通過兩種不同的分布式數(shù)據(jù)流處理技術(shù)同時(shí)進(jìn)行工作,分析其處理能力的變化。實(shí)驗(yàn)效果對(duì)比圖如圖2所示。

      根據(jù)實(shí)驗(yàn)結(jié)果可知,本文提出的大數(shù)據(jù)分析下分布式數(shù)據(jù)流處理技術(shù)與傳統(tǒng)技術(shù)相比,在數(shù)據(jù)流的處理效率上占有較大優(yōu)勢(shì),一般維持在75%以上,能夠大大節(jié)省處理時(shí)間。

      4? ?結(jié)論(Conclusion)

      本文對(duì)大數(shù)據(jù)分析下分布式數(shù)據(jù)流處理技術(shù)研究進(jìn)行分析,在分布式環(huán)境下,根據(jù)大數(shù)據(jù)反饋與分析,調(diào)整數(shù)據(jù)流的處理技術(shù),完成本文設(shè)計(jì)。實(shí)驗(yàn)論證證明,本文設(shè)計(jì)的方法有效性極高??蔀楹罄m(xù)大數(shù)據(jù)分析下分布式數(shù)據(jù)流的處理方法提供理論依據(jù)。

      參考文獻(xiàn)(References)

      [1] 朱蔚林,木偉民,金宗澤,等.基于MR的高可靠分布式數(shù)據(jù)流統(tǒng)計(jì)模型[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018,28(01):6-10;16.

      [2] 王春凱,孟小峰.應(yīng)對(duì)傾斜數(shù)據(jù)流在線連接方法[J].軟件學(xué)報(bào),2018,29(03):869-882.

      [3] 張?jiān)?基于Spark Streaming的在線多數(shù)投票提升算法研究[J].福建電腦,2018,34(07):105-107;115.

      [4] 相坤,楊建設(shè).面向廣域電網(wǎng)的分布式流協(xié)同處理技術(shù)研究[J].計(jì)算機(jī)與網(wǎng)絡(luò),2018,44(23):68-71.

      [5] 鄭鈐.基于MapReduce模式的大數(shù)據(jù)分布式計(jì)算態(tài)勢(shì)分析[J].通訊世界,2018(06):102-104.

      [6] 譚亮,周靜.基于Spark Streaming的實(shí)時(shí)交通數(shù)據(jù)處理平臺(tái)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27(10):133-139.

      [7] 付眸,楊賀昆,吳唐美,等.基于Spark Streaming的快速視頻轉(zhuǎn)碼方法[J].計(jì)算機(jī)應(yīng)用,2018,38(12):3500-3508.

      [8] 閭程豪,荊一楠,何震瀛,等.基于分布式流處理的自適應(yīng)數(shù)據(jù)分發(fā)策略[J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(08):24-30.

      作者簡(jiǎn)介:

      劉? ?琴(1976-),女,本科,副教授.研究領(lǐng)域:軟件工程.

      猜你喜歡
      分布式大數(shù)據(jù)
      基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      西門子 分布式I/O Simatic ET 200AL
      家庭分布式儲(chǔ)能的發(fā)展前景
      南陵县| 延安市| 安陆市| 松阳县| 武安市| 沽源县| 阿坝县| 平乡县| 中西区| 金华市| 北碚区| 长武县| 丽江市| 天镇县| 姚安县| 六安市| 青州市| 苏尼特左旗| 交口县| 余庆县| 嘉定区| 扎兰屯市| 社旗县| 麟游县| 泰州市| 犍为县| 博客| 嘉峪关市| 云龙县| 富民县| 磐石市| 河北区| 昌平区| 绥棱县| 平遥县| 鄂伦春自治旗| 临清市| 娱乐| 阿巴嘎旗| 辽阳县| 永顺县|