• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      關于大數(shù)據(jù)系統(tǒng)架構(gòu)分析及技術發(fā)展探討

      2020-06-08 10:26蔡宏
      電腦知識與技術 2020年10期

      蔡宏

      摘要:隨著網(wǎng)絡中海量的半結(jié)構(gòu)化、非結(jié)構(gòu)性數(shù)據(jù)的出現(xiàn),如何有效地對這些海量數(shù)據(jù)進行處理,成為人們面臨的一個重要問題,采用大數(shù)據(jù)技術能夠有效地解決這一問題,針對當前大數(shù)據(jù)系統(tǒng)架構(gòu)的主要特征進行分析,探究了大數(shù)據(jù)系統(tǒng)的生態(tài)結(jié)構(gòu),詳細地分析了大數(shù)據(jù)應用的關鍵技術,通過對大數(shù)據(jù)的具體應用進行分析,對提高大數(shù)據(jù)的應用具有十分重要的意義。

      關鍵詞:大數(shù)據(jù);系統(tǒng)架構(gòu);技術

      中圖分類號:TP399 文獻標識碼:A

      文章編號:1009-3044(2020)10-0001-03

      當前,隨著web3.0的發(fā)展,移動網(wǎng)絡、智能設備、傳感器、掃描設備等各種智能設備的應用,源源不斷的產(chǎn)生大量的、結(jié)構(gòu)性、非結(jié)構(gòu)性的數(shù)據(jù),人們的生活與各個層面的數(shù)據(jù)息息相關,在網(wǎng)絡中不僅存在大量的靜態(tài)數(shù)據(jù),還存在大量的動態(tài)數(shù)據(jù)。大數(shù)據(jù)已經(jīng)滲透應用到了眾多行業(yè),為企業(yè)提供決策支持具有十分重要的作用,而且龐大的數(shù)據(jù)資源對國家的安全具有十分重要的作用,大數(shù)據(jù)已經(jīng)成為國家和企業(yè)的戰(zhàn)略資源,在未來的發(fā)展中地位十分突出。

      1大數(shù)據(jù)的內(nèi)涵及特征

      對于大數(shù)據(jù)的概念,目前還沒有一個統(tǒng)一的定義,現(xiàn)有的分許都是從數(shù)據(jù)規(guī)模與軟件支持處理數(shù)據(jù)的角度進行定義與描述的,在一般情況下認為大數(shù)據(jù)是指數(shù)據(jù)的大小超出了常規(guī)的數(shù)據(jù)加工工具獲取、存儲、管理與分析能力的數(shù)據(jù)集合體,在具體的處理過程中,需要對這些結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化的數(shù)據(jù)進行清洗、抽取加工,形成對人們有用的信息。大數(shù)據(jù)具有如下的幾個特征:

      1)數(shù)據(jù)規(guī)模大(volume)。一般情況下,大數(shù)據(jù)都是以半結(jié)構(gòu)化、非結(jié)構(gòu)化的形式存在,數(shù)據(jù)量比較搭,一般都在數(shù)百TR以上。

      2)數(shù)據(jù)多樣性(variety)。大數(shù)據(jù)中的數(shù)據(jù)主要以圖形、圖像、視頻、音頻、流媒體等數(shù)據(jù)形態(tài)存在,數(shù)據(jù)樣式比較多。

      3)數(shù)據(jù)處理時效性(velocity)。大數(shù)據(jù)只有經(jīng)過處理之后,才能獲取有用的信息,在處理要求數(shù)據(jù)滿足一定的響應性。

      4)結(jié)果準確性(veracity)。對數(shù)據(jù)的處理要求保證準確性,否則就會失去意義。

      5)深度價值(value)。大數(shù)據(jù)中蘊含有很多有深度價值的信息,通過數(shù)據(jù)挖掘分析,探究其中巨大的價值。

      2大數(shù)據(jù)的系統(tǒng)架構(gòu)分析

      大數(shù)據(jù)系統(tǒng)是一個復雜的結(jié)構(gòu),能夠為不同的數(shù)據(jù)提供其生命周期不同階段的數(shù)據(jù)處理功能,在不同的應用過程中,大數(shù)據(jù)系統(tǒng)可以縱向的分為多個不同的數(shù)據(jù)處理階段,在橫向上可以分為多個不同的層次。在建構(gòu)大數(shù)據(jù)系統(tǒng)模型時,需要結(jié)合大數(shù)據(jù)的具體用途進行分類建模,才能滿足不同行業(yè)的需要,統(tǒng)一數(shù)據(jù)模型設計主要是根據(jù)企業(yè)的需求,搭建數(shù)據(jù)平臺模型,由企業(yè)的應用需求驅(qū)動,大數(shù)據(jù)平臺的建構(gòu)模型應該自頂而下的過程,主要的建模過程主要包括業(yè)務的應用、需求的分析、邏輯模型的建立、生成具有的物理模型等幾個過程。首先要確定業(yè)務應用與需求,主要是對統(tǒng)一的數(shù)據(jù)模型提出需求分析,包括數(shù)據(jù)的功能性與性能等兩個方面的應用,即滿足數(shù)據(jù)的內(nèi)容與范圍的需求以及數(shù)據(jù)查詢的需求兩個功能,功能性需求主要是保證大數(shù)據(jù)平臺邏輯模型設計中,能夠在具體的物理模型中進行落實,在一般情況下可以采用完全集成CIM類、擴充CIM類的屬性以及新建類幾種方法對數(shù)據(jù)進行描述。性能需要主要是從傳統(tǒng)的SQL數(shù)據(jù)庫或者OLAP的關鍵績效指標來分析大數(shù)據(jù)平臺架構(gòu)的需求,然后采用機器學習的算法,提高分析挖掘效率。對于功能性需求,可以大數(shù)據(jù)平臺建立的過程中對數(shù)據(jù)結(jié)構(gòu)進行調(diào)整與優(yōu)化,并采用新型的數(shù)據(jù)庫技術,實現(xiàn)大數(shù)據(jù)平臺信息快速獲取的需要,而對于性能性需求,可以在采用一定的樣本訓練數(shù)據(jù)的基礎上,生成相應的分析圖表與目標視圖,然后通過ETL重新抽取統(tǒng)一層數(shù)據(jù)到分析層,生成相應的邏輯模型與物理模型。因此,大數(shù)據(jù)平臺需要包括文件系統(tǒng)、數(shù)據(jù)存儲、引擎功能、計算框架、數(shù)據(jù)分析、數(shù)據(jù)集成、操作框架等部分構(gòu)成,如圖1所示。大數(shù)據(jù)平臺主要包括以下幾個部分:基礎設施層書大數(shù)據(jù)系統(tǒng)的硬件基礎,一般情況下是由云計算技術提供的;計算層主要是多種計算工具與大數(shù)據(jù)計算框架構(gòu)成的,包括數(shù)據(jù)的抽取、ETL、檢測管理等技術,將各種非結(jié)構(gòu)化的數(shù)據(jù)進行處理,將無序化的數(shù)據(jù)轉(zhuǎn)換成有序的數(shù)據(jù)序列,便于用戶使用;而應用層主要采用多種協(xié)議方式實現(xiàn)大數(shù)據(jù)平臺與外部數(shù)據(jù)的連接接口。圖1展示大數(shù)據(jù)處理平臺的關鍵架構(gòu)層,在每一個層級中都會涉及相應的技術與關鍵的工具,它們是大數(shù)據(jù)平臺的開源工具,在大數(shù)據(jù)技術不斷發(fā)展的基礎上,在這些開源工具的支持下,不斷地促進技術革新,另外,通過開源代碼,不同地區(qū)的工作人員,能夠不斷地完善大數(shù)據(jù)處理的生態(tài)系統(tǒng),促進大數(shù)據(jù)技術的不斷發(fā)展。

      2.1Hadoop生態(tài)圖

      Hadoop是大數(shù)據(jù)平臺基礎性的應用平臺,它是一個分布式系統(tǒng)基礎架構(gòu),方便用戶在不了解系統(tǒng)底層細節(jié)分布的情況下,開發(fā)多種分布式程序,從而能夠提高集群的高速運算與具體的存儲。它主要包括:MapReduce,主要功能是實現(xiàn)分布式數(shù)據(jù)處理的編程模型,便于用戶對各種數(shù)據(jù)進行模型化處;Zookeeper,它的主要功能是分布式、可用性高的協(xié)調(diào)服務系統(tǒng),為用戶提供分布式鎖類的應用;HBase的功能是分布式存在,滿足數(shù)據(jù)按列存儲的方式存儲數(shù)據(jù)庫;Pig的功能是保證各種數(shù)據(jù)流的編程語言與工作運行環(huán)境,可以檢索各種類型的數(shù)據(jù)集合。

      2.2伯克利數(shù)據(jù)分析棧

      Spark的整個生態(tài)系統(tǒng)的核心,稱為伯克利數(shù)據(jù)分析棧(BDAS),目前技術的眾多子項目在大數(shù)據(jù)平臺中得到了廣泛的應用,它支持結(jié)構(gòu)化的SQL數(shù)據(jù)查詢、分析與數(shù)據(jù)處理,還提供機器學習的功能系統(tǒng),MLBase及底層的分布式機器學習庫ML-lib,同時,結(jié)合大數(shù)據(jù)生態(tài)系統(tǒng)的要求,還提供并行圖計算框架GraphX與流計算框架Spark Streaming等功能,整個大數(shù)據(jù)系統(tǒng)架構(gòu)中,采樣近似計算查詢引擎BlinkDB、內(nèi)存分布式文件系統(tǒng)Tachyon與資源管理框架Mesos等子項目等都分布在不同的層級,這些子項目協(xié)同工作,為大數(shù)據(jù)平臺提供了不同的計算范式,對非結(jié)構(gòu)化數(shù)據(jù)的處理具有十分重要的作用。

      3大數(shù)據(jù)系統(tǒng)架構(gòu)的關鍵技術

      3.1數(shù)據(jù)的采集技術

      大數(shù)據(jù)的數(shù)據(jù)源是多種多樣的,而且數(shù)據(jù)量十分巨大,變化快,如何有效的保證采集數(shù)據(jù)的安全性與可靠性以及數(shù)據(jù)的重復問題與質(zhì)量問題是數(shù)據(jù)采集的關鍵。

      3.1.1數(shù)據(jù)的生成

      1)埋點。主要原理在應用中,在能夠生成數(shù)據(jù)的上下文中,植入能夠生成數(shù)據(jù)的代碼,從而能夠獲取相應的數(shù)據(jù)。例如,在前端預先埋好需要的腳本代碼,在用戶訪問相應的網(wǎng)頁時,就會將用戶的行為記錄下來,從而能夠獲取相應的用戶偏好信息。

      2)日志收集數(shù)據(jù)。這種方法比較傳統(tǒng),但是也十分有效,獲取的數(shù)據(jù)也比較真實。例如,將網(wǎng)站部署在Linux服務器上,在用戶通過搜索引擎查詢到該網(wǎng)頁進行訪問后,Linux服務器里的日志文件就會有用戶登錄的日志,如圖2所示。

      作為大數(shù)據(jù)搜索系統(tǒng),網(wǎng)站日志占的份額最大,用戶的登錄行為可以通過日常保證,采用這種方式不需要在網(wǎng)站上預算埋點,就能夠查詢到和用戶的各種行為。

      3.2數(shù)據(jù)的傳輸技術

      大數(shù)據(jù)平臺主要采用的分布式存儲系統(tǒng),在分布式系統(tǒng)的構(gòu)件之間可,需要進行相互之間的信息傳遞,才能實現(xiàn)功能的耦合,系統(tǒng)中的消息隊列是數(shù)據(jù)信息在不同系統(tǒng)之間進行傳遞的容器與中間件,其功能是保證數(shù)據(jù)傳輸?shù)目煽啃?,常見的消息隊列有如下?/p>

      1)Flume系統(tǒng)

      Flume系統(tǒng)具有安全性、可靠性,是一種能夠?qū)Ψ植际降暮A咳罩緮?shù)據(jù)進行采集、聚合與傳輸?shù)南到y(tǒng),一般情況下,在每臺網(wǎng)絡的服務器上部署Flume Agent系統(tǒng),就能夠?qū)崟r的收集網(wǎng)站日志數(shù)據(jù),并將其轉(zhuǎn)存到HDFS上。以便于能夠及時地獲取相關數(shù)據(jù)。

      2)Kafka系統(tǒng)

      Kafka系統(tǒng)是Linkedln開源的信息系統(tǒng),是一種基于發(fā)布、訂閱消息系統(tǒng)的分布式管理系統(tǒng),它具有實時的數(shù)據(jù)處理能力、高高吞吐率、能夠支持消息的分區(qū)發(fā)布、保證消息能夠按照順序進行傳輸。在數(shù)據(jù)收集的過程中,數(shù)據(jù)在各個應用者處產(chǎn)生,通過Kafka匯集處理,將應用者需求的消息推送出去,在Kafka管理中,消費者讀取到的隊列的位置的相關信息,由Kaf-ka交各個消費者各自保存,降低了系統(tǒng)的數(shù)據(jù)存儲壓力,而其他管理信息存放在ZooKeeper中,從而提高了Kafka系統(tǒng)數(shù)據(jù)存儲效率。

      另外,在大數(shù)據(jù)業(yè)務處理的過程中,還有MySQL,Oracle,SqlServer等多種類型的數(shù)據(jù)庫,也可以采用Sqoop工具將數(shù)據(jù)同步到HDFS上,在使用Sqoop工具時,需要采用MapReduce來執(zhí)行數(shù)據(jù)的處理,并且還需Hadoop集群的每臺機器都能訪問業(yè)務數(shù)據(jù)庫,才能有的完成各種數(shù)據(jù)的處理,需要在不同的、異構(gòu)的數(shù)據(jù)庫之間采用高速的數(shù)據(jù)交換工具。

      3.3大數(shù)據(jù)存儲技術

      3.3.1大數(shù)據(jù)存儲的文件系統(tǒng)

      1)分布式文件管理系統(tǒng)

      在數(shù)據(jù)進入到大數(shù)據(jù)系統(tǒng)進行清洗、轉(zhuǎn)化時,都需要將數(shù)據(jù)存儲到一個合適的持久化層中,HDFS的開源實現(xiàn)功能,能夠?qū)⒋髷?shù)據(jù)環(huán)境下的數(shù)據(jù)倉庫、數(shù)據(jù)平臺等融合在一起,提高分布式文件存儲的效率。

      HDFS架構(gòu)主要由NameNode負責管理、處理、存儲分布式數(shù)據(jù)系統(tǒng)中的元數(shù)據(jù),運用DataNode負責分布式數(shù)據(jù)庫中的數(shù)據(jù)塊的實際存儲和讀寫操作,在大數(shù)據(jù)平臺的客戶端,利用NameNo-de聯(lián)系獲取用戶的元數(shù)據(jù)文件,而實際上的DataNode直接負責整個系統(tǒng)通信完成工作。

      2)分布式內(nèi)存文件系統(tǒng)

      Tachyon是分布式內(nèi)存文件系統(tǒng)之一,在大數(shù)據(jù)平臺的處理中,應用十分廣泛,它可以實現(xiàn)網(wǎng)絡中的數(shù)據(jù)在多節(jié)點的內(nèi)存中的分布式存儲與管理,它的具體架構(gòu)如圖3所示。

      Tachyon系部在底層部署了分布式文件管理系統(tǒng)與分布式存儲系統(tǒng),采用的是基于磁盤管理的方式與分布式計算框架。這樣,在大數(shù)據(jù)處理系統(tǒng)中,可以直接從系統(tǒng)的內(nèi)存中訪問數(shù)據(jù),而不是在磁盤中訪問數(shù)據(jù),大大提高系統(tǒng)的工作效率。

      3)大數(shù)據(jù)的數(shù)據(jù)庫技術

      大數(shù)據(jù)在互聯(lián)網(wǎng)應用,需要對網(wǎng)絡的數(shù)據(jù)進行實時處理,以期望得到挖掘有效的系統(tǒng)數(shù)據(jù),在基礎的數(shù)據(jù)庫管理中主要采用的是SQL數(shù)據(jù)庫系統(tǒng)、NOSQL數(shù)據(jù)庫系統(tǒng)兩種類型。在關系數(shù)據(jù)庫中,不同的數(shù)據(jù)模式需要采用不同的設計方法,他們是有嚴格的基于數(shù)據(jù)模型的設計方法,在NOSQL數(shù)據(jù)庫的設計中,需要綜合考慮各個鍵值的存儲方法、文檔存儲的方法、列式存儲、圖形、視頻、半結(jié)構(gòu)話、非結(jié)構(gòu)化數(shù)據(jù)等存儲模型,這樣就產(chǎn)生不同的物流存儲結(jié)構(gòu),也就有種不同的建模方式,可以說,采用NOSQL數(shù)據(jù)庫,可以快速地對大數(shù)據(jù)的數(shù)據(jù)模型進行設計。

      3.4大數(shù)據(jù)分析技術

      3.4.1互聯(lián)網(wǎng)用戶畫像模型

      用戶畫像畫像模型就是通過網(wǎng)絡收集與分析消費者的個性化特征與社會屬性的主要數(shù)據(jù),如生活習慣、消費習慣、群體特征等,提取特征數(shù)據(jù),形成對用戶的特征的一個個維度,并詳細的數(shù)據(jù)進行表征,如位置、職業(yè)、性別、愛好、學歷等,通過畫像的方式對用戶的特征進行信息化標簽,采用這種用戶畫像技術可以篩選用戶,進而能夠提高信息推送的精確度,另外一方面還可以作為數(shù)據(jù)挖掘中的用戶維度特征下一步挖掘,從而能夠提高網(wǎng)絡數(shù)據(jù)挖掘的效率,用戶畫像可以完美地對一個用戶的個性化特征進行表征,是當前企業(yè)大數(shù)據(jù)應用的最基本的方式。

      3.4.2機器學習的分析方法

      1)機器學習的技術工具

      在大數(shù)據(jù)機器學習語言中,常用的語言有R語言與Python工具包,在傳統(tǒng)的小數(shù)據(jù)量的數(shù)據(jù)分析、挖掘的工具有MAT-LAB、SAS、Spass等數(shù)據(jù)分析工具,而R、Python屬于開源性的數(shù)據(jù)挖掘工具,Python是一門多功能性的操作語言,在數(shù)據(jù)統(tǒng)計的過程中,主要采用的第三方工具包來實現(xiàn)的,Numpy封裝了基礎的矩陣和向量的操作,使得Pvthon語言在操作方面具有很強的優(yōu)勢,而Scipy則在Numpy的基礎上,可以使用多種開發(fā)的功能,統(tǒng)計多種分布與算法,并能夠提供可視化的處理功能,使得機器學習的功能變得比較簡單。Ma-hout與SparkML是Python語言中常用的數(shù)據(jù)功能,在其中都包括了分布式環(huán)境下數(shù)據(jù)運行的機器學習的算法,在具體的處理過程中,采用Spark的優(yōu)勢,將內(nèi)存計算和適合迭代型計算結(jié)合在一起,能夠提高機器學習的性能。

      2)大數(shù)據(jù)下的聯(lián)機分析處理

      目前,常用的大數(shù)據(jù)聯(lián)機處理的技術有高性能的OLAP、ROLAP與HOLAP技術,它們都是基于多維數(shù)據(jù)結(jié)構(gòu)的立體建模方式,然后通過大量的預聚合計算,從而能夠?qū)崿F(xiàn)多維數(shù)據(jù)支持,并支持以下鉆、上卷、切片、切塊、旋轉(zhuǎn)等操作,從而能夠有效地降低各種數(shù)據(jù)的處理與優(yōu)化。但是所在技術的發(fā)展,ROLAP能夠與多種數(shù)據(jù)庫聯(lián)系在一起,處理數(shù)據(jù)比較方便、快捷,成為當前大數(shù)據(jù)下的聯(lián)機分析處理的關鍵技術。

      3)基于大數(shù)據(jù)技術OLAP

      常見的基于大數(shù)據(jù)技術OLAP技術主要包括Hive系統(tǒng)、Im-pala系統(tǒng)、Spark SQL技術等,Hive能夠把HiveQL查詢進行處理,并將其轉(zhuǎn)換成MapReduce作業(yè),然后在Hadoop集群上執(zhí)行,數(shù)據(jù)運行的安全可靠,Impala系統(tǒng)使用LLVM技術,可以將系統(tǒng)中的查詢編譯成匯編指令,這樣能夠方便數(shù)據(jù)快速的執(zhí)行,無須對SQL的查詢指令進行處理與翻譯,提高數(shù)據(jù)的處理效率。Spark SQL技術在執(zhí)行數(shù)據(jù)查詢的過程中,主要是通過內(nèi)存進行存儲與傳輸,不需要將數(shù)據(jù)保存在系統(tǒng)的硬盤上,提高了系統(tǒng)的執(zhí)行效率。

      4結(jié)束語

      綜上分析,大數(shù)據(jù)技術在社會各行業(yè)中得到了廣泛的應用,在不同的應用環(huán)境中,大數(shù)據(jù)對數(shù)據(jù)處理的方法基本相同,都需要對結(jié)構(gòu)性、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)進行綜合處理,通過對大數(shù)據(jù)的內(nèi)涵與優(yōu)勢進行分析,探究了大數(shù)據(jù)的系統(tǒng)架構(gòu)模型,詳細地分析了大數(shù)據(jù)系統(tǒng)應用中的關鍵技術,大數(shù)據(jù)系統(tǒng)構(gòu)建需要結(jié)合具體的應用情況,選擇合適的技術才能夠滿足系統(tǒng)開發(fā)的要求。

      重庆市| 鹤岗市| 双鸭山市| 城市| 望都县| 松桃| 张家口市| 微博| 平遥县| 始兴县| 尼木县| 宽甸| 沧源| 五家渠市| 台北市| 鲜城| 蓬溪县| 邓州市| 平原县| 辽阳县| 牟定县| 雷山县| 孝感市| 历史| 中西区| 和田市| 勐海县| 玉田县| 兴安县| 铜山县| 白银市| 韶山市| 泸溪县| 平乡县| 固始县| 浠水县| 托里县| 蛟河市| 金门县| 万宁市| 兴海县|