• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于大數(shù)據(jù)的數(shù)據(jù)分析系統(tǒng)架構(gòu)

      2020-05-25 02:46:05李超宇
      中國(guó)新通信 2020年1期
      關(guān)鍵詞:系統(tǒng)架構(gòu)數(shù)據(jù)分析大數(shù)據(jù)

      摘要:隨著“互聯(lián)網(wǎng)+”時(shí)代的發(fā)展,人們已經(jīng)從各種信息數(shù)據(jù)的使用和接收方變?yōu)閿?shù)據(jù)的發(fā)送方,基于大數(shù)據(jù)的應(yīng)用日漸成熟,各種行業(yè)類型的數(shù)據(jù)時(shí)刻都在產(chǎn)生著,基于大數(shù)據(jù)的應(yīng)用系統(tǒng)就是在如此龐大的數(shù)據(jù)量的基礎(chǔ)上建立的應(yīng)用系統(tǒng),系統(tǒng)應(yīng)當(dāng)具備強(qiáng)大的數(shù)據(jù)處理和分析能力,才能夠在海量的數(shù)據(jù)當(dāng)中尋求出有價(jià)值的數(shù)據(jù),為行業(yè)發(fā)展提供洞察力和優(yōu)化行業(yè)流程,為決策層提供精準(zhǔn)決策,從而使得用戶能夠掌握龐大的數(shù)據(jù)信息資產(chǎn)?;诖髷?shù)據(jù)的應(yīng)用技術(shù)核心優(yōu)勢(shì)就是對(duì)有價(jià)值的數(shù)據(jù)進(jìn)行處理和分析,本課題研究介紹了基于大數(shù)據(jù)應(yīng)用技術(shù)的數(shù)據(jù)分析系統(tǒng)架構(gòu)的實(shí)現(xiàn)過程。

      關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;系統(tǒng)架構(gòu)

      在信息時(shí)代的今天,各個(gè)行業(yè)領(lǐng)域都有大量的數(shù)據(jù),善于分析利用這些數(shù)據(jù),能夠?yàn)樾袠I(yè)帶來巨大的發(fā)展空間,甚至能夠引起行業(yè)的變革,因此基于大數(shù)據(jù)的應(yīng)用的關(guān)鍵技術(shù)就是數(shù)據(jù)分析的系統(tǒng)的架構(gòu)。

      基于大數(shù)據(jù)的應(yīng)用的出現(xiàn),給傳統(tǒng)的數(shù)據(jù)分析系統(tǒng)架構(gòu)帶來了新的挑戰(zhàn),數(shù)據(jù)分析是隱藏在應(yīng)用系統(tǒng)的背后,對(duì)于應(yīng)用分析結(jié)果有舉足輕重的作用,隨著數(shù)據(jù)挖掘、探索等技術(shù)的發(fā)展,基于大數(shù)據(jù)的數(shù)據(jù)分析系統(tǒng)架構(gòu)應(yīng)該側(cè)重解決傳統(tǒng)數(shù)據(jù)分析的三個(gè)瓶頸問題:第一,分布式計(jì)算,分布式計(jì)算的設(shè)計(jì)思路是多個(gè)節(jié)點(diǎn)并行計(jì)算,強(qiáng)調(diào)的是數(shù)據(jù)本地化,數(shù)據(jù)盡可能少傳輸。第二,分布式存儲(chǔ),所謂分布式存儲(chǔ)就是將一個(gè)大文件拆分為多個(gè)小文件分別存儲(chǔ)到不同的主機(jī),通過分片式管理技術(shù)對(duì)文件進(jìn)行管理。第三,數(shù)據(jù)的檢索和存儲(chǔ)相結(jié)合,基于大數(shù)據(jù)的數(shù)據(jù)分析面臨著海量的數(shù)據(jù)和多種數(shù)據(jù)類型,在不規(guī)范的數(shù)據(jù)中進(jìn)行數(shù)據(jù)檢索。

      一、基于大數(shù)據(jù)的應(yīng)用系統(tǒng)架構(gòu)

      在Hadoop體系的分布式應(yīng)用中,基于大數(shù)據(jù)的數(shù)據(jù)分析應(yīng)用架構(gòu)已經(jīng)和大數(shù)據(jù)信息架構(gòu)互相結(jié)合,為各個(gè)行業(yè)領(lǐng)域在大數(shù)據(jù)的應(yīng)用中帶來了許多經(jīng)濟(jì)價(jià)值和數(shù)據(jù)信息資產(chǎn),Hadoop體系采用云計(jì)算和分布式的應(yīng)用技術(shù),能夠?qū)Υ髷?shù)據(jù)進(jìn)行處理和分析,對(duì)未來大數(shù)據(jù)的信息中更大價(jià)值的數(shù)據(jù)源進(jìn)行進(jìn)一步的數(shù)據(jù)挖掘,會(huì)獲得更大的數(shù)據(jù)潛在價(jià)值。

      (一)Hadoop對(duì)日志數(shù)據(jù)處理

      目前互聯(lián)網(wǎng)站點(diǎn)的數(shù)量在呈指數(shù)級(jí)別增長(zhǎng),Web服務(wù)器會(huì)因?yàn)闃I(yè)務(wù)量的劇增而生成龐大的數(shù)據(jù)日志文件數(shù)據(jù),其中包括了網(wǎng)址訪問和業(yè)務(wù)數(shù)據(jù)流程處理的相關(guān)數(shù)據(jù),這些日志文件數(shù)據(jù)會(huì)通過一系列的云計(jì)算算法處理后,上傳到云端,通過分析處理這些數(shù)據(jù)能夠反映給整個(gè)應(yīng)用系統(tǒng)的實(shí)時(shí)運(yùn)行狀態(tài),同時(shí)也可以反饋遇到的一系列系統(tǒng)異常問題。

      (二)Hadoop并行處理系統(tǒng)架構(gòu)

      在Hadoop體系的分布式大數(shù)據(jù)應(yīng)用中,數(shù)據(jù)采集模塊會(huì)將采集到的各種類型的數(shù)據(jù)傳送到Hadoop的并行處理系統(tǒng)架構(gòu)中,然后信息數(shù)據(jù)被保存到HDFS中,傳送的數(shù)據(jù)會(huì)被Hadoop體系中的MapReduce并行計(jì)算編程模型作為框架來進(jìn)行系統(tǒng)化處理,MapReduce分布式的并行計(jì)算編程模型能夠有效地解決數(shù)據(jù)分布范圍大并且零散導(dǎo)致采集難的問題,這些信息數(shù)據(jù)會(huì)在分析前被分散到各個(gè)分節(jié)點(diǎn),然后系統(tǒng)會(huì)利用就近原則讀取相鄰節(jié)點(diǎn)的數(shù)據(jù),然后映射數(shù)據(jù)進(jìn)行處理分析,經(jīng)過處理分析后的數(shù)據(jù)會(huì)被再進(jìn)行數(shù)據(jù)匯聚合并,所以基于Hadoop體系的大數(shù)據(jù)分析應(yīng)用具備高速、可靠的特點(diǎn),能夠滿足大數(shù)據(jù)的數(shù)據(jù)處理和分析的需求。

      二、基于大數(shù)據(jù)的數(shù)據(jù)分析系統(tǒng)架構(gòu)

      (一)傳統(tǒng)的大數(shù)據(jù)數(shù)據(jù)分析架構(gòu)

      傳統(tǒng)的大數(shù)據(jù)數(shù)據(jù)分析架構(gòu),傳統(tǒng)的BI數(shù)據(jù)分析,由于數(shù)據(jù)量和系統(tǒng)性能不能滿足大數(shù)據(jù),所以基于此類的數(shù)據(jù)分析技術(shù)上是使用了大數(shù)據(jù)的數(shù)據(jù)分析組件替換傳統(tǒng)的BI系統(tǒng)組件,保留了大數(shù)據(jù)的ETL操作,相對(duì)解決基于大數(shù)據(jù)的BI數(shù)據(jù)分析。整個(gè)架構(gòu)相對(duì)簡(jiǎn)單易懂,缺點(diǎn)就是缺乏對(duì)實(shí)時(shí)數(shù)據(jù)分析的支持。

      (二)流式數(shù)據(jù)分析架構(gòu)

      數(shù)據(jù)在應(yīng)用過程中全部以流的形式進(jìn)行分析處理,直接去掉了數(shù)據(jù)批處理,用數(shù)據(jù)通道替換了ETL操作,經(jīng)過流式數(shù)據(jù)分析處理加工后的數(shù)據(jù),以信息推送的方式推送給用戶,相對(duì)于其他數(shù)據(jù)分析架構(gòu),流式架構(gòu)由于取消ETL操作,所以數(shù)據(jù)的處理效率非常高,但是由于沒有了數(shù)據(jù)批處理,沒有很好的支撐數(shù)據(jù)統(tǒng)計(jì)和重播,不利于離線進(jìn)行數(shù)據(jù)分析。

      (三)Lambda數(shù)據(jù)分析結(jié)構(gòu)

      在大數(shù)據(jù)分析系統(tǒng)中Lambda架構(gòu)是比較重要的一種數(shù)據(jù)分析架構(gòu)方式,大多數(shù)的架構(gòu)都是基于這種架構(gòu),Lambda架構(gòu)的數(shù)據(jù)通道分為兩個(gè):實(shí)時(shí)數(shù)據(jù)流分析和離線數(shù)據(jù)分析,實(shí)時(shí)數(shù)據(jù)流的分析架構(gòu)是流式架構(gòu),多數(shù)采用增量式計(jì)算,保障了數(shù)據(jù)處理分析的實(shí)時(shí)性,離線數(shù)據(jù)分析就以全量運(yùn)算的數(shù)據(jù)批處理為主,保證了數(shù)據(jù)的一致性。在Lambda架構(gòu)的最外層是一個(gè)實(shí)時(shí)和離線的數(shù)據(jù)分析合并層,這個(gè)合并層是Lambda架構(gòu)的關(guān)鍵,既集合了實(shí)時(shí)數(shù)據(jù)分析和離線數(shù)據(jù)分析的優(yōu)點(diǎn),對(duì)于數(shù)據(jù)分析的應(yīng)用比較廣泛,適合于對(duì)實(shí)時(shí)數(shù)據(jù)分析和離線數(shù)據(jù)分析同時(shí)需求存在的場(chǎng)景。

      (四)Kappa數(shù)據(jù)分析架構(gòu)

      Kappa數(shù)據(jù)分析架構(gòu)是在Lambda架構(gòu)的基礎(chǔ)進(jìn)行優(yōu)化,在數(shù)據(jù)通道上把實(shí)時(shí)數(shù)據(jù)分析和流式數(shù)據(jù)分析進(jìn)行了合并,以消息隊(duì)列進(jìn)行數(shù)據(jù)傳輸。在以Kappa架構(gòu)的數(shù)據(jù)分析上來講,還是以數(shù)據(jù)流的分析形式為主,不同的是數(shù)據(jù)存儲(chǔ)是在數(shù)據(jù)湖層面上,當(dāng)需要對(duì)離線數(shù)據(jù)分析或者執(zhí)行重新的數(shù)據(jù)分析操作時(shí)候,只需要把數(shù)據(jù)從數(shù)據(jù)湖層以消息隊(duì)列的方式將數(shù)據(jù)重播一次就行了。Kappa數(shù)據(jù)分析架構(gòu)去除了Lambda架構(gòu)當(dāng)中的冗余部分,將數(shù)據(jù)分析重播作為創(chuàng)新的形式加入到架構(gòu)當(dāng)中,Kappa結(jié)構(gòu)整體相當(dāng)簡(jiǎn)潔,缺點(diǎn)就是雖然結(jié)構(gòu)簡(jiǎn)潔,但是由于數(shù)據(jù)分析重播部分實(shí)現(xiàn)難度較高,所以總體架構(gòu)難度比較大。

      (五)Unifield數(shù)據(jù)分析架構(gòu)

      以上的幾種數(shù)據(jù)分析架構(gòu)都是以處理海量數(shù)據(jù)為主,Unifield數(shù)據(jù)分析架構(gòu)是將數(shù)據(jù)處理分析與機(jī)器學(xué)習(xí)整合為一體,從架構(gòu)的核心層面來看,Unifield數(shù)據(jù)分析架構(gòu)還是基于Lambda架構(gòu),只是在數(shù)據(jù)流分析層加入了機(jī)器學(xué)習(xí)層,增加了數(shù)據(jù)模型訓(xùn)練,數(shù)據(jù)在加載后從數(shù)據(jù)通道到數(shù)據(jù)湖后,進(jìn)行數(shù)據(jù)模型訓(xùn)練,然后提供給數(shù)據(jù)分析流層調(diào)用,同時(shí)數(shù)據(jù)分析流層會(huì)對(duì)數(shù)據(jù)進(jìn)行持續(xù)的數(shù)據(jù)模型訓(xùn)練Unifield數(shù)據(jù)分析架構(gòu)套數(shù)據(jù)分析與機(jī)器學(xué)習(xí)的架構(gòu),很好的解決了數(shù)據(jù)分析平臺(tái)與人工智能領(lǐng)域相結(jié)合的問題,適合使用在基于大數(shù)據(jù)下的數(shù)據(jù)分析下的人工智能應(yīng)用中,缺點(diǎn)就是由于整合了機(jī)器學(xué)習(xí)層,要求架構(gòu)技術(shù)更高。

      三、結(jié)束語(yǔ)

      本課題分析了基于大數(shù)據(jù)的數(shù)據(jù)分析架構(gòu),并且提出了一些可行的數(shù)據(jù)分析架構(gòu)方案,分別歸納出各種數(shù)據(jù)分析架構(gòu)的性能、可靠性和優(yōu)缺點(diǎn),希望在未來的信息科技時(shí)代,我們能夠善用大數(shù)據(jù),為社會(huì)各行業(yè)提供更多的有價(jià)值數(shù)據(jù)分析,使得我國(guó)在大數(shù)據(jù)分析的技術(shù)方面邁向新的發(fā)展。

      參考文獻(xiàn):

      [1]陳琳,陳耀華.以信息化帶動(dòng)教育現(xiàn)代化路徑探析[J].教育研究.2013(11).

      [2]王勝,聶立武,韓古月.智慧教育內(nèi)涵與教學(xué)體系研究[J].遼寧高職學(xué)報(bào).2015(11):21-23.

      [3]祝智庭,賀斌.智慧教育——教育信息化的新境界[J].電化教育研究.2012(12):5-7.

      [4]樊娜,黃雪琴.大數(shù)據(jù)時(shí)代下的個(gè)性化學(xué)習(xí)探討[J].科技風(fēng),2015(7):23.

      [5]楊現(xiàn)民.信息時(shí)代智慧教育的內(nèi)涵與特征[J].中國(guó)電化教育,2014(1):29-34.

      [6]陳律.大數(shù)據(jù)背景下學(xué)習(xí)分析技術(shù)對(duì)教學(xué)模式的變革[J].中國(guó)教育信息化,2015(24):15-17.

      作者簡(jiǎn)介:

      李超宇(1982—),男,廣西梧州人,高校講師,網(wǎng)絡(luò)工程師,工學(xué)碩士,主要從事云計(jì)算、大數(shù)據(jù)與計(jì)算機(jī)網(wǎng)絡(luò)方面的研究。

      基金項(xiàng)目:

      2016年度廣西壯族自治區(qū)中青年基礎(chǔ)能力提升項(xiàng)目“基于大數(shù)據(jù)的教育技術(shù)信息平臺(tái)的應(yīng)用研究”(KY2016YB899)

      猜你喜歡
      系統(tǒng)架構(gòu)數(shù)據(jù)分析大數(shù)據(jù)
      人工智能在智能機(jī)器人系統(tǒng)中的應(yīng)用研究
      基于云計(jì)算的多媒體網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)系統(tǒng)架構(gòu)
      吉林省氣象服務(wù)平臺(tái)技術(shù)研究及設(shè)計(jì)思路
      榆林學(xué)院智慧校園系統(tǒng)架構(gòu)的分析與設(shè)計(jì)
      Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
      淺析大數(shù)據(jù)時(shí)代背景下的市場(chǎng)營(yíng)銷策略
      新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
      淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營(yíng)銷模式的影響
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      东乡| 扎赉特旗| 二手房| 余江县| 上犹县| 六盘水市| 和平县| 元朗区| 万宁市| 光山县| 尚志市| 钟祥市| 永年县| 石首市| 托里县| 安图县| 晋州市| 镇赉县| 大田县| 偃师市| 福贡县| 三都| 东平县| 天等县| 吉隆县| 通海县| 三穗县| 阳西县| 商都县| 齐齐哈尔市| 上犹县| 曲靖市| 内乡县| 天台县| 报价| 若尔盖县| 方城县| 金溪县| 乌海市| 万山特区| 阿勒泰市|