• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      信息分析視角下的大數(shù)據(jù)分析平臺構(gòu)架研究

      2019-12-04 14:34:41朱華巍徐嵐中國電子科技集團公司第二十八研究所
      數(shù)碼世界 2019年11期
      關(guān)鍵詞:儲存分布式計算機

      朱華巍 徐嵐 中國電子科技集團公司第二十八研究所

      引言

      大數(shù)據(jù)分析是目前十分熱門的技術(shù),為了保證大數(shù)據(jù)分析平臺的性能,就需要選擇合適的架構(gòu)。因此,需要對大數(shù)據(jù)分析平臺架構(gòu)的特點進(jìn)行了解,研究不同方面的需要。

      1 大數(shù)據(jù)分析概述

      大數(shù)據(jù)的數(shù)據(jù)機構(gòu)復(fù)雜,并且數(shù)據(jù)量很大、數(shù)據(jù)價值密度很低,同時大數(shù)據(jù)的產(chǎn)生速度很快,這些特點導(dǎo)致大數(shù)據(jù)分析存在一定的難度。

      1.1 大數(shù)據(jù)分析內(nèi)涵

      大數(shù)據(jù)分析是對數(shù)據(jù)進(jìn)行分析的科學(xué)和技術(shù),大數(shù)據(jù)分析的中心思想在于通過有效的措施來對大量數(shù)據(jù)的信息和價值進(jìn)行挖掘。因此,大數(shù)據(jù)的核心在于能夠?qū)焖僭鲩L、類型眾多、內(nèi)容真實度很高的數(shù)據(jù)進(jìn)行分析,并且從其中挖掘信息。目前大數(shù)據(jù)的分析有兩個方面的內(nèi)容,包括機器學(xué)習(xí)和文本分析,在大數(shù)據(jù)分析的過程中,會對數(shù)據(jù)進(jìn)行采集和儲存工作,同時也會刪除沒有價值的信息。根據(jù)大數(shù)據(jù)的分析模型,可以建立專門的大數(shù)據(jù)分析平臺,滿足人們對數(shù)據(jù)的分析需求。

      1.2 大數(shù)據(jù)分析的應(yīng)用

      人類進(jìn)入信息化社會以后,數(shù)據(jù)密集型科學(xué)開始快速的發(fā)展,所以大數(shù)據(jù)分析已經(jīng)和很多與數(shù)據(jù)相關(guān)的技術(shù)有著緊密的聯(lián)系,必須云計算技術(shù)和情報分析。

      云計算技術(shù)是一種計算機的共享模式,基于互聯(lián)網(wǎng),讓用戶能夠使用云端計算機,享受云端計算機的優(yōu)越性能。具有快捷方便、隨時隨地的特點。很多大數(shù)據(jù)計算都會借助云端計算機來完成,作為大數(shù)據(jù)分析的載體,可以對數(shù)據(jù)進(jìn)行分析、篩選和儲存。

      情報分析也可以成為情報研究,根據(jù)用戶的需求來對大量的信息進(jìn)行縫隙,從而形成更高級的信息。目前情報分析以軟件技術(shù)和信息技術(shù)作為支撐,對社會信息進(jìn)行選擇和評價,然后根據(jù)特定的模型進(jìn)行加工,最后形成有價值的產(chǎn)品。這些數(shù)據(jù)產(chǎn)品能夠給企業(yè)的決策者提供一定的支持,幫助企業(yè)提升他們的競爭力。

      2 大數(shù)據(jù)分析研究現(xiàn)狀

      2.1 大數(shù)據(jù)分析服務(wù)

      隨著數(shù)據(jù)科學(xué)的快速發(fā)展,大數(shù)據(jù)分析成為了一項關(guān)鍵的技術(shù),由于社會對于大數(shù)據(jù)分析的需求,大數(shù)據(jù)分析服務(wù)業(yè)行業(yè)也有了很多商機。通過分析服務(wù)能夠滿足商業(yè)領(lǐng)域中的需要,很多企業(yè)也通過大數(shù)據(jù)分析服務(wù)來提升他們的商業(yè)水平,所以目前信息分析或者大數(shù)據(jù)分析服務(wù)已經(jīng)有了完整的服務(wù)內(nèi)容。

      2.2 大數(shù)據(jù)分析使用的方法

      大數(shù)據(jù)分析當(dāng)中最關(guān)鍵的就是進(jìn)行大數(shù)據(jù)分析方法的研究,使用合理的分析方法才能夠保證分析結(jié)果的有效,并且保證分析結(jié)果的精度。大數(shù)據(jù)對不同類型數(shù)據(jù)處理方法也有很大不同,所以也需要針對數(shù)據(jù)的類型尋找針對性的算法。目前很多大數(shù)據(jù)的關(guān)注重點在于社會媒體的大數(shù)據(jù),以及針對大數(shù)據(jù)的分析結(jié)果進(jìn)行可視化,或者對數(shù)據(jù)進(jìn)行自動化集成。對社會媒體的分析有一些專門的挖掘方法,有些專家也研究了全新的社會媒體分析方法,從而深入到媒體網(wǎng)站上進(jìn)行細(xì)節(jié)的數(shù)據(jù)討論,提升網(wǎng)站的決策水平。根據(jù)大數(shù)據(jù)的分析構(gòu)成,大數(shù)據(jù)也和傳感技術(shù)、復(fù)雜結(jié)構(gòu)處理技術(shù)、大數(shù)據(jù)平臺規(guī)范、虛擬化接入當(dāng)不同的技術(shù)有著非常重要的聯(lián)系。但是目前,大數(shù)據(jù)分析依然不能完全滿足人們的要求,還需要繼續(xù)加強投入和研究。

      2.3 大數(shù)據(jù)分析驅(qū)動社會的發(fā)展

      隨著信息化社會的發(fā)展,大數(shù)據(jù)分析已經(jīng)成為驅(qū)動社會發(fā)展的重要動力,讓很多學(xué)者和專家提高了對大數(shù)據(jù)研究的重視程度。學(xué)者為此對大數(shù)據(jù)的處理和進(jìn)行了總結(jié),研制了大數(shù)據(jù)的工具,一些專家也專門提出了能夠?qū)?shù)據(jù)模型進(jìn)行修正和擴展的工具。目前,大數(shù)據(jù)驅(qū)動已經(jīng)在很多的領(lǐng)域得到了應(yīng)用,比如生物領(lǐng)域和醫(yī)藥學(xué)領(lǐng)域,依靠大數(shù)據(jù)驅(qū)動,可以讓藥物的定制性提升,使藥物的開發(fā)更加合理。

      3 大數(shù)據(jù)平臺架構(gòu)類型

      3.1 Spark

      Spark是Apache 的開源項目,該平臺由加州大學(xué)伯克利分校開發(fā),是一個分布式的計算機系統(tǒng)。Spark 在Hadoop 的基礎(chǔ)上進(jìn)行了架構(gòu)上的改良,尤其是儲存方式上有很大的不同。Spark 使用內(nèi)存來進(jìn)行數(shù)據(jù)的儲存,而Hadoop 用硬盤來進(jìn)行數(shù)據(jù)儲存。這就讓Spark 的運算速度比Hadoop 快很多,達(dá)到了Hadoop 的一百倍左右,但是內(nèi)存長期儲存數(shù)據(jù)可能會出現(xiàn)數(shù)據(jù)丟失的問題,這也導(dǎo)致Spark 缺少長期保存數(shù)據(jù)的能力。

      3.2 Hadoop

      Hadoop 是一種分布式系統(tǒng),由雅虎工程師在2005 年合作開發(fā),之后Hadoop 被貢獻(xiàn)給Apache 基金會,作為Apache 基金會的開源項目。Hadoop 中使用了MapReduce 分布式框架,在GFS 協(xié)議的基礎(chǔ)上開發(fā)了HDFS 分布式文件系統(tǒng)。谷歌目前在內(nèi)部使用的分布式計算機和Hadoop 原理相同,但是Hadoop 并沒有達(dá)到谷歌內(nèi)部計算機的速度。目前,由于Hadoop 的開源特性,使得它成為了一種通用的分布式計算機標(biāo)準(zhǔn),包括雅虎、亞馬遜、百度、阿里的平臺都是用的Hadoop 搭建。

      3.3 Strom

      Storm 是推特推行的一種計算機系統(tǒng),也是Apache 基金會孵化的項目。在Hadoop 的基礎(chǔ)上,Storm 有更強的實時運算特性,讓Storm 能夠?qū)Υ髷?shù)據(jù)流進(jìn)行實時處理。Storm 并不進(jìn)行數(shù)據(jù)收集和儲存工作,只是通過網(wǎng)絡(luò)來接收數(shù)據(jù),并且進(jìn)行實時計算,將計算結(jié)果反饋。

      3.4 Samza

      Samza 是LinkedIn 的開源技術(shù),目前也成為了Apache 的頂級項目。Samza 也是一個分布式的框架,能夠進(jìn)行數(shù)據(jù)的實施實時處理,并不進(jìn)行數(shù)據(jù)的收集和儲存工作。和Storm 不同,Samza 所使用的分布式消息系統(tǒng)是LinkedIn 的Kafka。Samza 十分適合用于進(jìn)行數(shù)據(jù)流的處理,在數(shù)據(jù)跟蹤、日志服務(wù)上有極好的表現(xiàn),可以進(jìn)行信息的快速處理,并且容錯性很強。

      4 大數(shù)據(jù)平臺的應(yīng)用

      4.1 優(yōu)化機器和設(shè)備的性能

      通過大數(shù)據(jù)分析,電腦能夠?qū)C器設(shè)備進(jìn)更加智能的控制。比如自動駕駛的轎車,通過對大數(shù)據(jù)分析可以對車輛的控制做好優(yōu)化工作。結(jié)合GPS 系統(tǒng)、傳感器、相機,車輛將會更好地進(jìn)行數(shù)據(jù)的處理工作,并且不需要人來干預(yù)。在電網(wǎng)中的智能電網(wǎng)技術(shù),也依賴于大數(shù)據(jù)分析,能夠?qū)﹄娋W(wǎng)進(jìn)行優(yōu)化,保證電網(wǎng)能夠穩(wěn)定的運行。

      4.2 社會計算和信息分析

      社會計算包括生產(chǎn)、社交、娛樂當(dāng)方面的應(yīng)用,也包括社會科學(xué)、社會網(wǎng)絡(luò)分析、計算機社會科學(xué)等等,利用這些科學(xué)理論進(jìn)行分析,能夠了解社會信息。利用大數(shù)據(jù)平臺,進(jìn)行分布式計算、應(yīng)用數(shù)據(jù)庫等等,通過對移動端產(chǎn)生的數(shù)據(jù)進(jìn)行分析,來了解社會信息。

      4.3 信息資源報賬系統(tǒng)

      通過大數(shù)據(jù)平臺,可以構(gòu)建系統(tǒng)化、綜合化的信息資源保障系統(tǒng)和管理體系,比如根據(jù)某一個主題或者某一個產(chǎn)業(yè)來建設(shè)信息資源保障。目前,醫(yī)學(xué)的信息資源保障系統(tǒng)就已經(jīng)建立,幫助醫(yī)生、醫(yī)學(xué)研究人員進(jìn)行信息分析。針對情報機構(gòu)而言,信息資源難保障體系能夠讓信息得到充分的集成,推動不同種類的信息得到整合。

      4.4 利用數(shù)據(jù)平臺進(jìn)行集成化分析

      由于數(shù)據(jù)是廣泛存在的,如果數(shù)據(jù)散布在不同的數(shù)據(jù)管理系統(tǒng)中,就很難進(jìn)行數(shù)據(jù)的集成。通過大數(shù)據(jù)分析平臺,能夠?qū)⑿畔⑦M(jìn)行集中化,并且將信息作為一個完整的事件看待,從而進(jìn)行是事前、事中、事后的分析。

      5 結(jié)束語

      大數(shù)據(jù)分析技術(shù)對于很多方面都有應(yīng)用,通過對數(shù)據(jù)的分析,能夠提升行業(yè)的水平和提升企業(yè)的競爭力。為此,在大數(shù)據(jù)分析平臺的建設(shè)上需要從實際需求出發(fā),加強大數(shù)據(jù)平臺集成度和通用性,選擇合適的架構(gòu),保證平臺的性能。

      猜你喜歡
      儲存分布式計算機
      食物的儲存之道
      計算機操作系統(tǒng)
      基于計算機自然語言處理的機器翻譯技術(shù)應(yīng)用與簡介
      科技傳播(2019年22期)2020-01-14 03:06:34
      信息系統(tǒng)審計中計算機審計的應(yīng)用
      分布式光伏熱錢洶涌
      能源(2017年10期)2017-12-20 05:54:07
      安防云儲存時代已來
      分布式光伏:爆發(fā)還是徘徊
      能源(2017年5期)2017-07-06 09:25:54
      基于DDS的分布式三維協(xié)同仿真研究
      Fresnel衍射的計算機模擬演示
      西門子 分布式I/O Simatic ET 200AL
      三原县| 周宁县| 新化县| 阿克苏市| 集贤县| 绥芬河市| 兴安盟| 新竹市| 临汾市| 伊宁市| 西丰县| 屏东县| 广元市| 那曲县| 海丰县| 海安县| 丰县| 襄城县| 克拉玛依市| 镶黄旗| 和顺县| 建昌县| 闽侯县| 淅川县| 大田县| 陇南市| 黄骅市| 东安县| 玛纳斯县| 和顺县| 宁陵县| 北辰区| 固镇县| 汉阴县| 宜良县| 舟山市| 淮滨县| 柳州市| 九龙城区| 博爱县| 阳东县|