• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      10步帶你認識大數(shù)據(jù)和云計算

      2019-09-10 07:22:44王媛滿
      計算機與網(wǎng)絡(luò) 2019年2期
      關(guān)鍵詞:數(shù)據(jù)服務(wù)開源結(jié)構(gòu)化

      王媛滿

      第一步:大數(shù)據(jù)

      “大數(shù)據(jù)”這個概念是近幾年開始火起來的,現(xiàn)在可謂是無處不在了。那么在了解什么是大數(shù)據(jù)之前,我們先了解一下什么是傳統(tǒng)數(shù)據(jù)?

      傳統(tǒng)數(shù)據(jù)就是IT業(yè)務(wù)系統(tǒng)里面的數(shù)據(jù),如客戶資料、財務(wù)數(shù)據(jù)等。這些數(shù)據(jù)是結(jié)構(gòu)化的,量也不是特別大,一般只是TB級。對比傳統(tǒng)數(shù)據(jù),還有一種叫“新數(shù)據(jù)”,是來源于社區(qū)網(wǎng)絡(luò)、互聯(lián)網(wǎng)等渠道,包括文本、圖片、音頻和視頻等非結(jié)構(gòu)化的數(shù)據(jù)。目前全世界75 %以上都是非結(jié)構(gòu)化數(shù)據(jù),而且還一直呈現(xiàn)爆炸性的增長。我們看看下面的圖就更好理解了:

      大數(shù)據(jù)就是:結(jié)構(gòu)化的“傳統(tǒng)數(shù)據(jù)+非結(jié)構(gòu)化的新數(shù)據(jù)”。因而,大數(shù)據(jù)還具有以下特點,簡稱“4V”:

      大量(Volume):數(shù)據(jù)體量巨大,從TB級別躍升到PB級別;

      多樣(Variety):數(shù)據(jù)類型繁多,有網(wǎng)絡(luò)日志、視頻、圖片和地理位置信息等;

      高速(Velocity):處理速度快,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同;

      價值(Value):只要合理利用數(shù)據(jù)并對其進行正確、準確的分析,將會帶來很高的價值回報。

      第二步:大數(shù)據(jù)組成

      大數(shù)據(jù)系統(tǒng)由基礎(chǔ)設(shè)施、平臺和應(yīng)用組成。對應(yīng)我們平時使用的電腦,基礎(chǔ)設(shè)施就是電腦這臺硬件,平臺就是裝在里面的操作系統(tǒng),應(yīng)用就是操作系統(tǒng)上面的各種應(yīng)用程序。

      大數(shù)據(jù)的應(yīng)用五花八門,但總體上可分為“業(yè)務(wù)應(yīng)用”和“數(shù)據(jù)分析”兩大類。

      前者包括ERP、CRM等業(yè)務(wù)系統(tǒng),后者指的是各種分析應(yīng)用,包括經(jīng)營分析、價值分析和人流分析等。分析系統(tǒng)從業(yè)務(wù)系統(tǒng)獲取源數(shù)據(jù),經(jīng)過分析后可以反哺業(yè)務(wù)系統(tǒng),對其進行賦能,讓其具有智慧。說到這里,大家是不是覺得有點熟悉了?跟我們的BI是不是有某些聯(lián)系呢?沒錯了,“大數(shù)據(jù)平臺”和“數(shù)據(jù)分析系統(tǒng)”加在一起就是BI的升級版。既然是升級版,它與傳統(tǒng)BI有什么區(qū)別呢?

      (1)成本更低廉

      去IOE,硬件采用廉價的X86,軟件更多使用的開源方式,節(jié)省成本。

      (2)容災(zāi)性好

      平臺部署在X86集群上,機器出問題可隨時切換。

      (3)擴展性好

      X86集群可根據(jù)需要隨時進行擴展,提高靈活性。

      (4)處理效率高

      當數(shù)據(jù)達到TB級別,處理效率顯著提高。

      (5)處理類型多

      可以處理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

      (6)進一步挖掘價值

      由于處理的數(shù)據(jù)量大、類型多,因而可以進一步挖掘數(shù)據(jù)的價值。

      是不是發(fā)現(xiàn)有很多升級的地方呢?為了支持這些升級,大數(shù)據(jù)系統(tǒng)需要具備哪些功能呢?這就涉及到架構(gòu)問題了。

      第三步:大數(shù)據(jù)架構(gòu)

      我們已經(jīng)知道大數(shù)據(jù)系統(tǒng)由基礎(chǔ)設(shè)施、平臺和應(yīng)用組成,現(xiàn)在進一步細分:

      基礎(chǔ)設(shè)施由通過局域網(wǎng)或互聯(lián)網(wǎng)連接的X86集群組成,為大數(shù)據(jù)平臺提供最基本的硬件支持。

      大數(shù)據(jù)平臺是由基礎(chǔ)架構(gòu)、數(shù)據(jù)處理和數(shù)據(jù)服務(wù)三部分組成:基礎(chǔ)架構(gòu)負責(zé)對基礎(chǔ)設(shè)施進行系統(tǒng)管理,為數(shù)據(jù)處理提供分布式底層服務(wù);數(shù)據(jù)處理負責(zé)數(shù)據(jù)的采集、存儲和計算;數(shù)據(jù)服務(wù)負責(zé)將處理后的數(shù)據(jù)提供給上層應(yīng)用使用。大數(shù)據(jù)應(yīng)用是面向用戶的各種應(yīng)用系統(tǒng),包括業(yè)務(wù)應(yīng)用和數(shù)據(jù)分析。

      第四步:虛擬化

      基礎(chǔ)設(shè)施提供計算、存儲和網(wǎng)絡(luò)三種能力,是大數(shù)據(jù)平臺的根基,但是需要解決以下問題:

      (1)大量的機器如何管理

      當集群的狀態(tài)改變,即增加或者減少一些機器的時候,難道要去修改平臺的配置嗎?

      (2)如何充分利用系統(tǒng)資源

      當集群的能力只使用了一部分,而這個時候需要一部新的機器用來部署其它系統(tǒng),難道是從集群上拆下一部機器來提供嗎?

      (3)如何解決彈性問題

      當高峰期的時候,系統(tǒng)可能需要20部機器,平時只需要10部。那么我們是提供多少部合適呢?如果提供20部,平時空閑下來的10部如何處理?

      這些問題有一種解決方法:虛擬化。就是把集群作為一個整體進行管理,可以根據(jù)需要從某些機器中調(diào)配相關(guān)資源,快速組成一部“新的機器”。例如可以用機器A的CPU1/2性能、1/3的內(nèi)存和機器B的1/5硬盤組成。

      當集群的狀態(tài)改變時,我們只需要修改虛擬化軟件的配置,減少對平臺的影響。當集群有多余的資源時,可以虛擬出一些新的機器給其它系統(tǒng)使用,充分利用了系統(tǒng)資源。

      虛擬化的主流商業(yè)軟件是Vmware,開源的軟件有Xen和KVM等。

      第五步:云化

      虛擬化雖然帶來資源配置的靈活性,但也有明顯的缺陷。配置一部“新的機器”需要人工操作,配置非常麻煩,最多只能管理幾百臺電腦的規(guī)模,作為企業(yè)內(nèi)部的應(yīng)用是可以的。但對于提供公眾服務(wù)的互聯(lián)網(wǎng)公司來說,需要上萬部電腦的規(guī)模,通過虛擬化的方式是行不通的。所以又有了新技術(shù)的出現(xiàn):云化,即把基礎(chǔ)設(shè)施作為一項服務(wù)提供。

      最早是亞馬遜基于自身電商業(yè)務(wù)的發(fā)展,傳統(tǒng)的IT架構(gòu)已經(jīng)滿足不了需求,所以基于開源的虛擬化軟件開發(fā)了AWS(Amazon Web Service),可以支持超大規(guī)模的集群應(yīng)用。在解決自己的業(yè)務(wù)需求后,亞馬遜發(fā)現(xiàn)可以把這項技術(shù)作為一項單獨的業(yè)務(wù)推向市場,這就是現(xiàn)在穩(wěn)居全球市場頭把交椅的的亞馬遜云服務(wù)。同樣的背景,阿里巴巴也基于Xen推出了市場化的阿里云,現(xiàn)成已經(jīng)成為國內(nèi)云市場的老大。由此知道為什么云服務(wù)做得最早、最好的都是互聯(lián)網(wǎng)公司了吧?因為他們有自身的業(yè)務(wù)在驅(qū)動。規(guī)模上萬的機器,以資源池(數(shù)據(jù)中心)的形式分布在不同的地域上(很多建設(shè)在廣西、貴州和內(nèi)蒙等省份,電費、人工比較便宜,又可以促進當?shù)鼐蜆I(yè)),通過調(diào)度中心進行統(tǒng)一管理,這就是公有云平臺。

      在亞馬遜開展商業(yè)化云服務(wù)的同時,美國另一家叫Rackspace的公司也推出OpenStack跟亞馬遜競爭。無奈競爭不過人家,最后決定和美國國家航空航天局(NASA)合作,把OpenStack開源,一起成立了開源云平臺。后來各家傳統(tǒng)的IT巨頭紛紛加入這個開源的社區(qū),經(jīng)過二次開發(fā)和包裝后推出了自己的私有云平臺,和自家的硬件或解決方案一起打包銷售。

      不管是公有云,還是私有云,都是實現(xiàn)了基礎(chǔ)設(shè)施的時間靈活性和空間靈活性,把基礎(chǔ)設(shè)施作為一項服務(wù)提供,這就是IaaS。

      第六步:Hadoop

      大數(shù)據(jù)平臺的基礎(chǔ)架構(gòu)采用Hadoop,包括HDFS和MapReduce兩部分:

      HDFS在集群上實現(xiàn)分布式文件系統(tǒng),負責(zé)對文件的操作(類似windows下的文件管理系統(tǒng)NTFS)。

      MapReduce在集群上實現(xiàn)分布式計算和任務(wù)處理,負責(zé)將作業(yè)分解成多個任務(wù),分派到多部機器一起執(zhí)行,同時監(jiān)控執(zhí)行情況,保證每個任務(wù)都能順利執(zhí)行,所有任務(wù)結(jié)束后再將結(jié)果匯總(類似多個人一起數(shù)圖書館的書,每個人算一個書架(Map),最后把所有結(jié)果加在一起(Reduce))

      那么,如何把Hadoop安裝到集群下面那么多機器上呢?每部機器的配置、操作系統(tǒng)都可能不一樣。

      解決辦法就是采用“容器”技術(shù):先將Hadoop打包到一個封閉的容器中,再統(tǒng)一發(fā)布到各部機器上。容器能夠根據(jù)機器實際環(huán)境做出相應(yīng)的調(diào)整,保證Hadoop的順利安裝(類似用統(tǒng)一規(guī)格的集裝箱來運送貨物)。

      容器的主流技術(shù)是開源的Docker。不僅僅是Hadoop可以通過容器進行安裝,所有的應(yīng)用都可以使用。

      現(xiàn)在已經(jīng)在集群下每部機器安裝了Hadoop,那么Hadoop是如何運行的呢?

      Hadoop把集群下其中一個節(jié)點拿來當Master,其它節(jié)點當Slave。對于HDFS來說,Master就是NameNode,負責(zé)管理文件系統(tǒng)的命名空間和控制客戶端訪問;Slave就是DataNode,負責(zé)管理存儲的數(shù)據(jù)。對于MapReduce來說,Master就是JobTracker,負責(zé)調(diào)度構(gòu)成一個作業(yè)的所有任務(wù),這些任務(wù)分布在不同的TaskTracker上;Slave就是TaskTracker,負責(zé)執(zhí)行由JobTracker指派的任務(wù)。

      Hadoop已經(jīng)衍生出很多不同的升級版本,目前應(yīng)用最成熟、最廣泛的是Spark。

      第七步:數(shù)據(jù)處理

      數(shù)據(jù)處理是對數(shù)據(jù)的采集、存儲和計算。因為大數(shù)據(jù)有各種各樣的應(yīng)用,不同的應(yīng)用,數(shù)據(jù)的種類、結(jié)構(gòu),數(shù)據(jù)的實時性要求都可能不同。所以要根據(jù)實際情況進行數(shù)據(jù)庫選型,這是大數(shù)據(jù)平臺設(shè)計的關(guān)鍵,將影響到整個平臺的整體性能。不同的數(shù)據(jù)庫類型可以進行混搭,同時采用不同的ETL技術(shù)。

      目前常見的各種數(shù)據(jù)庫類型如下:

      (1)傳統(tǒng)數(shù)據(jù)庫

      主流數(shù)據(jù)庫有Oracle、DB2、MySQL,主要應(yīng)用于小規(guī)模應(yīng)用系統(tǒng),或者為了利用已有的資源,同時降低系統(tǒng)升級的風(fēng)險,采用的ETL技術(shù)是Datastage、Kettle等。

      (2)內(nèi)存數(shù)據(jù)庫

      主流數(shù)據(jù)庫有SQLite、HANA,主要應(yīng)用于對實時性要求高,需要實時處理的數(shù)據(jù),如實時指標展示、精準營銷等,采用的ETL技術(shù)是流處理技術(shù)kafka。

      (3)MPP數(shù)據(jù)庫

      MPP是指大規(guī)模并行處理,MPP數(shù)據(jù)庫支持X86集群,常見的有Greanplum,Vertica等,主要應(yīng)用于大規(guī)模結(jié)構(gòu)化數(shù)據(jù)分析,如信令分析、DPI分析,一般采用Kettle作為ETL工具。

      (4)NoSQL數(shù)據(jù)庫

      NoSQL是指半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)庫,主流的數(shù)據(jù)庫有MongoDB、HBase和HDFS等,HBase用來存儲半結(jié)構(gòu)化或結(jié)構(gòu)很稀疏的數(shù)據(jù),HDFS用來存儲非結(jié)構(gòu)化數(shù)據(jù)。HBase和HDFS都不支持SQL,需要使用Hive作為SQL接口執(zhí)行一些簡單的查詢操作。NoSQL數(shù)據(jù)庫基于Hadoop平臺,主要應(yīng)用于大規(guī)模半/非結(jié)構(gòu)化離線分析,例如互聯(lián)網(wǎng)數(shù)據(jù)分析、文檔分析等,一般采用網(wǎng)絡(luò)爬蟲技術(shù)進行ETL。

      第八步:數(shù)據(jù)服務(wù)

      經(jīng)過處理后的數(shù)據(jù),一般不提供給上層應(yīng)用直接用SQL訪問,這一點與數(shù)據(jù)倉庫不同。通常情況是數(shù)據(jù)倉庫把采集過來的數(shù)據(jù)經(jīng)過處理后存儲在匯總層,上層應(yīng)用直接用SQL訪問。但大數(shù)據(jù)平臺把處理后的數(shù)據(jù)進行封裝和分類,為上層應(yīng)用提供可靈活調(diào)用的數(shù)據(jù)服務(wù)接口,可以保證數(shù)據(jù)訪問的規(guī)范性和安全性。

      接口的承載方式有:文件、消息、API、SDK和界面集成,其流程如下:

      (1)數(shù)據(jù)格式化

      對原始數(shù)據(jù)進行格式化,過濾字段并進行排序。

      (2)數(shù)據(jù)封裝

      對格式化后的數(shù)據(jù)及其元數(shù)據(jù)進行封裝,以實現(xiàn)對外一致、標準化的數(shù)據(jù)訪問接口。

      (3)數(shù)據(jù)分類

      根據(jù)封裝后的數(shù)據(jù),按主題進行接口分類。

      (4)數(shù)據(jù)服務(wù)

      上層應(yīng)用可通過數(shù)據(jù)服務(wù)接口調(diào)用數(shù)據(jù),實現(xiàn)數(shù)據(jù)的服務(wù)功能。

      數(shù)據(jù)服務(wù)接口屏蔽掉大數(shù)據(jù)平臺的所有細節(jié),把平臺作為一項服務(wù)提供給應(yīng)用使用,這種方式稱之為PaaS。

      在公有云提供商中,一般都會有對應(yīng)的PaaS服務(wù)提供,如阿里云的企業(yè)級分布式應(yīng)用服務(wù)(EDAS)。

      私有云是企業(yè)自建,對數(shù)據(jù)訪問的控制沒那么嚴格。為了開發(fā)效率,應(yīng)用通常可以通過SQL直接訪問數(shù)據(jù)。

      第九步:大數(shù)據(jù)應(yīng)用

      對于大數(shù)據(jù)應(yīng)用來說,私有云上的應(yīng)用,就是我們平時說的企業(yè)信息化系統(tǒng),只不過這些系統(tǒng)是采用大數(shù)據(jù)的架構(gòu)。而公有云上的應(yīng)用,指的是我們平時使用的互聯(lián)網(wǎng)服務(wù),如微信、微博和支付寶等。但是,隨著云服務(wù)市場的發(fā)展,越來越多的傳統(tǒng)IT廠商也通過公有云為公眾提供服務(wù),比如我們熟悉的Microsoft Office 365。這種把軟件作為服務(wù)提供的方式稱之為SaaS。

      在國際市場,比較常見的企業(yè)級SaaS服務(wù)有客戶管理服務(wù)Saleforce與團隊協(xié)同服務(wù)Google Apps等。國內(nèi)市場的金蝶、微軟和Oracle也都提供多種SaaS產(chǎn)品和服務(wù)。我們可以看一下IDC對2017-2022年中國公有云整體市場的預(yù)測(單位:百萬美元)。

      從上表可以看出,整個云服務(wù)市場的年復(fù)合增長率達到了41 %,其中PaaS服務(wù)增長最快,達到了55.7 %。中國企業(yè)級SaaS市場份額全球第二,未來5年依舊呈現(xiàn)快速增長態(tài)勢,年復(fù)合增長率達到35.7 %。到2022年,整個SaaS市場規(guī)模達將到400億人民幣。

      第十步:云計算

      云計算就是一種IT架構(gòu),是一種IT資源的交付和使用模式。前面介紹的IaaS、PaaS和SaaS就是云計算架構(gòu)下對不同資源的交付模式,分別將基礎(chǔ)設(shè)施、平臺以及軟件用服務(wù)的形式提供給用戶使用。

      猜你喜歡
      數(shù)據(jù)服務(wù)開源結(jié)構(gòu)化
      地理空間大數(shù)據(jù)服務(wù)自然資源調(diào)查監(jiān)測的方向分析
      促進知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      計算機教育(2020年5期)2020-07-24 08:53:00
      五毛錢能買多少頭牛
      如何運用稅收大數(shù)據(jù)服務(wù)供給側(cè)結(jié)構(gòu)性改革
      中國商論(2016年34期)2017-01-15 14:24:18
      基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
      大家說:開源、人工智能及創(chuàng)新
      開源中國開源世界高峰論壇圓桌會議縱論開源與互聯(lián)網(wǎng)+創(chuàng)新2.0
      開源計算機輔助翻譯工具研究
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      屏东市| 夏河县| 衡阳县| 武川县| 平阳县| 巩义市| 镇巴县| 攀枝花市| 莎车县| 湘阴县| 双桥区| 特克斯县| 大同市| 临桂县| 彭山县| 雅安市| 江油市| 嘉义县| 深州市| 曲水县| 文山县| 丹棱县| 嘉黎县| 吴忠市| 曲靖市| 远安县| 钟祥市| 芮城县| 深水埗区| 红安县| 上栗县| 枞阳县| 嘉禾县| 胶南市| 肇庆市| 临西县| 上犹县| 池州市| 高淳县| 永定县| 金山区|