• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Hadoop平臺(tái)的大數(shù)據(jù)應(yīng)用系統(tǒng)解決方案

      2017-12-19 09:15:22朱立
      科學(xué)與財(cái)富 2017年33期
      關(guān)鍵詞:應(yīng)用系統(tǒng)大數(shù)據(jù)

      摘要:當(dāng)前在進(jìn)行大數(shù)據(jù)應(yīng)用過程中存在三方面的問題,分別是大數(shù)據(jù)的存儲(chǔ)、分析和管理的問題,如果不能有效解決這些問題,將會(huì)直接影響其發(fā)展和應(yīng)用。下面在總結(jié)前人經(jīng)驗(yàn)的基礎(chǔ)上,根據(jù)當(dāng)前研究所得到的成果,提出有效的解決策略,希望給有關(guān)人士一些借鑒。

      關(guān)鍵詞:Hadoop平臺(tái);大數(shù)據(jù);應(yīng)用系統(tǒng)

      當(dāng)前移動(dòng)電子商務(wù)、云計(jì)算、互聯(lián)網(wǎng)得到的快速發(fā)展,在整個(gè)數(shù)據(jù)庫市場(chǎng)中大數(shù)據(jù)占據(jù)很重要的地位,而且這一趨勢(shì)還在繼續(xù)發(fā)展,由此可見,基于Hadoop平臺(tái)的大數(shù)據(jù)將會(huì)得到廣泛的推廣。大數(shù)據(jù)具有廣度寬、深度深、規(guī)模大的特點(diǎn),而且處理時(shí)間短,要求處理效果高,當(dāng)前在應(yīng)用中存在一定問題,下面就深入分析這方面的問題。

      1分析大數(shù)據(jù)的存儲(chǔ)問題和解決方案

      1.1大數(shù)據(jù)的存儲(chǔ)問題

      HDFS屬于一種分布式文件系統(tǒng),其中一個(gè)文 件以多個(gè)block的形式存放在多個(gè)Namenode節(jié)點(diǎn)上,每個(gè)block有多個(gè)副本,副本存放的位置根據(jù)HDFS放置算法來決定,但是在這方面還要注意,在HDFS中缺省block副本數(shù)和大小,但是對(duì)于所缺省的參數(shù)可以重新進(jìn)行設(shè)置,對(duì)于CLIENT文件,可以臨時(shí)設(shè)置兩個(gè)參數(shù),有效提高了系統(tǒng)的靈活性,在文件中其邏輯處理單元、重要性、大小都不同。由此可見,HDFS可以對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ),對(duì)數(shù)據(jù)實(shí)施分布式計(jì)算,具有較高的性價(jià)比,系統(tǒng)運(yùn)行可靠性比較高,通過增加機(jī)器設(shè)備,就可以保證系統(tǒng)的存儲(chǔ)能力。HDFS文件在讀寫并行方面存在問題,其已經(jīng)可以讀讀并行,但是寫讀并行、讀寫并行中會(huì)受到制約,對(duì)于正在寫操作的文件,讀用戶看不到最后的block內(nèi)容。

      1.2相應(yīng)的解決方案

      針對(duì)HDFS文件在讀寫并行方面存在問題,技術(shù)人員分析了HDFS文件組織方式,其真實(shí)數(shù)據(jù)文件和元數(shù)據(jù)文件是單獨(dú)存放的,其中的每個(gè)數(shù)據(jù)塊都和本地文件系統(tǒng)相對(duì)應(yīng),因此在處理這一問題時(shí),先不要改動(dòng)HDFS的主要接口和主要特點(diǎn),利用這方面的邏輯處理功能,編號(hào)算法等,對(duì)不同的HDFS文件進(jìn)行塊集合組合,可以有效解決問題。

      2 大數(shù)據(jù)分析過程的問題和解決方案

      2.1 Hadoop生態(tài)系統(tǒng)存在的問題

      Hadoop生態(tài)系統(tǒng)進(jìn)行數(shù)據(jù)分析時(shí)有其自己的特點(diǎn),對(duì)板結(jié)構(gòu)化的數(shù)據(jù)、非結(jié)構(gòu)的化的數(shù)據(jù)比較容易處理,系統(tǒng)擁有很好的容錯(cuò)性和擴(kuò)展性,該系統(tǒng)的接口類型很多,適應(yīng)運(yùn)行環(huán)境的異構(gòu)性,該計(jì)算模型可以采用并行方式計(jì)算,因此該系統(tǒng)可以得到很好的性能,但是這一系統(tǒng)在相同條件下,和商業(yè)并行數(shù)據(jù)庫進(jìn)行測(cè)試對(duì)比,其在性能方面存在很大的劣勢(shì)。

      2.2有效的解決方案分析

      為了解決上述的問題,可以從三個(gè)方面進(jìn)行分析,第一點(diǎn),Hadoop生態(tài)系統(tǒng)開始研發(fā)時(shí)是針對(duì)半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù);第二點(diǎn),這一生態(tài)系統(tǒng)容錯(cuò)性和可擴(kuò)展性非常好,技術(shù)人員在改進(jìn)時(shí),如果增加節(jié)點(diǎn)數(shù)量就可以得到很好的性能,因此在使用中不需要在相同條件下和并行數(shù)據(jù)庫進(jìn)行對(duì)比。在增加了節(jié)點(diǎn)的數(shù)量后,沒有必要對(duì)SQL接口查詢命令進(jìn)行修改,也沒有必要對(duì)編程語言進(jìn)行修改,達(dá)到很好的效果。機(jī)器使用的是中低端設(shè)備,其對(duì)性價(jià)比沒有較大的影響,當(dāng)前生態(tài)系統(tǒng)自身也可以對(duì)其問題、性能等進(jìn)行優(yōu)化,例如數(shù)據(jù)的壓縮優(yōu)化、job調(diào)度程序優(yōu)化,體系結(jié)構(gòu)優(yōu)化等。當(dāng)前主要有兩種解決方式,分別是混合型MapReduce解決方式,其主要吸收了并行數(shù)據(jù)中的一些特點(diǎn),還有一種是經(jīng)典型MapReduce解決方式,主要針對(duì)生態(tài)系統(tǒng)中的HadoopDB項(xiàng)目和HadoopDB MapRe-duce項(xiàng)目。

      3大數(shù)據(jù)管理問題和解決方案

      3.1分析大數(shù)據(jù)管理中有待解決的問題

      一般在大數(shù)據(jù)管理中都不重視易用性,其中的hadoop也有類似的問題,但是在商業(yè)解決方案中技術(shù)人員就注意到了這一點(diǎn),因此在設(shè)計(jì)中具有針對(duì)性,有效解決了這一問題。例如IBM大數(shù)據(jù)解決方案中,BI-ginsights對(duì)相應(yīng)的集群、作業(yè)運(yùn)行、HDFS文件管理有一個(gè)統(tǒng)一的管理模式,管理中系統(tǒng)具有可視化功能,對(duì)于大數(shù)據(jù)解決方案而言,也有賴于內(nèi)部的集群管理系統(tǒng)。對(duì)于一個(gè)完整的大數(shù)據(jù)解決方案而言,必須使用到一體化的管理系統(tǒng),這一系統(tǒng)在管理中包括很多的項(xiàng)目,例如通過大量機(jī)器構(gòu)成大集群和小集群,具有多種數(shù)據(jù)來源,涉及到很多作業(yè)的運(yùn)行和部署。在管理中如果只使用手工操作,沒有專業(yè)的平臺(tái)和技術(shù)工具等,不能保證系統(tǒng)的工作效率,間接也會(huì)影響系統(tǒng)的進(jìn)一步推廣。相關(guān)企業(yè)雖然使用這一生態(tài)系統(tǒng)建立了平臺(tái),沒有一個(gè)完整的集群配置平臺(tái),在刪除節(jié)點(diǎn)和增加節(jié)點(diǎn)時(shí)必須進(jìn)行手工操作,進(jìn)行參數(shù)配置時(shí)主要依靠個(gè)人經(jīng)驗(yàn),工作中沒有可靠的模擬器來幫助。從當(dāng)前的解決方案中分析,在對(duì)Hadoop生態(tài)系統(tǒng)大數(shù)據(jù)管理中,主要應(yīng)用了Ganglia和Sqoop[1]。

      3.2分析具體的解決方案

      解決大數(shù)據(jù)中的管理問題時(shí),主要引入了Sqoop技術(shù),其可以將生態(tài)系統(tǒng)以外的內(nèi)容導(dǎo)入其中,還可以將內(nèi)部的數(shù)據(jù)導(dǎo)出,具體應(yīng)用Sqoop技術(shù)時(shí)主要存在下列問題,缺少圖形化的客戶端,導(dǎo)入的效率還需要進(jìn)一步提高 穩(wěn)定性問題需要解決。針對(duì)這一情況,技術(shù)人員進(jìn)行了深入的研究,進(jìn)而開發(fā)設(shè)計(jì)出了插件、application、Web客戶端。在使用中發(fā)現(xiàn)使用Sqoop進(jìn)行大表導(dǎo)入過程中,工作狀態(tài)較差,導(dǎo)入效率低,而且經(jīng)常出現(xiàn)問題,技術(shù)人員根據(jù)MapReduce設(shè)計(jì)出了大表導(dǎo)入編程模型,在該方式下實(shí)行切分算法,具體而言,對(duì)大表總的記錄mapper數(shù)求步長(zhǎng),得到與之對(duì)應(yīng)的splitSQL查詢語句的起始行和區(qū)間長(zhǎng)度,最終就可以保證導(dǎo)入工作量完全相同;這一模型工作方式是先進(jìn)入 到MAP函數(shù)的鍵值對(duì)中的鍵[2],是split對(duì)應(yīng)的SQL語句,把查詢放入到地圖函數(shù)中,這樣使用這一模型時(shí),對(duì)于其中的每一個(gè)mapper只調(diào)用一次map函數(shù),通過實(shí)驗(yàn)對(duì)比得知,使用的大表記錄數(shù)據(jù)都相同,測(cè)試中無論是記錄的分布情況還是區(qū)間情況,導(dǎo)入的時(shí)間都相同,或者對(duì)同一表分別用不同的分割字段,導(dǎo)入時(shí)間也完全相同。針對(duì)同一個(gè)大表模型而言,其實(shí)際導(dǎo)入效率比Sqoop有明顯的提高。在引入Ganglia技術(shù)時(shí),主要存在兩個(gè)問題,分布是收集到的metrics數(shù)據(jù)只能進(jìn)行顯示,用戶不能制定自己的metrics。針對(duì)這一情況,可以在OpenTSDB架構(gòu)中融入Ganglia,這樣可以吧gmond所收集到的數(shù)據(jù)送往HBase和RRDTool中,有效解決了上述存在的問題,使用中可以進(jìn)行監(jiān)控,還有些保存了原始數(shù)據(jù)。

      總結(jié):

      通過以上對(duì)Hadoop平臺(tái)的大數(shù)據(jù)應(yīng)用系統(tǒng)解決方案分析,根據(jù)現(xiàn)實(shí)應(yīng)用中存在的問題,結(jié)合生態(tài)系統(tǒng)的特點(diǎn)解決其問題,可以得到顯著的效果。在商業(yè)的解決方案中,在服務(wù)、易用性、性能方面具有優(yōu)勢(shì),在解決問題時(shí),技術(shù)人員還優(yōu)化了相關(guān)項(xiàng)目,前言工作者已經(jīng)開始開發(fā)與之配套的管理套件。在以后的發(fā)展中,Hadoop生態(tài)系統(tǒng)發(fā)展速度會(huì)更快,但是在發(fā)展中要提高對(duì)大數(shù)據(jù)安全的重視度,否則影響會(huì)很大。

      參考文獻(xiàn):

      [1]陳吉榮,樂嘉錦.基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J].計(jì)算機(jī)工程與科學(xué),2013,35(10):25-35.

      [2]向庭波,劉樹莊,何濤,等.大數(shù)據(jù)技術(shù)在卡口系統(tǒng)聯(lián)網(wǎng)方面的應(yīng)用——基于Hadoop的卡口系統(tǒng)云計(jì)算聯(lián)網(wǎng)平臺(tái)改造設(shè)計(jì)與開發(fā)[J].中國公共安全:學(xué)術(shù)版, 2015(11):45-50.

      作者姓名:朱立 出生年月:1970年3月 學(xué)歷:碩士endprint

      猜你喜歡
      應(yīng)用系統(tǒng)大數(shù)據(jù)
      企業(yè)計(jì)算機(jī)應(yīng)用系統(tǒng)可靠性測(cè)試技術(shù)探討
      基于北斗定位的學(xué)生智能管理物聯(lián)網(wǎng)系統(tǒng)架構(gòu)研究
      科技視界(2016年25期)2016-11-25 08:34:53
      VB應(yīng)用技術(shù)下電教管理系統(tǒng)
      高職學(xué)院信息化建設(shè)中面臨的問題和思考
      科技視界(2016年22期)2016-10-18 17:29:57
      基于微信公眾平臺(tái)的應(yīng)用系統(tǒng)開發(fā)模式研究
      科技視界(2016年22期)2016-10-18 17:08:33
      企業(yè)云平臺(tái)建設(shè)研究
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      中國記者(2016年6期)2016-08-26 12:36:20
      南华县| 平原县| 新平| 泾源县| 太白县| 永兴县| 应城市| 双城市| 四川省| 吐鲁番市| 县级市| 临邑县| 延津县| 彩票| 搜索| 自治县| 昌都县| 闽侯县| 芮城县| 民乐县| 绥中县| 安平县| 贺兰县| 寻乌县| 澳门| 黄浦区| 灌南县| 阳朔县| 绵竹市| 巴马| 老河口市| 舞钢市| 浦北县| 吉隆县| 苗栗市| 临清市| 洛南县| 浪卡子县| 高唐县| 峡江县| 古蔺县|