• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)技術(shù)分析與應(yīng)用案例

      2020-06-24 03:06包訓(xùn)宇
      中國(guó)新通信 2020年2期
      關(guān)鍵詞:大數(shù)據(jù)分析大數(shù)據(jù)

      摘要:互聯(lián)網(wǎng)的快速發(fā)展帶來(lái)了海量數(shù)據(jù)的產(chǎn)生,現(xiàn)如今在生活中,我們無(wú)時(shí)無(wú)刻地創(chuàng)造著網(wǎng)絡(luò)數(shù)據(jù)。大數(shù)據(jù)時(shí)代的到來(lái),已經(jīng)影響了社會(huì)生活方方面面,要想把握住信息時(shí)代的潮流,我們就應(yīng)該懂得大數(shù)據(jù)并且學(xué)會(huì)利用大數(shù)據(jù)技術(shù)來(lái)服務(wù)于日常的工作。本文首先說(shuō)明大數(shù)據(jù)的價(jià)值,其次介紹一些大數(shù)據(jù)的關(guān)鍵技術(shù),最后結(jié)合實(shí)際應(yīng)用案例展現(xiàn)出大數(shù)據(jù)給我們帶來(lái)的好處。

      關(guān)鍵詞:大數(shù)據(jù);Hadoop;大數(shù)據(jù)分析

      自2012年開(kāi)始,“大數(shù)據(jù)”一詞逐漸被人們熟知,這種技術(shù)不僅僅是用在互聯(lián)網(wǎng)領(lǐng)域上,也與人們的實(shí)際生活中加速融合。大數(shù)據(jù)技術(shù)的發(fā)展與人類(lèi)社會(huì)的進(jìn)步相輔相成。一方面,人們從傳統(tǒng)手工生產(chǎn)方式轉(zhuǎn)向信息自動(dòng)化生產(chǎn)方式,使得數(shù)據(jù)來(lái)源越來(lái)越廣泛,促進(jìn)了海量數(shù)據(jù)局面的形成;另一方面,人們能夠利用大數(shù)據(jù)技術(shù)在錯(cuò)綜復(fù)雜的信息面前規(guī)劃、分析并得出真正有價(jià)值的結(jié)果。大數(shù)據(jù)時(shí)代的到來(lái),讓我們每一個(gè)人都身處其中,其帶來(lái)的價(jià)值已經(jīng)不單單是技術(shù)層面上的突破與進(jìn)步,更多的是在與其他領(lǐng)域融合中帶來(lái)的巨大經(jīng)濟(jì)效益和社會(huì)效益。那么對(duì)于當(dāng)代社會(huì)需要的復(fù)合型人才,掌握必要的大數(shù)據(jù)知識(shí)、學(xué)會(huì)大數(shù)據(jù)分析本領(lǐng)對(duì)今后的日常工作也顯得極為重要。本文在此背景下,結(jié)合具體應(yīng)用案例呈現(xiàn)出大數(shù)據(jù)技術(shù)給我們?nèi)粘9ぷ鲙?lái)的便捷性。

      一、大數(shù)據(jù)關(guān)鍵技術(shù)

      想要處理好數(shù)以萬(wàn)計(jì)的數(shù)據(jù)信息,就必須要掌握大數(shù)據(jù)處理技術(shù),而Hadoop就是一種眾人熟知的對(duì)海量數(shù)據(jù)進(jìn)行處理的分布式系統(tǒng)架構(gòu)。Hadoop框架最核心的技術(shù)就是:HDFS和MapReduce。

      HDFS就是Hadoop分布式文件系統(tǒng)的英文縮寫(xiě),在實(shí)際應(yīng)用中通常采用主-從的架構(gòu)形式。在HDFS集群里,一般采用拓?fù)浣Y(jié)構(gòu),即單個(gè)中心節(jié)點(diǎn)NameNode和多個(gè)存儲(chǔ)節(jié)點(diǎn)DataNode,在中心節(jié)點(diǎn)的統(tǒng)一部署管理下,滿(mǎn)足對(duì)海量數(shù)據(jù)的存儲(chǔ)、增刪等要求。

      MapReduce,簡(jiǎn)單來(lái)說(shuō)就是一種分布式離線(xiàn)的計(jì)算框架,其采用鍵值的處理方式來(lái)解決大規(guī)模集群的數(shù)據(jù)。其核心思想是用Mapper將一個(gè)復(fù)雜的項(xiàng)目分解成多個(gè)“簡(jiǎn)單”的小任務(wù),并且能夠允許這些小任務(wù)并行計(jì)算,其次利用Reducer將Map階段的各種小任務(wù)結(jié)果進(jìn)行有目的地匯總一起,從而達(dá)到人們所需求的最終結(jié)果或者某一狀態(tài)下的中間結(jié)果。

      其實(shí)Hadoop發(fā)展時(shí)至今日,已經(jīng)不單純是上面兩個(gè)技術(shù),而是逐漸成為一個(gè)Hadoop生態(tài)。在Hadoop生態(tài)圈里,我們能夠利用這些技術(shù)輕松的處理TB級(jí)別以上的數(shù)據(jù)量。下面介紹幾個(gè)經(jīng)常用到的技術(shù):

      Hive是一種數(shù)據(jù)倉(cāng)庫(kù)工具。簡(jiǎn)單的來(lái)說(shuō),它能夠利用HQL語(yǔ)句實(shí)現(xiàn)數(shù)據(jù)管理工作,因此對(duì)于熟悉數(shù)據(jù)庫(kù)使用者來(lái)說(shuō)非常友好,這樣一來(lái)會(huì)使得學(xué)習(xí)成本大大降低。

      Yarn是Hadoop的資源管理器。我們可以通過(guò)它對(duì)資源的使用情況有一個(gè)清晰的掌握,監(jiān)測(cè)Mapper下的每一個(gè)小任務(wù)資源消耗情況,從而起到平衡資源、提高集群利用率。

      Flume是一種實(shí)時(shí)日志收集系統(tǒng)。在其廣泛的應(yīng)用發(fā)展下,不僅能夠數(shù)據(jù)收集,還能對(duì)信息進(jìn)行簡(jiǎn)單的處理并寫(xiě)進(jìn)接收方。

      二、大數(shù)據(jù)應(yīng)用——以分析日活躍用戶(hù)為例

      如今人們可以通過(guò)使用各種終端設(shè)備輕松上網(wǎng),用戶(hù)的上網(wǎng)行為都可以被一一記錄下來(lái)。數(shù)據(jù)分析師通過(guò)后臺(tái)日志獲取用戶(hù)日常上網(wǎng)的數(shù)據(jù),分析用戶(hù)上網(wǎng)行為之后,能夠得出用戶(hù)上網(wǎng)習(xí)慣以及可以定向給用戶(hù)推送他們喜歡的內(nèi)容。下面作者對(duì)用戶(hù)登陸某一軟件時(shí)活躍的情況進(jìn)行分析,闡述大數(shù)據(jù)技術(shù)是如何應(yīng)用在實(shí)際生活工作中的。

      用戶(hù)通過(guò)終端設(shè)備登陸軟件并進(jìn)行各種操作時(shí),可以將這些信息和行為都存儲(chǔ)在后臺(tái)日志中,數(shù)據(jù)分析員可以每天定時(shí)清洗這些數(shù)據(jù),拿到清洗的數(shù)據(jù)后存入到HDFS上并建立清洗后的數(shù)據(jù)表進(jìn)行分析。技術(shù)路線(xiàn)如圖1所示。

      2.1數(shù)據(jù)清洗

      數(shù)據(jù)清洗的目的就是要把一些缺省值、異常值或者此次分析不需要用到的數(shù)據(jù)排除在外。本案例使用JAVA語(yǔ)言,在eclipse工具上編寫(xiě)數(shù)據(jù)清洗代碼。利用Flume技術(shù)把日志文件中的數(shù)據(jù)導(dǎo)入到HDFS中,然后將預(yù)處理程序代碼打成jar包,再把jar包上傳到對(duì)應(yīng)的HDFS節(jié)點(diǎn)上,之后編寫(xiě)預(yù)處理腳本如下:

      以上工作準(zhǔn)備就緒后,啟動(dòng)清洗腳本,開(kāi)始清洗數(shù)據(jù)。

      2.2日活躍用戶(hù)統(tǒng)計(jì)分析

      根據(jù)關(guān)鍵字段建立數(shù)據(jù)總表general_log,并一一對(duì)應(yīng)導(dǎo)入數(shù)據(jù),至此用戶(hù)的基本Hive表已經(jīng)建立。如何分析日活躍用戶(hù),那么就再建立一張活躍用戶(hù)數(shù)據(jù)表user_active_day。從general_log數(shù)據(jù)總表的當(dāng)天分區(qū)中,抽取當(dāng)日的日活用戶(hù)信息插入日活用戶(hù)信息表user_active_day(插入的是每個(gè)活躍用戶(hù)當(dāng)天所有記錄中時(shí)間最早的那條),主要SQL語(yǔ)句如下:

      為了使信息更加清晰明了,我們可以采取多維度分析,創(chuàng)建多維度分析表dim_user_active_day,利用多重insert語(yǔ)法來(lái)統(tǒng)計(jì)各種維度組合的日活用戶(hù)數(shù),并插入到dim_user_active_day表的各分區(qū)中,得到日活躍用戶(hù)統(tǒng)計(jì)結(jié)果如表1所示。

      從表1中,我們可以一目了然的得出使用此軟件的總用戶(hù)數(shù)量是多少,具體某一城市的用戶(hù)有多少以及具體某一城市哪一個(gè)國(guó)家用戶(hù)有多少的數(shù)量,這對(duì)今后進(jìn)一步劃分用戶(hù)、分析用戶(hù)黏性程度等都提供了便捷性的幫助。此案例中作者使用的數(shù)據(jù)量?jī)H僅是GB級(jí)別,如果是TB、PB級(jí)別以上,可想而知工作量的復(fù)雜和龐大,因此通過(guò)大數(shù)據(jù)技術(shù)的分析,可以讓我們?cè)诤A繑?shù)據(jù)中快速、準(zhǔn)確地獲得信息,大大降低了我們?nèi)粘9ぷ鞯某杀尽?/p>

      三、總結(jié)

      綜上所述,利用Hadoop平臺(tái)能夠?qū)A繑?shù)據(jù)進(jìn)行快速簡(jiǎn)單的處理,方便工作上各種統(tǒng)計(jì)分析工作。Hadoop平臺(tái)本身具有的低成本、高效率、易擴(kuò)展等優(yōu)點(diǎn),已經(jīng)成為大數(shù)據(jù)領(lǐng)域發(fā)展方向。未來(lái)伴隨著人工智能、5G通信技術(shù)等新型產(chǎn)業(yè)的蓬勃發(fā)展,大數(shù)據(jù)引領(lǐng)下的各行各業(yè)將全面實(shí)現(xiàn)數(shù)字經(jīng)濟(jì)化?,F(xiàn)在我們可以通過(guò)學(xué)習(xí)大數(shù)據(jù)技術(shù),掌握大數(shù)據(jù)分析本領(lǐng),今后將會(huì)在各自領(lǐng)域內(nèi)推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)進(jìn)一步發(fā)展。

      參考文獻(xiàn):

      [1]李曉瑋.淺談大數(shù)據(jù)Hadoop技術(shù)[J].電腦知識(shí)與技術(shù),2017,13(32):10-11.

      [2]李文航,余恒奇.基于Hadoop平臺(tái)的數(shù)據(jù)分析和應(yīng)用[J].微型電腦應(yīng)用,2019,35(11):134-136+146.

      作者簡(jiǎn)介:

      包訓(xùn)宇(1997-),漢,男,江蘇徐州人,碩士,研究方向:云計(jì)算、大數(shù)據(jù)分析。

      猜你喜歡
      大數(shù)據(jù)分析大數(shù)據(jù)
      面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
      面向大數(shù)據(jù)分析的信息管理實(shí)踐教學(xué)體系構(gòu)建
      傳媒變局中的人口電視欄目困境與創(chuàng)新
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      循化| 安乡县| 中西区| 三穗县| 巴青县| 汾西县| 深泽县| 且末县| 洛浦县| 顺昌县| 瑞金市| 上饶县| 井研县| 辛集市| 宁津县| 和田县| 岳普湖县| 灵寿县| 顺平县| 新化县| 铜梁县| 河间市| 绥宁县| 潮安县| 浪卡子县| 永年县| 孟津县| 商丘市| 安远县| 鄂托克前旗| 安泽县| 云龙县| 上高县| 阿瓦提县| 桃源县| 昌江| 大同县| 清河县| 西乡县| 丹寨县| 林口县|