• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Hadoop海量數(shù)據(jù)挖掘技術(shù)分析

      2014-09-21 17:13:57胡昕
      企業(yè)導(dǎo)報(bào) 2014年11期
      關(guān)鍵詞:挖掘數(shù)據(jù)處理

      胡昕

      摘 要:對(duì)現(xiàn)有多款云計(jì)算平臺(tái)做了分析與對(duì)比。之后選定 Hadoop 開(kāi)源云平臺(tái)作為項(xiàng)目的基礎(chǔ)研究平臺(tái),對(duì)其進(jìn)行深入的分析與討論。

      關(guān)鍵詞:Hadoop;數(shù)據(jù)處理;挖掘

      曾有一句話在互聯(lián)網(wǎng)業(yè)界廣為流傳:“大量的數(shù)據(jù)勝于好的算法”,這句話的意思是說(shuō)對(duì)于某些應(yīng)用,相比與優(yōu)秀的算法,大量可用的數(shù)據(jù)能夠帶來(lái)更好的推薦效果。這就是數(shù)據(jù)處理和挖掘。數(shù)據(jù)處理的根本目的是利用有效的手段快速準(zhǔn)確的獲取數(shù)據(jù)、加工數(shù)據(jù)、應(yīng)用數(shù)據(jù)。這其中,數(shù)據(jù)挖掘技術(shù)是將收集到的數(shù)據(jù)得以有效應(yīng)用的核心技術(shù)。數(shù)據(jù)挖掘(Data Mining)技術(shù)又被稱作數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),其核心就是從大量雜亂無(wú)章的、難以理解的數(shù)據(jù)中獲取有效的、新穎的、具有潛在應(yīng)用價(jià)值的信息的過(guò)程。

      目前比較有研究?jī)r(jià)值的 Web 挖掘的方向有:(1)數(shù)據(jù)預(yù)處理技術(shù)方向。(2)現(xiàn)有挖掘算法改進(jìn)方向。(3)智能搜索引擎方向。(4)電子商務(wù)領(lǐng)域應(yīng)用方向。

      海量數(shù)據(jù)處理雖然剛剛興起,但數(shù)據(jù)在企業(yè)中一直處于核心地位,傳統(tǒng)的數(shù)據(jù)產(chǎn)品,在企業(yè)中部署運(yùn)行多年,為企業(yè)的經(jīng)營(yíng)決策貢獻(xiàn)巨大。企業(yè)現(xiàn)有數(shù)據(jù)產(chǎn)品的服務(wù)商,排在前六位的分別是 Oracle(27.93%)、IBM(15.99%)、Microsoft(14.41%)、Apache Hadoop(9.01%)、EMC(8.33%),以及SAP(7.66%)。Oracle 以絕對(duì)優(yōu)勢(shì)拔得頭籌,可見(jiàn)其在數(shù)據(jù)庫(kù)、數(shù)據(jù)分析和大數(shù)據(jù)方面的地位。值得一提的是Hadoop 的普及水平已超出我們的想象,成為繼 Oracle、IBM和 Microsoft 之后又一主流平臺(tái)產(chǎn)品。

      Hadoop 云平臺(tái)由分布式文件系統(tǒng) HDFS 與并行計(jì)算構(gòu)架MapReduce兩個(gè)核心組件構(gòu)成。接下來(lái)將對(duì) Hadoop 的核心組件、主要構(gòu)造模塊及拓?fù)浣Y(jié)構(gòu)進(jìn)行分析與討論。

      分布式文件系統(tǒng) HDFS。HDFS(Hadoop Distributed FileSystem)是為Hacloop項(xiàng)目開(kāi)發(fā)的分布式文件系統(tǒng),它采用主/從( master/slave)架構(gòu)。HDFS 由一個(gè)NarneNode(文件索引服務(wù)器)以及眾多DataNode(數(shù)據(jù)節(jié)點(diǎn))組成。HDFS 提供給用戶相應(yīng)的文件命名空間供用戶將數(shù)據(jù)以文件的形式存放。HDFS 一般會(huì)把這些文件切分為幾個(gè)文件塊,切分后的文件塊將被存放在一組數(shù)據(jù)服務(wù)器上。然后由NameNode提供打開(kāi)、關(guān)閉、重命名文件與目錄等基本功能,同時(shí)負(fù)責(zé)將文件塊映射到DataNode上。再由DataNode負(fù)責(zé)響應(yīng)客戶端具體文件的讀寫(xiě)操作,同時(shí)處理由NameNode發(fā)起的創(chuàng)建、刪除和備份數(shù)據(jù)塊的請(qǐng)求。

      一般而言 HDFS 在 Linux 操作系統(tǒng)上運(yùn)行。由于采用了Java語(yǔ)言,所以理論上任何支持Java語(yǔ)言的操作系統(tǒng)都可以運(yùn)行NameNode與DataNodeo HDFS 采用主/從式系統(tǒng)架構(gòu),其中的所有元數(shù)據(jù)都存儲(chǔ)在NameNode上,故客戶端可以方便地通過(guò)NameNode得到全局?jǐn)?shù)據(jù)存儲(chǔ)狀況,但如果出現(xiàn)NameNode死機(jī)的情況,用戶也將失去訪問(wèn)數(shù)據(jù)的能力,為此 HDFS 在新版本中加入了備份NameNode功能,以防止上述故障。

      并行計(jì)算架構(gòu)MapReduce。MapReduce是一種為多臺(tái)計(jì)算機(jī)并行處理大量數(shù)據(jù)而設(shè)計(jì)的并行計(jì)算框架。MapReduce通常工作的輸入數(shù)據(jù)分割成獨(dú)立的數(shù)據(jù)塊,分割后的數(shù)據(jù)一般由多個(gè) Map 任務(wù)并行處理。Mapper 從 HDFS 上取出數(shù)據(jù),處理后將結(jié)果存儲(chǔ)在本地硬盤(pán),Reducer 在本地硬盤(pán)或通過(guò)網(wǎng)絡(luò)方法取得Mapper 的輸出結(jié)果后進(jìn)一步計(jì)算,將結(jié)果輸出到 HDFS。

      MapReduce框架關(guān)注調(diào)度任務(wù),并監(jiān)視任務(wù)的執(zhí)行狀況,如果執(zhí)行失敗,將重新執(zhí)行該任務(wù)。

      在 Hadoop 中計(jì)算節(jié)點(diǎn)通常與存儲(chǔ)節(jié)點(diǎn)在一起。這就使得MapReduce框架可以根據(jù)數(shù)據(jù)的存儲(chǔ)分布。情況來(lái)調(diào)度任務(wù)。

      MapReduce框架包含一個(gè)獨(dú)立的主服務(wù)器JobTracker(工作分配服務(wù)器)及一組與DataNode安裝在一起的從服務(wù)器TaskTracker(任務(wù)執(zhí)行服務(wù)器)。主服務(wù)器負(fù)責(zé)將任務(wù)調(diào)度到從服務(wù)器上,并監(jiān)控任務(wù),重新執(zhí)行失敗的任務(wù)。應(yīng)用程序在 HDFS 上指定輸入與輸出位置,并通過(guò)實(shí)現(xiàn)專門的接口來(lái)提供相應(yīng)的 Map 和 Reduce 方法。 Hadoop 客戶端負(fù)責(zé)發(fā)送工作相配置信息給JobTracker,由JobTracker來(lái)分發(fā)、調(diào)度任務(wù)給TaskTracker,并將相應(yīng)的狀態(tài)信息反饋給 Hadoop 客戶端。

      首先由JobClient向部署于 Master節(jié)點(diǎn)上的JobTracker守護(hù)進(jìn)程提交MapReduce作業(yè)。JobTracker在接受到作業(yè)請(qǐng)求后計(jì)入隊(duì)列中去。駐留在 Slave 節(jié)點(diǎn)上的TaskTarcker守護(hù)進(jìn)程在完成自己分配到的作業(yè)后會(huì)不斷向JobTracker發(fā)送心跳信息,查詢 Job 隊(duì)列中是否有新的任務(wù)可做,若隊(duì)列中有新的任務(wù),JobTracker會(huì)在第一時(shí)間發(fā)送給空閑的TaskTracker進(jìn)行處理。

      Hadoop 有 5 大構(gòu)造模塊構(gòu)成,其分別為:NameNode(名字節(jié)點(diǎn))、SecondaryNameNode(次名字節(jié)點(diǎn))、DataNode(數(shù)據(jù)節(jié)點(diǎn))、TaskTracker(任務(wù)跟蹤)、JobTracker(作業(yè)跟蹤)。每個(gè)模塊具備不同的功能,共同完成分布式數(shù)據(jù)處理任務(wù)。

      在 Hadoop 云平臺(tái)基礎(chǔ)上,進(jìn)行了海量 Web 日志數(shù)據(jù)預(yù)處理模型的研究,提出了改進(jìn)型預(yù)處理模型,并在單機(jī)及Hadoop分布式平臺(tái)下分別進(jìn)行了仿真驗(yàn)證,對(duì)仿真結(jié)果進(jìn)行了對(duì)比分析與研究。在海量 Web 日志數(shù)據(jù)預(yù)處理研究基礎(chǔ)上進(jìn)行了Apriori并行分層搜索算法的研究,分析傳統(tǒng) CD、DD 算法的優(yōu)劣、提出改進(jìn)型并行Apriori算法,并對(duì)其進(jìn)行MapReduce化,部署于 Hadoop 平臺(tái)下做仿真分析,最后對(duì)仿真結(jié)果進(jìn)行分析研究。

      猜你喜歡
      挖掘數(shù)據(jù)處理
      認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
      將“再也沒(méi)有”帶向更有深度的思考中
      古詩(shī)詞教學(xué)中藝術(shù)內(nèi)涵的挖掘策略
      關(guān)注數(shù)學(xué)思考 提升數(shù)學(xué)本質(zhì)
      大數(shù)據(jù)技術(shù)在商業(yè)銀行中的應(yīng)用分析
      基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
      基于POS AV610與PPP的車輛導(dǎo)航數(shù)據(jù)處理
      巴彦淖尔市| 金华市| 汉中市| 嵊州市| 宜丰县| 新河县| 新野县| 微博| 陈巴尔虎旗| 金华市| 肥西县| 常德市| 耿马| 碌曲县| 吉林市| 屏南县| 滨州市| 同心县| 金乡县| 汝阳县| 陈巴尔虎旗| 防城港市| 和平县| 抚顺县| 格尔木市| 磐石市| 山阴县| 上犹县| 大同县| 弋阳县| 玉环县| 海原县| 兖州市| 全椒县| 尖扎县| 鄂托克前旗| 朝阳市| 平度市| 梁河县| 克拉玛依市| 贺州市|