摘要:MapReduce作為數(shù)據(jù)處理的概念框架對計算、存儲、應(yīng)用等分布式資源進(jìn)行大規(guī)??蓴U展的整合,結(jié)合互聯(lián)網(wǎng)技術(shù)為煤礦企業(yè)用戶提供計算和存儲服務(wù)并建立安全生產(chǎn)大數(shù)據(jù)分析系統(tǒng),這必將成為提升煤礦安全生產(chǎn)的信息手段之一。文中實例是基于HadoopMapReduce大數(shù)據(jù)系統(tǒng)對礦井瓦斯涌出量進(jìn)行了預(yù)測仿真分析,能為礦井瓦斯治理和安全生產(chǎn)提供了可靠的依據(jù)。
關(guān)鍵詞:Hadoop;MapReduce;云計算;煤礦;瓦斯涌出量
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A DOI:10.3969/j.issn.1003 6970.2016.05.025
本文著錄格式:劉玉海.MapReduce大數(shù)據(jù)分析在煤礦的應(yīng)用研究[J].軟件,2016,37(5):101-104
0.引言
MapReduce作為一個通用且可擴展的并且封裝了并行處理、容錯和數(shù)據(jù)本地化等技術(shù)難點及細(xì)節(jié)為一體的模塊,能有效的分析處理大數(shù)據(jù)。讓使用者易于實現(xiàn)并行和分布式系統(tǒng)的開發(fā)和應(yīng)用。MapReduce編程模型結(jié)合用戶的自定義Map和Reduce函數(shù),與大數(shù)據(jù)存儲系統(tǒng)HDFS的結(jié)合構(gòu)成了Hadoop的核心框架,在由大量計算機組成的集群中實現(xiàn)了對大數(shù)據(jù)的大規(guī)模并行化分布式高速運算和存儲。煤礦企業(yè)生產(chǎn)安全事關(guān)重大,將煤礦相關(guān)的大數(shù)據(jù)整合在一起使用分布式高速運算和存儲協(xié)同工作,為實現(xiàn)煤礦危險預(yù)測能起到至關(guān)重要的作用,也是煤礦的合理化生產(chǎn)的措施之一。
1.Hadoop的Map和Reduce
Hadoop分布式開源軟件是一個在大型集群硬件設(shè)備上運行應(yīng)用程序的軟件框架,具有可靠、高效、可伸縮的數(shù)據(jù)處理特點,其基本原理就是把大的數(shù)據(jù)集合分發(fā)到Hadoop集群上的每一個數(shù)據(jù)結(jié)點上,每個數(shù)據(jù)結(jié)點會周期性的返回自己完成的工作狀態(tài)報告,MapReduce高度優(yōu)化了用多臺計算機解決分布式問題,增加了數(shù)據(jù)的可靠性。
MapReduce技術(shù)框架包含三個層面的內(nèi)容:①分布式文件系統(tǒng)②并行編程模型③并行執(zhí)行引擎。這個處理大數(shù)據(jù)集的概念框架是由Map和Reduce兩個函數(shù)構(gòu)成的,Map函數(shù)專用于獲取大數(shù)據(jù)輸入并將其分成小片段,以一種獨立的方式使這些片段得到并行處理,亦即傳遞到一組映射函數(shù)Map,然后交由其他進(jìn)程進(jìn)行操作。Reduce函數(shù)整理收集了各個Map回應(yīng)并顯示其輸出結(jié)果,也就是將Map作為一組輸入數(shù)據(jù)產(chǎn)生鍵值的集合交給一組還原函數(shù)Reduce執(zhí)行映射表的集合并顯示最終的輸出。同一程序Hadoop可運行各種語言編寫的MapReduce程序。