陳林琳
摘要:隨著社會的發(fā)展傳統(tǒng)的數(shù)據(jù)分析法已經(jīng)很難滿足海量電信數(shù)據(jù)發(fā)展的需求,于是人們開始研究各種云計算平臺,而Hadoop又是一個開源框架并且可實現(xiàn)大規(guī)模分布式計算,其主要優(yōu)點是高效、可靠、可伸縮性強,因此在云計算領(lǐng)域得到了廣泛應(yīng)用。為了更好地提高其分析與計算海量數(shù)據(jù)的效率,該文首先分析研究了云計算與Hadoop,并在此基礎(chǔ)上提出了一種分布式云計算海量數(shù)據(jù)的方法,建立了一個基于Hadoop的海量電信數(shù)據(jù)云計算平臺。實踐證明該平臺能夠有效管理與分析海量電信數(shù)據(jù),大大提高海量電信數(shù)據(jù)的分析速度。
關(guān)鍵詞:Hadoop;海量數(shù)據(jù);云計算平臺;研究
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)34-0006-02
隨著通信技術(shù)的不斷發(fā)展,用戶使用的通信設(shè)備也越來越多,在通信的過程中產(chǎn)生的各類數(shù)據(jù)正在飛速增長,要想使這些通信設(shè)備更好地服務(wù)于社會,必須提高分析與處理這些數(shù)據(jù)的效率,而傳統(tǒng)的關(guān)系型數(shù)據(jù)管理方法顯然已經(jīng)無法滿足通訊業(yè)發(fā)展的需求,這就給電信運營商的數(shù)據(jù)分析與管理提出了更高要求,因此如何快捷、高效、安全的分析與管理這些海量數(shù)據(jù),已經(jīng)成為當今社會各數(shù)據(jù)工作著研究的重點內(nèi)容,為此本文主要對基于Hadoop的海量電信數(shù)據(jù)云計算平臺進行了研究。
1 相關(guān)技術(shù)簡介
1.1 云計算
云計算是在綜合了并行計算、分布式計算、網(wǎng)絡(luò)計算的基礎(chǔ)上發(fā)展而來的,它主要是通過利用大量計算機構(gòu)成資源池來分析與計算相關(guān)任務(wù)的,各種計算任務(wù)的存儲空間以及信息服務(wù)在這個資源池中都可以根據(jù)自身的需求獲取。并且這個資源池具有安全可靠、價格低廉的優(yōu)點。依照提供服務(wù)的不同,可把云計算分為SaaS.(軟件即服務(wù))、PaaS(平臺即服務(wù))、LaaS(基礎(chǔ)設(shè)施即服務(wù)),數(shù)據(jù)是云計算的主要中心,其在數(shù)據(jù)的處理編程方面具有獨特優(yōu)勢。
1.2 Hadoop
Hadoop是一種分布式計算開源框架,其主要是通過大計算池的搭建,來提高海量數(shù)據(jù)的計算速度,它是一種解決云計算問題的低成本方案。Google云計算可以通過 Hadoop來實現(xiàn)。Hadoop Common , HDFS和MapReduce 是Hadoop的主要核心,還有一些其他子項目在Hadoop中做其相關(guān)的補充作用。Hadoop技術(shù)棧如下圖所示,可擴展、經(jīng)濟、可靠、高效是Hadoop的主要優(yōu)點,目前很多大型網(wǎng)站有在應(yīng)用Hadoop。
2 基于Hadoop的海量電信數(shù)據(jù)云計算平臺設(shè)計
2.1 平臺設(shè)計的目的與原則
利用Hadoop通過低廉設(shè)備就可以處理海量數(shù)據(jù)的優(yōu)勢,可以通過采用一些低端PC服務(wù)器來搭建一個Hadoop云計算平臺,來分析與處理海量電信數(shù)據(jù),進而把分析與處理數(shù)據(jù)的速度與效率提高,來提供一些即時準確的信息供業(yè)務(wù)決策參考,同時降低公司生產(chǎn)成本是設(shè)計Hadoop云計算平臺的主要目的。此項平臺設(shè)計要遵循安全、高效、經(jīng)濟的原則。
2.2 平臺框架結(jié)構(gòu)
1)數(shù)據(jù)層
網(wǎng)絡(luò)域數(shù)據(jù)與業(yè)務(wù)支撐域數(shù)據(jù)是海量電信數(shù)據(jù)主要包括的兩個方面,其中Gb口數(shù)據(jù)、A口數(shù)據(jù)、WLAN數(shù)據(jù)是網(wǎng)絡(luò)域數(shù)據(jù)主要包括的內(nèi)容,客戶信息、客戶業(yè)務(wù)訂購數(shù)據(jù)、客戶消費數(shù)據(jù)等是業(yè)務(wù)域數(shù)據(jù)主要包括的內(nèi)容。其中這些數(shù)據(jù)主要存儲在Hadoop中的HDFS內(nèi),采用Hbase、Hive、Pig來處理與管理這些數(shù)據(jù),統(tǒng)計指標用類SQL語言定義,通過生成MapReduce任務(wù)來計算與處理這些數(shù)據(jù),在HDFS中存儲處理結(jié)果。其具體框架結(jié)構(gòu)如圖2所示。
2)模型層
基于Hadoop的ETL處理是模型層的主要構(gòu)建方法,構(gòu)建分析模型如客戶位置信息、上網(wǎng)行為模型等,有助于更好的分析客戶各方面的實際情況,以便數(shù)據(jù)庫能更好地為客戶需求服務(wù)。
2.3 平臺功能模塊
用戶管理、數(shù)據(jù)管理、任務(wù)管理、集群管理這些是海量電信數(shù)據(jù)云計算平臺主要的功能模塊。它們各自的功能主要如下:
用戶管理模塊:主要是用來管理用戶信息的,如用戶開通賬號、身份認證、權(quán)限管理等等。
數(shù)據(jù)管理模塊:主要是用來上傳、下載或刪除數(shù)據(jù)的。
任務(wù)管理模塊:主要是用來管理系統(tǒng)的各項任務(wù)的,如任務(wù)申請,資源分配等等
集群管理模塊:主要是用來管理Hadoop集群狀態(tài),任務(wù)的執(zhí)行情況等等。
2.4 平臺安全機制
由于Hadoop的各集群節(jié)點能夠互通,采用的是統(tǒng)一的賬號來操作Hadoop集群的各節(jié)點,加之電信數(shù)據(jù)本身具有敏感性,只靠Hadoop自身機制難以安全有效的控制數(shù)據(jù),這樣就存在了安全隱患,為把安全風險降到最低,更好的防范安全事故,應(yīng)利用必要的安全機制來管理平臺數(shù)據(jù)。
1)平臺自身安全管理
把Hadoop集群網(wǎng)絡(luò)劃成許多局域網(wǎng),給這些局域網(wǎng)設(shè)置防火墻,出口只采用NameNode,由它與外部通信,訪問內(nèi)部節(jié)點也由它來實現(xiàn)。
2)賬號安全管理
對平臺管理員賬號必須嚴格管理,對于一些登陸口令之類的要經(jīng)常更換,要把操作Hadoop集群的賬號與傳輸數(shù)據(jù)的賬號分開進行管理,并且對其訪問權(quán)限要進行嚴格控制,要及時保存操作各賬號的記錄,并且要定期進行審計。
3)數(shù)據(jù)安全管理
由于電信數(shù)據(jù)可能包括一些個人隱私內(nèi)容,其數(shù)據(jù)具有敏感性,因此必須把這類數(shù)據(jù)的保密工作做好,具體的安全管理措施有實時記錄數(shù)據(jù)進出、分存分放、加密傳輸、定期審計等等。
3 平臺的部分實現(xiàn)
底層Hadoop集群部署的實現(xiàn),采用1個NameNode服務(wù)器、1個JobTracker服務(wù)器、4個DataNode服務(wù)器作為底層Hadoop集群,安裝Hadoop的過程為:lost文件的配置、新建Hadoop目錄與用戶、配置SSH免密碼登錄。
4 結(jié)束語
本文主要針對傳統(tǒng)數(shù)據(jù)分析法分析海量電信數(shù)據(jù)效率低、分析能力差等問題,提出了基于Hadoop的分布式云計算方法,并且設(shè)計了基于Hadoop的海量電信數(shù)據(jù)云計算平臺,通過大量的實踐表明,本文提出的方法不但能順利完成海量數(shù)據(jù)的分析計算,而且還能大大提高數(shù)據(jù)的計算速度,具有很大的實用性,同時為今后進一步研究Hadoop在海量電信數(shù)據(jù)云計算平臺的應(yīng)用打下了良好基礎(chǔ)。具有很高的應(yīng)用與推廣價值。
參考文獻:
[1] White T. Hadccp: the Definitive Guide. O'Rcillly Media, Ine., 2009.
[2] 張建勛,古志民,鄭超.云計算研究進展綜述.計算機應(yīng)用研究.2010,27(2):429-433.
[3] 施巖.云計算研究及Hadoop應(yīng)用程序的開發(fā)與測試,北京京郵電大學(xué),2011.
[4] 張少敏,李曉強,王保義.淺談提高城市配電網(wǎng)供電可靠性的措施[J].華北電力技術(shù),2007(5).
[5] 劉鵬,黃宜華,陳衛(wèi)衛(wèi).實戰(zhàn)Hadoop—開啟通向云計算的捷徑[M].北京電子工業(yè)出版社,2011.
[6] 李文海,許舒人.基于Hadoop的電子商務(wù)推薦系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機工程與設(shè)計,2014(1).