• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      通信行業(yè)大數(shù)據(jù)平臺項目應(yīng)用與實踐研究

      2015-01-03 06:21:23楊李娜
      數(shù)字通信世界 2015年9期
      關(guān)鍵詞:話單計費字段

      楊李娜

      (新華通訊社,北京 100803)

      通信行業(yè)大數(shù)據(jù)平臺項目應(yīng)用與實踐研究

      楊李娜

      (新華通訊社,北京 100803)

      本文首先對大數(shù)據(jù)平臺以及Hadoop框架的概念和特點進行了介紹,然后依次對Hadoop架構(gòu)核心、技術(shù)優(yōu)點進行了闡述,最后對通信系統(tǒng)話單處理中Hadoop架構(gòu)的應(yīng)用進行了剖析。

      大數(shù)據(jù);Hadoop框架;通信系統(tǒng);話單

      1 引言

      Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,它是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop是可靠的,因為它假設(shè)計算元素和存儲會失敗,因此它維護多個工作數(shù)據(jù)副本,確保能夠針對失敗的節(jié)點重新分布處理;Hadoop是高效的,因為它以并行的方式工作,通過并行處理加快處理速度;Hadoop還是可伸縮的,能夠處理PB級數(shù)據(jù)。此外,Hadoop依賴于社區(qū)服務(wù),它的成本比較低,任何人都可以使用。Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺,用戶可以輕松地在它上面開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用程序。

      Hadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會開發(fā)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力高速運算和存儲。簡單地說,Hadoop是一個可以更容易開發(fā)和運行處理大規(guī)模數(shù)據(jù)的軟件平臺。

      2 Hadoop主要項目

      圖1 Hadoop主要項目

      如圖1所示,Hadoop主要項目有:

      ⊙ Common:一組分布式文件系統(tǒng)和通用I/O的組件與接口(序列化、Java RPC和持久化數(shù)據(jù)結(jié)構(gòu))。

      ⊙ MapReduce:分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境,運行于大型商用機集群。

      ⊙ HDFS:分布式文件系統(tǒng),運行于大型商用機集群。

      ⊙ Zookeeper:一個分布式、可用性高的協(xié)調(diào)服務(wù),提供分布式鎖之類的基本服務(wù)用于構(gòu)建分布式應(yīng)用。

      ⊙ HBase:一個分布式、按列存儲數(shù)據(jù)庫,使用HDFS作為底層存儲,同時支持MapReduce的批量式計算和點查詢(隨機讀?。?/p>

      ⊙ Pig:一種數(shù)據(jù)流語言和運行環(huán)境,用以檢索非常大的數(shù)據(jù)集,運行在MapReduce和HDFS的集群上。

      ⊙ Hive:一個分布式、按列存儲的數(shù)據(jù)倉庫,管理HDFS中存儲的數(shù)據(jù),并提供基于SQL的查詢語言(由運行時引起翻譯成MapReduce作業(yè))用以查詢數(shù)據(jù)。

      ⊙ Mahout:一個在Hadoop上運行的可擴展的機器學(xué)習(xí)和數(shù)據(jù)挖掘類庫(例如分類和聚類算法)。

      ⊙ Avro:一種支持高效、跨語言的RPC以及永久存儲數(shù)據(jù)的序列化系統(tǒng)。

      ⊙ Sqoop:在數(shù)據(jù)庫和HDFS之間高效傳輸數(shù)據(jù)的工具。

      Hadoop技術(shù)框架主要優(yōu)點有:

      ⊙ 高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。

      ⊙ 高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。

      ⊙ 高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非??臁?/p>

      ⊙ 高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。

      ⊙ 低成本。與一體機、商用數(shù)據(jù)倉庫以及QlikView,Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。Hadoop帶有用Java語言編寫的框架,因此運行在Linux生產(chǎn)平臺上是非常理想的,當(dāng)然,Hadoop上的應(yīng)用程序也可以使用其他語言編寫。Hadoop在大數(shù)據(jù)處理中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面的天然優(yōu)勢,其分布式架構(gòu)將大數(shù)據(jù)處理引擎盡可能的靠近存儲。

      3 Storm應(yīng)用場景分析

      隨著移動互聯(lián)網(wǎng)的飛速發(fā)展,用戶數(shù)量不斷增加,電信及移動互聯(lián)網(wǎng)悄悄進入了大數(shù)據(jù)時代。數(shù)據(jù)的迅速膨脹及多樣化充斥著移動及電信的各種業(yè)務(wù),對消息的實時處理在各種數(shù)據(jù)處理平臺中顯得更加重要。Storm的快速計算能力、可靠的消息傳輸機制在實時數(shù)據(jù)處理方面有著天生的優(yōu)越性,適合處理要求高響應(yīng)的集群的業(yè)務(wù)數(shù)據(jù)。因此,將storm應(yīng)用于電信及移動互聯(lián)網(wǎng)的有高響應(yīng)要求的業(yè)務(wù)中,將會提高整個系統(tǒng)的運行效率,增強系統(tǒng)的穩(wěn)健性。

      3.1 話單處理簡介

      融合計費系統(tǒng)應(yīng)遵循的技術(shù)原則:規(guī)范性,開放性,擴展性,繼承性,易用性,準確性。話單作為融合計費系統(tǒng)的一部分,易用性和準確性在話單處理中尤為重要。易用性體現(xiàn)在高響應(yīng),即對數(shù)據(jù)進行實時快速處理;準確性體現(xiàn)在賬務(wù)的清晰明了。這都要求計費系統(tǒng)有較高的響應(yīng),Storm的實時計算能力和可靠的傳輸機制恰恰滿足了這個需要。

      圖2 計費系統(tǒng)簡單架構(gòu)

      如圖2所示,計費系統(tǒng)中增加Stream compute Storm模塊,對系統(tǒng)的數(shù)據(jù)進行實時處理。例如:根據(jù)需要定制獲取用戶話單的時間間隔,每隔5分鐘對用戶話單進行一次獲?。ò擞脩舻恼Z音話單和流量話單),實時進行批價,對流量進行套餐監(jiān)控及費用計算,這些復(fù)雜的事件全部在Stream compute Storm模塊完成,此模塊采用并行處理方法,實現(xiàn)對數(shù)據(jù)的快速處理;采用可靠的消息傳輸機制,保證賬務(wù)的準確性。

      3.2 話單獲取

      如圖3所示,Storm的每個Spout組件都會有多個task,task的數(shù)量由用戶決定,Spout組件從外部獲取話單信息,并行批處理話單的記錄,將其按照用戶定制的分組策略將各個記錄或者域發(fā)送到指定的Bolt。

      獲取話單記錄時,Spout可以有多個,每個Spout得Worker也可以有多個,在每個Worker中又可以有多個線程處理話單記錄,進程和線程的個數(shù)可以根據(jù)需要在topology中進行預(yù)設(shè)和調(diào)整,這種靈活的分配策略可以保證獲取話單的速度不會因為數(shù)據(jù)量的增加而降低性能。

      圖3 話單獲取流程圖

      3.3 解析話單

      Spout獲取一條語音話單,并將這條話單記錄經(jīng)過簡單處理按照分組策略轉(zhuǎn)發(fā)到指定的Bolt A。Spout會中東將記錄轉(zhuǎn)發(fā)出去,Bolt被動地接收。此處的分組策略采用按字段分組的方式,即把話單中按字段進行分割,每個字段都有指定的Bolt的task,這種指定在topology中進行配置。例如,用戶ID由task1進行標記處理,用戶當(dāng)前通話時長由task5進行標記與轉(zhuǎn)換處理,處理的目的便于在用戶的所有信息處理完畢后進行信息合并。

      在語音話單記錄解析的過程中,進行了實時的計算,對每個話單記錄域即一條記錄的字段進行標記處理,這種標記處理是并行處理的,因此十分高效。對于流量的計算可以采用固定時間間隔進行合并分析,實現(xiàn)流量監(jiān)控,降低風(fēng)險。

      3.4 合并話單

      對于一條話單記錄,多個Bolt對其進行處理完畢后,要按照指定策略進行合并,生成完整的話單文件,便于入庫或者查詢等。一條話單的每個字段按照用戶需要處理完畢后,分散在多個worker的多個task中,要形成一條完整的話單記錄需要對處理完畢的用戶信息進行合并處理,從大量的數(shù)據(jù)中挑出單個用戶的所有信息,這種用戶信息挑選可通過Storm的可靠消息傳輸機制實現(xiàn)。對于限定時間內(nèi)沒有處理完的字段,可通知Bolt進行重新處理。

      在處理復(fù)雜事件時要做到三點:減少應(yīng)用存儲數(shù)據(jù)(在分析數(shù)據(jù)之前)造成的延遲;實時地分析多個數(shù)據(jù)流,能夠關(guān)聯(lián)不同數(shù)據(jù)流中的事件,從而發(fā)現(xiàn)新的相關(guān)情形;能夠迅速響應(yīng)新發(fā)現(xiàn)的危險或機會,并且將先前發(fā)現(xiàn)的規(guī)律應(yīng)用到新的數(shù)據(jù)流分析模型中。能夠利用已有的應(yīng)用開發(fā)能力快速開放新的高性能、高擴展度的應(yīng)用,確保應(yīng)用和系統(tǒng)的連貫性。

      4 結(jié)束語

      大數(shù)據(jù)Hadoop平臺的成功應(yīng)用上不勝枚舉,F(xiàn)acebook使用1,000個節(jié)點的集群運行Hadoop,存儲日志數(shù)據(jù),支持其上的數(shù)據(jù)分析和機器學(xué)習(xí);淘寶的Hadoop系統(tǒng)用于存儲并處理電子商務(wù)交易的相關(guān)數(shù)據(jù)。國內(nèi)的高校和科研院所基于Hadoop在數(shù)據(jù)存儲、資源管理、作業(yè)調(diào)度、性能優(yōu)化、系統(tǒng)高可用性和安全性方面進行研究,相關(guān)研究成果多以開源形式貢獻給Hadoop社區(qū)。同時,一些提供Hadoop解決方案的商業(yè)型公司利用自身技術(shù)對Hadoop進行優(yōu)化、改進、二次開發(fā)等,再以自有產(chǎn)品形式對外提供商業(yè)服務(wù),相信不久的將來,Hadoop技術(shù)將成為進入大數(shù)據(jù)領(lǐng)域的必備技術(shù)。

      [1] 涂子沛.?dāng)?shù)據(jù)之巔.北京:中信出版社,2014

      The Application and Project of Big Data Platform in the Industry of Communication

      Yang Lina
      (Xinhua News Agency, Beijing, 100803)

      Firstly, the concept and characters of big data platform and Hadoop framework,And then the advantage and core of Hadoop framework, finally, the Development and application of Hadoop platform on tickethandling in communication industry are analyzed.

      Big data; Hadoop Framework; Communication System; ticket

      10.3969/J.ISSN.1672-7274.2015.09.010

      TN91

      B

      1672-7274(2015)09-0043-04

      猜你喜歡
      話單計費字段
      出租車計費的秘密
      5G網(wǎng)絡(luò)獨立組網(wǎng)中融合計費方案的研究
      圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
      河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實驗語音學(xué)初探
      生活中的分段計費
      采用大數(shù)據(jù)技術(shù)的移動DPI關(guān)聯(lián)算法探索及實現(xiàn)
      CNMARC304字段和314字段責(zé)任附注方式解析
      無正題名文獻著錄方法評述
      關(guān)于CNMARC的3--字段改革的必要性與可行性研究
      GSM-R移動交換機ASN.1話單的解碼
      墨脱县| 喀喇| 克东县| 海盐县| 和田市| 奉贤区| 新巴尔虎左旗| 渝北区| 尼勒克县| 奉贤区| 抚松县| 沾益县| 肇源县| 武汉市| 定兴县| 葫芦岛市| 旅游| 余干县| 台山市| 孟村| 龙江县| 英吉沙县| 荃湾区| 斗六市| 密云县| 乌兰浩特市| 万山特区| 阳泉市| 汤原县| 沙田区| 黄陵县| 广宗县| 乌审旗| 杭锦后旗| 调兵山市| 宁远县| 襄樊市| 泗水县| 淳安县| 彭阳县| 广州市|