• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Spark的分布式大數(shù)據(jù)分析建模系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      2018-10-24 04:39:04徐時(shí)芳羅曉賓陳陽華
      現(xiàn)代電子技術(shù) 2018年20期
      關(guān)鍵詞:數(shù)據(jù)分析故障診斷

      徐時(shí)芳 羅曉賓 陳陽華

      摘 要: 針對分布式大數(shù)據(jù)對數(shù)據(jù)存儲、清洗、轉(zhuǎn)化、聚合、挖掘和分析工作所造成的挑戰(zhàn),設(shè)計(jì)并實(shí)現(xiàn)了一種基于Spark的分布式大數(shù)據(jù)分析建模系統(tǒng)。該系統(tǒng)通過數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用5個(gè)模塊,實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的適配采集與離線、在線分析處理;并使用管理和控制平臺,實(shí)現(xiàn)系統(tǒng)的協(xié)調(diào)運(yùn)行。軟硬件實(shí)現(xiàn)及建模測試結(jié)果表明,所提出的系統(tǒng)能實(shí)現(xiàn)具體場景故障診斷數(shù)據(jù)的有效、精確聚類,并可滿足大數(shù)據(jù)處理的速度和精度需求。

      關(guān)鍵詞: 分布式大數(shù)據(jù); Spark; 數(shù)據(jù)分析; 數(shù)據(jù)建模; 非結(jié)構(gòu)化數(shù)據(jù); 故障診斷

      中圖分類號: TN919?34; TM76 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2018)20?0172?03

      Abstract: In allusion to the challenges posed by distributed big data to data storage, cleaning, transformation, aggregation, mining and analysis, a distributed big data analysis and modeling system based on Spark was designed and implemented. In the system, adaptive acquisition, offline analysis processing and online analysis processing of structured, semi?structured and unstructured data are realized by using five modules of data acquisition module, data storage module, data analysis module, data managemetn module and data application module. The management and control platform is used to achieve coordinated operation of the system. The results of software and hardware implementation and modeling test show that the proposed system can achieve effective and accurate data clustering for fault diagnosis of specific scenarios and meet the speed and accuracy requirements of big data processing.

      Keywords: distributed big data; Spark; data analysis; data modeling; unstructured data; fault diagnosis

      0 引 言

      隨著互聯(lián)網(wǎng)的快速發(fā)展,產(chǎn)生了大量復(fù)雜多變的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[1],對數(shù)據(jù)存儲、清洗、轉(zhuǎn)化、聚合、挖掘及分析工作造成了極大的挑戰(zhàn)[2?5]。雖然現(xiàn)有的分布式存儲技術(shù)能將海量數(shù)據(jù)存儲在服務(wù)器集群中[6],但大數(shù)據(jù)存在結(jié)構(gòu)復(fù)雜、格式不統(tǒng)一、不規(guī)范的問題,需要去除其中的“糟粕”,以提取出有價(jià)值的數(shù)據(jù)[7];同時(shí),隨著數(shù)據(jù)量呈指數(shù)的方式增長,需要更高效的算法和工具來合理分配計(jì)算資源[8]?,F(xiàn)有的數(shù)據(jù)處理方式難以實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的處理。因此,本文借助Spark數(shù)據(jù)分析技術(shù)[9]構(gòu)建大數(shù)據(jù)分析建模系統(tǒng),以提高分布式大數(shù)據(jù)處理的效率與精度。Spark是加州伯克利分校AMPLab實(shí)驗(yàn)室于2009年提出的MapReduce分布式計(jì)算的替代方案,具有速度快、通用性和易用性強(qiáng)等特點(diǎn)[10]。相比于MapReduce,Spark通過串聯(lián)或并聯(lián)執(zhí)行多個(gè)Stage而無需將中間結(jié)果輸出到磁盤上[11];Spark使用彈性分布式數(shù)據(jù)集進(jìn)行數(shù)據(jù)存儲,可以精確讀取每一條記錄,并能讓用戶自定義分區(qū)策略;Spark使用事件驅(qū)動方式啟動任務(wù),能明顯減小線程啟動和切換開銷[12]。

      基于上述分析,本文針對分布式大數(shù)據(jù)分析和挖掘上的痛點(diǎn),依托于Spark數(shù)據(jù)分析技術(shù)設(shè)計(jì)與實(shí)現(xiàn)了一種分布式大數(shù)據(jù)分析建模系統(tǒng)。該系統(tǒng)通過集成數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用等功能,對數(shù)據(jù)進(jìn)行聚類與分類,并提供預(yù)測模型,為信息的挖掘和預(yù)測提供支持。

      1 分布式大數(shù)據(jù)分析建模系統(tǒng)的設(shè)計(jì)

      本文基于Spark數(shù)據(jù)分析技術(shù),構(gòu)建了如圖1所示的分布式大數(shù)據(jù)分析建模系統(tǒng)。在數(shù)據(jù)采集與存儲方面實(shí)現(xiàn)了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的適配采集。并使用HBase和HDFS存儲非關(guān)系型數(shù)據(jù),使用RDBMS存儲關(guān)系型數(shù)據(jù);在數(shù)據(jù)處理方面,針對數(shù)據(jù)處理的不同需求,使用Spark,Hive,Pig和Mahout實(shí)現(xiàn)數(shù)據(jù)的離線處理,再使用Spark和Storm實(shí)現(xiàn)數(shù)據(jù)的高速實(shí)時(shí)處理;在數(shù)據(jù)應(yīng)用方面,實(shí)現(xiàn)了數(shù)據(jù)報(bào)告、搜索、可視化以及各種功能性應(yīng)用、專題應(yīng)用和預(yù)測分析。同時(shí),為了保證系統(tǒng)的協(xié)調(diào)運(yùn)行,設(shè)計(jì)了系統(tǒng)管理和控制平臺。下面分別介紹各模塊的具體設(shè)計(jì)與實(shí)現(xiàn)。

      1) 數(shù)據(jù)采集模塊。該模塊使用遷移接口、推送接口組成的采集適配器和Sqoop,實(shí)現(xiàn)關(guān)系型數(shù)據(jù)、文檔型數(shù)據(jù)、空間數(shù)據(jù)及實(shí)時(shí)業(yè)務(wù)數(shù)據(jù)的采集。

      2) 數(shù)據(jù)存儲模塊。該模塊架構(gòu)如圖2所示。使用關(guān)系型數(shù)據(jù)庫和分布式文件系統(tǒng)混搭的方式實(shí)現(xiàn)數(shù)據(jù)的存儲,并使用統(tǒng)一的數(shù)據(jù)接口為大數(shù)據(jù)處理和應(yīng)用提供數(shù)據(jù)支撐。其中,使用HDFS構(gòu)建分布式文件系統(tǒng)來存儲離線處理所需的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);使用Oracle數(shù)據(jù)庫存放關(guān)系型數(shù)據(jù)庫表數(shù)據(jù)和數(shù)據(jù)挖掘元數(shù)據(jù),便于進(jìn)行系統(tǒng)查詢、匯總與分析等應(yīng)用。

      3) 數(shù)據(jù)分析模塊。該模塊架構(gòu)如圖3所示。其包括實(shí)時(shí)計(jì)算引擎和離線處理引擎兩種模式,以支撐大數(shù)據(jù)計(jì)算及任務(wù)調(diào)度等應(yīng)用場景。其中,使用Spark計(jì)算框架對歷史數(shù)據(jù)進(jìn)行離線建模和預(yù)測分析;使用Spark計(jì)算引擎與storm計(jì)算組件,實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)分析處理。該模塊使用ZooLeeper工具協(xié)調(diào)配置管理和名字服務(wù),實(shí)現(xiàn)集群與分布式的同步管理。

      4) 數(shù)據(jù)管理模塊。該模塊包括控制臺和系統(tǒng)管理兩部分??刂婆_部分主要功能包括:監(jiān)控管理、應(yīng)用管理、集群管理、數(shù)據(jù)源管理和任務(wù)計(jì)劃;系統(tǒng)管理部分主要功能包括:賬戶管理、安全管理、配置管理和SNMP管理等。

      5) 數(shù)據(jù)應(yīng)用模塊。該模塊使用MVC框架和JavaAPI實(shí)現(xiàn)HDFS數(shù)據(jù)的可視化,并使用Spark編程模型實(shí)現(xiàn)數(shù)據(jù)清洗及合并功能;同時(shí),使用Spark SQL和Hive metastore實(shí)現(xiàn)可視化數(shù)據(jù)的查詢與建模。

      2 數(shù)據(jù)分析建模的具體實(shí)現(xiàn)

      數(shù)據(jù)分析建模功能是通過連接各種具有具體功能函數(shù)的操作節(jié)點(diǎn),并形成流程來實(shí)現(xiàn)。其輸入為系統(tǒng)采集的各種數(shù)據(jù),輸出為建模結(jié)果。這里分別從數(shù)據(jù)導(dǎo)入、數(shù)據(jù)基本操作、數(shù)據(jù)建模和數(shù)據(jù)導(dǎo)出4部分介紹基于Spark的分布式大數(shù)據(jù)分析建模功能的具體實(shí)現(xiàn)。

      1) 數(shù)據(jù)導(dǎo)入。數(shù)據(jù)分析建模系統(tǒng)不僅可以導(dǎo)入數(shù)據(jù)文件,還能導(dǎo)入數(shù)據(jù)庫。通過設(shè)置導(dǎo)入數(shù)據(jù)的路徑和數(shù)據(jù)屬性參數(shù),將原始數(shù)據(jù)保存為系統(tǒng)能識別的類型。

      2) 數(shù)據(jù)基本操作。數(shù)據(jù)分析建模系統(tǒng)所涉及的基本操作包括類型操作、新屬性生成、節(jié)點(diǎn)連接和數(shù)據(jù)分區(qū)、排序、統(tǒng)計(jì)等。

      3) 數(shù)據(jù)建模。本文設(shè)計(jì)的數(shù)據(jù)分析建模系統(tǒng)實(shí)現(xiàn)了線性回歸、K?means聚類和決策樹等建模方法。在數(shù)據(jù)建模過程中,首先將樣本數(shù)據(jù)集分為訓(xùn)練和檢測兩部分。訓(xùn)練樣本用于構(gòu)建模型,測試樣本則用于模型校驗(yàn)。

      4) 數(shù)據(jù)導(dǎo)出。數(shù)據(jù)導(dǎo)出過程包括寫HDFS和寫模型兩個(gè)步驟。寫HDFS將數(shù)據(jù)建模過程得到的驗(yàn)證結(jié)果,存儲到HDFS文件系統(tǒng)中;寫模型將模型以二進(jìn)制或XML的形式寫入文件。本文將K?means模型保存為XML文件的示例如圖4所示。

      3 系統(tǒng)實(shí)現(xiàn)與測試

      本文使用1臺服務(wù)器作為控制節(jié)點(diǎn)、3臺服務(wù)器作為計(jì)算節(jié)點(diǎn)以及1臺千兆網(wǎng)絡(luò)交換機(jī)構(gòu)建仿真系統(tǒng),并在硬件系統(tǒng)上部署Zookeeper,Hive和Spark等軟件環(huán)境。集群啟動成功后得到的結(jié)果如圖5所示。

      為了驗(yàn)證本文提出的數(shù)據(jù)分析建模功能的有效性,本部分將上述方法應(yīng)用到大學(xué)生創(chuàng)新創(chuàng)業(yè)能力培養(yǎng)策略問題中進(jìn)行仿真測試,研究適合大學(xué)生能力培養(yǎng)的最優(yōu)路徑。在文中構(gòu)建的測試數(shù)據(jù)集上,該系統(tǒng)可得到83.3%的預(yù)測精度,決策樹輸出如圖6所示。

      4 結(jié) 語

      分布式大數(shù)據(jù)存在結(jié)構(gòu)復(fù)雜、格式不統(tǒng)一及不規(guī)范的問題。為了提高其處理的效率和精度,本文借助Spark數(shù)據(jù)分析技術(shù)設(shè)計(jì)并實(shí)現(xiàn)了一種分布式大數(shù)據(jù)分析建模系統(tǒng)。該系統(tǒng)包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用5個(gè)模塊,實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)的采集、清洗及分析建模功能。軟硬件實(shí)現(xiàn)與仿真測試結(jié)果表明,該系統(tǒng)能實(shí)現(xiàn)實(shí)際數(shù)據(jù)的有效、精確建模,并能滿足大數(shù)據(jù)處理的速度、精度需求。

      參考文獻(xiàn)

      [1] ZAHARIA M, XIN R S, WENDELL P, et al. Apache Spark: a unified engine for big data processing [J]. Communications of the ACM, 2016, 59(11): 56?65.

      [2] MAILLO J, RAM?REZ S, TRIGUERO I, et al. kNN?IS: an iterative Spark?based design of the k?nearest neighbors classifier for big data [J]. Knowledge?based systems, 2017, 117: 3?15.

      [3] 李洋,何寶靈,劉海濤,等.面向全球能源互聯(lián)網(wǎng)的分布式電源云服務(wù)與大數(shù)據(jù)分析平臺研究[J].電力信息與通信技術(shù),2016,14(3):30?36.

      LI Yang, HE Baoling, LIU Haitao, et al. Research on distributed generation cloud service and big data analysis platform for global energy interconnection [J]. Electric power information and communication technology, 2016, 14(3): 30?36.

      [4] 諶志華.基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)[J].現(xiàn)代電子技術(shù),2017,40(24):15?17.

      SHEN Zhihua. Network public opinion analysis system based on big data [J]. Modern electronics technique, 2017, 40(24): 15?17.

      [5] 喬非,葛彥昊,孔維暢.基于MapReduce的分布式改進(jìn)隨機(jī)森林學(xué)生就業(yè)數(shù)據(jù)分類模型研究[J].系統(tǒng)工程理論與實(shí)踐,2017,37(5):1383?1392.

      QIAO Fei, GE Yanhao, KONG Weichang. MapReduce based distributed improved random forest model for graduates career classification [J]. Systems engineering?theory & practice, 2017, 37(5): 1383?1392.

      [6] 焉曉貞,謝紅,王桐.一種基于相關(guān)分析的多元回歸數(shù)據(jù)估計(jì)方法[J].沈陽工業(yè)大學(xué)學(xué)報(bào),2013,35(2):212?217.

      YAN Xiaozhen, XIE Hong, WANG Tong. Data evaluation method using multiple regression based on correlation analysis [J]. Journal of Shenyang University of Technology, 2013, 35(2): 212?217.

      [7] 張宸,韓夏.大數(shù)據(jù)環(huán)境下基于SVM?WNB的網(wǎng)絡(luò)輿情分類研究[J].統(tǒng)計(jì)與決策,2017(14):45?48.

      ZHANG Chen, HAN Xia. Classification research on NPO based on SVM?WNB under big data environment [J]. Statistics & decision, 2017(14): 45?48.

      [8] 程敏.基于PostgreSQL和Spark的可擴(kuò)展大數(shù)據(jù)分析平臺[D].深圳:中國科學(xué)院深圳先進(jìn)技術(shù)研究院,2016.

      CHENG Min. Scalable big data analysis platform based on PostgreSQL and Spark [D]. Shenzhen: Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, 2016.

      [9] 張繁,袁兆康,肖凡平,等.基于Spark的大數(shù)據(jù)熱圖可視化方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2016,28(11):1881?1886.

      ZHANG Fan, YUAN Zhaokang, XIAO Fanping, et al. Research on Heatmap for big data based on Spark [J]. Journal of computer?aided design & computer graphics, 2016, 28(11): 1881?1886.

      [10] 皮艾迪,喻劍,周笑波.基于學(xué)習(xí)的容器環(huán)境Spark性能監(jiān)控與分析[J].計(jì)算機(jī)應(yīng)用,2017,37(12):3586?3591.

      PI Aidi, YU Jian, ZHOU Xiaobo. Learning?based performance monitoring and analysis for Spark in container environments [J]. Journal of computer applications, 2017, 37(12): 3586?3591.

      [11] 卜堯,吳斌,陳玉峰,等.BDAP:一個(gè)基于Spark的數(shù)據(jù)挖掘工具平臺[J].中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),2017,47(4):358?368.

      BU Yao, WU Bin, CHEN Yufeng, et al. BDAP: a data mining platform based on Spark [J]. Journal of University of Science and Technology of China, 2017, 47(4): 358?368.

      [12] 陳虹君,吳雪琴.基于Hadoop平臺的Spark快數(shù)據(jù)推薦算法分析與應(yīng)用[J].現(xiàn)代電子技術(shù),2016,39(10):18?20.

      CHEN Hongjun, WU Xueqin. Analysis and application of Spark fast data recommendation algorithm based on Hadoop platform [J]. Modern electronics technique, 2016, 39(10): 18?20.

      猜你喜歡
      數(shù)據(jù)分析故障診斷
      凍干機(jī)常見故障診斷與維修
      基于量子萬有引力搜索的SVM自駕故障診斷
      我校如何利用體育大課間活動解決男生引體向上這個(gè)薄弱環(huán)節(jié)
      Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
      淺析大數(shù)據(jù)時(shí)代背景下的市場營銷策略
      新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
      中國市場(2016年36期)2016-10-19 04:31:23
      淺析大數(shù)據(jù)時(shí)代對企業(yè)營銷模式的影響
      基于讀者到館行為數(shù)據(jù)分析的高校圖書館服務(wù)優(yōu)化建議
      科技視界(2016年22期)2016-10-18 14:37:36
      因果圖定性分析法及其在故障診斷中的應(yīng)用
      基于LCD和排列熵的滾動軸承故障診斷
      集贤县| 大洼县| 永年县| 潍坊市| 南漳县| 庆元县| 台州市| 永兴县| 无极县| 雅江县| 巴里| 新源县| 石城县| 广灵县| 宁津县| 抚州市| 宁德市| 庆阳市| 民权县| 全州县| 邓州市| 台湾省| 灯塔市| 穆棱市| 紫云| 嘉荫县| 丰原市| 广州市| 天镇县| 时尚| 保定市| 治县。| 福建省| 五大连池市| 墨脱县| 永川市| 固原市| 滦南县| 布拖县| 海原县| 阜宁县|