• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)采集在大數(shù)據(jù)中的應(yīng)用

      2018-10-20 04:43:30劉陽
      數(shù)碼設(shè)計 2018年9期
      關(guān)鍵詞:數(shù)據(jù)采集大數(shù)據(jù)互聯(lián)網(wǎng)

      劉陽

      摘要: 當今世界已經(jīng)進入了一個信息化時代,大數(shù)據(jù)在很多行業(yè)中都扮演著十分重要的角色,影響著人們的生產(chǎn)生活方式。本文圍繞數(shù)據(jù)采集在大數(shù)據(jù)中的應(yīng)用展開研究,重點分析了大數(shù)據(jù)的概念、數(shù)據(jù)采集的方式方法與如何用Python來進行數(shù)據(jù)采集。

      關(guān)鍵詞: 大數(shù)據(jù);互聯(lián)網(wǎng);信息;數(shù)據(jù)采集

      中圖分類號: TP212.9;TN929.5?? ?文獻標識碼: A?? ?文章編號: 1672-9129(2018)09-0006-01

      Abstract: ?the world has entered an information age. Big data plays a very important role in many industries, influencing people's production and lifestyle. This paper conducts research on the application of data collection in big data, and mainly analyzes the concept of big data, methods and methods of data collection and how to use Python to conduct data collection.

      Key words: ??big data;Internet;Information;The data collection

      1 大數(shù)據(jù)概述

      大數(shù)據(jù)的含義是不能夠在一定的時間范圍里面使用常規(guī)軟件工具來進行捕捉、管理與處理的數(shù)據(jù)集合,是需要使用新的處理模式才能夠具有更加強烈的決策能力、洞察能力以及流程優(yōu)化能力的海量、增長率較高、內(nèi)容多樣化的信息資產(chǎn)[1]。大數(shù)據(jù)技術(shù)的推廣和使用,最為重要的意義不在于掌握和管理龐大的數(shù)據(jù)庫,而是對這些含有一定意義的數(shù)據(jù)作出更加專業(yè)化、科學(xué)性的處理和利用。換句話來說,如果把大數(shù)據(jù)看成是一種產(chǎn)業(yè)的話,那么這一產(chǎn)業(yè)能夠取得經(jīng)濟利益的關(guān)鍵之處,就在于提高對數(shù)據(jù)的“加工能力”,通過對數(shù)據(jù)進行加工來做到對數(shù)據(jù)價值的提升。適用于大數(shù)據(jù)的技術(shù),包括數(shù)據(jù)采集、大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。下面我們就大數(shù)據(jù)采集方式方法做簡單介紹。

      2 數(shù)據(jù)采集的方式方法

      2.1系統(tǒng)日志采集方法。絕大部分的互聯(lián)網(wǎng)企業(yè)都擁有自己專屬的海量數(shù)據(jù)采集工具,一般是用于對系統(tǒng)日志進行采集,例如Hadoop的Chukwa、Fecebook專用的Scribe以及Cloudera的Flume等等,這些工具都是采取分布式類型的架構(gòu),可以滿足很大的使用需求,絕大多數(shù)都可以滿足每秒時間內(nèi)數(shù)百MB的日志數(shù)據(jù)采集以及傳輸需求。

      2.2網(wǎng)絡(luò)數(shù)據(jù)采集方法。網(wǎng)絡(luò)數(shù)據(jù)采集方法的意思是說通過利用網(wǎng)絡(luò)爬蟲或者是網(wǎng)站公開API等各種方式從網(wǎng)站上面得到相關(guān)的數(shù)據(jù)信息。使用這種方法能夠非常簡單地將一些非結(jié)構(gòu)化的數(shù)據(jù)從網(wǎng)頁之中抽取出來,并且將這些數(shù)據(jù)信息統(tǒng)一地存儲在本地的數(shù)據(jù)文件之中,并且能夠以結(jié)構(gòu)化的形式進行存儲。這種數(shù)據(jù)采集方法能夠采集圖片數(shù)據(jù)信息、音頻數(shù)據(jù)信息以及視頻數(shù)據(jù)信息,而且也能夠采集附件,附件能夠和正文之間自動地關(guān)聯(lián)在一起。除了互聯(lián)網(wǎng)中包含的一些信息內(nèi)容之外,對于那些網(wǎng)絡(luò)流量進行采集的時候一般會選擇使用DPI或者是DFI等一些寬帶管理技術(shù)來進行處理。

      2.3其他數(shù)據(jù)采集方法。對于那些對企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或者是有關(guān)學(xué)科的研究數(shù)據(jù)等保密程度要求比較高的數(shù)據(jù)信息來說,可以采用與企業(yè)或者是科學(xué)研究機構(gòu)進行合作的方式,通過使用特定系統(tǒng)接口等一些有關(guān)的方式來對數(shù)據(jù)進行收集。

      2.4大數(shù)據(jù)采集平臺。Apache Flume。Flume是Apache旗下開發(fā)出來的一款具有多重優(yōu)勢的數(shù)據(jù)采集系統(tǒng),其具有的優(yōu)勢主要有可靠度高、擴展性強、管理簡便易行、支持客戶擴展等等。Flume是通過Jruby來進行構(gòu)建的,因此其運行環(huán)境依靠Java來實現(xiàn)。

      Splunk Forwarder。Splunk屬于一個分布式類型的機器數(shù)據(jù)平臺,主要扮演著三個重要的角色:Search Head承擔(dān)的主要任務(wù)是對數(shù)據(jù)進行搜索和處理,同時需要提供搜索過程中的信息抽取情況;Indexer主要負責(zé)對相關(guān)數(shù)據(jù)進行存儲和索引;Forwarder主要負責(zé)對數(shù)據(jù)進行收集、清洗和變形處理,并且發(fā)送給Indexer.

      Python屬于一種開源語言,這種語言能夠提供十分豐富的API和工具,能夠通過使用C語言和C++等對這一模塊進行編寫和擴寫,也能夠通過第三方庫來進行,具備非常高的靈活性和適應(yīng)性,所以說越來越多的人開始選擇通過使用Python來對互聯(lián)網(wǎng)數(shù)據(jù)進行采集和整理。

      3 如何用Python進行數(shù)據(jù)采集

      Python數(shù)據(jù)采集之Scrapy框架,Scrapy是一個快速的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、輿情監(jiān)測和自動化測試。

      3.1 Scrapy整體框架。

      Scrapy由引擎(Scrapy Engine)、調(diào)度器(Scheduler)、下載器(Downloader)、爬蟲(Spiders)、項目管道(Item Pipeline)、下載器中間件(Downloader Middlewares)、爬蟲中間件(Spider Middlewares)、調(diào)度中間件(Scheduler Middewares)等部件組成。

      3.2 Scrapy運行流程。

      (1)引擎打開域名,指定Spider來處理這個域名,獲取第一個要爬取的URL;

      (2)引擎從Spider中獲取第要爬取的URL,并在調(diào)度器以Request請求調(diào)度;

      (3)引擎向調(diào)度器請求下一個要爬取的URL;

      (4)調(diào)度返回要爬取的URL給引擎,引擎通過下載中間件將URL發(fā)送到下載器;

      (5)下載器生成一個該網(wǎng)頁Response響應(yīng),將其通過下載中間件發(fā)送給引擎;

      (6)引擎從下載器接收Response響應(yīng),并通過Spider中間發(fā)送給Spider;

      (7)Spider處理Response響應(yīng),并返回爬取到Item和新的Request請求;

      (8)引擎將爬取到的Item給Item Pipeline,將Request請求發(fā)給調(diào)度器;

      (9)重復(fù)(2)操作,度器中沒有新Request請求,引擎斷開與該域名的鏈接。

      3.3 采集實例。獲取某電影網(wǎng)站的排名數(shù)據(jù)采用Python實現(xiàn)方式如下:

      import requests

      import re

      Url = 'http://dianying.2345.com/top/meiguo.html'

      response = requests.get(Url)

      html = response.text

      #print(html)

      #

      主演:(.*?)(.*?)(.*?)

      pattern = re.compile(r'TOP(.*?).*?.*?

      主演:.*?.*?

      (.*?)

      .*?
      ',re.S)

      re_result = re.findall(pattern,html)

      list = re_result

      i =list[:]

      for i in list:

      print (i)

      #print(re_result)'''

      pattern = re.compile(r'TOP(.*?)')

      re_result = re.findall(pattern,html)

      print(re_result)'''

      程序運行結(jié)果如下:

      4 結(jié)論

      當前,社會已經(jīng)進入了一個信息化時代,掌握了豐富多彩的信息,也就等于掌握了制勝的關(guān)鍵。市場競爭越來越激烈,科學(xué)技術(shù)的運用能夠為企業(yè)的發(fā)展增添動力。通過本文的研究也能夠看出,大數(shù)據(jù)的使用能夠為企業(yè)運營和決策帶來諸多的便利。從長遠來看,大數(shù)據(jù)必然將迎來一個又一個發(fā)展高峰,也將為社會的發(fā)展帶來更多的機遇和挑戰(zhàn)。

      參考文獻:

      [1]顧軍林.大數(shù)據(jù)在農(nóng)業(yè)無人機上的應(yīng)用研究[J].農(nóng)機化研究,2018(04):213-217.

      [2]黃金國,劉濤,周先春,嚴錫君.基于可變粒度機會調(diào)度的網(wǎng)絡(luò)大數(shù)據(jù)知識擴充算法[J/OL].計算機應(yīng)用研究,2019(03):1-3

      [3]王承軍. 高并發(fā)大數(shù)據(jù)在線學(xué)習(xí)系統(tǒng)中的關(guān)鍵技術(shù)研究[D].中國地質(zhì)大學(xué),2015.

      猜你喜歡
      數(shù)據(jù)采集大數(shù)據(jù)互聯(lián)網(wǎng)
      鐵路客流時空分布研究綜述
      基于廣播模式的數(shù)據(jù)實時采集與處理系統(tǒng)
      軟件工程(2016年8期)2016-10-25 15:54:18
      通用Web表單數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:52:53
      基于開源系統(tǒng)的綜合業(yè)務(wù)數(shù)據(jù)采集系統(tǒng)的開發(fā)研究
      從“數(shù)據(jù)新聞”看當前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
      今傳媒(2016年9期)2016-10-15 22:06:04
      互聯(lián)網(wǎng)背景下大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項目的實施
      考試周刊(2016年79期)2016-10-13 23:23:28
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      以高品質(zhì)對農(nóng)節(jié)目助力打贏脫貧攻堅戰(zhàn)
      中國記者(2016年6期)2016-08-26 12:52:41
      牟定县| 苗栗县| 漳平市| 仁布县| 鄂尔多斯市| 淅川县| 光山县| 宁陕县| 根河市| 珲春市| 建德市| 茂名市| 阳江市| 凯里市| 西和县| 基隆市| 西盟| 嘉黎县| 蓬安县| 清丰县| 开封县| 蒙阴县| 会昌县| 侯马市| 桃园市| 五大连池市| 嘉兴市| 万荣县| 博湖县| 惠州市| 将乐县| 抚宁县| 普宁市| 绥化市| 绥江县| 西畴县| 庆元县| 区。| 德州市| 孟津县| 尉犁县|