• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Python爬蟲技術(shù)的網(wǎng)頁(yè)數(shù)據(jù)抓取與分析研究

      2017-12-07 12:45熊暢
      關(guān)鍵詞:爬蟲數(shù)據(jù)分析

      熊暢

      摘要:基于Python爬蟲技術(shù)簡(jiǎn)單易用的特點(diǎn),利用python語(yǔ)言編寫爬蟲程序?qū)?guó)家廣播電視總局電視劇電子政務(wù)平臺(tái)的電視劇備案數(shù)據(jù)進(jìn)行了爬取。并對(duì)爬取的電視劇備案數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)分析,得出相關(guān)結(jié)論。

      關(guān)鍵詞:Python;爬蟲;數(shù)據(jù)分析

      中圖分類號(hào):TP311.11 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)09-0035-02

      1 爬蟲技術(shù)簡(jiǎn)介

      網(wǎng)絡(luò)爬蟲,是一種通過(guò)既定規(guī)則,自動(dòng)地抓取網(wǎng)頁(yè)信息的計(jì)算機(jī)程序。爬蟲的目地在于將目標(biāo)網(wǎng)頁(yè)數(shù)據(jù)下載至本地,以便進(jìn)行后續(xù)的數(shù)據(jù)分析。爬蟲技術(shù)的興起源于海量網(wǎng)絡(luò)數(shù)據(jù)的可用性,通過(guò)爬蟲技術(shù),我們能夠較為容易的獲取網(wǎng)絡(luò)數(shù)據(jù),并通過(guò)對(duì)數(shù)據(jù)的分析,得出有價(jià)值的結(jié)論。

      Python語(yǔ)言簡(jiǎn)單易用,現(xiàn)成的爬蟲框架和工具包降低了使用門檻,具體使用時(shí)配合正則表達(dá)式的運(yùn)用,使得數(shù)據(jù)抓取工作變得生動(dòng)有趣。

      2 案例分析

      2.1 網(wǎng)頁(yè)說(shuō)明

      目標(biāo)數(shù)據(jù)是歷年來(lái)的全國(guó)電視劇拍攝備案數(shù)據(jù)。數(shù)據(jù)源于國(guó)家廣播電視總局電視劇電子政務(wù)平臺(tái)的公開信息,如圖1所示,具體網(wǎng)址URL:“http://dsj.sarft.gov.cn/tims/site/views/applications.shanty?appName=note”。

      我們需要爬取歷年來(lái)每個(gè)月的備案公示信息列表數(shù)據(jù),如圖2,并進(jìn)行匯總和分析。

      2.2 爬蟲程序設(shè)計(jì)并實(shí)現(xiàn)

      首先,我們用BeautifulSoup解析器來(lái)解析URL的文本信息,分析網(wǎng)頁(yè)HTML文本和頁(yè)面規(guī)則后,制定以下步驟來(lái)抓取目標(biāo)數(shù)據(jù)。

      ①抓取首頁(yè)碼和尾頁(yè)碼后,循環(huán)抓取列表頁(yè)信息;

      ②通過(guò)”th”標(biāo)簽來(lái)提取表頭信息;

      ③循環(huán)提取行信息;

      ④將每一行的信息加入年份和月份屬性,將所提取的信息組合成DataFrame格式。

      用Python編程實(shí)現(xiàn)上述步驟,最終的結(jié)果是抓取并形成了一個(gè)8884行、6列的二維表,包含了從2009年3月份至2017年7月份的電視劇拍攝備案數(shù)據(jù),如圖3和圖4所示。

      2.3 數(shù)據(jù)分析

      根據(jù)上述數(shù)據(jù),我們可以運(yùn)用Python的統(tǒng)計(jì)方法,對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)和分析。

      2.3.1 統(tǒng)計(jì)每年的拍攝數(shù)量

      用groupby方法統(tǒng)計(jì)每年的電視劇數(shù)量并作條形圖。從數(shù)據(jù)上可以看出,2010年至2016年,我國(guó)電視劇備案數(shù)量整體上看呈上升趨勢(shì),如圖5,從2010年的962部上升至2016年的1217部。

      2.3.2 統(tǒng)計(jì)各地區(qū)的備案情況

      同樣的,用groupby方法統(tǒng)計(jì)各地區(qū)的備案數(shù)量。如圖6所示,2009年3月份至2017年7月份,北京、浙江和上海這三個(gè)地區(qū)的電視備案數(shù)量排名前三,具體數(shù)量分別為2329部、1214部和938部。而排名倒數(shù)前三的地區(qū)分別是青海、西藏和甘肅,具體數(shù)量分別為4部、13部和16部。

      2.3.3 統(tǒng)計(jì)題材分布

      如圖7所示,從題材上來(lái)看,備案數(shù)量排名前三的題材分別是當(dāng)代都市、近代革命和近代傳奇,這三個(gè)題材的備案數(shù)量分別為3396部、1130部和709部。

      3 結(jié)語(yǔ)

      運(yùn)用Python爬蟲技術(shù)能夠順利的抓取所需數(shù)據(jù)。通過(guò)對(duì)數(shù)據(jù)的整理和分析,可以認(rèn)為:從總量上來(lái)看,我國(guó)電視部備案數(shù)量整體呈穩(wěn)步上升趨勢(shì);從地區(qū)分布上看,備案數(shù)量與地區(qū)經(jīng)濟(jì)的發(fā)達(dá)程度正相關(guān),由于電視劇的拍攝和制作需要資本投入,發(fā)達(dá)地區(qū)擁有資本和人才優(yōu)勢(shì),能夠大批量的拍攝和制作電視?。蛔詈?,從備案題材來(lái)看,當(dāng)代都市題材的數(shù)量處于絕對(duì)領(lǐng)先地位,說(shuō)明反映時(shí)代特征的當(dāng)代題材劇最受資本和制作方的親睞。

      參考文獻(xiàn)

      [1]Yves Hilpisch.Python金融大數(shù)據(jù)分析[M].北京:人民郵電出版社,2015.

      [2]吳劍蘭.基于Python的新浪微博爬蟲研究[J].無(wú)線互聯(lián)科技,2015,(6):93-94.endprint

      猜你喜歡
      爬蟲數(shù)據(jù)分析
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營(yíng)銷模式的影響
      泗水县| 达孜县| 五指山市| 随州市| 罗平县| 鹿泉市| 洪雅县| 灵丘县| 宁陵县| 丹东市| 从化市| 荥阳市| 四子王旗| 义马市| 玉田县| 兴化市| 江达县| 海城市| 新余市| 南投市| 冀州市| 胶州市| 红河县| 秦皇岛市| 沛县| 东平县| 辛集市| 成安县| 墨玉县| 宝兴县| 板桥市| 盐城市| 禹州市| 井研县| 宁乡县| 华容县| 田阳县| 翁源县| 祁阳县| 邹平县| 奉新县|