熊暢
摘要:基于Python爬蟲技術(shù)簡(jiǎn)單易用的特點(diǎn),利用python語(yǔ)言編寫爬蟲程序?qū)?guó)家廣播電視總局電視劇電子政務(wù)平臺(tái)的電視劇備案數(shù)據(jù)進(jìn)行了爬取。并對(duì)爬取的電視劇備案數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)分析,得出相關(guān)結(jié)論。
關(guān)鍵詞:Python;爬蟲;數(shù)據(jù)分析
中圖分類號(hào):TP311.11 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)09-0035-02
1 爬蟲技術(shù)簡(jiǎn)介
網(wǎng)絡(luò)爬蟲,是一種通過(guò)既定規(guī)則,自動(dòng)地抓取網(wǎng)頁(yè)信息的計(jì)算機(jī)程序。爬蟲的目地在于將目標(biāo)網(wǎng)頁(yè)數(shù)據(jù)下載至本地,以便進(jìn)行后續(xù)的數(shù)據(jù)分析。爬蟲技術(shù)的興起源于海量網(wǎng)絡(luò)數(shù)據(jù)的可用性,通過(guò)爬蟲技術(shù),我們能夠較為容易的獲取網(wǎng)絡(luò)數(shù)據(jù),并通過(guò)對(duì)數(shù)據(jù)的分析,得出有價(jià)值的結(jié)論。
Python語(yǔ)言簡(jiǎn)單易用,現(xiàn)成的爬蟲框架和工具包降低了使用門檻,具體使用時(shí)配合正則表達(dá)式的運(yùn)用,使得數(shù)據(jù)抓取工作變得生動(dòng)有趣。
2 案例分析
2.1 網(wǎng)頁(yè)說(shuō)明
目標(biāo)數(shù)據(jù)是歷年來(lái)的全國(guó)電視劇拍攝備案數(shù)據(jù)。數(shù)據(jù)源于國(guó)家廣播電視總局電視劇電子政務(wù)平臺(tái)的公開信息,如圖1所示,具體網(wǎng)址URL:“http://dsj.sarft.gov.cn/tims/site/views/applications.shanty?appName=note”。
我們需要爬取歷年來(lái)每個(gè)月的備案公示信息列表數(shù)據(jù),如圖2,并進(jìn)行匯總和分析。
2.2 爬蟲程序設(shè)計(jì)并實(shí)現(xiàn)
首先,我們用BeautifulSoup解析器來(lái)解析URL的文本信息,分析網(wǎng)頁(yè)HTML文本和頁(yè)面規(guī)則后,制定以下步驟來(lái)抓取目標(biāo)數(shù)據(jù)。
①抓取首頁(yè)碼和尾頁(yè)碼后,循環(huán)抓取列表頁(yè)信息;
②通過(guò)”th”標(biāo)簽來(lái)提取表頭信息;
③循環(huán)提取行信息;
④將每一行的信息加入年份和月份屬性,將所提取的信息組合成DataFrame格式。
用Python編程實(shí)現(xiàn)上述步驟,最終的結(jié)果是抓取并形成了一個(gè)8884行、6列的二維表,包含了從2009年3月份至2017年7月份的電視劇拍攝備案數(shù)據(jù),如圖3和圖4所示。
2.3 數(shù)據(jù)分析
根據(jù)上述數(shù)據(jù),我們可以運(yùn)用Python的統(tǒng)計(jì)方法,對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)和分析。
2.3.1 統(tǒng)計(jì)每年的拍攝數(shù)量
用groupby方法統(tǒng)計(jì)每年的電視劇數(shù)量并作條形圖。從數(shù)據(jù)上可以看出,2010年至2016年,我國(guó)電視劇備案數(shù)量整體上看呈上升趨勢(shì),如圖5,從2010年的962部上升至2016年的1217部。
2.3.2 統(tǒng)計(jì)各地區(qū)的備案情況
同樣的,用groupby方法統(tǒng)計(jì)各地區(qū)的備案數(shù)量。如圖6所示,2009年3月份至2017年7月份,北京、浙江和上海這三個(gè)地區(qū)的電視備案數(shù)量排名前三,具體數(shù)量分別為2329部、1214部和938部。而排名倒數(shù)前三的地區(qū)分別是青海、西藏和甘肅,具體數(shù)量分別為4部、13部和16部。
2.3.3 統(tǒng)計(jì)題材分布
如圖7所示,從題材上來(lái)看,備案數(shù)量排名前三的題材分別是當(dāng)代都市、近代革命和近代傳奇,這三個(gè)題材的備案數(shù)量分別為3396部、1130部和709部。
3 結(jié)語(yǔ)
運(yùn)用Python爬蟲技術(shù)能夠順利的抓取所需數(shù)據(jù)。通過(guò)對(duì)數(shù)據(jù)的整理和分析,可以認(rèn)為:從總量上來(lái)看,我國(guó)電視部備案數(shù)量整體呈穩(wěn)步上升趨勢(shì);從地區(qū)分布上看,備案數(shù)量與地區(qū)經(jīng)濟(jì)的發(fā)達(dá)程度正相關(guān),由于電視劇的拍攝和制作需要資本投入,發(fā)達(dá)地區(qū)擁有資本和人才優(yōu)勢(shì),能夠大批量的拍攝和制作電視?。蛔詈?,從備案題材來(lái)看,當(dāng)代都市題材的數(shù)量處于絕對(duì)領(lǐng)先地位,說(shuō)明反映時(shí)代特征的當(dāng)代題材劇最受資本和制作方的親睞。
參考文獻(xiàn)
[1]Yves Hilpisch.Python金融大數(shù)據(jù)分析[M].北京:人民郵電出版社,2015.
[2]吳劍蘭.基于Python的新浪微博爬蟲研究[J].無(wú)線互聯(lián)科技,2015,(6):93-94.endprint