盧寧
摘要:為了更好地開展數(shù)字科學(xué)普及教育,下載更多數(shù)字科學(xué)普及電影的相關(guān)信息和影片資源服務(wù)于數(shù)字科普工作,滿足廣大青少年對(duì)科普知識(shí)的渴望.文章基于Python語(yǔ)言以在百度上獲取的科普電影片名為文件名新建一個(gè)文件夾,以將獲取的影片相關(guān)資料(如科普電影圖片的URL地址)放入新建文件夾為例,介紹了獲取科普電影相關(guān)信息的思路流程和知識(shí)要點(diǎn),為獲取科普電影相關(guān)信息奠定理論基礎(chǔ)、確定操作流程、提供關(guān)鍵代碼,以及為后續(xù)的數(shù)據(jù)分析提供原始資源。
關(guān)鍵詞:數(shù)字科普;科普電影;數(shù)據(jù)獲?。籔ython
中圖法分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
1 引言
數(shù)字科普電影是為普及科學(xué)文化知識(shí)而特?cái)z,利用數(shù)字電影為傳媒以淺顯、通俗易懂的表現(xiàn)形式讓公眾了解自然科學(xué)和社會(huì)科學(xué),從而推廣科技的應(yīng)用、倡導(dǎo)科學(xué)方法、傳播科學(xué)思想、弘揚(yáng)科學(xué)精神。影片內(nèi)容在解釋自然現(xiàn)象和社會(huì)現(xiàn)象時(shí),力求做到深入淺出、形象生動(dòng),使觀眾易于接受??破针娪氨憩F(xiàn)范圍極為廣泛———自然科學(xué)、人文科學(xué)均可涉及。數(shù)字科普電影常用于科普?qǐng)鲳^的科普教育。
2 Python 獲取數(shù)據(jù)的優(yōu)勢(shì)
請(qǐng)求模塊、解析模塊豐富成熟, 有著強(qiáng)大的Scrapy 網(wǎng)絡(luò)框架,代碼簡(jiǎn)潔,代碼量少。數(shù)據(jù)獲取的方法可采用自動(dòng)索引、模擬程序,按照一定的規(guī)則自動(dòng)抓取萬(wàn)維網(wǎng)信息。該程序或者腳本從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。然后通過(guò)對(duì)數(shù)據(jù)進(jìn)行處理,得到有價(jià)值的數(shù)據(jù),傳統(tǒng)算法從一個(gè)或若干初始網(wǎng)頁(yè)的URL 開始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL 放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。
用Python 語(yǔ)言可以實(shí)現(xiàn)如下功能:以在百度上獲取到的各科普電影片名為文件名新建文件夾,在此文件夾下,以各科普電影片名為文件名、以.txt 為擴(kuò)展名建立文本文件,將爬取到的與這部電影有關(guān)的信息(以獲取的此科普電影圖片的URL 地址為例)放入此文本文件中。
3 方法
步驟1 導(dǎo)入本程序要用到的模塊。
在PyCharm 編輯器中編寫程序代碼:import csv # csv 文件格式是一種通用的電子表格和數(shù)據(jù)庫(kù)導(dǎo)入導(dǎo)出格式,用此文件存放獲取到的科普影片片名import os # 包含普遍的操作系統(tǒng)功能import re # 正則表達(dá)式用于提取有效的內(nèi)容import requests #網(wǎng)絡(luò)訪問(wèn)模塊用于得到頁(yè)面源代碼步驟2 獲取頁(yè)面源代碼。
在百度搜科普電影,如圖1 所示。