聶文苗
摘 要:在信息爆炸的大數(shù)據(jù)時(shí)代,獲取、加工和管理數(shù)字教育資源是信息技術(shù)應(yīng)用能力的重要內(nèi)容。文章闡述了網(wǎng)絡(luò)爬蟲在“彌補(bǔ)傳統(tǒng)搜索引擎不足”“用海量數(shù)據(jù)得到價(jià)值信息”“避免獲取數(shù)據(jù)同數(shù)據(jù)分析和預(yù)測(cè)階段割裂”三方面的獨(dú)特優(yōu)勢(shì),以此為基礎(chǔ)進(jìn)一步探討“多層遞階爬蟲工具”的使用及信息技術(shù)能力提升策略,總結(jié)為“內(nèi)容開發(fā)+活動(dòng)組織”改進(jìn)課堂教學(xué)、“合作共享+自主探索”創(chuàng)新學(xué)習(xí)方式、“群體建設(shè)+自我反思”共促專業(yè)發(fā)展。旨在促進(jìn)教師適應(yīng)信息化環(huán)境,提高信息技術(shù)應(yīng)用能力,為教師發(fā)展提供方法參考。
關(guān)鍵詞:優(yōu)勢(shì)分析;多層遞階爬蟲工具;教師信息技術(shù)能力
中圖分類號(hào):G451 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2019)04-0071-03
一、引言
隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)信息量呈爆炸式增長(zhǎng),各個(gè)領(lǐng)域發(fā)生重大變化。在教育領(lǐng)域,面對(duì)海量、高頻、多樣化的數(shù)據(jù)資源,如何利用信息技術(shù)克服諸多問題、高效精準(zhǔn)地獲取目標(biāo)數(shù)據(jù)成為人們關(guān)注的熱點(diǎn)。2014年,教育部為加強(qiáng)教師隊(duì)伍建設(shè),全面提升教師信息技術(shù)應(yīng)用能力,頒發(fā)了《中小學(xué)教師信息技術(shù)應(yīng)用能力標(biāo)準(zhǔn)(試行)》(以下簡(jiǎn)稱《能力標(biāo)準(zhǔn)》),該標(biāo)準(zhǔn)指出通過多種途徑獲取數(shù)字教育資源及掌握加工、利用和管理數(shù)字教育資源的工具與方法是提高信息技術(shù)應(yīng)用能力的重要內(nèi)容,也是信息化社會(huì)教師必備的專業(yè)能力。[1]這充分表明掌握獲取教育資源的技術(shù)是加強(qiáng)教師信息技術(shù)運(yùn)用能力與專業(yè)發(fā)展支持力的重要影響因素。網(wǎng)絡(luò)爬蟲提供了多樣化信息獲取與管理途徑,因此,學(xué)習(xí)利用網(wǎng)絡(luò)爬蟲技術(shù)為信息化教育教學(xué)提供了條件,適應(yīng)了教育信息化2.0的行動(dòng)要求,深化信息技術(shù)助推教育教學(xué)改革。
目前,以“爬蟲”為主題的研究側(cè)重于技術(shù)應(yīng)用,與教育相結(jié)合的文獻(xiàn)很少,它潛在的教育領(lǐng)域價(jià)值沒有得到有效發(fā)揮,尤其對(duì)于教師信息技術(shù)能力的提升。本研究旨在使讀者理解網(wǎng)絡(luò)爬蟲概念、明確其獨(dú)特優(yōu)勢(shì)、了解多層遞階爬蟲工具的使用及對(duì)教師信息技術(shù)能力的作用,在一定程度上為教師提供了策略參考。
二、網(wǎng)絡(luò)爬蟲優(yōu)勢(shì)分析
網(wǎng)絡(luò)爬蟲(Web Crawler),又稱為網(wǎng)絡(luò)蜘蛛(Web Spider)或 Web信息采集器,是一種按照一定的規(guī)則自動(dòng)下載網(wǎng)頁(yè)的計(jì)算機(jī)程序或自動(dòng)化腳本,是互聯(lián)網(wǎng)關(guān)鍵技術(shù)之一。按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)細(xì)節(jié),可以將網(wǎng)絡(luò)爬蟲分為通用型網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲。[2]不同類型爬蟲在爬取范圍、運(yùn)算方式等方面各具特色,可以將多種協(xié)作方式和不同類型爬蟲結(jié)合,使其共同發(fā)揮作用。本研究中多層遞階工具適用于通用和聚焦爬蟲。筆者總結(jié)了網(wǎng)絡(luò)爬蟲的優(yōu)勢(shì),體現(xiàn)在以下三方面:
1.彌補(bǔ)傳統(tǒng)搜索引擎的不足
人們獲取資源的方式仍停留在依賴傳統(tǒng)的搜索引擎階段。傳統(tǒng)的通用搜索引擎作為輔助人們檢索獲取資源的工具成為用戶訪問萬維網(wǎng)的入口,使用普遍但存在一定的局限性:①不同領(lǐng)域用戶搜索后返回的結(jié)果往往包含大量無關(guān)內(nèi)容,無法滿足檢索需求;②通用搜索引擎對(duì)結(jié)構(gòu)化、信息密集的數(shù)據(jù)不敏感;③有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)資源之間的矛盾加深。對(duì)教師而言,處理好教育資源需求與“滯后”信息技術(shù)應(yīng)用能力之間的矛盾是信息化環(huán)境的必然要求。網(wǎng)絡(luò)爬蟲可以通過不同方式定向抓取多樣化有效數(shù)據(jù),彌補(bǔ)了傳統(tǒng)搜索引擎的諸多不足。
2.用海量數(shù)據(jù)得到價(jià)值信息
由于以往數(shù)據(jù)資源獲取受限,導(dǎo)致只能隨機(jī)抽樣采集數(shù)據(jù)達(dá)到“用最少數(shù)據(jù)得到最多信息”,而到了大數(shù)據(jù)時(shí)代,小數(shù)據(jù)時(shí)代的隨機(jī)抽樣已經(jīng)失去了原有的意義,隨之而來的“樣本=總體”的全數(shù)據(jù)模式受到廣泛認(rèn)同。[3]教師為適應(yīng)這種“讓數(shù)據(jù)發(fā)聲”新模式,必須克服傳統(tǒng)觀念的局限性,發(fā)展“用海量數(shù)據(jù)得到價(jià)值信息”的新思維,拓展其他符合現(xiàn)實(shí)性需求的技能。例如利用網(wǎng)絡(luò)爬蟲獲取海量數(shù)據(jù),使之具有更高使用價(jià)值,滿足作為基于“技術(shù)理性”之上的教學(xué)能手的需求。
3.避免獲取數(shù)據(jù)同數(shù)據(jù)分析和預(yù)測(cè)階段割裂
數(shù)據(jù)作為一種特殊資產(chǎn),并不會(huì)隨著使用而減少,相反,可以被不斷處理來增加價(jià)值。我們強(qiáng)調(diào)生成并不意味著否定預(yù)設(shè),教師需要獲取某主題數(shù)據(jù)資源時(shí),必須對(duì)爬取任務(wù)、數(shù)據(jù)分析和發(fā)現(xiàn)預(yù)測(cè)有一個(gè)清晰、理性的思考和安排,不能割裂相關(guān)階段的連接。在傳統(tǒng)教學(xué)中,教師已然習(xí)慣“拿來數(shù)據(jù)”,而不是實(shí)在地體驗(yàn)或感受數(shù)據(jù)從哪里來、到哪里去,為改變這種被動(dòng)狀態(tài),避免獲取數(shù)據(jù)同數(shù)據(jù)分析和預(yù)測(cè)階段割裂,掌握多層遞階爬蟲工具是一種可行之策。
三、運(yùn)用多層遞階爬蟲工具提升教師信息技術(shù)能力策略
1.多層遞階爬蟲工具的使用
2011年聯(lián)合國(guó)教科文組織創(chuàng)建了具有影響力的《教師信息和傳播技術(shù)能力標(biāo)準(zhǔn)》。歐洲組織根據(jù)教育發(fā)展現(xiàn)狀簡(jiǎn)化了該標(biāo)準(zhǔn),提出了符合歐洲實(shí)際特點(diǎn)的《eTQF教師信息技術(shù)能力框架》,包括四個(gè)一級(jí)指標(biāo)和十三個(gè)二級(jí)指標(biāo),其中,將教師的技術(shù)能力發(fā)展水平分為入門工具、基本工具、普適工具、復(fù)雜工具四個(gè)階段。[4]這種劃分適應(yīng)了教師能力發(fā)展規(guī)律,也為各種技術(shù)工具的層級(jí)分類提供了參照。爬蟲工具作為爬蟲技術(shù)(基于Python)在實(shí)踐探索中的主要適應(yīng)性措施,在資源獲取與管理中占據(jù)著重要地位。結(jié)合網(wǎng)絡(luò)爬蟲的實(shí)際應(yīng)用特點(diǎn),筆者將入門工具、基本工具、普適工具、復(fù)雜工具統(tǒng)稱為“多層遞階爬蟲工具”,體現(xiàn)爬蟲技術(shù)能力發(fā)展的四種層次階段,具體如圖1所示。每層級(jí)工具之間過渡特征明顯,總體呈梯度上升,又都對(duì)教師信息技術(shù)能力提升有影響,且影響維度具有一致性。
在爬蟲技術(shù)能力發(fā)展中,入門工具主要指獲取和管理定向規(guī)模數(shù)據(jù),適合做教師學(xué)習(xí)入口,屬于輕量級(jí)的爬蟲;基本工具是指教師掌握一定的運(yùn)用技巧,熟悉各種下載與解析方法的特點(diǎn),以“通用爬蟲框架”為解決問題的利器;普適工具是借助于“已造輪子”——造數(shù)等新一代智能云爬蟲工具來快速地尋找并獲取資源;復(fù)雜工具是以重量級(jí)爬蟲——Scrapy框架為代表,它的應(yīng)用已到達(dá)爬蟲技能的高度發(fā)展水平,教師能適時(shí)適需修改編寫各組件內(nèi)容以適應(yīng)特殊主題或滿足具體情境的需要。各層級(jí)爬蟲工具的方法指導(dǎo)如表1所示。核心思想都是按照“發(fā)送請(qǐng)求—獲得頁(yè)面—解析頁(yè)面—抽取并存儲(chǔ)內(nèi)容”的流程進(jìn)行,體現(xiàn)了比較完整的工具鏈。在由淺入深、由簡(jiǎn)單到復(fù)雜的循序漸進(jìn)過程中,各級(jí)工具之間的過渡特征明顯,表現(xiàn)為:①入門到基本工具的通用化,即將解析與翻頁(yè)的過程抽象成具有特定功能、可重用的函數(shù),以此為通用模板實(shí)現(xiàn)代碼復(fù)用;②基本到普適工具的智能化,即運(yùn)用已搭建平臺(tái)持續(xù)積累數(shù)據(jù)資源、智能挖掘結(jié)構(gòu)化數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)價(jià)值;③普適到復(fù)雜工具的工程化,即通過各種組件的模塊化來增強(qiáng)爬蟲性能。當(dāng)然,具體問題具體分析,比如教師結(jié)合性能、使用難度、安裝難度三方面特征選擇合適的解析方法,Xpath性能快,使用較復(fù)雜,安裝相對(duì)困難,一般通過下載與計(jì)算機(jī)版本匹配的whl文件形式進(jìn)行安裝,過程雖復(fù)雜但不會(huì)出現(xiàn)錯(cuò)誤。
2.提升教師信息技術(shù)能力策略
不同階段爬蟲工具使用難度和實(shí)現(xiàn)細(xì)節(jié)有差異,但都有助于提升教師的信息技術(shù)應(yīng)用能力。從教師工作角度來探討,其主要體現(xiàn)在教學(xué)、學(xué)習(xí)方式和專業(yè)發(fā)展三方面,這與《能力標(biāo)準(zhǔn)》中強(qiáng)調(diào)的內(nèi)容相符合。
(1)“內(nèi)容開發(fā)+活動(dòng)組織”改進(jìn)課堂教學(xué)
在教學(xué)方面,爬蟲作為一項(xiàng)出現(xiàn)較早但近幾年才被廣泛熟知的技術(shù),若合理融入到教師的教育工作中,不僅能夠通過提高技術(shù)攝入量來提升教師的技術(shù)素養(yǎng),它所爬取的優(yōu)質(zhì)資源還可作為開發(fā)教學(xué)內(nèi)容的重要補(bǔ)充、組織教學(xué)活動(dòng)的基本線索。從生成的角度來講,教師首先將所獲取初始、凌亂、孤立的大規(guī)模數(shù)據(jù)整理分析形成自身的理解,其次對(duì)數(shù)據(jù)分析結(jié)果的意義形成自身的解讀,再次對(duì)爬取數(shù)據(jù)的分析結(jié)論內(nèi)容重新組合,形成新的知識(shí)整體(即具有新的模式或結(jié)構(gòu)的知識(shí))。在這種遞進(jìn)過程中,可以開發(fā)挖掘和合理利用豐富的資源成果,著眼知識(shí)整體的基礎(chǔ)上做適當(dāng)擴(kuò)展,從而為學(xué)生提供感受不同知識(shí)間內(nèi)在關(guān)聯(lián)的機(jī)會(huì)和活動(dòng)情境,使課堂變得生機(jī)勃勃,提升了教師教育教學(xué)能力。同時(shí),也極易引發(fā)知識(shí)創(chuàng)新,從而影響教育活動(dòng)組織,為信息化教學(xué)創(chuàng)造無限可能性。
(2)“合作共享+自主探索”創(chuàng)新學(xué)習(xí)方式
教師作為“自強(qiáng)標(biāo)兵”,其信息技術(shù)應(yīng)用能力不能僅局限于計(jì)算機(jī)等硬件設(shè)備和一些基礎(chǔ)性的簡(jiǎn)單操作,如Word文檔、PPT課件,有必要發(fā)展適應(yīng)性技能。教師根據(jù)需要選擇合適的爬蟲方法,獲取雜亂的大規(guī)模數(shù)據(jù)并處理,并轉(zhuǎn)化為個(gè)人知識(shí)進(jìn)一步加工,從而由知識(shí)的“容器”轉(zhuǎn)變?yōu)橹R(shí)的“發(fā)生器”,培養(yǎng)了自主學(xué)習(xí)能力,并樂于分享加工成果,形成合作共享、自主探索的學(xué)習(xí)方式。這樣既在合作交流中發(fā)揮集體智慧、增強(qiáng)凝聚力,又在多元化和全面性中提升自己的信息素養(yǎng),使教師能夠體驗(yàn)到自主學(xué)習(xí)帶來的喜悅和成就感。除此之外,也為學(xué)生樹立了榜樣作用,啟迪學(xué)生以教師掌握的技術(shù)手段為模范,嘗試性地進(jìn)行爬蟲技術(shù)的應(yīng)用,逐漸適應(yīng)自主檢索和獲取學(xué)習(xí)資源的過程,使自己的學(xué)習(xí)方式不再單一,更加靈活方便,促進(jìn)學(xué)習(xí)的良性循環(huán)。
(3)“群體建設(shè)+自我反思”共促專業(yè)發(fā)展
教師的專業(yè)內(nèi)涵并不是封閉、靜態(tài)、一勞永逸的,需要經(jīng)常對(duì)專業(yè)知識(shí)和內(nèi)容進(jìn)行動(dòng)態(tài)更新,這就對(duì)教師信息技術(shù)能力提出了新要求。教師利用爬蟲技術(shù)手段整合多方資源,經(jīng)處理與分析后作為知識(shí)深化的重要渠道,可以應(yīng)用于解決現(xiàn)實(shí)復(fù)雜問題,循序漸進(jìn)增長(zhǎng)專業(yè)知識(shí),并在此基礎(chǔ)上對(duì)專業(yè)發(fā)展進(jìn)行再認(rèn)識(shí)、再思考,然后通過反思這種理性智慧,對(duì)自己的教育觀念和專業(yè)內(nèi)涵進(jìn)行客觀、理性的認(rèn)識(shí)和判斷,形成對(duì)現(xiàn)象和問題的獨(dú)立思考和創(chuàng)造性見解。當(dāng)然,知識(shí)的獲取與存儲(chǔ)不是目的,知識(shí)的創(chuàng)新與分享才是目的。單個(gè)教師積極尋找新內(nèi)容和新策略解決所面臨的專業(yè)問題,分享從爬蟲中受益的成果,這容易產(chǎn)生“群體影響”,使教師的角色定位從“知識(shí)傳授者”向“研究者”轉(zhuǎn)變,進(jìn)而改善社會(huì)形象,有利于建設(shè)新型教師隊(duì)伍,增強(qiáng)主動(dòng)運(yùn)用信息技術(shù)促進(jìn)專業(yè)發(fā)展的意識(shí),從而使教師工作獲得生命力,改變職業(yè)生存方式,增強(qiáng)職業(yè)競(jìng)爭(zhēng)力。
信息技術(shù)能力提升是教師繼續(xù)學(xué)習(xí)的重要表現(xiàn)。教師借助多層遞階爬蟲工具“玩轉(zhuǎn)數(shù)據(jù)”,高效獲取、加工、管理“個(gè)性資源”,促進(jìn)專業(yè)成長(zhǎng)和信息技術(shù)能力提升。當(dāng)然,網(wǎng)絡(luò)爬蟲仍然面臨著很多的挑戰(zhàn),例如網(wǎng)頁(yè)鏈接之間的復(fù)雜關(guān)系,這就需要在不斷發(fā)現(xiàn)問題的過程中解決問題,逐步完善爬蟲程序和工具,從而為教師提供精準(zhǔn)高效的途徑,促進(jìn)教師信息技術(shù)應(yīng)用能力的發(fā)展。
參考文獻(xiàn):
[1]教師廳[2014]3號(hào).全國(guó)中小學(xué)教師信息技術(shù)應(yīng)用能力標(biāo)準(zhǔn)(試行)[S].
[2]劉鑫.網(wǎng)絡(luò)爬蟲在信息檢索中的研究與應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2017(5):95-97.
[3]金陵.大數(shù)據(jù)與信息化教學(xué)變革[J].中國(guó)電化教育,2013(10):8-13.
[4]eTQF Teacher ICT Competency Framework [DB/OL].http://etqfproject.ning.com/,2014-05-02.
(編輯:魯利瑞)