馬慶祥
(重慶工商職業(yè)學院 重慶 401520)
隨著互聯(lián)網的飛速發(fā)展,各個行業(yè)產生了海量的數(shù)據(jù)信息。傳統(tǒng)以處理器為中心的數(shù)據(jù)采集方法,由于其存儲、管理的數(shù)據(jù)量相對較小,并不能很好地進行龐大數(shù)據(jù)的采集,而網絡爬蟲的出現(xiàn),使這一難題得以解決,能夠實現(xiàn)對各種來源數(shù)據(jù)的采集,從而減輕了數(shù)據(jù)采集人員的工作量,提高了抽取網頁數(shù)據(jù)的效率。本文是以《網絡爬蟲》中的部分典型工作案例為研究對象,實踐并探討了如何將思政元素合理有效地融合進該課程之中,以求幫助大數(shù)據(jù)相關專業(yè)任課教師找到更多專業(yè)課程與思政元素融合的思路和方法。
《網絡爬蟲》是高職院校大數(shù)據(jù)技術與應用專業(yè)、軟件技術等專業(yè)的一門重要的專業(yè)課程。課程教學對象是大二學生,學生已經具有一定的大數(shù)據(jù)相關理論的基礎和網絡爬蟲相關應用技術的基礎。《網絡爬蟲》的主要內容包括數(shù)據(jù)采集的基本概念和基礎理論知識、網絡爬蟲的主要采集方法和手段、網絡爬蟲的應用領域和前沿知識等。
為了積極響應國家、教育部在構建全員、全程、全方位育人格局的形態(tài)。并將思想政治理論教育融合到專業(yè)課程教學中去,形成真正意思上的協(xié)同效應。把“立德樹人”作為教育的根本任務進行課程開發(fā)與教育教學,是目前理工類專業(yè),尤其是信息化學科方向的相關專業(yè)在課程教學改革方面研究并探索的重點領域。
以本系列課程中,“爬取網頁數(shù)據(jù)并將結果保存到指定文件”典型工作案例為研究對象,先進行教學目標分析。
知識目標:了解什么是XPath,掌握XPath環(huán)境的安裝,重點掌握XPath基本語法,理解掌握正則表達式的概念,能熟練應用正則表達式的基本語法,理解正則表達式的匹配原則。
技能目標:能夠熟練構造lxml,使用XPath進行網頁數(shù)據(jù)的提取,掌握使用正則表達式爬取網頁信息并拆分網頁信息。
《全國高校思想政治工作網》是高等教育出版社主辦,教育部主管,教育部思政司指導的全國高校思政工作的資源集散庫、思想文化策源地和宣傳輿論風向標平臺。學生在進行專業(yè)課學習的同時,兼顧接受思想政治內容的熏陶。通過《全國高校思想政治工作網》的示范引導、輻射帶動作用,讓學生在使用爬蟲技術對其進行數(shù)據(jù)抽取的每個環(huán)節(jié)中進行正向信息的獲取、正確輿論的吸收和符合時代主旋律的節(jié)奏同步!同時,學生在獲取數(shù)據(jù)后,可利用前端技術、網頁開發(fā)技術或移動開發(fā)技術,將獲取到的信息、數(shù)據(jù),以網頁、微信公眾號、小程序等形式進行二次發(fā)布和展示。既起到了弘揚思政正能量的作用、又起到了技術經驗交流、資源納集、技術服務訓練等拓展學習實踐的目的[1]。
本次選取爬取的對象網頁為全國高校思想政治工作網首頁:
https://www.sizhengwang.cn/,具體采集抽取的內容為首頁中導航模塊中的文字內容。
圖1:《全國高校思想政治工作網》首頁導航模塊
具體采集方法如下:
第一步,為谷歌瀏覽器安裝XPath-Helper插件
圖2:已安裝XPath-Helper插件的Chrome瀏覽器
第二步,使用XPath-Helper將導航模塊中的具體文字內容進行定位抽取
圖3:使用XPath-Helper進行目標數(shù)據(jù)的標簽定位
第三步,抽取出目標數(shù)據(jù),并將數(shù)據(jù)保存到指定的文件中去。
圖4:抽取并保存數(shù)據(jù)
圖5:具體代碼實現(xiàn)
將《網絡爬蟲》這門專業(yè)課程內容和“思政元素”有機結合,可在一定意義上升華教學的目的和意義。讓學生貼近時代主旋律并利用技術手段和工具方法,創(chuàng)造價值,實現(xiàn)自我提升,這是一件利在當代,功在千秋的好事。授課教師可以通過案例研討法、讀書指導法、操作示范法、探索講授法、網絡教學法等多種教學形式,促進學生的全程參與和自主探索,在潛移默化中將社會主義核心價值觀植入當代青年學生的骨髓與血液[2]。