面向高校教育新聞的聚焦爬蟲設計

2015-05-30 16:45:49汪龍飛

中國新通信 2015年23期

汪龍飛

【摘要】介紹利用聚焦爬蟲獲取高校教育新聞的方法。首先介紹聚焦爬蟲的工作原理和相關技術，然后介紹如何利用這些原理和技術獲取高校教育新聞。

【關鍵詞】聚焦爬蟲移動互聯(lián)網(wǎng)

一、引言

聚焦爬蟲（又稱為網(wǎng)頁蜘蛛、網(wǎng)絡機器人）是一種按照一定的規(guī)則、自動地抓取萬維網(wǎng)信息的程序或者腳本。隨著網(wǎng)絡的迅速發(fā)展，萬維網(wǎng)成為大量信息的載體，如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎（Search Engine），作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是，這些通用性搜索引擎也存在著一定的局限性，如：（1）不同領域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎所返回的結果包含大量用戶不關心的網(wǎng)頁。（2）通用搜索引擎的目標是盡可能大的網(wǎng)絡覆蓋率，有限的搜索引擎服務器資源與無限的網(wǎng)絡數(shù)據(jù)資源之間的矛盾將進一步加深。（3）萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡技術的不斷發(fā)展，圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn)，通用搜索引擎往往對這些信息含量密集且具有一定結構的數(shù)據(jù)無能為力，不能很好地發(fā)現(xiàn)和獲取。（4）通用搜索引擎大多提供基于關鍵字的檢索，難以支持根據(jù)語義信息提出的查詢。

為了解決上述問題，定向抓取相關網(wǎng)頁資源的聚焦爬蟲應運而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序，它根據(jù)既定的抓取目標，有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關的鏈接，獲取所需要的信息。與通用爬蟲（general purpose web crawler）不同，聚焦爬蟲并不追求大的覆蓋，而將目標定為抓取與某一特定主題內(nèi)容相關的網(wǎng)頁，為面向主題的用戶查詢準備數(shù)據(jù)資源。CollegeNews系統(tǒng)是一套包含高校教育類新聞獲取、相應數(shù)據(jù)庫建立以及移動端軟件應用的系統(tǒng)。在整套系統(tǒng)中，如何獲取與主題相關的新聞網(wǎng)頁數(shù)據(jù)是至關重要的一個部分，該部分由聚焦爬蟲程序予以實現(xiàn)。

二、聚焦爬蟲簡介

網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序，它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復雜，需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊列。然后，它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL，并重復上述過程，直到達到系統(tǒng)的某一條件時停止。另外，所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯，進行一定的分析、過濾，并建立索引，以便之后的查詢和檢索；對于聚焦爬蟲來說，這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。

相對于通用網(wǎng)絡爬蟲，聚焦爬蟲還需要解決三個主要問題：（1）對抓取目標的描述或定義；（2）對網(wǎng)頁或數(shù)據(jù)的分析與過濾；（3）對URL的搜索策略。

抓取目標的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務形式和爬蟲網(wǎng)頁抓取行為的關鍵所在。這兩個部分的算法又是緊密相關的。

三、聚焦爬蟲在獲取高校教育新聞中的應用

在CollegeNews系統(tǒng)中，所有的數(shù)據(jù)來源均為高校教育類新聞，因此聚焦爬蟲的功能即為從互聯(lián)網(wǎng)上獲取與高校相關的新聞，并將相關內(nèi)容存入系統(tǒng)的數(shù)據(jù)庫中。用戶在使用高校新聞應用時，客戶端向系統(tǒng)的服務器發(fā)送相關的請求，系統(tǒng)服務器返回所請求新聞的URL，由客戶端對相應的URL進行解析，從而獲取相關的新聞資訊。通過使用聚焦爬蟲獲取高校新聞的原始數(shù)據(jù)，可以避免傳統(tǒng)爬蟲爬取網(wǎng)頁所帶來的獲取內(nèi)容不符合所需主題、獲取到的無用處的內(nèi)容量過大的問題，對于處理能力較弱的系統(tǒng)來說很有益處。

3.1 需要解決的問題

若想讓聚焦爬蟲完成其功能，首先需要確定合適的種子URL集合，爬蟲自種子URL開始按照一定的搜索策略進行網(wǎng)頁爬取，在網(wǎng)頁爬取的過程中，需要提前確定待爬取頁面與所需主題的相關程度與重要性，依據(jù)相關度和重要性決定是否爬取該網(wǎng)頁。最后，還需要解決數(shù)據(jù)的更新周期問題，保證數(shù)據(jù)源的新鮮程度。在解決了上述問題之后，用戶即可獲取合適的新聞數(shù)據(jù)。

3.2 確定合適的種子URL集合

在聚焦爬蟲的算法設計中，種子URL集合的選取是十分重要的一環(huán)。如果選取的種子URL集合不合適，可能會導致程序爬取大量與主題無關的數(shù)據(jù)，造成系統(tǒng)資源的浪費。

在CollegeNews系統(tǒng)中，為了充分保證系統(tǒng)的運行效率，即盡量避免爬取非高校教育新聞的網(wǎng)頁，在構建種子URL集合時，采用使用指定起始網(wǎng)頁的方式，選擇了各類高校及相關新聞的入口地址作為起始網(wǎng)頁，從而確保了初始網(wǎng)頁的

在爬蟲運行的過程中，另一個重要的問題是如何去除已經(jīng)獲取過的重復頁面。該問題又可以分解為兩個部分：一是在某次爬蟲程序運行的過程中，如何去除本次運行已經(jīng)獲取過的頁面；二是在某次爬蟲程序運行的過程中，如何去除過往運行后已經(jīng)獲取過的頁面。針對第一個問題，本系統(tǒng)在每次爬蟲程序運行時，都會將已經(jīng)爬取過的網(wǎng)頁和尚未爬取的網(wǎng)頁分別存在兩個哈希表中，聚焦爬蟲每爬取一個網(wǎng)頁，會先比較該網(wǎng)頁是否存在于已經(jīng)爬取網(wǎng)頁的哈希表中，若不存在，則進行爬取操作。操作完成后，將該網(wǎng)頁從尚未爬取網(wǎng)頁的哈希表中刪除，同時添加到已經(jīng)爬取網(wǎng)頁的哈希表中。針對第二個問題，本系統(tǒng)在每次運行爬蟲程序時會預先設定一個閾值，同時爬蟲程序中也會設定一個初始的計數(shù)值為0。每當爬蟲程序向數(shù)據(jù)庫中添加一條新數(shù)據(jù)，若數(shù)據(jù)庫返回重復信息，則將計數(shù)值加一。若下一個網(wǎng)頁不是重復網(wǎng)頁，則將計數(shù)值清零。直到計數(shù)值大于閾值后，認定所有新網(wǎng)頁已經(jīng)獲取完畢，結束本次爬取。

3.3 網(wǎng)頁搜索策略

一般而言，爬蟲程序的網(wǎng)頁搜索策略可以分為以下三種：深度優(yōu)先搜索、廣度優(yōu)先搜索和最佳優(yōu)先搜索。本系統(tǒng)的搜索策略充分考慮了新聞類網(wǎng)站的結構特點，使用了深度優(yōu)先與最佳優(yōu)先相結合的搜索方法。

如前所述，本系統(tǒng)爬蟲程序的起始地址為各類高校及相關新聞的入口地址，以此實現(xiàn)局部最優(yōu)效果。由于絕大部分新聞類網(wǎng)站的結構為目錄式結構，即網(wǎng)站由若干頁面（目錄）組成，每個頁面含有若干條新聞的超鏈接（項）。因此，本系統(tǒng)的爬蟲程序首先由起始地址獲取到該網(wǎng)站的目錄，此后再依次對每個目錄進行解析，獲取該目錄的所有項。按此流程進行網(wǎng)頁爬取后，即可獲得所需的新聞數(shù)據(jù)。

3.4 數(shù)據(jù)庫更新頻率

由于新聞具有一定的時效性，因此爬蟲程序需要不斷對網(wǎng)站進行掃描，將新增的網(wǎng)頁加入數(shù)據(jù)庫中。因為教育類新聞的時效性并沒有要點新聞或天氣預報那么強，因此CollegeNews系統(tǒng)在對數(shù)據(jù)庫進行數(shù)據(jù)更新時，充分考慮了教育新聞的這一特點，并未將更新頻率設計得過快，避免給服務器和網(wǎng)絡帶寬帶來太大的壓力。本系統(tǒng)以一定的頻率對種子URL集合中的網(wǎng)站起始地址進行檢查，若掃描到新發(fā)布的新聞，則繼續(xù)聚焦爬蟲程序，將新增的網(wǎng)頁添加到數(shù)據(jù)庫中；否則，中斷本次掃描，等待下一次檢查。

四、總結

CollegeNews系統(tǒng)將聚焦爬蟲技術與高校教育類新聞應用將結合，實現(xiàn)了獲取相關主題新聞時，將系統(tǒng)運行效率與數(shù)據(jù)獲取準確性相結合的目的，具有較高的實用價值。