開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)在垂直搜索引擎應(yīng)用

2015-05-30 16:14:34劉偉光

智能計(jì)算機(jī)與應(yīng)用 2015年4期

[摘要]分析了聚焦爬蟲(chóng)的工作原理和關(guān)鍵技術(shù)，對(duì)幾種開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)的功能特點(diǎn)和使用范圍進(jìn)行比較，而后通過(guò)改造Heritrix軟件的關(guān)鍵模塊和功能接口，以抓取中國(guó)西藏網(wǎng)新聞為例，實(shí)現(xiàn)了開(kāi)源爬蟲(chóng)軟件在垂直搜索的應(yīng)用。

[關(guān)鍵詞]垂直搜索；聚焦爬蟲(chóng)；Heritrix

[中圖分類(lèi)號(hào)]TP393 [文獻(xiàn)標(biāo)志碼] A

Application of the Open-Source Web Crawler on Vertical Search Engine

Liu Weiguang

（1.Library of Xizang Minzu University ， Xianyang Shanxi 712082，China）

Abstract： The thesis analyzes the working principle and key technology for focused crawler， and compares the characteristics function and use range for several kinds of open-source web crawler. After that， through modifying heritrix software module and function interface， the open-source web crawler has been applied in vertical search engine to test Chinese Tibet news Web as an example .

Key words： Vertical Search Engine； Focused Crawler； Heritrix

0 引言

在信息化時(shí)代，針對(duì)通用搜索引擎信息量大、查詢(xún)準(zhǔn)度和深度兼差等缺點(diǎn)，垂直搜索引擎已進(jìn)入了用戶(hù)認(rèn)可和使用周期。垂直搜索是針對(duì)某一個(gè)行業(yè)的專(zhuān)業(yè)搜索引擎，是對(duì)網(wǎng)頁(yè)庫(kù)中的某類(lèi)專(zhuān)門(mén)的信息進(jìn)行一次整合，定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶(hù)[1]。相比通用搜索引擎則顯得更加專(zhuān)注、具體和深入。目前，垂直搜索引擎多用于行業(yè)信息獲取和特色語(yǔ)料庫(kù)建設(shè)等方面，且已卓見(jiàn)現(xiàn)實(shí)深遠(yuǎn)成效。

網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取和自動(dòng)下載網(wǎng)頁(yè)的程序，可為搜索引擎從互聯(lián)網(wǎng)上下載網(wǎng)頁(yè)，并根據(jù)既定的抓取目標(biāo)，有選擇地訪(fǎng)問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接，獲取所需要的信息。按照功能用途，網(wǎng)絡(luò)爬蟲(chóng)分為通用爬蟲(chóng)和聚焦爬蟲(chóng)，這是搜索引擎一個(gè)核心組成部分。

1聚焦爬蟲(chóng)的工作原理及關(guān)鍵技術(shù)分析

1.1聚焦爬蟲(chóng)的工作原理

聚焦爬蟲(chóng)是專(zhuān)門(mén)為查詢(xún)某一主題而設(shè)計(jì)的網(wǎng)頁(yè)采集工具，并不追求大范圍覆蓋，而是將目標(biāo)預(yù)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè)，如此即為面向主題的用戶(hù)查詢(xún)準(zhǔn)備數(shù)據(jù)資源。垂直搜索引擎可利用其實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)主題信息的挖掘以及發(fā)現(xiàn)，聚焦爬蟲(chóng)的工作原理是：

（1）爬蟲(chóng)從一個(gè)或若干起始網(wǎng)頁(yè) URL 鏈接開(kāi)始工作；

（2）通過(guò)特定的主題相關(guān)性算法判斷并過(guò)濾掉與主題無(wú)關(guān)的鏈接；

（3）將有用鏈接加入待抓取的URL隊(duì)列；

（4）根據(jù)一定的搜索策略從待抓取 URL 隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè) URL；

重復(fù)以上步驟，直至滿(mǎn)足退出條件時(shí)停止[2]。

1.2聚焦爬蟲(chóng)的幾個(gè)關(guān)鍵技術(shù)

根據(jù)聚焦爬蟲(chóng)的工作原理，在設(shè)計(jì)聚焦爬蟲(chóng)時(shí)，需要考慮問(wèn)題可做如下論述。

1.2.1 待抓取網(wǎng)站目標(biāo)的定義與描述的問(wèn)題

開(kāi)發(fā)聚焦爬蟲(chóng)時(shí)，應(yīng)考慮對(duì)于抓取目標(biāo)的定義與描述，究竟是帶有目標(biāo)網(wǎng)頁(yè)特征的網(wǎng)頁(yè)級(jí)信息，還是針對(duì)目標(biāo)網(wǎng)頁(yè)上的結(jié)構(gòu)化數(shù)據(jù)。前者因其具有結(jié)構(gòu)化的數(shù)據(jù)信息特征，在爬蟲(chóng)抓取信息后，還需從結(jié)構(gòu)化的網(wǎng)頁(yè)中抽取相關(guān)信息；而對(duì)于后者，爬蟲(chóng)則直接解析Web 頁(yè)面，提取并加工相關(guān)的結(jié)構(gòu)化數(shù)據(jù)信息，該類(lèi)爬蟲(chóng)便于定制自適應(yīng)于特定網(wǎng)頁(yè)模板的結(jié)果網(wǎng)站。

1.2.2 爬蟲(chóng)的URL搜索策略問(wèn)題

開(kāi)發(fā)聚焦爬蟲(chóng)時(shí)，常見(jiàn)的URL搜索策略主要包括深度優(yōu)先搜索策略、廣度優(yōu)先搜索策略、最佳優(yōu)先搜索策略等[3]。在此給出對(duì)應(yīng)策略的規(guī)則分析如下。

（1）深度優(yōu)先搜索策略

該搜索策略采用了后進(jìn)先出的隊(duì)列方式，從起始 URL 出發(fā)，不停搜索網(wǎng)頁(yè)的下一級(jí)頁(yè)面直至最后無(wú) URL 鏈接的網(wǎng)頁(yè)頁(yè)面結(jié)束；爬蟲(chóng)再回到起始 URL地址，繼續(xù)探尋 URL的其它URL 鏈接，直到不再有 URL 可搜索為止，當(dāng)所有頁(yè)面都結(jié)束時(shí)，URL列表即按照倒敘的方式將搜索的URL隊(duì)列送入爬蟲(chóng)待抓取隊(duì)列。

（2）廣度優(yōu)先搜索策略

該搜索策略采用了先進(jìn)先出的隊(duì)列方式，從起始 URL 出發(fā)，在搜索了初始web的所有URL 鏈接后，再繼續(xù)搜索下一層 URL 鏈接，直至所有URL搜索完畢。URL列表將按照其進(jìn)入隊(duì)列的順序送入爬蟲(chóng)待抓取隊(duì)列。

（3）最佳優(yōu)先搜索策略

該搜索策略采用了一種局部?jī)?yōu)先搜索算法，從起始 URL 出發(fā)，按照一定的分析算法，對(duì)頁(yè)面候選的URL進(jìn)行預(yù)測(cè)，預(yù)測(cè)目標(biāo)網(wǎng)頁(yè)的相似度或主題相關(guān)性，當(dāng)相關(guān)性達(dá)到一定的閾值后，URL列表則按照相關(guān)數(shù)值高低順序送入爬蟲(chóng)待抓取隊(duì)列。

1.2.3 爬蟲(chóng)對(duì)網(wǎng)頁(yè)頁(yè)面的分析和主題相關(guān)性判斷算法

聚焦爬蟲(chóng)在對(duì)網(wǎng)頁(yè)Web的URL進(jìn)行擴(kuò)展時(shí)，還需要對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分析和信息的提取，用以確定該獲取URL頁(yè)面是否與采集的主題相關(guān)。目前常用的網(wǎng)頁(yè)的分析算法包括：基于網(wǎng)絡(luò)拓?fù)洹⒒诰W(wǎng)頁(yè)內(nèi)容和基于領(lǐng)域概念的分析算法[4]。下面給出這三類(lèi)算法的原理實(shí)現(xiàn)。

（1）基于網(wǎng)絡(luò)拓?fù)潢P(guān)系的分析算法

基于網(wǎng)絡(luò)拓?fù)潢P(guān)系的分析算法就是可以通過(guò)已知的網(wǎng)頁(yè)頁(yè)面或數(shù)據(jù)，對(duì)與其有直接或間接鏈接關(guān)系的對(duì)象作出評(píng)價(jià)的實(shí)現(xiàn)過(guò)程。該算法又分為網(wǎng)頁(yè)粒度、網(wǎng)站粒度和網(wǎng)頁(yè)塊粒度三種。著名的PageRank和HITS算法就是基于網(wǎng)絡(luò)拓?fù)潢P(guān)系的典型代表。

（2）基于網(wǎng)頁(yè)內(nèi)容的分析算法

基于網(wǎng)頁(yè)內(nèi)容的分析算法指的是利用網(wǎng)頁(yè)內(nèi)容（文本、數(shù)據(jù)等資源）特征進(jìn)行的網(wǎng)頁(yè)評(píng)價(jià)。該方法已從最初的文本檢索方法，向網(wǎng)頁(yè)數(shù)據(jù)抽取、數(shù)據(jù)挖掘和自然語(yǔ)言等多領(lǐng)域方向發(fā)展。

（3）基于領(lǐng)域概念的分析算法

基于領(lǐng)域概念的分析算法則是將領(lǐng)域本體分解為由不同的概念、實(shí)體及其之間的關(guān)系，包括與之對(duì)應(yīng)的詞匯項(xiàng)組成。網(wǎng)頁(yè)中的關(guān)鍵詞在通過(guò)與領(lǐng)域本體對(duì)應(yīng)的詞典分別轉(zhuǎn)換之后，將進(jìn)行計(jì)數(shù)和加權(quán)，由此得出與所選領(lǐng)域的相關(guān)度。

2幾種開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)性能比較

目前，互聯(lián)網(wǎng)上推出有許多的開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)，易于開(kāi)發(fā)和擴(kuò)展的主要包括Nutch、Larbin、Heritrix等，下面即針對(duì)這三類(lèi)爬蟲(chóng)進(jìn)行實(shí)用性?xún)?nèi)容介紹[5]：

（1）Heritrix 是Java 開(kāi)發(fā)的開(kāi)源 Web 爬蟲(chóng)系統(tǒng)，是Internet Archive 的一個(gè)爬蟲(chóng)項(xiàng)目。這是開(kāi)源、可擴(kuò)展、Web范圍內(nèi)并帶有存檔性質(zhì)的網(wǎng)絡(luò)爬蟲(chóng)。該系統(tǒng)允許用戶(hù)選擇擴(kuò)展各個(gè)組件，進(jìn)而實(shí)現(xiàn)自定的抓取邏輯。Heritrix默認(rèn)提供的組件能夠完成通用爬蟲(chóng)的功能，用戶(hù)即可根據(jù)實(shí)際需求定制相應(yīng)模塊，也可實(shí)現(xiàn)聚焦爬蟲(chóng)的功能。

（2）Larbin是一種由C++開(kāi)發(fā)的開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)，larbin能夠跟蹤頁(yè)面的URL進(jìn)行擴(kuò)展的抓取，從而為搜索引擎提供廣泛的數(shù)據(jù)來(lái)源。該程序由法國(guó)人 Sébastien Ailleret獨(dú)立開(kāi)發(fā)，只是2003年后，Labin已退出了更新。

（3）Nutch是Apache的子項(xiàng)目之一，且是Lucene下的子項(xiàng)目，重點(diǎn)是其中自己提供了搜索引擎所需的全部工具，當(dāng)然，Nutch只獲取并保存可索引的內(nèi)容，卻無(wú)法保持抓取網(wǎng)頁(yè)原貌。

在此，研究可得三種開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)的功能特點(diǎn)和使用范圍比較，具體如表1所示。

表1 三種開(kāi)源爬蟲(chóng)功能特點(diǎn)的和使用范圍

Tab.1 Function characteristics and use range of three types of open source crawlers

名稱(chēng) 使用平臺(tái) 開(kāi)發(fā)語(yǔ)言效率鏡像

保存分布抓取功能

單一優(yōu)點(diǎn) 缺點(diǎn)

Heritrix Windows/ Linux Java 中是否是高可擴(kuò)展性，性能穩(wěn)定，對(duì)抓取的控制性功能齊全。對(duì)中文支持較差，容錯(cuò)性機(jī)制差。

Larbin Linux C++ 高是否是爬蟲(chóng)性能好，穩(wěn)定性強(qiáng)。沒(méi)有刪除功能，排重可能誤判。

Nutch Windows/ Linux Java 低否是否爬蟲(chóng)和Lucene及Hadoop的結(jié)合很好，便于開(kāi)發(fā)搜索引擎。系統(tǒng)不穩(wěn)定。

通過(guò)如上內(nèi)容分析，可以得出以下結(jié)論：

（1）從功能方面來(lái)說(shuō)，Heritrix與Larbin的功能類(lèi)似，都是一個(gè)純粹的網(wǎng)絡(luò)爬蟲(chóng)，提供網(wǎng)站的鏡像下載。Nutch則是一個(gè)網(wǎng)絡(luò)搜索引擎框架，爬取網(wǎng)頁(yè)只是其功能的一部分。

（2）從分布式處理來(lái)說(shuō)，Nutch支持分布式處理，而其它兩個(gè)尚不支持。

（3）從爬取的網(wǎng)頁(yè)存儲(chǔ)方式來(lái)說(shuō)，Heritrix和 Larbin都是將爬取所獲內(nèi)容保存為原始類(lèi)型的內(nèi)容。而Nutch是將內(nèi)容保存到其特定格式中去。

（4）對(duì)于爬取所獲內(nèi)容的處理來(lái)說(shuō)，Heritrix和 Larbin都是將爬取后的結(jié)果內(nèi)容不經(jīng)處理直接保存為原始內(nèi)容。而Nutch卻將對(duì)文本進(jìn)行包括鏈接分析、正文提取、建立索引等深層處理。

（5）從爬取的效率來(lái)說(shuō)，Larbin效率較高，因?yàn)槠鋵?shí)現(xiàn)語(yǔ)言是c++并且功能相對(duì)單一，但是該程序缺乏必要的更新服務(wù)。

在進(jìn)行了有關(guān)軟件的擴(kuò)展性、鏡像保存方式及軟件更新等方面因素的綜合分析比對(duì)后，本文將擇取并利用Heritrix開(kāi)源軟件來(lái)實(shí)現(xiàn)聚焦爬蟲(chóng)的設(shè)計(jì)。

3 基于Heritrix軟件聚焦爬蟲(chóng)的設(shè)計(jì)

在利用開(kāi)源Heritrix軟件進(jìn)行聚焦爬蟲(chóng)設(shè)計(jì)時(shí)，以中國(guó)西藏網(wǎng)http：//tb.tibet.cn/為例，針對(duì)有目標(biāo)網(wǎng)頁(yè)特征的網(wǎng)頁(yè)級(jí)信息配置正則表達(dá)式，采用深度優(yōu)先搜索策略進(jìn)行URL擴(kuò)展，利用網(wǎng)頁(yè)內(nèi)容關(guān)于“主題相關(guān)度”[6]的分析算法進(jìn)行主題判斷，實(shí)現(xiàn)聚焦爬蟲(chóng)的網(wǎng)站采集功能。

3.1開(kāi)源Heritrix軟件工作原理

Heritrix開(kāi)源軟件采集網(wǎng)頁(yè)的方法是采取深度優(yōu)先搜索策略，遍歷網(wǎng)站的每一個(gè)URI，分析并生成本地文件及相應(yīng)的日志信息等，Heritrix軟件抓取的是與原網(wǎng)頁(yè)一致的、完整的深度復(fù)制，包括圖像以及其他非文本內(nèi)容，抓取后并存儲(chǔ)相關(guān)的內(nèi)容。在網(wǎng)頁(yè)采集過(guò)程中，Heritrix軟件不對(duì)頁(yè)面上內(nèi)容進(jìn)行修改，爬行相同的URL不進(jìn)行替換。Heritrix軟件通過(guò)Web用戶(hù)界面啟動(dòng)、監(jiān)控、調(diào)整、允許彈性地定義要獲取的URL。Heritrix軟件包含核心模塊和插件模塊。核心模塊能夠配置但不能覆蓋，插入模塊配置是否加載，也可以由第三方模塊取代。

3.2 開(kāi)源Heritrix 軟件關(guān)鍵模塊的改進(jìn)

3.2.1 修改Extractor解析器

修改Heritrix的Extractor解析器時(shí)，可采用正則表達(dá)式的方式擴(kuò)展待抓取的網(wǎng)頁(yè)。例如，在抓取中國(guó)西藏網(wǎng)的新聞時(shí)，在Extractor解析器配置正則表達(dá)式：http：//tb.tibet.cn/[0-9a-z]*/[a-z/]*/[0-9]*/[0-9a-z-]*.htm（|l）$，這樣就把服務(wù)器域名下的網(wǎng)頁(yè)所有信息全部抓取下來(lái)。但是，考慮垂直搜索引擎的使用范圍和聚焦爬蟲(chóng)對(duì)網(wǎng)頁(yè)主題的過(guò)濾功能，需要設(shè)計(jì)與實(shí)際主題搜索應(yīng)用相匹配的專(zhuān)用解析器，專(zhuān)用解析器extract（CrawlURL）要實(shí)現(xiàn)以下功能：

（1）對(duì)所有不含有要抓取的結(jié)構(gòu)化信息頁(yè)面的 URL、又不含有可以集中提取前者 URL 的種子型 URL，都不作處理。

（2）從可以集中提取含結(jié)構(gòu)化信息頁(yè)面 URL 的種子型 URL（如地方新聞目錄 URL），提取全部的含結(jié)構(gòu)化信息頁(yè)面的 URL（如地方信息列表 URL）。

（3）從含結(jié)構(gòu)化信息頁(yè)面的 URL 提取所需的結(jié)構(gòu)化信息，并加以記錄。

3.2.2 擴(kuò)展 Frontierscheduler模塊

FrontierScheduler 是一個(gè) PostProcessor，其作用是將 Extractor所分析得出的鏈接加入到 Frontier 中，以待繼續(xù)處理，聚焦爬蟲(chóng)實(shí)現(xiàn)關(guān)鍵詞對(duì)主題的判斷算法就在該模塊中構(gòu)建并執(zhí)行。主題相關(guān)度判斷的關(guān)鍵代碼如下：

public void GetCount（String path，CandidateURI caUri）

{//判斷待抓取網(wǎng)頁(yè)與主題是否相關(guān)

try {

String s=sb.getStrings（）；//s 取網(wǎng)頁(yè)正文字符

Len=length（s）；//求網(wǎng)頁(yè)字符數(shù)

float d=0；//初始化 d，用于計(jì)算所有導(dǎo)向詞的權(quán)重和

for（int i=0；i<100；i++）//遍歷選取 100 個(gè)導(dǎo)向詞

{count=0，int j=1；//count為導(dǎo)向詞出現(xiàn)次數(shù)，j 為導(dǎo)向詞在字符串的位置

t= length（a[i]）；//求第 i 個(gè)導(dǎo)向詞的字符個(gè)數(shù)

While（j<=len）{

int index=s.indexOf（a[i]，j，len）；//查找字串在 j+1 到 end 之間第一個(gè)字符首次出現(xiàn)的位置

if（index！=-1）//找到后，繼續(xù)在余下的字符串中找

{count++；

j=index+t+1；}

Else

Break；

}

D（i）=count*b（i）；//D（i）是第 i 個(gè)導(dǎo)向詞的權(quán)重，b（i）表示 i 個(gè)導(dǎo)向詞的權(quán)值。

d=d+ D（i）；//將所有導(dǎo)向詞的權(quán)重求和

}

k=1/len * 1/100 * d；//k 是網(wǎng)頁(yè)主題相關(guān)度，len是文章字符數(shù)，100個(gè)導(dǎo)向詞

if（k>0.6）； //相關(guān)度判斷

{System.out.println（"count："+count）；//表示輸出

getController（）.getFrontier（）.schedule（caUri）； //當(dāng)前 url 加入 heritix 采集隊(duì)列 }

}

3.3 Heritrix聚焦爬蟲(chóng)接口的設(shè)計(jì)

Heritrix 網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)通用的網(wǎng)頁(yè)采集工具，需要對(duì)Heritrix 抓取和分析網(wǎng)頁(yè)的行為進(jìn)行一定的控制，修改Extractor和 Frontierscheduler模塊后，需要對(duì)其各個(gè)功能接口進(jìn)行操作調(diào)試，由此保證聚焦爬蟲(chóng)功能的全面實(shí)現(xiàn)。下面即對(duì)重要功能接口進(jìn)行必要介紹。

（1）應(yīng)用接口

在設(shè)計(jì)聚焦爬蟲(chóng)時(shí)，應(yīng)定制一個(gè)應(yīng)用接口模塊以供用戶(hù)使用，具體將負(fù)責(zé)與Heritrix 軟件關(guān)聯(lián)，以提供啟、停爬蟲(chóng)、獲取網(wǎng)址、采集關(guān)鍵詞等功能實(shí)現(xiàn)。

（2）數(shù)據(jù)庫(kù)查詢(xún)和修改接口

在設(shè)計(jì)聚焦爬蟲(chóng)時(shí)，應(yīng)設(shè)計(jì)相應(yīng)的數(shù)據(jù)庫(kù)接口，負(fù)責(zé)下載并發(fā)現(xiàn)與主題相關(guān)的網(wǎng)頁(yè)信息、再保存到數(shù)據(jù)庫(kù)的表中。存儲(chǔ)的字段包括：網(wǎng)頁(yè)URL，本地存儲(chǔ)相對(duì)路徑，下載時(shí)間，HTTP頭中抽取的網(wǎng)頁(yè)編碼，關(guān)鍵詞id等。

（3）去重接口

因?yàn)镠eritrix對(duì)相同的URL不進(jìn)行替換，爬蟲(chóng)工作時(shí)會(huì)下載大量重復(fù)的網(wǎng)頁(yè)，為了節(jié)省空間、并獲取準(zhǔn)確的采集結(jié)果，就必須按照設(shè)定規(guī)則對(duì)重復(fù)下載的網(wǎng)頁(yè)進(jìn)行刪除。

4 結(jié)束語(yǔ)

通過(guò)以上對(duì)開(kāi)源Heritrix軟件的改進(jìn)，聚焦爬蟲(chóng)已能根據(jù)預(yù)設(shè)的關(guān)鍵詞進(jìn)行網(wǎng)站抓取，并按照算法判斷，當(dāng)網(wǎng)頁(yè)的主題相關(guān)度閾值大于0.6時(shí)，即聚焦爬蟲(chóng)下載網(wǎng)頁(yè)，至此爬蟲(chóng)實(shí)現(xiàn)了指定網(wǎng)站的主題搜索。綜上可見(jiàn)，可以改進(jìn)開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)并使其在垂直搜索引擎中獲得成功立項(xiàng)使用。

參考文獻(xiàn)：

[1]劉運(yùn)強(qiáng). 垂直搜索引擎的研究與設(shè)計(jì)[J]. 計(jì)算機(jī)應(yīng)用與軟件，2010， 127（7）： 130-132.

[2]劉偉光. 一種基于改進(jìn)向量空間模型的藏文主題網(wǎng)頁(yè)采集方法[J]. 圖書(shū)館學(xué)研究，2014， 16：55-62.

[3]陳歡. 面向垂直搜索引擎的聚焦網(wǎng)絡(luò)爬蟲(chóng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 華中師范大學(xué)， 2014.

[4] 焦賽美. 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J]. 瓊州學(xué)院學(xué)報(bào)， 2010， 18（5）： 28-30.

[5] 網(wǎng)絡(luò)爬蟲(chóng)淺析[EB/OL]. [2011-03-05].http：//xiangxingchina.iteye.com/blog/941349.

[6] 羅剛，王振東.自己手動(dòng)寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)[M].北京：清華大學(xué)出版社，2010：34-36.

智能計(jì)算機(jī)與應(yīng)用2015年4期

智能計(jì)算機(jī)與應(yīng)用的其它文章: 基于Haar—like特征的空間金字塔的貓臉識(shí)別; 社交網(wǎng)絡(luò)話(huà)題傳播模型剪枝策略研究; 一種基于標(biāo)點(diǎn)密度的網(wǎng)頁(yè)正文提取方法; 工效學(xué)在地方病現(xiàn)場(chǎng)調(diào)查中的應(yīng)用研究; 基于邊權(quán)重的主題核心術(shù)語(yǔ)抽取; 電磁炮物理模型構(gòu)建與系統(tǒng)實(shí)現(xiàn)