基于網(wǎng)絡(luò)爬蟲的搜索引擎的研究

2016-12-31 15:13:14馮丹

移動信息 2016年8期

馮丹

馮丹

湖北工業(yè)大學計算機學院，湖北孝感 432400

網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則自動搜集和抓取互聯(lián)網(wǎng)信息的程序或者腳本。通過網(wǎng)絡(luò)爬蟲不僅能夠為搜索引擎采集網(wǎng)絡(luò)信息，而且可以作為定向信息采集器，定向采集某些網(wǎng)站下的特定信息，如健康新聞、健康知識等?；诖?，闡述了網(wǎng)絡(luò)爬蟲的相關(guān)知識與技術(shù)，并對這些技術(shù)的優(yōu)劣進行了分析，為基于網(wǎng)絡(luò)爬蟲的搜索引擎的設(shè)計和實現(xiàn)提供了有用的意見和建議。

網(wǎng)絡(luò)爬蟲；數(shù)據(jù)分析；搜索引擎

1 研究背景與意義

隨著互聯(lián)網(wǎng)的飛速發(fā)展，網(wǎng)絡(luò)上的信息呈爆炸式增長。這使得人們在網(wǎng)上找到所需的信息越來越困難，這種情況下搜索引擎應(yīng)運而生。搜索引擎搜集互聯(lián)網(wǎng)上數(shù)以億計的網(wǎng)頁，并為每個詞建立索引[1]。在建立所搜引擎的過程中，搜集網(wǎng)頁是非常重要的一個環(huán)節(jié)。爬蟲程序就是用來搜集網(wǎng)頁的程序。如何從龐大的資料庫中找到正確的資料，是互聯(lián)網(wǎng)深度爬取技術(shù)的競爭要點。一般的網(wǎng)絡(luò)爬蟲是盡可能多的爬數(shù)據(jù)，本文所提到的爬蟲是首先將網(wǎng)絡(luò)數(shù)據(jù)分類，找到用戶需要的主題然后爬取數(shù)據(jù)，這樣大大減少了數(shù)據(jù)吞吐量，提高了爬取效率[2]。

作為搜索引擎的基礎(chǔ)組成部分，網(wǎng)絡(luò)爬蟲在Web信息采集中起著關(guān)鍵的作用。簡略地講，網(wǎng)絡(luò)爬蟲主要是一個Web應(yīng)用程序，該應(yīng)用程序從人工給定的一個初始的URL集合出發(fā)，根據(jù)URL獲取其所指向的頁面，存入頁面庫中，同時從這些以獲取的頁面中提取新的URL鏈接，將URL全部放入待提取URL隊列中，下一次爬取頁面時就從這個隊列中按一定的順序提出URL進行爬行，重復上述過程，直到達到某一預(yù)定條件時停止爬取。

2 相關(guān)概念與技術(shù)

2.1 搜索引擎的工作原理和分類

搜索引擎的工作流程相對來說比較復雜。第一步是對因特網(wǎng)上的網(wǎng)頁進行全面的抓取；第二步是將抓取的目標網(wǎng)頁進行預(yù)處理；第三步，根據(jù)用戶輸入的查詢請求定位相關(guān)網(wǎng)頁并呈現(xiàn)給用戶。

目前的搜索引擎可以分為以下幾類：全文搜索引擎，目錄搜索引擎，元搜索引擎。全文搜索引擎是名副其實的搜索引擎，目前主流的搜索引擎都采用的是此方法。它們從互聯(lián)網(wǎng)提取各種網(wǎng)站的信息，建立起數(shù)據(jù)庫，并能檢索與用戶查詢條件想匹配的記錄，按照一定的排序返回結(jié)果；目錄索引的功能比較弱，知識按照目錄分類的網(wǎng)站鏈接列表，不依靠關(guān)鍵字進行查詢；元搜索引擎接受用戶查詢請求后，同時在多個搜索引擎上搜索，并將返回結(jié)果返回給用戶。還有其他非主流搜索引擎形式，如集合式搜索引擎、門戶搜索引擎等，這里不再做描述[3]。

2.2 網(wǎng)絡(luò)爬蟲簡介

網(wǎng)絡(luò)爬蟲是一種自動化瀏覽網(wǎng)絡(luò)的格式，或者說是一種網(wǎng)絡(luò)機器人。它們被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站，以獲取或者更新這些網(wǎng)站的內(nèi)容和檢索方式。它們可以自動采集所有能夠訪問到的頁面內(nèi)容，將這些內(nèi)容提供給搜索引擎做進一步的處理和分析。

本文中提到的爬蟲是主題爬蟲。所謂主題爬蟲是對特定的領(lǐng)域進行頁面檢索，并且會選擇性地忽略與搜索主題相關(guān)性較小的網(wǎng)頁。主題爬蟲的任務(wù)是最大化的發(fā)現(xiàn)和抓取與主題相關(guān)的頁面，過濾掉與主題無關(guān)的頁面，最大程度地利用有限的系統(tǒng)資源，獲得較優(yōu)秀的檢索結(jié)果。主題爬蟲需要對用戶所搜索的主題進行深入的分析，以去除相關(guān)性小的網(wǎng)頁，保留相關(guān)性強的索引，這個過程實質(zhì)上是在網(wǎng)絡(luò)爬蟲抓取模塊中，實現(xiàn)一部分原本需要通過預(yù)處理模塊處理的功能。對用戶輸入的關(guān)鍵字信息進行分詞處理，然后計算爬蟲抓取的頁面的相關(guān)程度，給頁面賦予相關(guān)度權(quán)重，判斷是否抓取頁面。

網(wǎng)絡(luò)爬蟲實際上是在互聯(lián)網(wǎng)這張非常大的“圖”中進行遍歷操作。我們將互聯(lián)網(wǎng)看作一張“圖”，每一個頁面就都可以看成是一個“結(jié)點”，而連接這些結(jié)點的鏈接就可以看作是“邊”。所以類比“圖”的遍歷方式，網(wǎng)絡(luò)爬蟲的搜索策略也可以分成兩種方法：一種是深度優(yōu)先遍歷；另一種是廣度優(yōu)先遍歷。通俗地講，深度優(yōu)先遍歷是從某個頂點出發(fā)，首先訪問這個頂點，然后找出剛訪問這個結(jié)點的第一個未被訪問的鄰結(jié)點，然后再以此鄰結(jié)點為頂點，繼續(xù)找它的下一個新的頂點進行訪問，重復此步驟，直到所有結(jié)點都被訪問完為止；廣度優(yōu)先遍歷是從某個頂點出發(fā)，首先訪問這個頂點，然后找出這個結(jié)點的所有未被訪問的鄰結(jié)點，訪問完后再訪問這些結(jié)點中第一個鄰結(jié)點的所有結(jié)點。重復此方法，直到所有結(jié)點都被訪問完為止。可以看出，兩種方法最大的區(qū)別在于前者是從頂點的第一個鄰結(jié)點一直訪問下去再訪問頂點的第二個鄰結(jié)點；后者從頂點開始訪問該頂點的所有鄰結(jié)點再次依次向下，一層一層地訪問[4]。

2.3 中文分詞算法概述

在本文前面的部分我們提到過，要做好網(wǎng)絡(luò)爬蟲，分詞是必不可少的一步。當然，日常生活中大部分用戶瀏覽的是中文頁面，所以中文分詞對于網(wǎng)絡(luò)爬蟲也非常重要。目前的分詞算法存在三種類型，一種是基于字符串匹配的分詞方法，一種是基于統(tǒng)計的分詞方法，一種是基于理解的分詞方法。

基于字符串匹配的分詞算法或者通常稱為機械分詞算法，它通過某種策略將需要進行分析的字符串與機器中包含的中分詞典中的詞條進行對比分析，若系統(tǒng)在該中文詞典中匹配到了目標字符串，則匹配成功。

基于統(tǒng)計的分詞是基于統(tǒng)計學的思路進行分詞。如果僅從詞的構(gòu)成形式來看，詞往往是一種或者多個固定的字的排列組合，因而在研究文本內(nèi)容時，文中幾個字相鄰出現(xiàn)的概率越高，其組成一個詞的概率也就越大。由此可知，幾個字之間相鄰出現(xiàn)的頻率反映了一個詞得以形成的概率大小。這樣便給我們提供了分析思路，計算中文文本語料中幾個字相鄰組合出現(xiàn)的頻度，并定義幾個字之間出現(xiàn)的相關(guān)信息。由這些相關(guān)信息所反映出來的信息體現(xiàn)了中文文字組合的緊密程度，當這種緊密程度高于某閾值時，便可以認定這個字符組合可以形成詞。

基于理解的分詞方法基本思想為在進行中分分詞同時對語義以及語法進行一系列的分析，通過利用語義信息和句法信息來避免發(fā)生歧義。通常情況它包含了三個部分：句法語義子系統(tǒng)、分詞子系統(tǒng)以及總控模塊。在總控模塊的調(diào)度下，分詞子系統(tǒng)通過獲取包括詞、句子等的語義信息和句法信息來進行分詞和判斷歧義現(xiàn)象[5]。

3 結(jié)語

本文對基于網(wǎng)絡(luò)爬蟲的搜索引擎的背景，意義以及相關(guān)的關(guān)鍵技術(shù)進行了研究。搜索引擎是現(xiàn)代生活中不可缺少的一個工具，對于此技術(shù)的研究非常有意義。

網(wǎng)絡(luò)爬蟲作為一種抓取數(shù)據(jù)的技術(shù)，在搜索引擎中起到了不可或缺的作用。所以在本文第二部分，對搜索引擎的原理和分類，網(wǎng)絡(luò)爬蟲的相關(guān)技術(shù)進行了簡要的分析。另外，對搜索引擎中另一個關(guān)鍵技術(shù)分詞方法進行了簡要的分析。

[1]羅剛，王振東.自己動手寫網(wǎng)絡(luò)爬蟲[M].北京：清華大學出版社，2010.

[2]羅剛.自己動手寫搜索引擎[M].北京：電子工業(yè)出版社，2010.

[3]楊濤.中文智能搜索引擎淺析[J].圖書情報工作，2002（2）：58-60.

[4]Animesh Tripathy ，Prashanta K Patra. A Web Mining Architectural Model of Distributed Crawler for Internet Searches Using PageRank Algorithm[C]. IEEE Asia-Pacific Services Computing Conference， 2008.

[5]邱哲，符滔滔.開發(fā)自己的搜索引擎[M].北京：人民郵電出版社，2007.

Research on Search Engine based Crawler

Feng Dan

School of Somputer Science, Hubei University of Technology, Hubei Xiaogan 432400

The web crawler is a program or script that automatically collects and captures the information of the Internet according to certain rules. Through the web crawler not only can collect network information for the search engine, but also can be used as a directional information collector, directed to collect specific information under certain websites, such as health news, health knowledge, etc.. This paper describes the relevant knowledge and technology of web crawler, and analyzes the advantages and the advantages of these technologies. It provides useful advice and suggestions for the design and implementation of web crawler based search engine.

web crawler;search engines;data analysis

TP391.3

1009-6434（2016）08-0121-02