網(wǎng)絡(luò)爬蟲在搜索引擎應(yīng)用中的問題及對策

2013-04-02 16:14:02馬曉娟

赤峰學(xué)院學(xué)報·自然科學(xué)版 2013年20期

馬曉娟

（集寧師范學(xué)院，內(nèi)蒙古烏蘭察布 012000）

1 引言

在談網(wǎng)絡(luò)爬蟲之前，先了解電腦“機器人”，電腦機器人，其本質(zhì)軟件程序，該程序以計算機，網(wǎng)絡(luò)為依托，無限循環(huán)的地執(zhí)行網(wǎng)絡(luò)任務(wù).如以網(wǎng)絡(luò)為依托的搜索引擎程序，在收集信息時，它就像一條爬蟲穿梭在網(wǎng)絡(luò)之中，根據(jù)用戶所提供的關(guān)鍵字信息，自動篩選重要信息，我們將專門用于搜索資料信息的“機器人”又稱為網(wǎng)絡(luò)爬蟲.我們知道，在萬網(wǎng)中，網(wǎng)絡(luò)拓撲結(jié)構(gòu)是由多個節(jié)點構(gòu)成，網(wǎng)絡(luò)爬蟲程序的任務(wù)就是，根據(jù)用戶關(guān)鍵詞，得到網(wǎng)頁鏈接，并與之與網(wǎng)頁所對應(yīng)的服務(wù)器端相關(guān)聯(lián)，使得用戶能夠方便，快捷地查到所需的信息.

通常情況下，網(wǎng)絡(luò)爬蟲也叫做網(wǎng)絡(luò)蜘蛛，其貫穿于網(wǎng)絡(luò)，其擁有自己的運算規(guī)則，自動擇取有效信息，提存相關(guān)網(wǎng)頁.如果用戶想要檢查自己站點上所保存下的網(wǎng)頁鏈接是否有效，也可采用該技術(shù).

當(dāng)搜尋網(wǎng)絡(luò)信息時，搜索引擎往往會執(zhí)行網(wǎng)絡(luò)爬蟲程序.網(wǎng)絡(luò)爬蟲通過特殊的算法，提取網(wǎng)頁中與用戶關(guān)鍵字相關(guān)的信息，并提取其URL，并與之關(guān)聯(lián)，在搜索過程中，其搜索路徑就像是蜘蛛網(wǎng)，爬蟲程序在路徑檢索的過程中，搜集相關(guān)信息.

2 網(wǎng)絡(luò)爬蟲分類及其特點

就目前搜索引擎的原理來看，網(wǎng)絡(luò)爬蟲程序分為兩種，通用型網(wǎng)絡(luò)爬蟲、聚焦型網(wǎng)絡(luò)爬蟲.

通用型網(wǎng)絡(luò)爬蟲使用的范圍相對來說更廣泛，比如所Google搜索所采用的搜索引擎.通用型網(wǎng)絡(luò)爬蟲，其爬行于整個網(wǎng)絡(luò)，所挑選的信息過于繁多，很多都是網(wǎng)絡(luò)用戶不需要的資料，導(dǎo)致了系統(tǒng)資源的浪費.隨著網(wǎng)絡(luò)技術(shù)的進步，網(wǎng)絡(luò)數(shù)據(jù)的形式也不斷的豐富化，網(wǎng)頁中的充斥著多媒體數(shù)據(jù)音頻、視頻、圖片數(shù)據(jù)，這些數(shù)據(jù)都包含信息豐富，而且結(jié)構(gòu)復(fù)雜，但是我們的通用型網(wǎng)絡(luò)爬蟲往往難以處理這些數(shù)據(jù).

聚焦型網(wǎng)絡(luò)爬蟲是對通用型網(wǎng)絡(luò)爬蟲的補充，其側(cè)重于在搜索過程中，最大限度內(nèi)，收集與用戶特定需求想關(guān)的網(wǎng)頁信息，必要的情況下，能夠自動屏蔽無關(guān)的網(wǎng)頁數(shù)據(jù).聚焦型網(wǎng)絡(luò)爬蟲程序，能夠提高用戶對特定信息的需求.

3 網(wǎng)絡(luò)爬蟲在搜索引擎中存在問題

網(wǎng)絡(luò)爬蟲在搜索引擎中起到舉足輕重的作用，但是目前也存在諸多問題，比如說.

3.1 在單機網(wǎng)絡(luò)中的性能問題.隨著網(wǎng)絡(luò)時代，信息量的不斷增長，海量數(shù)據(jù)帶來的是性能問題，能在極端的時間內(nèi)，從海量數(shù)據(jù)中得到用戶想要的數(shù)據(jù)信息，這本身就是對搜索引擎的一種挑戰(zhàn)，而網(wǎng)絡(luò)爬蟲程序是搜索引擎的關(guān)鍵之所在，提升網(wǎng)絡(luò)爬蟲程序的相關(guān)性能，是當(dāng)前需要解決的問題.

3.2 網(wǎng)絡(luò)爬蟲程序，一般從一個或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的URL放入隊列，直到滿足系統(tǒng)的一定停止條件.在這個過程中，要求數(shù)據(jù)運行連續(xù)下載資源，但是目前來看，網(wǎng)絡(luò)傳輸速度較為緩慢，而網(wǎng)絡(luò)傳輸過程中CPU資源閑置.

3.3 URL搜索策略問題，需要制定搜索策略的依據(jù)在于如何安排URL的訪問次序來實現(xiàn)網(wǎng)絡(luò)爬蟲在網(wǎng)絡(luò)間爬行能有最大的網(wǎng)絡(luò)覆蓋率.

其次是網(wǎng)絡(luò)爬蟲的URL提取問題，即網(wǎng)絡(luò)爬蟲如何在URL下載之后如何從已有的網(wǎng)頁數(shù)據(jù)（專指網(wǎng)頁源代碼）中獲取到新的超聯(lián)系，以實現(xiàn)的網(wǎng)絡(luò)爬蟲新爬行.再次是網(wǎng)絡(luò)爬蟲的URL規(guī)范策略，這一問題的產(chǎn)生主要基于目前很多網(wǎng)頁中的超鏈接結(jié)構(gòu)都不完整，也存在多樣化的形式，難以全面規(guī)范，因此為了方便網(wǎng)絡(luò)爬蟲能夠更加便捷暢通的訪問資源數(shù)據(jù)，完善URL的系統(tǒng)性，必須將所有形式的URL進行統(tǒng)一規(guī)范以形成一個覆蓋全面的標準.

最后是網(wǎng)絡(luò)爬蟲的URL去重問題.之所以會產(chǎn)生URL的去重問題，是因為互聯(lián)網(wǎng)本身就是一個結(jié)構(gòu)組成復(fù)雜，資源覆蓋面廣且相互之間存在著復(fù)雜的引用關(guān)系的一個系統(tǒng).因此在網(wǎng)絡(luò)爬蟲工作在不同的頁面中就會提取到同一個URL，此時網(wǎng)絡(luò)爬蟲就必須在這多重URL中進行去重，選擇最適合的一個URL.

3.4 頁面資源下載緩慢，網(wǎng)絡(luò)爬蟲程序是從若干個URL鏈接中提取相關(guān)資源，對于相關(guān)鏈接資源，需進行下載定位，頁面資源下載緩慢，是當(dāng)前需要解決的問題.除此之外，目前的網(wǎng)絡(luò)爬蟲技術(shù)，只能提取文本內(nèi)容，但是針對網(wǎng)頁頁面而言，對于頁面元素的提取，最后到網(wǎng)頁內(nèi)容的精確定位，到目前還言，相關(guān)研究還很少.

4 對策分析

網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序，它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成.目前，國際網(wǎng)絡(luò)研究對網(wǎng)絡(luò)爬蟲的研究越來越深入，盡管研究并不是全面徹底，但對分布式網(wǎng)絡(luò)爬蟲的協(xié)作分工和文件存儲系統(tǒng)效率問題、聚焦網(wǎng)絡(luò)爬蟲的頁面相關(guān)性算法、PageRank等URL重要度算法等方面研究較為詳細,研究資料也較為詳實，不足的是對單機網(wǎng)絡(luò)爬蟲的相關(guān)性能研究較少.

4.1 頁面下載策略

4.1.1 采用gzip/deflate壓縮編碼傳輸

伴隨信息產(chǎn)業(yè)的迅速發(fā)展，網(wǎng)絡(luò)資源類型也多種多樣，資源的格式、質(zhì)量、運行環(huán)境也各不相同.針對網(wǎng)頁資源而言，大小差距很大，從幾百KB到幾KB.在一定可靠的網(wǎng)絡(luò)運行環(huán)境下，網(wǎng)絡(luò)傳送時間較長，則證明網(wǎng)絡(luò)數(shù)據(jù)分組較大.因此要加速完成數(shù)據(jù)傳輸傳入過程就要將網(wǎng)絡(luò)數(shù)據(jù)的傳輸量盡量縮減.

有效將網(wǎng)絡(luò)數(shù)據(jù)傳輸量減少的方法之一就是文件數(shù)據(jù)壓縮.gzip它是一個GNU自由軟件的文件壓縮程序.該壓縮法是較為常用的沒有任何數(shù)據(jù)損失的壓縮程序算法，應(yīng)用gzip壓縮時，效果最為顯著的就是對純文本文件的gzip壓縮，可以將文件大小壓縮至原來的75%甚至更多.程序進行g(shù)zip壓縮后，不僅可以提高網(wǎng)頁運行速度，完善用戶瀏覽體驗，而且在瀏覽網(wǎng)頁時省去很多流量使用.

gzip壓縮編碼也可以應(yīng)用在超文本傳輸協(xié)議上，主要目的是完善并提高網(wǎng)絡(luò)應(yīng)用程序的性能.通過gzip壓縮流量使用較多的網(wǎng)絡(luò)站點可以從某種程度上提高用戶網(wǎng)頁瀏覽速度.Web服務(wù)器中本身都含有g(shù)zip壓縮功能，因此一旦有用戶訪問某個網(wǎng)絡(luò)站點，服務(wù)器中的該功能馬上將gzip壓縮后的網(wǎng)頁內(nèi)容傳送到電腦瀏覽器并顯示出來.gzip/deflate壓縮編碼傳輸直接緩解了服務(wù)器加載大量信息的負載，也提高了用戶接收網(wǎng)頁傳輸數(shù)據(jù)的速率.

萬維網(wǎng)中g(shù)zip壓縮功能的處理過程如下：

（1）http將用戶需求發(fā)送至web服務(wù)器，若用戶需求中含有Accept-Encoding類似字符的要求則說明包含gzip壓縮頁面數(shù)據(jù)信息，需要提前檢查服務(wù)器配置是否含有g(shù)zip壓縮功能.

（2）若服務(wù)器含有g(shù)zip壓縮裝置，壓縮后會直接顯示到瀏覽器上.

（3）若用戶請求文件是靜態(tài)文件如，html css等，服務(wù)器自動檢查目錄中是否存在最新壓縮文件.

（4）若請求的壓縮文件沒有出現(xiàn)在緩沖目錄中，網(wǎng)絡(luò)服務(wù)器將沒有壓縮的請求文件反饋給用戶，同時請求存放在緩沖目錄中以便進行壓縮.

（5）若最新要進行壓縮的文件已經(jīng)在緩沖目錄中了，則要直接進行文件壓縮.

（6）若用戶請求的文件類型是動態(tài)文件，Web服務(wù)器動態(tài)壓縮內(nèi)容并返回給用戶，壓縮內(nèi)容不存放到壓縮緩存目錄中.

4.1.2 異步非阻塞下載，提升CPU利用率

網(wǎng)絡(luò)爬蟲的工作效率事實上是受到網(wǎng)頁數(shù)據(jù)的影響的，從網(wǎng)絡(luò)爬蟲基于URL要求發(fā)出數(shù)據(jù)請求到頁面接收數(shù)據(jù)并返回這一過程中存在一段時間的間隔，在這一段時間間隔內(nèi)如果網(wǎng)絡(luò)爬蟲只是等待而不從事其他工作，那么CPU就得不到充分的利用，造成資源閑置，且網(wǎng)絡(luò)爬蟲的工作效率也較為低下.反之，如果網(wǎng)絡(luò)爬蟲能充分利用這一時間間隔從事其他工作，等到數(shù)據(jù)返回之后再立刻進行分析，那么CPU的資源利用率就會大大提高.這一種機制也就是我們所說的非阻塞異步請求.

4.2 URL相關(guān)策略

通常人們所說的URL格式主要由三個部分組成：第一部分是必備部分，為協(xié)議部分，一般也成為網(wǎng)絡(luò)服務(wù)方式；第二部分代表的是資源存儲的主機TP地址，這一部分也可以用主機名或者是端口號代替，第二部分也是URL格式組成的必備部分；第三部分是資源在主機中存儲的具體位置，比如目標資源的文件名、網(wǎng)絡(luò)參數(shù)等等，這一部分并非必要的，有時候可以根據(jù)實際情況進行省略.URL相關(guān)策略中必須包含以下幾個問題和部分：

4.2.1 URL搜索策略

網(wǎng)絡(luò)爬蟲查找和選擇頁面的工作策略一共有兩種：一是采用遍歷圖的方式進行主題上搜索，遍歷順序一般遵從廣度優(yōu)先或是深度優(yōu)先的原則；二是堅持“最好優(yōu)先”原則對某一專題進行智能搜索.

無主題搜索中的廣度優(yōu)先原則是最為普遍的，它的實現(xiàn)原理也是基于互聯(lián)網(wǎng)的存在，即選擇一個網(wǎng)頁，然后抓取與之相關(guān)的網(wǎng)頁，層層遞推，從而獲取到所有網(wǎng)頁.以某HTML的文件為例，該文件共有三個超級鏈接，網(wǎng)絡(luò)爬蟲在工作中會選擇其中之一進行下載和處理，然后再通過關(guān)系網(wǎng)處理另外另個連接，在此基礎(chǔ)上再接著深層處理相關(guān)的URL.廣度優(yōu)先搜索的優(yōu)勢十分明顯：

（1）由于廣度優(yōu)先搜索是從淺層次的URL開始處理的，所以無論是結(jié)構(gòu)如何復(fù)制的分支，最終都可以實現(xiàn)文檔的返回.

（2）廣度優(yōu)先的原則首先處理了位于淺層的高相關(guān)性頁面，能迅速切全面的發(fā)現(xiàn)高質(zhì)量頁面.

（3）廣度優(yōu)先的原則可以實現(xiàn)多個網(wǎng)絡(luò)爬蟲同時合作抓取數(shù)據(jù)，從站內(nèi)鏈接入手再普及到站外鏈接，能真正做到全面覆蓋.

深度優(yōu)先是網(wǎng)絡(luò)爬蟲早期的工作策略，它的工作原理是在選擇一個最淺層選擇一個鏈接，然后深度搜索該連接下的數(shù)據(jù)，在該鏈達到盡頭以后再返回數(shù)據(jù)重新選擇新的鏈接起始.循環(huán)往復(fù)，一直到所有鏈接都以被操作以后，該次搜索才算結(jié)束.

4.2.2 URL提取策略

網(wǎng)絡(luò)爬蟲在工作中向站點請求的是頁面數(shù)據(jù)但是返回是HTML代碼.用戶在瀏覽器上查看的到內(nèi)容事實上就是一系列動態(tài)代碼和HTML代碼執(zhí)行后的網(wǎng)頁化呈現(xiàn).網(wǎng)絡(luò)爬蟲只有將所有的URL超鏈接從返回的網(wǎng)頁源文件中提取出來才算完成整個爬行過程，才能進行新的爬行.

4.2.3 URL規(guī)范策略

網(wǎng)址URL規(guī)范化的定義是搜索引擎挑選最好的URL網(wǎng)址作為真正網(wǎng)址的過程，強調(diào)的是.選擇的唯一的作為規(guī)范化的網(wǎng)址.細而言之，當(dāng)出現(xiàn)多個頁面鏈接都包含相同內(nèi)容時，導(dǎo)致大量的同類復(fù)制內(nèi)容的網(wǎng)頁，則要通過各種方法篩選，只保留標準規(guī)范化的唯一網(wǎng)頁，而不保留其他網(wǎng)頁.從網(wǎng)絡(luò)爬蟲的角度上說，規(guī)范化的URE縮減了大量復(fù)制內(nèi)容的網(wǎng)頁數(shù)據(jù)分析，減少URL向服務(wù)器請求資源以避免錯誤率.

（1）超鏈接網(wǎng)址的各個域名要補充完整.網(wǎng)頁中大多數(shù)超鏈接地址沒有協(xié)議類型或主機名，補充的同時要按照超鏈接網(wǎng)頁的URL進行填補.一般來說，有的網(wǎng)頁超鏈接會省略不保留協(xié)議名稱或主機名，則說明和母頁的域名相同.

（2）將網(wǎng)頁存在形式的相對路徑轉(zhuǎn)化為絕對路徑，通過處理文件路徑和參數(shù)的方法使URL規(guī)范化.在所有互聯(lián)網(wǎng)頁面中，絕大部分超鏈接網(wǎng)址的存在形式都是相對而言的，即相對路徑.當(dāng)主機名稱與主機ip地址一致時，可以把主機名轉(zhuǎn)化為ip地址，或者改變名稱中參數(shù)順序，保證同一個主機只能以一種形式出現(xiàn)一次.

5 結(jié)束語

網(wǎng)絡(luò)爬蟲技術(shù)在網(wǎng)絡(luò)搜索引擎應(yīng)用中起到舉足輕重的作用，爬蟲程序的算法邏輯，URL處理方式，直接影響到頁面搜索的反應(yīng)效率，以及網(wǎng)頁庫的新鮮度.本文首先分析了網(wǎng)絡(luò)爬蟲在信息搜索過程中面臨的技術(shù)問題，并以此為依托，針對問題，提出了相關(guān)策略，對URL進行嚴格正規(guī)化處理，希望有效降低URL出錯率，以及爬蟲的誤導(dǎo)性，真正發(fā)揮網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的作用.

〔1〕曹忠,趙文靜.一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J].電腦知識與技術(shù),2008(35).

〔2〕王軍,彭建.網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)設(shè)計研究[J].科技信息(學(xué)術(shù)研究),2007(27).

〔3〕賀財平,覃事剛,劉建勛.W eb服務(wù)搜索引擎的設(shè)計與實現(xiàn)[J].計算機應(yīng)用與軟件,2011(01).

〔4〕劉磊安,符志強.基于 Lucene.net網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J].電腦知識與技術(shù),2010(08).

〔5〕何志文,郭利剛.搜索引擎技術(shù)在互聯(lián)網(wǎng)音視頻節(jié)目監(jiān)測系統(tǒng)中的應(yīng)用 [J].廣播與電視技術(shù),2009(03).

〔6〕石柯,周利兵,陶文兵.基于移動代理的 MAISE爬蟲的設(shè)計與實現(xiàn)[J].華中科技大學(xué)學(xué)報(自然科學(xué)版),2005(S1).