• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)爬蟲在搜索引擎應(yīng)用中的問題及對策

      2013-04-02 16:14:02馬曉娟
      關(guān)鍵詞:爬蟲搜索引擎網(wǎng)頁

      馬曉娟

      (集寧師范學(xué)院,內(nèi)蒙古 烏蘭察布 012000)

      1 引言

      在談網(wǎng)絡(luò)爬蟲之前,先了解電腦“機器人”,電腦機器人,其本質(zhì)軟件程序,該程序以計算機,網(wǎng)絡(luò)為依托,無限循環(huán)的地執(zhí)行網(wǎng)絡(luò)任務(wù).如以網(wǎng)絡(luò)為依托的搜索引擎程序,在收集信息時,它就像一條爬蟲穿梭在網(wǎng)絡(luò)之中,根據(jù)用戶所提供的關(guān)鍵字信息,自動篩選重要信息,我們將專門用于搜索資料信息的“機器人”又稱為網(wǎng)絡(luò)爬蟲.我們知道,在萬網(wǎng)中,網(wǎng)絡(luò)拓撲結(jié)構(gòu)是由多個節(jié)點構(gòu)成,網(wǎng)絡(luò)爬蟲程序的任務(wù)就是,根據(jù)用戶關(guān)鍵詞,得到網(wǎng)頁鏈接,并與之與網(wǎng)頁所對應(yīng)的服務(wù)器端相關(guān)聯(lián),使得用戶能夠方便,快捷地查到所需的信息.

      通常情況下,網(wǎng)絡(luò)爬蟲也叫做網(wǎng)絡(luò)蜘蛛,其貫穿于網(wǎng)絡(luò),其擁有自己的運算規(guī)則,自動擇取有效信息,提存相關(guān)網(wǎng)頁.如果用戶想要檢查自己站點上所保存下的網(wǎng)頁鏈接是否有效,也可采用該技術(shù).

      當(dāng)搜尋網(wǎng)絡(luò)信息時,搜索引擎往往會執(zhí)行網(wǎng)絡(luò)爬蟲程序.網(wǎng)絡(luò)爬蟲通過特殊的算法,提取網(wǎng)頁中與用戶關(guān)鍵字相關(guān)的信息,并提取其URL,并與之關(guān)聯(lián),在搜索過程中,其搜索路徑就像是蜘蛛網(wǎng),爬蟲程序在路徑檢索的過程中,搜集相關(guān)信息.

      2 網(wǎng)絡(luò)爬蟲分類及其特點

      就目前搜索引擎的原理來看,網(wǎng)絡(luò)爬蟲程序分為兩種,通用型網(wǎng)絡(luò)爬蟲、聚焦型網(wǎng)絡(luò)爬蟲.

      通用型網(wǎng)絡(luò)爬蟲使用的范圍相對來說更廣泛,比如所Google搜索所采用的搜索引擎.通用型網(wǎng)絡(luò)爬蟲,其爬行于整個網(wǎng)絡(luò),所挑選的信息過于繁多,很多都是網(wǎng)絡(luò)用戶不需要的資料,導(dǎo)致了系統(tǒng)資源的浪費.隨著網(wǎng)絡(luò)技術(shù)的進步,網(wǎng)絡(luò)數(shù)據(jù)的形式也不斷的豐富化,網(wǎng)頁中的充斥著多媒體數(shù)據(jù)音頻、視頻、圖片數(shù)據(jù),這些數(shù)據(jù)都包含信息豐富,而且結(jié)構(gòu)復(fù)雜,但是我們的通用型網(wǎng)絡(luò)爬蟲往往難以處理這些數(shù)據(jù).

      聚焦型網(wǎng)絡(luò)爬蟲是對通用型網(wǎng)絡(luò)爬蟲的補充,其側(cè)重于在搜索過程中,最大限度內(nèi),收集與用戶特定需求想關(guān)的網(wǎng)頁信息,必要的情況下,能夠自動屏蔽無關(guān)的網(wǎng)頁數(shù)據(jù).聚焦型網(wǎng)絡(luò)爬蟲程序,能夠提高用戶對特定信息的需求.

      3 網(wǎng)絡(luò)爬蟲在搜索引擎中存在問題

      網(wǎng)絡(luò)爬蟲在搜索引擎中起到舉足輕重的作用,但是目前也存在諸多問題,比如說.

      3.1 在單機網(wǎng)絡(luò)中的性能問題.隨著網(wǎng)絡(luò)時代,信息量的不斷增長,海量數(shù)據(jù)帶來的是性能問題,能在極端的時間內(nèi),從海量數(shù)據(jù)中得到用戶想要的數(shù)據(jù)信息,這本身就是對搜索引擎的一種挑戰(zhàn),而網(wǎng)絡(luò)爬蟲程序是搜索引擎的關(guān)鍵之所在,提升網(wǎng)絡(luò)爬蟲程序的相關(guān)性能,是當(dāng)前需要解決的問題.

      3.2 網(wǎng)絡(luò)爬蟲程序,一般從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件.在這個過程中,要求數(shù)據(jù)運行連續(xù)下載資源,但是目前來看,網(wǎng)絡(luò)傳輸速度較為緩慢,而網(wǎng)絡(luò)傳輸過程中CPU資源閑置.

      3.3 URL搜索策略問題,需要制定搜索策略的依據(jù)在于如何安排URL的訪問次序來實現(xiàn)網(wǎng)絡(luò)爬蟲在網(wǎng)絡(luò)間爬行能有最大的網(wǎng)絡(luò)覆蓋率.

      其次是網(wǎng)絡(luò)爬蟲的URL提取問題,即網(wǎng)絡(luò)爬蟲如何在URL下載之后如何從已有的網(wǎng)頁數(shù)據(jù)(專指網(wǎng)頁源代碼)中獲取到新的超聯(lián)系,以實現(xiàn)的網(wǎng)絡(luò)爬蟲新爬行.再次是網(wǎng)絡(luò)爬蟲的URL規(guī)范策略,這一問題的產(chǎn)生主要基于目前很多網(wǎng)頁中的超鏈接結(jié)構(gòu)都不完整,也存在多樣化的形式,難以全面規(guī)范,因此為了方便網(wǎng)絡(luò)爬蟲能夠更加便捷暢通的訪問資源數(shù)據(jù),完善URL的系統(tǒng)性,必須將所有形式的URL進行統(tǒng)一規(guī)范以形成一個覆蓋全面的標準.

      最后是網(wǎng)絡(luò)爬蟲的URL去重問題.之所以會產(chǎn)生URL的去重問題,是因為互聯(lián)網(wǎng)本身就是一個結(jié)構(gòu)組成復(fù)雜,資源覆蓋面廣且相互之間存在著復(fù)雜的引用關(guān)系的一個系統(tǒng).因此在網(wǎng)絡(luò)爬蟲工作在不同的頁面中就會提取到同一個URL,此時網(wǎng)絡(luò)爬蟲就必須在這多重URL中進行去重,選擇最適合的一個URL.

      3.4 頁面資源下載緩慢,網(wǎng)絡(luò)爬蟲程序是從若干個URL鏈接中提取相關(guān)資源,對于相關(guān)鏈接資源,需進行下載定位,頁面資源下載緩慢,是當(dāng)前需要解決的問題.除此之外,目前的網(wǎng)絡(luò)爬蟲技術(shù),只能提取文本內(nèi)容,但是針對網(wǎng)頁頁面而言,對于頁面元素的提取,最后到網(wǎng)頁內(nèi)容的精確定位,到目前還言,相關(guān)研究還很少.

      4 對策分析

      網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成.目前,國際網(wǎng)絡(luò)研究對網(wǎng)絡(luò)爬蟲的研究越來越深入,盡管研究并不是全面徹底,但對分布式網(wǎng)絡(luò)爬蟲的協(xié)作分工和文件存儲系統(tǒng)效率問題、聚焦網(wǎng)絡(luò)爬蟲的頁面相關(guān)性算法、PageRank等URL重要度算法等方面研究較為詳細,研究資料也較為詳實,不足的是對單機網(wǎng)絡(luò)爬蟲的相關(guān)性能研究較少.

      4.1 頁面下載策略

      4.1.1 采用gzip/deflate壓縮編碼傳輸

      伴隨信息產(chǎn)業(yè)的迅速發(fā)展,網(wǎng)絡(luò)資源類型也多種多樣,資源的格式、質(zhì)量、運行環(huán)境也各不相同.針對網(wǎng)頁資源而言,大小差距很大,從幾百KB到幾KB.在一定可靠的網(wǎng)絡(luò)運行環(huán)境下,網(wǎng)絡(luò)傳送時間較長,則證明網(wǎng)絡(luò)數(shù)據(jù)分組較大.因此要加速完成數(shù)據(jù)傳輸傳入過程就要將網(wǎng)絡(luò)數(shù)據(jù)的傳輸量盡量縮減.

      有效將網(wǎng)絡(luò)數(shù)據(jù)傳輸量減少的方法之一就是文件數(shù)據(jù)壓縮.gzip它是一個GNU自由軟件的文件壓縮程序.該壓縮法是較為常用的沒有任何數(shù)據(jù)損失的壓縮程序算法,應(yīng)用gzip壓縮時,效果最為顯著的就是對純文本文件的gzip壓縮,可以將文件大小壓縮至原來的75%甚至更多.程序進行g(shù)zip壓縮后,不僅可以提高網(wǎng)頁運行速度,完善用戶瀏覽體驗,而且在瀏覽網(wǎng)頁時省去很多流量使用.

      gzip壓縮編碼也可以應(yīng)用在超文本傳輸協(xié)議上,主要目的是完善并提高網(wǎng)絡(luò)應(yīng)用程序的性能.通過gzip壓縮流量使用較多的網(wǎng)絡(luò)站點可以從某種程度上提高用戶網(wǎng)頁瀏覽速度.Web服務(wù)器中本身都含有g(shù)zip壓縮功能,因此一旦有用戶訪問某個網(wǎng)絡(luò)站點,服務(wù)器中的該功能馬上將gzip壓縮后的網(wǎng)頁內(nèi)容傳送到電腦瀏覽器并顯示出來.gzip/deflate壓縮編碼傳輸直接緩解了服務(wù)器加載大量信息的負載,也提高了用戶接收網(wǎng)頁傳輸數(shù)據(jù)的速率.

      萬維網(wǎng)中g(shù)zip壓縮功能的處理過程如下:

      (1)http將用戶需求發(fā)送至web服務(wù)器,若用戶需求中含有Accept-Encoding類似字符的要求則說明包含gzip壓縮頁面數(shù)據(jù)信息,需要提前檢查服務(wù)器配置是否含有g(shù)zip壓縮功能.

      (2)若服務(wù)器含有g(shù)zip壓縮裝置,壓縮后會直接顯示到瀏覽器上.

      (3)若用戶請求文件是靜態(tài)文件如,html css等,服務(wù)器自動檢查目錄中是否存在最新壓縮文件.

      (4)若請求的壓縮文件沒有出現(xiàn)在緩沖目錄中,網(wǎng)絡(luò)服務(wù)器將沒有壓縮的請求文件反饋給用戶,同時請求存放在緩沖目錄中以便進行壓縮.

      (5)若最新要進行壓縮的文件已經(jīng)在緩沖目錄中了,則要直接進行文件壓縮.

      (6)若用戶請求的文件類型是動態(tài)文件,Web服務(wù)器動態(tài)壓縮內(nèi)容并返回給用戶,壓縮內(nèi)容不存放到壓縮緩存目錄中.

      4.1.2 異步非阻塞下載,提升CPU利用率

      網(wǎng)絡(luò)爬蟲的工作效率事實上是受到網(wǎng)頁數(shù)據(jù)的影響的,從網(wǎng)絡(luò)爬蟲基于URL要求發(fā)出數(shù)據(jù)請求到頁面接收數(shù)據(jù)并返回這一過程中存在一段時間的間隔,在這一段時間間隔內(nèi)如果網(wǎng)絡(luò)爬蟲只是等待而不從事其他工作,那么CPU就得不到充分的利用,造成資源閑置,且網(wǎng)絡(luò)爬蟲的工作效率也較為低下.反之,如果網(wǎng)絡(luò)爬蟲能充分利用這一時間間隔從事其他工作,等到數(shù)據(jù)返回之后再立刻進行分析,那么CPU的資源利用率就會大大提高.這一種機制也就是我們所說的非阻塞異步請求.

      4.2 URL相關(guān)策略

      通常人們所說的URL格式主要由三個部分組成:第一部分是必備部分,為協(xié)議部分,一般也成為網(wǎng)絡(luò)服務(wù)方式;第二部分代表的是資源存儲的主機TP地址,這一部分也可以用主機名或者是端口號代替,第二部分也是URL格式組成的必備部分;第三部分是資源在主機中存儲的具體位置,比如目標資源的文件名、網(wǎng)絡(luò)參數(shù)等等,這一部分并非必要的,有時候可以根據(jù)實際情況進行省略.URL相關(guān)策略中必須包含以下幾個問題和部分:

      4.2.1 URL搜索策略

      網(wǎng)絡(luò)爬蟲查找和選擇頁面的工作策略一共有兩種:一是采用遍歷圖的方式進行主題上搜索,遍歷順序一般遵從廣度優(yōu)先或是深度優(yōu)先的原則;二是堅持“最好優(yōu)先”原則對某一專題進行智能搜索.

      無主題搜索中的廣度優(yōu)先原則是最為普遍的,它的實現(xiàn)原理也是基于互聯(lián)網(wǎng)的存在,即選擇一個網(wǎng)頁,然后抓取與之相關(guān)的網(wǎng)頁,層層遞推,從而獲取到所有網(wǎng)頁.以某HTML的文件為例,該文件共有三個超級鏈接,網(wǎng)絡(luò)爬蟲在工作中會選擇其中之一進行下載和處理,然后再通過關(guān)系網(wǎng)處理另外另個連接,在此基礎(chǔ)上再接著深層處理相關(guān)的URL.廣度優(yōu)先搜索的優(yōu)勢十分明顯:

      (1)由于廣度優(yōu)先搜索是從淺層次的URL開始處理的,所以無論是結(jié)構(gòu)如何復(fù)制的分支,最終都可以實現(xiàn)文檔的返回.

      (2)廣度優(yōu)先的原則首先處理了位于淺層的高相關(guān)性頁面,能迅速切全面的發(fā)現(xiàn)高質(zhì)量頁面.

      (3)廣度優(yōu)先的原則可以實現(xiàn)多個網(wǎng)絡(luò)爬蟲同時合作抓取數(shù)據(jù),從站內(nèi)鏈接入手再普及到站外鏈接,能真正做到全面覆蓋.

      深度優(yōu)先是網(wǎng)絡(luò)爬蟲早期的工作策略,它的工作原理是在選擇一個最淺層選擇一個鏈接,然后深度搜索該連接下的數(shù)據(jù),在該鏈達到盡頭以后再返回數(shù)據(jù)重新選擇新的鏈接起始.循環(huán)往復(fù),一直到所有鏈接都以被操作以后,該次搜索才算結(jié)束.

      4.2.2 URL提取策略

      網(wǎng)絡(luò)爬蟲在工作中向站點請求的是頁面數(shù)據(jù)但是返回是HTML代碼.用戶在瀏覽器上查看的到內(nèi)容事實上就是一系列動態(tài)代碼和HTML代碼執(zhí)行后的網(wǎng)頁化呈現(xiàn).網(wǎng)絡(luò)爬蟲只有將所有的URL超鏈接從返回的網(wǎng)頁源文件中提取出來才算完成整個爬行過程,才能進行新的爬行.

      4.2.3 URL規(guī)范策略

      網(wǎng)址URL規(guī)范化的定義是搜索引擎挑選最好的URL網(wǎng)址作為真正網(wǎng)址的過程,強調(diào)的是.選擇的唯一的作為規(guī)范化的網(wǎng)址.細而言之,當(dāng)出現(xiàn)多個頁面鏈接都包含相同內(nèi)容時,導(dǎo)致大量的同類復(fù)制內(nèi)容的網(wǎng)頁,則要通過各種方法篩選,只保留標準規(guī)范化的唯一網(wǎng)頁,而不保留其他網(wǎng)頁.從網(wǎng)絡(luò)爬蟲的角度上說,規(guī)范化的URE縮減了大量復(fù)制內(nèi)容的網(wǎng)頁數(shù)據(jù)分析,減少URL向服務(wù)器請求資源以避免錯誤率.

      (1)超鏈接網(wǎng)址的各個域名要補充完整.網(wǎng)頁中大多數(shù)超鏈接地址沒有協(xié)議類型或主機名,補充的同時要按照超鏈接網(wǎng)頁的URL進行填補.一般來說,有的網(wǎng)頁超鏈接會省略不保留協(xié)議名稱或主機名,則說明和母頁的域名相同.

      (2)將網(wǎng)頁存在形式的相對路徑轉(zhuǎn)化為絕對路徑,通過處理文件路徑和參數(shù)的方法使URL規(guī)范化.在所有互聯(lián)網(wǎng)頁面中,絕大部分超鏈接網(wǎng)址的存在形式都是相對而言的,即相對路徑.當(dāng)主機名稱與主機ip地址一致時,可以把主機名轉(zhuǎn)化為ip地址,或者改變名稱中參數(shù)順序,保證同一個主機只能以一種形式出現(xiàn)一次.

      5 結(jié)束語

      網(wǎng)絡(luò)爬蟲技術(shù)在網(wǎng)絡(luò)搜索引擎應(yīng)用中起到舉足輕重的作用,爬蟲程序的算法邏輯,URL處理方式,直接影響到頁面搜索的反應(yīng)效率,以及網(wǎng)頁庫的新鮮度.本文首先分析了網(wǎng)絡(luò)爬蟲在信息搜索過程中面臨的技術(shù)問題,并以此為依托,針對問題,提出了相關(guān)策略,對URL進行嚴格正規(guī)化處理,希望有效降低URL出錯率,以及爬蟲的誤導(dǎo)性,真正發(fā)揮網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的作用.

      〔1〕曹忠,趙文靜.一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J].電腦知識與技術(shù),2008(35).

      〔2〕王軍,彭建.網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)設(shè)計研究[J].科技信息(學(xué)術(shù)研究),2007(27).

      〔3〕賀財平,覃事剛,劉建勛.W eb服務(wù)搜索引擎的設(shè)計與實現(xiàn)[J].計算機應(yīng)用與軟件,2011(01).

      〔4〕劉磊安,符志強.基于 Lucene.net網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J].電腦知識與技術(shù),2010(08).

      〔5〕何志文,郭利剛.搜索引擎技術(shù)在互聯(lián)網(wǎng)音視頻節(jié)目監(jiān)測系統(tǒng)中的應(yīng)用 [J].廣播與電視技術(shù),2009(03).

      〔6〕石柯,周利兵,陶文兵.基于移動代理的 MAISE爬蟲的設(shè)計與實現(xiàn)[J].華中科技大學(xué)學(xué)報(自然科學(xué)版),2005(S1).

      〔7〕周巍巍.網(wǎng)絡(luò)爬蟲網(wǎng)頁庫智能更新策略分析與研究[J].電腦知識與技術(shù),2010(31).

      猜你喜歡
      爬蟲搜索引擎網(wǎng)頁
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
      電子制作(2018年10期)2018-08-04 03:24:38
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      10個必知的網(wǎng)頁設(shè)計術(shù)語
      车致| 界首市| 林甸县| 永宁县| 抚宁县| 亳州市| 德江县| 林口县| 延吉市| 衡阳县| 五家渠市| 鄱阳县| 炉霍县| 库尔勒市| 克山县| 盐山县| 蒙阴县| 湘阴县| 府谷县| 崇明县| 东阳市| 浙江省| 中牟县| 苍山县| 内乡县| 荣成市| 惠安县| 福鼎市| 瓦房店市| 五家渠市| 双流县| 合阳县| 溆浦县| 全南县| 正镶白旗| 高平市| 吉木乃县| 台中市| 六盘水市| 舞阳县| 搜索|