• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      高精確搜索引擎

      2015-05-30 03:14:49李慧趙旭
      東方教育 2015年4期
      關(guān)鍵詞:爬蟲搜索引擎網(wǎng)頁

      李慧 趙旭

      【摘要】隨著互聯(lián)網(wǎng)上的信息每天都以指數(shù)數(shù)量級的速度爆炸性增長,Internet中的資源令人眼花繚亂,如何能夠迅速準(zhǔn)確地找到所需的信息,已成為眾多信息檢索人員所面臨的一個問題,而搜索引擎在這方面起到了具足輕重的作用。本文主要分析了基于精確搜索引擎中網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn),并提出了相應(yīng)的方法和手段。通過研究精確搜索引擎技術(shù),分析了一般的網(wǎng)絡(luò)爬蟲的工作原理,在此基礎(chǔ)上設(shè)計了一個更加精確的搜索引擎系統(tǒng),在這個系統(tǒng)中將內(nèi)容和鏈接運(yùn)用邏輯域的方法相結(jié)合,用戶可以根據(jù)選擇的關(guān)鍵詞的邏輯關(guān)系來進(jìn)行搜索。

      【關(guān)鍵詞】精確搜索引擎;網(wǎng)絡(luò)爬蟲;算法;邏輯域

      一.引言

      隨著科技的進(jìn)步,通用搜索引擎無論是在技術(shù)上還是在硬件條件上都有了明顯的提高。但是,即使最大通用搜索引擎到現(xiàn)在為止也只能覆蓋不到一半的網(wǎng)絡(luò),并且對搜索數(shù)據(jù)庫的更新,一般至少也需要數(shù)十天甚至數(shù)百天。其原因是因為想要通過搜索引擎的搜索功能去滿足用戶想要得到的查詢結(jié)果,雖然這種通過“廣泛撒網(wǎng)”的搜索方法有其不可替代的優(yōu)點(diǎn),但卻往往給用戶帶來太多不必要的垃圾信息。

      二.精確搜索引擎

      2.1精確搜索引擎的特點(diǎn)

      通用搜索引擎的缺點(diǎn)來自于它們力圖覆蓋整個網(wǎng)絡(luò),并且不通過任何處理過程便把所有可能的主題作為查詢服務(wù)的目標(biāo)。精確搜索引擎由于其面向主題就克服了以上缺點(diǎn),具備更高的查準(zhǔn)率和查全率,因為它們將搜索信息的內(nèi)容限定在一定的領(lǐng)域內(nèi)有效鎖定了搜索的范圍。一個面向主題的搜索引擎用一部分符合邏輯關(guān)系的事先選定好的網(wǎng)頁作為體現(xiàn)用戶興趣的樣本。為了獲得更多相關(guān)的網(wǎng)頁,主要精確搜索引擎從一個給定的集合出發(fā),對基于內(nèi)容的網(wǎng)頁相關(guān)度算法進(jìn)行分析。

      精確的搜索引擎其功能要求與通用搜索引擎是不相同的,主要體現(xiàn)在以下幾點(diǎn):

      (1)通用搜索引擎的目標(biāo)是對整個Internet的資源進(jìn)行收集,搜集的網(wǎng)頁越多,搜索引擎就越全面,而面向主題的搜索引擎只需要針對既定內(nèi)容的既定主題進(jìn)行搜集,兩者在搜索的網(wǎng)頁信息量上在不同的數(shù)量級上。

      (2)通用搜索引擎幾乎要對網(wǎng)頁內(nèi)所有的信息都進(jìn)行分析、檢索,而精確搜索引擎的網(wǎng)頁抓取準(zhǔn)確性很高,能夠提取用戶 關(guān)心的主題邏輯進(jìn)行搜索,搜索的范圍相對縮小,這樣更有利于快速搜集到用戶關(guān)心的網(wǎng)頁。

      (3)在通用搜索引擎中搜索的是整個篇幅的網(wǎng)頁,而精確搜索引擎只索引出網(wǎng)頁內(nèi)與主題相關(guān)的信息,更有利于用戶查找信息。

      2.2網(wǎng)絡(luò)爬蟲的應(yīng)用

      網(wǎng)絡(luò)爬蟲可以被看作是為Internet開發(fā)的最有用的工具之一,它能夠從數(shù)以千計的各不相同的站點(diǎn)中收集信息。若將真?zhèn)€互聯(lián)網(wǎng)看做是一個網(wǎng)站,那么網(wǎng)絡(luò)爬蟲就可以利用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。

      相對于通用網(wǎng)絡(luò)爬蟲,主題精確搜索引擎的爬蟲還需要解決三個主要問題:

      (1)對抓取目標(biāo)的描述或定義的邏輯關(guān)系判定

      (2)對網(wǎng)頁或數(shù)據(jù)的分析與過濾

      (3)對URL的搜索策略

      網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會導(dǎo)致爬蟲的陷入問題,常見的是廣度優(yōu)先和最佳優(yōu)先方法。

      三.高精確搜索引擎的設(shè)計

      本文的設(shè)計采取了面向主題的精確搜索策略,在針對搜索內(nèi)容中關(guān)鍵字的查詢時確定下一個主題,應(yīng)用爬蟲程序直接從站點(diǎn)數(shù)據(jù)表中抓取網(wǎng)頁。由于Internet上的各種信息在爬蟲爬行過程中都會遇到,所以在創(chuàng)爬蟲建時不僅需要確保它能夠檢索數(shù)據(jù),而且還要做到分析數(shù)據(jù)和理解數(shù)據(jù)。由于從Web站點(diǎn)找到的大部分?jǐn)?shù)據(jù)都存儲在HTML文檔之中,因此HTML的數(shù)據(jù)類型為本系統(tǒng)中所關(guān)心的數(shù)據(jù),采用這種做法大大縮小了查找的范圍,同時也為下一步的網(wǎng)頁解析工作奠定了基礎(chǔ)。本系統(tǒng)的網(wǎng)絡(luò)爬蟲分為前臺和后臺兩個部分。前臺為用戶提供添加網(wǎng)址,作為種子站點(diǎn),其后再選擇主題進(jìn)行索引。后臺則是一個完整的爬蟲程序,其構(gòu)造是采用的多線程技術(shù),這種構(gòu)造能夠從種子站點(diǎn)數(shù)據(jù)表中讀取網(wǎng)頁地址,并且分析網(wǎng)頁代碼。

      本著一切立足于實際的理念,依據(jù)擬定的系統(tǒng)實施方案,對整個系統(tǒng)各方面的需求進(jìn)行了分析。在本次系統(tǒng)的實現(xiàn)上,主題精確搜索的數(shù)據(jù)采集是通過爬蟲程序來完成,與此同時使用了多種輔助策略。爬蟲程序的采集器從萬維網(wǎng)中采集回來數(shù)據(jù)經(jīng)過既設(shè)的處理(保留主題范圍內(nèi)的網(wǎng)頁,丟棄范圍之外的網(wǎng)頁)。其運(yùn)行的方法是在每爬行完一個頁面后,它就會抽取出相應(yīng)網(wǎng)頁中的鏈接,再剔除不可能與主題相關(guān)的鏈接和自己爬行的鏈接,然后將余下的鏈接按一定的順序加入到鏈接列表中。排序的規(guī)則就是預(yù)測被連接的頁面與主題的相關(guān)程度,相關(guān)性高的鏈接將會排在列表靠前的位置。最后,取出列表中排列最前的鏈接,那么用戶就得到了與主題相關(guān)的頁面。

      本系統(tǒng)模型設(shè)計基本上可以看作為:

      (1)從網(wǎng)上抓取網(wǎng)頁

      (2)建立數(shù)據(jù)庫

      (3)主題相關(guān)度分析

      (4)按照相關(guān)度排序

      通過對本系統(tǒng)模擬發(fā)仿真實驗,充分說明了一個主題爬蟲設(shè)計方案的可行性,以主題爬蟲為基礎(chǔ)可以開發(fā)主題精確搜索引擎,結(jié)合到具體應(yīng)用,主題爬蟲可以在受限領(lǐng)域內(nèi)進(jìn)行面向主題的信息采集。由此可見,主題精確搜索引擎雖然小巧,但是由于它使用了多種精確主題搜索引擎,使得它在一個特定主題下比通用搜索引擎要準(zhǔn)確貼切,這樣,用戶就能更快找到需要的信息。

      該系統(tǒng)所定義的是面向主題的精確搜索引擎,就總體而言,構(gòu)造了一個可以從自定義的web站點(diǎn)下載所有HTML文件的多線程網(wǎng)絡(luò)爬蟲程序,所謂多線程是指同一個程序在同一時刻運(yùn)行超過一個任務(wù)的能力,采用多線程技術(shù)可以提高爬蟲的運(yùn)行效率。一個網(wǎng)絡(luò)爬蟲需要同時下載多張網(wǎng)頁,想要完成此任務(wù),爬蟲程序必須向服務(wù)器發(fā)出請求然后接受這些網(wǎng)頁。程序等待響應(yīng)的過程就是程序執(zhí)行的一個瓶頸,因為盡管程序已經(jīng)請求了網(wǎng)頁,但必須要等待請求經(jīng)過Internet向web服務(wù)器傳輸。這種情況下,多線程技術(shù)將數(shù)個網(wǎng)頁的等待時間結(jié)合在一起,而不是一個接一個的執(zhí)行。當(dāng)爬蟲程序使用線程時,可以在計算遍歷算法和其他輔助運(yùn)算時同步訪問網(wǎng)站,這樣更有利于爬蟲的后臺操作。通過在多個作業(yè)之間的切換,可以使程序充分利用CPU的占有率和網(wǎng)卡資源。

      四.高精確搜索引擎的優(yōu)點(diǎn)和前景

      主題搜索引擎已成為一個新的研究、開發(fā)領(lǐng)域,在此基礎(chǔ)上,也應(yīng)當(dāng)對網(wǎng)絡(luò)爬蟲進(jìn)行適當(dāng)改進(jìn),因為在局域網(wǎng)的環(huán)境下,CPU的速度、硬盤速度、局域網(wǎng)速度等都會影響網(wǎng)絡(luò)爬蟲的線程性能,其中某一個環(huán)節(jié)的遲緩都將會對爬蟲的抓取和分析性能不利。此外,Internet領(lǐng)域的快速發(fā)展,新的網(wǎng)站、新的工具層出不窮,一個好的精確的搜索引擎需要不斷地跟新和提高。

      本文中設(shè)計的系統(tǒng)與現(xiàn)有的知名搜索引擎相比,其突出優(yōu)點(diǎn)就是利用邏輯域的判別分析方法把主題關(guān)鍵詞聯(lián)系起來,使得檢索結(jié)果邏輯匹配度提高,能夠達(dá)到精確搜索的目標(biāo)。同時,由于設(shè)計為“金字塔”型任務(wù)承擔(dān)模式,各個服務(wù)器能夠分擔(dān)適量的檢索任務(wù),頂級服務(wù)器由于是站在基礎(chǔ)服務(wù)器的基礎(chǔ)上進(jìn)行工作,所以其承擔(dān)的任務(wù)量并沒有增加。此外,由于在基層服務(wù)器就主動放棄檢索相關(guān)度不高的網(wǎng)頁,所以在總檢索網(wǎng)頁數(shù)量大幅度下降的情況下,檢索出來的網(wǎng)頁質(zhì)量會大幅增高,能夠在邏輯上更好地匹配關(guān)鍵詞,從而能夠達(dá)到精確搜索的目的。

      參考文獻(xiàn):

      [1]盧亮,張博文.搜索引擎原理、實踐與應(yīng)用[M].北京:電子工業(yè)出版社,2007.

      [2]謝新洲.網(wǎng)絡(luò)信息檢索技術(shù)與案例[M].北京:北京圖書館出版社,2005:29-30.

      [3]周立柱,林玲.聚焦爬蟲技術(shù)研究綜述[J].計算機(jī)應(yīng)用,2005,25(9):1965-1989.

      猜你喜歡
      爬蟲搜索引擎網(wǎng)頁
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
      電子制作(2018年10期)2018-08-04 03:24:38
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      10個必知的網(wǎng)頁設(shè)計術(shù)語
      台南市| 含山县| 老河口市| 罗源县| 苍南县| 樟树市| 阿城市| 淮北市| 同江市| 南宫市| 厦门市| 合阳县| 阿克陶县| 堆龙德庆县| 京山县| 磐安县| 陕西省| 务川| 都江堰市| 咸阳市| 龙里县| 河西区| 凤阳县| 察隅县| 新竹市| 六枝特区| 博湖县| 遂川县| 馆陶县| 平定县| 屏东市| 木兰县| 红河县| 沾益县| 广南县| 广河县| 乌拉特后旗| 准格尔旗| 容城县| 贵港市| 昌宁县|