• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      搜索引擎工作原理再探究

      2016-11-16 14:35:25王姣徐海霞
      電腦知識與技術 2016年25期
      關鍵詞:搜索引擎蜘蛛網頁

      王姣+徐海霞

      摘要:搜索引擎作為互聯網發(fā)展中至關重要的一種應用,是獲取網絡信息資源的重要工具。搜索引擎是一個復雜的網絡應用系統(tǒng),本文從工具應用的角度,采用圖表方式,介紹了搜索引擎的體系結構,分析其工作原理,重點探討其核心部分——索引庫的建立和搜索結果的排序。

      關鍵詞:搜索引擎;索引庫;排序

      中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)25-0165-02

      網頁己經成為人們獲取和發(fā)布信息的重要媒介。雖然網頁給我們帶來獲取信息的方便,但如此海量的網絡信息,很難用瀏覽的方式找到真正需要的信息。于是搜索引擎應運而生,并且成為Internet上非常重要的網絡導航服務工具。

      1 搜索引擎體系結構

      搜索引擎基本結構一般包括:搜索器、索引器、檢索器、用戶接口等四個功能模塊。

      1)搜索器,也叫網絡蜘蛛,是搜索引擎用來爬行和抓取網頁的一個自動程序,在系統(tǒng)后臺不停歇地在互聯網各個節(jié)點爬行,在爬行過程中盡可能快的發(fā)現和抓取網頁。

      2)索引器。它的主要功能是理解搜索器所采集的網頁信息,并從中抽取索引項。

      3)檢索器。其功能是快速查找文檔,進行文檔與查詢的相關度評價,對要輸出的結果進行排序。

      4)用戶接口。它為用戶提供可視化的查詢輸入和結果輸出的界面。

      2 搜索引擎的工作原理

      根據技術原理,可將多元化的搜索引擎歸為三大主要類型,即全文搜索引擎、基于目錄索引型(catalog)和元(meta)搜索引擎。其中,基于全文的robot搜索引擎原理具有典型性、普遍性。

      robot的全文搜索引擎的技術基礎文是全文檢索技術?;谌牡膔obot搜索引擎實際上是全文檢索技術的一種應用。一搜索引擎是架構在衡量搜索引擎的優(yōu)劣標準體系范圍之上的。衡量搜索引擎的評價指標,包括數據庫模和內容、索引方法、檢索功能、檢索結果、用戶界面等。隨著互聯網的深度發(fā)展,主流的搜索引擎設計更看重查詢時間,能實現即時互動。

      搜索引擎實際工作過程是極其繁雜的,圖1所示是其工作過程簡化圖。便于梳理和理解,可將其整個工作過程視為三個部分:一是蜘蛛在互聯網上爬行和抓取網頁信息,并存入原始網頁數據庫;二是對原始網頁數據庫中的信息進行提取和組織,并建立索引庫;三是根據用戶輸入的關鍵詞,快速找到相關文檔,并對找到的結果進行排序,并將查詢結果返回給用戶。下面對其工作原理做進一步分析。

      1)網頁抓取

      Spider每遇到一個新文檔,都要搜索其頁面的鏈接網頁。搜索引擎蜘蛛訪問web頁面的過程類似普通用戶使用瀏覽器訪問其頁面,即 B/S模式。引擎蜘蛛先向頁面提出訪問請求,服務器接受其訪問請求并返回HTML代碼后,把獲取的HTML代碼存入原始頁面數據庫。搜索引擎使用多個蜘蛛分布爬行以提高爬行速度。搜索引擎的服務器遍布世界各地,每一臺服務器都會派出多只蜘蛛同時去抓取網頁。如何做到一個頁面只訪問一次,從而提高搜索引擎的工作效率。在抓取網頁時,搜索引擎會建立兩張不同的表,一張表記錄已經訪問過的網站,一張表記錄沒有訪問過的網站。當蜘蛛抓取某個外部鏈接頁面URL的時候,需把該網站的URL下載回來分析,當蜘蛛全部分析完這個URL后,將這個URL存入相應的表中,這時當另外的蜘蛛從其他的網站或頁面又發(fā)現了這個URL時,它會對比看看已訪問列表有沒有,如果有,蜘蛛會自動丟棄該URL,不再訪問。

      2)預處理,建立索引

      為了便于用戶在數萬億級別以上的原始網頁數據庫中快速便捷地找到搜索結果,搜索引擎必須將spider抓取的原始web頁面做預處理。

      網頁預處理最主要過程是為網頁建立全文索引,之后開始分析網頁,最后建立倒排文件(也稱反向索引)。如圖2所示。

      Web頁面分析有以下步驟:判斷網頁類型,衡量其重要程度,豐富程度,對超鏈接進行分析,分詞,把重復網頁去掉。

      經過搜索引擎分析處理后,web網頁已經不再是原始的網頁頁面,而是濃縮成能反映頁面主題內容的、以詞為單位的文檔。數據索引中結構最復雜的是建立索引庫,索引又分為文檔索引和關鍵詞索引。每個網頁唯一的docID號是有文檔索引分配的,每個wordID出現的次數、位置、大小格式都可以根據docID 號在網頁中檢索出來。最終形成wordID的數據列表。

      倒排索引形成過程是這樣的:搜索引擎用分詞系統(tǒng)將文檔自動切分成單詞序列-對每個單詞賦予唯一的單詞編號-記錄包含這個單詞的文檔。

      倒排索引是最簡單的,實用的倒排索引還需記載更多的信息。在單詞對應的倒排列表除了記錄文檔編號之外,單詞頻率信息也被記錄進去,便于以后計算查詢和文檔的相似度。

      3)查詢服務

      在搜索引擎界面輸入關鍵詞,點擊“搜索”按鈕之后,搜索引擎程序開始對搜索詞進行以下處理:分詞處理、根據情況對整合搜索是否需要啟動進行判斷、找出錯別字和拼寫中出現的錯誤、把停止詞去掉。接著搜索引擎程序便把包含搜索詞的相關網頁從索引數據庫中找出,而且對網頁進行排序,最后按照一定格式返回到“搜索”頁面。

      查詢服務最核心的部分是搜索結果排序,其決定了搜索引擎的量好壞及用戶滿意度。實際搜索結果排序的因子很多,但最主要的因素之一是網頁內容的相關度。影響相關性的主要因素包括如下五個方面。

      (1)關鍵詞常用程度。經過分詞后的多個關鍵詞,對整個搜索字符串的意義貢獻并不相同。越常用的詞對搜索詞的意義貢獻越小,越不常用的詞對搜索詞的意義貢獻越大。常用詞發(fā)展到一定極限就是停止詞,對頁面不產生任何影響。所以搜索引擎用的詞加權系數高,常用詞加權系數低,排名算法更多關注的是不常用的詞。

      (2)詞頻及密度。通常情況下,搜索詞的密度和其在頁面中出現的次數成正相關,次數越多,說明密度越大,頁面與搜索詞關系越密切。

      (3)關鍵詞位置及形式。關鍵詞出現在比較重要的位置,如標題標簽、黑體、H1等,說明頁面與關鍵詞越相關。在索引庫的建立中提到的,頁面關鍵詞出現的格式和位置都被記錄在索引庫中。

      (4)關鍵詞距離。關鍵詞被切分之后,如果匹配的出現,說明其與搜索詞相關程度越大,當“搜索引擎”在頁面上連續(xù)完整的出現或者“搜索”和“引擎”出現的時候距離比較近,都被認為其與搜索詞相關。

      (5)鏈接分析及頁面權重。頁面之間的鏈接和權重關系也影響關鍵詞的相關性,其中最重要的是錨文字。頁面有越多以搜索詞為錨文字的導入鏈接,說明頁面的相關性越強。鏈接分析還包括了鏈接源頁面本身的主題、錨文字周圍的文字等。

      3 結尾語

      基于全文檢索技術在搜索引擎中應用至今,已經比較完善和成熟,但是隨著人類知識的進步,查詢用戶將會對搜索引擎提出新的要求。基于內容特征的多媒體搜索引擎在多媒體通信需求下應運而生,它是直接對媒體內容特征和上下文語義環(huán)境進行的檢索。同時,還有智能搜索引擎,是以人的自然語言技術為基礎,對人腦中的知識有一定的理解與處理能力。智能搜索引擎的出現,將信息檢索從目前基于關鍵詞的層面提高到基于知識的層面。以上新型搜索引擎處于開發(fā)初期,普及應用尚待完善。

      參考文獻:

      [1] 任鵬杰,陳竹敏,馬軍.一種綜合語義和時效性意圖的檢索結果多樣化方法[J].計算機學報,2015,38(10):76-91.

      [2] 楊同峰,馬軍.圖像的二維標注及在圖像檢索中的應用[J].模式識別與人工智能, 2013,26(1):70-75.

      [3] 高玉良,張濟強,白瑤.基于Lucene的多索引搜索的研究與應用[J].電腦知識與應用,2012(8):1471-75.

      猜你喜歡
      搜索引擎蜘蛛網頁
      基于CSS的網頁導航欄的設計
      電子制作(2018年10期)2018-08-04 03:24:38
      小蜘蛛凍僵了,它在哪兒呢?
      蜘蛛
      基于URL和網頁類型的網頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      網頁制作在英語教學中的應用
      電子測試(2015年18期)2016-01-14 01:22:58
      網絡搜索引擎亟待規(guī)范
      大蜘蛛
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      10個必知的網頁設計術語
      廣告主與搜索引擎的雙向博弈分析
      普兰县| 即墨市| 区。| 阳山县| 美姑县| 融水| 东乡| 黔东| 乐清市| 黄浦区| 海阳市| 隆林| 黄浦区| 乐安县| 教育| 北票市| 岳池县| 子长县| 石狮市| 麻栗坡县| 南丰县| 宿州市| 九龙县| 西丰县| 富民县| 固原市| 常州市| 科技| 汽车| 正镶白旗| 长岭县| 南通市| 大庆市| 长治市| 屏南县| 花莲市| 子长县| 宁安市| 洛隆县| 德阳市| 禹城市|