Web搜索引擎設(shè)計原理與發(fā)展方向探究*

2011-08-15 00:54:40宋婷婷

湖北科技學(xué)院學(xué)報 2011年12期

關(guān)鍵詞：查全率分詞搜索引擎

宋婷婷

(福建農(nóng)林大學(xué)軟件工程學(xué)院，福建福州 350002)

Web搜索引擎設(shè)計原理與發(fā)展方向探究*

宋婷婷

(福建農(nóng)林大學(xué)軟件工程學(xué)院，福建福州 350002)

闡述了Web全文搜索引擎的工作原理及其性能指標(biāo)，指出當(dāng)前Web搜索引擎存在精度偏低、用戶體驗不理想、商業(yè)氛圍過濃等問題，提出搜索引擎未來發(fā)展的方向.

搜索引擎;Web;發(fā)展

引言

20世紀(jì)90年代初，阿帕網(wǎng)正式實現(xiàn)商用，全球范圍內(nèi)的計算機互聯(lián)網(wǎng)開始形成，使得世界各地的距離拉近，然而人們更多的通過電子郵件進行互聯(lián)網(wǎng)通信.人們需要一種平臺，所見即所得地反映所需的信息，1993年W3C提出的Web平臺宣告誕生，此后，Web這詞幾乎成了互聯(lián)網(wǎng)的代名詞，人們通過網(wǎng)頁可實現(xiàn)真正意義上的網(wǎng)際沖浪.此時，Web的數(shù)量也在迅速增長.據(jù)統(tǒng)計，1998年互聯(lián)網(wǎng)上的Web頁面已經(jīng)達到了2600萬個，到了2000年就突破了10億，到了10年后的2008年更是達到了1萬億個頁面.

但是，此時的Web已經(jīng)不像它誕生時那樣精煉，而是充滿了冗余數(shù)據(jù)，解決該問題的途徑就是建立互聯(lián)網(wǎng)搜索引擎，實際上搜索引擎幾乎是伴隨著因特網(wǎng)一起誕生的.

目前已存在的搜索引擎大致可以分為三類:全文搜索引擎、目錄搜索引擎與元搜索引擎三種.其中技術(shù)要求最高的是全文搜索引擎，它需要包括信息抓取、分詞、索引、搜索等幾個重要步驟，當(dāng)前，大部分的搜索引擎研究都是圍繞著全文搜索引擎來開展的.

1 全文搜索引擎原理

1.1 信息抓取

信息抓取是由Spider(網(wǎng)絡(luò)蜘蛛)來實現(xiàn)的，Spider只是段程序，能夠從起始頁面順著超鏈接訪問其他頁面，互聯(lián)網(wǎng)上的頁面就是通過超鏈接上的URL構(gòu)成了一個網(wǎng)狀的集合，因此，Spider從一個或一組URL開始，訪問該URL并進行本地索引，同時記錄該URL所指HTML文件中所有新的URL錨鏈(anchor);然后再以這些新的URL為起點，繼續(xù)進行該站點內(nèi)的爬行，直到再沒有滿足條件的新URL為止.通常搜索引擎會生成多個信息采集Spider，自動根據(jù)初始搜索列表和一定的搜索策略去WWW站點搜集文檔，同時把所經(jīng)頁面內(nèi)容保存在數(shù)據(jù)庫中，便于建立索引.

1.2 信息的分析、存儲

對由Spider搜集的文檔，從搜索引擎服務(wù)器中提取出表達文檔的特征信息，為了使開發(fā)出來的系統(tǒng)能夠?qū)崿F(xiàn)模糊查詢，還須分析建立關(guān)鍵詞的近義詞庫.另外，超級鏈接分析在Web結(jié)構(gòu)挖掘中處于核心地位，我們必須分析出每一個頁面的出度、入度，便于后面頁面重要性權(quán)值的計算.對網(wǎng)頁提取特征信息后，由定義的DTD生成該網(wǎng)頁的XML文檔，通過其中的自定義標(biāo)簽來記錄信息.

1.3 信息的索引

在搜索引擎中需要根據(jù)頁面內(nèi)容建立索引，提高搜索引擎的效率，因為對于海量的數(shù)據(jù)來說，使用Like語句這樣的匹配方法來查詢，其速度是十分低下的.另外，為進一步提高檢索效率，在建立索引之前，我們必須對頁面中的內(nèi)容進行分詞處理，它是通過分詞器來進行的，比如，將“中華人民”，分割成“中華”、“人民”，根據(jù)這些切分好的詞匯，構(gòu)建索引，當(dāng)然要實現(xiàn)例子中所展示的精確分詞效果，還需有個分詞詞庫來協(xié)助完成工作.

1.4 信息的查詢檢索

通常，搜索引擎都會有個Web界面，通過該界面上的瀏覽器控件，用戶可填入所要查詢的關(guān)鍵詞并將信息通過控件提交給引擎服務(wù)器.此時，服務(wù)器端就會根據(jù)用戶所提交關(guān)鍵詞訪問數(shù)據(jù)庫，迅速地根據(jù)之前建立的索引找到跟主題相關(guān)的頁面及其附屬信息，此即信息檢索.

1.5 信息檢索結(jié)果排序

如果不討論Web結(jié)構(gòu)挖掘，通常情況下信息排序只考慮用戶查詢的關(guān)鍵詞在頁面中出現(xiàn)的次數(shù)，次數(shù)越高的，排名越前.要是考慮Web結(jié)構(gòu)，還須分析這些頁面的出度，入度，讓被其他頁面鏈接次數(shù)最多的頁面(即權(quán)威頁面)排在最前，這就需根據(jù)一定的算法規(guī)則(如PageRank、HITS)分析，計算出結(jié)構(gòu)的權(quán)值，根據(jù)這些權(quán)值進行排序.

1.6 信息的用戶接口輸出

信息的輸出即將前面生成的結(jié)果用Web界面的形式傳遞給用戶，它是搜索引擎本次查詢工作的終點，終端用戶由此獲得查詢結(jié)果，同時評價該搜索引擎的性能.

2 搜索引擎的主要性能指標(biāo)

2.1 召回率——查全率

搜索引擎的召回率指的是搜索引擎的檢索結(jié)果中與主題相關(guān)的頁面數(shù)除以當(dāng)前整個網(wǎng)絡(luò)Web環(huán)境中與主題相關(guān)的頁面數(shù)所獲得的比值，這個指標(biāo)衡量的是搜索引擎的查全率.

由以上的定義，要想獲得當(dāng)前搜索引擎的查全率，顯然條件是非常苛刻的，因為網(wǎng)絡(luò)環(huán)境中隨時可能產(chǎn)生新的與主題相關(guān)的頁面，也可能刪除原有的頁面，頁面數(shù)量千變?nèi)f化，這就使得我們根本無法掌握網(wǎng)絡(luò)的現(xiàn)有狀態(tài)，也就無法進行計算，因此查全率只能在規(guī)模較小而且相對比較穩(wěn)定的網(wǎng)絡(luò)中，進行一個大概的估算.而對于Internet這樣的廣域網(wǎng)，人們根據(jù)多目標(biāo)優(yōu)化的思想提出了一種新的概念——相對查全率.

相對查全率不再以整個網(wǎng)絡(luò)環(huán)境的相關(guān)頁面數(shù)作為參照物的，而是以若干個搜索引擎中的最優(yōu)與最差對象作為參照物進行相對的比較，這樣就使得整個計算有章可循.

2.2 精確度——查準(zhǔn)率

搜索引擎的精確度是指在搜索引擎的檢索結(jié)果中與搜索主題相關(guān)的頁面數(shù)除以檢索到的全部頁面數(shù)所得到的比值，這個指標(biāo)衡量的是搜索引擎的查準(zhǔn)率.

要提高精確度，就要注重所建立索引的合理性，也和分詞系統(tǒng)的工作效率密不可分，當(dāng)然一般情況下，也和用戶的查詢關(guān)鍵詞的準(zhǔn)確性有關(guān)系.

3 當(dāng)前搜索引擎存在的問題與其發(fā)展方向

3.1 搜索引擎存在的問題

(1)精確度偏低

由于互聯(lián)網(wǎng)中的頁面數(shù)量大，而且變化也大，因此抓取頁面本身就是一個難度很大的工作，接下來，由于搜索引擎上的分詞(特別是中文分詞)存在偏差，以及所使用的鏈接分析算法的缺陷，這一系列因素導(dǎo)致了人們在搜索的時候發(fā)現(xiàn)搜索的結(jié)果和預(yù)期存在相當(dāng)程度上的偏差.

(2)搜索結(jié)果沒有進行有效組織，處于混亂、無序的狀態(tài)，無法給用戶提供良好的搜索體驗.

這方面的缺陷主要是由于沒有使用合理的頁面權(quán)威度權(quán)值來進行頁面排序，使得與主題相關(guān)度較低的頁面出現(xiàn)在輸出結(jié)果的前列，如今，關(guān)于頁面權(quán)值分析的算法主要有HITS、PageRank以及兩種算法的改進形式，其中一部分已經(jīng)在實際系統(tǒng)中使用，但是更多的還處于實驗室評測研究階段.

(3)商業(yè)氣氛濃重，人為地采用競價排名，干擾正常搜索結(jié)果輸出

一些國內(nèi)的搜索引擎為了商業(yè)上的利益，直接或者變相使用競價排名機制，這種機制在市場經(jīng)濟的今天自然無可厚非，但那是從經(jīng)濟學(xué)、社會學(xué)角度討論，而從用戶角度來說，這明顯影響到他們的正常搜索活動，因為任何人都不希望搜索到的結(jié)果中充斥著各類廣告等無用數(shù)據(jù)，另外，從Web挖掘技術(shù)的角度來看，這也很明顯與其研究方向背道而馳.

3.2 搜索引擎的發(fā)展方向

3.2.1 提高搜索引擎的智能化水平

在現(xiàn)有搜索引擎的搜索模式下，用戶要解決一個問題，需要把這個問題的關(guān)鍵字輸入搜索引擎中，再搜索引擎返回與這個問題相關(guān)的頁面，但此時用戶并沒有馬上獲得問題的解決，而是需要通過人工分辨查找信息內(nèi)容是否符合用戶要求，智能化水平低下，為了克服關(guān)鍵詞檢索和目錄查詢的缺點，現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能查詢.用戶可以用口語化的提問輸入問題，如“Who is Washington?”.搜索引擎在對提問進行語法結(jié)構(gòu)和語義的分辨，智能地添加關(guān)鍵字進行檢索，從而直接給出提問的答案，或形成若干個可能的問題，讓用戶進行選擇后獲得結(jié)果.

3.2.2 確定搜索引擎信息搜集范圍，提高搜索引擎的針對性

搜索引擎的另外一個方向是發(fā)展垂直主題搜索引擎.人們平時常用的搜索引擎都是橫向的，而對于某個專業(yè)的專業(yè)人員來說，他所需要的是跟該學(xué)科方向緊密相關(guān)的信息，比如:企業(yè)管理人員，搜索“ASP”希望獲得的信息是和“Application Service Provider(應(yīng)用服務(wù)提供商)”相關(guān)的信息內(nèi)容，但是在通用的橫向搜索引擎搜索所獲得結(jié)果大量與“Active Serve Page(動態(tài)服務(wù)頁)”相關(guān)的計算機Web開發(fā)的知識，這就是問題所在，因此發(fā)展垂直主題搜索引擎是十分必要的，通過垂直主題搜索引擎不僅可以給用戶提供專業(yè)方向(如:股票、天氣等)的信息檢索而且提高了搜索引擎搜索效率和用戶的信息利用率.

3.3.3 多媒體搜索

隨著搜索平臺的不斷完善，現(xiàn)有的許多搜索引擎已經(jīng)不僅像其最初時那樣只提供純文本的檢索，還推出了圖片、視頻等多媒體信息的檢索功能，但是，我們必須意識到，這圖片、視頻等信息還是基于文本內(nèi)容的，搜索引擎只不過是搜索圖片、視頻所在頁面的文本來獲得相關(guān)的多媒體數(shù)據(jù).那么，如果用戶碰到這樣的問題:在他的計算機里存放著一首鋼琴曲的音頻文件，但是他并不知道這首曲子的名字叫什么，那么這時，他就需要一個搜索引擎能夠把這個音頻文件當(dāng)成搜索主題，在網(wǎng)絡(luò)中查找與該文件相符的音頻，并查找到這段樂曲的名字，這實際上就是一個逆向的過程，原先我們是通過文本查找到音頻，現(xiàn)在要根據(jù)音頻查找的文本，而后者才是真正意義上的多媒體搜索，它的搜索主題不再只是文字，而是各種多媒體的編碼.然而，現(xiàn)有的多媒體檢索大部分還處于在研究開發(fā)階段，還面臨著許多困難，比如:數(shù)據(jù)量大、編碼解碼以及匹配的時間消耗等，盡管如此，多媒體檢索必然要在將來占據(jù)信息檢索的重要地位.

3.2.4 支持Web2.0標(biāo)準(zhǔn)的頁面搜索

近幾年，業(yè)內(nèi)在Web開發(fā)技術(shù)上取得了很大的進步，Web已經(jīng)由原先的B/S模式，向著富客戶端模式RIA的方向發(fā)展，即Web2.0，在這種全新的環(huán)境下，用戶可以在瀏覽器中獲得本地桌面般的界面體驗.RIA系統(tǒng)的開發(fā)工具也比傳統(tǒng)的Web開發(fā)豐富得多，F(xiàn)lex、Ajax等技術(shù)都能夠進行開發(fā).但是，無論開發(fā)手段如何豐富，整個系統(tǒng)還是要以瀏覽器作為載體來運行，而開發(fā)工具的不同，導(dǎo)致系統(tǒng)結(jié)構(gòu)已經(jīng)不再是單一的HTML語言，在這前提下，傳統(tǒng)的基于HTML超鏈接的搜索引擎蜘蛛程序無法正常地發(fā)現(xiàn)這種新的頁面，必然造成主題信息的大量流失.因此，搜索引擎對RIA系統(tǒng)信息的支持，也是現(xiàn)在搜索引擎需要研究的方向，畢竟，Web2.0是Web發(fā)展的一種趨勢.

4 結(jié)論

在未來，Web搜索引擎仍然將在互聯(lián)網(wǎng)生活中扮演著十分重要的角色，進一步提高其性能，并且能夠提供種類豐富的查詢手段，是其發(fā)展的必然結(jié)果.本文對搜索引擎的發(fā)展提出了自己的建議與想法，希望能夠?qū)ヂ?lián)網(wǎng)搜索引擎的發(fā)展貢獻微薄之力.

［1］朱麗紅，趙燕平.Web挖掘研究綜述［J］.情報技術(shù)，2004，(7):2 ～5.

［2］鳳元杰，劉正春，王堅毅.搜索引擎主要性能評價指標(biāo)體系研究［J］.情報學(xué)報，2004，23(1):63～68.

［3］袁津生，蔡岳.搜索引擎原理與實踐［M］.北京:北京郵電大學(xué)出版社，2008:26～33.

［4］李曉明，閆宏飛，王繼民.搜索引擎:原理、技術(shù)與系統(tǒng)［M］.北京:科學(xué)出版社，2005.8 ～13.

［5］張曉濱，石美紅，蔡桂洲.校園網(wǎng)搜索引擎設(shè)計［J］.西安工程科技學(xué)院學(xué)報，2002，(3):243～246.

TP31

1006－5342(2011)12－0108－02

2011－10－13

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

Web搜索引擎設(shè)計原理與發(fā)展方向探究*

引言

1 全文搜索引擎原理

1.1 信息抓取

1.2 信息的分析、存儲

1.3 信息的索引

1.4 信息的查詢檢索

1.5 信息檢索結(jié)果排序

1.6 信息的用戶接口輸出

2 搜索引擎的主要性能指標(biāo)

2.1 召回率——查全率

2.2 精確度——查準(zhǔn)率

3 當(dāng)前搜索引擎存在的問題與其發(fā)展方向

3.1 搜索引擎存在的問題

3.2 搜索引擎的發(fā)展方向

3.2.1 提高搜索引擎的智能化水平

3.2.2 確定搜索引擎信息搜集范圍，提高搜索引擎的針對性

3.3.3 多媒體搜索

3.2.4 支持Web2.0標(biāo)準(zhǔn)的頁面搜索

4 結(jié)論

1.2 信息的分析、存儲

3.2.2 確定搜索引擎信息搜集范圍，提高搜索引擎的針對性