• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Web搜索引擎設(shè)計原理與發(fā)展方向探究*

      2011-08-15 00:54:40宋婷婷
      湖北科技學(xué)院學(xué)報 2011年12期
      關(guān)鍵詞:查全率分詞搜索引擎

      宋婷婷

      (福建農(nóng)林大學(xué)軟件工程學(xué)院,福建 福州 350002)

      Web搜索引擎設(shè)計原理與發(fā)展方向探究*

      宋婷婷

      (福建農(nóng)林大學(xué)軟件工程學(xué)院,福建 福州 350002)

      闡述了Web全文搜索引擎的工作原理及其性能指標(biāo),指出當(dāng)前Web搜索引擎存在精度偏低、用戶體驗不理想、商業(yè)氛圍過濃等問題,提出搜索引擎未來發(fā)展的方向.

      搜索引擎;Web;發(fā)展

      引言

      20世紀(jì)90年代初,阿帕網(wǎng)正式實現(xiàn)商用,全球范圍內(nèi)的計算機互聯(lián)網(wǎng)開始形成,使得世界各地的距離拉近,然而人們更多的通過電子郵件進行互聯(lián)網(wǎng)通信.人們需要一種平臺,所見即所得地反映所需的信息,1993年W3C提出的Web平臺宣告誕生,此后,Web這詞幾乎成了互聯(lián)網(wǎng)的代名詞,人們通過網(wǎng)頁可實現(xiàn)真正意義上的網(wǎng)際沖浪.此時,Web的數(shù)量也在迅速增長.據(jù)統(tǒng)計,1998年互聯(lián)網(wǎng)上的Web頁面已經(jīng)達到了2600萬個,到了2000年就突破了10億,到了10年后的2008年更是達到了1萬億個頁面.

      但是,此時的Web已經(jīng)不像它誕生時那樣精煉,而是充滿了冗余數(shù)據(jù),解決該問題的途徑就是建立互聯(lián)網(wǎng)搜索引擎,實際上搜索引擎幾乎是伴隨著因特網(wǎng)一起誕生的.

      目前已存在的搜索引擎大致可以分為三類:全文搜索引擎、目錄搜索引擎與元搜索引擎三種.其中技術(shù)要求最高的是全文搜索引擎,它需要包括信息抓取、分詞、索引、搜索等幾個重要步驟,當(dāng)前,大部分的搜索引擎研究都是圍繞著全文搜索引擎來開展的.

      1 全文搜索引擎原理

      1.1 信息抓取

      信息抓取是由Spider(網(wǎng)絡(luò)蜘蛛)來實現(xiàn)的,Spider只是段程序,能夠從起始頁面順著超鏈接訪問其他頁面,互聯(lián)網(wǎng)上的頁面就是通過超鏈接上的URL構(gòu)成了一個網(wǎng)狀的集合,因此,Spider從一個或一組URL開始,訪問該URL并進行本地索引,同時記錄該URL所指HTML文件中所有新的URL錨鏈(anchor);然后再以這些新的URL為起點,繼續(xù)進行該站點內(nèi)的爬行,直到再沒有滿足條件的新URL為止.通常搜索引擎會生成多個信息采集Spider,自動根據(jù)初始搜索列表和一定的搜索策略去WWW站點搜集文檔,同時把所經(jīng)頁面內(nèi)容保存在數(shù)據(jù)庫中,便于建立索引.

      1.2 信息的分析、存儲

      對由Spider搜集的文檔,從搜索引擎服務(wù)器中提取出表達文檔的特征信息,為了使開發(fā)出來的系統(tǒng)能夠?qū)崿F(xiàn)模糊查詢,還須分析建立關(guān)鍵詞的近義詞庫.另外,超級鏈接分析在Web結(jié)構(gòu)挖掘中處于核心地位,我們必須分析出每一個頁面的出度、入度,便于后面頁面重要性權(quán)值的計算.對網(wǎng)頁提取特征信息后,由定義的DTD生成該網(wǎng)頁的XML文檔,通過其中的自定義標(biāo)簽來記錄信息.

      1.3 信息的索引

      在搜索引擎中需要根據(jù)頁面內(nèi)容建立索引,提高搜索引擎的效率,因為對于海量的數(shù)據(jù)來說,使用Like語句這樣的匹配方法來查詢,其速度是十分低下的.另外,為進一步提高檢索效率,在建立索引之前,我們必須對頁面中的內(nèi)容進行分詞處理,它是通過分詞器來進行的,比如,將“中華人民”,分割成“中華”、“人民”,根據(jù)這些切分好的詞匯,構(gòu)建索引,當(dāng)然要實現(xiàn)例子中所展示的精確分詞效果,還需有個分詞詞庫來協(xié)助完成工作.

      1.4 信息的查詢檢索

      通常,搜索引擎都會有個Web界面,通過該界面上的瀏覽器控件,用戶可填入所要查詢的關(guān)鍵詞并將信息通過控件提交給引擎服務(wù)器.此時,服務(wù)器端就會根據(jù)用戶所提交關(guān)鍵詞訪問數(shù)據(jù)庫,迅速地根據(jù)之前建立的索引找到跟主題相關(guān)的頁面及其附屬信息,此即信息檢索.

      1.5 信息檢索結(jié)果排序

      如果不討論Web結(jié)構(gòu)挖掘,通常情況下信息排序只考慮用戶查詢的關(guān)鍵詞在頁面中出現(xiàn)的次數(shù),次數(shù)越高的,排名越前.要是考慮Web結(jié)構(gòu),還須分析這些頁面的出度,入度,讓被其他頁面鏈接次數(shù)最多的頁面(即權(quán)威頁面)排在最前,這就需根據(jù)一定的算法規(guī)則(如PageRank、HITS)分析,計算出結(jié)構(gòu)的權(quán)值,根據(jù)這些權(quán)值進行排序.

      1.6 信息的用戶接口輸出

      信息的輸出即將前面生成的結(jié)果用Web界面的形式傳遞給用戶,它是搜索引擎本次查詢工作的終點,終端用戶由此獲得查詢結(jié)果,同時評價該搜索引擎的性能.

      2 搜索引擎的主要性能指標(biāo)

      2.1 召回率——查全率

      搜索引擎的召回率指的是搜索引擎的檢索結(jié)果中與主題相關(guān)的頁面數(shù)除以當(dāng)前整個網(wǎng)絡(luò)Web環(huán)境中與主題相關(guān)的頁面數(shù)所獲得的比值,這個指標(biāo)衡量的是搜索引擎的查全率.

      由以上的定義,要想獲得當(dāng)前搜索引擎的查全率,顯然條件是非常苛刻的,因為網(wǎng)絡(luò)環(huán)境中隨時可能產(chǎn)生新的與主題相關(guān)的頁面,也可能刪除原有的頁面,頁面數(shù)量千變?nèi)f化,這就使得我們根本無法掌握網(wǎng)絡(luò)的現(xiàn)有狀態(tài),也就無法進行計算,因此查全率只能在規(guī)模較小而且相對比較穩(wěn)定的網(wǎng)絡(luò)中,進行一個大概的估算.而對于Internet這樣的廣域網(wǎng),人們根據(jù)多目標(biāo)優(yōu)化的思想提出了一種新的概念——相對查全率.

      相對查全率不再以整個網(wǎng)絡(luò)環(huán)境的相關(guān)頁面數(shù)作為參照物的,而是以若干個搜索引擎中的最優(yōu)與最差對象作為參照物進行相對的比較,這樣就使得整個計算有章可循.

      2.2 精確度——查準(zhǔn)率

      搜索引擎的精確度是指在搜索引擎的檢索結(jié)果中與搜索主題相關(guān)的頁面數(shù)除以檢索到的全部頁面數(shù)所得到的比值,這個指標(biāo)衡量的是搜索引擎的查準(zhǔn)率.

      要提高精確度,就要注重所建立索引的合理性,也和分詞系統(tǒng)的工作效率密不可分,當(dāng)然一般情況下,也和用戶的查詢關(guān)鍵詞的準(zhǔn)確性有關(guān)系.

      3 當(dāng)前搜索引擎存在的問題與其發(fā)展方向

      3.1 搜索引擎存在的問題

      (1)精確度偏低

      由于互聯(lián)網(wǎng)中的頁面數(shù)量大,而且變化也大,因此抓取頁面本身就是一個難度很大的工作,接下來,由于搜索引擎上的分詞(特別是中文分詞)存在偏差,以及所使用的鏈接分析算法的缺陷,這一系列因素導(dǎo)致了人們在搜索的時候發(fā)現(xiàn)搜索的結(jié)果和預(yù)期存在相當(dāng)程度上的偏差.

      (2)搜索結(jié)果沒有進行有效組織,處于混亂、無序的狀態(tài),無法給用戶提供良好的搜索體驗.

      這方面的缺陷主要是由于沒有使用合理的頁面權(quán)威度權(quán)值來進行頁面排序,使得與主題相關(guān)度較低的頁面出現(xiàn)在輸出結(jié)果的前列,如今,關(guān)于頁面權(quán)值分析的算法主要有HITS、PageRank以及兩種算法的改進形式,其中一部分已經(jīng)在實際系統(tǒng)中使用,但是更多的還處于實驗室評測研究階段.

      (3)商業(yè)氣氛濃重,人為地采用競價排名,干擾正常搜索結(jié)果輸出

      一些國內(nèi)的搜索引擎為了商業(yè)上的利益,直接或者變相使用競價排名機制,這種機制在市場經(jīng)濟的今天自然無可厚非,但那是從經(jīng)濟學(xué)、社會學(xué)角度討論,而從用戶角度來說,這明顯影響到他們的正常搜索活動,因為任何人都不希望搜索到的結(jié)果中充斥著各類廣告等無用數(shù)據(jù),另外,從Web挖掘技術(shù)的角度來看,這也很明顯與其研究方向背道而馳.

      3.2 搜索引擎的發(fā)展方向

      3.2.1 提高搜索引擎的智能化水平

      在現(xiàn)有搜索引擎的搜索模式下,用戶要解決一個問題,需要把這個問題的關(guān)鍵字輸入搜索引擎中,再搜索引擎返回與這個問題相關(guān)的頁面,但此時用戶并沒有馬上獲得問題的解決,而是需要通過人工分辨查找信息內(nèi)容是否符合用戶要求,智能化水平低下,為了克服關(guān)鍵詞檢索和目錄查詢的缺點,現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能查詢.用戶可以用口語化的提問輸入問題,如“Who is Washington?”.搜索引擎在對提問進行語法結(jié)構(gòu)和語義的分辨,智能地添加關(guān)鍵字進行檢索,從而直接給出提問的答案,或形成若干個可能的問題,讓用戶進行選擇后獲得結(jié)果.

      3.2.2 確定搜索引擎信息搜集范圍,提高搜索引擎的針對性

      搜索引擎的另外一個方向是發(fā)展垂直主題搜索引擎.人們平時常用的搜索引擎都是橫向的,而對于某個專業(yè)的專業(yè)人員來說,他所需要的是跟該學(xué)科方向緊密相關(guān)的信息,比如:企業(yè)管理人員,搜索“ASP”希望獲得的信息是和“Application Service Provider(應(yīng)用服務(wù)提供商)”相關(guān)的信息內(nèi)容,但是在通用的橫向搜索引擎搜索所獲得結(jié)果大量與“Active Serve Page(動態(tài)服務(wù)頁)”相關(guān)的計算機Web開發(fā)的知識,這就是問題所在,因此發(fā)展垂直主題搜索引擎是十分必要的,通過垂直主題搜索引擎不僅可以給用戶提供專業(yè)方向(如:股票、天氣等)的信息檢索而且提高了搜索引擎搜索效率和用戶的信息利用率.

      3.3.3 多媒體搜索

      隨著搜索平臺的不斷完善,現(xiàn)有的許多搜索引擎已經(jīng)不僅像其最初時那樣只提供純文本的檢索,還推出了圖片、視頻等多媒體信息的檢索功能,但是,我們必須意識到,這圖片、視頻等信息還是基于文本內(nèi)容的,搜索引擎只不過是搜索圖片、視頻所在頁面的文本來獲得相關(guān)的多媒體數(shù)據(jù).那么,如果用戶碰到這樣的問題:在他的計算機里存放著一首鋼琴曲的音頻文件,但是他并不知道這首曲子的名字叫什么,那么這時,他就需要一個搜索引擎能夠把這個音頻文件當(dāng)成搜索主題,在網(wǎng)絡(luò)中查找與該文件相符的音頻,并查找到這段樂曲的名字,這實際上就是一個逆向的過程,原先我們是通過文本查找到音頻,現(xiàn)在要根據(jù)音頻查找的文本,而后者才是真正意義上的多媒體搜索,它的搜索主題不再只是文字,而是各種多媒體的編碼.然而,現(xiàn)有的多媒體檢索大部分還處于在研究開發(fā)階段,還面臨著許多困難,比如:數(shù)據(jù)量大、編碼解碼以及匹配的時間消耗等,盡管如此,多媒體檢索必然要在將來占據(jù)信息檢索的重要地位.

      3.2.4 支持Web2.0標(biāo)準(zhǔn)的頁面搜索

      近幾年,業(yè)內(nèi)在Web開發(fā)技術(shù)上取得了很大的進步,Web已經(jīng)由原先的B/S模式,向著富客戶端模式RIA的方向發(fā)展,即Web2.0,在這種全新的環(huán)境下,用戶可以在瀏覽器中獲得本地桌面般的界面體驗.RIA系統(tǒng)的開發(fā)工具也比傳統(tǒng)的Web開發(fā)豐富得多,F(xiàn)lex、Ajax等技術(shù)都能夠進行開發(fā).但是,無論開發(fā)手段如何豐富,整個系統(tǒng)還是要以瀏覽器作為載體來運行,而開發(fā)工具的不同,導(dǎo)致系統(tǒng)結(jié)構(gòu)已經(jīng)不再是單一的HTML語言,在這前提下,傳統(tǒng)的基于HTML超鏈接的搜索引擎蜘蛛程序無法正常地發(fā)現(xiàn)這種新的頁面,必然造成主題信息的大量流失.因此,搜索引擎對RIA系統(tǒng)信息的支持,也是現(xiàn)在搜索引擎需要研究的方向,畢竟,Web2.0是Web發(fā)展的一種趨勢.

      4 結(jié)論

      在未來,Web搜索引擎仍然將在互聯(lián)網(wǎng)生活中扮演著十分重要的角色,進一步提高其性能,并且能夠提供種類豐富的查詢手段,是其發(fā)展的必然結(jié)果.本文對搜索引擎的發(fā)展提出了自己的建議與想法,希望能夠?qū)ヂ?lián)網(wǎng)搜索引擎的發(fā)展貢獻微薄之力.

      [1]朱麗紅,趙燕平.Web挖掘研究綜述[J].情報技術(shù),2004,(7):2 ~5.

      [2]鳳元杰,劉正春,王堅毅.搜索引擎主要性能評價指標(biāo)體系研究[J].情報學(xué)報,2004,23(1):63~68.

      [3]袁津生,蔡岳.搜索引擎原理與實踐[M].北京:北京郵電大學(xué)出版社,2008:26~33.

      [4]李曉明,閆宏飛,王繼民.搜索引擎:原理、技術(shù)與系統(tǒng)[M].北京:科學(xué)出版社,2005.8 ~13.

      [5]張曉濱,石美紅,蔡桂洲.校園網(wǎng)搜索引擎設(shè)計[J].西安工程科技學(xué)院學(xué)報,2002,(3):243~246.

      TP31

      A

      1006-5342(2011)12-0108-02

      2011-10-13

      猜你喜歡
      查全率分詞搜索引擎
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      海量圖書館檔案信息的快速檢索方法
      基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
      值得重視的分詞的特殊用法
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
      高考分詞作狀語考點歸納與疑難解析
      論英語不定式和-ing分詞的語義傳承
      连城县| 荃湾区| 安溪县| 灌南县| 秦皇岛市| 科技| 登封市| 佛学| 株洲县| 烟台市| 斗六市| 神农架林区| 赣州市| 吴忠市| 正安县| 滁州市| 正镶白旗| 武冈市| 合水县| 泗洪县| 沧州市| 安义县| 康定县| 双柏县| 龙胜| 东光县| 花垣县| 三穗县| 图木舒克市| 永春县| 晋宁县| 班玛县| 沧源| 深水埗区| 微山县| 临邑县| 通许县| 德州市| 德清县| 山西省| 桦川县|