• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化

      2014-07-12 13:21:36肖捷
      東莞理工學(xué)院學(xué)報 2014年3期
      關(guān)鍵詞:全文檢索內(nèi)存檢索

      肖捷

      基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化

      肖捷

      (東莞理工學(xué)院 計算機(jī)學(xué)院,廣東東莞 523808)

      全文檢索是基于Web的信息搜索的關(guān)鍵技術(shù),文章從基于KySou的全文檢索系統(tǒng)的實現(xiàn)機(jī)制入手,深入分析了全文檢索系統(tǒng)的工作原理、系統(tǒng)組成及API接口設(shè)計,并就全文檢索系統(tǒng)的優(yōu)化進(jìn)行探討,包括索引過程優(yōu)化和搜索過程優(yōu)化。

      KySou;全文檢索;索引優(yōu)化;搜索優(yōu)化

      全文檢索是一個非常有效的信息檢索技術(shù),它極大地提高了從海量數(shù)據(jù)中查找特定信息的效率。隨著Internet的飛速發(fā)展,基于Web的全文檢索技術(shù)正得到日益廣泛的應(yīng)用,像Alta Vista、Excite、InfoS-eek、Google、Baidu、KySou等這些典型的檢索工具對Web文檔信息的查詢起到了巨大作用。但是,這些系統(tǒng)都存在一些局限性,有待進(jìn)一步提高。因此,研究分析全文檢索技術(shù)非常必要。

      1 全文檢索系統(tǒng)的深入分析

      外部查詢模塊是基于Web的應(yīng)用系統(tǒng)的重要組成部分,通過提供功能強(qiáng)大的搜索引擎,能夠從海量資料庫中快速找出所需的所有相關(guān)資料,為用戶提供方便、快捷的信息資料查詢服務(wù)。全文檢索是外部查詢模塊的關(guān)鍵技術(shù),下面以暫住人口與出租屋綜合信息管理系統(tǒng)中的全文檢索系統(tǒng)為例,深入分析了全文檢索系統(tǒng)的實現(xiàn)機(jī)制,并就全文檢索系統(tǒng)的優(yōu)化設(shè)計進(jìn)行探討。

      1.1 實現(xiàn)機(jī)制

      全文檢索就是索引程序通過掃描資料源,逐詞建立索引并標(biāo)記該詞在資料源中出現(xiàn)的位置和次數(shù),檢索程序依據(jù)索引進(jìn)行查找,反饋查找結(jié)果給用戶[1]。通常包括按字檢索和按詞檢索兩種方法,按字檢索就是針對資料源逐字建立索引,檢索時需要將詞分解為字,再按字檢索。不同語言,字的含義不同,西文字詞合一,中文字組成詞。按詞檢索就是針對資料源逐詞建立索引,檢索時按詞檢索[2]。西方文字按空格分詞,實現(xiàn)過程類似按字方式,實現(xiàn)容易較為。東方文字必須進(jìn)行字詞切分,才能按詞索引。字詞切分是全文檢索技術(shù)的難點。

      全文檢索系統(tǒng)建立在全文檢索理論基礎(chǔ)上,一般具有索引和查找兩大功能,索引功能包括建立索引、增加索引和優(yōu)化索引結(jié)構(gòu)等。查找功能包括檢索條件分析、索引匹配、匹配結(jié)果排序、結(jié)果輸出等。組成結(jié)構(gòu)通常包括索引引擎、查詢引擎、文本分析引擎、對外接口及外圍應(yīng)用系統(tǒng)等。工作原理如圖1所示。

      通常全文檢索系統(tǒng)API接口設(shè)計比較通用,輸入輸出結(jié)構(gòu)類似數(shù)據(jù)庫表、記錄和字段,許多傳統(tǒng)應(yīng)用中的文件或數(shù)據(jù)庫等都能方便地映射到存儲結(jié)構(gòu)/接口,因此,全文檢索系統(tǒng)可以看作是個支持全文索引的數(shù)據(jù)庫系統(tǒng)。表1列出了全文檢索系統(tǒng)與數(shù)據(jù)庫系統(tǒng)間的對照關(guān)系。

      圖1 全文檢索系統(tǒng)工作原理

      全文檢索

      數(shù)據(jù)庫

      表1 全文檢索實現(xiàn)與數(shù)據(jù)庫對照表

      1.2 優(yōu)化設(shè)計

      全文檢索系統(tǒng)的優(yōu)化:使用B樹結(jié)構(gòu)來維護(hù)索引是大部分基于數(shù)據(jù)庫的搜索引擎的常用方法,索引更新會導(dǎo)致大量輸入和輸出操作(文件I/O是一件非常消耗資源的事情),索引效率較低。因此,全文檢索系統(tǒng)必須進(jìn)行優(yōu)化設(shè)計,在保證不影響檢索效率的前提下,提高索引和搜索的效率。通??梢詮乃饕^程優(yōu)化和搜索過程優(yōu)化兩方面著手。

      1.2.1 索引過程優(yōu)化

      索引可以有兩種實現(xiàn)方式:小批理索引擴(kuò)展和大批量索引重建。由于索引過程需要進(jìn)行大量的文件I/O,非常消耗資料。實質(zhì)上,并非每次新的DOC文檔加入都需要重新進(jìn)行一次索引文件的IO操作,可以對索引過程進(jìn)行優(yōu)化。

      索引過程優(yōu)化思想:充分利用內(nèi)存,降低文件IO頻率,提升索引速度。也即,索引操作先在內(nèi)存完成,再按照合適的批量間隔值完成文件IO操作。因此,批量間隔值的選擇非常關(guān)鍵,一般來說,批量間隔值與內(nèi)存占用成正比,與文件IO頻率成反比,與索引速度成正比。也就是說,批量間隔值越大,占用內(nèi)存就越多,但文件IO頻率就越小。相反,批量間隔值越小,占用內(nèi)存就越少,文件IO頻率就越大,索引速度就越慢。下面以KySou為例,探討索引過程的優(yōu)化。

      在KySou索引器IndexWriter中,MERGE-FACTOR就是一個與批量間隔值相關(guān)的關(guān)鍵參數(shù),可以根據(jù)應(yīng)用環(huán)境的具體情況調(diào)整MERGE-FACTOR參數(shù),達(dá)到加快索引速度的目標(biāo),從而實現(xiàn)索引過程的優(yōu)化。根據(jù)作者本人的經(jīng)驗,KySou索引器IndexWriter的MERGE-FACTOR參數(shù)的默認(rèn)值是20(即:每索引20條記錄,文件IO一次),如果將該參數(shù)擴(kuò)大50倍,可以提升索引速度近2倍。當(dāng)然,調(diào)整MERGE-FACTOR參數(shù)值應(yīng)根據(jù)具體的應(yīng)用環(huán)境,而且應(yīng)不斷優(yōu)化調(diào)整。

      1.2.2 搜索過程優(yōu)化

      支持內(nèi)存索引的全文檢索系統(tǒng)與基于文件I/O的全文檢索系統(tǒng)相比較,雖然搜索速度有數(shù)量級的提升。但搜索過程優(yōu)化能進(jìn)一步提升搜索速度,因此,探討搜索過程的優(yōu)化也非常必要。

      搜索過程優(yōu)化思想:①盡量減少創(chuàng)建IndexSearcher。②盡量減少搜索結(jié)果的前臺緩存。④自動過濾掉匹配度低的搜索結(jié)果。下面以KySou為例,探討搜索過程的優(yōu)化。

      KySou面向全文檢索的優(yōu)化在于首次索引檢索后,并不將檢索到的全部記錄(Document)的具體內(nèi)容都讀取出來,而只把匹配度最高的前100條結(jié)果的ID緩存到結(jié)果集。比較數(shù)據(jù)庫檢索:如果數(shù)據(jù)庫檢索結(jié)果集包含10,000條記錄,那么數(shù)據(jù)庫必須在取得所有記錄內(nèi)容后再返回結(jié)果集,即使結(jié)果集中的匹配總數(shù)很多,內(nèi)存占用也不至太多。但針對絕大多數(shù)(超過90%)的模糊檢索應(yīng)用,一般在頭100條記錄中便可得到滿足。如果首批緩存結(jié)果達(dá)不到檢索要求,那么IndexSearcher將再次檢索并且生成比上次搜索緩存數(shù)大1倍的緩存,并重新向后抓取。依此類推,直到滿足檢索要求。在搜索過程中,可以采用分級緩存策略來緩存結(jié)果記錄,以達(dá)到充分利用首次緩存結(jié)果且不浪費(fèi)多次檢索的目標(biāo)。另外,KySou還使用自動過濾掉匹配度低的結(jié)果記錄的策略,進(jìn)一步對搜索過程進(jìn)行優(yōu)化,效果極好。

      2 結(jié)論

      在信息檢索領(lǐng)域,全文檢索是一個非常有效的新型檢索技術(shù),它克服了傳統(tǒng)索引檢索在多文獻(xiàn)集合和復(fù)雜條件下檢索效率低的不足,極大地提高了從海量數(shù)據(jù)中查找特定信息的效率。但是,全文檢索仍然存在一些問題,一方面,全文檢索技術(shù)的理論基礎(chǔ)還不夠完備;另一方面,中文檢索的特殊性和難度。因此,如何進(jìn)一步優(yōu)化設(shè)計全文檢索系統(tǒng),提高檢索效率和吞吐量是一個值得研究的問題?本文僅起拋磚引玉作用。

      [1] 蘇新寧.信息檢索理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2004:99-100.

      [2] 李宇,吳俊杰.開放源代碼的全文檢索引擎Lucene[M].北京:中國人民大學(xué)學(xué)報,2005:6-7.

      Analysis and Optimization of Full Text Retrieval System Based on KySou

      XIAO Jie

      (Computer College,Dongguan University of Technology,Dongguan 523808,China)

      Full Text Retrieval is a key technirue based on Web’s information search.Starting from the implementation mechanism of Full Text Retrieval system based on KySou,this paper conducts a detailed analysis onthe operational principle,components of the system and API interface design.Besides,it also probes into how to optimize the Full Text Retrieval system,which includes the optimizations of the indexing process and the searching process.

      KySou;the Full Text Retrieval;optimization of indexing;optimization of searching

      TP312

      符:A

      1009-0312(2014)03-0025-03

      2014-06-03

      廣東省高等學(xué)校教學(xué)質(zhì)量與教學(xué)改革工程本科類項目(粵教高函〔2012〕123號);東莞理工學(xué)院教學(xué)改革項目(莞工教[2012]33號);東莞理工學(xué)院教學(xué)改革項目(莞工教[2011]65號)。

      肖捷(1966—),男,副教授,碩士,主要從事網(wǎng)絡(luò)與數(shù)據(jù)庫技術(shù)、企業(yè)ERP技術(shù)等方面研究。

      猜你喜歡
      全文檢索內(nèi)存檢索
      “春夏秋冬”的內(nèi)存
      2019年第4-6期便捷檢索目錄
      Oracle數(shù)據(jù)庫全文檢索性能研究
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      全文檢索引擎技術(shù)在電子病歷中的應(yīng)用
      基于內(nèi)存的地理信息訪問技術(shù)
      特色數(shù)據(jù)庫全文檢索系統(tǒng)的設(shè)計
      國際標(biāo)準(zhǔn)檢索
      國際標(biāo)準(zhǔn)檢索
      上網(wǎng)本為什么只有1GB?
      新竹市| 思南县| 珠海市| 罗山县| 湘乡市| 霸州市| 绥中县| 南平市| 宁国市| 富平县| 井冈山市| 庆城县| 甘肃省| 明水县| 武功县| 怀柔区| 肃宁县| 黎城县| 米林县| 汨罗市| 堆龙德庆县| 庆安县| 洛川县| 龙胜| 老河口市| 吉水县| 安庆市| 西城区| 壶关县| 白河县| 赣榆县| 三明市| 恩施市| 高平市| 余庆县| 静乐县| 仁布县| 尼玛县| 黄浦区| 玉林市| 开平市|