李鴻飛
中國人民大學(xué),北京市 100872
網(wǎng)絡(luò)信息檢索工具的現(xiàn)狀分析與發(fā)展方向研究
——以搜索引擎和網(wǎng)絡(luò)資源目錄為例
李鴻飛
中國人民大學(xué),北京市 100872
本文將主要闡述目前主要網(wǎng)絡(luò)信息檢索工具的特點(diǎn),搜索引擎和網(wǎng)絡(luò)資源目錄的對比分析以及網(wǎng)絡(luò)信息檢索工具的發(fā)展方向,并根據(jù)上述內(nèi)容提出一些看法和建議。
信息;檢索;信息檢索;檢索工具;搜索引擎;網(wǎng)絡(luò)資源目錄
根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心2012年1月16日發(fā)布的《第29次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,目前我國網(wǎng)民規(guī)模已突破5億。由此可見,互聯(lián)網(wǎng)已經(jīng)在網(wǎng)民生活中占據(jù)一定的地位。與此同時(shí),互聯(lián)網(wǎng)上的信息已是海量,搜索引擎則是網(wǎng)民在汪洋中搜尋信息的工具,是互聯(lián)網(wǎng)上不可或缺的工具和基礎(chǔ)應(yīng)用之一。
從廣義的角度講,信息檢索包含信息存儲(chǔ)和信息獲取兩個(gè)過程。狹義的信息檢索是指廣義信息檢索的信息獲取過程,相當(dāng)于人們所說的信息查詢等。具體來說,狹義的信息檢索指通過一定的方法,從已存儲(chǔ)的信息中檢索出與用戶提問相關(guān)的文獻(xiàn)、數(shù)據(jù)和事實(shí)的過程,即根據(jù)用戶的特定要求查找所需信息的過程。
全文搜索引擎在國外代表有Google,國內(nèi)則有著名的百度。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起數(shù)據(jù)庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。
網(wǎng)絡(luò)資源目錄雖然有搜索功能,但嚴(yán)格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。用戶可以通過分類目錄找到所需要的信息,而并不進(jìn)行關(guān)鍵詞的輸入查詢工作,網(wǎng)絡(luò)資源目錄中最具代表性的莫過于大名鼎鼎的Yahoo。
(1)門戶搜索引擎:如目前國內(nèi)的四大門戶網(wǎng)站——新浪、騰訊、搜狐、網(wǎng)易。這些門戶網(wǎng)站并非從出生之日起就是這樣,如新浪原本為網(wǎng)絡(luò)資源目錄的形式,但隨著時(shí)代的發(fā)展,新浪將以前網(wǎng)絡(luò)資源目錄的形式逐漸轉(zhuǎn)變?yōu)榱碎T戶網(wǎng)站。這樣做可以大大增加網(wǎng)站內(nèi)容的豐富度,更能滿足網(wǎng)上沖浪的用戶,同時(shí)更多廣告欄的設(shè)置也可以增加網(wǎng)站的盈利。但這樣做也就不可避免地降低了網(wǎng)站的規(guī)范性,檢索功能也被大大削弱,適合于漫無目的的上網(wǎng)者,同時(shí)很多內(nèi)容排列混亂,條理性不強(qiáng)。
(2)元搜索引擎(META Search Engine)接受用戶查詢請求后,同時(shí)在多個(gè)搜索引擎上搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。
目前最重要的兩類網(wǎng)絡(luò)檢索工具就是搜索引擎和網(wǎng)絡(luò)資源目錄了,搜索引擎和網(wǎng)絡(luò)資源目錄的主要區(qū)別有:
搜索引擎屬于自動(dòng)網(wǎng)站檢索,檢索快捷,直接輸入關(guān)鍵詞即可得到結(jié)果,而網(wǎng)絡(luò)資源目錄則完全依賴手工操作。用戶根據(jù)自己的意圖首先去考慮自己需要檢索的內(nèi)容屬于哪個(gè)類別,然后再去一個(gè)個(gè)嘗試。
搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動(dòng)提取的,所以從用戶的角度看,我們擁有更多的自主權(quán),這是一種主動(dòng)的檢索,能夠檢索到大量與我們檢索意圖相關(guān)的內(nèi)容;而目錄索引則要求必須手工選擇網(wǎng)站信息,而且還有各種各樣的限制,而網(wǎng)站的管理人員劃分出來的類別有時(shí)候并不包含我們想要的,因此這是一種被動(dòng)的檢索方式,但是這樣檢索出來的內(nèi)容更為準(zhǔn)確。綜合以上特征對比,可知搜索引擎的特點(diǎn)是查全率比較高,網(wǎng)絡(luò)資源目錄的特點(diǎn)是查準(zhǔn)率比較高。
美國著名的市場調(diào)查公司StatCounter發(fā)布了2011年4月份搜索引擎排行榜前五名。全球范圍內(nèi),搜索引擎排行和所占份額:
①Google - 90.2%;②bing -4.06%;③Yahoo!- 3.84%;④Baidu -0.53%
中國范圍內(nèi),搜索引擎排行和所占份額:
①Baidu - 73.31%;②Google -24.33%;③Yahoo!- 1.08%;④bing -1%
由此可見,在全球范圍內(nèi),google依然是網(wǎng)絡(luò)檢索工具第一大巨頭,其他網(wǎng)絡(luò)檢索工具只能望其項(xiàng)背,而在中國,由于google撤出中國大陸,加上百度作為中文搜索引擎的獨(dú)特優(yōu)勢,成為中國第一大搜索引擎。
目前,搜索引擎與網(wǎng)絡(luò)資源目錄有相互結(jié)合的趨勢。目前很多的全文搜索引擎現(xiàn)在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢,而像Yahoo則通過與Google等搜索引擎合作擴(kuò)大搜索范圍。當(dāng)對于檢索內(nèi)容的概念比較模糊時(shí),可以通過網(wǎng)絡(luò)資源目錄選擇準(zhǔn)確的方向,一旦找到合適的詞匯便可以通過搜索引擎擴(kuò)大檢索范圍,這樣就把兩種檢索工具做了一個(gè)很簡單的集成,但用戶卻輕松地獲得了很好的使用體驗(yàn)。
從上述的分析可以看出,搜索引擎和網(wǎng)絡(luò)資源目錄這兩種信息檢索工具,用戶更傾向于選擇搜索引擎這種主動(dòng)、便捷的檢索方式。在進(jìn)行信息檢索的過程中,很多時(shí)候,搜索引擎能夠幫人們完成信息檢索的任務(wù),但有的時(shí)候,特別是當(dāng)人們自己無法明確“檢索詞”具體是什么的時(shí)候,可以現(xiàn)在網(wǎng)絡(luò)資源目錄中進(jìn)行瀏覽,從中得到啟示,確定自己檢索的類別,從而摸索出檢索詞具體是什么,這樣將兩種網(wǎng)絡(luò)檢索工具靈活運(yùn)用可以幫人們提高檢索效率。
隨著計(jì)算機(jī)技術(shù)的快速發(fā)展和信息檢索需求的不斷增加,網(wǎng)上檢索工具也將更加完善。通過對目前國內(nèi)外搜索引擎特點(diǎn)的觀察和歸納,網(wǎng)上檢索工具的將主要朝著以下幾個(gè)方向發(fā)展:
4.1 實(shí)現(xiàn)搜索引擎和網(wǎng)絡(luò)資源目錄的同步支持。正如前文所述,目前大多數(shù)網(wǎng)絡(luò)資源目錄和門戶網(wǎng)站都有內(nèi)置的搜索引擎,這些搜索引擎既可以由外部公司提供,也可以由自己公司制作。通過這樣的實(shí)現(xiàn)方式,能將搜索引擎和網(wǎng)絡(luò)資源目錄的優(yōu)勢結(jié)合起來,用戶可以根據(jù)自己對檢索課題的熟悉情況來選擇檢索方式。
4.2 網(wǎng)絡(luò)檢索工具的功能多樣化。當(dāng)前的網(wǎng)上檢索工具已不僅僅只是提供搜索功能,隨著用戶需求的多樣化,各大網(wǎng)絡(luò)檢索工具提供公司正致力于提供更多其他方面的服務(wù),以滿足用戶不斷增加的多樣化需求。如可以提供天氣預(yù)報(bào)、新聞報(bào)道、股票點(diǎn)評、免費(fèi)電子信箱等。
4.3 實(shí)現(xiàn)多媒體檢索。當(dāng)前的網(wǎng)絡(luò)檢索工具一般或者說廣泛使用的只有文字檢索,而網(wǎng)絡(luò)資源豐富多彩,除了文字內(nèi)容還有視頻、圖片、音樂等,未來的網(wǎng)絡(luò)檢索工具應(yīng)實(shí)現(xiàn)對圖表、圖形、圖像、聲音、視頻等多媒體進(jìn)行檢索的功能。而具體的技術(shù)實(shí)現(xiàn)以及用戶體驗(yàn)等問題還有待進(jìn)一步研究。
4.4 多語言檢索。這是當(dāng)前時(shí)代給檢索工具帶來的印跡,隨著各國人們之間交流的簡便化、密切以及人們對掌握多語言的追求,人們對多語言檢索的需求將會(huì)不斷增加。網(wǎng)絡(luò)檢索工具要響應(yīng)時(shí)代的號(hào)召,不但能實(shí)現(xiàn)多語種檢索,同時(shí)對語言之間翻譯的智能化也要不斷增強(qiáng)。
4.5 商業(yè)化發(fā)展趨勢。網(wǎng)絡(luò)檢索系統(tǒng)擁有全世界數(shù)量眾多的用戶,吸引了大量的廣告,為電子信息的增值服務(wù)提供了廣闊的空間。在這里匯集了最新的思想、最先進(jìn)的技術(shù)和最大的潛在市場。
搜索引擎,它就像一只神奇的手,從雜亂的信息中抽出一條清晰的檢索路徑。在這條路徑上的檢索和信息提取是什么呢?是我們的閱讀和大腦的判斷,也就是做搜索引擎的最后一步是我們的大腦。隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)上可以搜尋的網(wǎng)頁變得愈來愈多,而網(wǎng)頁內(nèi)容的質(zhì)素亦變得良莠不齊,沒有保證。所以,未來的搜索引擎將會(huì)朝著知識(shí)型搜索引擎的方向發(fā)展,為搜尋者提供更準(zhǔn)確及適用的資料。
[1]王立清.信息檢索教程.北京:中國人民大學(xué)出版社,2008
[2]于彩云.搜索引擎Yahoo的性能評價(jià)及評價(jià)指標(biāo)的選擇.現(xiàn)代情報(bào),2007(2)
[3]焦玉英等.信息檢索.武漢:武漢大學(xué)出版社,2008
10.3969/j.issn.1001-8972.2012.15.035