李玲
【摘要】信息時(shí)代信息更新速度不斷加快,人們能夠使用的信息量極其巨大。面對(duì)紛繁的信息,如何提取有用的知識(shí)是面臨的一個(gè)非?,F(xiàn)實(shí)的問(wèn)題。隨著網(wǎng)絡(luò)應(yīng)用的深入,網(wǎng)絡(luò)信息檢索技術(shù)不斷發(fā)展,同時(shí)也面臨著諸多挑戰(zhàn),其總的發(fā)展趨勢(shì)為多功能化和智能化。
【關(guān)鍵詞】網(wǎng)絡(luò)信息 信息檢索 搜索引擎
一、引言
當(dāng)今世界是互聯(lián)網(wǎng)飛速發(fā)展的信息世界,因特網(wǎng)作為傳遞信息的橋梁,發(fā)揮著越來(lái)越重要的作用。據(jù)中國(guó)互聯(lián)網(wǎng)信息中心2018年1月發(fā)布的《第41次中國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》數(shù)據(jù)顯示:截至2017年12月,我國(guó)網(wǎng)民規(guī)模達(dá)7.72億,網(wǎng)站數(shù)量為533萬(wàn)個(gè),年增長(zhǎng)率為10.6%,網(wǎng)頁(yè)數(shù)量為2604億個(gè),年增長(zhǎng)10.3%,且仍在以每天百萬(wàn)級(jí)別網(wǎng)頁(yè)的速度增加。網(wǎng)絡(luò)信息數(shù)量的海量化、形式多樣化、內(nèi)容的復(fù)雜化使得網(wǎng)絡(luò)用戶如何在信息的海洋中,有效地獲取和利用信息與知識(shí)變得極其重要。網(wǎng)絡(luò)檢索技術(shù)已成為最普遍、最受關(guān)注的研究領(lǐng)域之一。
二、網(wǎng)絡(luò)信息檢索技術(shù)現(xiàn)狀
(一)信息檢索概述
信息檢索(Information Retrieval),通常指文本信息檢索,包括信息的存儲(chǔ)、組織、表現(xiàn)、查詢、存取等各個(gè)方面,其核心是文本信息的索引和檢索。在現(xiàn)代人們的認(rèn)知觀念中,人們總是把信息檢索與搜索引擎畫上等號(hào)。但是信息檢索并不等于搜索引擎,只不過(guò)現(xiàn)階段搜索引擎是網(wǎng)絡(luò)信息檢索的主要手段。
(二)搜索引擎技術(shù)分析
搜索引擎是指利用網(wǎng)絡(luò)搜索技術(shù)對(duì)因特網(wǎng)信息資源進(jìn)行標(biāo)引,并為檢索者提供檢索的工具。搜索引擎具有普通檢索功能(如詞組檢索、字段檢索)和特殊檢索功能(如自然語(yǔ)言檢索、多語(yǔ)種檢索等)。因?yàn)椴煌乃阉饕嫫涫占畔⒌姆绞健⑿畔⒏采w面廣度、標(biāo)引方式和檢索軟件的具體功能不同,相同的檢索在不同的搜索引擎中存在的差異也很大。
(三)搜索引擎類型
(1)索引式搜索引擎,又稱為基于Robot的搜索引擎。是利用一個(gè)Robot(也叫Spider,Web Crawler或Web Wanderer)的程序自動(dòng)訪問(wèn)、提取各個(gè)網(wǎng)站網(wǎng)頁(yè)上的信息。如www.altavista.com即為這種檢索式搜索引擎。
索引式搜索引擎的特點(diǎn)體現(xiàn)在兩方面:一是交互性強(qiáng),基于客戶機(jī)服務(wù)器模式從客戶端獲取用戶提問(wèn),經(jīng)過(guò)轉(zhuǎn)換構(gòu)造可操作數(shù)據(jù)庫(kù)的查詢語(yǔ)句,從數(shù)據(jù)庫(kù)中查找匹配記錄,并通過(guò)Web反饋結(jié)果;二是檢索功能強(qiáng)大,一般可進(jìn)行詞組檢索、位置檢索、相關(guān)詞檢索等。
(2)元搜索引擎,又稱為集合式搜索引擎,是將多個(gè)搜索引擎集合在一起,提供一個(gè)統(tǒng)一的檢索界面。元搜索引擎自身沒(méi)有實(shí)際的數(shù)據(jù)庫(kù)來(lái)保存網(wǎng)上眾多的網(wǎng)站、網(wǎng)頁(yè)、FTP等信息,而是間接處理其他搜索引擎檢索的結(jié)果,進(jìn)行再次篩選評(píng)價(jià)后統(tǒng)一反饋給用戶。
元搜索引擎的特點(diǎn)體現(xiàn)在兩方面:一是檢全率高,但是檢準(zhǔn)率不能保障;二是一般元搜索引擎只支持“與或非”的簡(jiǎn)單操作,因?yàn)樵阉饕孢B接的站點(diǎn)各自擁有自己的一套檢索語(yǔ)法,故若想統(tǒng)一結(jié)構(gòu)具有較大難度。
(3)目錄式搜索引擎(Directory或Catalog),是指由人工發(fā)現(xiàn)、抓取、辨別網(wǎng)上信息,依靠編目、標(biāo)引人員的知識(shí),按照?qǐng)D書分類、學(xué)科分類或其他分類依據(jù)建立主題樹(shù)分層目錄,并將采集篩選后的信息分門別類地放到各大類或子類目下,在Web界面上呈現(xiàn)錯(cuò)落有致的上下級(jí)關(guān)系,用戶通過(guò)層層點(diǎn)擊,逐步縮小范圍,最終滿足用戶的查詢需求。
目錄式搜索引擎的特點(diǎn)體現(xiàn)在三方面:一是比較適合主題瀏覽,一般主題檢索都為檢索用戶的查找提供有價(jià)值的提示;二是檢準(zhǔn)率較高,因?yàn)樵撍阉饕娼槿肓巳斯?lái)評(píng)價(jià)網(wǎng)站內(nèi)容,因此搜索結(jié)果準(zhǔn)確率較高;三是檢全率有限。
三、網(wǎng)絡(luò)信息檢索技術(shù)瓶頸及發(fā)展趨勢(shì)
(一)網(wǎng)絡(luò)信息檢索技術(shù)的瓶頸
(1)圖像音頻視頻檢索。信息化社會(huì)的今天,圖文并茂的多媒體信息已逐步成為Web信息的主流。如何對(duì)圖像特征進(jìn)行準(zhǔn)確提取,使用精準(zhǔn)表達(dá)方式表達(dá)圖像特征是圖像檢索待解決的問(wèn)題。
(2)漢語(yǔ)自動(dòng)切分。語(yǔ)詞是信息表達(dá)的最小單位,是信息檢索技術(shù)中匹配的基本元素。漢語(yǔ)字詞之間沒(méi)有分隔符,而對(duì)信息資源的標(biāo)引與對(duì)用戶檢索輸入的“理解”都必須進(jìn)行正確的語(yǔ)詞切分,語(yǔ)詞切分已成為全文檢索技術(shù)的瓶頸。
(3)搜索引擎缺陷。目錄式搜索引擎采用人工干預(yù)技術(shù),信息分類不規(guī)范,信息遺漏不可避免;站點(diǎn)、網(wǎng)頁(yè)信息內(nèi)容經(jīng)常變化,現(xiàn)有搜索引擎在信息維護(hù)、網(wǎng)絡(luò)及站點(diǎn)負(fù)載方面存在很大不足,索引數(shù)據(jù)庫(kù)大但檢索查準(zhǔn)率低。
(二)網(wǎng)絡(luò)信息檢索技術(shù)發(fā)展趨勢(shì)
(1)網(wǎng)絡(luò)檢索智能化趨勢(shì)。從某種程度上說(shuō),科技發(fā)展的目的是為了滿足人們的“懶惰”習(xí)性。同樣,用戶希望用簡(jiǎn)單的檢索步驟獲取高效準(zhǔn)確的檢索結(jié)果。網(wǎng)絡(luò)檢索順應(yīng)用戶這一要求,通過(guò)模擬人腦的思維方式,分析用戶自然語(yǔ)言表達(dá)的檢索請(qǐng)求,進(jìn)行快速高效的信息檢索。其中較有代表性的如FSA、Eloise和FAFinder,通過(guò)模擬傳統(tǒng)檢索服務(wù)的咨詢來(lái)獲取相關(guān)的檢索數(shù)據(jù)。
(2)網(wǎng)絡(luò)檢索多樣化趨勢(shì)。網(wǎng)絡(luò)檢索多樣化表現(xiàn)在網(wǎng)上檢索信息、檢索工具及其服務(wù)的多樣化。多樣化趨勢(shì)具體表現(xiàn)在:網(wǎng)絡(luò)檢索信息的形態(tài)多樣,包括文本信息、聲音、圖像和動(dòng)畫等。目前,已有高性能的語(yǔ)音識(shí)別系統(tǒng)和人臉圖像識(shí)別系統(tǒng)相繼問(wèn)世,相信隨著科技的高速發(fā)展,該類系統(tǒng)將會(huì)越來(lái)越普及,幫助人們進(jìn)行網(wǎng)上檢索。
(3)網(wǎng)絡(luò)檢索個(gè)性化趨勢(shì)。網(wǎng)絡(luò)檢索個(gè)性化包括網(wǎng)絡(luò)站點(diǎn)提供內(nèi)容的特色化和服務(wù)的個(gè)性化。各網(wǎng)站針對(duì)不同用戶需求提供有特色的服務(wù)內(nèi)容,用戶可以利用檢索工具以自己喜歡的方式來(lái)檢索信息,以提高檢索的效率和質(zhì)量。