孫海蒂 閻靜輝 陳 冉
(海軍大連艦艇學(xué)院圖書館 遼寧大連 116001)
高校圖書館為高校教學(xué)、科研提供服務(wù)保障,信息檢索是圖書館的核心服務(wù)之一。當(dāng)前,傳統(tǒng)檢索系統(tǒng)不能很好滿足讀者的個(gè)性化檢索需求、無法分析隱藏信息;而智能化信息檢索系統(tǒng),則引入了現(xiàn)代人工智能的技術(shù)與方法,使之具有聯(lián)想、比較、判斷、推理、學(xué)習(xí)等能力,能夠提高檢索的深度和效率,更好地滿足讀者需求。如何快速準(zhǔn)確高效地從海量的圖書館信息資源中獲取所需信息,是當(dāng)前研究的熱點(diǎn)。本文研究基于代理技術(shù)、自然語言處理的圖書館智能化信息檢索系統(tǒng),為讀者及時(shí)、有效地獲取所需要的資源,提供有效方式。
(一)高校圖書館傳統(tǒng)檢索工具存在的問題。高校圖書館傳統(tǒng)檢索工具諸如CNKI等這些數(shù)據(jù)庫(kù)檢索系統(tǒng),面臨著嚴(yán)峻的挑戰(zhàn),功能的單一已越來越不能滿足讀者日益增長(zhǎng)的個(gè)性化檢索需求。
1.基于關(guān)鍵詞及關(guān)鍵詞組配的檢索方式功能滯后。關(guān)鍵詞及關(guān)鍵詞組配無法表達(dá)讀者的檢索需求,關(guān)鍵詞所表達(dá)的內(nèi)容比較寬泛,導(dǎo)致查全率、查準(zhǔn)率低,需要讀者進(jìn)行篩選。
2.無法適應(yīng)讀者興趣變化的需要。讀者檢索時(shí)有其特定的興趣和背景,而現(xiàn)有大部分信息檢索系統(tǒng)對(duì)任何讀者都是一種模式,很容易讓讀者感到迷茫,使得讀者無法準(zhǔn)確地表達(dá)自己的興趣。
3.檢索系統(tǒng)對(duì)文本處理能力不夠。傳統(tǒng)檢索系統(tǒng)對(duì)文本的處理僅僅局限于關(guān)鍵詞匹配及文獻(xiàn)分類,無法進(jìn)行對(duì)文本的自然語言處理,無法揭示文獻(xiàn)的特征,無法挖掘文本內(nèi)在的和潛在的信息與知識(shí)。
4.檢索算法缺乏智能性。傳統(tǒng)檢索系統(tǒng)采用的相關(guān)度匹配策略具有一定局限性,沒能支持推理檢索技術(shù)。
(二)高校圖書館智能化信息檢索系統(tǒng)的優(yōu)點(diǎn)。高校圖書館信息檢索系統(tǒng)的智能化、個(gè)性化、主動(dòng)化,實(shí)際是相輔相成的整體趨勢(shì),智能化、個(gè)性化、主動(dòng)化服務(wù)需要智能技術(shù)的支持,智能化涵蓋了個(gè)性化的內(nèi)涵,個(gè)性化也拓寬了智能化的外延。因此我們所研究的智能化檢索系統(tǒng)是集多種發(fā)展趨勢(shì)于一體的服務(wù)體系。[1]一個(gè)較成熟的智能化信息檢索系統(tǒng)一般具備以下幾種能力。
1.大規(guī)模的知識(shí)庫(kù)是智能信息檢索系統(tǒng)的基礎(chǔ),它有一個(gè)強(qiáng)大的推理系統(tǒng)支持,能夠處理自然語言文本,它利用知識(shí)庫(kù)的有關(guān)知識(shí)進(jìn)行語法、語義分析,從內(nèi)容上真正理解并準(zhǔn)確描述所檢索的主題。
2.能夠通過一系列智能程序?qū)崿F(xiàn)系統(tǒng)與用戶的交流,了解讀者的背景,掌握讀者興趣的變化,跟蹤讀者的需求過程,實(shí)現(xiàn)不同讀者、不同背景、不同興趣的同一檢索詞或檢索時(shí)的不同信息供給,提高讀者檢索的效率和準(zhǔn)確率。
3.有良好的反饋機(jī)制,能及時(shí)有效地和讀者溝通,確定適合讀者的檢索策略,并通過對(duì)檢索結(jié)果反饋的分析,根據(jù)讀者的興趣點(diǎn),更準(zhǔn)確地提供檢索服務(wù),提高效率和準(zhǔn)確性。并將有效信息及時(shí)更新相關(guān)知識(shí)庫(kù)。
4.有較好的機(jī)器學(xué)習(xí)能力,對(duì)讀者提交的樣本能進(jìn)行學(xué)習(xí),進(jìn)行分析、信息提取、歸納總結(jié),及時(shí)了解用戶的需求與興趣,更新讀者興趣庫(kù),把讀者特征和檢索信息匹配起來,為下一步的搜索提供較準(zhǔn)確的信息。
5.能根據(jù)讀者需求提供主動(dòng)推送服務(wù),對(duì)讀者的檢索需求能跟蹤信息源的變化,及時(shí)將最新的信息提供給讀者。
6.對(duì)數(shù)據(jù)和文本應(yīng)有挖掘能力,能挖掘文本中潛在的知識(shí),解釋文本的深刻內(nèi)涵,并將這些分析結(jié)果以知識(shí)形態(tài)存放于知識(shí)庫(kù)中,使檢索結(jié)果成為讀者可以直接加以利用的信息,提高信息檢索的準(zhǔn)確性和全面性,進(jìn)而提高信息檢索的服務(wù)深度。
(一)高校圖書館智能化信息檢索系統(tǒng)層次結(jié)構(gòu)。高校圖書館智能化信息檢索系統(tǒng)的實(shí)現(xiàn)需要功能不同又相互支撐的功能層來共同協(xié)作完成,這些功能層可以完成檢索的智能化需求。一個(gè)功能完善的智能化信息檢索系統(tǒng)的功能結(jié)構(gòu)大體可以分為四個(gè)層次:知識(shí)生成層、智能接口層、智能代理層和智能搜索層。
1.知識(shí)生成層。知識(shí)生成層是智能化信息檢索系統(tǒng)的基礎(chǔ)和核心,是信息檢索系統(tǒng)實(shí)現(xiàn)智能化的關(guān)鍵所在。知識(shí)生成層直接決定了其他各層功能實(shí)現(xiàn)的水平。知識(shí)生成層的形成與增長(zhǎng)就如同人腦知識(shí)的增長(zhǎng),也處于一種自增長(zhǎng)自循環(huán)的狀態(tài),它的豐富程度決定著檢索程度的高低。
2.智能接口層。智能接口層是系統(tǒng)與讀者之間交流的橋梁,是智能信息檢索系統(tǒng)的首要功能,可以實(shí)現(xiàn)友好的“人機(jī)交互”;[2]能對(duì)讀者的自然語言進(jìn)行處理和查詢、對(duì)檢索過程進(jìn)行全面的跟蹤和反饋、對(duì)檢索結(jié)果的智能輸出以及對(duì)知識(shí)庫(kù)的操作等。
智能接口層是讀者與檢索系統(tǒng)的友好交互,自然語言的提問和反饋是交互的基礎(chǔ),只有深刻理解了讀者的檢索意圖與檢索要求,才能使檢索系統(tǒng)更好地履行職責(zé),為讀者提供高質(zhì)量的服務(wù)。智能接口層同時(shí)又是知識(shí)生成層的建立與維護(hù)的通道,知識(shí)庫(kù)是一個(gè)動(dòng)態(tài)的、不斷完善的知識(shí)表示和描述,需要專家對(duì)其進(jìn)行補(bǔ)充和完善,良好的通道有助于專家與系統(tǒng)的交流。
3.智能代理層。智能代理層是基于多代理的智能體,是一個(gè)程序組,[3]用以實(shí)現(xiàn)檢索系統(tǒng)對(duì)讀者興趣變化的跟蹤、讀者提交樣本的學(xué)習(xí)、對(duì)檢索結(jié)果的過濾與反饋以及提供信息推送服務(wù)等功能,是讀者提問與信息搜索的中間過程,是提高信息檢索的準(zhǔn)確性、快捷性、針對(duì)性和主動(dòng)性的重要保障,使檢索系統(tǒng)真正做到在檢索過程中有的放矢,大大提高了檢索效率。
4.智能搜索層。智能搜索層是指其具有從數(shù)據(jù)集合中搜索特定信息或知識(shí)有序整合功能的結(jié)構(gòu)層,是對(duì)信息源的搜索過程。[4]傳統(tǒng)意義上的搜索,如數(shù)據(jù)庫(kù)的檢索、搜索引擎的檢索,主要是基于關(guān)鍵詞匹配的檢索,以網(wǎng)絡(luò)信息檢索為例,網(wǎng)絡(luò)信息檢索是指從大量網(wǎng)絡(luò)文件的集合中找到與給定的查詢請(qǐng)示相關(guān)的、恰當(dāng)數(shù)目的文件子集。
(二)高校圖書館智能化信息檢索系統(tǒng)模型。將智能代理技術(shù)運(yùn)用到信息檢索系統(tǒng)中來,可以使信息檢索系統(tǒng)具有智能化,從而提高其檢索性能。[5]信息檢索系統(tǒng)通過智能代理可以完成學(xué)習(xí)、過濾、反饋和推送等工作,并結(jié)合自然語言處理等技術(shù)生成知識(shí)庫(kù),從而實(shí)現(xiàn)滿足讀者個(gè)性化需求的智能檢索功能。
高校圖書館智能化信息檢索系統(tǒng)的智能代理模塊是由系統(tǒng)代理、用戶代理、學(xué)習(xí)代理、過濾代理、反饋代理和推送代理等模塊組成。
(一)系統(tǒng)代理模塊。系統(tǒng)代理是整個(gè)代理模塊的運(yùn)轉(zhuǎn)中心,全面負(fù)責(zé)系統(tǒng)的集成與管理、讀者與系統(tǒng)之間的需求溝通與信息反饋、各代理模塊之間的溝通與協(xié)作。系統(tǒng)代理及獨(dú)立存在,有滲透于系統(tǒng)的各個(gè)模塊之中,是智能系統(tǒng)的大腦與中樞,是實(shí)現(xiàn)系統(tǒng)智能化的核心模塊。
(二)用戶代理模塊。讀者把檢索需求傳遞給用戶代理模塊,用戶代理模塊再根據(jù)讀者的指令來收集信息并協(xié)調(diào)系統(tǒng)完成檢索任務(wù)。它能根據(jù)讀者的需求變化,來領(lǐng)會(huì)讀者的檢索意圖,負(fù)責(zé)生成讀者興趣庫(kù)并更新數(shù)據(jù)庫(kù),是實(shí)現(xiàn)個(gè)性化檢索的重要手段。用戶代理與讀者的溝通是智能化的、個(gè)性化的,溝通的程度決定著系統(tǒng)檢索的深度與廣度。
(三)學(xué)習(xí)代理模塊。系統(tǒng)與讀者溝通的一個(gè)重要內(nèi)容是了解讀者的興趣,其中一個(gè)重要手段是讀者向系統(tǒng)提交樣本,學(xué)習(xí)代理模塊通過樣本進(jìn)行內(nèi)容特征分析,以此掌握讀者興趣,進(jìn)而更新讀者興趣庫(kù),為下一步進(jìn)行個(gè)性化信息搜索與特征匹配做準(zhǔn)備。[6]主要過程有特征篩選、特征匹配等,方法有向量空間模型(VSM)法、構(gòu)造詞條加權(quán)評(píng)估函數(shù)等。
(四)過濾代理模塊。傳統(tǒng)檢索系統(tǒng)的檢索結(jié)果已越來越不能精準(zhǔn)地滿足讀者的需求,對(duì)檢索結(jié)果進(jìn)行多次過濾,就能夠有效解決這個(gè)問題,過濾代理模塊能夠過濾掉那些不符合讀者要求的、內(nèi)容重復(fù)的結(jié)果,使讀者更快捷、更精準(zhǔn)的在眾多檢索結(jié)果中找到所需的內(nèi)容。
(五)反饋代理模塊。讀者在檢索過程中一般不會(huì)一次性獲得滿意結(jié)果,這就需要系統(tǒng)和讀者之間進(jìn)行多次的信息溝通和結(jié)果反饋,才能更加準(zhǔn)確地獲得讀者的需求,通過反饋和再檢查,從而提高檢索效率和檢索準(zhǔn)確率。
(六)推送代理模塊。檢索系統(tǒng)的推送代理模塊能夠跟蹤讀者的檢索行為從而提供主動(dòng)完成服務(wù),并定期更新檢索內(nèi)容,把檢索結(jié)果積累起來,以一定的方式把新的檢索結(jié)果推送給用戶。
自然語言處理是知識(shí)生成層的技術(shù)基礎(chǔ),是生成知識(shí)庫(kù)的重要保證。自然語言處理過程主要包括詞法分析、句法分析、語義分信息和語境分析,分析過程要借助于知識(shí)庫(kù),[7]包括靜態(tài)知識(shí)庫(kù)和動(dòng)態(tài)知識(shí)庫(kù),靜態(tài)知識(shí)庫(kù)屬于知識(shí)生成層,是自然語言處理的核心。
(一)詞法分析。詞法分析是指將輸入的字符串序列分解出單詞并確定詞性,也稱關(guān)鍵詞預(yù)處理。詞法分析主要依靠知識(shí)庫(kù)和分詞詞典,對(duì)自然語言進(jìn)行切分,如:“我想學(xué)習(xí)醫(yī)學(xué)方面的知識(shí)”,可通過知識(shí)庫(kù)和分詞詞典知道“我”“學(xué)習(xí)”“醫(yī)學(xué)”“知識(shí)”分別為不同的詞組。詞的選取應(yīng)首先遵循三個(gè)規(guī)則:一是去掉含有較少語義信息和不能作為特征的詞,如的、了等;二是將短語(詞)提取出來;三是僅選取名詞、動(dòng)詞等有意義的詞作為特征。
(二)句法分析。句法分析是對(duì)讀者檢索時(shí)輸入的單詞序列進(jìn)行分析,根據(jù)語法知識(shí)庫(kù)檢查是否為合法的句子結(jié)構(gòu),并在此基礎(chǔ)上構(gòu)造出相應(yīng)的表示句法關(guān)系的句法樹。
(三)語義分析。語義分析是在句法分析的基礎(chǔ)上進(jìn)行的,是指對(duì)各級(jí)語言單位(詞、詞組、句子、句群)所包含的意義和在語言使用過程中所產(chǎn)生的意義進(jìn)行分析。
(四)語境分析。是指根據(jù)上下文分析,確定所表達(dá)的具體意義。[8]例如“小王打針去了”這句話,我們至少要知道小王是病人還是護(hù)士,這就要從上下文中去弄清楚。語境分析的過程就是把分析語境得到的信息存放到一個(gè)動(dòng)態(tài)的知識(shí)庫(kù)中,檢索系統(tǒng)的分析程序參照這個(gè)動(dòng)態(tài)知識(shí)庫(kù),進(jìn)行自然語言處理。
當(dāng)前,國(guó)內(nèi)大部分高校圖書館的信息檢索系統(tǒng)都是通過分類主題目錄與關(guān)鍵詞匹配等方式進(jìn)行檢索,雖然分類主題目錄和關(guān)鍵詞匹配的方式比較方便、高效,但也有信息更新不及時(shí)、無法了解讀者的實(shí)際檢索請(qǐng)求等缺陷,導(dǎo)致圖書館提供的檢索服務(wù)個(gè)性化程度不夠。隨著讀者個(gè)性化需求的不斷增強(qiáng),能理解自然語言、具有推理能力的智能化信息檢索系統(tǒng)就成為了建設(shè)熱點(diǎn)。智能化信息檢索系統(tǒng)能夠有針對(duì)性地幫助讀者完成信息服務(wù)任務(wù),不斷提升信息檢索效率。本文通過智能化信息檢索系統(tǒng)的層次結(jié)構(gòu)與模型、智能代理模塊功能及自然語言處理的流程與原理這幾個(gè)方面,對(duì)于高校圖書館智能化信息檢索系統(tǒng)的建設(shè)展開了分析,可供參考。