丁泉勛,戴哲明,姜鑫
(中國電子科技集團公司第三十二研究所,上?!?00233)
基于概念擴展的文獻檢索系統(tǒng)的設計與實現(xiàn)
文獻檢索;檢索優(yōu)化;概念網絡;概念相似度;概念擴展;系統(tǒng)設計
文獻檢索系統(tǒng)能夠根據用戶信息需求,快速定位文獻,提高文獻獲取效率,因此伴隨著文獻數量量爆發(fā)式增長,文獻檢索系統(tǒng)的重要性不斷提高。文獻檢索系統(tǒng)的是基于關鍵詞進行檢索的,一個常規(guī)的檢索流程是:用戶首先將檢索需求轉化為為一組關鍵詞輸入檢索系統(tǒng);接著信息檢索系統(tǒng)將輸入的關鍵詞組與文獻集合里的每一篇文獻進行相關度計算;最后檢索系統(tǒng)按照每篇文獻的相關度由高到低排序,返回檢索結果。在這個流程中,文獻需求到關鍵詞的轉化至關重要,這決定了檢索結果能否覆蓋到檢索需求。從檢索需求中提取的關鍵詞往往只有其外在的表現(xiàn)形式,而非全部概念,因此,本文在傳統(tǒng)的文獻檢索的基礎上,引入概念擴展功能,通過多次和用戶交互,幫助用戶提煉檢索需求中的概念,豐富關鍵詞組,進而提高檢索效果。
基于概念擴展的文獻檢索系統(tǒng)主要由文獻采集代理、檢索引擎、概念引擎這三部分構成,如圖1所示。其工作思想主要是:文獻采集代理對文獻服務器中的文獻進行自動采集和內容獲取,將獲取的內容發(fā)送到檢索引擎,由檢索引擎的索引模塊完成對內容的分析和索引;對于用戶的檢索請求,將同時由檢索引擎和概念引擎進行處理,檢索引擎將根據用戶輸入的關鍵詞,按照相關度排序返回檢索到的文獻,而概念引擎將根據關鍵詞,從概念庫中查詢出相關的概念,反饋給用戶,使用戶能夠以這些概念作為關鍵詞再次查詢,從而進一步滿足用戶的檢索需求。
圖1 基于概念擴展的文獻檢索系統(tǒng)體系結構圖
概念擴展是通過將關鍵詞和概念庫中的概念進行概念匹配實現(xiàn)的,因此概念庫是實現(xiàn)概念擴展的基礎。在基于概念擴展的文獻檢索系統(tǒng)中,概念庫的實現(xiàn)形式是概念網絡。
2.1概念網絡構建
概念網絡是一個帶標識的有向圖,其中節(jié)點表示概念,有向邊表示概念之間的關系概念與概念之間的關系一共有三種:子類、實例、屬性。本文選用軍事領域來構建概念網絡,如圖2所示:槍具有扳機、槍管、槍托這幾個屬性;自動步槍、手槍是槍的子類;自動步槍有AK47、M4,手槍有54式這些實例。
圖2 槍械概念網絡示意圖
構建領域的概念網絡是一個復雜的工作,通常需要有檢驗的領域專家利用專門的工具進行構建。在基于概念擴展的文獻檢索系統(tǒng)中,利用在線百科網頁這一知識來源實現(xiàn)了自動化構建概念網絡。本文選取的百科網頁是百度百科,百度百科的知識具有權威性和全面性,且能夠動態(tài)更新,同時,百度百科的網頁結構清晰,方便概念和概念間關系的抽取。概念網絡的自動構建流程如下:網頁獲取和預處理、概念抽取、概念關系抽取、形式化表示,生成概念網絡,其體系結構如圖3所示。
2.2概念網絡形似度計算
基于構建完成的概念網絡,概念引擎通過計算關鍵詞和概念庫中概念的相似度,完成對關鍵詞的概念擴展。概念間的相似度有嚴格的數學定義[2]:
用sim(x,y)表示兩個概念x、y之間的相似度值,形式上,相似度計算應當滿足以下條件:
(1)語義相似度的值為[0,1]區(qū)間中的一個實數,即sim(x,y)∈[0,1];
(2)如果兩個概念對象是完全相似的,則語義相似度值為1,即sim(x,y)=1時當且僅當x=y;
(3)如果兩個概念對象之間沒有任何共同特征或者概念對象之間相互獨立,那么其語義相似度值為0,即sim(x,y)=0;
(4)相似關系滿足對稱性,即sim(x,y)=sim(y,x)。
圖3 概念網絡的自動構建流程
在計算概念相似度時,綜合考慮計算代價和實際應用效果,本文采用了基于權重的最短路徑法[3]進行計算。該算法是一種基于距離的語義相似度計算方法,它擴展了最短路徑法[4],考慮了概念的位置信息(所在深度和所處區(qū)域的密度)和邊所表征的關聯(lián)強度,通過將組成兩個概念詞連通路徑的各個邊的權值相加,而不是簡單統(tǒng)計兩個概念詞間邊的數量,來計算兩個概念詞的距離?;跈嘀氐母拍钕嗨贫扔嬎惴椒ㄈ缡剑?)所示:
其中,N1和N2分別表示概念x,y與最近公共父節(jié)點概念c之間的距離,H表示c到根節(jié)點的最短距離。
2.3概念擴展
用戶在進行關鍵詞檢索時,檢索引擎會根據關鍵詞對文獻庫中的文獻進行相似度分析,反饋給用戶最相似的若干文獻;同時概念引擎會通過2.2中算法根據計算出的相似度值從高到低對與關鍵詞相似的概念進行排序并反饋給用戶。例如關鍵詞是“槍”,系統(tǒng)會在文獻庫中檢索與槍相關的文獻,并進行相似度計算和排序;同時,根據關鍵詞計算最相似的概念并取前5個,用戶將得到關鍵詞擴展的概念分別為“步槍”、“手槍”、“自動步槍”、“AK47”,和“M4”,用戶能夠利用這些概念進一步提煉自己的檢索需求,經過多次迭代交互,最終找到自己所需要的文獻。
本文對基于概念擴展的文獻檢索系統(tǒng)的設計和實現(xiàn)進行簡單介紹。針對特定的領域,該系統(tǒng)以百科網頁為數據源,采用自動化的方式構建了概念網絡庫。基于概念網絡庫,該系統(tǒng)以概念擴展的方式,在用戶利用關鍵詞檢索的同時,通過將相似概念反饋給用戶,最大程度的幫助用戶提煉自己的檢索需求,提高用戶的檢索體驗。
[1]李蕾.基于語義網絡的概念檢索研究與實現(xiàn)[J]1情報學報,2000(5):525-5311.
[2]韓欣,秦帆.基于概念語義樹的語義相似度計算方法研究[J].Computer Knowledge and Technology.June 2011:3809-3810.
[3]Wu Z,Palmer M.Verb Semantics and Lexical Selection[C].In:Proceedings of the 32nd Annual Meeting of the Associations for Computational Linguistics,1994:133-138.
[4]An Information-Theoretic Definition of Similarity[EB/OL].[2007-12-20].http://www.cs.ualberta.ca/lindek/papers/sim.pdf
Literature Retrieval;Retrieval Optimization;Concept Network;Concept Similarity;Concept Extension;System Design
Design and Implementation of a Literature Retrieval System Based on Concept Extension
DING Quan-xun,DAI Zhe-ming,JIANG Xin
(The 32nd Research Institute of China Electronics Technology Group Corporation,Shanghai 200233)
1007-1423(2015)28-0052-03
10.3969/j.issn.1007-1423.2015.28.013
丁泉勛,戴哲明,姜鑫
(中國電子科技集團公司第三十二研究所,上海200233)
丁泉勛(1987-),男,江蘇泰州人,工程師,研究方向為智能信息檢索
戴哲明(1978-),男,浙江富陽人,碩士,高級工程師,研究方向為軟件工程
姜鑫(1987-),男,江蘇淮安人,碩士,工程師,研究方向為信息檢索
2015-09-08
2015-09-22
在文獻檢索系統(tǒng)中,檢索需求通過關鍵詞來描述,關鍵詞對檢索需求的覆蓋程度決定了檢索結果能否滿足檢索需求。為了改善檢索需求的提煉過程,提高關鍵詞對檢索需求的覆蓋程度,描述一種基于概念擴展的文獻檢索系統(tǒng)的設計與實現(xiàn)。與傳統(tǒng)的文獻檢索系統(tǒng)相比,該系統(tǒng)具備關鍵詞概念擴展的能力,該系統(tǒng)能夠基于百科網頁自動構建概念網絡,通過概念相似度計算從概念網絡中選擇與關鍵詞最相近的概念進行關鍵詞的概念擴展,以此來改善檢索需求的提煉、提高對檢索需求的覆蓋,從而達到優(yōu)化檢索體驗的目的。
In the literature retrieval system,the retrieval requirement is described by keyword,and the coverage of the retrieval requirement will de-termine whether the retrieval results can meet the needs of the search.In order to improve the extraction process and the coverage of re-trieval requirement,designs and implements a literature retrieval system based on concept extension.Compared with the traditional litera-ture retrieval system,the system has the ability to expand the keywords by using concept network.Aiming to improve the extraction pro-cess,the coverage of retrieval requirement as well as optimizing retrieval experience,the system can automatically construct the concept network based on the encyclopedias web page,extends keywords by selecting the concepts from concept network which are the most simi-lar to the keywords.