司 莉,潘秋玉(. 武漢大學(xué)信息資源研究中心,武漢 43007;. 武漢大學(xué)信息管理學(xué)院,武漢 43007)
基于多語本體的語義查詢擴展研究*
司莉1,潘秋玉2
(1. 武漢大學(xué)信息資源研究中心,武漢 430072;2. 武漢大學(xué)信息管理學(xué)院,武漢 430072)
查詢擴展是改善信息檢索結(jié)果的有效方法。針對用戶獲取多語言信息的需求以及當(dāng)前跨語言信息檢索存在的翻譯歧異性問題,提出一種基于多語本體的語義查詢擴展方法,介紹其基本原理、查詢擴展模型及實現(xiàn)過程,使跨語言信息檢索從字符匹配變成語義層面的匹配,實現(xiàn)跨語言信息檢索中的查詢擴展,以提高多語言信息檢索的查全率和查準率。
查詢擴展;多語本體;跨語言信息檢索
查詢擴展作為提高信息檢索性能的關(guān)鍵技術(shù),自20世紀60年代提出以來就逐漸受到關(guān)注。尤其是近年來,在計算機技術(shù)、云計算、物聯(lián)網(wǎng)、用戶創(chuàng)造內(nèi)容等多重因素的推動下,Internet已成為一個海量且仍在迅猛增長的信息庫,與此同時,網(wǎng)絡(luò)信息語種的多樣化和網(wǎng)絡(luò)用戶分布的國際化日益顯著,實現(xiàn)多語言信息組織與檢索,使用戶方便獲取多語言信息,成為信息檢索系統(tǒng)發(fā)展的趨勢之一。然而,不同語言概念之間的準確對應(yīng)始終是制約多語言信息檢索的瓶頸。由于本體表達概念語義和推理的能力較強,可消除自然語言理解中的歧義,并能根據(jù)相關(guān)概念進行推理,在多語言信息檢索中實現(xiàn)基于本體的語義查詢擴展,將有效提高多語言信息檢索的查全率和查準率,從而促進全球知識交流與共享。
傳統(tǒng)信息檢索系統(tǒng)利用簡單的詞匹配法則,即計算文檔特征值與檢索詞之間的相似度,往往只能檢索到包含查詢詞的那些資源。而用戶輸入的89.9%的檢索查詢只包含一個詞,平均查詢詞為1.73個[1],這樣,與用戶查詢請求相關(guān)但未包括檢索詞的那部分資源便無法被命中??梢?,實現(xiàn)用以提高查全率的查詢擴展是極為必要的。查詢擴展的基本思想是對用戶輸入的初始查詢詞進行修正和擴充,構(gòu)建更明確清晰的查詢表達式,以改善信息檢索的查全率和查準率。擴充的查詢詞有兩大類:一是查詢詞的同義或近義詞,二是加入全新的詞匯。
目前,查詢擴展的常用方法有3種:①基于用戶相關(guān)反饋的查詢擴展;②基于全局分析的查詢擴展;③基于局部分析的查詢擴展。其中,第一種要求用戶對查詢結(jié)果進行相關(guān)性判斷,系統(tǒng)對用戶判斷后的相關(guān)文檔進行計算,選取一些詞擴展查詢式進行二次檢索,如此反復(fù)直至用戶滿意,該方法可以很好地滿足用戶需求,但對用戶要求較高、負擔(dān)較重;第二種是系統(tǒng)自動對全部文檔中的詞或詞組進行相關(guān)分析,將與查詢詞關(guān)聯(lián)度較高的詞作為初始查詢詞的擴展詞來生成新的查詢式,其缺點是當(dāng)文檔數(shù)量較多時,計算量會比較大;第三種不需要用戶參與,系統(tǒng)自動將查詢結(jié)果中的前K篇文檔作為相關(guān)文檔,計算后選取擴展詞進行重新檢索,但容易發(fā)生“查詢漂移”現(xiàn)象,即擴展后的查詢主題偏離了用戶原來的查詢意圖。
3.1 多語本體的特征
本體是對概念及概念之間關(guān)系規(guī)范化、形式化、可共享、明確化的描述,是一種表達、共享、重用知識的方法[2]。多語本體是本體在不同語種中的具體表現(xiàn)形式[3]。多語本體不同于多語種詞典,因為它不僅包含大量規(guī)范的多語種概念,還具有豐富的概念關(guān)系和強大的推理能力。除了具備本體的一般特征,多語本體還有一個重要特征,即多語言同義詞規(guī)范。多語本體庫中的概念雖在各語言中的表達方式不同,但它們的內(nèi)涵是相互對應(yīng)且一致的。詞匯只是概念的一種表達方式,概念是獨立于語言的,所以一個概念的內(nèi)涵甚至可以不用語言表示,而使用數(shù)字或者符號等來代替。
目前已建立了多語本體WordNet以及以WordNet為標準建立的多語本體系列,如歐洲的EuroWordNet、中國的HowNet、俄國的RussianWordNet等。其中,EuroWordNet包含英語、荷蘭語、意大利語、西班牙語、德語、法語、捷克語、愛沙尼亞語等八個部分,它們之間通過中間語言索引將一種語言中的概念與其他語言中相似的概念聯(lián)系起來[4];HowNet是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫,描述了上下位關(guān)系、同義關(guān)系、反義關(guān)系、部件-整體關(guān)系等16種詞間關(guān)系[5]。多語本體的構(gòu)建為多語言語義檢索提供支持,是多語言信息檢索研究中重要的語言資源和工具。
3.2 基于多語本體的查詢擴展
3.2.1 基本原理
傳統(tǒng)的跨語言信息檢索最常用的方法是提問式翻譯,即將用戶輸入的提問式翻譯為系統(tǒng)支持的其他每種語言,然后進行單語言檢索[6]。這種方法的缺點是提問式往往沒有語境支持,這種簡單的關(guān)鍵詞翻譯難以避免翻譯過程中的歧義性問題。由于多語本體具有豐富的概念關(guān)系和強大的推理能力,使得基于多語本體的查詢擴展能夠?qū)⑻釂柺脚c文檔的對照和匹配提升到語義層面,從而有效地完成消歧工作。
在多語本體中,不同語種的概念術(shù)語通過映射進行了關(guān)聯(lián),當(dāng)用戶輸入一種語言的查詢語句時,系統(tǒng)在源語言本體庫中檢索相應(yīng)的查詢結(jié)果,并自動映射到其他語種,搜索與目標語言概念相同或相近的結(jié)果反饋給用戶。多語本體在多語言信息檢索的作用主要體現(xiàn)在兩個方面:一是在轉(zhuǎn)換查詢語言時,對提問式進行分詞和概念提取,并與多語本體庫中的內(nèi)涵進行對比,根據(jù)不同對應(yīng)情況作不同處理;二是在多語言信息檢索時,對檢索對象進行語義層面的處理,計算潛在文檔與查詢提問式之間的語義相關(guān)性,并按從高到低的順序排列,將查詢結(jié)果返還給用戶。
3.2.2 基于多語本體的查詢擴展模型
定義用戶的初始查詢?yōu)镼,對Q進行分詞、提取概念等預(yù)處理后可表示為Q={q1,q2,q3,…,qn},然后判斷Q={q1,q2,q3,…,qn}的查詢模式類型,按照不同的算法借助多語本體庫進行語義擴展,得到候選查詢擴展詞集Qe={qn+1,qn+2,qn+3,…,qn+n},計算初始查詢詞qi與Qe中的每個候選擴展詞qn+i之間的相似度sim(qi,qn+i)。為了避免查詢擴展詞過多而影響查詢擴展的精度和檢索結(jié)果的查準率,引入閾值λ(通過實驗得到)來對擴展詞進行一定的控制。比較每個sim(qi,qn+i)值與給定閾值λ的大小,并保留Qe中sim(qi,qn+i)>λ的擴展詞qn+i,作為最終的查詢擴展詞集。根據(jù)以上描述,基于多語本體的查詢擴展模型如圖1所示。
圖1 基于多語本體的查詢擴展模型
(1)查詢預(yù)處理
即接收用戶輸入的查詢詞,并進行分詞、切詞、句法語義關(guān)聯(lián)分析、提取概念、去除停用詞及多余符號等預(yù)處理,得到有檢索意義的關(guān)鍵詞集合Q= {q1,q2,q3,…,qn}。在預(yù)處理查詢之前,應(yīng)當(dāng)在一定程度上了解用戶的查詢行為。如在查詢詞方面,用戶輸入查詢詞時雖各有偏好,但大致可歸納為三類:①單個關(guān)鍵詞查詢;②多個關(guān)鍵詞查詢;③自然語言查詢,可分別以“杜鵑花”“湖濱杜鵑花”“武漢大學(xué)湖濱有杜鵑花嗎?”為例。了解用戶的查詢行為,有助于對用戶輸入的初始查詢詞進行有效處理。
(2)語義查詢擴展
對用戶查詢預(yù)處理后,判斷Q={q1,q2,q3,…,qn}的查詢模式類型。用戶的查詢模式主要分為3種類型:一是T1,2,…n模式,即用戶輸入的關(guān)鍵詞Q={q1,q2,q3,…,qn}不是多語本體中的概念或者實例;二是O1,2,…n模式,即用戶輸入的關(guān)鍵詞Q={q1,q2,q3,…,qn}是多語本體中的概念或者實例;三是T1,2,…n+O1,2,…n模式,也稱混合模式,即用戶輸入的關(guān)鍵詞Q={q1,q2,q3,…,qn}既有多語本體中的概念或者實例,也包含不在本體庫中的詞匯[7]。根據(jù)用戶不同的查詢模式,借助多語本體運用不同方法完成語義擴展。
①T1,2,…n模式的語義查詢擴展
查詢關(guān)鍵詞不在多語本體中,使用詞典翻譯關(guān)鍵詞ti,采用基于關(guān)鍵詞匹配的方法檢索,獲取每一個ti的相關(guān)文檔,并統(tǒng)計這些文檔中出現(xiàn)的ti和本體概念及其各自出現(xiàn)的頻次,選擇前n個本體概念作為擴展概念,并完成對普通關(guān)鍵詞的擴展。其基本思想是每個關(guān)鍵詞常常會出現(xiàn)在某個相應(yīng)的語境中,在該語境中同時出現(xiàn)的詞往往與查詢關(guān)鍵詞有著密切的關(guān)聯(lián),同理,在該語境中出現(xiàn)的本體概念也與查詢關(guān)鍵詞有某種聯(lián)系[8]。通過這樣的方式把用戶輸入的普通關(guān)鍵詞語義化,這些本體概念作為關(guān)鍵詞的擴展詞也有著相當(dāng)?shù)恼Z義價值。
②O1,2,…n模式的語義查詢擴展
直接將查詢詞與多語本體庫中概念的內(nèi)涵進行映射,找出合適的本體概念以及相關(guān)的術(shù)語、關(guān)系、實例等。由于在多語本體中,不同語種的概念術(shù)語通過映射進行了關(guān)聯(lián),當(dāng)用戶輸入一種語言的查詢語句時,系統(tǒng)在源語言本體庫中檢索對應(yīng)結(jié)果,系統(tǒng)可以自動映射到其他語種,搜索與目標語言概念相同或相近的結(jié)果反饋給用戶。例如,若以中文、英文和日文建立珞珈山植物多語本體庫,用戶輸入中文關(guān)鍵詞“映山紅”,系統(tǒng)首先調(diào)用中文庫,與本體中的術(shù)語進行匹配,把“杜鵑”“山石榴”“唐杜娟”等同義詞匯選出來,再把與這些詞匯相關(guān)的上級概念、同類概念、地理分布等關(guān)系找出來;利用多語本體的映射關(guān)系找出英文、日文中對應(yīng)的術(shù)語及其相關(guān)概念,如“rhododendron”“ツツジ”等,系統(tǒng)以"映山紅"及其中文、英文、日文三種語言的擴展詞進行檢索,從而實現(xiàn)語義查詢擴展和多語言信息檢索。
③T1,2,…n+O1,2,…n模式的語義查詢擴展
此模式是上述兩種模式混合的情況。在用戶的查詢中既有多語本體中的概念,也有多語本體不能直接處理的普通關(guān)鍵詞。這種模式有兩種情況,第一種是T1,2,…,n中的信息與O1,2,…,n中的屬性的取值相關(guān),第二種是T1,2,…,n中的信息與O1,2,…,n中的屬性的取值并不相關(guān)[8]。仍以珞珈山植物多語本體庫為例,如在“湖濱有杜鵑花嗎?”查詢中,“杜鵑花”是多語本體庫中的概念,“湖濱”是杜鵑花地理分布范圍的值,可在多語本體庫中找出這一關(guān)系,返還給用戶相關(guān)文檔;而在“rhododendron DuFu”查詢中,“rhododendron”是多語本體庫中的概念,“DuFu”則不在本體庫中,運用多語本體庫擴展出“rhododendron”的相關(guān)詞“杜鵑”“山石榴”“唐杜娟”“ツツジ”等(O1,2,…n模式),使用詞典找到“DuFu”的對應(yīng)翻譯詞“杜甫”(T1,2,…n模式),再使用“杜甫”與“rhododendron”及其擴展詞匹配檢索,返回用戶需求的信息。
(3)語義相似度計算
語義相似度是指兩個詞語在語義層次上的相似程度,即它們在上下文語境中能夠在不改變句法的前提下相互交換的程度[9],其取值在[0,1]之間,兩個完全相同的詞語語義相似度為1,如“映山紅”和“杜鵑”;兩個不能互相代替的詞語語義相似度為0,如“映山紅”和“杜甫”等。
當(dāng)要準確計算出兩個概念間的相似度時,首先必須清楚影響語義相似度的因素,主要有:①語義距離Dis(X,Y),即兩個概念X、Y在層次網(wǎng)中的距離,一般用兩個概念各自對應(yīng)的節(jié)點在層次樹中的最短路徑來衡量。語義距離越小,兩個概念間的語義相似度越大,Sim(X,Y)值越接近于1,相反,語義距離越大,概念間的語義相似度越小,Sim(X,Y)值越接近于0,兩者呈反比關(guān)系;②概念節(jié)點的深度Depth(X),即概念X在本體中與根節(jié)點的最短長度,Depth(X)=Lenth(root,X),這里有兩種情境,一是在本體中處于同一層次的概念間的相似度大于不同層次的概念間的相似度,二是當(dāng)語義距離相同時,在本體層次樹中距離根節(jié)點遠的概念節(jié)點間的相似度大于離根節(jié)點近的概念節(jié)點間的相似度;③概念節(jié)點的寬度Width(X),即概念X在本體中同一層次概念子節(jié)點的數(shù)量,子節(jié)點數(shù)越多,說明細化程度越大,分類越具體,概念間的語義相似度也越大,反之則越?。虎苷Z義重合度Match(X,Y),即本體內(nèi)部兩概念結(jié)點X、Y之間包含相同的上位概念在總節(jié)點中所占的比例,其基本思想是兩個概念擁有共同父節(jié)點的數(shù)量越多,表明兩者關(guān)聯(lián)度越高,相似度越大。
(4)閾值控制
即引入閾值λ對擴展詞的數(shù)量進行一定的控制,以保證查詢擴展的精度。閾值λ的值需要通過實驗獲取。利用語義相似度計算公式計算初始查詢詞qi與每個候選擴展詞qn+i之間的相似度sim(qi,qn+i),刪除相似程度低于閾值λ的候選擴展詞,同時保留概念間語義相似度值大于閾值λ的詞匯,形成最終的查詢擴展詞集。這樣不僅對用戶輸入的查詢詞進行了語義層面的操作,而且通過限制搜索范圍避免了查準率降低的問題,從而使查詢擴展更符合用戶需求,保證檢索結(jié)果的全面性和精確性。
3.2.3 基于多語本體的查詢擴展實現(xiàn)過程
綜上,具體的基于多語本體的查詢擴展實現(xiàn)過程如下:
(1)利用多語詞典等相關(guān)資源和本體構(gòu)建工具建立一個多語言領(lǐng)域本體庫;
(2)用戶輸入查詢式,系統(tǒng)對查詢式進行分詞、去除停用詞、提取概念等處理,把用戶查詢式表示為Q= {q1,q2,q3,…,qn};
(3)根據(jù)Q={q1,q2,q3,…,qn}所屬的查詢模式類型及其各自的查詢擴展算法,借助多語本體庫進行語義擴展,將查詢詞與源語言本體庫中概念的內(nèi)涵進行映射,找出合適的本體概念以及相關(guān)的術(shù)語,并自動映射到其他語種,查找其他語言中相對應(yīng)的概念,得到包含各語種的查詢擴展詞集Qe={qn+1,qn+2,qn+3,…,qn+n};
(4)利用語義相似度公式計算出初始查詢詞qi與每個候選擴展詞qn+i之間的相似度sim(qi,qn+i),并與閾值λ比較,把sim(qi,qn+i)>λ的詞匯加入到擴展詞集中;
(5)將最終查詢式Q∪Qe提交給搜索引擎實施檢索。
筆者在傳統(tǒng)跨語言信息檢索的基礎(chǔ)上提出一種基于多語本體的查詢擴展方法,描述了多語本體在跨語言信息檢索中的應(yīng)用原理,建立并詳細介紹了基于多語本體的查詢擴展模型,使跨語言信息檢索由關(guān)鍵詞匹配進化為語義匹配,能夠在一定程度上改善信息檢索性能,實現(xiàn)多語言信息檢索的語義擴展,有效提高獲取全球知識的效率。將該方法運用于跨語言信息檢索的前提是要建立一個優(yōu)秀的多語本體庫,并設(shè)計合適的算法,本文尚未使用實際的系統(tǒng)進行實驗以驗證該方法的有效性,有待我們在下一步的研究工作中進行實現(xiàn)。
[1] 胡保祥.基于查詢?nèi)罩镜牟樵償U展研究[D].北京:北京郵電大學(xué),2013.
[2] 司莉.信息組織原理與方法[M].武漢:武漢大學(xué)出版社,2011:269.
[3] 吳丹,王惠臨.本體在跨語言信息檢索中的應(yīng)用機制研究[J].圖書情報工作,2006,50(9):10-13.
[4] Vossen P J. EuroWordNet: Building a multilingual database with wordnets for several European languages. [EB/OL]. [2015-11-20]. http://www.illc.uva.nl/EuroWordNet/.
[5] 董振東.《知網(wǎng)》中文版[EB/OL]. [2015-11-20]. http://www.keenage. com/html/c_index.html.
[6] 吳丹.本體驅(qū)動的跨語言信息檢索研究[J].現(xiàn)代圖書情報技術(shù),2006(5):22-26,85.
[7] 王進,陳恩紅,張振亞,等.基于本體的跨語言信息檢索模型[J].中文信息學(xué)報,2004(3):1-8,60.
[8] 高敏.基于本體的語義查詢擴展研究[D].濟南:山東科技大學(xué),2008.
[9] 譚睿哲.基于本體和用戶日志的查詢擴展研究[D].長沙:湖南大學(xué),2013.
潘秋玉,女,1991年生,武漢大學(xué)信息管理學(xué)院碩士研究生,研究方向:信息組織。
Semantic Query Expansion Based on Multilingual Ontology
SI Li1, PAN QiuYu2
(1. The Center for the Study of Information Resources, Wuhan University, Wuhan 430072, China;2. School of Information Management, Wuhan University, Wuhan 430072, China)
Query expansion is an effective method to enhance information retrieval performance. Aiming at the requirements of acquiring multilingual information and solving the problems of semantic disambiguation of cross language information retrieval (CLIR), the article proposed a new semantic query expansion method based on multilingual ontology, and introduced its fundamentals, model and realization process, to turn character-matching into semantic matching for CLIR, implementing query expansion in CLIR, which may optimize system's recall and precision.
Query Expansion; Multilingual Ontology; Cross Language Information Retrieval (CLIR)
TP391
10.3772/j.issn.1673-2286.2016.2.006
* 本研究得到教育部人文社會科學(xué)重點研究基地重大項目“基于內(nèi)容的多語言信息組織與檢索研究”(編號:14JJD870001)資助。
司莉,女,1965年生,武漢大學(xué)信息資源研究中心研究員,武漢大學(xué)信息管理學(xué)院教授、博導(dǎo)、圖書館學(xué)系主任,研究方向:信息組織、知識組織、圖書館營銷與服務(wù)等,E-mail:lsiwhu@163.com。
2016-01-15)