吳建榮 陳洪梅 姚建民 熊思勇
(蘇州市科學技術情報研究所,江蘇蘇州 215021)
自然語言檢索擴展詞庫的構(gòu)建方法
吳建榮 陳洪梅 姚建民 熊思勇
(蘇州市科學技術情報研究所,江蘇蘇州 215021)
檢索詞自動擴展詞庫構(gòu)建方法的基本思路是:根據(jù)語料是否規(guī)范化處理進行詞庫分類建設,優(yōu)化了系統(tǒng)的檢索性能;結(jié)合學科類別,對詞庫語料進行領域劃分,引導科技人員對技術領域的準確把握;建設以本體庫為基礎,將與規(guī)范詞具有關聯(lián)性、相似性的語料通過關系表與關聯(lián)庫關聯(lián),把科技文獻中的關鍵詞組成一個有序的關系網(wǎng),解決了傳統(tǒng)檢索系統(tǒng)中檢索詞無關聯(lián)的不足;通過對檢索詞出現(xiàn)頻率進行統(tǒng)計分析,進而更新詞庫,保證本體庫、關聯(lián)庫語料的時效性,突破了人工對詞庫更新管理的受限性。
自然語言;檢索詞;檢索擴展;本體庫;關聯(lián)庫
自然語言是一種自然地隨文化演化的語言,是人類交流和思維的主要工具。在信息檢索過程中,一般科技人員提交的檢索詞都具有自然語言特征。相比于自然語言,人工語言是經(jīng)規(guī)范化處理的受控語言,它把表達主題概念的自然語言轉(zhuǎn)換為受控語詞進行檢索。為了提高檢索質(zhì)量,一般將自然語言轉(zhuǎn)換成人工語言實現(xiàn)準確匹配。本文以蘇州市科技服務中心整合同方知網(wǎng)、萬方數(shù)據(jù)、維普資訊等科技文獻資源為切入點,研究基于自然語言檢索擴展的詞庫構(gòu)建方法。
建設具有邏輯關系擴展的檢索詞庫,是提高檢索效率的有效措施。隨著資訊、論文、專利等網(wǎng)絡資源數(shù)量級增長,科研人員為了能準確獲取所需的資料,希望被檢索的網(wǎng)絡資源與自身的研究方向相一致。因此,這里根據(jù)科研人員對檢索資源的專業(yè)領域揭示的要求,并結(jié)合同方知網(wǎng)、萬方數(shù)據(jù)、維普資訊等文獻資源的主題揭示情況,按學科領域進行關聯(lián)擴展構(gòu)建檢索詞的關聯(lián)庫。涉及的學科類別共34個[1],如表1所示。同時,以學科類別為基礎,利用全國科學技術名詞審定委員會公布的名詞和全國科學技術名詞審定委會員的漢英審定詞典規(guī)范化的詞語作為主題詞建立本體庫[2]。
在檢索過程中,根據(jù)用戶提交的檢索詞,以本體庫為基礎,通過關聯(lián)詞表進行映射,自動抽取出與該詞相關或相似的詞語,實現(xiàn)檢索詞擴展。同時,系統(tǒng)對檢索詞出現(xiàn)頻率進行計算,首次出現(xiàn)或在一定閾值以內(nèi)時存儲至關聯(lián)庫,超過一定閾值時以維基詞典的關系信息為基礎存儲至本體庫;對于本體庫中使用頻率低于一定閾值的主題詞移至關聯(lián)庫,實現(xiàn)詞庫的自動更新[3]。如圖1所示。
本文選擇由全國科學技術名詞審定委員會和全國科學技術名詞審定委會員漢英審定詞典系列公布的詞語,以學科類別劃分為基礎,通過對同義詞、近義詞、上下位類等關系分析處理形成本體庫。同時,以檢索詞的使用頻率為依據(jù),以維基詞典的關系信息為基礎,自動對本體庫進行更新。
3.1 名詞
全國科學技術名詞審定委員會公布的名詞具有權威性和約束力,包括專業(yè)術語、術語類別以及術語之間的關系(包括上位詞、下位詞、同義詞等),其中詞條數(shù)55959條,關系類別數(shù)15個,關系實例16365個(即包含相關詞的術語個數(shù)),實例關系對:57172個,均存儲至本體庫。例如:“感應分流器”包含如下關系:
<類屬>分流器
<子類>多線圈感應分流器
<子類>雙線圈感應分流器
<子類>單線圈感應分流器
上述例子中,“關系實例數(shù)”為1,“實例關系對”個數(shù)為4,每個“關系實例數(shù)”包含多個“實例關系對”數(shù)。
表1 學科類別信息
圖1 詞庫結(jié)構(gòu)示意圖
3.2 漢英審定詞典
全國科學技術名詞審定委會員漢英審定詞典包括專業(yè)術語以及該術語的英文翻譯、上位詞、領域和術語定義。圖2為術語“作用力”在詞典中的組織形式,其中“applied force”是該術語的英文翻譯,“機構(gòu)動力學”為該術語的領域,“機械工程”為該術語的上位詞,“能夠產(chǎn)生運動或運動趨勢的力”是該術語定義。
圖2 漢英審定詞典實例
在對全國科學技術名詞審定委會員專業(yè)術語漢英詞典進行抽取時,將其包含的專業(yè)術語以及該術語的英文翻譯、上位詞、領域和術語定義均存儲至本體庫。
3.3 維基詞典
當檢索詞的檢索頻率超過一定閾值,本體庫未含該檢索詞信息,且《全國科學技術名詞審定委員會》公布名詞和《全國科學技術名詞審定委員會》的漢英審定詞典都沒有該檢索詞的關系信息時,維基詞典是一個很好的信息來源。維基詞典是一個由志愿者編纂的多語的詞典,對一個詞匯的發(fā)音、語源、釋義、詞匯翻譯給出解釋。圖3為詞條“information entropy(信息熵)”在維基詞典中的解釋頁面。可以看出,“Shannon entropy”為“information entropy”的同義詞。維基百科是包含多種語言的詞典,其中,英語類詞條數(shù)最多。目前,通過維基詞典共挖掘到包含同義詞等相關詞語的詞條數(shù)約32000條。對于新加入本體庫的檢索詞,系統(tǒng)將自動從維基詞典中提取關系信息,并經(jīng)人工篩選確認處理后存儲至本體庫。
關聯(lián)庫是圍繞本體庫建立的基于自然語言的詞庫。關聯(lián)庫中的語料與本體庫的語料具有關聯(lián)關系,是對主題詞的擴展,以便科研人員快速地定位到相關的研究領域[4]??蒲腥藛T針對某個研究領域輸入的兩個檢索詞,一般具有異詞有關、異詞近義、異詞同義3種關系[5-7]。
圖3 《維基詞典》實例
4.1 異詞相關
異詞相關是指兩個不同主題檢索詞之間具有領域相關性,如,“主題詞”與“關鍵詞”?;バ畔⒆鳛橐环N關聯(lián)性的度量標準,旨在度量x和y之間的相關程度,其度量公式如下所示[8]:
首先根據(jù)同方知網(wǎng)、萬方數(shù)據(jù)、維普資訊等文獻資源的層次結(jié)構(gòu),獲取這些資源在各領域內(nèi)論文的題錄信息。將各個領域集合中的關鍵詞作為該領域內(nèi)的關聯(lián)詞集合,再對各領域內(nèi)的關聯(lián)詞集合分別在標題、關鍵詞和摘要中計算兩個詞的互信息,其計算公式如下:
其中,f( x, y)為關聯(lián)詞x和關聯(lián)詞y均在標題、摘要或關鍵詞中共現(xiàn)的頻度(文章數(shù)),f( x)為關聯(lián)詞x在標題、摘要或關鍵詞中出現(xiàn)的頻度(文章數(shù)),f( y)為關聯(lián)詞y在標題、摘要或關鍵詞中出現(xiàn)的頻度(文章數(shù)),該公式在式(1)的基礎上再乘以f( x, y)是為了防止出現(xiàn)高頻詞的互信息較低的現(xiàn)象。
將關聯(lián)詞x、y的互信息值,通過標題、關鍵詞、摘要得到的值分別記為:I標題( x, y)、I摘要( x, y)和I關鍵詞( x, y),這3個值為關鍵詞相關度度量值。對得到的互信息值采用線性加和的方式將其融合,關聯(lián)詞x以及關聯(lián)詞y的相關度為γ(x, y),計算公式如下:
其中,a、b、c為加權系數(shù),由人工調(diào)整。
根據(jù)γ(x, y)相關度排序,將靠前排列的詞語作為異詞相關進行處理保存。
4.2 異詞同義
異詞同義是指具有不同描述字符的兩個主題檢索詞表示同一含義,主要體現(xiàn)在同義詞、縮寫等形式。如“機器翻譯”“自動翻譯”與“MT”。針對同義相關的檢索詞,有以下兩種方法進行挖掘。
(1)模板匹配法。維基百科對字詞具有完整的解釋,包括字詞的文化背景、文化意義等,這也是維基百科與維基詞典的重要區(qū)別。該階段利用維基百科中的詞語解釋,挖掘具有同一含義的不同詞語。例如,對于主題檢索詞“梯度下降法”,維基百科解釋為:“梯度下降法是一個最優(yōu)化算法,通常也稱為最速下降法?!备鶕?jù)該解釋,主題檢索詞“梯度下降法”與“最速下降法”具有同義關系。
(2)詞典翻譯法。一般來說,一個英文檢索詞可以被翻譯成多個中文詞語,如通過有道詞典將“information”翻譯為中文,可以表示為信息、資料、知識、情報、通知。這里利用有道詞典的翻譯結(jié)果,將具有相同英文翻譯的中文檢索詞判斷為同義。
4.3 異詞近義
異詞近義是指兩個不同主題檢索詞的含義相近,具有上下位關系、包含關系等。如,“概率論”與“概率統(tǒng)計”。針對具有上下位關系的檢索詞,可通過兩種方法實現(xiàn)。
(1)模板匹配法。由于利用自由文本上下位詞抽取的準確率低,這里采用模板匹配的方式挖掘上下位關系詞。該部分使用的模板通過人工總結(jié),抽取出具有上下位關系的模板定義。根據(jù)建立的模板,抽取出現(xiàn)在同一個子句中上下位關系主題詞。例如:
<名詞“屬于”名詞“的范疇”>
模板可在論文摘要或其他大規(guī)模語料上進行抽取,也可利用關鍵詞兩兩組合。例如,直接搜索句子“事件抽取屬于信息抽取的范疇”,若搜索引擎的返回結(jié)果中,能夠有完全匹配該句話的結(jié)果,或者包含該句話的數(shù)量超過某一閾值,則認為“信息抽取”和“事件抽取”具有上下位關系,并且“信息抽取”是“事件抽取”的上位詞,“事件抽取”是“信息抽取”的下位詞。該部分的抽取旨在補充上一步得到的關鍵詞庫中上下位關系信息。
(2)維基百科層次法。維基百科層次法,是指利用維基百科中現(xiàn)有的上下位層次結(jié)構(gòu),通過同義詞擴充,從而得到更多的包含上下位關系的主題檢索詞。根據(jù)圖4所示,已知主題檢索詞A、B為維基百科中的詞條,并且兩者具有上下位關系,利用同義詞構(gòu)建方法,得到詞條A’為詞條A的同義詞,詞條B’為詞條B的同義詞,那么可以將詞條A’以及詞條B’加入該上下位關系結(jié)構(gòu)中,從而擴充了上下位關系的主題檢索詞。
圖4 基于維基百科的上下位關系獲取
本文提出的基于檢索詞自動擴展的詞庫構(gòu)建方法,其基本思路是:根據(jù)語料是否規(guī)范化處理進行詞庫分類建設,優(yōu)化了系統(tǒng)的檢索性能;結(jié)合學科類別,對詞庫語料進行主題劃分,引導科技人員對技術領域的準備把握;建設以本體庫為基礎,將與規(guī)范詞具有關聯(lián)性、相似性的語料通過關系表與關聯(lián)庫關聯(lián),把科技文獻中的關鍵詞組成一個有序的關系網(wǎng),解決了傳統(tǒng)檢索系統(tǒng)中檢索詞無關聯(lián)的不足;通過對檢索詞出現(xiàn)頻率進行統(tǒng)計分析,進而更新詞庫,保證本體庫、關聯(lián)庫語料的時效性,突破了人工對詞庫更新管理的受限性。
[1] 中國圖書館分類法.中圖分類號查詢[EB/OL].[2013-08-19].http://www.zt f h.com.
[2] 黃媛.基于論文主題詞和關鍵詞關系網(wǎng)的檢索詞擴展研究[J].科技廣場,2011(1):24-27.
[3] 王小華,徐寧,諶志群.基于共詞分析的文本主題詞聚類與主題發(fā)現(xiàn)[J].情報科學,2011,29(11):1621-1624.
[4] 田萱,杜小勇,李海華.信息檢索中一種基于詞語——主題詞相關度的語言模型[J].中文信息學報,2007, 21(6):43-50.
[5] 劉華梅.基于情報檢索語言互操作技術的集成詞庫構(gòu)建研究—以教育詞庫為例[D].南京:南京農(nóng)業(yè)大學, 2006,6.
[6] 王石,曹存根,裴亞軍等.一種基于搭配的中文詞匯語義相似度計算方法[J].中文信息學報,2013,27(1):7-14.
[7] 梁娜,耿國華,周明全,等.自然語言處理中的語義關系與句法模式互發(fā)現(xiàn)[J].計算機應用研究,2008, 25(8):2295-2298,2308.
[8] 王夙娟.特定主題詞庫建立的相關技術的研究[J].科技信息,2012(14):115-116.
國家科技報告服務系統(tǒng)征求意見版正式上線運行
本刊訊 2013年11月1日,國家科技報告服務系統(tǒng)征求意見版正式面向社會上線運行。 “國家科技報告服務系統(tǒng)”以推進科技報告資源的開放共享為目的,目前提供在線瀏覽的1000份科技報告,是依據(jù)“十一五”期間已驗收的部分國家科技計劃項目(課題)驗收報告加工而成??萍加媱澩度胨a(chǎn)生的科技報告將通過“國家科技報告服務系統(tǒng)”面向社會開放。公眾只要登錄網(wǎng)址www.nstrs.cn,就可以了解國家科技計劃項目的相關信息?!皣铱萍紙蟾娣障到y(tǒng)”征求意見版的開通,標志著我國科技報告工作全面展開。
科技報告是指科技人員為了描述其從事的科研、設計、工程、試驗和鑒定等活動的過程、進展和結(jié)果,按照規(guī)定的標準格式編寫而成的特種文獻??萍紙蟾嬖攲嵱涊d了項目研究工作的全過程,包括成功的經(jīng)驗和失敗的教訓,其實質(zhì)是以積累、傳播和交流為目的。科研工作者依據(jù)科技報告中的描述能重復實驗過程、了解科研結(jié)果。科技報告的數(shù)量、質(zhì)量不僅反映了科研項目完成的質(zhì)量和創(chuàng)新程度,也能驗證項目承擔人的科研能力和水平,是科研工作承上啟下的重要保障??萍紙蟾娉掷m(xù)積累所形成的國家基礎性戰(zhàn)略資源,既為科技管理部門提供真實的信息支撐,又為科研人員提供有效的信息保障,還能保證社會公眾對政府科研投入產(chǎn)出的知情權。從而,避免重復投入,實現(xiàn)資源共享。
科技報告試點工作包括4部分內(nèi)容。一是,要對新老項目實行分類管理。對于已驗收的項目,進行科技報告的回溯工作,在提交原有報告基礎上,進行科技報告規(guī)范改寫。對于在研的項目,各計劃歸口管理部門修改了年度報告、中期報告、驗收報告的模板,增加科技報告內(nèi)容部分。對于新立項目,納入國家科技計劃項目合同管理,計劃任務書中將明確規(guī)定承擔單位呈交科技報告的數(shù)量、類型及時限,包括過程中產(chǎn)生的專題技術報告;將科技報告任務完成情況作為中期檢查和結(jié)題驗收的必備條件,作為后續(xù)支持的重要依據(jù)。二是,在科技部國家科技計劃項目申報中心設立科技報告呈交專欄,各科技計劃通過相應渠道統(tǒng)一呈交科技報告。同時建設“國家科技報告服務系統(tǒng)”實現(xiàn)公開科技報告的開放共享。三是,積極推進法人單位科技報告體系建設。督促項目(課題)承擔單位充分履行法人責任;將科技報告工作納入本單位科研管理程序,設專門崗位負責科技報告工作,將科技報告納入機構(gòu)知識庫統(tǒng)一管理;督促項目(課題)負責人組織科研人員撰寫科技報告,負責本單位所承擔項目(課題)的科技報告審查和呈交工作。四是,由于科研人員不熟悉科技報告格式規(guī)范,因此需要對承擔國家科技計劃課題的科研人員及單位管理人員進行全面培訓和宣傳工作。以上試點工作正在穩(wěn)步推進?!皣铱萍紙蟾娣障到y(tǒng)”預計2013年12月底形成總計3000份科技報告的服務規(guī)模,2014年3月初完成1萬份科技報告上線,面向全社會開放共享。
Lexicon Construction M ethod for Query Expansion by Natural Language
Wu Jianrong, Chen Hongmei, Yao Jianmin, Xiong Siyong
(Suzhou Institute of Scientif c, Technical Information, Suzhou 215002)
For high retrieval precision and recall rate, a lexicon construction solution is introduced for query expansion in docum ent retrieval. According to specific technology domain, an ontology based is built on basis of authoritative lexicons by the China national comm ittee for terms and W iktionary. Synonym s, hypernyms and hyponyms are acquired on basis of template matching and hierarchy structure reasoning from natural language contexts and W ikipedia. For better query expansion performance, a relationship network with statistical link strength is founded on basis of mutual information of related query terms. The above query term network enables a powerful know ledge management tool for document retrieval together w ith user logs and intermediate retrieval results.
natural language, query terms, query expansion, ontology, relation base
G354
:ADOI:10.3772/j.issn.1674-1544.2013.06.013
吳建榮(1967- ),男,蘇州市科學技術情報研究所副所長,副研究員,研究方向:科技管理、科技資源建設與共享、成果轉(zhuǎn)移轉(zhuǎn)化。
蘇州市2011年基礎設施計劃項目“蘇州市科技文獻智能分析公共服務平臺”(SZP201107)。
2013年9月28日。