朱惠+楊建林+王昊
(1.南京大學信息管理學院 江蘇南京 210023)
(2.江蘇省數(shù)據(jù)工程與知識服務重點實驗室 江蘇南京 210023)
摘 要:文章對中文非結構化文本中(半)自動獲取學科術語的相關語義關系進行了探討,以尋找行之有效的獲取方法。從CNKI獲取“數(shù)字圖書館”學科領域文獻,通過術語抽取、動詞抽取、向量空間模型構建、雙重關聯(lián)規(guī)則分析和規(guī)則評價獲得了具有較強關聯(lián)的術語對以及作為關聯(lián)標簽的動詞,從而獲取了學科術語的相關語義關系。該獲取方法與其他方法相比,具有較高的可行性和有效性,并對術語的相關語義關系進行了有效性和實用性的評價,提高了獲取的準確率。但文章也存在一定的局限性,在對術語相關語義關系的有效性和實用性進行評價時,指標的選擇和閾值的確定存在人工干預,具有一定的主觀性。
關鍵詞:學科術語;相關語義關系;數(shù)據(jù)挖掘;關聯(lián)規(guī)則;規(guī)則評價
中圖分類號: G202 文獻標識碼: A DOI:10.11968/tsyqb.1003-6938.2017041
1 引言
學科術語的語義關系總體上可分為兩大類:分類語義關系(層次語義關系)和非分類語義關系,本文將非分類語義關系稱為相關語義關系。層次語義關系和相關語義關系均是學科知識本體的重要組成部分,它們將學科術語按照語義關系進行組織,為學科知識的搜索、重用及進一步理解提供條件[1]。在文獻[1]中,作者對如何借助知識自動獲取方法和技術獲得領域術語的層次語義關系進行了研究,本文將探討如何從中文非結構化文本中(半)自動獲得學科術語的相關語義關系。
相較于層次語義關系,相關語義關系的獲取更為困難,目前國內外對此的研究也較少,常用的獲取相關語義關系的方法之一是普通關聯(lián)規(guī)則分析。該方法能獲取術語的相關語義關系,但只能獲得具有相關語義關系的術語對,而不能獲得關系的標簽[2]。
本文將術語的相關語義關系限定為<術語1-動詞-術語2>的三元組關系,試圖在建立句子-術語向量空間模型和句子-<術語,動詞>向量空間模型的基礎上,引入雙重關聯(lián)規(guī)則分析以及規(guī)則評價,由此形成一種從中文非結構化文本獲取學科術語相關語義關系的具體方法。雙重關聯(lián)規(guī)則分析還沒被發(fā)現(xiàn)應用在學科術語相關語義關系的獲取中,因此,本文嘗試引入該方法獲得術語的相關語義關系,并借助相關指標來評價規(guī)則的有效性和實用性。
2 相關研究
國內外有學者對基于非結構化文本獲取術語的相關語義關系進行了研究。如David等[3]提出了一個自動的、無監(jiān)督的獲取概念相關語義關系的方法,該方法從網絡文本提取術語的相關語義關系,并通過與Wordnet進行比較驗證方法的有效性;J. Villaverde等[4]對領域文本語料庫進行分析,抽取連接概念對的動詞,并將這一技術集成到了本體構建的過程中;Albert等[5]通過集成類似DBpedia這樣的外部知識源到本體學習系統(tǒng)中獲得相關語義關系的標簽。該方法應用了語義推理和驗證,使得獲取的相關語義關系質量較高;Mei Kuan Wong等[6]提出基于一種多步驟相關研究框架從非結構化文本中獲取術語的相關語義關系;Ivo Serra等[7]采用兩個過程對獲取概念相關語義關系的多種技術和方法進行了評價,并在生物學領域語料庫和法律領域語料庫中進行了驗證;Martin等使用擴展的關聯(lián)規(guī)則獲取術語的相關語義關系以及給出了關系的標簽,并且基于已有語義標注的語料庫對方法進行了評估[8]。
董麗麗等[9]首先通過關聯(lián)規(guī)則抽取特定領域術語對,接著抽取術語對之間的高頻動詞,將它們作為候選相關語義關系標簽,然后運用VF×ICF度量方法確定相關語義關系的標簽;古凌嵐等[10]運用語義角色標注和依存語法分析獲取文本句子的語義依存結構,提取出具有語義依存關系的動詞框架,通過語義相似度計算發(fā)現(xiàn)動詞框架中術語間的相關語義關系和關系標簽;邱桃榮等[11]通過分析概念粒的上下文,構建了基于不同領域概念粒度空間的概念粒交叉關系學習模型,有利于實現(xiàn)領域本體相關語義關系的獲??;王紅等[12]提出了基于NNV(名詞-名詞-動詞)的關聯(lián)規(guī)則獲取術語相關語義關系及其標簽的方法;張立國等[13]對語料進行詞性標注和語義分析,得到具有語義依存關系的動詞框架,然后再計算句子的相似度,抽取出術語的相關語義關系并給出關系的標簽;谷俊等[14]在關聯(lián)規(guī)則中加入謂語動詞進行相關計算,結合搜索引擎技術抽取候選相關語義關系,在此基礎上對置信度和支持度進行對比分析,抽取出最終的相關語義關系。
綜上可知,國內外學者嘗試通過關聯(lián)規(guī)則分析、語義依存分析等來獲取術語的相關語義關系,而關聯(lián)規(guī)則分析的應用又較多。作為相關語義關系標簽的動詞的獲取還沒有形成有效統(tǒng)一的方法。此外,上述方法對于所獲規(guī)則的有效性和實用性并沒有進行評價。
本文將構建句子×術語向量空間模型、句子×<術語,動詞>向量空間模型,進行二重關聯(lián)規(guī)則分析以獲取具有相關語義關系的術語對以及語義關系的標簽。在進行關聯(lián)規(guī)則分析的過程中,引入一系列指標來控制規(guī)則的有效性和實用性,從而提高術語相關語義關系獲取的質量。
3 學科術語相關語義關系獲取方法
本文重點探討基于雙重關聯(lián)規(guī)則分析和規(guī)則評價從非結構化文本獲取術語相關語義關系的方法和過程,這里的非結構化文本由學科期刊論文的標題、摘要和關鍵詞構成,獲取思路和方法(見圖1)。
3.1 術語抽取
科研人員是學科術語動態(tài)變化過程的直接參與者和見證者,他們撰寫的科研文獻記載了學科的動態(tài)發(fā)展過程,文獻中的關鍵詞則是學科研究內容的凝練,因此,可以從科研文獻的關鍵詞中抽取學科術語。
但筆者給出的關鍵詞具有較大的隨意性、不一致性以及誤差性,因此,有必要首先對這些候選術語進行統(tǒng)一規(guī)范,以符合同一概念的術語唯一化。
學科術語是專業(yè)詞匯,必須具有一定的學科認可度,因此,本文采用關鍵詞在所有文檔中出現(xiàn)的頻數(shù)Nk作為篩選條件,即若:
Nk≥ C (1)
則認為該關鍵詞被學科普遍認可,可作為該學科的術語,其中C為詞頻閾值[1]。
3.2 相關語義關系術語對抽取
以非結構化文本中的摘要作為研究語料,將其切分成句子,進行詞性標注分詞,構建句子×術語向量空間模型。運用關聯(lián)規(guī)則分析獲取具有相關語義關系的學科術語對。在獲取過程中,要注意規(guī)則的有效性和實用性,本文將借助規(guī)則置信度、規(guī)則支持度、規(guī)則提升度、置信率、正態(tài)卡方、信息差這些指標對獲得的規(guī)則進行有效性和實用性的評價[15]244-249。
把所有句子看成是事務集,而每個句子中包含的術語則是該事務所包含的項目。如果術語1(X)與術語2(Y)在整個事務集中具有一定的共現(xiàn)次數(shù),且術語2在術語1出現(xiàn)的情況下出現(xiàn)了較多次,則認為這樣的兩個術語具有有效的關聯(lián)關系。這里引入評價關聯(lián)規(guī)則有效性的指標:規(guī)則置信度CX→Y和規(guī)則支持度SX→Y。
進一步,針對具有有效關聯(lián)關系的術語1與術語2:
(1)如果術語2在術語1中出現(xiàn)的密集程度比它在整個事務集中出現(xiàn)的密集程度還要大,則認為術語1與術語2間的關聯(lián)關系不僅有效,而且具有實際意義,即具備實用性。這里引入評價關聯(lián)規(guī)則實用性的指標:規(guī)則提升度(Lift)和置信率(R)。當Lift大于1時,Lift越大,關聯(lián)越強。R越大,關聯(lián)越強。
(2)構建術語1和術語2的二維隨機變量(X,Y),從而計算X與Y之間的統(tǒng)計相關性,如果統(tǒng)計相關性高于某個數(shù)值,則認為術語1與術語2間的關聯(lián)關系不僅有效,而且具備實用性。這里引入評價關聯(lián)規(guī)則實用性的指標:正態(tài)卡方(N)。N越接近1,關聯(lián)越強,N越接近0,關聯(lián)越弱。
(3)對于上述(2)中的二維隨機變量(X,Y),計算X與Y獨立情況下(X,Y)概率分布的信息熵Ent1、(X,Y)實際概率分布的信息熵Ent2,求差E = Ent1- Ent2,如果E大于某個數(shù)值,則認為術語1與術語2間的關聯(lián)關系不僅有效,而且具備實用性。這里引入評價關聯(lián)規(guī)則實用性的指標:信息差(E)。E越大,關聯(lián)越強。
3.3 動詞抽取
在自然語言處理領域,一般認為,動詞是句子中最能表達關系的信息?;谶@樣的認識,動詞可以用來作為標記同一句子中術語間相關語義關系的標簽,形成<術語1-動詞-術語2>這樣的三元組關系,如<數(shù)字圖書館-構建-數(shù)字空間>、<專家系統(tǒng)-組織-知識>。利用NLPIR中文分詞工具對句子語料進行詞性標注分詞,抽取其中的動詞;然后對這些動詞進行停用詞處理、單字詞匯處理以及基于VF-ICF(Verb Frequency-Inverse Concept Frequency)指標的篩選,從而獲得學科動詞。
VF-ICF是類似于TF-IDF的概念,它的作用也與TF-IDF類似[16]。TF-IDF主要用來度量詞匯在文檔集中的重要性。VF-ICF則主要用來度量動詞在概念對或術語對中的重要性,那些出現(xiàn)頻數(shù)高且與更多術語對共現(xiàn)的動詞,它的重要性被拉低;而那些出現(xiàn)頻數(shù)低但僅與少數(shù)動詞共現(xiàn)的動詞,它的重要性被抬高。
假設vfj表示動詞vj在句子集中出現(xiàn)的頻數(shù),C表示句子集中術語對的總數(shù)目,cj表示在整個句子集中與動詞vj共現(xiàn)的術語對數(shù)目,則動詞vj的權重為:
wj= (2)
3.4 相關語義關系標簽分配
以3.2中獲得的具有相關語義關系的學科術語以及3.3中獲得的學科動詞作為句子的特征項,構建句子×<術語,動詞>向量空間模型,再次運用關聯(lián)規(guī)則分析,以術語對為規(guī)則的前項、動詞為規(guī)則的后項獲取術語對與動詞的關聯(lián)規(guī)則。為保證術語對內部有較強關聯(lián),應按以下規(guī)則篩選:剔除那些關聯(lián)規(guī)則,這些規(guī)則的術語對沒有出現(xiàn)在3.2的779術語對中。進一步借助規(guī)則置信度等相關指標對獲得的關聯(lián)規(guī)則的有效性和實用性進行評價,最終獲得這樣的一些關聯(lián)規(guī)則:術語對與學科動詞具有較強關聯(lián)關系,同時,術語對中的兩個術語也具有較強關聯(lián)關系。這樣便獲取了具有相關語義關系的術語對及其動詞標簽。
4 實驗結果及分析
本文以“數(shù)字圖書館”學科領域的期刊論文作為分析對象,基于<句子-術語>語義關聯(lián)以及<句子-術語,動詞>語義關聯(lián)進行雙重關聯(lián)規(guī)則分析,并在分析過程中引入相關指標來評價規(guī)則的有效性和實用性。
4.1 數(shù)據(jù)預處理
以“數(shù)字圖書館”為主題詞,在CNKI中國期刊全文數(shù)據(jù)庫的核心期刊范圍內檢索1996至2011這15年間發(fā)表的論文,共計6446篇。抽取標題、摘要和關鍵詞構成非結構化文本。通過術語抽取最終獲得911個術語[1]。
從6446篇非結構化文檔中提取摘要部分,將其切分為28094個句子,剔除長度小于6的那些句子,共獲得27056個句子。以學科術語集為用戶詞典,對27056個句子利用NLPIR中文分詞工具進行分詞,共獲得61114個句子術語對。那些只含有1個術語的句子,不能從中抽取出相關語義關系,因此,剔除掉這些句子,共獲得16608個句子,涉及術語911個。
以這911個學科術語為用戶詞典,利用NLPIR對16608個句子進行詞性標注分詞,共得到47060個動詞詞匯。這些動詞包括及物動詞v、名動詞vn、副動詞vd、趨向動詞vf、動詞性語素vg、不及物動詞vi、動詞性慣用語vl、是動詞vshi、有動詞vyou和形式動詞vx。
由于用作相關語義關系標簽的動詞必須連接兩個術語,因此,本文選擇及物動詞v作為候選學科動詞,共1312個,對它們進行進一步篩選:
(1)去除停用詞。1312個動詞詞匯去除停用詞后還剩下1249個詞匯。
(2)去掉長度為1的單字動詞詞匯。筆者經過對單字動詞詞匯的觀察,認為這樣的動詞并不能很好地表達術語間的相關語義關系,因此剔除掉這些詞匯,還剩下1059個詞匯。
(3)選擇在整個句子集中出現(xiàn)一定頻數(shù)以上的那些動詞詞匯。在1059個詞匯中,有368個詞匯僅出現(xiàn)了1次,筆者認為這些低頻數(shù)出現(xiàn)詞匯的代表性較差,需要剔除,最終獲得了691個候選學科動詞。
4.2 第一重關聯(lián)規(guī)則分析
以16608個句子和911個術語構建了16608行×911列的句子術語向量空間模型。采用數(shù)據(jù)挖掘工具Clementine,基于Apriori算法進行關聯(lián)規(guī)則分析。
關聯(lián)規(guī)則分析是一種無監(jiān)督的學習方法,評價規(guī)則有效性和實用性的指標閾值的設置均要依靠領域專家的專業(yè)知識并結合所分析的實際問題來確定。筆者在進行關聯(lián)規(guī)則分析時,對各指標閾值的取值進行了相關的嘗試。
4.2.1 有效規(guī)則篩選
表1列出了不同規(guī)則置信度和不同規(guī)則支持度下的關聯(lián)分析結果,置信度和支持度交叉位置單元格內的數(shù)值是在相應條件下抽取到的關聯(lián)規(guī)則數(shù)目。
經過對不同規(guī)則置信度和規(guī)則支持度下結果的觀察,結合領域專家的意見,并考慮置信度和支持度的取值,筆者最終選定了規(guī)則置信度≥30%且規(guī)則支持度≥0.01%取值條件下的分析結果,共得到971條有效的關聯(lián)規(guī)則,這些規(guī)則共涉及術語658個。
4.2.2 實用規(guī)則篩選
(1)在獲得的971條有效關聯(lián)規(guī)則中,規(guī)則提升度的最小值是1.11,最大值是4152.00,平均值是125.53。最小值是1.11表明所有的規(guī)則提升度均大于1,說明后項在前項中出現(xiàn)的概率大于后項在整個事務集中出現(xiàn)的概率,這樣的規(guī)則有一定的實際意義(所有規(guī)則提升度取值情況見表2)。
由表2數(shù)據(jù)可知,規(guī)則提升度的取值范圍很廣,說明規(guī)則置信度與后項支持度取值的差異性較大,這是由數(shù)據(jù)的稀疏性導致的。在本文的數(shù)據(jù)中,有些后項Y在整個事務集中覆蓋的范圍很窄,出現(xiàn)的頻數(shù)很低,這就導致了這些后項的支持度取值較低,進一步導致規(guī)則提升度很高。規(guī)則提升度取值范圍太大會給篩選規(guī)則帶來困擾,而且不同的樣本數(shù)據(jù)會有不同的取值范圍。為了克服這個問題,可以對規(guī)則提升度標準化:置信率把規(guī)則提升度壓縮在[0,1)區(qū)間內。
(2)置信率是由規(guī)則提升度轉變而來,它更適合于對稀疏樣本的分析。筆者對971條關聯(lián)規(guī)則的置信率進行了計算,最小值為0.0991,最大值為0.9998(971條有效關聯(lián)規(guī)則置信率取值的頻數(shù)分布見表3)。
領域專家在設置置信率閾值的時候,可以根據(jù)實際問題的具體情況確定,在本文的分析中,筆者將置信率的閾值設置為0.5,即選取置信率大于等于0.5的那些關聯(lián)規(guī)則。經篩選后,共得到779條關聯(lián)規(guī)則,涉及術語568個。
(3)對經過置信率篩選后得到的779條關聯(lián)規(guī)則進行正態(tài)卡方的計算,其中最大值為1,最小值為0.0001。大部分的正態(tài)卡方取值較?。ㄕ龖B(tài)卡方取值的頻數(shù)分布情況見表4)。
由表4可知,有8個關聯(lián)規(guī)則的正態(tài)卡方值為1,其中包括“社會閱讀”→“圖書館法治”(0.06%, 100.00%)和“圖書館法治”→“社會閱讀”(0.06%, 100.00%)。這兩條規(guī)則的置信度均為100.00%,取值相同。前條規(guī)則的100.00%置信度說明“社會閱讀”出現(xiàn)的時候必出現(xiàn)“圖書館法治”,同理,后條規(guī)則的100.00%置信度說明“圖書館法治”出現(xiàn)的時候也必出現(xiàn)“社會閱讀”,因此,這兩個術語在文檔中要么不出現(xiàn),要么一起出現(xiàn),它們具有最強的關聯(lián)關系。其他7條規(guī)則也是類似的情況。規(guī)則支持度為0.06%,說明術語 “社會閱讀”和“圖書館法治”在整個事務集(16608個事務)中共現(xiàn)了10次。
筆者也對所有規(guī)則的正態(tài)卡方與提升度、置信率間的關系進行了考察,結果表明,正態(tài)卡方與規(guī)則提升度和規(guī)則置信率并不沖突,可以依據(jù)其取值的排序來評價關聯(lián)規(guī)則關聯(lián)關系的強弱。
(4)筆者計算了所有779條關聯(lián)規(guī)則的信息差,其中最大值為0.01283,最小值為0.00007(所有信息差取值的頻數(shù)分布見表5)。
對信息差和正態(tài)卡方這兩個評價指標進行相關性分析,結果表明,這兩個指標具有統(tǒng)計學意義上的顯著相關性。因此,在評價關聯(lián)規(guī)則實用性的時候,可以綜合規(guī)則提升度、規(guī)則置信率、正態(tài)卡方和信息差這些指標對規(guī)則進行篩選。
最終,筆者結合以上4個評價關聯(lián)規(guī)則實用性指標的取值以及對具體關聯(lián)規(guī)則的實際觀察,共抽取出了779個具有關聯(lián)關系的術語對,涉及術語568個(部分術語對見表6)。
4.3 學科動詞篩選
依據(jù)公式2可計算出所有候選學科動詞的權重,領域專家可以根據(jù)實際情況確定閾值W,選取wj大于等于W的那些動詞作為學科動詞。筆者根據(jù)公式2對691個候選動詞進行權重計算(部分計算結果見表7)。
筆者根據(jù)實際情況選取W=20,剔除了128個動詞,最終獲得563個學科動詞。
4.4 第二重關聯(lián)規(guī)則分析
基于16608個句子、911個學科術語以及563個學科動詞建立了16608行×1474列的向量空間模型。運用Apriori算法進行關聯(lián)分析的時候,以術語對為前項,動詞為后項,規(guī)則置信度CX→Y閾值設定為10%,規(guī)則支持度SX→Y閾值設定為0.01%(保證術語對與動詞在整個句子集中至少共現(xiàn)2次),共獲得了43913個關聯(lián)規(guī)則。
在這些關聯(lián)規(guī)則中,有些前項中的兩個術語之間并沒有較強的關聯(lián)關系,因此,須對這些關聯(lián)規(guī)則進行過濾:前項中的兩個術語必須是4.2中獲得的術語對。經過濾后,共獲得779條關聯(lián)規(guī)則。
再次利用規(guī)則提升度對關聯(lián)規(guī)則進行篩選:值大于等于2,經篩選后,共獲得770條關聯(lián)規(guī)則。因此,這些關聯(lián)規(guī)則反映了術語的相關語義關系的術語對及其動詞標簽(部分結果見表8)。
因為評價關聯(lián)規(guī)則有效性和實用性時對相關指標閾值的設定完全由領域專家人為決定,因此具有一定的主觀性。領域專家應充分了解學科術語特點以及數(shù)據(jù)的特征,進行合理的設定。
4.5 與其他方法及技術比較
目前,從領域非結構化文本中抽取領域術語相關語義關系的研究較少,采取的其他方法一般有:(1)基于詞匯-句法模式的方法;(2)基于句法分析的方法。第(1)種方法必須人工制定獲取模板,因此獲得的相關語義關系受制于模板的準確性和完備性;第(2)種方法要求對句法進行分析,由于中文語法句法的復雜性,實現(xiàn)較為困難。
本文所采用的二重關聯(lián)規(guī)則分析結合規(guī)則評價的方法具有較高的可行性和有效性,不僅能從非結構化文本中獲取學科術語的相關語義關系及其標簽,還能評價語義關系的有效性和實用性。
5 結語
本文提出了一種從學科非結構化文本獲取學科術語相關語義關系的方法,該方法通過術語抽取、動詞抽取、向量空間模型構建、二重關聯(lián)規(guī)則分析和規(guī)則評價獲取術語的相關語義關系及其標簽。該方法基于句子-<術語,動詞>向量空間模型運用關聯(lián)規(guī)則分析獲取相關語義關系的標簽,并借助規(guī)則支持度、規(guī)則置信度、置信率等指標對關聯(lián)規(guī)則的有效性和實用性進行控制。本文所采用的方法與其他方法相比具有以下明顯優(yōu)勢:能更行有效地獲得相關語義關系的標簽,并對相關語義關系的質量進行控制。本文以“數(shù)字圖書館”學科領域為例論證了該方法的可行性和有效性,但也存在一些缺陷,評價指標的選擇和閾值的確定存在人工干預,帶有一定的主觀性。 在今后的研究工作中,筆者將進一步嘗試運用不同的機器學習方法(半)自動獲取學科術語的相關語義關系,探討更有效可行的策略和方案。
參考文獻:
[1] 朱惠,楊建林,王昊.中文領域專業(yè)術語層次關系構建研究[J].現(xiàn)代圖書情報技術,2016(1):73-80.
[2] Maedche A,Staab S.Discovering Conceptual Relations from Text[A].Proc.of the 12th International Conference on Software and Knowledge Engineering[C].Berlin,Germany:[s.n.],2000:321-325.
[3] David Sa′nchez,Antonio Moreno.Learning non-taxonomic relationships from web documents for domain ontology construction[J].Data & Knowledge Engineering,2008,64(3):600-623.
[4] J.Villaverde,A.Persson,D.Godoy,etal.Supporting the discovery and labeling of non-taxonomic relationships in ontology learning[J].Expert Systems with Applications,2009,36(7):10288-10294.
[5] Albert Weichselbraun,Gerhard Wohlgenannt,Arno Scharl.Refining non-taxonomic relation labels with external structured data to support ontology learning[J].Data & Knowledge Engineering,2010,69(8):763-778.
[6] Mei Kuan Wong,Syed Sibte Raza Abidi,Ian D.Jonsen.A multi-phase correlation search framework for mining non-taxonomic relations from unstructured text[J].Knowledge and Information Systems,2014,38(3):641-667.
[7] Ivo Serra,Rosario Girardi,Paulo Novais.Evaluating techniques for learning non-taxonomic relationships of ontologies from text[J].Experts Systems With Applications,2014,41(11):5201-5211.
[8] Martin KAVALEC,Vojtech SVATEK.A Study on Automated Relation Labelling in Ontology Learning[EB/OL].[2016-10-15].http://nb.vse.cz/~svatek/olp05.pdf.
[9] 董麗麗,胡云飛,張翔.一種領域概念非分類關系的獲取方法[J].計算機工程與應用,2013,49(4):157-161.
[10] 古凌嵐,孫素云.基于語義依存的中文本體非分類關系抽取方法[J].計算機工程與設計,2012,33(4):1676-1680.
[11] 邱桃榮,黃海泉,段文影,等.非分類關系學習的粒計算模型研究[J].南昌大學學報(工科版),2012,34(3):273-278.
[12] 王紅,高斯婷,潘振杰,等.基于NNV關聯(lián)規(guī)則的非分類關系提取方法及其應用研究[J].計算機應用研究,2012,29(10):3665-3668.
[13] 張立國,陳荔.維基百科中基于語義依存的領域本體非分類關系獲取方法研究[J].情報科學,2014,32(6):93-97.
[14] 谷俊,嚴明,王昊.基于改進關聯(lián)規(guī)則的本體關系獲取研究[J].情報理論與實踐,2011,34(12):121-125.
[15] 薛薇,陳歡歌.Clementine數(shù)據(jù)挖掘方法與應用[M].北京:電子工業(yè)出版社,2010:244-249.
[16] 舒萬里.中文領域本體學習中概念和關系抽取的研究[D].重慶:重慶大學,2012.
作者簡介:朱惠(1979-),女,南京大學信息管理學院講師,博士,研究方向:信息智能處理與檢索、知識本體構建及應用、數(shù)據(jù)挖掘;楊建林(1970-),男,南京大學信息管理學院教授,研究方向:信息智能處理與檢索、信息分析評價、數(shù)據(jù)挖掘;王昊(1981-),男,南京大學信息管理學院教授,研究方向: 信息智能處理與檢索、知識本體構建及應用、科學評價和引文分析。