黃峻福 李天瑞 賈真 景運(yùn)革 張濤
摘要:針對(duì)傳統(tǒng)實(shí)體對(duì)齊方法在中文異構(gòu)網(wǎng)絡(luò)百科實(shí)體對(duì)齊任務(wù)中效果不夠顯著的問題,提出一種基于實(shí)體屬性與上下文主題特征相結(jié)合的實(shí)體對(duì)齊方法。首先,基于百度百科及互動(dòng)百科數(shù)據(jù)構(gòu)造中文異構(gòu)百科知識(shí)庫(kù),通過統(tǒng)計(jì)方法構(gòu)造資源描述框架模式(RDFS)詞表,對(duì)實(shí)體屬性進(jìn)行規(guī)范化;其次,抽取實(shí)體上下文信息,對(duì)其進(jìn)行中文分詞后,利用主題模型對(duì)上下文建模并通過吉布斯采樣法求解模型參數(shù),計(jì)算出主題單詞概率矩陣,提取特征詞集合及對(duì)應(yīng)特征矩陣;然后,利用最長(zhǎng)公共子序列(LCS)算法判定實(shí)體屬性相似度,當(dāng)相似度位于下界與上界之間時(shí),進(jìn)一步結(jié)合百科類實(shí)體上下文主題特征進(jìn)行判定;最后,依據(jù)標(biāo)準(zhǔn)方法構(gòu)造了一個(gè)異構(gòu)中文百科實(shí)體對(duì)齊數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與經(jīng)典的屬性相似度算法、屬性加權(quán)算法、上下文詞頻特征模型及主題模型算法進(jìn)行比較,所提出的實(shí)體對(duì)齊算法在人物領(lǐng)域和影視領(lǐng)域的準(zhǔn)確率、召回率與綜合指標(biāo)F值分別達(dá)到97.8%、88.0%、92.6%和98.6%、73.0%、83.9%,比其他方法均有較大的提高。實(shí)驗(yàn)結(jié)果驗(yàn)證了在構(gòu)建中文異構(gòu)百科知識(shí)庫(kù)場(chǎng)景中,所提算法可以有效提升中文百科實(shí)體對(duì)齊效果,可應(yīng)用到具有上下文信息的實(shí)體對(duì)齊任務(wù)中。
關(guān)鍵詞:
知識(shí)庫(kù);實(shí)體對(duì)齊;主題模型;資源描述框架模式;最長(zhǎng)公共子序列算法
中圖分類號(hào): TP391.1 文獻(xiàn)標(biāo)志碼:A
0引言
語(yǔ)義網(wǎng)[1]提供一種在不同應(yīng)用和個(gè)體間共享和重用數(shù)據(jù)的整體框架,是Web 3.0的重要特征。目前萬(wàn)維網(wǎng)主要面向文檔,供人直接閱讀和理解;語(yǔ)義網(wǎng)則主要面向文檔所表示數(shù)據(jù),使計(jì)算機(jī)能夠理解并通過推理引擎進(jìn)行邏輯演算,是人工智能的重要目標(biāo)。語(yǔ)義網(wǎng)的建立需要高質(zhì)量的知識(shí)庫(kù)作為數(shù)據(jù)支撐。目前,國(guó)外具有代表性的知識(shí)庫(kù)有FreeBase[2]、DBpedia[3]、維基百科本體知識(shí)庫(kù)(Yet Another Great Ontology,YAGO[4])及Omega[5]等;國(guó)內(nèi)的知識(shí)庫(kù)有百度知心、搜狗知立方及清華大學(xué)雙語(yǔ)知識(shí)庫(kù)XLore[6]。知識(shí)庫(kù)在知識(shí)圖譜、智能語(yǔ)義問答及信息融合等自然語(yǔ)言處理領(lǐng)域均有重要意義[7]。國(guó)外的知識(shí)庫(kù)如FreeBase等提供了公開的資源描述框架(Resource Description Framework, RDF)數(shù)據(jù)源,但所含中文數(shù)據(jù)量較少,如何構(gòu)建高質(zhì)量的中文RDF知識(shí)庫(kù)是目前的研究熱點(diǎn)。
實(shí)體(Entity)是指客觀存在并可相互區(qū)別的事物,包括具體的人、事、物、抽象的概念或聯(lián)系,知識(shí)庫(kù)中包含多種類別的實(shí)體。實(shí)體對(duì)齊(Entity Alignment)也被稱作實(shí)體匹配(Entity Matching),是指對(duì)于異構(gòu)數(shù)據(jù)源知識(shí)庫(kù)中的各個(gè)實(shí)體,找出屬于現(xiàn)實(shí)世界中的同一實(shí)體。隨著中文網(wǎng)絡(luò)百科的不斷完善,可以從網(wǎng)絡(luò)百科頁(yè)面抽取出實(shí)體,并對(duì)不同來(lái)源的實(shí)體進(jìn)行對(duì)齊,構(gòu)建高質(zhì)量的中文異構(gòu)百科RDF知識(shí)庫(kù)[8]。百度百科與互動(dòng)百科所包含的實(shí)體信息覆蓋面廣,更新及時(shí),因此,如何從網(wǎng)絡(luò)百科數(shù)據(jù)中抽取出實(shí)體信息并進(jìn)行實(shí)體對(duì)齊,是構(gòu)建中文RDF知識(shí)庫(kù)的關(guān)鍵問題。實(shí)體對(duì)齊常用的方法是利用實(shí)體的屬性信息判定不同源實(shí)體是否可進(jìn)行對(duì)齊,由于網(wǎng)絡(luò)百科數(shù)據(jù)屬于用戶原創(chuàng)內(nèi)容(User Generated Content,UGC)類型[9],不同用戶編輯的數(shù)據(jù)質(zhì)量參差不齊,僅通過用戶編輯的實(shí)體屬性信息難以準(zhǔn)確判定是否為同一實(shí)體。本文根據(jù)網(wǎng)絡(luò)百科具有實(shí)體上下文的特性,提出一種基于主題模型的中文異構(gòu)百科知識(shí)庫(kù)實(shí)體對(duì)齊方法,通過挖掘?qū)嶓w上下文潛在語(yǔ)義信息,對(duì)實(shí)體上下文進(jìn)行主題建模,完成實(shí)體對(duì)齊任務(wù)。實(shí)驗(yàn)驗(yàn)證所提方法能夠有效提升實(shí)體對(duì)齊準(zhǔn)確性,對(duì)具備上下文信息的實(shí)體對(duì)齊任務(wù)有良好通用性。
本文主要工作如下:
1)利用中文異構(gòu)數(shù)據(jù)源百科類網(wǎng)站,構(gòu)建中文百科知識(shí)庫(kù),提出異構(gòu)數(shù)據(jù)源百科知識(shí)庫(kù)進(jìn)行實(shí)體對(duì)齊的方法,該方法能夠有效地對(duì)來(lái)自于異構(gòu)數(shù)據(jù)源百科知識(shí)庫(kù)中的實(shí)體進(jìn)行對(duì)齊。
2)結(jié)合實(shí)體結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù),提出了適用于具備上下文信息的實(shí)體對(duì)齊方法。
3)構(gòu)造了中文百科類實(shí)體對(duì)齊標(biāo)準(zhǔn)數(shù)據(jù)集,對(duì)數(shù)據(jù)集中需要對(duì)齊的實(shí)體進(jìn)行了人工標(biāo)注并進(jìn)行了大量實(shí)驗(yàn)。同標(biāo)準(zhǔn)的實(shí)體對(duì)齊方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明本文提出的算法可以有效地對(duì)具有上下文信息的實(shí)體進(jìn)行對(duì)齊。
1相關(guān)工作
目前實(shí)體對(duì)齊方法的研究主要分為以下3個(gè)方面。
1)基于OWL語(yǔ)義。
網(wǎng)絡(luò)本體語(yǔ)言(Web Ontology Language, OWL)用于對(duì)本體進(jìn)行語(yǔ)義描述。文獻(xiàn)[10]中利用反函數(shù)及啟發(fā)式算法結(jié)合上層語(yǔ)義信息(如owl:sameAs等)對(duì)實(shí)體進(jìn)行推理,判斷不同來(lái)源的實(shí)體是否可以進(jìn)行對(duì)齊。文獻(xiàn)[11]中利用Freebase中實(shí)體分類信息對(duì)問句中的實(shí)體,通過迭代模型和判別模型與知識(shí)庫(kù)中的實(shí)體進(jìn)行對(duì)齊?;贠WL語(yǔ)義的方法要求數(shù)據(jù)集本身具有完備的語(yǔ)義信息,而網(wǎng)絡(luò)百科類的實(shí)體由用戶定義,不同編輯者對(duì)同一事物的屬性定義并不嚴(yán)格,不具有完備的上層語(yǔ)義信息。
2)基于規(guī)則分析。
文獻(xiàn)[12]中通過在具體應(yīng)用場(chǎng)景中制定特殊規(guī)則,通過規(guī)則及評(píng)價(jià)函數(shù)的方法對(duì)實(shí)體的含義進(jìn)行消歧。此種方法在具體應(yīng)用領(lǐng)域準(zhǔn)確率較高,但由于換一個(gè)場(chǎng)景需要重新制定規(guī)則,存在一定局限性。百科類網(wǎng)站中覆蓋多領(lǐng)域?qū)嶓w,需要針對(duì)不同領(lǐng)域?qū)嶓w制定規(guī)則并對(duì)各領(lǐng)域規(guī)則進(jìn)行驗(yàn)證,因此此類方法不具有通用性。
3)基于相似度理論判定。
文獻(xiàn)[13]中基于屬性值的分布給屬性賦予權(quán)重,然后用加權(quán)后屬性的相似度來(lái)進(jìn)行實(shí)體對(duì)齊,但是百科類網(wǎng)站實(shí)體的屬性類型眾多,單個(gè)實(shí)體屬性分布稀疏,屬性值較少的屬性權(quán)重很低,導(dǎo)致該方法對(duì)如中文名等通用屬性的依賴程度較高,難以滿足網(wǎng)絡(luò)百科類實(shí)體對(duì)齊任務(wù)。
綜上分析,中文網(wǎng)絡(luò)百科不具備完備本體信息,并且包含實(shí)體領(lǐng)域眾多,所以難以通過基于本體方法或制定領(lǐng)域規(guī)則的方法完成實(shí)體對(duì)齊。中文網(wǎng)絡(luò)百科中的屬性信息往往由用戶定義,不同編輯者編輯的數(shù)據(jù)質(zhì)量參差不齊,僅利用基于屬性的方法其效果難以滿足構(gòu)建中文異構(gòu)百科知識(shí)庫(kù)的實(shí)際要求。由于百科知識(shí)庫(kù)中包含大量實(shí)體摘要信息及描述性文本,如何利用實(shí)體上下文非結(jié)構(gòu)化數(shù)據(jù),構(gòu)造出有效的上下文特征,是目前急需解決的一個(gè)問題。由于傳統(tǒng)的文本建模方法如詞頻逆向文檔頻率(Term FrequencyInverse Document Frequency, TFIDF)方法僅考慮了詞頻的特征,而未考慮詞項(xiàng)之間的語(yǔ)義關(guān)聯(lián),因此,為了有效地提取實(shí)體上下文文本信息,本文提出一種基于實(shí)體屬性與上下文主題特征相結(jié)合的實(shí)體對(duì)齊方法。首先利用屬性相似度的方法對(duì)實(shí)體進(jìn)行第一步判別,當(dāng)其難以準(zhǔn)確判定時(shí),進(jìn)一步利用待對(duì)齊的實(shí)體上下文信息進(jìn)行主題建模,再結(jié)合上下文特征與屬性相似度判定異構(gòu)知識(shí)庫(kù)中的實(shí)體是否可以對(duì)齊。
2中文異構(gòu)百科類實(shí)體對(duì)齊方法
2.1框架概述
本文所述中文百科RDF知識(shí)庫(kù)主要基于百度百科與互動(dòng)百科兩個(gè)數(shù)據(jù)源構(gòu)建,本文設(shè)計(jì)的中文異構(gòu)百科實(shí)體對(duì)齊系統(tǒng)框架如圖1所示,其中知識(shí)庫(kù)的構(gòu)建及實(shí)體對(duì)齊判定模塊是實(shí)體對(duì)齊框架的核心部分。當(dāng)系統(tǒng)獲取到一個(gè)新實(shí)體信息,依次抽取其屬性信息和上下文信息。由于不同百科網(wǎng)站存在異構(gòu)數(shù)據(jù),通過構(gòu)建資源描述框架模式(Resource Description Framework Schema, RDFS)詞表對(duì)實(shí)體屬性進(jìn)行規(guī)范化,將新的實(shí)體信息存儲(chǔ)到對(duì)應(yīng)百科網(wǎng)站的RDF知識(shí)庫(kù)中;利用基于可擴(kuò)展標(biāo)記語(yǔ)言(eXtensible Markup Language, XML)及其路徑語(yǔ)言(XML Path Language, XPath)的抽取技術(shù)[14]將網(wǎng)頁(yè)中關(guān)于實(shí)體的描述性信息抽取出來(lái),用西南交大分詞器(http://ics.swjtu.edu.cn/)分詞后,采用主題模型計(jì)算出實(shí)體潛在主題特征,將實(shí)體上下文主題特征進(jìn)行存儲(chǔ)。另外為融合異構(gòu)數(shù)據(jù)源的RDF知識(shí)庫(kù),采用基于最長(zhǎng)公共子序列(Longest Common Subsequence, LCS)屬性相似度結(jié)合主題特征的實(shí)體對(duì)齊方法。對(duì)于來(lái)自異構(gòu)數(shù)據(jù)源待對(duì)齊實(shí)體對(duì),利用基于LCS的屬性相似度計(jì)算方法判定兩個(gè)實(shí)體是否為同一實(shí)體,若相似度滿足閾值上界,說明可通過屬性信息進(jìn)行實(shí)體對(duì)齊,將其輸出到對(duì)齊實(shí)體集合;當(dāng)相似度位于下界與上界之間,說明實(shí)體屬性信息匱乏無(wú)法判定是否可以對(duì)齊,進(jìn)一步采用結(jié)合上下文主題特征的實(shí)體對(duì)齊算法,綜合判定后決定是否將實(shí)體對(duì)輸出至對(duì)齊實(shí)體集合中。
2.2知識(shí)庫(kù)構(gòu)建
RDF[15]是一種用于描述網(wǎng)絡(luò)資源的標(biāo)記語(yǔ)言。RDF所描述的數(shù)據(jù)信息可通過共享及整合將不同源數(shù)據(jù)聯(lián)系起來(lái)構(gòu)建知識(shí)庫(kù),為知識(shí)圖譜及人工智能問答等領(lǐng)域提供數(shù)據(jù)支撐[16]。
構(gòu)建的中文RDF知識(shí)庫(kù)主要存儲(chǔ)了實(shí)體相關(guān)信息,它將來(lái)自于不同源的網(wǎng)絡(luò)百科數(shù)據(jù)(如百度百科、互動(dòng)百科及豆瓣網(wǎng)站等數(shù)據(jù))進(jìn)行對(duì)齊及整合。本文在知識(shí)庫(kù)構(gòu)建及實(shí)體對(duì)齊過程中,主要抽取實(shí)體屬性信息及實(shí)體上下文信息。
實(shí)體屬性信息給出了實(shí)體的特征屬性及其取值,經(jīng)過數(shù)據(jù)預(yù)處理及數(shù)據(jù)清洗后轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)。由于中文網(wǎng)絡(luò)百科沒有根據(jù)本體語(yǔ)言指定統(tǒng)一的屬性標(biāo)準(zhǔn),存在不同屬性名指代同一屬性的情況,如對(duì)于人物類別的屬性出生時(shí)間,百度百科常使用“出生日期”描述,互動(dòng)百科常使用“出生年月”描述。屬性謂詞的不統(tǒng)一導(dǎo)致在異構(gòu)數(shù)據(jù)源知識(shí)庫(kù)中進(jìn)行實(shí)體對(duì)齊時(shí)準(zhǔn)確程度很低,因此本文參考本體(Ontology)層次描述,通過統(tǒng)計(jì)高頻屬性謂詞,構(gòu)建多個(gè)類別的RDFS[17]詞表,規(guī)范屬性名不一致的情況。部分人物類RDFS詞表示例如表1所示。
實(shí)體上下文信息由“摘要”及“實(shí)體描述”信息組成。摘要信息對(duì)實(shí)體進(jìn)行簡(jiǎn)要概括,實(shí)體描述信息從多方面對(duì)實(shí)體進(jìn)行闡述。由于上下文信息是非結(jié)構(gòu)化文本,在實(shí)體對(duì)齊任務(wù)中不能直接使用,所以需要對(duì)實(shí)體上下文信息進(jìn)行主題建模。
2.3實(shí)體上下文建模
在百科類網(wǎng)站所覆蓋的實(shí)體中,通常具有關(guān)于實(shí)體多方面的描述信息,這些描述信息大多以文本的形式呈現(xiàn)。主題模型在文獻(xiàn)[18]中被顯式提出來(lái),是對(duì)文本中隱含主題的一種建模方法。主題是語(yǔ)料集合上語(yǔ)義的高度抽象、壓縮表示,每個(gè)主題對(duì)應(yīng)著比較一致的語(yǔ)義。對(duì)于網(wǎng)絡(luò)百科實(shí)體,如果實(shí)體屬性信息匱乏,難以判斷實(shí)體是否可以對(duì)齊,則利用上下文信息進(jìn)行建模并提取主題特征,根據(jù)主題特征分布來(lái)判別是否可進(jìn)行對(duì)齊?;谥黝}模型對(duì)上下文建模的實(shí)現(xiàn)主要包括利用潛在狄利克雷分布(Latent Dirichlet Allocation, LDA)產(chǎn)生上下文過程及主題特征生成過程兩部分。
2.3.1LDA產(chǎn)生上下文過程
LDA模型可使生成的文本包含多個(gè)主題,對(duì)于知識(shí)庫(kù)中的實(shí)體e,其生成上下文文檔d的過程如圖2所示,過程描述如下:
1)從狄利克雷分布α中取樣,生成實(shí)體上下文d的主題分布向量θd,θd的每一列表示每個(gè)主題在上下文中出現(xiàn)的概率。
2)從主題的多項(xiàng)式分布θd中進(jìn)行取樣,生成上下文d第i個(gè)單詞的主題zd,i。
3)從狄利克雷分布β中取樣,生成實(shí)體上下文主題zd,i的詞語(yǔ)分布φzd,i。
4)從詞語(yǔ)的多項(xiàng)式分布φzd,i中采樣最終生成詞語(yǔ)wd,i。
2.3.2主題特征生成過程
在LDA模型中,文本的主題是隱式變量,可通過概率推導(dǎo)的方式對(duì)模型參數(shù)進(jìn)行求解。文獻(xiàn)[19]介紹了吉布斯抽樣(Gibbs sampling)的方式對(duì)主題模型進(jìn)行求解。
2.4基于LCS的屬性相似度計(jì)算
實(shí)體屬性相似度計(jì)算可對(duì)網(wǎng)絡(luò)百科中屬性定義較準(zhǔn)確的實(shí)體進(jìn)行判別,本文基于文獻(xiàn)[20]中所述LCS算法,提出適用于網(wǎng)絡(luò)百科的屬性相似度計(jì)算方法。
2.4.1網(wǎng)絡(luò)百科實(shí)體的屬性信息的相關(guān)定義
定義1設(shè)實(shí)體ea經(jīng)過RDFS屬性規(guī)范化后屬性名集合Propertya={pa1,pa2,…,pam},對(duì)應(yīng)屬性值集合Valuea={va1,va2,…,vam};實(shí)體eb對(duì)應(yīng)屬性名集合Propertyb={pb1,pb2,…,pbn},其對(duì)應(yīng)屬性值集合Valueb={vb1,vb2,…,vbn},其中m,n分別為實(shí)體的屬性個(gè)數(shù)。
定義2設(shè)實(shí)體ea的規(guī)范化屬性pai,其對(duì)應(yīng)屬性值vai=(sa1sa2…sap);實(shí)體eb“實(shí)體..”,此處書寫是否有誤?請(qǐng)作相應(yīng)調(diào)整。的規(guī)范化屬性pbj,其屬性值vbj=(sb1sb2…sbq)。其中:i表示實(shí)體ea的第i個(gè)屬性; j表示實(shí)體eb的第j個(gè)屬性;sap為屬性值vai的第p個(gè)字符;sbq表示屬性值vbj的第q個(gè)字符;p與q分別表示對(duì)應(yīng)屬性值的長(zhǎng)度。
2.4.2屬性相似度計(jì)算
1)實(shí)體ea及eb共有屬性的計(jì)算式為:
InterProperty(ea,eb)=Propertya∩Propertyb(5)
對(duì)于共有屬性pi∈InterProperty(ea,eb),其中pax=pi且pby=pi,其中,實(shí)體ea的屬性pax對(duì)應(yīng)的屬性值為vax,實(shí)體eb的屬性pby對(duì)應(yīng)的屬性值為vby。
2)屬性pi的相似度計(jì)算式為:
sim(pi)=lcs(vax,vby)max(len(vax),len(vby))(6)
其中l(wèi)cs(vax,vby)為實(shí)體屬性值的最長(zhǎng)公共子序列。
3)實(shí)體ea及eb的相似度計(jì)算式為:
property_sim(ea,eb)=[∑Ti=1sim(pi)]/T(7)
其中:
T=Propertya∩Propertyb(8)
2.5基于主題特征的相似度計(jì)算方法
1)實(shí)體..實(shí)體ea此處的書寫是否符合規(guī)范?表示什么含義?請(qǐng)明確。及eb的實(shí)體上下文相似度計(jì)算式為:
context_sim(ea,eb)=Vea·Veb|Vea||Veb|(9)
其中Vea及Veb是每個(gè)實(shí)體的主題特征向量。
在實(shí)體對(duì)齊時(shí),如果僅考慮實(shí)體上下文特征,結(jié)果并不準(zhǔn)確。為了提高結(jié)果的準(zhǔn)確性,結(jié)合實(shí)體屬性相似度及實(shí)體主題相似度得到實(shí)體的相似度計(jì)算公式。
2)實(shí)體的相似度計(jì)算式為:
sim(ea,eb)=[property_sim(ea,eb)+context_sim(ea,eb)]/2.0(10)
其中property_sim(ea,eb)為實(shí)體的屬性相似度。
2.6基于主題特征的實(shí)體對(duì)齊算法
根據(jù)上面的定義和公式,提出了基于主題特征的中文異構(gòu)百科知識(shí)庫(kù)實(shí)體對(duì)齊算法描述如下。
算法1基于主題特征的實(shí)體對(duì)齊算法。
有序號(hào)的程序——————————Shift+Alt+Y
程序前
輸入:異構(gòu)數(shù)據(jù)源實(shí)體集合EA及EB,實(shí)體屬性相似度閾值上界ν及下界μ,實(shí)體相似度參數(shù)ω,主題參數(shù)K。
輸出:對(duì)齊后的實(shí)體集合AE。
1)
for each entity e∈(EA∪EB) do
2)
compute topicword matrix φ/*利用LDA算法對(duì)實(shí)體e上下文主題建模,計(jì)算主題單詞概率矩陣φ*/
3)
compute topicfeature vector Ve/*通過主題特征生成過程,計(jì)算主題特征向量Ve*/
4)
for i ← 1 to size(EA) do
5)
for j ← 1 to size(EB) do
6)
compute ps = property _sim(ei ,ej )
7)
if ps 8) continue; 9) else if ps> threshold ν do 10) AE ← AE∪{ (ei,ej)} 11) else do 12) compute cs=context_sim(ei,ej)/*利用主題特征向量Vei及Vej計(jì)算主題相似度*/ 13) compute s=sim(ei,ej)/*結(jié)合屬性相似度ps和主題相似度cs,計(jì)算實(shí)體相似度s*/ 14) if s≥ω do 15) AE ← AE∪{ (ei,ej)} 程序后 3實(shí)驗(yàn)與結(jié)果分析 3.1實(shí)驗(yàn)數(shù)據(jù)集描述 為了檢驗(yàn)中文異構(gòu)知識(shí)庫(kù)實(shí)體對(duì)齊算法的有效性,本文從互動(dòng)百科及百度百科分別隨機(jī)抽取了包含人物類及影視類的實(shí)體,抽取出的實(shí)體具有屬性信息及上下文信息。關(guān)于百科網(wǎng)站中人物類別的實(shí)體,熱門詞條編輯次數(shù)較多,實(shí)體屬性描述較為完整;普通詞條編輯次數(shù)較少,某些屬性存在缺失的情況。影視類實(shí)體的屬性描述較為統(tǒng)一,屬性對(duì)單個(gè)實(shí)體的描述較為完整。人物類實(shí)體的上下文描述從“人物生平”“主要成就”“人物影響及評(píng)價(jià)”等方面實(shí)體進(jìn)行描述,影視類實(shí)體的上下文主題分布對(duì)同一實(shí)體的描述在不同數(shù)據(jù)源下可能存在較大差異。本文通過人工審核的方法對(duì)抽取的實(shí)體數(shù)據(jù)集進(jìn)行了校驗(yàn)。實(shí)體對(duì)齊數(shù)據(jù)集統(tǒng)計(jì)信息如表2所示。 3.2實(shí)驗(yàn)結(jié)果分析 3.2.1評(píng)價(jià)指標(biāo) 本文的主要工作是將來(lái)自中文異構(gòu)數(shù)據(jù)源知識(shí)庫(kù)中的實(shí)體進(jìn)行對(duì)齊,評(píng)價(jià)指標(biāo)選取準(zhǔn)確率(Precision,P)、召回率(Recall,R)及綜合指標(biāo)F值(FScore,F(xiàn))作為評(píng)價(jià)標(biāo)準(zhǔn)[21]。 1)準(zhǔn)確率計(jì)算公式為: P=Nr/No(11) 2)召回率計(jì)算公式為: R=Nr/Na(12) 3)綜合指標(biāo)F值計(jì)算公式為: F=2·P·R/(P+R)(13) 其中:Na為數(shù)據(jù)集中所有可準(zhǔn)確對(duì)齊的實(shí)體個(gè)數(shù);No為所有對(duì)齊實(shí)體數(shù);Nr為正確對(duì)齊實(shí)體數(shù)。 準(zhǔn)確率表示通過實(shí)體對(duì)齊算法后得到正確對(duì)齊后的實(shí)體的準(zhǔn)確程度;召回率表示通過算法得到的準(zhǔn)確對(duì)齊的實(shí)體數(shù)占數(shù)據(jù)集中所有可準(zhǔn)確對(duì)齊實(shí)體的比率;F值為衡量準(zhǔn)確率與召回率的綜合指標(biāo)。
3.2.2模型參數(shù)選取
本文的模型參數(shù)主要有屬性相似度下界μ,屬性相似度上界ν,實(shí)體對(duì)齊閾值ω及主題模型中的主題數(shù)K。參數(shù)選取方法如下。
1)參數(shù)μ、ν選取。
經(jīng)過大量實(shí)驗(yàn),實(shí)體在進(jìn)行對(duì)齊時(shí),如果屬性相似度小于μ,則判定為不可對(duì)齊實(shí)體, μ取經(jīng)驗(yàn)值0.5;如果屬性相似度高于上界ν,則判定為同一實(shí)體,ν取經(jīng)驗(yàn)值0.95。
2)參數(shù)ω選取。
實(shí)體相似度是屬性相似度與實(shí)體上下文相似度的均值,對(duì)于基于主題模型的實(shí)體對(duì)齊算法效果有重要影響。實(shí)體相似度參數(shù)ω越高,則實(shí)體對(duì)齊的準(zhǔn)確率越高,但召回率下降;否則,參數(shù)ω降低,召回率提升,但準(zhǔn)確率下降。實(shí)體相似度參數(shù)ω的選取主要依賴最優(yōu)F值,若F值相近的情況下,選擇準(zhǔn)確率更高的參數(shù)ω。通過圖3(a)看出,人物類實(shí)體對(duì)齊閾值ω選取為0.5~0.6時(shí),綜合指標(biāo)F值較高;通過圖3(b)看出,影視類實(shí)體對(duì)齊閾值選取為0.4時(shí)附近,綜合指標(biāo)F值較高。
3)參數(shù)K選取。
本文的LCSLDA算法對(duì)不同主題數(shù)目情況進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中ω參數(shù)選取0.4,依次選取不同K值進(jìn)行實(shí)體對(duì)齊實(shí)驗(yàn)。從圖4實(shí)驗(yàn)結(jié)果可以看出,主題個(gè)數(shù)K設(shè)定為2~3時(shí)實(shí)體對(duì)齊算法的F值最優(yōu),準(zhǔn)確率及召回率的整體性能較好。
3.2.3與其他實(shí)體對(duì)齊算法比較
為了進(jìn)一步驗(yàn)證所提中文異構(gòu)知識(shí)庫(kù)實(shí)體對(duì)齊算法(LCSLDA)的有效性,利用實(shí)體對(duì)齊數(shù)據(jù)統(tǒng)計(jì)信息進(jìn)行實(shí)驗(yàn),在實(shí)驗(yàn)過程中,分別用LCSLDA算法、LCS算法、LCS屬性加權(quán)(WeightedLCS)算法、LCSTFIDF算法、LDA算法運(yùn)行表2中的實(shí)體對(duì)齊數(shù)據(jù),各算法通過大量實(shí)驗(yàn)取最優(yōu)結(jié)果,實(shí)驗(yàn)結(jié)果如表3所示。對(duì)各標(biāo)準(zhǔn)方法評(píng)價(jià)如下。
1)LCS算法。
文獻(xiàn)[22]中利用實(shí)體屬性,通過實(shí)體屬性值計(jì)算實(shí)體的相似度判定實(shí)體是否可以進(jìn)行對(duì)齊。由于百科類屬于UGC數(shù)據(jù),屬性值存在不規(guī)范情況,因此基于文獻(xiàn)[20]中所述算法,采用LCS算法比較實(shí)體屬性值。通過表3可以看出,僅僅利用實(shí)體屬性來(lái)對(duì)實(shí)體進(jìn)行對(duì)齊,準(zhǔn)確率、召回率及綜合評(píng)價(jià)指標(biāo)F值均較低。
2)WeightedLCS算法。
WeightedLCS算法為文獻(xiàn)[13]中對(duì)屬性進(jìn)行加權(quán)后進(jìn)行實(shí)體對(duì)齊的方法,按照統(tǒng)計(jì)信息對(duì)屬性進(jìn)行加權(quán),實(shí)驗(yàn)結(jié)果如表3所示,其對(duì)齊的準(zhǔn)確程度較LCS算法下降,是由于該方法對(duì)通用屬性如人物類的“中文姓名”“出生日期”等,影視類如“影片名”“imdb編碼”等屬性依賴較重,導(dǎo)致百科數(shù)據(jù)集中分布較稀疏的屬性對(duì)實(shí)體對(duì)齊的重要性降低,而這些信息對(duì)于百科類實(shí)體對(duì)齊非常關(guān)鍵,因此對(duì)屬性進(jìn)行加權(quán)并不能有效提高中文異構(gòu)百科實(shí)體對(duì)齊的效果。
3)LCSTFIDF算法。
LCSTFIDF算法為結(jié)合了上下文信息的實(shí)體對(duì)齊方法,為每個(gè)實(shí)體上下文中出現(xiàn)的詞計(jì)算TFIDF值[23],將所有詞項(xiàng)的TFIDF值作為特征向量,在實(shí)體對(duì)齊問題中取得了較好表現(xiàn),但由于TFIDF方法僅考慮詞項(xiàng)的詞頻特征,沒有考慮詞項(xiàng)的語(yǔ)義信息,因此效果次于LCSLDA算法。
4)LDA算法。
該方法采用LDA模型對(duì)實(shí)體提取主題特征,上下文僅考慮信息,可以看出在人物類百科實(shí)體對(duì)齊中可以取得不錯(cuò)表現(xiàn),然而由于人物類實(shí)體描述往往從“人物生平”“所獲成就”等方面描述,影視類實(shí)體在異構(gòu)百科數(shù)據(jù)源中存在描述差異較大的現(xiàn)象,因此對(duì)于某些類別的百科實(shí)體僅通過上下文信息進(jìn)行對(duì)齊時(shí)效果并不理想。
5)LCSLDA算法。
LCSLDA算法在人物類實(shí)體對(duì)齊數(shù)據(jù)集上實(shí)體相似度閾值ω取0.6,主題參數(shù)K取3時(shí)實(shí)體對(duì)齊的準(zhǔn)確率及F值效果最好,召回率略低于LCSTFIDF算法及LDA算法;在影視類數(shù)據(jù)集上,實(shí)體相似度閾值取0.4,主題參數(shù)K取2時(shí)準(zhǔn)確率、召回率及綜合評(píng)價(jià)指標(biāo)F值均為第一,可見采用該算法對(duì)解決中文異構(gòu)百科類實(shí)體對(duì)齊問題具有良好效果。
4結(jié)語(yǔ)
為解決中文異構(gòu)百科類實(shí)體對(duì)齊問題,本文提出一種基于實(shí)體屬性與上下文主題特征相結(jié)合的實(shí)體對(duì)齊LCSLDA方法。該方法基于百度百科及互動(dòng)百科構(gòu)造中文RDF知識(shí)庫(kù),通過RDFS對(duì)屬性進(jìn)行規(guī)范化,抽取實(shí)體上下文信息并利用主題模型構(gòu)造主題特征,結(jié)合了實(shí)體屬性特征與上下文語(yǔ)義信息解決實(shí)體對(duì)齊問題。為驗(yàn)證所提算法的有效性,依照標(biāo)準(zhǔn)方法構(gòu)造了中文百科類實(shí)體對(duì)齊數(shù)據(jù)集。通過與經(jīng)典的屬性相似度算法、屬性加權(quán)算法、上下文詞頻特征模型及主題模型算法方法比較,實(shí)驗(yàn)結(jié)果表明本文所提LCSLDA方法對(duì)于解決中文異構(gòu)百科類實(shí)體對(duì)齊問題具有良好效果,對(duì)具有上下文信息的實(shí)體對(duì)齊問題具有一定通用性。
后續(xù)的研究將進(jìn)一步優(yōu)化實(shí)體對(duì)齊模型,并考慮大規(guī)模數(shù)據(jù)處理情況和基于云計(jì)算平臺(tái)解決異構(gòu)百科實(shí)體數(shù)據(jù)融合問題,這對(duì)于百科知識(shí)庫(kù)的構(gòu)建及問答系統(tǒng)的性能提升具有重要意義。
參考文獻(xiàn):
[1]
BERNERSLEE T, HENDLER J, LASSILA O. The semantic Web [J]. Scientific American, 2001, 284(5): 28-37.
[2]
BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge [C]// ACM SIGMOD 2008: Proceedings of the 2008 Association for Computing Machinerys Special Interest Group on Management of Data. New York: ACM, 2008: 1247-1250.
[3]
LEHMANN J, ISELE R, JAKOB M, et al. DBpedia—a largescale, multilingual knowledge base extracted from wikipedia [J]. Semantic Web, 2015(2): 167-195.
[4]
BIEGA J, KUZEY E, SUCHANEK F M. Inside YAGO2s: a transparent information extraction architecture [C]// Proceedings of the 22nd International Conference on World Wide Web Conference. New York: ACM, 2013: 325-328.
[5]
PHILPOT A, HOVY E, PANTEL P. The Omega ontology [C]// OntoLex05: Proceedings of the 2nd International Joint Conference on Natural Language Processing Workshop on Ontologies and Lexical Resources. Cambridge, UK: Cambridge University Press, 2005: 59-66.
[6]
LI M, SHI Y, WANG Z, et al. Building a largescale crosslingual knowledge base from heterogeneous online wikis [M]// Natural Language Processing and Chinese Computing. Berlin: Springer, 2015: 413-420.
[7]
MADHU G, GOVARDHAN A, RAJINIKANTH T V. Intelligent semantic Web search engines: a brief survey [J]. International Journal of Web & Semantic Technology, 2011, 2(1): 34-42.
[8]
HAN X, SUN L. A generative entitymention model for linking entities with knowledge base [C]// ACLHLT 2011: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language TechnologiesVolume 1. Stroudsburg, PA: Association for Computational Linguistics, 2011: 945-954.
[9]
NOV O. What motivates wikipedians [J]. Communications of the ACM, 2007, 50(11): 60-64.
[10]
SLEEMAN J, FININ T. Computing FOAF coreference relations with rules and machine learning [C]// SDoW2010: Proceedings of the 3rd International Workshop on Social Data on the Web. Berlin: Springer, 2010: 1-11.
[11]
ZHENG Z, SI X, LI F, et al. Entity disambiguation with freebase [C]// Proceedings of the 2012 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technology. Washington, DC: IEEE Computer Society, 2012: 82-89.
[12]
鄭杰,茅于杭.基于語(yǔ)境的語(yǔ)義排歧方法[J].中文信息學(xué)報(bào),2000,14(5):1-7.(ZHENG J, MAO Y H. Word sense tagging method based on context [J]. Journal of Chinese Information Processing, 2000, 14(5): 1-7.)
[13]
張曉輝,蔣海華,邸瑞華.基于屬性權(quán)重的鏈接數(shù)據(jù)共指關(guān)系構(gòu)建[J].計(jì)算機(jī)科學(xué),2013,40(2):40-43.(ZHANG X H, JIANG H H, DI R H. Property weight based coreference resolution for linked data [J]. Computer Science, 2013, 40(2): 40-43.)
[14]
GOZUDELI Y, KARACAN H, YILDIZ O, et al. A new method based on tree simplification and schema matching for automatic Web result extraction and matching [C]// IMECS 2015: Proceedings of the International MultiConference of Engineers and Computer Scientists. Hong Kong: Newswood Limited, 2015, 1:369-373.
[15]
MILLER E. An introduction to the resource description framework [J]. Bulletin of the American Society for Information Science and Technology, 1998, 25(1): 15-19.
[16]
DONG L, WEI F, ZHOU M, et al. Question answering over freebase with multicolumn convolutional neural networks [C]// ACLIJCNLP 2015: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015, 1: 260-269.
[17]
MCBRIDE B. The Resource Description Framework (RDF) and its vocabulary description language RDFS [M]// Handbook on Ontologies. Berlin: Springer, 2004: 51-65.
[18]
BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[19]
GRIFFITHS T. Gibbs sampling in the generative model of latent Dirichlet allocation [R]. Stanford: Stanford University, 2002.
[20]
BERGROTH L, HAKONEN H, RAITA T. A survey of longest common subsequence algorithms [C]// SPIRE 2000: Proceedings of the Seventh International Symposium on String Processing and Information Retrieval. Piscataway, NJ: IEEE, 2000: 39-48.
[21]
朱敏,賈真,左玲.中文微博實(shí)體鏈接研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,50(1):73-78.(ZHU M, JIA Z, ZUO L. Research on entity linking of Chinese micro blog [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(1): 73-78.)
[22]
RAIMOND Y, SUTTON C, SANDLER M B. Automatic interlinking of music datasets on the semantic Web [C]// LDOW 2008: Proceedings of the 1st Workshop about Linked Data on the Web. New York: ACM, 2008, 369: 1-8.
[23]
MORI J, TSUJISHITA T, MATSUO Y, et al. Extracting relations in social networks from the Web using similarity between collective contexts [C]// ISWC 2006: Proceedings of the 5th International Semantic Web Conference. Berlin: Springer, 2006, 4273: 487-500.