齊愛芹 徐蔚然
(北京郵電大學(xué)自動化學(xué)院,北京,100876)
基于詞向量的實(shí)體鏈接方法
齊愛芹 徐蔚然
(北京郵電大學(xué)自動化學(xué)院,北京,100876)
實(shí)體鏈接任務(wù)主要包括命名實(shí)體識別、查詢擴(kuò)展、候選實(shí)體選擇、特征抽取和排序。本文針對查詢詞的擴(kuò)展,提出了一種基于詞向量的擴(kuò)展方法。該方法利用連續(xù)詞袋(Continuous bag-of-words,CBOW)模型訓(xùn)練語料中詞語的詞向量,然后將距離查詢詞近的詞作為擴(kuò)展詞。詞向量從語料中挖掘出詞與詞之間的語義相關(guān)性是對基于規(guī)則的查詢擴(kuò)展方法的補(bǔ)充,以此來召回候選實(shí)體。在特征抽取時(shí),把文檔之間的潛在狄利克雷分布(Latent Dirichlet allocation, LDA)的主題相似性作為特征之一。在計(jì)算文檔相似性時(shí),不再以高頻詞作為向量的維度,而是以基于詞向量的相關(guān)詞作為向量維度,由此得到文檔的語義相似性特征 。最后利用基于單文檔方法的排序?qū)W習(xí)模型把查詢詞鏈接到相應(yīng)的候選實(shí)體。實(shí)驗(yàn)結(jié)果表明利用該方法能使F1值達(dá)到0.71,具有較好的效果。
實(shí)體鏈接;潛在狄利克雷分布;詞向量;排序?qū)W習(xí)
網(wǎng)絡(luò)的飛速發(fā)展給人們生活帶來了便利,與此同時(shí),引發(fā)的信息爆炸讓人們很難精確地定位所求的信息。各種搜索引擎的出現(xiàn),如百度、搜狗、360搜索和谷歌等為用戶提供檢索服務(wù),將用戶查詢詞的相關(guān)信息反饋給用戶。由于自然語言的歧義性,例如,“蘋果”既可以指水果中的蘋果,也可以指生產(chǎn)電子產(chǎn)品的“蘋果”公司,對實(shí)體的語義進(jìn)行消歧成了查詢的關(guān)鍵問題?;谖谋窘馕鰰h(Text analysis conference,TAC)的實(shí)體鏈接(Entity linking)任務(wù)應(yīng)運(yùn)而生。實(shí)體鏈接任務(wù)是指抽取文檔集中指定類型的命名實(shí)體,包括人名、地名和組織機(jī)構(gòu)名,并把其鏈接到知識庫(Knowledge base,KB)的過程。KB是2008年的維基百科快照,是一個(gè)半結(jié)構(gòu)化的知識庫,每一個(gè)詞條在KB中都是一個(gè)KB節(jié)點(diǎn),對應(yīng)一個(gè)唯一的ID。如何根據(jù)給定的文檔語境把實(shí)體鏈接到KB中是本任務(wù)的關(guān)鍵問題。本文提出了結(jié)合語義進(jìn)行查詢擴(kuò)展以及基于語義的特征抽取方式。針對查詢詞的擴(kuò)展,利用詞向量的擴(kuò)展方法,用神經(jīng)網(wǎng)絡(luò)去訓(xùn)練語料中詞語的詞向量。然后將距離查詢詞相近的詞作為擴(kuò)展詞,詞向量從語料中挖掘出詞與詞之間的語義相關(guān)性,此方法充分考慮了語義相關(guān)性,能把同義詞,共指關(guān)系的詞召回。此方法可以召回更多的相關(guān)候選實(shí)體,補(bǔ)充了基于規(guī)則的模糊匹配的查詢擴(kuò)展。在特征抽取時(shí),充分考慮文檔的主題,把文檔之間的潛在狄利克雷分布(Latent Dirichlet allocation,LDA)的主題相似性作為特征之一。在計(jì)算文檔相似性時(shí),不再以高頻詞作為文本向量,而是以基于詞向量的相關(guān)詞作為向量維度,由此得到文檔的基于語義的相似性特征?;谠~向量的相關(guān)詞在語義上比高頻詞更能代表文本。最后使用基于單文檔的排序?qū)W習(xí)模型把查詢詞鏈接到候選實(shí)體上。本文以2014年的知識庫擴(kuò)充(Knowledge base population,kBP)評測數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù),結(jié)果顯示該方法有較好的效果。
目前實(shí)體鏈接的方法主要有分類法、概率主題方法、Graph方法和排序法。分類法[1]把每個(gè)候選實(shí)體看作一個(gè)類別,每一個(gè)查詢詞就是一個(gè)待分類項(xiàng),抽取特征后根據(jù)SVM進(jìn)行分類,此方法是哈爾濱工業(yè)大學(xué)在2012年TAC的實(shí)體鏈接任務(wù)中所采用的方法。但該方法沒有考慮文檔中的語義信息,只是根據(jù)詞的共現(xiàn)來進(jìn)行分類,并且訓(xùn)練數(shù)據(jù)少、噪聲大。概率主題方法[2]挖掘隱藏在文本之間的主題關(guān)系,來衡量文本之間的相似性。此方法只是單純地根據(jù)上、下文語義來進(jìn)行實(shí)體鏈接,沒有充分利用維基百科的結(jié)構(gòu)化信息,準(zhǔn)確率不是很高。Graph方法[3]基于文本中實(shí)體和維基百科的特點(diǎn),構(gòu)造語義網(wǎng)絡(luò),通過網(wǎng)絡(luò)中節(jié)點(diǎn)的距離、出度和入度等作為特征來設(shè)計(jì)相似度衡量指標(biāo),從而實(shí)現(xiàn)語義消歧。雖然這種方法有較好的鏈接效果,然而也存在一些問題,當(dāng)數(shù)據(jù)規(guī)模比較大時(shí),網(wǎng)絡(luò)圖的存儲、訓(xùn)練和計(jì)算就會比較繁瑣復(fù)雜。傳統(tǒng)的排序法即向量空間模型全稱(Vector space model,VSM)[4]抽取實(shí)體的上下文作為詞袋,然后根據(jù)詞頻-逆向文檔頻(Term frequency-inverse document frequency, TF-IDF)中向量空間(Vector space model)把上、下文表示成文本向量,計(jì)算余弦相似性。VSM模型是最傳統(tǒng)的命名實(shí)體消歧方法的模型,這種方法認(rèn)為同一個(gè)命名實(shí)體的上、下文更相似。Bagga 和 Baldwin[5]使用“詞袋”模型的方法計(jì)算文章相似度,來判斷某兩篇文檔中出現(xiàn)的相同命名指稱項(xiàng)是否對應(yīng)同一命名實(shí)體,“詞袋”模型只考慮了上、下文信息,沒有挖掘深層次的語義關(guān)系,也沒有加入其他重要的特征?;谝陨戏治觯疚奶岢鋈诤辖Y(jié)構(gòu)特征和語義特征的排序?qū)W習(xí)模型進(jìn)行實(shí)體鏈接。本文充分利用了維基百科的半結(jié)構(gòu)化信息,抽取了頁面的Infobox信息特征,同時(shí)考慮語義特征,抽取文檔之間的LDA主題相似度,計(jì)算基于詞向量的語義相似度特征,使用單文檔方法構(gòu)建排序?qū)W習(xí)模型,把此問題轉(zhuǎn)變成回歸問題,進(jìn)行排序。實(shí)驗(yàn)結(jié)果顯示本方法在2014年TAC評測中對實(shí)體鏈接任務(wù)有較好的效果?,F(xiàn)有的命名實(shí)體識別方法主要有基于詞典和規(guī)則的算法,基于隱馬爾科夫模型的方法和基于條件隨機(jī)場(Condition random field,CRF)的方法?;谠~典和規(guī)則的算法利用現(xiàn)有的詞典和人工規(guī)則進(jìn)行命名實(shí)體識別,但是這種方法存在兩大問題:(1)詞典的構(gòu)建,詞典是否完全決定了實(shí)體識別的性能。(2)實(shí)體識別規(guī)則的確定,規(guī)則之間的沖突難以避免,并且遷移性較差?;陔[馬爾科夫模型的命名實(shí)體識別采用Viterbi算法對初始觀察序列標(biāo)注,求出最佳的狀態(tài)序列,用 K 均值方法進(jìn)行估計(jì),并將估計(jì)結(jié)果使用線性插值法進(jìn)行平滑。基于CRF的命名實(shí)體識別,是一種用于標(biāo)注和切分有序數(shù)據(jù)的條件概率模型,集合了最大熵模型和隱馬爾可夫(Hidden Markov model,HMM)模型的特點(diǎn)。CRF可以看作是一種無向圖模型,考察給定輸入序列的標(biāo)注序列的條件概率。
查詢擴(kuò)展的方法主要有基于統(tǒng)計(jì)的查詢擴(kuò)展和基于語義詞典的查詢擴(kuò)展。基于統(tǒng)計(jì)的查詢擴(kuò)展是根據(jù)語料中詞的上、下文相同詞的共現(xiàn)概率來進(jìn)行擴(kuò)展?;诮y(tǒng)計(jì)的方式在訓(xùn)練語料過大時(shí)容易導(dǎo)致語義漂移。基于語義詞典的查詢擴(kuò)展是根據(jù)人工標(biāo)注的語義詞典進(jìn)行擴(kuò)展。主要的語義詞典有WordNet、HowNet和同義詞林等?;谠~典的擴(kuò)展方法過多地依賴現(xiàn)有詞典,對于詞典中未登錄詞達(dá)不到好的擴(kuò)展效果。于是本文采用基于規(guī)則和詞向量相結(jié)合的方式進(jìn)行查詢擴(kuò)展,能夠達(dá)到較好的擴(kuò)展效果。
基于任務(wù)分析,實(shí)體鏈接主要解決的關(guān)鍵性問題有:命名實(shí)體識別、查詢擴(kuò)展、候選實(shí)體生成、特征抽取和排序。具體的系統(tǒng)流程圖如圖1所示。
1.1 基于條件隨機(jī)場的命名實(shí)體識別
圖1 系統(tǒng)流程圖Fig.1 System flow chart
根據(jù)本任務(wù)要求,命名實(shí)體識別識別出人名、地名和組織結(jié)構(gòu)名這3種類型的實(shí)體。本文使用CRF的方法來解決任務(wù)中的命名實(shí)體識別任務(wù),訓(xùn)練數(shù)據(jù)是評測任務(wù)給定的訓(xùn)練集,利用Stanford CoreNLP NER得到數(shù)據(jù)的句法樹。對于訓(xùn)練數(shù)據(jù)的標(biāo)記采用 B,E,I和O來標(biāo)志,B表示實(shí)體的開始,E表示實(shí)體的結(jié)束,O表示非實(shí)體,I表示實(shí)體內(nèi)部。選擇的特征包括詞語、詞性、詞在句法樹中的父節(jié)點(diǎn)以及和父節(jié)點(diǎn)的關(guān)系。采用的模板參數(shù)如表1所示。表1中T**:%×[#.#]中的T為模板類型,兩個(gè)“#”分別為相應(yīng)的行偏移和列偏移。
表1 CRF的模板參數(shù)
1.2 查詢擴(kuò)展
查詢擴(kuò)展在實(shí)體鏈接的過程中是較為關(guān)鍵的一步, 它對提高實(shí)體鏈接的準(zhǔn)確率和召回率具有重要的影響。在候選實(shí)體選擇模塊中,查詢詞往往是縮寫,于是對縮寫進(jìn)行擴(kuò)展至關(guān)重要。比如,在維基百科中有超過幾十個(gè)條目的縮寫都是“ABC”,但如果將“ABC”擴(kuò)展為“American Broadcasting Company”,這樣在KB知識庫中就可以準(zhǔn)確地召回候選實(shí)體,而過濾其他不相關(guān)實(shí)體。本實(shí)驗(yàn)使用基于規(guī)則和基于詞向量的方法進(jìn)行查詢擴(kuò)展來提高準(zhǔn)確率和召回率。
1.2.1 基于規(guī)則查詢擴(kuò)展
在基于規(guī)則進(jìn)行擴(kuò)展時(shí),主要使用支撐文檔進(jìn)行擴(kuò)展,支撐文檔即官方給定的出現(xiàn)這個(gè)查詢詞的文檔,本文擴(kuò)展時(shí)使用的規(guī)則如下:
(1) 對于人名,若文檔中有全稱,就把查詢詞擴(kuò)展成全稱,如″Brown″擴(kuò)展成″John Brown″。
(2) 對于大寫縮寫,借助CRF抽取的命名實(shí)體在文檔中讓縮寫擴(kuò)展成全稱。比如IBM在文檔中表示魔術(shù)協(xié)會,借助停用詞擴(kuò)展成″International Brotherhood of Magicians″。
(3) 對于地名的縮寫,根據(jù)地名、別名縮寫詞典進(jìn)行擴(kuò)展,如″US″擴(kuò)展成″United States″。
1.2.2 基于詞向量的查詢擴(kuò)展
圖2 CBOW模型Fig.2 CBOW model
對查詢詞進(jìn)行擴(kuò)展往往是為了提高準(zhǔn)確率,把一個(gè)查詢詞擴(kuò)展成一個(gè)比較精確的查詢詞,如″Lucy″擴(kuò)展成″Lucy Walsh″,但由于支撐文檔只是出現(xiàn)查詢詞的背景,或者在文檔中查詢詞只出現(xiàn)一次,于是借用支撐文檔進(jìn)行基于規(guī)則的查詢擴(kuò)展有可能變得無效。為了能召回比較精確的候選實(shí)體,于是本文借用Wiki的外部數(shù)據(jù)進(jìn)行查詢擴(kuò)展。比如″Lucy″若不能進(jìn)行基于規(guī)則的擴(kuò)展,則基于詞向量的擴(kuò)展方法讓返回相似度達(dá)到0.5以上的實(shí)體作為擴(kuò)展詞,此擴(kuò)展詞就作為候選實(shí)體來進(jìn)行鏈接,以″Detroit″為例,基于詞向量的擴(kuò)展結(jié)果有實(shí)體″Detroit Red Wings″,″USS Detroit″等,然后在KB中索引這些擴(kuò)展實(shí)體的頁面作為候選實(shí)體?;谠~向量的查詢擴(kuò)展根據(jù)詞的上、下文語義進(jìn)行擴(kuò)展,是一個(gè)基于統(tǒng)計(jì)的無監(jiān)督訓(xùn)練方式,此方法認(rèn)為相近的詞在語義上距離更相近。Word2vec[6]是 Google 公司在 2013 年提出的一款訓(xùn)練詞向量的工具,準(zhǔn)確性高。Word2vec 是一個(gè)深度學(xué)習(xí)模型,同神經(jīng)網(wǎng)絡(luò)語言模型相似。Word2vec 以大量文本訓(xùn)練語料作為輸入,可以將每個(gè)詞特征化為一個(gè)K維的實(shí)值向量,在該向量上進(jìn)行相似度計(jì)算將能挖掘出相似詞。Word2vec 包括CBOW中袋和 Skip gram model 兩種模型,本文使用CBOW模型。CBOW模型與傳統(tǒng)的前向神經(jīng)網(wǎng)絡(luò)語言模型類似,不同點(diǎn)在于 :(1)CBOW 預(yù)測語句中間的詞,而不是最后一個(gè)詞。(2) CBOW去掉了模型計(jì)算中最耗時(shí)的非線性隱層并且對所有詞而言隱層相同,從而有效地提高了詞向量的訓(xùn)練速度。CBOW如圖2所示。訓(xùn)練詞向量的參數(shù)設(shè)置為/word2vec-train kb.txt-output kb.vector-cbow 1-size 100-window 5-negative 0-hs 1-sample le-3-threads 12-binary 1。訓(xùn)練詞向量時(shí)使用KB,使用CBOW模型。使用二進(jìn)制格式來存儲詞向量結(jié)果,參數(shù)如表2所示。
選取2016年6月~2018年1月在我院實(shí)施經(jīng)皮冠狀動脈介入治療術(shù)(PCI)的急性心肌梗死(AMI)患者96例作為研究對象,按照隨機(jī)數(shù)字法將其均分為觀察組與對照組,各48例。其中,觀察組男31例,女15例,年齡51~78歲,平均年齡(62.75±2.37)歲,發(fā)病至PCI平均時(shí)間(0.65±0.14)h;對照組男29例,女17例,年齡52~79歲,平均年齡(63.08±2.52)歲,發(fā)病至PCI平均時(shí)間(0.63±0.16)h?;颊呒凹覍倬橥猓瑑山M患者的年齡、性別等一般資料比較,差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。
表2 詞向量參數(shù)
1.3 候選實(shí)體的選擇
為了能快速返回候選實(shí)體,本文使用Indri對KB建立倒排索引,Indri是一個(gè)完整的開源搜索引擎,由卡耐基-梅隆大學(xué)Lemur項(xiàng)目組維護(hù)并持續(xù)開發(fā)。為了能最大程度地召回正確實(shí)體,本文進(jìn)行索引的查詢詞是由規(guī)則方法進(jìn)行擴(kuò)展的查詢詞和由詞向量進(jìn)行擴(kuò)展形成的查詢詞,使用模糊匹配的方式返回候選實(shí)體。例如,″Lucy″的候選實(shí)體為″Lucy Walsh″″I_Love_Lucy″″Lucy_Coe″等。由于KB頁面中的信息只有別名,標(biāo)題,文本信息。根據(jù)文獻(xiàn)[7],外部數(shù)據(jù)Wikipedia能提供更多的特征。于是本文對20140203的″Enwiki″進(jìn)行解析,對于返回候選實(shí)體的標(biāo)題,在″Enwiki″中抽取其中的″Category_inlinks″ ″Category_pages″″MetaData″″Page_inlinks″ ″Page_outlinks″ ″Page″″Category_outlinks″″Category″等信息并存入11個(gè)Mysql表中。KB頁面和Wikipedia頁面中標(biāo)題都是唯一的標(biāo)識,對于每一個(gè)對應(yīng)的KB頁面,都在Wikipedia中搜索到相應(yīng)的頁面來擴(kuò)展候選實(shí)體的特征。
1.4 特征抽取
在訓(xùn)練排序模型時(shí),要抽取查詢詞與候選實(shí)體的特征,特征的選擇直接影響排序模型的效果。無論是清華大學(xué)[8]或是中國科學(xué)院計(jì)算技術(shù)研究所[9]的2014年評測、抽取的特征都包括名稱相似性、實(shí)體流行度、上下文相似性、類型和縮寫。本文認(rèn)為基于語義的主題信息仍是一個(gè)關(guān)鍵因素。對于不同主題的文章,上下文往往是不同的。本文抽取了LDA的主題特征以及基于詞向量的文本相似性特征。
(1) 實(shí)體之間的信息。實(shí)驗(yàn)結(jié)果顯示,查詢詞和候選實(shí)體標(biāo)題的相關(guān)性對實(shí)驗(yàn)結(jié)果有著重要的影響。例如擴(kuò)展的″Lucy Walsh″與KB中的″Lucy Walsh″完全一致,結(jié)果顯示其是正確的鏈接KB節(jié)點(diǎn)。于是查詢詞與標(biāo)題的相似性是特征之一,本文使用編輯相似性來度量其相似性,則
(1)
式中:L′為最小編輯次數(shù),L1,L2分別為字符串的長度。
(2)
(3) 實(shí)體的類別特征C。類別標(biāo)簽反應(yīng)的是一個(gè)實(shí)體的類別,若兩個(gè)實(shí)體表示同一實(shí)體,那么其類別一致。本文抽取支撐文檔中詞的所有能確定的類別作為查詢詞的類別以及候選實(shí)體的類別,Ci對其進(jìn)行評估,Ci為
(3)
(4) 類型信息t。類型信息指一個(gè)實(shí)體的類型,對于命名實(shí)體識別出的實(shí)體類型包含PER,GPE,ORG。而KB中實(shí)體也有相應(yīng)的實(shí)體類型,如UKN,PER,GPE。UKN為不能確定的類型。若實(shí)體的類型不是UKN并且實(shí)體的類型和查詢詞的類型不一致則t為0。否則t為1。t的定義為
(4)
(5) 基于主題模型的文檔相似度。LDA[10]模型是Blei提出的一種對文檔集建模的概率主題模型。傳統(tǒng)判斷兩個(gè)文檔相似性的方法是通過統(tǒng)計(jì)兩篇文檔共同出現(xiàn)的單詞,基于TF-IDF的相似性計(jì)算方法,這種方法沒有考慮到文檔的語義相關(guān)性,而LDA恰好能表示兩篇文檔的主題相似性。LDA模型認(rèn)為一篇文章都是以一定概率選擇了某個(gè)主題,并從這個(gè)主題中以一定概率選擇某個(gè)詞語,這樣一個(gè)過程得到的一篇文檔。LDA的原理可以表示為
(5)
給定一系列文檔,計(jì)算各個(gè)文檔中每個(gè)單詞的詞頻就可以得到“文檔-詞語”矩陣。主題模型就是通過這個(gè)“文檔-詞語”矩陣進(jìn)行訓(xùn)練,學(xué)習(xí)出“詞-主題”矩陣和“主題-文檔”矩陣。LDA的工作原理可以表示為LDA模型認(rèn)為文檔的主題分布和主題的詞分布屬于LDA分布,文檔以多項(xiàng)分布的概率選擇一個(gè)主題,主題以多項(xiàng)分布的概率選擇一個(gè)詞。然后用主題和詞的聯(lián)合分布來近似估計(jì)主題的后驗(yàn)分布。最后訓(xùn)練文檔的主題分布,用KL散度來計(jì)算文檔之間的主題相似性。KL距離也即相對熵,表示兩個(gè)概率分布的距離。相似度度量標(biāo)準(zhǔn)KL距離為
(6)
式中:p,q分別為兩個(gè)概率分布。
(6) 基于詞向量的文本相似性。由查詢擴(kuò)展中對詞向量的概述所知,通過詞向量進(jìn)行查詢擴(kuò)展時(shí),對文檔中的詞利用神經(jīng)網(wǎng)絡(luò)進(jìn)行詞向量訓(xùn)練,然后根據(jù)余弦距離得到一個(gè)詞的近義詞或者相關(guān)詞。傳統(tǒng)的度量文檔之間的相似性是基于高頻詞的,但是實(shí)體鏈接的特殊之處在于,支撐文檔只是查詢詞出現(xiàn)的語料,文檔并不能真正地解釋查詢詞的含義,于是文檔的高頻詞并不一定是經(jīng)常和查詢詞一起出現(xiàn)的高頻詞。同時(shí)支撐文檔中的高頻詞也不能很好地表達(dá)查詢詞的語義信息。為了能用其他語義共現(xiàn)詞來表示查詢詞的上、下文,本文使用基于詞向量的近義詞作為查詢詞的文本向量。詞向量是基于上、下文語義來訓(xùn)練的,于是得出的相關(guān)詞更能代表詞的上、下文語境。傳統(tǒng)的基于詞頻的文本相似性往往導(dǎo)致稀疏矩陣的計(jì)算,造成維度災(zāi)難。為了避免這個(gè)問題,本文使用的維度是50維,由得到的相似值可以推出,排名100的詞相似性達(dá)到0.2左右,于是不再作為相關(guān)詞對待。同時(shí)在訓(xùn)練詞向量時(shí)也要考慮歧義詞問題,比如″Lucy″的近義詞可能包含″Lucy Walsh″的近義詞,也可能包含″I Love Lucy″的近義詞。為了防止此問題引入的噪聲,在基于規(guī)則的方法進(jìn)行擴(kuò)展的前提下,對擴(kuò)展詞使用基于詞向量的相近詞文本向量化,比如″Lucy″擴(kuò)展成″Lucy Walsh″,文本向量化時(shí)使用基于詞向量的近義詞。為了防止噪聲的出現(xiàn),假如不能擴(kuò)展″Lucy″,仍舊使用支撐文檔中的實(shí)體作為上下文。對于由相關(guān)詞作為維度構(gòu)成的文本向量,使用余弦距離來度量文本之間的語義相似性。查詢詞″Apple Inc″的距離最近的幾個(gè)詞如表3所示。余弦距離用Sim表示為
(7)
表3 “Apple Inc”基于詞向量的相近詞
抽取的特征能否提高實(shí)體鏈接的準(zhǔn)確率是排序?qū)W習(xí)(Learning to rank,LTR)模型[11,12]要解決的核心問題。LTR是一種監(jiān)督學(xué)習(xí)的排序方法,已被廣泛應(yīng)用到文本挖掘的很多領(lǐng)域。LTR融合多種特征對候選結(jié)果進(jìn)行排序。LTR有3類方法:單文檔方法、文檔對方法和文檔列表方法,本文使用單文檔方法來進(jìn)行學(xué)習(xí)排序。單文檔方法處理對象單一文檔,將文檔轉(zhuǎn)化為特征向量后,主要是將排序問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)中常規(guī)的分類或回歸問題。當(dāng)模型參數(shù)學(xué)習(xí)完畢后,就可利用模型進(jìn)行相關(guān)性判斷。對新的查詢和文檔,通過模型的排序函數(shù)可以得到一個(gè)數(shù)值,利用該數(shù)值即可對文檔進(jìn)行排序。根據(jù)對文檔的分析以及2013年KBP實(shí)驗(yàn)室結(jié)果的訓(xùn)練,得出查詢詞與候選實(shí)體的排序函數(shù)為
(8)
(9)
本次實(shí)驗(yàn)使用2014年TAC評測中實(shí)體鏈接任務(wù)提供的138篇文檔作為測試數(shù)據(jù),共抽取了5 234個(gè)命名實(shí)體。用Indri對KB進(jìn)行索引,設(shè)置的N為50,即對每個(gè)查詢詞,返回前50個(gè)候選實(shí)體,然后用Java解析維基百科包(Java Wikipedia library,JWPL)解析Enwiki-20140203-pages-articles.xml文檔,返回其重定向頁、消歧頁以及頁面內(nèi)其他信息。抽取實(shí)體的特征,利用LTR模型進(jìn)行實(shí)體鏈接。實(shí)驗(yàn)結(jié)果如表4所示。實(shí)驗(yàn)結(jié)果的衡量使用F1值。
準(zhǔn)確率為
(10)
召回率為
(11)
(12)
表4 實(shí)驗(yàn)結(jié)果
本文進(jìn)行了4組實(shí)驗(yàn),實(shí)驗(yàn)的評價(jià)標(biāo)準(zhǔn)是B^3+F1,并且對結(jié)果在不同的方面進(jìn)行評估,包括對在KB中和不在KB中的查詢詞進(jìn)行評估。同時(shí)給定的文檔還包括新聞、微博、網(wǎng)頁(NW,WB,DF三種類型)和對查詢詞的不同類型進(jìn)行評估,包括PER,ORG,GPE。實(shí)驗(yàn)1是基于SVM[13]的分類模型,使用實(shí)體的上、下文信息作為特征,每一個(gè)候選實(shí)體為一類,然后使用徑向基核函數(shù)(Radialbase-function,RBF)進(jìn)行分類。從實(shí)驗(yàn)結(jié)果可以看出只是簡單地使用上、下文信息進(jìn)行SVM分類,效果不如其他方法。實(shí)驗(yàn)2使用候選實(shí)體的標(biāo)題以及KB的別名信息來進(jìn)行實(shí)體鏈接的向量空間模型。實(shí)驗(yàn)結(jié)果雖然不是很理想,但是從實(shí)驗(yàn)中也可以看出,KB節(jié)點(diǎn)的標(biāo)題信息和別名信息對實(shí)體鏈接有著重要的作用。實(shí)驗(yàn)3抽取了半結(jié)構(gòu)化的知識庫Wikipedia進(jìn)行解析,抽取其中的類別、別名、類型和文檔之間的LDA主題相似性進(jìn)行實(shí)驗(yàn),與實(shí)驗(yàn)2對比顯示加入了外部數(shù)據(jù)庫特征以及主題相似性特征的實(shí)驗(yàn)在PER、GPE類型的實(shí)體方面效果好于實(shí)驗(yàn)2,有著較好的作用,但是在ORG方面略低。在總體的KB內(nèi)和不在KB內(nèi)方面都有較好的效果,可以提高實(shí)驗(yàn)的F1值。實(shí)驗(yàn)4是本文的LTR模型,本實(shí)驗(yàn)最主要的不同在于除了充分利用標(biāo)題、類別、別名、上下文和LDA等信息之外,加入了基于詞向量的文本相似性特征。與前兩個(gè)實(shí)驗(yàn)結(jié)果相比,實(shí)驗(yàn)4 在GPE,ORG類型的實(shí)體方法有著顯著的提高,并且此方法對All-Query的鏈接也比其他方法有效。
本文是基于2014年TAC評測中實(shí)體鏈接任務(wù)進(jìn)行的研究,在查詢擴(kuò)展中使用基于規(guī)則的方法及基于詞向量的查詢擴(kuò)展方法。在特征抽取中,提出了融合LDA主題特征與基于詞向量的文檔相似性特征的排序?qū)W習(xí)模型,通過實(shí)驗(yàn)對比,顯示此方法對實(shí)體鏈接有著較好的效果。但是此實(shí)驗(yàn)仍舊有不足之處,詞向量的訓(xùn)練和語料的長短有很大關(guān)系。對于較短的文本,通過詞向量很難找到與其相近的詞。本實(shí)驗(yàn)訓(xùn)練詞向量的窗口是5,應(yīng)該進(jìn)一步調(diào)整詞窗大小,進(jìn)行實(shí)驗(yàn)來提高本實(shí)驗(yàn)的F1值。
[1] Jian Xu,Qin Lu,Jie Liu,et al.NLPComp in TAC 2012 entity linking and slot-filling[EB/OL].https://tac.nist.gov//publications/2012/participant.papers/NLPComp.proceedings.pdf,2012-12-25, 2015-10-02.
[2] 懷寶興,寶騰飛,祝恒書,等.一種基于概率主題模型的命名實(shí)體鏈接方法[J].軟件學(xué)報(bào),2014,25(9):2076-2087.
Huai Baoxing,Bao Tengfei,Zhu Hengshu,et al. Topic modeling approach to named entity linking[J].Journal of Software,2014,25(9):2076-2087.
[3] Xian Peihan,Sun Le,Zhao Jun.Collective entity linking in web text:A graph-based method[C]∥Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval.[S.l.]:ACM,2011:765-774.
[4] 郭慶琳,李艷梅,唐琦.基于VSM的文本相似度計(jì)算的研究[J].計(jì)算機(jī)應(yīng)用研究,2008,25(11):3256-3258.
Guo Qinglin,Li Yanmei,Tang Qi.Similarity computing of documents based on VSM[J].Application Research of Computers,2008,25(11):3256-3258.
[5] Bagga A, Baldwin B. Entity-based crossdocument coreferencing using the vector space model[EB/OL]. http://www.aclweb.org/anthology/P98-1012,1998-12-20/2015-10-02.
[6] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[EB/OL]. https://arxiv.org/abs/1301.3781,2013-12-10/2015-10-02.
[7] Cucerzan S. Large-scale named entity disambiguation based on Wikipedia data[EB/OL].https://pdfs.semanticscholar.org/1c90/9ac1c331c0c246a88da047cbdcca9ec9b7e7.pdf,2007-12-15/2015-10-02
[8] Zhao Gang,Lü Ping,Xu Ruochen,et al . MSIIPL_THU at TAC 2014 entity discovery and linking track[EB/OL]. https://tac.nist.gov/protected/2014/TAC2014-workshop-notebook/participant.papers/TAC2014.MSIIPL_THU.notebook.pdf,2014-12-25/2015-10-02.
[9] Hailun L Zeya Z Yantao. OpenKN at TAC KBP[EB/OL].https://tac.nist.gov/publications/2015/participant.papers/TAC2015.ICTCAS_OKN.proceedings.pdf,2015-05-10/2015-10-02.
[10]王振振,何明,杜永萍.基于LDA主題模型的文本相似度計(jì)算[J].計(jì)算機(jī)科學(xué),2013,40(12):229-232.
Wang Zhenzhen,He Ming,Du Yongping.Text similarity computing based on topic model LDA[J].Computer Science,2013,40(12):229-232.
[11]Liu T Y.Learning to rank for information retrieval[J].Foundations and Trends in Information Retrieval,2009,3(3):225-331.
[12]Hang L.A short introduction to learning to rank[J].IEICE Transactions on Information and Systems, 2011,94(10):1854-1862.
[13]劉紹毓,周杰,李弼程,等.基于多分類SVM-KNN的實(shí)體關(guān)系抽取[J].?dāng)?shù)據(jù)采集與處理,2015,30(1):202-210.
Liu Shaoyu,Zhou Jie,Li Bicheng,et al.Entity relation extraction method based on multi-classifier[J].Journal of Data Acquisition and Processing,2015,30(1):202-210.
Method of Entity Linking Based on Word Embedding
Qi Aiqin, Xu Weiran
(Automation School, Beijing University of Posts and Telecommunications,Beijing,100876,China)
Entity linking includes entity discovery, query expansion, candidate generation, feature extraction and ranking. Here the query expansion method based on word embedding is proposed. Word embedding of words are trained by continuous bag-of-words (CBOW) model. Then the related words become the expansion words. The related words could make up the expansion based on rule. The related words could recall more and more candidate words simultaneously. In the feature extraction,the topic similarity between texts is extracted as the feature based on latent Dirichlet allocation(LDA). This paper extracts the synonyms based on word embedding as the dimension of text vector. Finally, learning to rank model is used to select the best candidate entity. The result shows that the method can ensureF1reaching 0.71, and be effective for entity linking.
entity linking; latent Dirichlet allocation (LDA); word embedding; learning to rank
國家自然科學(xué)基金(61273217)資助項(xiàng)目;國家高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(20130005110004)資助項(xiàng)目。
2015-10-07;
2015-11-02
TP391
A
齊愛芹(1989-),女,碩士研究生,研究方向:機(jī)器學(xué)習(xí),E-mail:qiaiqin123@126.com。
徐蔚然(1975-),男,副教授,研究方向:模式識別。