向 宇 郭云龍 徐 瀟 曾維剛 李 莉
(西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院 重慶 400715)
?
多策略中文微博實(shí)體詞消歧及實(shí)體鏈接
向宇郭云龍徐瀟曾維剛李莉*
(西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院重慶 400715)
在社交網(wǎng)絡(luò)迅猛發(fā)展的今天,如何對(duì)有歧義的微博實(shí)體進(jìn)行消歧和如何將微博實(shí)體連接到知識(shí)庫已成為當(dāng)今研究熱點(diǎn)。對(duì)實(shí)體消歧和實(shí)體鏈接提出了多種策略方案。首先利用ICTCLAS對(duì)微博文本進(jìn)行分詞處理,利用百度百科、實(shí)體專家?guī)鞂?duì)實(shí)體進(jìn)行規(guī)范化處理。然后利用由爬蟲爬取的百度百科信息、微博數(shù)據(jù)、網(wǎng)絡(luò)詞語構(gòu)建了消歧文本數(shù)據(jù)庫,再結(jié)合TF-IDF算法和Fast-Newman聚類算法對(duì)實(shí)體進(jìn)行消歧和鏈接。使用第二屆自然語言處理與中文計(jì)算會(huì)議(NLP&CC 2013)中的中文微博實(shí)體鏈接任務(wù)給的數(shù)據(jù)進(jìn)行測試,測評(píng)中準(zhǔn)確率為84.99%,繼續(xù)改進(jìn)模型后準(zhǔn)確率達(dá)91.40%。
中文微博 實(shí)體消歧TF-IDFFast-Newman聚類
微博作為新生的社交網(wǎng)絡(luò)平臺(tái)在快速發(fā)展,其規(guī)模、用戶人數(shù)及產(chǎn)生的數(shù)據(jù)量急劇增長。據(jù)2015年2月3日中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《第35次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2014年12月,我國網(wǎng)民達(dá)6.49億,互聯(lián)網(wǎng)普及率為47.9%。其中微博用戶達(dá)2.49億。微博己成為網(wǎng)民頻繁使用的社交主流應(yīng)用,龐大的用戶規(guī)模鞏固其網(wǎng)絡(luò)輿論傳播的中心地位。微博的內(nèi)容簡短,每條微博內(nèi)容不超過140個(gè)字符,使得用戶頻繁發(fā)表。但微博巨大的信息量使用戶很難在短時(shí)間內(nèi)準(zhǔn)確獲取微博中命名實(shí)體的含義,又因微博中充斥大量網(wǎng)絡(luò)用語、口語、縮略語,實(shí)體名稱往往具有歧義性,給識(shí)別帶來了很大挑戰(zhàn)。中文微博實(shí)體與知識(shí)庫條目的鏈接,能夠有效地解決上述實(shí)體消歧的問題。將微博文本中的實(shí)體與知識(shí)庫中的實(shí)體加以鏈接,有助于利用社交媒體內(nèi)容進(jìn)行知識(shí)庫的構(gòu)建與擴(kuò)展后更好的呈現(xiàn)給用戶,方便用戶理解與閱讀。
中文微博實(shí)體詞消歧:是專門針對(duì)中文微博文本中的實(shí)體在存在多個(gè)義項(xiàng)情況下,辨別實(shí)體指示的是哪個(gè)義項(xiàng)。比如微博“熱火27連勝!熱火勝猛龍、勝山貓、勝火箭……熱火各種的勝,并成為了NBA第二長連勝?!敝械膶?shí)體“猛龍”就是一個(gè)存在多義項(xiàng)的實(shí)體,“猛龍”既可以是多倫多猛龍隊(duì),又是一部電影的名字,還是時(shí)尚品牌皮具名字。微博實(shí)體消歧義就是辨別出文本中的“猛龍”指的是多倫多猛龍隊(duì)。
中文微博實(shí)體鏈接:指的是給出中文微博中的實(shí)體,在指定的知識(shí)庫中匹配與之相符的目標(biāo)條目,也就是返回知識(shí)庫中目標(biāo)條目的主鍵或返回NIL。同樣以上述微博為例子,若給定知識(shí)庫中有條目為“多倫多猛龍隊(duì)”且此條目的主鍵為KB123456,鏈接任務(wù)要求輸出條目的主鍵KB123456。若給定知識(shí)庫中不存在“多倫多猛龍隊(duì)”這個(gè)條目,直接輸出NIL。
本文進(jìn)行了如下工作:
(1) 提出并構(gòu)建了多策略的命名實(shí)體消歧和鏈接流程。
(2) 構(gòu)建地名專家知識(shí)庫系統(tǒng)、人名專家知識(shí)庫系統(tǒng)。
(3) 對(duì)待測實(shí)體做了有效的預(yù)處理和優(yōu)化了數(shù)據(jù)庫。
(4) 提出了結(jié)合TF-IDF算法和Fast-Newman聚類算法對(duì)命名實(shí)體消歧,此為重點(diǎn)工作。
關(guān)于命名實(shí)體識(shí)別與消歧,國內(nèi)已經(jīng)有了很多相關(guān)的研究。
有學(xué)者采用基于規(guī)則匹配或概率統(tǒng)計(jì)進(jìn)行研究:王寧等采用建立規(guī)則的方法對(duì)中文金融信息中公司名稱的組成方式與特征進(jìn)行了深入的分析[1]。張小衡等就中文機(jī)構(gòu)名稱尤其是中文高校名稱采用基于規(guī)則的方式進(jìn)行實(shí)體識(shí)別[2]。肖計(jì)劃就地名和地名語料庫采用了概率統(tǒng)計(jì)的方法來進(jìn)行識(shí)別與匹配[3]。
有的學(xué)者采用基于最大熵模型和基于CRF(條件隨機(jī)場)來研究命名實(shí)體:YiFeng Lin等人在生物醫(yī)學(xué)領(lǐng)域利用基于最大熵模型進(jìn)行實(shí)體識(shí)別[4]。張祝玉等研究了使用CRF進(jìn)行實(shí)體識(shí)別的有效性[5]。何炎祥等采用了CRF和規(guī)則相結(jié)合的方法對(duì)地名實(shí)體進(jìn)行識(shí)別[6]。劉凱就中醫(yī)病歷中的實(shí)體采用了CRF模型[7]。
有的學(xué)者采用HMM(隱馬爾可夫模型)來研究命名實(shí)體:王丹等在利用HMM以詞性做觀察值避行初步實(shí)體識(shí)別之后,構(gòu)建拼音同指關(guān)系庫來識(shí)別潛在實(shí)體[8]。俞鴻魁等則提出了一種基于層疊HMM的中文實(shí)體一體化識(shí)別方法[9]。樂娟等對(duì)京劇機(jī)構(gòu)實(shí)體采用了結(jié)合Viterbi 算法和規(guī)則樹HMM[10]。李幸等提出了一種層次化句法分析方法,統(tǒng)計(jì)提取了關(guān)于標(biāo)點(diǎn)符號(hào)的語法規(guī)則以及相應(yīng)的分布信息,從而降低了實(shí)體消歧的難度[11]。
上述學(xué)者對(duì)命名實(shí)體研究都有不同的研究對(duì)象,但是很少學(xué)者對(duì)微博中命名實(shí)體進(jìn)行研究,所以就中文微博這種不超過140個(gè)字短文本中的實(shí)體消歧和實(shí)體鏈接進(jìn)行專題研究。受到王寧等[1]和張小衡等[2]在命名實(shí)體研究中建立規(guī)則的啟發(fā),建立了正則表達(dá)式規(guī)則、采用百度百科跳轉(zhuǎn)、通過人名地名專家?guī)煊成鋵?duì)待測實(shí)體進(jìn)行預(yù)處理。受到王丹等[8]在命名實(shí)體識(shí)別中關(guān)注詞性的做法的啟發(fā),通過ICTCLAS對(duì)待測實(shí)體所在微博文本進(jìn)行分詞處理,只保留名詞。針對(duì)命名實(shí)體識(shí)別,本文單獨(dú)提出結(jié)合了TF-IDF算法和Fast-Newman聚類算法的實(shí)體消歧算法。
針對(duì)中文微博中實(shí)體消歧和鏈接,工作整體流程如圖1所示。首先待測實(shí)體進(jìn)入這個(gè)系統(tǒng)后,要通過策略1、策略2、策略4,最后得到最終的規(guī)范名稱組。然后進(jìn)入策略5,當(dāng)遇到待測實(shí)體有多個(gè)義項(xiàng)時(shí)再采取策略6和策略7,最后返回待測實(shí)體在知識(shí)庫中主鍵或NIL。
圖1 多策略中文微博實(shí)體消歧和鏈接知識(shí)庫整體流程
2.1數(shù)據(jù)來源
涉及到的數(shù)據(jù)分為兩類,一類是待測實(shí)體和對(duì)應(yīng)微博、知識(shí)庫,另一類是百度百科文本、新浪微博文本。
待測實(shí)體和知識(shí)庫主要來自NLP&&CC2013官方測評(píng)數(shù)據(jù)中的待測實(shí)體和對(duì)應(yīng)微博、知識(shí)庫,待測實(shí)體和對(duì)應(yīng)的微博都來自新浪微博。前者一共包括1274個(gè)待測實(shí)體,而在實(shí)際測評(píng)中主辦方只針對(duì)前826個(gè)待測實(shí)體進(jìn)行測試。而知識(shí)庫中一共包含了44 492個(gè)實(shí)體。但是這些待測實(shí)體往往存在許多噪聲,另外知識(shí)庫中也有不正確的數(shù)據(jù),具體情況如表1所示。百度百科文本和新浪微博文本是用來對(duì)微博中的實(shí)體進(jìn)行消歧的,都是通過網(wǎng)頁爬蟲獲取的,以txt文件形式存放在本地。
表1 中文微博文本知識(shí)庫文本噪聲類型、說明及舉例
2.2策略1:正則表達(dá)式處理
從CCF測評(píng)數(shù)據(jù)中得到的實(shí)體的形式是相當(dāng)混亂的,如表1所示,所以對(duì)給出的待測實(shí)體進(jìn)行規(guī)范化處理就很有必要,受到王寧等[1]和張小衡等[2]在命名實(shí)體研究中建立規(guī)則的啟發(fā),通過正則表達(dá)式去掉實(shí)體中的標(biāo)點(diǎn)符號(hào)以及將外國人名中間的符號(hào)規(guī)范為·(例如書名號(hào)、感嘆號(hào)等,例如“<霸王別姬>”規(guī)范為“霸王別姬”和“本·拉登”規(guī)范為“本·拉登”)。
2.3策略2:百度百科搜索跳轉(zhuǎn)
在策略1完成之后,利用百度百科搜索跳轉(zhuǎn),爬去百度百科不同義項(xiàng)的百科頁面的title以獲取規(guī)范名稱組。例如“柯南”這一實(shí)體,柯南在百度百科中有5個(gè)義項(xiàng),分別獲取這5個(gè)義項(xiàng)的title然后取重后得到“‘柯南·奧布萊恩’、‘名偵探柯南’、‘阿瑟·柯南·道爾’、‘柯南’、‘江戶川柯南’”這一組規(guī)范名稱組,同時(shí)英文實(shí)體轉(zhuǎn)化為中文實(shí)體也是在這一步中完成的(例如“eagles”規(guī)范為老鷹樂隊(duì))。具體情況如表2所示。
表2 百度百科跳轉(zhuǎn)對(duì)待測實(shí)體預(yù)處理舉例
2.4策略3:分詞及去停用詞處理
采用了中科院張華平博士開發(fā)的漢語詞法分析系統(tǒng)ICTCLAS對(duì)文本數(shù)據(jù)進(jìn)行分詞及詞性標(biāo)注[12]。之所以使用ICTCLAS分詞工具對(duì)微博文本進(jìn)行分詞處理,是因?yàn)镮CTCLAS分詞效果好和ICTCLAS具有詞性標(biāo)注功能。然后只采用具有實(shí)際意義的名詞作為保留詞,其他如形容詞、副詞、介詞等詞語均被視為停用詞而去掉。
2.5策略4:人名和地名實(shí)體專家?guī)斓挠成?/p>
在實(shí)體識(shí)別中經(jīng)常遇到人名實(shí)體處理、地名實(shí)體處理等問題,這就造成了數(shù)據(jù)嚴(yán)重稀疏、知識(shí)庫無法檢索等問題。吳友政引入了專家知識(shí)來規(guī)范實(shí)體[13],本文采用此方法構(gòu)建了人名實(shí)體專家?guī)?、地名?shí)體專家?guī)欤瑥亩_(dá)到了提高檢索命中率、消歧系統(tǒng)效率。
人名實(shí)體專家?guī)欤褐饕琋BA明星綽號(hào)、足球明星綽號(hào)等,如果當(dāng)前實(shí)體是某個(gè)人的綽號(hào),則人名實(shí)體專家?guī)鞎?huì)規(guī)范化實(shí)體,例如“大鯊魚”規(guī)范為“沙奎爾·奧尼爾”、“詹皇帝”規(guī)范為“勒布朗·詹姆斯”。
地名實(shí)體專家?guī)欤喊酥袊箨懼陛犑?、自治區(qū)、特區(qū)、省、市、縣。專家?guī)鞎?huì)將地名實(shí)體規(guī)范為帶地名后綴和不帶地名后綴的兩個(gè)實(shí)體,例如實(shí)體“泰順縣”會(huì)規(guī)范為“泰順縣”和“泰順”,實(shí)體“紅河谷景區(qū)”會(huì)規(guī)范為“紅河谷景區(qū)”和“紅河谷”。這里地名后綴為“省、開發(fā)區(qū)、風(fēng)景區(qū)”等。
2.6策略5:在優(yōu)化后的知識(shí)庫選擇性查找
知識(shí)庫中有不少的噪音,如表1所示的“雍正王朝”錯(cuò)分為皇帝類別,還出現(xiàn)了不同主鍵的條目對(duì)應(yīng)同一個(gè)命名實(shí)體的情況。所以對(duì)知識(shí)庫做了優(yōu)化,將知識(shí)庫中分類錯(cuò)誤的條目劃分到正確類別以及去除重復(fù)的條目。
把規(guī)范名稱組拿到優(yōu)化后的知識(shí)庫中做選擇性查找,這時(shí)候有三種情況:
① 知識(shí)庫中不存在這個(gè)實(shí)體,那么直接返回空(NIL);
② 知識(shí)庫中這個(gè)實(shí)體只有1個(gè)義項(xiàng),那么直接輸出實(shí)體在知識(shí)庫中的主健;
③ 知識(shí)庫中這個(gè)實(shí)體有多個(gè)義項(xiàng),那么此時(shí)要利用策略2中得到的待測實(shí)體對(duì)應(yīng)的名詞詞組進(jìn)入策略6(TF-IDF算法消歧)和策略7(Fast-Newman聚類)中對(duì)實(shí)體進(jìn)行消歧,最后最符合待測實(shí)體的義項(xiàng)在知識(shí)庫中的主健。
本小節(jié)包括2個(gè)消歧算法。分別是策略6結(jié)合百度百科的TF-IDF算法和策略7結(jié)合新浪微博的Fast-Newman聚類。因?yàn)镹LP&&CC2013官方給定的知識(shí)庫是由百度百科構(gòu)建,所以采用了結(jié)合百度百科的TF-IDF算法進(jìn)行基本消歧。但是由于知識(shí)庫中實(shí)體文本的過于專一性,又因?yàn)榇郎y實(shí)體都位于新浪微博中,所以采用了結(jié)合新浪微博的Fast-Newman聚類用來形成詞語簇進(jìn)行擴(kuò)展消歧。這2個(gè)算法都是用于實(shí)體鏈接知識(shí)庫遇到多義項(xiàng)時(shí)進(jìn)行消歧的,使得待測實(shí)體和知識(shí)庫中義項(xiàng)實(shí)體產(chǎn)生距離一個(gè)介于0到1之間的“距離”。然后兩者相加,產(chǎn)生一個(gè)介于0到2之間的“距離”,這個(gè)“距離”越靠近2則越說明該義項(xiàng)實(shí)體越接近待測實(shí)體。
3.1策略6:基于TF-IDF實(shí)體義項(xiàng)消歧算法
結(jié)合百度百科的TF-IDF算法進(jìn)行消歧的數(shù)據(jù)流如圖2所示。首先使用待測命名實(shí)體作為輸入數(shù)據(jù),先用規(guī)范化的命名實(shí)體去百度百科中搜索,從百度百科中返回不同的義項(xiàng)頁面。但是進(jìn)行消歧并不需所有義項(xiàng)頁面,只需要待測命名實(shí)體在百度百科對(duì)應(yīng)的義項(xiàng)頁面。舉個(gè)例,比如用待測命名實(shí)體E去百度百科中搜到T1、T2、T3、T4、T5、T6等義項(xiàng)的百度百科頁面,而待測命名實(shí)體E在知識(shí)庫中只有T1、T3、T6三個(gè)義項(xiàng),那么只需要提取T1、T3、T6這三個(gè)義項(xiàng)的百度百科頁面。接下來就是對(duì)提取得到的義項(xiàng)頁面進(jìn)行詞頻統(tǒng)計(jì),然后計(jì)算TF-IDF值,最后結(jié)合微博詞頻統(tǒng)計(jì)文本計(jì)算余弦距離。
圖2 TF-IDF算法整體流程
3.1.1構(gòu)建待消歧實(shí)體百科文本詞頻統(tǒng)計(jì)庫
對(duì)于待測實(shí)體E,它在知識(shí)庫中有T1,T2,…,Ti等義項(xiàng)。在百度百科中爬去對(duì)應(yīng)的T1,T2,…,Ti等義項(xiàng)的百科頁面中的正文,得到Text1,Text2,…,Texti。然后對(duì)其進(jìn)行分詞,通過去掉停用詞處理得到百科文本詞頻統(tǒng)計(jì)文本。在此以“猛龍”為例進(jìn)行說明,它在知識(shí)庫中有“球隊(duì)”、“電影”、“品牌”這3個(gè)不同義項(xiàng)。如圖3所示。
圖3 從百度百科爬去“實(shí)體”猛龍3個(gè)不同義項(xiàng)的文本
在獲得3個(gè)不同義項(xiàng)百度百科義項(xiàng)頁面后得到Text1、Text2、Text3這3個(gè)不同義項(xiàng)的百度百科正文文本,然后分別對(duì)Text1、Text2、Text3利用ICTCLAS進(jìn)行分詞處理,在去掉停用詞后統(tǒng)計(jì)所得詞語及其頻數(shù),其結(jié)果如圖4所示。
圖4 “猛龍”3個(gè)義項(xiàng)百科文本詞頻統(tǒng)計(jì)圖
3.1.2TF-IDF模型計(jì)算詞語權(quán)重
TF-IDF模型常用評(píng)估一個(gè)詞語對(duì)于一個(gè)文檔的重要程度,經(jīng)常應(yīng)用于搜索技術(shù)和信息檢索的領(lǐng)域。一個(gè)詞語TF-IDF值與它在文檔中出現(xiàn)頻數(shù)成正比,與它在語料庫中出現(xiàn)的頻率成反比。TF-IDF由TF詞頻和IDF逆向文件頻率相乘而得,對(duì)于詞語ti來說:
(1)
另外值得注意的是,如果詞語ti不在語料庫中那么式(1)中|{j:ti∈dj}|為0,那么會(huì)導(dǎo)致IDFj中分母為0,則無法計(jì)算出IDFj值。所以需要改進(jìn)為如下:
(2)
3.1.3向量空間中進(jìn)行實(shí)體消歧
對(duì)于待測實(shí)體E和對(duì)應(yīng)微博W,經(jīng)過ICTCLAS分詞取停用詞后得到詞語組“w1,w2,w3,w1,E,w2,w1,w4,……”,然后統(tǒng)計(jì)這一組詞語頻數(shù),并且移除待測實(shí)體e及其詞頻,于是得到微博W文本詞頻特征向量:
w1w2w3w4w5…
W=(m1,m2,m3,m4,m5…)
以待測實(shí)體“猛龍”的微博W“【熱火27連勝!】熱火勝猛龍、勝山貓、勝火箭……熱火各種的勝,并成為了NBA第二長連勝。錯(cuò)過了昨日《NBA最前線》的童鞋,沒關(guān)系,這里為你再次奉上熱火27連勝的完整回顧,很勁爆、很熱力?!睘槔ㄟ^上述方法可得微博W文本詞頻特征向量:
熱火NBA熱力回顧火箭山貓
W=(4,2,1,1,1,1)
假設(shè)待測實(shí)體E在知識(shí)庫中對(duì)應(yīng)T1、T2……等m個(gè)不同的義項(xiàng)。采用3.1.1 節(jié)中的方法構(gòu)建待消歧實(shí)體百科文本詞頻統(tǒng)計(jì)庫,根據(jù)詞語及詞頻得到這幾個(gè)不同義項(xiàng)的文本詞頻特征向量。再通過TF-IDF模型計(jì)算這幾個(gè)不同義項(xiàng)對(duì)應(yīng)的TF-IDF向量。
在得到待測實(shí)體E、義項(xiàng)T1、T2……的詞向量,然后通過余弦相似度公式[14]:
(3)
其中ωj,e是待測實(shí)體E對(duì)應(yīng)詞向量的第j個(gè)分量,ωj,t(i)是義項(xiàng)Ti對(duì)應(yīng)詞向量的第j個(gè)分量。依次計(jì)算E和T1、E和T2……的相似度,cos(E,Ti)越大越表明義項(xiàng)Ti符合待測實(shí)體E含義。
3.2策略7:基于Fast-Newman聚類實(shí)體義項(xiàng)消歧
Fast-Newman聚類消歧算法是利用海量微博信息,將微博文本進(jìn)行分詞處理,通過此算法,會(huì)得到待測命名實(shí)體不同義項(xiàng)的詞語簇,將此詞語簇作為待測命名實(shí)體消歧的擴(kuò)展數(shù)據(jù),因?yàn)槊恳粋€(gè)詞語簇能夠表示實(shí)體的義項(xiàng)。圖5為Fast-Newman聚類消歧的數(shù)據(jù)流圖,如圖6為對(duì)數(shù)據(jù)流圖中Fast-Newman聚類流程的詳細(xì)描述。
圖5 Fast-Newman聚類消歧數(shù)據(jù)流圖
圖6 Fast-Newman聚類消歧流程
3.2.1新浪微博文本的預(yù)處理
① 用第i個(gè)待測實(shí)體為關(guān)鍵詞,去新浪微博搜索大量微博并存放在文件夾D中,若一共獲取了j條微博,顯然有D={f1,f2,…,fj}。
② 對(duì)D里每一條微博進(jìn)行分詞處理,假設(shè)通過D文件夾。
算法 獲得詞語矩陣1:foreachmicroblogfi,j∈Ddo2: entity[]<-wordSegment(fi,j)//微博fi,j分詞提取名詞3: forp=1toSize(entity)-1do//Size(entity)為數(shù)組entity大小4: forq=1toSize(entity)-pdo5: x<-index_entity_map[entity[p]];//通過鍵值對(duì)映射找6: y<-index_entity_map[entity[q]];//到entity[p]的編號(hào)7: Mi[x][x]++;8: M[x][y]++;9: M[y][y]++;10: endfor11: endfor12:endfor
(4)
表[x][y]和數(shù)值大小與詞語y和詞語x關(guān)聯(lián)度
3.2.2主要流程
圖7 Fast-Newman算法聚類中詞語簇并列化過程圖
Fast-Newman算法[17]初始網(wǎng)絡(luò)為n個(gè)社團(tuán),開始每個(gè)節(jié)點(diǎn)都是獨(dú)立一個(gè)社團(tuán)。初始化開始有:
(5)
(6)
然后合并有邊相連的社團(tuán)同時(shí)計(jì)算有邊相連的社團(tuán)對(duì),并計(jì)算合并后的模塊度增量ΔQ=eij+eji-2aiaj=2(eij-aiaj)。依次迭代進(jìn)行,最后n個(gè)社團(tuán)在n次迭代中逐漸并列化,如圖8所示。
圖8 待測實(shí)體“猛龍”紐曼函數(shù)聚類結(jié)果圖
通過Fast-Newman算法聚類后,最后就會(huì)使每一個(gè)詞語歸并到簇ci中,i∈[1,K],K為簇的總個(gè)數(shù)。對(duì)所分得簇進(jìn)行分析并人工打上標(biāo)簽,即不同的簇對(duì)應(yīng)不用的該實(shí)體的不同義項(xiàng)。
3.2.3根據(jù)Jaccard相似度計(jì)算待測實(shí)體與義項(xiàng)相似性
Jaccard相似度[12]被定義為:
(7)
待測實(shí)體E在知識(shí)庫中對(duì)應(yīng)T1,T2,…等m不同的義項(xiàng)。通過Fast-Newman聚類得到關(guān)聯(lián)詞語簇為C1={c1,1,c1,2,…,c1,i}、C2={c2,1,c2,2,…,c2,j}……等m不同義項(xiàng)的詞語簇。同樣按照3.1.3節(jié)中文本詞頻特征向量方法得到在去掉待測實(shí)體E本身后微博文本自身的詞語簇為T={t1,t2,…,tj}。然后依次計(jì)算Ci和T的Jaccard相似度。若Ci使得Jd(Ci,T),k∈{1,2,…,m}取最大值,那么則說明義項(xiàng)Ti最匹配微博文本中待測實(shí)體E。
4.1評(píng)價(jià)標(biāo)準(zhǔn)
NLP&&CC2013對(duì)測評(píng)結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)有正確輸出、總準(zhǔn)確率、in-KB結(jié)果準(zhǔn)確率、NIL結(jié)果準(zhǔn)確率、in-KB結(jié)果召回率、NIL結(jié)果召回率、in-KB結(jié)果F值、NIL結(jié)果F值。其中F值是準(zhǔn)確率和召回率的調(diào)和平均數(shù)。In-KB結(jié)果表明實(shí)體在知識(shí)庫中查詢后知識(shí)庫中有與之相匹配的記錄,其中返回的結(jié)果是實(shí)體在知識(shí)庫中主健,形如“KBBD027673”;NIL結(jié)果表明們實(shí)體在知識(shí)庫中查詢后知識(shí)庫中沒有與之相匹配的記錄。以上評(píng)價(jià)標(biāo)準(zhǔn)的計(jì)算法公式如下,其中字母含義見表4所示。
表4 評(píng)價(jià)指標(biāo)公式中數(shù)據(jù)說明
4.2結(jié)果及分析
抽取了政治社會(huì)人名、娛樂體育人名、虛擬人名、中國地名、外國地名、教育機(jī)構(gòu)、企業(yè)機(jī)構(gòu)、政法機(jī)構(gòu)、娛樂體育機(jī)構(gòu)作為著重考察對(duì)象,且分別對(duì)應(yīng)著表5中第一列類別中的A、B、C、D、E、F、G、H、I。在826個(gè)待測實(shí)體中政治社會(huì)人名141個(gè)、娛樂體育人名188個(gè)、虛擬人名36個(gè)、中國地名109個(gè)、外國地名19個(gè)、教育機(jī)構(gòu)16個(gè)、企業(yè)機(jī)構(gòu)57個(gè)、政法機(jī)構(gòu)36個(gè)、娛樂體育機(jī)構(gòu)35個(gè),總共637個(gè),這幾類實(shí)體占實(shí)體比例為77.1%,可以體現(xiàn)實(shí)體實(shí)體識(shí)別的效果。表5為改進(jìn)后NLP&&2013測評(píng)中不同類型的實(shí)體識(shí)別準(zhǔn)確率、召回率、F值統(tǒng)計(jì)表。
從表5中可以看出,模型得到不同類別實(shí)體識(shí)別結(jié)果的準(zhǔn)確率基本都在90%以上,特別針對(duì)教育機(jī)構(gòu)識(shí)別率達(dá)到了100%,由此可見算法對(duì)實(shí)體消歧有具有較好的有效性、準(zhǔn)確性。 利用策略1到策略8的方法,對(duì)數(shù)據(jù)集進(jìn)行實(shí)體鏈接匹配。通過測試樣例數(shù)據(jù)以及相關(guān)實(shí)體微博數(shù)據(jù)進(jìn)行百科數(shù)據(jù)搜集與詞語聚類,建立消歧文本,通過實(shí)體消歧算法輸出結(jié)果在NLP&&CC2013測評(píng)中實(shí)體識(shí)別的準(zhǔn)確率為84.99%,名列第4[18]。
表5 NLP&&2013測評(píng)中不同類型實(shí)體識(shí)別準(zhǔn)確率、召回率、F值統(tǒng)計(jì)表
模型改進(jìn)之后準(zhǔn)確率提高到了91.40%,與評(píng)測方已知結(jié)果進(jìn)行比對(duì),準(zhǔn)確率、召回率以及F值均有提高,遠(yuǎn)高于評(píng)測的平均結(jié)果,部分指標(biāo)甚至超過了評(píng)測的最好結(jié)果,如表6所示。
從表6中可以看出,在改進(jìn)之后和測評(píng)相比in-KB和NIL的結(jié)果都有了明顯的提升了,其中正確數(shù)和準(zhǔn)確率等指標(biāo)已經(jīng)超過測評(píng)時(shí)位居第一的富士通研究與開發(fā)中心和測評(píng)時(shí)位居第二的西南交通大學(xué)思維與智慧研究所 。其中in-KB提升原因主要是采用了策略6和策略7消歧算法,找到的待測實(shí)體正確的對(duì)應(yīng)義項(xiàng)。比如例子中的“猛龍”,在沒有采用消歧算法前找到的是“電影猛龍”而不是“多倫多猛龍隊(duì)”??偟膩碚f,本文建立起的方法對(duì)微博中的命名實(shí)體消歧和命名實(shí)體鏈接具有很好的效果。
表6 實(shí)驗(yàn)縱向比較結(jié)果
當(dāng)下,微博作為新媒體強(qiáng)勢崛起,有關(guān)于中文微博的研究引起了各方的極大興趣。本文構(gòu)建了多策略的命名實(shí)體消歧和鏈
接流程,首先使用策略1(正則表達(dá)式處理)、策略2(百度百科搜索跳轉(zhuǎn))、策略4(人名地名實(shí)體映射)對(duì)待測實(shí)體做出有效的預(yù)處理,然后進(jìn)入策略5(在優(yōu)化后的知識(shí)庫中選擇性查詢)進(jìn)行命名實(shí)體到知識(shí)庫的鏈接,當(dāng)遇到有歧義的命名實(shí)體時(shí)采用策略6(TF-IDF算法)和策略7(Fast-Newman聚類算法)對(duì)有歧義的命名實(shí)體進(jìn)行消歧處理。通過上訴方法,在中文微博實(shí)體鏈接任務(wù)中取得了非常不錯(cuò)效果。
本文在基于中文微博實(shí)體消歧和鏈接方面做了一定的研究,還有很多工作有待進(jìn)一步完善并深入研究,歸納起來有以下幾點(diǎn):
(1) 對(duì)獲取的網(wǎng)頁百科資源及知識(shí)庫資源梳理工作效果還有待提高。因傳統(tǒng)關(guān)系數(shù)據(jù)庫分類不清晰,可在此基礎(chǔ)上引入語義關(guān)系,將不同類別下但又具有相關(guān)性的實(shí)體進(jìn)行語義鏈接處理,這樣在查詢檢索體現(xiàn)語義推理的特性。
(2) 采用多策略算法。單一算法的有效性與準(zhǔn)確性通過反復(fù)嘗試和驗(yàn)證,已充分優(yōu)化,但方法之間的組合上,方法結(jié)果的權(quán)重設(shè)置上還具有改善空間。
(3) TF-IDF算法所涉及的數(shù)據(jù)全部來自于百度百科,來源比較單一,而有些人名命名實(shí)體沒有被百度百科收錄。但是被維基百科、互動(dòng)百科等其他百科收錄。所以TF-IDF算法消歧文本還可以從維基百科、互動(dòng)百科等其他百科中擴(kuò)充。
[1] 王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識(shí)別[J].中文信息學(xué)報(bào),2002,16(2):1-6.
[2] 張小衡,王玲玲.中文機(jī)構(gòu)名稱的識(shí)別與分析[J].中文信息學(xué)報(bào),1997,11(4):21-31.
[3] 肖計(jì)劃.地名識(shí)別與匹配的概率統(tǒng)計(jì)方法[J].測繪科學(xué)技術(shù)學(xué)報(bào),2014,31(4):408-412.
[4] YiFeng Lin,TzongHan Tsai,WenChi Chou,et al.A Maximum Entropy Approach to Biomedical Named Entity Recognition[J].ProcediaTechnology,2012,6:379-386.
[5] 張祝玉,任飛亮,朱靖波.基于條件隨機(jī)場的中文命名實(shí)體識(shí)別特征比較研究[C]//第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集.北京:中國中文信息學(xué)會(huì),2008.
[6] 何炎祥,羅楚威,胡彬堯.基于CRF 和規(guī)則相結(jié)合的地理命名實(shí)體識(shí)別方法[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(1):179-185,202.
[7] 劉凱.基于條件隨機(jī)場的中醫(yī)病歷命名實(shí)體抽取方法研究[D].北京:北京交通大學(xué),2013.
[8] 王丹,樊興華.面向短文本的命名實(shí)體識(shí)別[J].計(jì)算機(jī)應(yīng)用,2009,29(1):143-145.
[9] 俞鴻魁,張華平,劉群.基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J].通信學(xué)報(bào),2006,27(2):87-94.
[10] 樂娟,趙璽.基于HMM的京劇機(jī)構(gòu)命名實(shí)體識(shí)別算法[J].計(jì)算機(jī)工程,2013,39(6):266-271.
[11] 李幸,宗成慶.引入標(biāo)點(diǎn)處理的層次化漢語長句句法分析方法[J].中文信息學(xué)報(bào),2006,20(4):8-15.
[12] http://ictclas.nlpir.org/.
[13] 吳友政.漢語問答系統(tǒng)關(guān)鍵技術(shù)研究[D].北京:中國科學(xué)院自動(dòng)化研究所,2006.
[14] Hector Garcia-Molina,Jeffrey D Ullman,Jennifer Widom.數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)[M].北京:機(jī)械工業(yè)出版社,2011.
[15] Chao Gao,Jinming Liu.Clustering-Based Media Analysis for Understanding Human Emotional Reaction in an Extreme Event[J].Foundations of Intelligent Systems,2012,7661:125-135.
[16] David Chavalarias,Jean-philippe Cointet.Bottom-up scientific field detection for dynamical and hierarchical science mapping,methodology and case study[J].Scientometrics,2008,75(1):37-50.
[17] Newman M E J.Fast algorithm for detecting community structure in networks[J].Physical review E,2004,69(066133):1-5.
[18] http://tcci.ccf.org.cn/conference/2013/dldoc/evres04.pdf.
ENTITY WORDS DISAMBIGUATION AND ENTITY LINKING WITH MULTI-STRATEGY IN CHINESE MICROBLOGS
Xiang YuGuo YunlongXu XiaoZeng WeigangLi Li*
(SchoolofComputerandInformationScience,SouthwestUniversity,Chongqing400715,China)
Nowadays,the social networks are highly developing.How to disambiguate the microblogging entities with equivocal meaning and to link the entities to knowledge base have become the research focus at present.The paper proposes multiple strategic schemes in regard to entity disambiguation and entity linking.First it uses ICTCLAS to make word segmentation on microblogging texts,and uses Baidu Baike and entity expert database to normalise the entities.Then the paper uses Baidu Baike information,microblogging data and network terms caught by the web crawler to construct the disambiguation text database,and combines TF-IDF algorithm and Fast-Newman clustering algorithm to disambiguate and link the entities.We tested the data fetched from Chinese microblog entity linking task in 2rd Natural Language Processing & Chinese Computation conference (NLP&CC 2013).In the assessment the accuracy rate achieved 84.99%,and further achieved 91.40% after the constant improve of the model.
Chinese microblogEntity disambiguationTF-IDFFast-Newman clustering
2015-03-23。國家自然科學(xué)基金項(xiàng)目(61170192)。向宇,本科生,主研領(lǐng)域:自然語言處理。郭云龍,碩士生。徐瀟,本科生。曾維剛,本科生。李莉,教授。
TP3
A
10.3969/j.issn.1000-386x.2016.08.003