鄭秋生, 劉守喜
(中原工學院, 鄭州 450007)
?
基于CRF的互聯(lián)網(wǎng)文本命名實體識別研究
鄭秋生, 劉守喜
(中原工學院, 鄭州 450007)
摘要:針對互聯(lián)網(wǎng)文本形式多樣化造成的有效信息提取難度增加(尤其是命名實體識別方面)的問題,提出了一種統(tǒng)計和規(guī)則相結合的互聯(lián)網(wǎng)文本命名實體識別方法。首先進行文本規(guī)范化,然后使用CRF模型,以詞及詞性作為特征進行訓練,結合互聯(lián)網(wǎng)文本的日常性、隨意性和娛樂性等特點,以及若干匹配規(guī)則對文本進行命名實體識別。實驗結果表明,該方法的準確率、召回率和F值分別達到了94.76%、85.34%、89.80%,能夠有效地進行命名實體識別。
關鍵詞:命名實體識別;CRF;互聯(lián)網(wǎng)文本;匹配規(guī)則;特征
隨著互聯(lián)網(wǎng)的快速發(fā)展,人們的溝通方式已經(jīng)慢慢轉變,尤為顯著的是越來越依賴于互聯(lián)網(wǎng)應用。微博、網(wǎng)絡新聞、評論等紛紛出現(xiàn),對網(wǎng)民的生活影響非常大(由于信息量很大,提取這些文本中的重要信息非常關鍵)。命名實體識別(Named Entity Recognition)就是一種對文本分析并從文本中獲取有效信息的方式。
命名實體識別的任務主要是識別文本中的人名、地名、機構名等專有名詞[1]。命名實體識別是自然語言處理技術中信息抽取、句法分析、機器翻譯、問答系統(tǒng)等的重要基礎。
本文在分析獲取互聯(lián)網(wǎng)文本特點的基礎上,采用統(tǒng)計和規(guī)則相結合的方法[2]進行命名實體識別研究,通過統(tǒng)計和規(guī)則結合,減少規(guī)則方法的復雜性與盲目性,降低統(tǒng)計方法對語料庫規(guī)模的要求。
命名實體識別研究至今已經(jīng)有近20年的發(fā)展歷史,最初主要基于規(guī)則的方法進行命名實體識別,目前,基于統(tǒng)計的方法已經(jīng)成為自然語言處理領域的一項重要技術。不同的方法有不同效果,也都存在著一些缺陷。如何達到最好效果,學界至今仍在不斷研究。
對于命名實體識別的研究,國外先于國內。1991年,Rau在第七屆IEEE人工智能應用會議上發(fā)表有關實體識別的研究文章,1996年國內開始將命名實體識別作為一項評測任務,在MUC(Message Understanding Conference)會議上提出。
以中文和英文進行命名實體識別存在著很大的差異。就英文而言,基于規(guī)則的命名實體識別評測系統(tǒng)有謝菲爾德大學的LaSIE-II系統(tǒng)[3]、 NTU系統(tǒng)[4]等;基于統(tǒng)計的研究方面,Borthwich A[5]使用最大熵模型進行命名實體識別,以段落、詞匯、字典信息等作為所需要的特征。
在中文方面,王昊利用規(guī)則進行命名實體識別,從文本提取需要的表達式,嘗試構建完整的模式集[6];王寧等基于規(guī)則對金融領域的公司名進行識別,通過對公司名的結構特征以及文本的上下文信息進行分析,構建公司名知識庫,對文本進行兩次掃描來獲取識別結果[7];馮元勇以單字提示特征進行命名實體識別,以機構名和地名尾字作為小規(guī)模單字提示特征,僅使用了少量的字元組和詞性特征[8]。單獨基于統(tǒng)計或者規(guī)則的方法都有一些缺陷?;谝?guī)則的命名實體識別系統(tǒng)開發(fā)昂貴,覆蓋度差,不便于移植;基于統(tǒng)計的機器學習方法利用人工的標注語料進行訓練,對語言依賴小,代價小,可移植性好;但也有其相應缺點,如對人工標注的語料要求高,花費較大。
至今,命名實體識別對正規(guī)文本處理效果較好,但是在互聯(lián)網(wǎng)文本的研究方面仍然有待提高?;ヂ?lián)網(wǎng)文本較口語化,非常不規(guī)范,無法使用和正規(guī)文本相同的方法。因此,首先要對互聯(lián)網(wǎng)文本進行處理,得到處理結果后才能夠進一步分析,使識別的難度相應增加。
1命名實體識別方法
1.1文本規(guī)范化
因為互聯(lián)網(wǎng)文本內容不夠規(guī)范,其中一些字符對于文本分析來說并沒有實際意義,而且有可能造成對命名實體識別的干擾,所以,對其進行規(guī)范化非常重要。文本規(guī)范化的目的是為消除干擾、去噪,以便進一步有效地對命名實體識別[9]。
(1)分詞。利用nlpir分詞系統(tǒng)進行分詞,獲取文本的詞及詞性,了解每種詞性所對應的詞是否對實體識別有用。詞性主要包含名詞、副詞、形容詞等20多種。
(2)去除干擾。根據(jù)分詞所分的詞及詞性,對文本進行去噪處理,主要是根據(jù)詞性對其進行處理。對于命名實體識別出的人名、地名、組織名,除保留名詞和形容詞外,去除其他詞匯。表1為文本規(guī)范化的前后對比。
表1 文本規(guī)范化的對比
1.2條件隨機場(CRF模型)
條件隨機場(Conditional Random Fields,CRF)集合了最大熵模型[10]和HMM(Hidden Markov Model)模型[11]兩種模型的特點,是一種條件概率模型,由Lafferty J[12]等人在2001年提出,由分析最大熵模型得到,可以看作無向圖模型。
首先從文本中獲取特征,設置相關參數(shù),選取特征模板;然后對訓練語料進行訓練,得到一個model;再通過model對測試語料進行預測,得到所需結果。
(1)參數(shù)設置。有4個主要參數(shù)可以進行調整:
-aCRF-L2 規(guī)范化算法選擇;
-cfloat 參數(shù)用于調整擬合度,擬合度c值大小對應于擬合訓練數(shù)據(jù)程度的高低;
-fNUM 訓練數(shù)據(jù)中特征出現(xiàn)的次數(shù),使用至少NUM次;
-pNUM 提高訓練速度,主要使用多線程方法。
(2)特征模板。特征方面主要選取的是詞和詞性,一般選取一組模板(見表2)。
表2 特征模板
word[0,0]、pos[0,1]分別表示當前詞及其詞性。詞及其詞性以數(shù)列為表現(xiàn)形式。其中,行數(shù)有正負之分:正表示在當前詞下方;負表示在當前詞上方。
(3)語料集。語料集選取首先選已標注好的,還有對格式的要求,必須按照CRF模型訓練格式進行調整。
傳統(tǒng)的標記語料集形式都是把實體分開進行標記。例如:劉/nf德/nc華/ne,其中nf、nc、ne分別表示實體的開始詞、中間詞和結束詞。
本文提出一種新的標記方法。例如,上面提到的劉德華是一個人名,用新的標記方法處理后為:劉德華/n。對分開的實體進行處理,然后再標記,地名及機構名也一樣進行整體標記。這樣能夠有效提高標記的正確率。
1.3匹配規(guī)則
基于CRF模型的統(tǒng)計方法存在許多不足,因此,本文利用若干匹配規(guī)則對識別出的結果進行再次修正。通過對命名實體的構成結構和文本上下文信息分析,提取所需的結果。命名實體的構成結構主要包括內部關鍵詞、后綴特征詞、詞性序列等,局部上下文信息的分析主要是結合實體前后的用詞特點判斷出命名實體,用前后詞的作用來提高命名實體的準確性。
對于不同類型的實體,可選取不同的規(guī)則來建立規(guī)則庫。對訓練語料進行分析后,獲得若干個匹配規(guī)則,從中提取出規(guī)律性較強的規(guī)則。本文用到的規(guī)則主要有3大類:選擇規(guī)則、合并規(guī)則、邊界修正規(guī)則[13]。為了避免規(guī)則之間發(fā)生沖突,同時對規(guī)則的優(yōu)先級進行調整,這樣可達到最好的規(guī)劃庫建立結果。表3所示為3大類規(guī)則的舉例。
表3 對3大類規(guī)則舉例
2實驗結果及分析
2.1實驗語料
本文使用的實驗語料由哈爾濱工業(yè)大學智能技術與自然語言處理研究室提供,主要來源于2013年5月的報紙新聞和網(wǎng)絡新聞,總計160萬個詞,該語料已有標注。為了排除新聞發(fā)布時間造成所選取的實體重復出現(xiàn)頻率過高,從而導致其他實體出現(xiàn)概率小的問題,實驗選取了8 000篇作為實驗語料。
2.2評價標準
以準確率P(Precision)、召回率R(Recall)和F(F-measure)值[14]作為評價指標,具體定義如下:
2.3實驗結果
2.3.1與SEGTAG系統(tǒng)比較實體識別效果
對于已標注好的語料,分別用SEGTAG系統(tǒng)[15]和本文的方法進行命名實體識別,比較兩種方法的差異(見表4)。
表4 與SEGTAG系統(tǒng)進行實驗結果比較 %
比較上面兩種方法可看出,在命名實體識別的效果上,本文方法在準確率、召回率和F值上比使用SEGTAG系統(tǒng)都有相應提高。
2.3.2文本規(guī)范化對本文方法的影響
文本規(guī)范化對命名實體識別有很大的影響。對文本語料進行規(guī)范化的命名實體識別效果如表5所示。
表5 文本規(guī)范化后的識別效果 %
實驗結果表明,規(guī)范化對命名實體識別很重要。對命名實體識別的任務分析后,發(fā)現(xiàn)其中的人名、地名、組織名均由名詞或者形容詞組成,理論上,去除其他詞性能夠提高識別的效果,實驗結果也表明,去除其他詞性后識別效果有很大提高。
2.3.3加入規(guī)則后的影響
匹配規(guī)則的加入可進一步精確實驗結果。對使用CRF模型得到的實驗結果,加入上述提到的匹配規(guī)則,進行結果修正,所得結果如表6所示。
實驗表明,加入規(guī)則后,準確率、召回率和F值都有相應提高。對文本進行的分詞,在效果上獲得的結果與預期的結果存在差異,尤其是在組織名上,分詞所得的結果可能會把組織名分開變成兩個詞,這樣很容易降低識別的準確率。
表6 加入規(guī)則后的識別效果 %
規(guī)則的引入主要是對第一次識別后得到的結果進行修正,獲取更加準確的結果。使用中可結合互聯(lián)網(wǎng)文本的特點,引入上述規(guī)則。
由于分詞是命名實體識別的基礎,分詞的正確與否對識別十分重要。第一次識別使用CRF模型,識別出的數(shù)據(jù)存在一些錯誤;加入匹配規(guī)則,對結果進行二次修正,所得結果的準確率有了相應提高。
3結語
本文提出使用條件隨機場(CRF)并結合匹配規(guī)則的方法對互聯(lián)網(wǎng)文本進行命名實體識別。通過分析互聯(lián)網(wǎng)文本特點,對文本進行規(guī)范化,利用統(tǒng)計和規(guī)則相結合的方法進行識別。實驗獲得了良好效果,但仍然存在缺陷,識別效果有待提高。下一步要進行的工作包括擴大訓練語料規(guī)模、獲取更加簡單有效的規(guī)則以及對上下文信息的處理等。
參考文獻:
[1]Zhang X Y, Wang T, Chen H W. Research on Named Entity Recognition[J]. Computer Science, 2005,32(4): 44-48.
[2]何炎詳,羅楚威,胡彬堯.基于CRF和規(guī)則相結合的地理命名實體識別方法[J].計算機應用與軟件,2015,32(1):179-185.
[3]Humphreys K, Gaizauskas R, Azzam S,et al. NYU:Description of the LaSIE-II system As Used for MUC-7[C]//Proceeding of the 7th Message Understanding Conference(MUC-7). Washington:IEEE, 1998:145-150.
[4]Chen H H, Ding Y W, Cai S, et al.Description of the NTU System Used for MET2[C]//Proceeding of the 7th Message Understanding Conference(MUC-7). Washington: IEEE,1998:121-129.
[5]Borthwich A.Maximum Entropy Approach to Named Entity Recognition[D].NewYork:New York University,1999:18-25.
[6]王昊.基于層次模式匹配的命名實體識別模型[J].現(xiàn)代圖書情報技術,2007(5):62-68.
[7]王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識別[J].中文信息學報,2002,16(2):1-6.
[8]馮元勇, 孫樂, 李文波,等. 基于單字提示特征的中文命名實體識別快速算法[J].中文信息學報,2008,22(1):104-110.
[9]Wang D, Fan X H. Named Entity Recognition for Short Text[J]. Journal of Computer Applications,2009,29(1): 143-145.
[10]楊華. 基于最大熵模型的中文命名實體識別方法研究[D].哈爾濱:哈爾濱工程大學, 2008.
[11]Le J, Zhao X. Algorithm of Beijing Opera Organization Names Entity RecognitionBased on HMM[J].Computer Engineering, 2013,39(6):266-271.
[12]Lafferty J,Mccallum A,Pereira F.Conditional Random fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 8th International Conference of Machine Learning.New York: ACM,2001:282-289
[13]Jiang R H, Wang T, Tang J T. Named Entity Recognition For Micro-blog[J]. Computer & Digital Engineering, 2014,42(4): 647-651.
[14]Qiu Q Q,Miao D Q, Zhang Z F. Named Entity Recognition on Chinese Microblog[J]. Computer Science,2013,40(6):196-198.
[15]Xiang X W,Shi X D,Zeng H L. Chinese Named Entity Recognition System Using Statistics-based and Rules-based method[J]. Computer Applications, 2005, 25(10): 2404-2406.
(責任編輯:王長通)
Research of Web Text Named Entity Recognition Based on CRF
ZHENG Qiu-sheng, LIU Shou-xi
(Zhongyuan University of Technology, Zhengzhou 450007, China)
Abstract:Because of the form diversification of the web text, name entity is difficult. A method for the named entity recognition based on the combining of statistic and rules is put forward. First, the text is standardized, then using CRF model, words and part of speech as features are trained. Combined with the daily, random and entertainment of web text and a number of matching rules, text named entity recognition is carried out. The experimental results show that the method can effectively improve the named entity recognition and the precision, recall and F-score reach 94.76%,85.34% and 89.80%.
Key words:named entity; CRF; web text; match rule; feature
中圖分類號:TP391
文獻標志碼:A
DOI:10.3969/j.issn.1671-6906.2016.01.017
文章編號:1671-6906(2016)06-0070-04
作者簡介:鄭秋生(1965—),男,河南輝縣人,教授,碩士,主要研究方向為信息安全、數(shù)據(jù)資源管理、網(wǎng)絡安全。
基金項目:國家自然科學基金項目(U1304611);國家社會科學基金項目(15BTQ022);河南省教育廳科技資助項目(14A520-015)
收稿日期:2015-11-27