蘇州大學計算機科學與技術學院 江蘇 蘇州 215000
自進入信息時代以來,互聯網技術蓬勃發(fā)展,需要處理的文本信息逐漸增多,為了進一步強化對文本內容的理解,需要相關研究人員結合命名實體進行深入探索。而所謂命名實體,主要指以人名、地名為主的名稱,或以時間、日期為主的表達式等一系列具有明確語義信息文本、字詞或短語。通過對文本中的實體進行識別,能夠為人們進一步了解文本奠定基礎,為機器更加深入的處理文本實體和含義提供保障[1]。
中文命名實體識別是研究和處理自然語言的關鍵方向,也是分詞系統(tǒng)、實體連接系統(tǒng)以及文本摘要系統(tǒng)中不可或缺的組成部分。近年來,隨著網絡進程的不斷深入,網絡文本與日俱增,在一定程度上增加了文本信息處理的工作量,使得人們對文本自動化處理產生了迫切需求。
以上提到,命名實體是指具有明確語義的專有名詞,其中包括稱呼、表達式以及數量詞語等。在研究特定的命名實體過程中,需要結合實際場景確定其具體含義。
人名作為明明實體中的重要組成之一,是一個較為特殊的類別,相對于其他專有名詞而言,在識別方面具有一定難度。中文人名在識別中存在的難點具體可以體現在以下幾個方面:第一,外國人名在識別過程中可以將首字母大寫作為標志,而中文人名識別則沒有。第二,人名具有不可列舉特征。當前,只有極少部分的中文人名或昵稱可以在字典中找到,而大部分人名都需要專門識別。第三,中文姓名具有多樣化特征,格式無法統(tǒng)一,并且其中涉及大量音譯外國人名,在一定程度上增加了識別難度。第四,中文人名具有結構復雜特征,其中包括人名本身是一個詞語詞或其中一部分是一個詞語,在識別過程中容易產生歧義。例如:黎明、汪洋等本身成詞的人名,或王國維等部分成詞的人名。
組織機構名稱也是出現頻率較為頻繁,并且對文本含義起到重要影響的專有名詞之一。在中文短文本實體識別中,組織機構名稱識別難度較大。具體來說,由于組織機構名稱長短不一,并且存在嵌套或者縮寫等情況。因此,在組織名稱較長的文本識別過程中,可以通過先局部、在合并的方式進行識別,而后結合中文短文本中的前后關系,提取組織機構名稱的識別方法。
地名識別相對于人名識別和組織機構識別而言相對簡單。地名一般具有顯著特征,并且絕大多數地名都被收錄到字典中,并且與其他專有名詞相比,新增地名的可能性相對較低。
在研究命名實體識別過程中,雖然通過標記專有名詞,能夠進一步解專有名詞在文本中的類型及相關位置,但是無法為人們深入掌握名詞提供依據,對于中文短文本識別而言,理解和解釋專有名詞,才是識別命名實體的重要內容。
通過實體連接,可以用某個百科全書或知識庫文章中的條目,對專有名詞進行標記。由此可見,實體連接具備簡潔性和抽象性特征,通過給定一組查詢名詞或者相關背景,能夠使人們從已有知識庫中找到與文本識別向匹配的實體項,從而對專有名詞做出標記[2]。如果知識庫中沒有與文本相對應的實體向,則返回NIL。在此過程中需要注意,實體連接雖然是一種較為便捷的專有名詞解釋方法,但是更加適用于被復雜任務的自然語言處理系統(tǒng)。
另外,并非百科全書就一定具有全面性,其中也并非收錄所有實體。例如:在謀篇中文短文本中出現“李白”這一人名后,大多數人都會自然而然聯想到唐代詩人李白,在知識庫中雖然有唐代詩人李白的相關條目,但是文本中所指的“李白”,也可能知識普通人群中的一員,此時,需要將這一專有名詞標記為NIL,表示知識庫中沒有對這一實體進行描述的內容。
想要進一步解決實體識別與實體鏈接問題,研究人員廣泛應用了管道體系。具體來說,研究人員利用一個命名實體識別系統(tǒng),對專用名詞的具體位置和類型進行標示。而后用實體鏈接系統(tǒng)深入研究專有名詞的位置和類型,從而對專用名詞在中文短文本中的意義進行揭示。與其他管道體系弊端相同,這種方式也存在一定的不足之處,即在實體識別系統(tǒng)中存在的錯誤,會持續(xù)傳遞到實體鏈接系統(tǒng)中[3]。具體體現在以下三點:第一,一旦實體識別存在錯誤,并且傳遞到練習系統(tǒng),則導致錯誤無法恢復和彌補。第二,中文短文本實體識別,無法利用實體連接系統(tǒng)中使用的相關信息。第三,實體識別系統(tǒng)與實體鏈接系統(tǒng)產生的輸出不一致。也就是說,實體鏈接系統(tǒng)標記的專有名詞與實體識別系統(tǒng)給出的類別標記不一致。
曾有專業(yè)研究人員明確提出,在中文短文本處理過程中,將系統(tǒng)的F1精度設置到0.64~0.67之間。如果實體識別結果正確,此時實體連接系統(tǒng)精度也相對較高。本文在此基礎上提出一種新型模型,用于命名實體識別處理和鏈接任務中[4]。另外,如果中文短文本具有短小、缺乏完整性、句法結構異常等缺陷,首先需要考慮知識庫中的信息,并對實體進行深入分析。
綜上所述,自然語言處理具有一定困難性和挑戰(zhàn)性,其主要原因在于自然語言表達具有多言行特點。簡單來說就是同一實體存在多種表達方式,并且多種表達方式的意思又具有一致性。因此,本文結合中文短文本實體識別和實體連接的相關介紹進行分析,通過對實體識別的位置和類型進行標示,利用實體連接在知識庫中找到相應條目,從而確定文本實體的含義,為人和機器進一步掌握詞義奠定基礎。