姜偉
摘?要:新興媒體時代的發(fā)展使大量的信息涌入了我們的視線和大腦,廣大網(wǎng)名用戶在面對網(wǎng)上的信息時需要找尋符合自己的資料,在這種情況下,信息抽取發(fā)展起來了。國內(nèi)的信息抽取技術(shù)起步時間較短,又由于中文信息的復雜性,所以在中文信息抽取領(lǐng)域,此技術(shù)還不是特別的成熟。在本文中,作者對基于規(guī)則的中文人名抽取技術(shù)進行了初步探索和研究。
關(guān)鍵詞:自然語言處理,信息抽取,命名實體識別,人名識別
中圖分類號:TP391 文獻標識碼:A 文章編號:1674-098X(2012)10(a)-0065-02
1 有關(guān)背景
信息時代的發(fā)展,我們每天都會面臨大量的信息,不同的用戶接觸的信息雖然不同,但用戶都需要從這些大量的信息中抽取出自己感興趣和有實際用途的信息,信息抽取技術(shù)在這種情況下慢慢地發(fā)展了起來。目前,信息抽取的主要任務是將文字中大量的信息準確地進行分詞、識別、整理,提取出人和事的關(guān)鍵特征詞,組織成關(guān)鍵語句,方便于查詢檢索,提高檢索效率。在互聯(lián)網(wǎng)時代,信息抽取技術(shù)是信息檢索技術(shù)的技術(shù)支撐,它既可以提高檢索效率,又能準確的抓取面對用戶有用的信息。例如,信息抽取系統(tǒng)可以從用戶感興趣的信息中分詞抽取出時間、地點、關(guān)鍵人物、原因等,將抽取結(jié)果保存在數(shù)據(jù)庫中,為用戶進一步查詢和分析提供支持和幫助。 信息抽取的關(guān)鍵任務包括:命名實體識別、句法分析、篇章分析與推理、知識獲取等。
本文主要對基于規(guī)則的中文人名識別與抽取技術(shù)進行了研究和實現(xiàn)。
2信息抽取的研究方式
目前,信息抽取主流的研究方式主要有三種:基于規(guī)則的、基于統(tǒng)計的和基于規(guī)則和統(tǒng)計相結(jié)合的方式。
2.1 基于規(guī)則的抽取方式
基于規(guī)則的信息抽取是一個基于學習經(jīng)驗和應用的兩個階段過程:規(guī)則的確定和應用確定的規(guī)則獲取用戶所需要的信息。信息的抽取的規(guī)則是建立在大量的學習經(jīng)驗和既定的某一領(lǐng)域?qū)崿F(xiàn)的,在經(jīng)驗學習的基礎(chǔ)上,確定漢語的語言結(jié)構(gòu)和常用文法結(jié)構(gòu),例如“名詞”+“動詞”,“主語”+“謂語”等形式,在這些規(guī)則確立之后,將保存在信息庫中以備匹配。在語句經(jīng)過分詞后,將這分詞后的結(jié)構(gòu)語句和信息庫中的規(guī)則相匹配,確定分詞后的語句結(jié)構(gòu),再經(jīng)過句法分析、篇章分析、知識獲取之后,抽取出語句中的有用信息,抽取的任務就完成了。所以,基于的規(guī)則信息抽取,規(guī)則本身的正確與否是提取成功的關(guān)鍵。
2.2 基于統(tǒng)計的抽取方式
基于統(tǒng)計的信息抽取是目前比較常用中文信息抽取技術(shù),也是比較準確和靈活的信息抽取技術(shù)。常用的統(tǒng)計模型有:馬爾科夫模型、隱馬爾科夫、最大熵模型等。其中,隱馬爾科夫模型已經(jīng)形成了比較健全的算法,具備較強的理論基礎(chǔ),很適合自然語言的處理。
2.3 基于規(guī)則和統(tǒng)計相結(jié)合的方式
基于規(guī)則和統(tǒng)計相結(jié)合的方式是一種比較理想的信息抽取技術(shù)?;谝?guī)則和基于統(tǒng)計的方法雖說都有各自的優(yōu)點,但是二者的缺點也不可避免。因此,專家提出了將二者結(jié)合起來的方法,二者混合方法通過啟發(fā)式規(guī)則可以減少識別問題的復雜性,與此同時,也通過統(tǒng)計模型增加系統(tǒng)的適應性,并減少由于數(shù)據(jù)庫的不完全而帶來的負面影響。
2.4 其他方法
當然,信息抽取發(fā)展這些年以來,專家們也提出除了以上三種方法之外的其他方法。例如利用機器學習的方法,先建立學習模型,訓練模型,再用訓練的模型對真實文本進行識別;還可以利用機器學習和其他統(tǒng)計模型相結(jié)合,或者多種機器學習的方法相結(jié)合來識別中文名等,這些方法各有優(yōu)缺點,在此不再贅述。
以上是信息抽取中比較常見的研究方式,筆者只對基于規(guī)則的方式進行了研究,其他方法在以后的學習和研究中會逐漸的深入下去。
3 基于規(guī)則的中文人名識別與抽取算法與實現(xiàn)
3.1 基于規(guī)則的信息抽取技術(shù)的階段
基于規(guī)則的信息抽取技術(shù)分為兩個階段:規(guī)則的確定和規(guī)則的應用,其中,規(guī)則的確定是此項技術(shù)的關(guān)鍵。規(guī)則提取的起步階段,研究人員大多采用人工編制規(guī)則的方法,由于人工編制規(guī)則準確度較高,所以在起始階段,此規(guī)則得到了廣泛的應用。但是,這種規(guī)則提取的方式也有很多弊端。首先,這種規(guī)則的提取工作由于牽扯到大量的自然語言處理知識和專業(yè)的領(lǐng)域知識,所以只能是具有很精熟的專業(yè)知識的人才才能做好,這對人才的獲取就提出了很大的挑戰(zhàn);其次,在規(guī)則提取和編制過程中,由于面對的是大量的文字信息,所以這個過程是比較費時、費力、耗神、枯燥,規(guī)則的提取容易出錯,從事規(guī)則提取的工作人員成本較高,提高了開發(fā)的技術(shù)成本。另外,手工提取規(guī)則的信息庫比較窄,人力不可能把所有的領(lǐng)域文字信息、所有的語言規(guī)則都提取出來,這是不現(xiàn)實的,所以,手工提取規(guī)則有其片面性和局限性,覆蓋面較低,系統(tǒng)的可移植性較差。因而在不斷的總結(jié)經(jīng)驗和摸索下,自動地獲取規(guī)則逐漸成為受開發(fā)人員歡迎的技術(shù),也逐漸成為一個較為普遍的研究課題。
規(guī)則的自動提取是從未被標注的文本信息中學習和提取規(guī)則,基本不需要專業(yè)的領(lǐng)域知識,基本不需要手工參與,避免了大量的工作和枯燥性,這樣便降低了開發(fā)的人力成本,可移植性很好,普遍性更強。
但是,由于起步時間較晚,且漢語語法規(guī)則的特殊性和復雜性遠遠超過英文,所以目前對中文信息抽取規(guī)則提取方法的研究并不是特別多。由于漢語的特異性,英文規(guī)則提取技術(shù)并不能照搬應用,所以需要研究新的提取方法。
3.2本文采用的規(guī)則提取算法
本文提供的算法是從信息中提取出人名。
信息數(shù)據(jù)庫中已經(jīng)保存了常用人名的姓氏和名字,供依據(jù)規(guī)則使用。
所提取的規(guī)則如下:人名:<姓氏>+<名字>
具體的算法描述如下:
步驟1:從標注的語料信息中輸入一個實例。
步驟2:對文本進行分詞、詞性標注。
步驟3:對分詞后的文本進行從左到右的掃描,查找姓氏。姓氏是識別姓名的觸發(fā)條件。若查到姓氏,則轉(zhuǎn)到步驟4;否則,轉(zhuǎn)到步驟6
步驟4:再向右掃描一個字,若所掃描到的字是信息庫中的名字,則抽取出姓氏和名字,轉(zhuǎn)到步驟6;若不是信息庫中的名字,則轉(zhuǎn)到步驟5。
步驟5:再向右掃描一個字。若連續(xù)掃描的兩個字為信息庫中的名字,則抽取出姓氏和名字。
步驟6:繼續(xù)對文本進行從左到右的掃描,若查找到姓氏,則返回步驟4。
步驟7:直至文本信息結(jié)束,掃描結(jié)束,輸出抽取的名字。
本文所采取的算法可以抽取出人名結(jié)構(gòu)僅為<姓氏>+<名字>,在實際抽取中肯定有很大的局限性。因為人名的結(jié)構(gòu)有很多種形式。主要可分為兩大類:
1)完整形式:即“姓氏+名字”的結(jié)構(gòu),其中姓氏里包含單姓和復姓,名字包含單字和雙字。
2)不完整形式:這又可分為5類:(1)前綴+姓氏,例如:小姜、老劉;(2)姓氏+后綴,例如:李總、張總、陳老;(3)姓氏+稱謂詞,例如:劉老師、陳市長,王先生;(4)有姓無名,例如:張來到王家后就當自家,從不客氣;(5)有名無姓,例如:政治文件中的錦濤同志。
另外,人名內(nèi)部可能組成一個詞。即姓氏與名字,或者名字與名字組成詞語,例如:張國立,賀國強,汪洋。人名首部也可能與其上文,人名尾部可能與其下文組合成詞語,例如:有一次開會,馬化騰坐在李彥宏和馬云中間,韓寒冷不丁的寫了一篇文章,鄧小平等同志等。在這些復雜的情況下,需要進一步自然語言的處理。自動分詞能夠區(qū)別出在特定的語句環(huán)境下,哪些是真正的人名,哪些只是語句中的詞語,所以,想抽取出文本信息中更多的姓名,使抽取出的姓名更準確,還可以進一步完善此基于規(guī)則的方法。
4結(jié)語
信息抽取有著非常廣泛的應用,搜索技術(shù)需要信息抽取技術(shù)作支撐才能進一步進行處理,最近新浪和百度合作的抓取相關(guān)微博的業(yè)務也是信息抽取技術(shù)的體現(xiàn)。信息抽取技術(shù)是從大量的信息中提取出對用戶有用的信息,存儲到數(shù)據(jù)庫中以備用戶進一步應用。信息抽取技術(shù)是人工智能自然語言處理領(lǐng)域面向?qū)嶋H應用產(chǎn)生的一個新分支。它從一段語言文字中抽取出用戶指定的事件和人物信息,形成一種數(shù)據(jù)存儲在數(shù)據(jù)庫中。此種技術(shù)雖有較強的可用性和靈活性,但是技術(shù)難度也更大,要掌握此種技術(shù),但就作者本人而言,還有一定的距離和難度,需要進一步學習和研究。
基于規(guī)則的信息抽取技術(shù)在抽取過程中,依托制定好的語言規(guī)則,在自動分詞之后只需要進行語言規(guī)則的配對就行,所以其優(yōu)勢在于抽取的速度更快,準確度較高,但不足之處也很明顯,即規(guī)則的應用只能在一個特定的領(lǐng)域,不能擴散到其他文字語言領(lǐng)域,系統(tǒng)可移植性差,領(lǐng)域改變之后,需要再進行規(guī)則的提取才能進行新領(lǐng)域信息的抽取。
本文中只是簡單的提及基于統(tǒng)計的信息抽取技術(shù),并沒有詳細的介紹和實現(xiàn),是因為自己在這方面還有很多需要學習,不足以形成理論性的知識,還需要在以后的學習中進一步深入研究和鍛煉。但沒有介紹并不代表作者不重視此項技術(shù),實際上實際應用中,基于統(tǒng)計的方法比基于規(guī)則的方法應用更為廣泛。所以以后作者想在這方面深入研究下去的話,基于統(tǒng)計方法的信息抽取技術(shù)是必須要學習的??傊?,基于規(guī)則的信息抽取是信息抽取的一個方面,將來這個領(lǐng)域還有更深層次的內(nèi)容需要學習。
本文在我校周法國老師的悉心指點下,經(jīng)過多次改動終于成型,在此特向周老師作出衷心感謝,感謝周老師的耐心指導和對學生成長的關(guān)心及包容。
參考文獻
[1]車萬翔,劉挺,李生.實體關(guān)系自動抽取[J].中文信息學報,2005.
[2]常迥.信息理論基礎(chǔ)[M].北京:清華大學出版社,1993.
[3]朱雪龍.應用信息論基礎(chǔ)[M].北京:清華大學出版社,2001.
[4]李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計算機工程與應用,2003.
[5]劉遷,焦慧,賈惠波.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J].計算機應用研究,2007(7).
[6]王小婕,常寶寶.自然語言處理技術(shù)[M].北京郵電大學出版社.
[7]王曉龍,關(guān)毅.計算機自然語言處理[M].清華大學出版社.