謝紅,孫銳
摘要:本文針對中文文本事件形態(tài)存在的不統(tǒng)一或省略的現(xiàn)象,提出一種基于自舉的事件規(guī)范化方法。在中文新聞?wù)Z料上的實(shí)驗(yàn)表明了方法的有效性。通過對事件規(guī)范化結(jié)果的分析明確了事件分析中的一些新難點(diǎn),為后續(xù)事件相關(guān)任務(wù)研究提供了思路。
關(guān)鍵詞:原子事件;事件抽取;事件模板;事件規(guī)范化
中圖分類號:TP311? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)20-0139-02
1 引言
篇章學(xué)習(xí)任務(wù)大多以短語或語句作為單位,在學(xué)術(shù)界和工業(yè)界均取得較大的成功。從語義層面來看,詞或短語存在較大的歧義,而事件語義表達(dá)確切,無需消歧,故受到越來越多的重視,如事件知識圖譜[1]。
學(xué)術(shù)界對“事件”沒有統(tǒng)一的定義,但多表示為“謂詞+論元”結(jié)構(gòu)。論元個(gè)數(shù)不同,事件的形態(tài)不同。本文關(guān)注原子事件,其謂詞論元結(jié)構(gòu)為
中文是一種意合的語言,在文本中會(huì)大量存在著省略和開放靈活的語法結(jié)構(gòu)。主要表現(xiàn)在:1)原子事件的形式呈現(xiàn)多樣化。如,事件“人,受傷,nil”與事件“nil,受傷,人”語義相同,但語法結(jié)構(gòu)是不同的。直覺地,這種語義相似的事件可采用統(tǒng)一的形式來表示;2)存在一些事件因省略或由于觸發(fā)詞與論元的距離過遠(yuǎn)而丟失論元;3)部分事件會(huì)以名詞短語的形式出現(xiàn)。如,“四川火災(zāi)”是一個(gè)名詞短語,但實(shí)際上對應(yīng)原子事件“四川,發(fā)生,火災(zāi)”。
可以看出,中文原子事件因表達(dá)形式靈活,必然面臨較嚴(yán)重的稀疏問題,從而給事件語義分析帶來一定的制約。受語音合成和文本規(guī)范化的啟發(fā),本文提出一種自舉(Bootstrapping)的事件規(guī)范化(Event Normalization)方法,在爬取的新聞?wù)Z料上對事件規(guī)范化進(jìn)行了統(tǒng)計(jì)分析,同時(shí)討論了當(dāng)前事件規(guī)范化面臨的問題。
2 相關(guān)工作
2.1 事件抽取
由于學(xué)術(shù)界沒有公開可用的原子事件標(biāo)注語料,原子事件的抽取主要有兩種無監(jiān)督的方案:一是基于規(guī)則的方法,另一種是基于關(guān)系抽取的方法。
基于規(guī)則的方法大多利用依存分析結(jié)果,例如,根據(jù)“nsubj”、“dobj”和“l(fā)oc”等確定事件觸發(fā)詞和主要論元。Hu等[4]將詞性為“VB”的動(dòng)詞視為事件觸發(fā)詞,借助依存分析尋找每個(gè)動(dòng)詞的論元。Glavas等[5]為構(gòu)建事件圖,定義了句法模板并根據(jù)依存關(guān)系提取事件論元。
基于關(guān)系抽取的方法利用了實(shí)體關(guān)系來表達(dá)事件論元的語義關(guān)聯(lián)。Balasubramanian等[6]將關(guān)系三元組中詞干化后的關(guān)系動(dòng)詞作觸發(fā)詞,詞干化后的各實(shí)體詞作為事件論元。Qiu等[7]首次在中文開放文本領(lǐng)域?qū)崿F(xiàn)實(shí)體關(guān)系的抽取算法,關(guān)注關(guān)系動(dòng)詞為核心的三元組。
2.2 文本規(guī)范化
文本規(guī)范化是將非規(guī)范詞轉(zhuǎn)化為規(guī)范詞,進(jìn)而得到規(guī)范文本的過程。大多數(shù)工作關(guān)注詞的規(guī)范化。對英文而言,可通過詞典來判斷詞的規(guī)范性。而對中文而言,由于詞的構(gòu)成形式的多樣性,規(guī)范化難度更大。一般而言,通過構(gòu)建非規(guī)范詞典,將規(guī)范化問題轉(zhuǎn)化為檢索問題來實(shí)現(xiàn)。
本文關(guān)注結(jié)構(gòu)化事件的規(guī)范化問題,即如何解決中文原子事件在表現(xiàn)形態(tài)上的差異,以緩解原子事件的稀疏性問題,以后續(xù)事件關(guān)系分析和統(tǒng)計(jì)提供良好的數(shù)據(jù)保障。
3 事件規(guī)范化
通過統(tǒng)計(jì)觀察發(fā)現(xiàn),原子事件的分布符合一種假設(shè):大規(guī)模語料中的事件如果有更寬的分布和更高的出現(xiàn)頻率,則可泛化成一個(gè)標(biāo)準(zhǔn)模板。例如,兩個(gè)候選事件“人,死亡,nil”和“nil,死亡,人”,假設(shè)前者在20個(gè)文檔中出現(xiàn)了123次,后者在18個(gè)文檔中出現(xiàn)了96次。則可以將前者作為標(biāo)準(zhǔn)模板,其它與之語義相似的事件均應(yīng)規(guī)范成該模板。由此可見,事件模板的生成基于事件信息,而事件的規(guī)范化則需要標(biāo)準(zhǔn)事件模板的指導(dǎo)。
本文采用自舉的事件規(guī)范化方法,具體流程如圖1所示,首先由初始化候選事件集合得到候選模板,對所有候選事件模板進(jìn)行置信度評估,由此產(chǎn)生標(biāo)準(zhǔn)模板并候選事件進(jìn)行修正或規(guī)范化,修正后的事件重新加入規(guī)范事件集合。此過程反復(fù)迭代,直至再無標(biāo)準(zhǔn)模板產(chǎn)生為止(所有候選模板置信度低于某一閾值)。
3.1 候選模板抽取
本文首先沿用基于規(guī)則的方法[7]來抽取候選事件,利用依存分析結(jié)果中的“nsubj”和“dobj”兩種關(guān)系。給定語句“民政局公布相關(guān)數(shù)據(jù)”,可得到兩個(gè)依存關(guān)系:“nsubj (公布,民政局)”和“dobj (公布,數(shù)據(jù))”,可合并為事件“民政局,公布,數(shù)據(jù)”。
事件模板應(yīng)具有泛化能力,故選擇了同義詞詞林?jǐn)U展版為每個(gè)詞語提供語義標(biāo)簽,如“四川”可賦予地名標(biāo)簽“Di02B”,“地震”可賦予語義類別“Da09B”。由此,將候選事件按語義標(biāo)簽類別進(jìn)行統(tǒng)計(jì),即可得到候選事件模板。
3.2 置信度評估
每個(gè)候選模板[p]采用下式進(jìn)行置信度評估:
[Score(p)=Efreq(p)×Dcover(p)=|i:ei∈p|E×|j:p∈dj|D]? ? ? ? ?(1)
其中,[Efreq(p)]表示事件在語料中的出現(xiàn)概率,[Dcover(p)]則代表事件出現(xiàn)的文檔概率,[|E|]和[|D|]分別代表事件集合和文檔集合大小。事件概率度量了模板的事件覆蓋度,而文檔概率則度量了模板的文檔覆蓋度,得分最高的即為標(biāo)準(zhǔn)模板。
3.3 事件規(guī)范化
在得到標(biāo)準(zhǔn)模板后,可直接對事件集合中的不規(guī)范事件進(jìn)行修正以達(dá)到規(guī)范化的目的。若事件對應(yīng)多個(gè)標(biāo)準(zhǔn)模板,可根據(jù)事件與模板間的語義距離以確定標(biāo)準(zhǔn)模板的選擇。