面向中文新聞?wù)Z料的事件規(guī)范化研究

2021-09-26 16:25謝紅，孫銳

電腦知識與技術(shù) 2021年20期

謝紅，孫銳

摘要：本文針對中文文本事件形態(tài)存在的不統(tǒng)一或省略的現(xiàn)象，提出一種基于自舉的事件規(guī)范化方法。在中文新聞?wù)Z料上的實(shí)驗(yàn)表明了方法的有效性。通過對事件規(guī)范化結(jié)果的分析明確了事件分析中的一些新難點(diǎn)，為后續(xù)事件相關(guān)任務(wù)研究提供了思路。

關(guān)鍵詞：原子事件;事件抽取;事件模板;事件規(guī)范化

中圖分類號：TP311? ? ? ? 文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2021）20-0139-02

1 引言

篇章學(xué)習(xí)任務(wù)大多以短語或語句作為單位，在學(xué)術(shù)界和工業(yè)界均取得較大的成功。從語義層面來看，詞或短語存在較大的歧義，而事件語義表達(dá)確切，無需消歧，故受到越來越多的重視，如事件知識圖譜[1]。

學(xué)術(shù)界對“事件”沒有統(tǒng)一的定義，但多表示為“謂詞+論元”結(jié)構(gòu)。論元個(gè)數(shù)不同，事件的形態(tài)不同。本文關(guān)注原子事件，其謂詞論元結(jié)構(gòu)為，分別對應(yīng)事件主語、謂語和賓語。近年來，這種事件結(jié)構(gòu)已被證明可有效地應(yīng)用到各種任務(wù)[2-3]。

中文是一種意合的語言，在文本中會(huì)大量存在著省略和開放靈活的語法結(jié)構(gòu)。主要表現(xiàn)在：1）原子事件的形式呈現(xiàn)多樣化。如，事件“人，受傷，nil”與事件“nil，受傷，人”語義相同，但語法結(jié)構(gòu)是不同的。直覺地，這種語義相似的事件可采用統(tǒng)一的形式來表示;2）存在一些事件因省略或由于觸發(fā)詞與論元的距離過遠(yuǎn)而丟失論元;3）部分事件會(huì)以名詞短語的形式出現(xiàn)。如，“四川火災(zāi)”是一個(gè)名詞短語，但實(shí)際上對應(yīng)原子事件“四川，發(fā)生，火災(zāi)”。

可以看出，中文原子事件因表達(dá)形式靈活，必然面臨較嚴(yán)重的稀疏問題，從而給事件語義分析帶來一定的制約。受語音合成和文本規(guī)范化的啟發(fā)，本文提出一種自舉（Bootstrapping）的事件規(guī)范化（Event Normalization）方法，在爬取的新聞?wù)Z料上對事件規(guī)范化進(jìn)行了統(tǒng)計(jì)分析，同時(shí)討論了當(dāng)前事件規(guī)范化面臨的問題。

2 相關(guān)工作

2.1 事件抽取

由于學(xué)術(shù)界沒有公開可用的原子事件標(biāo)注語料，原子事件的抽取主要有兩種無監(jiān)督的方案：一是基于規(guī)則的方法，另一種是基于關(guān)系抽取的方法。

基于規(guī)則的方法大多利用依存分析結(jié)果，例如，根據(jù)“nsubj”、“dobj”和“l(fā)oc”等確定事件觸發(fā)詞和主要論元。Hu等[4]將詞性為“VB”的動(dòng)詞視為事件觸發(fā)詞，借助依存分析尋找每個(gè)動(dòng)詞的論元。Glavas等[5]為構(gòu)建事件圖，定義了句法模板并根據(jù)依存關(guān)系提取事件論元。

基于關(guān)系抽取的方法利用了實(shí)體關(guān)系來表達(dá)事件論元的語義關(guān)聯(lián)。Balasubramanian等[6]將關(guān)系三元組中詞干化后的關(guān)系動(dòng)詞作觸發(fā)詞，詞干化后的各實(shí)體詞作為事件論元。Qiu等[7]首次在中文開放文本領(lǐng)域?qū)崿F(xiàn)實(shí)體關(guān)系的抽取算法，關(guān)注關(guān)系動(dòng)詞為核心的三元組。

2.2 文本規(guī)范化

文本規(guī)范化是將非規(guī)范詞轉(zhuǎn)化為規(guī)范詞，進(jìn)而得到規(guī)范文本的過程。大多數(shù)工作關(guān)注詞的規(guī)范化。對英文而言，可通過詞典來判斷詞的規(guī)范性。而對中文而言，由于詞的構(gòu)成形式的多樣性，規(guī)范化難度更大。一般而言，通過構(gòu)建非規(guī)范詞典，將規(guī)范化問題轉(zhuǎn)化為檢索問題來實(shí)現(xiàn)。

本文關(guān)注結(jié)構(gòu)化事件的規(guī)范化問題，即如何解決中文原子事件在表現(xiàn)形態(tài)上的差異，以緩解原子事件的稀疏性問題，以后續(xù)事件關(guān)系分析和統(tǒng)計(jì)提供良好的數(shù)據(jù)保障。

3 事件規(guī)范化

通過統(tǒng)計(jì)觀察發(fā)現(xiàn)，原子事件的分布符合一種假設(shè)：大規(guī)模語料中的事件如果有更寬的分布和更高的出現(xiàn)頻率，則可泛化成一個(gè)標(biāo)準(zhǔn)模板。例如，兩個(gè)候選事件“人，死亡，nil”和“nil，死亡，人”，假設(shè)前者在20個(gè)文檔中出現(xiàn)了123次，后者在18個(gè)文檔中出現(xiàn)了96次。則可以將前者作為標(biāo)準(zhǔn)模板，其它與之語義相似的事件均應(yīng)規(guī)范成該模板。由此可見，事件模板的生成基于事件信息，而事件的規(guī)范化則需要標(biāo)準(zhǔn)事件模板的指導(dǎo)。

本文采用自舉的事件規(guī)范化方法，具體流程如圖1所示，首先由初始化候選事件集合得到候選模板，對所有候選事件模板進(jìn)行置信度評估，由此產(chǎn)生標(biāo)準(zhǔn)模板并候選事件進(jìn)行修正或規(guī)范化，修正后的事件重新加入規(guī)范事件集合。此過程反復(fù)迭代，直至再無標(biāo)準(zhǔn)模板產(chǎn)生為止（所有候選模板置信度低于某一閾值）。

3.1 候選模板抽取

本文首先沿用基于規(guī)則的方法[7]來抽取候選事件，利用依存分析結(jié)果中的“nsubj”和“dobj”兩種關(guān)系。給定語句“民政局公布相關(guān)數(shù)據(jù)”，可得到兩個(gè)依存關(guān)系：“nsubj （公布，民政局）”和“dobj （公布，數(shù)據(jù)）”，可合并為事件“民政局，公布，數(shù)據(jù)”。

事件模板應(yīng)具有泛化能力，故選擇了同義詞詞林?jǐn)U展版為每個(gè)詞語提供語義標(biāo)簽，如“四川”可賦予地名標(biāo)簽“Di02B”，“地震”可賦予語義類別“Da09B”。由此，將候選事件按語義標(biāo)簽類別進(jìn)行統(tǒng)計(jì)，即可得到候選事件模板。

3.2 置信度評估

每個(gè)候選模板[p]采用下式進(jìn)行置信度評估：

[Score（p）=Efreq（p）×Dcover（p）=|i：ei∈p|E×|j：p∈dj|D]? ? ? ? ?（1）

其中，[Efreq（p）]表示事件在語料中的出現(xiàn)概率，[Dcover（p）]則代表事件出現(xiàn)的文檔概率，[|E|]和[|D|]分別代表事件集合和文檔集合大小。事件概率度量了模板的事件覆蓋度，而文檔概率則度量了模板的文檔覆蓋度，得分最高的即為標(biāo)準(zhǔn)模板。

3.3 事件規(guī)范化

在得到標(biāo)準(zhǔn)模板后，可直接對事件集合中的不規(guī)范事件進(jìn)行修正以達(dá)到規(guī)范化的目的。若事件對應(yīng)多個(gè)標(biāo)準(zhǔn)模板，可根據(jù)事件與模板間的語義距離以確定標(biāo)準(zhǔn)模板的選擇。

電腦知識與技術(shù)2021年20期

電腦知識與技術(shù)的其它文章: 微服務(wù)化二維碼防偽溯源系統(tǒng); 基于熵權(quán)TOPSIS的區(qū)域道路安全評價(jià)方法; 基于機(jī)器學(xué)習(xí)的聚類數(shù)據(jù)劃分算法的研究; Web系統(tǒng)服務(wù)器集群部署策略研究; 基于指針數(shù)組的高精度UCOSII軟件定時(shí)器改進(jìn)方案; “云貝健齒”小程序的設(shè)計(jì)與應(yīng)用