• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向中文新聞?wù)Z料的事件規(guī)范化研究

      2021-09-26 16:25謝紅,孫銳
      電腦知識與技術(shù) 2021年20期

      謝紅,孫銳

      摘要:本文針對中文文本事件形態(tài)存在的不統(tǒng)一或省略的現(xiàn)象,提出一種基于自舉的事件規(guī)范化方法。在中文新聞?wù)Z料上的實(shí)驗(yàn)表明了方法的有效性。通過對事件規(guī)范化結(jié)果的分析明確了事件分析中的一些新難點(diǎn),為后續(xù)事件相關(guān)任務(wù)研究提供了思路。

      關(guān)鍵詞:原子事件;事件抽取;事件模板;事件規(guī)范化

      中圖分類號:TP311? ? ? ? 文獻(xiàn)標(biāo)識碼:A

      文章編號:1009-3044(2021)20-0139-02

      1 引言

      篇章學(xué)習(xí)任務(wù)大多以短語或語句作為單位,在學(xué)術(shù)界和工業(yè)界均取得較大的成功。從語義層面來看,詞或短語存在較大的歧義,而事件語義表達(dá)確切,無需消歧,故受到越來越多的重視,如事件知識圖譜[1]。

      學(xué)術(shù)界對“事件”沒有統(tǒng)一的定義,但多表示為“謂詞+論元”結(jié)構(gòu)。論元個(gè)數(shù)不同,事件的形態(tài)不同。本文關(guān)注原子事件,其謂詞論元結(jié)構(gòu)為,分別對應(yīng)事件主語、謂語和賓語。近年來,這種事件結(jié)構(gòu)已被證明可有效地應(yīng)用到各種任務(wù)[2-3]。

      中文是一種意合的語言,在文本中會(huì)大量存在著省略和開放靈活的語法結(jié)構(gòu)。主要表現(xiàn)在:1)原子事件的形式呈現(xiàn)多樣化。如,事件“人,受傷,nil”與事件“nil,受傷,人”語義相同,但語法結(jié)構(gòu)是不同的。直覺地,這種語義相似的事件可采用統(tǒng)一的形式來表示;2)存在一些事件因省略或由于觸發(fā)詞與論元的距離過遠(yuǎn)而丟失論元;3)部分事件會(huì)以名詞短語的形式出現(xiàn)。如,“四川火災(zāi)”是一個(gè)名詞短語,但實(shí)際上對應(yīng)原子事件“四川,發(fā)生,火災(zāi)”。

      可以看出,中文原子事件因表達(dá)形式靈活,必然面臨較嚴(yán)重的稀疏問題,從而給事件語義分析帶來一定的制約。受語音合成和文本規(guī)范化的啟發(fā),本文提出一種自舉(Bootstrapping)的事件規(guī)范化(Event Normalization)方法,在爬取的新聞?wù)Z料上對事件規(guī)范化進(jìn)行了統(tǒng)計(jì)分析,同時(shí)討論了當(dāng)前事件規(guī)范化面臨的問題。

      2 相關(guān)工作

      2.1 事件抽取

      由于學(xué)術(shù)界沒有公開可用的原子事件標(biāo)注語料,原子事件的抽取主要有兩種無監(jiān)督的方案:一是基于規(guī)則的方法,另一種是基于關(guān)系抽取的方法。

      基于規(guī)則的方法大多利用依存分析結(jié)果,例如,根據(jù)“nsubj”、“dobj”和“l(fā)oc”等確定事件觸發(fā)詞和主要論元。Hu等[4]將詞性為“VB”的動(dòng)詞視為事件觸發(fā)詞,借助依存分析尋找每個(gè)動(dòng)詞的論元。Glavas等[5]為構(gòu)建事件圖,定義了句法模板并根據(jù)依存關(guān)系提取事件論元。

      基于關(guān)系抽取的方法利用了實(shí)體關(guān)系來表達(dá)事件論元的語義關(guān)聯(lián)。Balasubramanian等[6]將關(guān)系三元組中詞干化后的關(guān)系動(dòng)詞作觸發(fā)詞,詞干化后的各實(shí)體詞作為事件論元。Qiu等[7]首次在中文開放文本領(lǐng)域?qū)崿F(xiàn)實(shí)體關(guān)系的抽取算法,關(guān)注關(guān)系動(dòng)詞為核心的三元組。

      2.2 文本規(guī)范化

      文本規(guī)范化是將非規(guī)范詞轉(zhuǎn)化為規(guī)范詞,進(jìn)而得到規(guī)范文本的過程。大多數(shù)工作關(guān)注詞的規(guī)范化。對英文而言,可通過詞典來判斷詞的規(guī)范性。而對中文而言,由于詞的構(gòu)成形式的多樣性,規(guī)范化難度更大。一般而言,通過構(gòu)建非規(guī)范詞典,將規(guī)范化問題轉(zhuǎn)化為檢索問題來實(shí)現(xiàn)。

      本文關(guān)注結(jié)構(gòu)化事件的規(guī)范化問題,即如何解決中文原子事件在表現(xiàn)形態(tài)上的差異,以緩解原子事件的稀疏性問題,以后續(xù)事件關(guān)系分析和統(tǒng)計(jì)提供良好的數(shù)據(jù)保障。

      3 事件規(guī)范化

      通過統(tǒng)計(jì)觀察發(fā)現(xiàn),原子事件的分布符合一種假設(shè):大規(guī)模語料中的事件如果有更寬的分布和更高的出現(xiàn)頻率,則可泛化成一個(gè)標(biāo)準(zhǔn)模板。例如,兩個(gè)候選事件“人,死亡,nil”和“nil,死亡,人”,假設(shè)前者在20個(gè)文檔中出現(xiàn)了123次,后者在18個(gè)文檔中出現(xiàn)了96次。則可以將前者作為標(biāo)準(zhǔn)模板,其它與之語義相似的事件均應(yīng)規(guī)范成該模板。由此可見,事件模板的生成基于事件信息,而事件的規(guī)范化則需要標(biāo)準(zhǔn)事件模板的指導(dǎo)。

      本文采用自舉的事件規(guī)范化方法,具體流程如圖1所示,首先由初始化候選事件集合得到候選模板,對所有候選事件模板進(jìn)行置信度評估,由此產(chǎn)生標(biāo)準(zhǔn)模板并候選事件進(jìn)行修正或規(guī)范化,修正后的事件重新加入規(guī)范事件集合。此過程反復(fù)迭代,直至再無標(biāo)準(zhǔn)模板產(chǎn)生為止(所有候選模板置信度低于某一閾值)。

      3.1 候選模板抽取

      本文首先沿用基于規(guī)則的方法[7]來抽取候選事件,利用依存分析結(jié)果中的“nsubj”和“dobj”兩種關(guān)系。給定語句“民政局公布相關(guān)數(shù)據(jù)”,可得到兩個(gè)依存關(guān)系:“nsubj (公布,民政局)”和“dobj (公布,數(shù)據(jù))”,可合并為事件“民政局,公布,數(shù)據(jù)”。

      事件模板應(yīng)具有泛化能力,故選擇了同義詞詞林?jǐn)U展版為每個(gè)詞語提供語義標(biāo)簽,如“四川”可賦予地名標(biāo)簽“Di02B”,“地震”可賦予語義類別“Da09B”。由此,將候選事件按語義標(biāo)簽類別進(jìn)行統(tǒng)計(jì),即可得到候選事件模板。

      3.2 置信度評估

      每個(gè)候選模板[p]采用下式進(jìn)行置信度評估:

      [Score(p)=Efreq(p)×Dcover(p)=|i:ei∈p|E×|j:p∈dj|D]? ? ? ? ?(1)

      其中,[Efreq(p)]表示事件在語料中的出現(xiàn)概率,[Dcover(p)]則代表事件出現(xiàn)的文檔概率,[|E|]和[|D|]分別代表事件集合和文檔集合大小。事件概率度量了模板的事件覆蓋度,而文檔概率則度量了模板的文檔覆蓋度,得分最高的即為標(biāo)準(zhǔn)模板。

      3.3 事件規(guī)范化

      在得到標(biāo)準(zhǔn)模板后,可直接對事件集合中的不規(guī)范事件進(jìn)行修正以達(dá)到規(guī)范化的目的。若事件對應(yīng)多個(gè)標(biāo)準(zhǔn)模板,可根據(jù)事件與模板間的語義距離以確定標(biāo)準(zhǔn)模板的選擇。

      丹巴县| 屏南县| 荆州市| 漠河县| 巍山| 沙河市| 巴里| 清流县| 民权县| 朝阳区| 象山县| 吉隆县| 清徐县| 诏安县| 禄劝| 金川县| 固始县| 柯坪县| 定南县| 青神县| 龙州县| 吴忠市| 和林格尔县| 安庆市| 宜章县| 江川县| 华亭县| 孟连| 南雄市| 牟定县| 湟源县| 河南省| 城口县| 兴国县| 康乐县| 八宿县| 肃北| 嘉荫县| 正镶白旗| 古浪县| 广安市|