基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別研究

2017-01-17 17:03張立凡

軟件工程 2016年11期

摘要：對(duì)于一條給定的句子，目標(biāo)詞識(shí)別就是識(shí)別出句子中能夠激起語(yǔ)義場(chǎng)景的目標(biāo)詞。針對(duì)目標(biāo)詞識(shí)別中的特征選擇問(wèn)題，本文把目標(biāo)詞識(shí)別任務(wù)看作是一個(gè)分類問(wèn)題，在傳統(tǒng)的詞法特征和上下文特征基礎(chǔ)上，加入了句法結(jié)構(gòu)特征設(shè)計(jì)特征模板，識(shí)別句子中的目標(biāo)詞。在漢語(yǔ)框架網(wǎng)的標(biāo)注語(yǔ)料集上進(jìn)行測(cè)試，實(shí)驗(yàn)結(jié)果表明，相比于傳統(tǒng)的詞特征，基于句法結(jié)構(gòu)分析的目標(biāo)詞識(shí)別率有顯著地提升。

關(guān)鍵詞：框架語(yǔ)義分析；目標(biāo)詞識(shí)別；句法結(jié)構(gòu)分析；漢語(yǔ)框架網(wǎng)

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A

1 引言（Introduction）

框架語(yǔ)義分析的任務(wù)是從語(yǔ)義角度，在給定的文本中自動(dòng)地識(shí)別目標(biāo)詞，為目標(biāo)詞分配框架，如果分配時(shí)有歧義，進(jìn)行框架排歧，最終識(shí)別出框架中的論元，為論元標(biāo)注語(yǔ)義角色。在整個(gè)任務(wù)中，首要解決的就是目標(biāo)詞的識(shí)別任務(wù)。例如，文本“根據(jù)周恩來(lái)的指示，賀龍等繞道香港去上海尋找黨中央?！钡目蚣苷Z(yǔ)義分析結(jié)果如圖1所示。要得到這個(gè)分析結(jié)果，首先要識(shí)別出文本的目標(biāo)詞“去”和“尋找”。

近年來(lái)，越來(lái)越多的學(xué)者關(guān)注框架語(yǔ)義分析在某些特定領(lǐng)域的應(yīng)用[1-3]。目前，與目標(biāo)詞識(shí)別任務(wù)相關(guān)的研究，主要有目標(biāo)詞擴(kuò)展和目標(biāo)詞識(shí)別兩方面的工作。針對(duì)目標(biāo)詞擴(kuò)展，Jahansson[4]與Das等[5]認(rèn)為待識(shí)別的目標(biāo)詞包含在例句和訓(xùn)練集詞表中，利用規(guī)則篩選目標(biāo)詞。文獻(xiàn)分別利用WordNet和SIM[6]詞典，識(shí)別和收集語(yǔ)義近似的目標(biāo)詞，實(shí)現(xiàn)目標(biāo)詞的擴(kuò)展。針對(duì)目標(biāo)詞識(shí)別，文獻(xiàn)[7]使用基于規(guī)則的目標(biāo)詞過(guò)濾方法進(jìn)行判定，若判定為非目標(biāo)詞，利用基于監(jiān)督學(xué)習(xí)的方法予以修正。文獻(xiàn)[8]利用分類模型，在特征模板中加入同義詞詞林編碼信息來(lái)識(shí)別句子中的核心目標(biāo)詞，但同義詞詞林信息的加入會(huì)導(dǎo)致識(shí)別性能下降。在上述文獻(xiàn)中，大多數(shù)是把句子中與目標(biāo)詞相近的詞都作為特征來(lái)進(jìn)行分類，而沒(méi)有考慮到句子結(jié)構(gòu)特征對(duì)目標(biāo)詞識(shí)別的影響。事實(shí)上，句子中的很多詞對(duì)目標(biāo)詞識(shí)別并沒(méi)有幫助，反而會(huì)給目標(biāo)詞識(shí)別帶來(lái)噪音，如何合適地選擇句子中的某些詞作為分類特征是目標(biāo)詞識(shí)別的一個(gè)研究重點(diǎn)。

本文利用句法結(jié)構(gòu)來(lái)抽取目標(biāo)詞識(shí)別的特征，結(jié)合分類模型，提出了如何選擇句子中合適的詞語(yǔ)作為特征的方法。這種方法利用句法依存分析的結(jié)果，分析句子中各個(gè)詞之間的依存關(guān)系和關(guān)系類型，去掉那些對(duì)目標(biāo)詞識(shí)別沒(méi)有作用的詞語(yǔ)，選擇句子中關(guān)鍵的詞作為特征來(lái)進(jìn)行識(shí)別目標(biāo)詞。

2 目標(biāo)詞識(shí)別模型（Target word identification model）

2.1 目標(biāo)詞識(shí)別任務(wù)形式化描述

對(duì)于一個(gè)待識(shí)別的文本，其中，表示文本中詞的個(gè)數(shù)。目標(biāo)詞識(shí)別，首先要識(shí)別出句子中的詞元，表示中的詞元個(gè)數(shù)。然后，在詞元中識(shí)別出目標(biāo)詞，表示中的目標(biāo)詞個(gè)數(shù)。

則目標(biāo)詞識(shí)別任務(wù)，可形式化地描述為

2.2 基本概念

框架[8]：框架是指與一些激活性語(yǔ)境相一致的結(jié)構(gòu)化范疇系統(tǒng)，它是儲(chǔ)存在人類認(rèn)知經(jīng)驗(yàn)中的圖式化情境，是理解詞語(yǔ)的背景和動(dòng)因。

詞元：在框架語(yǔ)義學(xué)中，詞通常被稱作為詞元。

目標(biāo)詞[8]：當(dāng)詞元在句子中能夠激起語(yǔ)義場(chǎng)景時(shí)，被稱為目標(biāo)詞。在一條包含多個(gè)目標(biāo)詞的句子中，如果某個(gè)目標(biāo)詞激起的框架及其在句中所支配的框架元素依存項(xiàng)相比其他框架更能完整表達(dá)該句的核心語(yǔ)義，該目標(biāo)詞即為核心目標(biāo)詞。

2.3 特征抽取

本文將目標(biāo)詞識(shí)別任務(wù)看作是一個(gè)分類問(wèn)題。解決分類問(wèn)題最重要的兩部分內(nèi)容是特征選擇和模型的選擇，本節(jié)重點(diǎn)介紹目標(biāo)詞識(shí)別任務(wù)中特征的選擇。本文利用句法結(jié)構(gòu)來(lái)提取目標(biāo)詞識(shí)別任務(wù)中的分類特征，以依存句法分析的結(jié)果為基礎(chǔ)，分析句子中與目標(biāo)詞存在依存關(guān)系的詞，去掉句子中有噪音影響的詞，從而提高識(shí)別的性能。

句子特征提取方法分為三步：

第一步，查找句子中的目標(biāo)詞。這一步主要是在詞元庫(kù)中抽取所有的詞元構(gòu)成候選詞元列表。針對(duì)一條輸入的句子中，句子經(jīng)分詞后，句子中的詞逐個(gè)在候選詞元列表中進(jìn)行匹配，若匹配成功，則標(biāo)記為目標(biāo)詞。

第二步，對(duì)句子進(jìn)行句法分析，得到依存弧和關(guān)系類型。本文對(duì)句子句法分析利用依存句法分析工具，句子經(jīng)依存句法分析后，可得到句子中各個(gè)詞之間的依存關(guān)系和依存弧。

第三步，提取句子主干作為分類特征。以目標(biāo)詞為核心，在句子中抽取與目標(biāo)詞相關(guān)的句子主干特征，主要抽取的是句子中的主語(yǔ)、謂語(yǔ)和賓語(yǔ)成分。

針對(duì)目標(biāo)詞識(shí)別任務(wù)，本文抽取句子的詞法特征、上下文特征和句法特征。

（1）詞法特征。詞法特征主要抽取的是當(dāng)前詞的詞性、詞。

（2）上下文特征。主要考慮的是詞語(yǔ)搭配對(duì)目標(biāo)詞識(shí)別的影響，一般考查的是在位置上與目標(biāo)詞相近的詞。

（3）句法特征。句法特征抽取的是句子主干及其附屬成分。句子主干抽取的是句子的主謂賓。主語(yǔ)成分抽取的是句子中依存關(guān)系標(biāo)記為SBV的詞，謂語(yǔ)成分抽取的是句子中依存關(guān)系為VOB的詞。

例如，句子“這里四周有冰山阻隔，海上白霧茫茫，絕不會(huì)被人發(fā)現(xiàn)?！笔褂镁浞ǚ治龊蟮囊来骊P(guān)系圖如圖2所示。

目標(biāo)詞識(shí)別就是識(shí)別出這個(gè)句子中的目標(biāo)詞“阻隔”，具體的特征值如表1所示。

3 實(shí)驗(yàn)（Experiment）

3.1 數(shù)據(jù)來(lái)源

實(shí)驗(yàn)語(yǔ)料來(lái)源于漢語(yǔ)框架網(wǎng)[9]中的例句庫(kù)。本文選取漢語(yǔ)框架網(wǎng)例句庫(kù)中30個(gè)常用框架的例句進(jìn)行實(shí)驗(yàn)，共包含2542條句子和2813個(gè)目標(biāo)詞。

3.2 評(píng)價(jià)指標(biāo)

本文采用準(zhǔn)確率P（Precision）和Avg_P平均準(zhǔn)確率評(píng)價(jià)目標(biāo)詞的識(shí)別性能。為了避免實(shí)驗(yàn)過(guò)程中由語(yǔ)料規(guī)模小引起的過(guò)擬合問(wèn)題，采用3折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn)。

其中，在式（1）中A表示正確識(shí)別的核心目標(biāo)詞個(gè)數(shù)，B表示識(shí)別到的所有核心目標(biāo)詞個(gè)數(shù)，C表示實(shí)驗(yàn)的句子總數(shù)。在式（2）中，Pi表示使用第i份語(yǔ)料得到的準(zhǔn)確率。由于基于分類模型的核心目標(biāo)詞識(shí)別實(shí)驗(yàn)中，采用3折交叉驗(yàn)證，因此n的取值為3。

3.3 實(shí)驗(yàn)結(jié)果

本文將目標(biāo)詞識(shí)別看作是一個(gè)分類問(wèn)題，采用最大熵模型進(jìn)行實(shí)驗(yàn)。本節(jié)實(shí)驗(yàn)用張樂(lè)的最大熵工具包[9]和表2中的特征模板進(jìn)行目標(biāo)詞識(shí)別。特種模板中特征的抽取使用的是哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心的語(yǔ)言處理集成平臺(tái)LTP[10]。

為了驗(yàn)證窗口大小和最大熵模型的迭代次數(shù)對(duì)核心目標(biāo)詞識(shí)別性能的影響，使用表2中的T1模板，窗口大小分別設(shè)置為[-1，1]、[-2，2]和[-3，3]，迭代次數(shù)設(shè)置范圍為[50，500]，相鄰迭代次數(shù)相差50，并與工具包中的默認(rèn)參數(shù)30做對(duì)比。具體的結(jié)果如圖3所示。

從圖3中可以看出，窗口大小為[-1，1]的時(shí)候識(shí)別性能最好，且迭代次數(shù)為100的時(shí)候，實(shí)驗(yàn)結(jié)果基本趨于穩(wěn)定。因此，在后續(xù)的實(shí)驗(yàn)中，窗口大小設(shè)定為[-1，1]，最大熵模型的迭代次數(shù)設(shè)定為100。

上述實(shí)驗(yàn)證明，采用句法結(jié)構(gòu)分析的方法抽取句子特征，能夠達(dá)到較高的識(shí)別率。但由于采用的訓(xùn)練語(yǔ)料比較小，限制了模型的性能。同時(shí)，從實(shí)驗(yàn)結(jié)果可以看出，系統(tǒng)對(duì)于單一的主干成分，如句子的主語(yǔ)，識(shí)別的效果不是很好，主要原因是單一的句子主干成分不能完整地表示整個(gè)句子的語(yǔ)義。

4 結(jié)論（Conclusion）

利用句法結(jié)構(gòu)分析得到的特征識(shí)別句子中的目標(biāo)詞，實(shí)驗(yàn)證明是有效可行的。在訓(xùn)練語(yǔ)料較小的情況下，模型取得了比較高的識(shí)別準(zhǔn)確率。由于單個(gè)主干成分在句子中起到的作用不大，因此識(shí)別性能不顯著。當(dāng)主干成分與基本特征組合識(shí)別目標(biāo)詞時(shí)，句子主干能較完整地表示整個(gè)句子的語(yǔ)義，因此識(shí)別效果較好。在以后的研究中，將不斷地?cái)U(kuò)充質(zhì)量較高的語(yǔ)料，改善數(shù)據(jù)稀疏，豐富例句庫(kù)。同時(shí)，將嘗試加入語(yǔ)義特征，提升目標(biāo)詞識(shí)別的性能。

參考文獻(xiàn)（References）

[1] Dipanjan Das，Desai Chen.Frame-Semantic Parsing[J].Computational Linguistics，2014，40（1）：9-56.

[2] A Lakhfif，MT Laskri.A Frame-Based Approach for Capturing Semantics from Arabic Text for Text-to-Sign Language MT[J].International Journal of Speech Technology，2016，19（2）：1-26.

[3] AO Bayer，G Riccadri.Semantic Language Models with Deep Neural Networks[J].Computer Speech & Language，2016，40：1-22.

[4] RICHARD Johansson，PIERRE Nugues.LTH：Semantic Structure Extraction Using Nonprojective Dependency Trees[C].Proceedings of the 4th International Workshop on Semantic Evaluation.Stroudsburg：Association for Computational Linguistics，2007：227-230.

[5] DIPANJAN Das，et al.Probabilistic Frame-Semantic Parsing[C].Human Language Technologies：the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.Stroudsburg：Association for Computational Linguistics，2010：948-956.

[6] LIN Dekang.Automatic Retrieval and Clustering of Similar Words[C].Proceedings of the 17th International Conference on Computational Linguistics-Volume2.Stroudsburg：Association for Computational Linguistics，1998：768-774.

[7] 陳亞?wèn)|，等.面向框架語(yǔ)義分析的目標(biāo)詞自動(dòng)識(shí)別方法[J].山東大學(xué)學(xué)報(bào)（理學(xué)版），2015（7）：45-53.

[8] 石佼，李茹，王智強(qiáng).漢語(yǔ)核心框架語(yǔ)義分析[J].中文信息學(xué)報(bào)，2014（6）：48-55.

[9] 劉開(kāi)瑛.漢語(yǔ)框架語(yǔ)義網(wǎng)構(gòu)建及其應(yīng)用技術(shù)研究[J].中文信息學(xué)報(bào)，2011（25）：46-53.

[10] 張樂(lè).最大熵工具包MaxEnt（2004）.http：//homepage.inf.ed.ac.uk/s0450736/maxent_toolkit.html.

作者簡(jiǎn)介：

張立凡（1987-），女，碩士，助教.研究領(lǐng)域：中文信息處理，人工智能與模式識(shí)別.

軟件工程2016年11期

軟件工程的其它文章: 基于信息隱藏技術(shù)的數(shù)字水印系統(tǒng)模型設(shè)計(jì); 基于WebService的固井?dāng)?shù)據(jù)庫(kù)管理系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā); 基于NDIS過(guò)濾驅(qū)動(dòng)防火墻的設(shè)計(jì)和實(shí)現(xiàn); 基于主動(dòng)節(jié)點(diǎn)的跨平臺(tái)網(wǎng)絡(luò)監(jiān)控系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn); Illustrator平面設(shè)計(jì)的研究與實(shí)踐; 慕課和參與式教學(xué)引導(dǎo)的軟件測(cè)試教學(xué)實(shí)踐