一種基于語(yǔ)義角色標(biāo)注的實(shí)體關(guān)系抽取模型

2016-06-03 09:11:02肖德華

中國(guó)新通信 2016年8期

肖德華

【摘要】物聯(lián)網(wǎng)實(shí)體關(guān)系抽取是研究物聯(lián)網(wǎng)智慧交互的關(guān)鍵問題之一，針對(duì)物聯(lián)網(wǎng)中的自然語(yǔ)言，當(dāng)前基于樹核函數(shù)的關(guān)系抽取方法因可選擇不同的樹結(jié)構(gòu)與核函數(shù)而被廣泛應(yīng)用，但其尚未很好地利用語(yǔ)義特征導(dǎo)致召回率不高。為解決此問題，本文提出了一種基于語(yǔ)義角色標(biāo)注的關(guān)系抽取模型。實(shí)驗(yàn)結(jié)果表明，使用語(yǔ)義角色標(biāo)注有助于提高關(guān)系抽取的性能。

【關(guān)鍵字】關(guān)系抽取語(yǔ)義角色卷積樹核函數(shù)

一、引言

智慧物聯(lián)網(wǎng)的關(guān)鍵是實(shí)現(xiàn)智慧交互，發(fā)現(xiàn)其實(shí)體間的交互關(guān)系便成為關(guān)鍵問題之一，而目前物聯(lián)網(wǎng)對(duì)自然語(yǔ)言信息研究不足。因此本文通過研究語(yǔ)義實(shí)體關(guān)系抽取來進(jìn)一步地增加物聯(lián)網(wǎng)的智慧性。

目前Collins的卷積樹核函數(shù)較其他樹核函數(shù)更能效捕獲結(jié)構(gòu)化特征，具有較高的準(zhǔn)確率和召回率，因此在關(guān)系抽取及自然語(yǔ)言處理的其它任務(wù)中獲得了廣泛的應(yīng)用[1]。但是其存在一個(gè)關(guān)鍵問題，即其未能充分使用語(yǔ)義信息。Liu等通過加入知網(wǎng)或同義詞信息的手段利用了語(yǔ)義信息，但此方法對(duì)于一詞多義等情況無法處理?；谏鲜鰡栴}，本文提出了一種基于語(yǔ)義角色標(biāo)注的卷積樹核模型。

二、一種基于語(yǔ)義角色標(biāo)注的卷積樹核模型

本文提出的基于語(yǔ)義角色標(biāo)注的卷積樹核模型工作流程為：首先，對(duì)經(jīng)過初步分詞標(biāo)注等處理后的語(yǔ)料進(jìn)行語(yǔ)義角色標(biāo)注，生成優(yōu)化后的SPT解析樹；然后，使用卷積樹核函數(shù)計(jì)算，最后將計(jì)算結(jié)果提交給分類器訓(xùn)練并進(jìn)行抽取測(cè)試，如圖1所示。

2.1語(yǔ)義角色標(biāo)注

語(yǔ)義角色標(biāo)注（Semantic Role labeling）是指對(duì)句子中謂詞所支配的詞語(yǔ)進(jìn)行語(yǔ)義成分分析，并自動(dòng)標(biāo)注各成分所扮演的語(yǔ)義角色。

如圖2所示，語(yǔ)義角色標(biāo)注主要包括三個(gè)任務(wù)：

1）識(shí)別出句子中的謂詞（一般為動(dòng)詞）；

2）對(duì)識(shí)別出的謂詞進(jìn)行語(yǔ)義的判定（如圖2中“打人”、“打游戲”中的“打”具有不同的語(yǔ)義）；

3）識(shí)別謂詞支配詞（論元），并對(duì)其的角色做出判定（施事、受事、時(shí)間、方式……）。

同樣是使用語(yǔ)義信息的方法，加入《同義詞詞林》或者《知網(wǎng)》的語(yǔ)義特征處理辦法只有在標(biāo)注同義詞或者近義詞時(shí)才能取得效果，但在圖2的例句中，兩個(gè)句子里的謂詞“打”在字面上沒有任何區(qū)別，所以依靠同義詞標(biāo)注不能準(zhǔn)確的標(biāo)注出兩句的差異，而語(yǔ)義角色標(biāo)注卻能很高效且準(zhǔn)確地解決這一類問題，通過對(duì)打字做謂詞語(yǔ)義的判定即可區(qū)分出兩個(gè)句子中實(shí)體關(guān)系的不同。

2.2最短路徑包含樹的改進(jìn)方法

最短路徑包含樹（SPT）雖然含有豐富的結(jié)構(gòu)化信息，但其含有較多的噪聲信息并且存在結(jié)構(gòu)化信息不完整的情況，本文在SPT基礎(chǔ)上提出了一種最短路徑包含樹的改進(jìn)方法。

本文主要使用刪除無用修飾結(jié)構(gòu)的方法來切割掉冗余實(shí)例結(jié)構(gòu)。冗余修飾結(jié)構(gòu)是指實(shí)體的修飾語(yǔ)如形容詞、冠詞等，由于這些修飾結(jié)構(gòu)距離實(shí)體很近，在生成SPT時(shí)會(huì)留下部分修飾語(yǔ)結(jié)構(gòu)，如果句子的主干比較完整，這些修飾信息對(duì)實(shí)體關(guān)系抽取幾乎沒有正面影響，反而使分類器的性能降低，所以要將SPT中對(duì)實(shí)體的修飾結(jié)構(gòu)進(jìn)行刪除。

謂語(yǔ)動(dòng)詞是非常重要的語(yǔ)義元素，很多交互關(guān)系可以依靠謂語(yǔ)動(dòng)詞體現(xiàn)。但是初始的SPT算法會(huì)在很多情況下切割掉本來有用的動(dòng)詞結(jié)構(gòu)。此外，如果沒有謂詞結(jié)構(gòu)則語(yǔ)義角色標(biāo)記就無法進(jìn)行，所以要恢復(fù)被誤刪的謂詞，使得語(yǔ)義角色可以順利標(biāo)注。

三、實(shí)驗(yàn)結(jié)果

本文的實(shí)驗(yàn)數(shù)據(jù)使用“搜狗實(shí)驗(yàn)室”語(yǔ)料精簡(jiǎn)版，擇取其中700篇文章，其中600篇作為訓(xùn)練語(yǔ)料，100篇作為測(cè)試語(yǔ)料；數(shù)據(jù)經(jīng)過百度NLPC平臺(tái)進(jìn)行預(yù)處理；選擇libSVM作為SVM分類器。

針對(duì)本文提出的卷積樹核關(guān)系抽取模型，主要通過準(zhǔn)確率（P），召回率（R）和綜合評(píng)價(jià)指標(biāo)（F-Measure：準(zhǔn)確率和召回率加權(quán)調(diào)和平均）來驗(yàn)證關(guān)系抽取的性能。本文的實(shí)驗(yàn)主要為卷積樹核模型引入同義詞信息和語(yǔ)義角色后的關(guān)系抽取性能驗(yàn)證；

表1 添加語(yǔ)義角色和同義詞信息的性能比較如表1所示，本文設(shè)計(jì)的卷積核樹模型在進(jìn)行語(yǔ)義角色標(biāo)注后，準(zhǔn)確率和召回率較加入同義詞信息的方法均有提升，證明在利用語(yǔ)義信息的方法上，語(yǔ)義角色性能強(qiáng)于同義詞信息。

四、總結(jié)與展望

本文在智慧物聯(lián)的背景下提出一種基于語(yǔ)義角色標(biāo)注的關(guān)系抽取方法，充分利用了角色語(yǔ)義信息，提升了卷積樹核模型的性能。不過該模型依然有待改進(jìn)之處：在生成最短路徑包含樹時(shí)，有動(dòng)詞會(huì)被誤刪，所以后續(xù)會(huì)進(jìn)一步優(yōu)化最短路徑樹算法。

參考文獻(xiàn)

[1] Collins M， Duffy N. Convolution kernels for natural language[C].Advances in neural information processing systems. 2001： 625-632.

[2]徐靖. 基于特征的中文名詞性謂詞語(yǔ)義角色標(biāo)注研究[D]. 蘇州大學(xué)， 2011.