基于語言模型的有監(jiān)督詞義消歧模型優(yōu)化研究

2014-02-27 06:34:03楊陟卓黃河燕

中文信息學(xué)報(bào) 2014年1期

楊陟卓, 黃河燕

(北京理工大學(xué) 北京市海量語言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心,北京 100081；北京理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100081)

1 引言

詞義消歧是確定多義詞在給定上下文語境中的意義，它是自然語言處理領(lǐng)域中重要的研究課題之一。相關(guān)研究表明，詞義消歧對(duì)機(jī)器翻譯、信息檢索、文本分析、自動(dòng)文摘、知識(shí)挖掘等多方面都具有十分重要的作用。

目前，基于語料庫的詞義消歧方法可分為有監(jiān)督和無監(jiān)督方法[1]。無監(jiān)督方法無需訓(xùn)練語料，可以有效克服數(shù)據(jù)稀疏問題，但是該方法的消歧效果卻不盡如人意，很難達(dá)到實(shí)用的目的。有監(jiān)督方法的消歧效果要遠(yuǎn)遠(yuǎn)優(yōu)于無監(jiān)督方法，但是該方法需要大量的高質(zhì)量的訓(xùn)練語料支持，而獲取大規(guī)模高質(zhì)量的訓(xùn)練語料費(fèi)時(shí)費(fèi)力，因此它存在較為嚴(yán)重的數(shù)據(jù)稀疏和數(shù)據(jù)獲取瓶頸問題。

在有限的標(biāo)注語料條件下，提高有監(jiān)督詞義消歧效果的有效途徑之一是充分利用句子中的各種特征，并且對(duì)這些特征進(jìn)行優(yōu)化。目前經(jīng)常使用的特征包括[2]：詞法層面的特征、語法層面的特征以及語義層面的特征。詞法層面的特征包含局部詞、局部詞性、局部詞及詞性、局部共現(xiàn)、詞袋和搭配特征。文獻(xiàn)[3]認(rèn)為對(duì)于不同的歧義詞，應(yīng)當(dāng)采用不同詞法層面的特征，并且提出一種自動(dòng)選擇詞義消歧模板特征的方法，該方法取得了不錯(cuò)的效果。語法層面的特征包括主謂關(guān)系、動(dòng)賓關(guān)系等。文獻(xiàn)[4]采用與歧義詞具有語法關(guān)系的詞語，作為特征訓(xùn)練分類模型。語義層特征主要包括實(shí)體信息和語義角色信息等。文獻(xiàn)[5]將詞義消歧和語義角色標(biāo)注兩個(gè)任務(wù)在同一個(gè)模型中建模，通過兩種任務(wù)的內(nèi)在聯(lián)系，相互輔助提高詞義消歧和語義角色標(biāo)注的準(zhǔn)確率。文獻(xiàn)[6]在進(jìn)行動(dòng)詞消歧時(shí)，采用語義分析技術(shù)，識(shí)別句法樹中各個(gè)名詞的命名實(shí)體類型，并以這些語義信息作為特征訓(xùn)練分類器。文獻(xiàn)[7]不僅利用歧義句的上下文特征，而且將語義詞典中詞語的義原搭配信息也引入到消歧模型中，應(yīng)用隱最大熵原理對(duì)歧義詞消歧。

除了考察各個(gè)特征對(duì)有監(jiān)督消歧效果的影響外，近年來，一些學(xué)者利用可獲得的知識(shí)，對(duì)消歧模型進(jìn)行優(yōu)化。例如,文獻(xiàn)[8]利用詞語間的依存關(guān)系優(yōu)化模型中的詞語特征，加強(qiáng)與歧義詞具有依存關(guān)系的詞語在消歧中的作用。文獻(xiàn)[9]利用信息增益改進(jìn)有監(jiān)督消歧模型，通過信息增益的計(jì)算，挖掘上下文中詞語的位置信息，優(yōu)化消歧模型中的詞語特征的權(quán)重。文獻(xiàn)[10]在基于多分類器集成的消歧模型基礎(chǔ)上，提出一種動(dòng)態(tài)自適應(yīng)的多分類器融合算法，優(yōu)化各個(gè)分類器的權(quán)重以提高詞義消歧性能。

語言模型是語言中所有句子或部分語言單位的概率分布，可以將它看作是生成某種語言文本的統(tǒng)計(jì)模型。它已經(jīng)成功應(yīng)用于信息檢索、語音識(shí)別、中文輸入法等領(lǐng)域中。以往的有監(jiān)督詞義消歧方法利用語言模型時(shí)，僅僅將歧義詞附近的n-gram詞語(局部共現(xiàn)詞語)作為一種特征，加入到消歧模型中進(jìn)行訓(xùn)練。實(shí)驗(yàn)證明，利用該詞語組合特征可以有效地提高詞義消歧效果。但是，本文認(rèn)為，這些方法都沒有充分利用語言模型的消歧優(yōu)勢(shì)。本文提出一種基于語言模型的有監(jiān)督詞義消歧模型優(yōu)化方法，利用語言模型優(yōu)化傳統(tǒng)的有監(jiān)督消歧模型。它不僅利用有監(jiān)督消歧模型記錄在訓(xùn)練語料中歧義詞附近的特征，而且通過大規(guī)模語料庫，計(jì)算歧義詞的各個(gè)詞義在特定上下文中的語言模型概率，利用該語言模型概率的大小，輔助推斷歧義詞的詞義。該模型在訓(xùn)練數(shù)據(jù)較少，不足以訓(xùn)練出一個(gè)完備的有監(jiān)督模型時(shí)，通過語言模型的輔助，可以顯著地提高詞義消歧效果。

本文第2節(jié)首先介紹有監(jiān)督詞義消歧模型;第3節(jié)描述基于語言模型的有監(jiān)督詞義消歧模型，說明該模型的工作原理，并且在此基礎(chǔ)上，給出模型的消歧流程。最后測試并分析該模型的詞義消歧性能。

2 有監(jiān)督消歧模型

近年來，機(jī)器學(xué)習(xí)方法已經(jīng)成功應(yīng)用于詞義消歧的研究，在國際詞義消歧測評(píng)中，消歧效果最好的詞義消歧系統(tǒng)都用到了有監(jiān)督的學(xué)習(xí)方法，這些方法包括最大熵模型[3]和貝葉斯模型[11]等。本文就以這兩種最流行的有監(jiān)督模型為基線方法，測試本文所提出的方法。下面簡單地介紹有監(jiān)督詞義消歧系統(tǒng)的原理。

有監(jiān)督消歧模型的基本思想是先訓(xùn)練分類函數(shù)，然后將待消歧的句子的上下文作為輸入，通過分類函數(shù)計(jì)算歧義詞屬于各個(gè)詞義的概率，選取概率最大的詞義作為歧義詞最終的詞義，如式(1)所示。

(1)

(2)

其中f1…fj…fn表示歧義詞的上下文特征集合，這些特征可以是詞法層面的特征、語法層面的特征以及語義層面的特征。由于本文的目標(biāo)并不是考察各個(gè)特征對(duì)詞義消歧的影響，而是考察語言模型的輔助消歧效果，因此，只選用了一些最常用的特征[3]，這些特征如表1所示。

在表1中，這些特征可以分為兩類：一類是一定窗口大小內(nèi)的詞語和詞性，另一類是詞語和詞性的組合。其中，W表示詞語，P表示詞性，L表示窗口大小。

表1 消歧特征模板

3 基于語言模型的有監(jiān)督消歧模型

統(tǒng)計(jì)語言模型[12]最初誕生在語音識(shí)別領(lǐng)域，識(shí)別給定語言信號(hào)對(duì)應(yīng)的詞序列。如果用W表示文本中順序排列的n個(gè)詞，即W=w1w2...wn，則統(tǒng)計(jì)語言模型的任務(wù)是給出序列W在文本中出現(xiàn)的概率p(W)，利用概率的乘積公式，p(W)可以展開為式(3)。

p(W)=p(w1)p(w2|w1)p(w3|w1w2)...

p(wn|w1w2...wn-1)

(3)

從式(3)可以看出，估計(jì)詞語wn出現(xiàn)的概率，必須首先估計(jì)wn前面所有詞語出現(xiàn)的概率。但是從計(jì)算上來說，太復(fù)雜了。因此，N元語言模型假設(shè)任意一個(gè)詞wn，只與它前面的N-1個(gè)詞有關(guān)，此時(shí)問題就可以得到很大的簡化，如式(4)所示。

(5)

其中，c(wiwi-1wi-2)表示wiwi-1wi-2在語料庫中出現(xiàn)的次數(shù)，而c(wi-1wi-2)表示wi-1wi-2在語料庫中的出現(xiàn)次數(shù)。

語言模型可以計(jì)算語言片段的概率大小。由于出現(xiàn)概率較大的語言片段會(huì)更加符合語言的一般規(guī)律，因此本文將語言模型應(yīng)用在詞義消歧中。已有相關(guān)研究將語言模型應(yīng)用在無監(jiān)督詞義消歧中，并且取得了良好的效果[13]。該文獻(xiàn)假設(shè)，如果歧義詞的某個(gè)詞義sik與上下文組成的語言片段，比其他詞義與上下文組成的語言片段的概率值大，那么該詞義sik就越有可能是歧義詞的最終詞義，如式(6)所示。

wi-L...wi...wi+L表示歧義詞和附近的上下文詞語，wi表示歧義詞，歧義詞wi一共有m個(gè)詞義。在公式中，sik表示歧義詞wi的第k個(gè)詞義，p(wi-L...sik...wi+L)表示將歧義詞詞義sik替換歧義詞wi，所組成語言片段的概率。在詞義決策時(shí)，模型選擇概率值大的語言片段所包含的詞義作為歧義詞的最終詞義。例如，在語句“西醫(yī)出身的她，轉(zhuǎn)而鉆研中醫(yī)理論，試圖吸取前人的經(jīng)驗(yàn)”中，“中醫(yī)”是歧義詞。它的詞義有2個(gè)，一個(gè)是“中醫(yī)學(xué)”，另一個(gè)是“醫(yī)生”。用語言模型進(jìn)行詞義決策時(shí)，由于語言片段“鉆研中醫(yī)學(xué)理論”相比“鉆研醫(yī)生理論”更可能在語料庫中出現(xiàn)，利用式(6)進(jìn)行決策，詞義“中醫(yī)學(xué)”更有可能是歧義詞“中醫(yī)”的最終詞義。

缺少高質(zhì)量標(biāo)注的訓(xùn)練語料是有監(jiān)督詞義消歧所面臨的最大問題。本文利用語言模型的消歧優(yōu)勢(shì)，提出一種基于語言模型的有監(jiān)督詞義消歧方法，該方法可以在不增加訓(xùn)練語料的情況下，有效地提高詞義消歧效果。綜合式(2)和式(6)，改進(jìn)的詞義消歧模型如式(7)所示。

在式(7)中，α用于調(diào)整語言模型對(duì)歧義詞詞義的影響，如果加強(qiáng)語言模型對(duì)歧義詞的詞義決策作用，則α取較大的值，反之亦然，它的取值將在實(shí)驗(yàn)中估計(jì)。在優(yōu)化的模型中，由于加入了語言模型的推薦作用，概率值p(wi-L...sik...wi+L)較大時(shí)所對(duì)應(yīng)的歧義詞詞義sik更有可能成為歧義詞的最終詞義。從式(7)可以看出，優(yōu)化的有監(jiān)督模型在詞義決策時(shí)，不僅考慮一定窗口大小內(nèi)歧義詞的特征fj對(duì)歧義詞的影響，而且還考慮由上下文詞語wi-L...wi+L和歧義詞的各個(gè)詞義sik，所組成的詞語序列的概率大小對(duì)消歧效果的影響。該模型在訓(xùn)練數(shù)據(jù)不夠充分時(shí)，利用語言模型對(duì)詞義消歧的決策作用，提高歧義詞的消歧性能。

語言模型的估計(jì)可以有很多種方法，有些學(xué)者使用搜索引擎衡量包含語言片段的頁面數(shù)[14]。該方法有個(gè)假設(shè)：如果一個(gè)語言片段被較多的頁面所包含，那么該語言片段出現(xiàn)的概率就較大，反之，如果一個(gè)語言片段被較少的頁面包含，該語言片段在語料庫中的概率就較小。但是，這種估計(jì)方法是有缺陷的：因?yàn)榛ヂ?lián)網(wǎng)中充斥著各種各樣的數(shù)據(jù)，并且隨著時(shí)間的增加，各種垃圾、廣告以及不均衡的新聞主題網(wǎng)頁也會(huì)被搜索引擎所索引。因此互聯(lián)網(wǎng)作為語料庫，并不能很好的反應(yīng)真實(shí)文本中語言片段的概率。本文利用Kylm(Kyoto language Modeling toolkit)語言模型工具包*http://www.phontron.com/kylm/在大規(guī)模真實(shí)文本語料庫估計(jì)模型概率，大規(guī)模語料采用1998年《人民日?qǐng)?bào)》半年語料*http://icl.pku.edu.cn/icl_res/和搜狗新聞數(shù)據(jù)語料庫*http://www.sogou.com/labs/dl/ca.html。在實(shí)驗(yàn)中應(yīng)用Kneser-Ney平滑策略。

本文提出方法的總體流程圖如圖1所示。該方法分為三步： ①利用訓(xùn)練數(shù)據(jù)訓(xùn)練出一個(gè)傳統(tǒng)的有監(jiān)督消歧模型；②利用Kylm工具包通過大規(guī)模真實(shí)語料庫建立語言模型，統(tǒng)計(jì)包含歧義詞詞義和上下文的語言片段的語言模型概率；③綜合利用有監(jiān)督消歧模型和語言模型，共同決策歧義詞的詞義。

圖1 詞義消歧模型優(yōu)化流程圖

4 實(shí)驗(yàn)與結(jié)果討論

4.1 測試語料評(píng)價(jià)標(biāo)準(zhǔn)與基線方法

利用ACL2007的一個(gè)組成部分SemEval-2007[15],國際語義評(píng)測的中英文詞匯任務(wù)(task#5 multilingual Chinese English lexical sample task)對(duì)本文方法進(jìn)行評(píng)測。該任務(wù)共含40個(gè)歧義詞,語料由訓(xùn)練語料,以及測試語料兩個(gè)部分組成,如表2所示。同時(shí),采用其提供的標(biāo)準(zhǔn)評(píng)測工具及相應(yīng)評(píng)價(jià)指標(biāo)pmar(macro average accuracy),如式(8)所示。

其中N為所有的目標(biāo)詞數(shù),mi是對(duì)每一個(gè)特定的詞所標(biāo)注正確的例句數(shù),ni是對(duì)該特定詞所有的測試?yán)鋽?shù)。

表2 訓(xùn)練語料與測試語料

實(shí)驗(yàn)比較3個(gè)baseline方法和本文所提出的方法，3個(gè)baseline方法分別為：

(1) Bayes：原始的貝葉斯詞義消歧模型，該模型利用式(2)進(jìn)行詞義決策，并且利用表1的特征進(jìn)行訓(xùn)練。

(2) ME：原始的最大熵詞義消歧模型，該模型利用式(2)進(jìn)行詞義決策，并且利用表1的特征進(jìn)行訓(xùn)練。

(3) SRCP_WSD[16]：該系統(tǒng)是參加SemEval-2007評(píng)測的有監(jiān)督系統(tǒng),獲得了SemEval-2007Task#5評(píng)測第一名(pmar=74.9%)。

本文所提出的方法為：

Optimized_Bayes：經(jīng)過語言模型優(yōu)化后的貝葉斯詞義消歧模型，同時(shí)利用貝葉斯模型和語言模型進(jìn)行詞義決策，并且利用表1的特征進(jìn)行訓(xùn)練。

Optimized_ME：經(jīng)過語言模型優(yōu)化后的最大熵詞義消歧模型，同時(shí)利用最大熵模型和語言模型進(jìn)行詞義決策，并且利用表1的特征進(jìn)行訓(xùn)練。

4.2 實(shí)驗(yàn)結(jié)果

筆者在實(shí)驗(yàn)中發(fā)現(xiàn)，歧義詞句中并不是所有的詞對(duì)詞義消歧決策都有積極的作用，例如，句中的標(biāo)點(diǎn)符號(hào)、連詞和助詞會(huì)給消歧模型帶來噪聲，因此本文在訓(xùn)練模型時(shí)，去掉了這三類詞。并且在以往的實(shí)驗(yàn)中，窗口大小設(shè)置為1時(shí)，消歧效果最好。因此在實(shí)驗(yàn)中，對(duì)于所有的歧義詞，窗口大小都統(tǒng)一設(shè)置為1。

1) 各種方法的實(shí)驗(yàn)結(jié)果比較：從表3中的數(shù)據(jù)可以看出，本文提出的方法相比傳統(tǒng)的貝葉斯模型和最大熵模型，消歧準(zhǔn)確率都有所提高，并且經(jīng)過語言模型優(yōu)化的最大熵模型的消歧準(zhǔn)確率超過了SRCP_WSD系統(tǒng)0.4%。說明語言模型確實(shí)可以幫助有監(jiān)督模型提高消歧效果。同時(shí)可以看出，基于最大熵的詞義消歧模型的性能要優(yōu)于貝葉斯模型，這是由于貝葉斯模型為了簡化計(jì)算，假設(shè)特征之間是相互獨(dú)立的，但真實(shí)的語料并不能滿足上述條件；而最大熵模型并沒有做上述假設(shè)，可以將各種不同的特征聚集在統(tǒng)一的框架下，因此，最大熵模型消歧性能要略優(yōu)于于貝葉斯模型。

表3 各方法實(shí)驗(yàn)結(jié)果比較

經(jīng)過優(yōu)化的消歧模型相比傳統(tǒng)的消歧模型，優(yōu)勢(shì)并不明顯，準(zhǔn)確率只提升了1.6%。筆者在查看實(shí)驗(yàn)結(jié)果時(shí)發(fā)現(xiàn)，在絕大多數(shù)情況下，經(jīng)過優(yōu)化的消歧模型在詞義決策時(shí)，相比傳統(tǒng)的消歧模型，雖然各個(gè)歧義詞詞義的分?jǐn)?shù)發(fā)生了變化，但是歧義詞詞義的排序并沒有發(fā)生變化，因此并沒有影響先前有監(jiān)督模型對(duì)歧義詞詞義的選擇。

2) 不同階數(shù)n-gram對(duì)消歧效果的影響。為了考察不同階數(shù)語言模型對(duì)消歧效果的影響，實(shí)驗(yàn)以歧義詞為中心，分別利用不同位置的2-gram和3-gram語言模型優(yōu)化有監(jiān)督消歧模型。本文以前文中“西醫(yī)出身的她，轉(zhuǎn)而鉆研中醫(yī)理論，試圖吸取前人的經(jīng)驗(yàn)”為例，說明具體的語言模型選取情況，如表4所示。

表4 n-gram的選取

不同階數(shù)不同位置的語言模型對(duì)有監(jiān)督詞義消歧模型的影響如表5所示。從表5可以看出，3階語言模型的消歧效果要優(yōu)于2階語言模型，并且在位置-1,0,1時(shí)3階語言模型取得了最佳的消歧效果。這是由于該位置的語言模型能夠更全面的衡量歧義詞詞義與上下文的搭配情況。

表5 各方法實(shí)驗(yàn)結(jié)果比較

3) 不同規(guī)模無標(biāo)記語料對(duì)消歧效果的影響。為了考察語言模型的好壞對(duì)消歧效果的影響，本文使用不同規(guī)模的語料庫訓(xùn)練語言模型。實(shí)驗(yàn)采用消歧效果最好的3-gram訓(xùn)練語言模型。實(shí)驗(yàn)的結(jié)果如圖2所示，橫坐標(biāo)表示語料庫的規(guī)模，數(shù)據(jù)量以兆為單位，縱坐標(biāo)表示消歧準(zhǔn)確率。由于1998年《人民日?qǐng)?bào)》的語料和詞義消歧任務(wù)的測試語料領(lǐng)域最近，因此本文首先利用50兆的人民日?qǐng)?bào)語料庫訓(xùn)練語言模型，然后在該語料庫的基礎(chǔ)上依次增加搜狗新聞?wù)Z料，從圖中可以看出，無論對(duì)于基于優(yōu)化的貝葉斯模型還是最大熵模型，增大語料庫的規(guī)模，對(duì)詞義消歧模型的性能提升是有幫助的，但是當(dāng)語料庫的規(guī)模增加到一定程度的時(shí)候，消歧準(zhǔn)確率就不再有提高，說明語言模型對(duì)消歧性能的提高是有限的。除此之外，可以看出，與詞義消歧測試語料領(lǐng)域更相近的人民日?qǐng)?bào)語料庫訓(xùn)練出的語言模型，對(duì)詞義消歧效果的提升要優(yōu)于搜狗新聞?wù)Z料庫。

圖2 語料庫規(guī)模不同對(duì)消歧性能的影響

圖3 α取值不同時(shí)的模型消歧性能

4) 不同規(guī)模有標(biāo)記訓(xùn)練語料對(duì)本文所提出模型的影響。為了客觀的比較本文的方法在不同規(guī)模訓(xùn)練數(shù)據(jù)中的消歧性能，筆者做了如下一組實(shí)驗(yàn)。實(shí)驗(yàn)中，語言模型采用3-gram，訓(xùn)練語言模型的數(shù)據(jù)規(guī)模采用Optimaized_ME模型取得最佳效果時(shí)的語料庫規(guī)模(350兆)，基于優(yōu)化的最大熵消歧模型的實(shí)驗(yàn)結(jié)果如圖3所示。其中，縱坐標(biāo)表示消歧準(zhǔn)確率，橫坐標(biāo)表示使用的訓(xùn)練數(shù)據(jù)規(guī)模，例如,0.1表示利用了10%的訓(xùn)練數(shù)據(jù)。在每個(gè)橫坐標(biāo)刻度上有一組柱列，每一個(gè)柱列均按照α的取值不同依次排列(α=0,α=3,α=5,α=7)。應(yīng)當(dāng)注意到，當(dāng)α=0時(shí)，消歧模型退化為傳統(tǒng)的最大熵模型。從圖中的結(jié)果可以看出，隨著訓(xùn)練語料規(guī)模的增加，各種方法的消歧準(zhǔn)確率都在逐漸增大，而且在所有規(guī)模的訓(xùn)練數(shù)據(jù)中，本文所提出的方法都要優(yōu)于傳統(tǒng)的最大熵方法(α=0)，特別是在訓(xùn)練數(shù)據(jù)較少的情況下(少于70%的訓(xùn)練數(shù)據(jù))，該模型的消歧優(yōu)勢(shì)比較明顯。但是隨著訓(xùn)練數(shù)據(jù)的增加，語言模型的消歧作用在逐漸減少，這一點(diǎn)是合理的。因?yàn)檎Z言模型相當(dāng)于一種無監(jiān)督的詞義消歧知識(shí)，它的消歧性能還是比不上訓(xùn)練數(shù)據(jù)中包含的有監(jiān)督消歧知識(shí)，因此本文的方法在訓(xùn)練數(shù)據(jù)較少的情況下，能夠更加顯著的提高消歧性能。

同時(shí)可以看出，當(dāng)訓(xùn)練數(shù)據(jù)較少時(shí)，α取較大的值，模型的消歧準(zhǔn)確率較高，而在訓(xùn)練數(shù)據(jù)較多時(shí)，α取較小的值，模型的消歧準(zhǔn)確率較高。例如，在訓(xùn)練數(shù)據(jù)少于70%的情況下，α取值5時(shí)消歧效果總體最好，并且在含有30%的訓(xùn)練語料時(shí)，消歧準(zhǔn)確率相比傳統(tǒng)的有監(jiān)督模型提高了3.3%。而在訓(xùn)練數(shù)據(jù)大于70%的情況下，α取值3時(shí)消歧效果最好。實(shí)驗(yàn)結(jié)果說明：當(dāng)訓(xùn)練數(shù)據(jù)不足以訓(xùn)練出一個(gè)完備的有監(jiān)督消歧模型時(shí)，應(yīng)當(dāng)為語言模型設(shè)置較大的權(quán)重，而當(dāng)訓(xùn)練數(shù)據(jù)較充足時(shí)，應(yīng)當(dāng)為語言模型分配較小的權(quán)重，這樣語言模型可以在不同規(guī)模的訓(xùn)練數(shù)據(jù)中均發(fā)揮適當(dāng)?shù)南缱饔?。同時(shí)可以看出，沒有必要將α設(shè)置很大的值，例如,當(dāng)α取值為7時(shí)，消歧效果并不好。因?yàn)楫?dāng)α很大時(shí)，消歧模型會(huì)過于依賴語言模型的消歧作用，而忽略了訓(xùn)練數(shù)據(jù)所提供的消歧知識(shí)。

5 總結(jié)與未來工作

本文提出一種基于語言模型的有監(jiān)督詞義消歧模型，該模型在傳統(tǒng)的有監(jiān)督模型基礎(chǔ)上，利用語言模型的詞義消歧優(yōu)勢(shì)，彌補(bǔ)有監(jiān)督消歧模型存在的數(shù)據(jù)稀疏問題。最后的實(shí)驗(yàn)結(jié)果表明，在缺乏訓(xùn)練數(shù)據(jù)的條件下，該模型可以顯著的提高傳統(tǒng)有監(jiān)督模型的消歧效能。

當(dāng)前的實(shí)驗(yàn)結(jié)果表明，在有限的標(biāo)注語料條件下，語言模型確實(shí)可以幫助有監(jiān)督模型提高詞義消歧性能。未來的工作,可以從兩個(gè)方面進(jìn)行。①深入分析大規(guī)模中文詞義消歧數(shù)據(jù)集的特征,挖掘更多可用的詞義消歧知識(shí)。例如，利用詞語的相似性和相關(guān)性優(yōu)化有監(jiān)督詞義消歧模型。②研究如何優(yōu)化其他有監(jiān)督詞義消歧模型,如SVM等消歧模型,測試各種有監(jiān)督模型被優(yōu)化后的消歧效果。

[1] Chan Y S, Ng H T. Scaling up word sense disambiguation via parallel texts[C]//Proceedings of AAAI. 2005, 5: 1037-1042.

[2] Navigli R. Word Sense Disambiguation: A survey [J]. ACM Computing Surveys, 2009, 41(2): 1-69.

[3] 何徑舟, 王厚峰. 基于特征選擇和最大熵模型的漢語詞義消歧.軟件學(xué)報(bào)[J] ,2010, 21(6):1287-1295.

[4] Mart nez D, Agirre E, Mrquez L. Syntactic features for high precision word sense disambiguation[C]//Proceedings of the 19th International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 2002: 1-7.

[5] Che W, Liu T. Jointly modeling wsd and srl with markov logic[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics, 2010: 161-169.

[6] Dang H T, Palmer M. The role of semantic roles in disambiguating verb senses[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005: 42-49.

[7] 張仰森，黃改娟，蘇文杰. 基于隱最大熵原理的漢語詞義消歧方法.中文信息學(xué)報(bào)[J], 2012, 26(3)：72-78.

[8] 盧志茂，劉挺，張剛,等．基于依存分析改進(jìn)貝葉斯模型的詞義消歧．高技術(shù)通訊[J], 2003, 13(5): 1-7．

[9] 范冬梅, 盧志茂, 張汝波,等. 基于信息增益改進(jìn)貝葉斯模型的漢語詞義消歧. 電子與信息學(xué)報(bào)[J], 2008,30(12): 2926-2929.

[10] 張仰森, 郭江. 基于隱最大熵原理的漢語詞義消歧方法. 中文信息學(xué)報(bào)[J], 2012,26(1):3-8.

[11] Escudero G, Màrquez L, Rigau G. Naive Bayes and exemplar-based approaches to word sense disambiguation revisited[J]. arXiv preprint cs/0007011, 2000.

[12] Song F, Croft W B. A general language model for information retrieval[C]//Proceedings of the eighth international conference on information and knowledge management. ACM, 1999: 316-321.

[13] 劉鵬遠(yuǎn), 趙鐵軍.利用語義詞典Web挖掘語言模型的無指導(dǎo)譯文消歧木. 軟件學(xué)報(bào)[J], 2009, 20(5):1292-1300.

[14] Bergsma S, Lin D, Goebel R. Web-Scale N-gram Models for Lexical Disambiguation[C]//Proceedings of IJCAI. 2009, 9: 1507-1512.

[15] Jin P, Wu Y, Yu S. SemEval-2007 task 05: multilingual Chinese-English lexical sample[C]//Proceedings of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics, 2007: 19-23.

[16] Dong Zhendong, Dong Qiang. Hownet[OL]. 1999.[2010-11-5], http://www.keenage.com

[17] Carpuat M, Wu D. Word sense disambiguation vs. statistical machine translation[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005: 387-394.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看