• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      漢語復(fù)句中基于依存關(guān)系與最大熵模型的詞義消歧方法研究

      2018-02-09 07:18:49翟宏森劉鳳嬌黃文燦楊夢川
      計算機與數(shù)字工程 2018年1期
      關(guān)鍵詞:消歧多義詞中心詞

      李 源 翟宏森 劉鳳嬌 黃文燦 楊夢川

      (華中師范大學(xué)計算機學(xué)院 武漢 430079)

      1 引言

      在漢語自然語言中,由于復(fù)句運用的靈活性和網(wǎng)絡(luò)用語的廣泛使用,復(fù)句中經(jīng)常會出現(xiàn)一詞多意的現(xiàn)象,多義詞的使用非常普遍[1]。但在特定的語境中,根據(jù)特定上下文,多義詞的義項是確定的。如“賣”為動詞詞性具有三個詞義,分別表示“交易”“背叛”“賣弄”,雖然使用頻率最高的是“交易”的意思,但“倚老賣老”根據(jù)上下文語境判斷恰巧是“賣弄”的意思。據(jù)數(shù)據(jù)統(tǒng)計,雖然漢語語言中多義詞詞語的數(shù)量不算太多,但使用的頻率非常高。如“感受”有兩個表示義項,可以表示為“感受”,也可以表示為“感知”。

      近些年,隨著義項詞語知識庫和語料庫語言學(xué)的興起,基于高質(zhì)量的統(tǒng)計詞義消歧的方法和技術(shù)受到了廣泛關(guān)注。中科院算機所的魯松、白碩[2]等提出基于向量空間模型中義項詞語的無導(dǎo)詞義消歧方法。楊陟卓、黃河燕等提出了基于詞語距離的網(wǎng)絡(luò)圖詞義消歧方法[3],該方法改進(jìn)了傳統(tǒng)網(wǎng)絡(luò)模型,將距離信息添加入網(wǎng)絡(luò)模型中,取得了較好的效果。北京信息科技大學(xué)的張仰森提出了基于最大熵模型的漢語詞義消歧與標(biāo)注方法[4],該方法從特征類型、窗口大小以及是否考慮位置特征三個方面設(shè)計特征模板,依據(jù)特征模板獲取模型參數(shù)文件,進(jìn)而進(jìn)行詞義消歧。電子工程學(xué)院的李永亮、黃曙光等結(jié)合PageRank算法與知網(wǎng)知識庫進(jìn)行詞義消歧,提出基于PageRank算法和知網(wǎng)的詞義消歧方法[5]。范冬梅提出基于信息增益改進(jìn)貝葉斯模型的漢語詞義消歧方法[6]。本文采用最大熵模型進(jìn)行訓(xùn)練,設(shè)計了依存句法模板,并提出了5種復(fù)合模板,實驗證明,提高了詞義消歧的性能。

      2 最大熵模型(ME)簡述

      假設(shè)y為某個事件,x是y事件發(fā)生的上下文(周圍環(huán)境),那么x與y的聯(lián)合概率記作p(x|y)。最大熵模型可分為條件最大熵模型和聯(lián)合最大熵模型兩種,一般情況下,將所有可能發(fā)生的事件組成記作集合Y,將所有環(huán)境組成記作集合X,若對于任意給定的 x∈X ,y∈Y ,要求求解概率p(x|y),則需建立聯(lián)合模型;若在x發(fā)生的條件下,要求求解y發(fā)生的概率,即概率p(x|y),則需建立條件模型。對于詞義消歧問題的解決,需在上下文特定的語境中計算中心詞各義項發(fā)生的概率,因此,需建立條件最大熵模型。

      2.1 最大熵模型詞義消歧的思想

      最大熵模型的基本原理強調(diào),建立與訓(xùn)練集統(tǒng)一的模型,對未知情況不做任何主觀假設(shè),在以已知上下文作為約束條件下,求解最優(yōu)的概率分布。

      在漢語詞義消歧中,設(shè)Y為中心詞(多義詞)所有可能義項的一個有限集合,X是其上下文語境信息構(gòu)成的集合,則把確定某個中心詞的某一個義項y∈Y看為一個事件,中心詞周圍語境出現(xiàn)的詞其詞性看為事件發(fā)生的上下文x∈X。建立條件最大熵模型的出發(fā)點就是計算在x發(fā)生的條件下中心詞某個義項y的概率p(x|y),并選擇Y集合中概率值p(x|y)相比最大的一個義項作為該中心詞的確定含義。

      假設(shè)給定一組樣本集合為{(x1,y1),(x2,y2),…,(xn,yn)},其中 xi(1≤i≤n)表示中心詞語境周圍的上下文,yi(1≤i≤n),表示進(jìn)入最大熵模型求解概率值的候選義項依據(jù)最大熵基本原理,以經(jīng)驗概率分布的方式來描述樣本,以指數(shù)形式計算p(x|y)條件概率:

      其中,Zx為歸一化因子;f(x,y)為模型的特征函數(shù),包含了中心詞周圍所有的信息特征函數(shù)定義為

      λι為參數(shù),表征 f(x,y)的重要性,用GIS算法進(jìn)行估算。

      依據(jù)最大熵的基本原理,在詞義消歧中,使式(3)取得最大值所對應(yīng)的義項y′就是中心詞在上下文語境中的確切含義,y′可通過式(4)計算出來:

      2.2 特征模板的設(shè)計

      對于最大熵模型,窗口大小和特征模板的設(shè)計是影響詞義消歧準(zhǔn)確率的兩個重要因素[10],首先,使用區(qū)分度高的特征模板才能準(zhǔn)確地區(qū)分中心詞的不同義項,其次,控制窗口的大小,減低維度有助于減低計算復(fù)雜度和數(shù)據(jù)的稀疏。

      最大熵模型解決詞義消歧的問題,一個關(guān)鍵步驟就是特征模板的設(shè)計[8],是建模成功的關(guān)鍵。對于特征模板特征的選擇從如下三個方面進(jìn)行考慮:

      1)詞形及詞性特征模板

      漢語多義詞中有些是由于詞性不同導(dǎo)致的多義,例如“代表”有兩個義項“{expression|表示}”和“{model|典型}”,這兩個義項的詞性不同,前者為動詞后者為名詞,此類多義詞根據(jù)詞性則可判別確切含義。

      本文用P表示上下文中詞語標(biāo)注的詞性信息,即P-m,P-(m-1)…P-1,P0,P1…Pk,P-a,Pa分別表示中心詞左邊第a個詞語和中心詞右邊第a個詞語的詞性;P0表示中心詞的詞性。詞性原子模板如表1所示。

      表1 中心詞上下文詞形及詞性模板

      2)詞間距離特征模板

      上下文中各詞語與中心詞間的距離,能夠從某方面表示上下文詞語對中心詞義項確定的關(guān)聯(lián)度。與中心詞語距離較遠(yuǎn)的部分詞語可能對中心詞語義項的確定作用很小,反之,距離中心詞語距離近的詞語對中心詞語義項的確定作用可能較大,距離越近越容易做出正確的判斷。例如“今天/n他/r愿意/v被/p輔導(dǎo)/v學(xué)習(xí)/n?!本渥又械摹皩W(xué)習(xí)”是多義詞,而句子上下文詞匯中的{“今天”“他”“愿意”“被”}對中心詞語義項的確定作用幾乎為零,因此,引入距離模板非常有必要。距離模板如表2所示。

      表2 距離模板

      3)依存句法特征模板

      依存句法是由法國語言學(xué)家特斯尼耶爾(L.Teseniere)最先提出的[7],能夠通過句子上下文詞語與詞語之間的關(guān)聯(lián)關(guān)系來表明句子的語言結(jié)構(gòu)。構(gòu)成句子的各詞語之間存在著某種聯(lián)系,這些聯(lián)系把句子從線性序列構(gòu)造成結(jié)構(gòu)化的依存關(guān)系樹,依存弧上的標(biāo)注信息反映出句中各詞語之間的依存關(guān)系,把多義詞詞義的確定從詞語表層的分析,深入到句子語境的內(nèi)部結(jié)構(gòu)中去。句子中各詞匯之間的關(guān)聯(lián)關(guān)系,為多義詞的語義消歧過程提供了更多依據(jù)。

      依存句法的引入讓多義詞義項的確定不只依賴于詞語的物理位置,借助依存關(guān)系樹,能夠得到句子內(nèi)各詞語之間的語義修飾關(guān)系,從而取得較長距離的詞語關(guān)聯(lián)信息,進(jìn)而降低忽略特征對多義詞義項確定的影響。舉例來說,“這次機會,還是沒有能把握好?!睂ζ溥M(jìn)行依存句法分析,并畫出其依存關(guān)系樹,如圖1所示。

      首先確定句中的多義詞是“把握”,僅僅依據(jù)詞性模板和間距模板得到的特征向量為<PW(-3)=還是/c,PW(-2)=沒有/d,PW(-1)=能/v,PW(0)=把握/v,PW(1)=好/a,PW(2)=Null,PW(3)=Null>,根據(jù)詞性模板和間距模板“機會”對多義詞“把握”的義項確定作用幾乎為零,但在上下文語境及句子結(jié)構(gòu)中,通過依存句法分析,它們實際是有聯(lián)系的。依存句法模板能夠有效地解決這一問題,使與多義詞有關(guān)聯(lián)的詞語的選擇,不僅局限于詞性與位置的詞語表層分析,使其更加深入至句子結(jié)構(gòu)中。依存句法特征模板如表3所示。

      圖1 例句各成分間的依存關(guān)系數(shù)樹

      表3 依存句法模板

      表中模板12比較特殊,它表示此義項在某個模板下是否為中心詞確定語義,取值為集合{YES,NO},任何一模板必須包含模板12。

      4)復(fù)合模板

      顯然,單純依靠原子模板解決詞義消歧的問題顯得太過簡單,準(zhǔn)確識別的有效性過低,不能充分刻畫多義詞與上下文中各詞語之間的修飾依賴關(guān)系,且準(zhǔn)確率不理想??紤]以上3個方面的原子模板,并結(jié)合對大量語料的觀察,最終構(gòu)成了5個復(fù)合模板,目的在于提高義項判別準(zhǔn)確率,提高有效性。復(fù)合模板如下:

      (1)多義詞左右各三個詞形及詞性

      PW(-3),PW(-2),PW(-1),PW(1),PW(2),PW(3)

      (2)多義詞左右各三個詞形及詞性+詞間距離

      PW(-3),PW(-2),PW(-1),PW(1),PW(2),PW(3),Dis

      (3)多義詞左右各三個詞形及詞性+依存模板

      PW(-3),PW(-2),PW(-1),PW(1),PW(2),PW(3),PathParent,PathChild

      (4)多義詞左右各三個詞形及詞性+依存模板+詞間距離

      PW(-3),PW(-2),PW(-1),PW(1),PW(2),PW(3),PathParent,PathChild,Dis

      (5)多義詞左右各三個詞形及詞性+依存模板+詞間距離+間隔多義詞的個數(shù)

      PW(-3),PW(-2),PW(-1),PW(1),PW(2),PW(3),PathParent,PathChild,Dis,N

      依據(jù)如上構(gòu)造的5個模板,結(jié)合訓(xùn)練語料,通過機器學(xué)習(xí)生成模型參數(shù)文件,依據(jù)模型參數(shù)文件進(jìn)而確定多義詞的確定義項。

      3 基于依存句法與最大熵模型的復(fù)句詞義消歧過程的實現(xiàn)

      基于依存句法與最大熵模型詞義消歧的過程,包括機器學(xué)習(xí)和詞義消歧兩個模塊。采用如下步驟:

      Step 1:

      通過訓(xùn)練集進(jìn)行機器學(xué)習(xí),根據(jù)特征模板訓(xùn)練參數(shù),產(chǎn)生模型參數(shù)文件

      Step 2:

      利用復(fù)句分析系統(tǒng),對句子進(jìn)行分句、分詞和詞性標(biāo)注

      Step 3:

      判斷詞語是否為多義詞,這里將分兩路對詞語進(jìn)行處理:若待消歧的詞為多義詞,進(jìn)行Step 4;若待消歧的詞為單義詞,則利用語義詞典直接為該詞標(biāo)注

      Step 4:

      依據(jù)機器學(xué)習(xí)產(chǎn)生的模型參數(shù)文件,對Step 3判斷出的多義詞進(jìn)行兩路處理:該多義詞若在訓(xùn)練集學(xué)習(xí)產(chǎn)生的參數(shù)文件中只有“詞形+詞性”一種情況,則直接根據(jù)詞形對該詞進(jìn)行消歧;反之,則用最大熵模型對該詞進(jìn)行消歧。

      Step 5:

      依據(jù)Step 3產(chǎn)生的單義詞標(biāo)注于Step 4產(chǎn)生的多義詞消歧輸出帶詞義標(biāo)記的消歧后文本。

      圖2 最大熵語義消歧的實現(xiàn)流程

      4 實驗結(jié)果及分析

      4.1 實驗數(shù)據(jù)及測評指標(biāo)

      語料集的選擇必然面臨著數(shù)據(jù)稀疏的問題,為了避開這一問題,選取漢語中多義詞使用頻率較高的常用詞匯進(jìn)行實驗。本實驗的語料數(shù)據(jù)選自華中師范大學(xué)的“漢語復(fù)句語料庫”(CCCS)。從CCCS語料庫65萬余條復(fù)句中隨機抽取含有多義詞常用詞匯的3000條復(fù)句,并以5∶1的比例進(jìn)行隨機抽取,2500條進(jìn)行人工語義標(biāo)注,構(gòu)建成訓(xùn)練集,用于機器學(xué)習(xí)產(chǎn)生模型參數(shù)文件,剩余的500條作為測試集。

      本文詞義消歧的實驗數(shù)據(jù)評測標(biāo)準(zhǔn)采用經(jīng)典的三方面測評指標(biāo),包括:查全率R(Recall)、查準(zhǔn)率P(Precision)和F-score[9]。其分別定義如下:

      其中,NT表示正確實現(xiàn)詞義消歧的歧義詞個數(shù);NF表示歧義詞詞義確定錯誤的歧義詞個數(shù);NN表示未進(jìn)行詞義消歧操作的歧義詞個數(shù);NT+NF表示所有進(jìn)行消歧的歧義詞數(shù)量;NT+NN表示所有未出現(xiàn)消歧錯誤的歧義詞數(shù)量。

      4.2 實驗結(jié)果及分析

      首先,為了發(fā)現(xiàn)加入依存語法模板對詞義消歧的影響,本文對引入依存語法模板的最大熵模型和未引入依存語法模板的最大熵模型實驗結(jié)果進(jìn)行比較,然后,為了對比基于依存語法的最大熵模型與其他方法詞義消歧的有效性,將基于依存語法的最大熵模型的性能與其他方法進(jìn)行對比。本文采用經(jīng)典的F-score分析方法性能。

      圖3 基于是否引入依存語法模板的最大熵模型詞義消歧結(jié)果對比

      由圖3可以看出,引入依存句法模板,提高了上下文詞匯選擇的準(zhǔn)確性,從而正確率得到提高,可以看出引入依存句法模板的最大熵模型正確率比引入之前均有所提高,由此可見,引入依存句法模板能夠得到較好的消歧效果。

      實驗數(shù)據(jù)結(jié)果中,多義詞消歧的正確率不等可能受到實驗過程中以下三個因素的影響:

      1)多義詞的義項數(shù)。實驗數(shù)據(jù)中“打”的消歧正確率相比最低,原因可能是“打”有28個義項,多義詞義項越多,一方面,詞義的分類越細(xì),區(qū)別越??;另一方面,義項越多,會提高計算復(fù)雜度,故降低正確率。

      2)多義詞上下文關(guān)聯(lián)詞匯個數(shù)。關(guān)聯(lián)的詞匯個數(shù)太少,詞義消歧的依據(jù)太少,消歧的正確率越低。

      3)訓(xùn)練集的語料。訓(xùn)練集的語料有局限性,訓(xùn)練集規(guī)模偏小,產(chǎn)生的規(guī)模參數(shù)文件有局限性,影響消歧的正確率。

      對于該模型與其他方法的比較,現(xiàn)將測試集分成5組進(jìn)行實驗,該模型方法方法與基于貝葉斯模型、基于知網(wǎng)和隱馬爾科夫方法進(jìn)行對比,結(jié)果如圖4所示。

      圖4 4種方法詞義消歧F-score比較

      表4 4種方法的平均結(jié)果比較

      從F-score來看,本文提出的基于依存句法的最大熵模型方法的性能要優(yōu)于基于貝葉斯模型、基于知網(wǎng)和隱馬爾科夫的三種方法,從平均結(jié)果來看,本文方法在查全率與F-score上比其他3種方法略高,從這表明本文提出的基于依存句法的最大熵模型進(jìn)行詞義消歧的思路方法是可行的。

      5 結(jié)語

      本文基于最大熵模型的原理結(jié)合依存句法構(gòu)建了一個詞義消歧模型,提出了5種復(fù)合特征模板,實驗表明,該方法提高了詞義消歧的正確率,達(dá)到了提高消歧準(zhǔn)確度的效果。

      猜你喜歡
      消歧多義詞中心詞
      基于關(guān)聯(lián)圖和文本相似度的實體消歧技術(shù)研究*
      多義詞
      基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
      Why I ride
      藏文歷史文獻(xiàn)識別過程中藏文自由虛詞的自動識別及消歧算法的研究
      同位語從句與中心詞的句法關(guān)系
      淺議多義詞在語境中的隱喻認(rèn)知
      多義詞way的語義認(rèn)知分析及實證研究
      準(zhǔn)確把握“中心詞”輕松突破高考英語閱讀理解題
      考試周刊(2013年89期)2013-04-29 00:44:03
      基于《知網(wǎng)》的中文信息結(jié)構(gòu)消歧研究
      八宿县| 平阳县| 夏邑县| 丽水市| 华宁县| 韩城市| 清丰县| 牟定县| 会昌县| 浮梁县| 延川县| 临安市| 宣武区| 廊坊市| 开鲁县| 湘潭市| 丹东市| 平泉县| 石城县| 习水县| 龙门县| 江达县| 滨州市| 竹溪县| 丹江口市| 安乡县| 体育| 读书| 阳东县| 昭平县| 麻城市| 广南县| 郁南县| 明溪县| 类乌齐县| 兖州市| 巩义市| 桂林市| 玛多县| 永善县| 广西|