• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于半監(jiān)督集成學(xué)習(xí)的詞義消歧

      2020-11-13 01:53:32張春祥熊經(jīng)釗高雪瑤
      關(guān)鍵詞:消歧歧義特征向量

      張春祥, 熊經(jīng)釗, 高雪瑤

      (1.哈爾濱理工大學(xué) 軟件與微電子學(xué)院,黑龍江 哈爾濱 150080;2.哈爾濱理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150080)

      詞義消歧的目的是確定歧義詞匯在特定上下文環(huán)境中的具體含義。詞義消歧對(duì)機(jī)器翻譯、話題關(guān)聯(lián)檢測(cè)、語(yǔ)音識(shí)別、文本分類、信息檢索和主題挖掘等應(yīng)用有很大的影響[1-2]。錢濤等[3]、SONAKSHI等[4]和EDILSON等[5]使用圖來描述詞義消歧問題。ROCCO等[6]根據(jù)分布信息來計(jì)算語(yǔ)義的相似性,提出了一種新的基于進(jìn)化博弈理論的詞義消歧模型。SALLAM等[7]將蜂群優(yōu)化元啟發(fā)式算法應(yīng)用于詞義消歧過程,利用多個(gè)人工蜂代理來協(xié)同處理該問題。SULEMA等[8]利用Alpha-Beta聯(lián)想記憶對(duì)歧義詞及其上下文之間的關(guān)聯(lián)性進(jìn)行計(jì)算,提出了一種基于簡(jiǎn)化LESK算法的詞義消歧方法。與其他基于LESK的方法相比,該方法具有一定的優(yōu)越性。MYUNG等[9]提出了一種基于詞嵌入的消歧方法,使消歧特征向量具有可加性和組合性,消歧特征向量更加緊湊和高效。OSMAN等[10]和CLAUDIO等[11]以少量帶有語(yǔ)義注釋的語(yǔ)料為基礎(chǔ),挖掘大量無標(biāo)注語(yǔ)料中的語(yǔ)言學(xué)知識(shí)來進(jìn)行半監(jiān)督詞義消歧。楊陟卓[12]和孟禹光等[13]分別利用上下文的譯文和詞性來確定歧義詞匯的含義。WANG等[14]以共現(xiàn)知識(shí)和訓(xùn)練文檔的類知識(shí)為基礎(chǔ),利用語(yǔ)義擴(kuò)散核來解決詞匯的歧義問題。郭瑛媚等[15]以話題信息、位置關(guān)系和互信息為消歧特征,提出了一種無監(jiān)督的跨語(yǔ)言詞義消歧算法。利用在線詞典和Web搜索引擎,使用上下文信息來確定評(píng)論句中多義評(píng)論詞的具體含義。楊安等[16]和鹿文鵬等[17]利用領(lǐng)域知識(shí)來進(jìn)行詞義消歧。HUNG等[18]和唐共波等[19]分別利用情感詞匯網(wǎng)絡(luò)詞典與知網(wǎng)中的義原來進(jìn)行詞義消歧。許坤利等[20]用啟發(fā)式信息從語(yǔ)料中挖掘?qū)嶓w和關(guān)系,對(duì)謂詞進(jìn)行消歧。WANG等[21]和ANTONIO等[22]以生物醫(yī)學(xué)中的專業(yè)知識(shí)為基礎(chǔ)來建立詞義消歧模型,解決了文本中詞語(yǔ)的歧義問題。

      本文以歧義詞匯為中心,從其左右4個(gè)鄰接詞匯單元中抽取詞形、詞性和語(yǔ)義類作為消歧特征,統(tǒng)計(jì)其出現(xiàn)的頻率。以邏輯回歸模型、梯度提升決策樹和支持向量機(jī)為基礎(chǔ),采用軟投票策略來構(gòu)造集成詞義消歧模型。同時(shí),使用半監(jiān)督學(xué)習(xí)方法來優(yōu)化集成詞義消歧模型。

      1 詞義消歧特征的選擇

      本文利用詞法知識(shí)和語(yǔ)義知識(shí)來確定歧義詞的含義。以歧義詞為中心,選擇左右4個(gè)鄰接詞匯單元。從每個(gè)詞匯單元中,抽取詞形、詞性和語(yǔ)義類作為消歧特征。

      對(duì)于包含歧義詞“中醫(yī)”的漢語(yǔ)句子,其消歧特征的提取過程如下所示:

      漢語(yǔ)句子:一位當(dāng)中醫(yī)的親戚。

      分詞結(jié)果:一 位 當(dāng) 中醫(yī) 的 親戚。

      詞性標(biāo)注:一/m 位/q 當(dāng)/v 中醫(yī)/n 的/u 親戚/n。/w

      語(yǔ)義標(biāo)注:一/m/Eb02 位/q/Di15 當(dāng)/v/Hj24 中醫(yī)/n/Dk03 的/u/Ed01 親戚/n/Ah01。/w/-1

      消歧特征的提取過程如圖1所示。

      圖1 消歧特征的提取Fig.1 Extract disambiguation features

      從漢語(yǔ)句子中,提取歧義詞“中醫(yī)”左右4個(gè)鄰接詞匯單元,分別為:“位/q/Di15”、“當(dāng)/v/Hj24”、“的/u/Ed01”和“親戚/n/Ah01”。詞形用W來表示;詞性用P來表示;語(yǔ)義類用S來表示。歧義詞左側(cè)的2個(gè)鄰接詞匯單元的詞形分別用WL1、WL2來表示;右側(cè)的2個(gè)鄰接詞匯單元的詞形分別用WR1、WR2來表示。左側(cè)2個(gè)鄰接詞匯單元的詞性分別用PL1、PL2來表示;右側(cè)2個(gè)鄰接詞匯單元的詞性分別用PR1、PR2來表示。左側(cè)2個(gè)鄰接詞匯單元的語(yǔ)義類分別用SL1、SL2來表示;右側(cè)2個(gè)鄰接詞匯單元的語(yǔ)義類分別用SR1、SR2來表示。從4個(gè)鄰接詞匯單元中,共抽取了12種消歧特征。

      在哈爾濱工業(yè)大學(xué)人工語(yǔ)義標(biāo)注語(yǔ)料中,每個(gè)漢語(yǔ)句子都進(jìn)行了詞匯切分。每個(gè)單詞都標(biāo)注了詞性。以《同義詞詞林》為基礎(chǔ),按照上下文信息標(biāo)注了每個(gè)詞匯的語(yǔ)義類別。以該人工語(yǔ)義標(biāo)注語(yǔ)料為基礎(chǔ),統(tǒng)計(jì)消歧特征的頻率F,如表1所示。

      表1 消歧特征的頻率Table 1 Frequency of disambiguation features

      本文利用詞義消歧特征的頻率來判別歧義詞的真實(shí)含義。統(tǒng)計(jì)12個(gè)消歧特征的頻率,F(xiàn)(WL2)、F(PL2)、F(SL2)、F(WL1)、F(PL1)、F(SL1)、F(WR1)、F(PR1)、F(SR1)、F(WR2)、F(PR2)、F(SR2),得到詞義消歧特征向量Efeature=(F(WL2),F(PL2),F(SL2),F(WL1),F(PL1),F(SL1),F(WR1),F(PR1),F(SR1),F(WR2),F(PR2),F(SR2))。

      2 基本詞義消歧模型

      歧義詞w具有m個(gè)語(yǔ)義類sk=k(k=1, 2,…,m)。其消歧特征向量為Efeature。本文使用邏輯回歸(logistic regression,LR)模型、梯度提升決策樹(gradient boosting decision tree,GBDT)和支持向量機(jī)(support vector machine,SVM)來確定歧義詞w的語(yǔ)義類別。

      2.1 基于邏輯回歸模型的詞義消歧

      (1)

      從語(yǔ)義標(biāo)注語(yǔ)料中,抽取包含歧義詞w的漢語(yǔ)句子。從每一個(gè)漢語(yǔ)句子中,抽取歧義詞w的特征向量。歧義詞w的特征向量和標(biāo)注的語(yǔ)義類別構(gòu)成二元組。將歧義詞w的所有二元組搜集起來形成集合L。利用L來計(jì)算交叉熵代價(jià)函數(shù)J(θk):

      (1-u)lb(1-FLR(Efeature))]

      (2)

      式中:Lk=L,(Efeature,u)∈Lk,u∈{0, 1}。當(dāng)歧義詞w的語(yǔ)義類為sk時(shí),u的值為1;w的語(yǔ)義類不為sk時(shí),u的值為0。

      (3)

      歧義詞w不屬于語(yǔ)義類sk的概率:

      (4)

      邏輯回歸詞義消歧模型為FLR(Efeature),選擇具有最大概率的語(yǔ)義類作為歧義詞w的預(yù)測(cè)語(yǔ)義類別:

      (5)

      2.2 基于梯度提升決策樹的詞義消歧

      (6)

      1)初始化梯度提升決策樹。

      (7)

      2)采用向前分布算法,得到第n步的模型:

      (8)

      (9)

      其中,(Efeature,u)∈Lk,u∈{0, 1}。當(dāng)歧義詞w的語(yǔ)義類為sk時(shí),u的值為1;w的語(yǔ)義類不為sk時(shí),u的值為0。Loss為損失函數(shù),采用平方差誤差損失函數(shù)來進(jìn)行計(jì)算:

      (10)

      使用softmax函數(shù)來計(jì)算w屬于語(yǔ)義類sk的概率,選擇具有最大概率的語(yǔ)義類作為歧義詞w的預(yù)測(cè)語(yǔ)義類別?;谔荻忍嵘龥Q策樹的詞義消歧模型FGD(Efeature)為:

      (11)

      2.3 基于支持向量機(jī)的詞義消歧

      對(duì)于歧義詞w而言,設(shè)計(jì)m個(gè)二類SVM模型FSVM1(Efeature、FSVM2(Efeature)、…、FSVMm(Efeature)來進(jìn)行消歧。其中,F(xiàn)SVMk(Efeature)用于判別歧義詞w是否屬于語(yǔ)義類別sk:

      (12)

      式中:wk為分類超平面的法向量;bk為分類超平面截距;sgn為符號(hào)函數(shù)。

      (13)

      使用softmax函數(shù)來計(jì)算w屬于語(yǔ)義類sk的概率,選擇具有最大概率的語(yǔ)義類作為歧義詞w的預(yù)測(cè)語(yǔ)義類別。SVM詞義消歧模型FSVM(Efeature):

      (14)

      3 半監(jiān)督集成詞義消歧

      分類模型會(huì)根據(jù)自己學(xué)習(xí)到的知識(shí)來對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)測(cè)。本文運(yùn)用軟投票策略來融合FLR(Efeature)、FGD(Efeature)和FSVM(Efeature),獲取集成詞義消歧模型FEN(Efeature)。在確定歧義詞w的語(yǔ)義類別時(shí),不但考慮了少數(shù)服從多數(shù)的原則,而且考慮了模型對(duì)語(yǔ)義類別的概率分布。基于軟投票集成的詞義消歧過程如下:

      輸入:歧義詞w的特征向量Efeature,

      輸出:歧義詞w的語(yǔ)義類別S。

      (15)

      (16)

      P=(P(sk|w,FLR)+P(sk|w,FGD)+

      P(sk|w,FSVM))/3。

      (17)

      5)集成分類器為:

      P(sk|w,FGD)+P(sk|w,FSVM))/3

      (18)

      選擇具有最大概率的語(yǔ)義類作為歧義詞w的預(yù)測(cè)語(yǔ)義類別。

      從語(yǔ)義標(biāo)注語(yǔ)料中,抽取包含歧義詞w的漢語(yǔ)句子。從每一個(gè)漢語(yǔ)句子中,抽取歧義詞w的特征向量。歧義詞w的特征向量和標(biāo)注的語(yǔ)義類別構(gòu)成二元組。將歧義詞w的所有二元組搜集起來形成集合L。從無標(biāo)注語(yǔ)料中,抽取包含歧義詞w的漢語(yǔ)句子。從每一個(gè)漢語(yǔ)句子中,抽取歧義詞w的特征向量。將歧義詞w的所有特征向量搜集起來形成集合U。基于半監(jiān)督集成學(xué)習(xí)的詞義消歧分類器的訓(xùn)練過程:

      輸入:語(yǔ)義標(biāo)注集合L和無語(yǔ)義標(biāo)注集合U。

      輸出:詞義消歧分類器FEN(Efeature)。

      3)L=L∪{(t,FEN(t))},U=U-{t}。

      4)若U不為空集,則重復(fù)執(zhí)行步驟1到步驟4);否則,執(zhí)行步驟5)。

      5)輸出優(yōu)化后的詞義消歧分類器FEN(Efeature)。

      4 實(shí)驗(yàn)結(jié)果與分析

      采用SemEval-2007: Task#5的訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料來度量本文所提出方法的性能。從SemEval-2007: Task#5中,選取28個(gè)常用的歧義詞。其中,具有2種語(yǔ)義類的歧義詞共有16個(gè),分別為“表面”、“菜”、“單位”、“動(dòng)搖”、“兒女”、“機(jī)組”、“鏡頭”、“開通”、“氣息”、“氣象”、“使”、“推翻”、“望”、“眼光”、“震驚”、“中醫(yī)”。具有3種語(yǔ)義類的歧義詞共有9個(gè),分別為“補(bǔ)”、“本”、“成立”、“隊(duì)伍”、“旗幟”、“日子”、“天地”、“挑”、“長(zhǎng)城”。具有4種語(yǔ)義類的歧義詞共有3個(gè),分別為“吃”、“動(dòng)”、“叫”。共進(jìn)行了8組實(shí)驗(yàn)來度量本文所提出方法的性能。在這8組實(shí)驗(yàn)中,都選擇了歧義詞左右鄰接的4個(gè)詞匯單元的詞形、詞性和語(yǔ)義類作為消歧特征。

      實(shí)驗(yàn)1采用FLR(Efeature)作為詞義消歧分類模型。實(shí)驗(yàn)2利用FGD(Efeature)進(jìn)行詞義消歧。實(shí)驗(yàn)3采用FSVM(Efeature)作為詞義消歧分類模型。實(shí)驗(yàn)4利用FEN(Efeature)進(jìn)行詞義消歧。使用SemEval-2007: Task#5的訓(xùn)練語(yǔ)料來優(yōu)化這4組實(shí)驗(yàn)的詞義消歧模型。實(shí)驗(yàn)1到實(shí)驗(yàn)4采用有監(jiān)督學(xué)習(xí)方法來訓(xùn)練詞義消歧分類器。利用優(yōu)化后的FLR(Efeature)、FGD(Efeature)、FSVM(Efeature)和FEN(Efeature)對(duì)SemEval-2007: Task#5的測(cè)試語(yǔ)料進(jìn)行語(yǔ)義分類。

      采用SemEval-2007提供的評(píng)測(cè)指標(biāo)來進(jìn)行評(píng)測(cè),計(jì)算過程為:

      (19)

      式中:N為所有目標(biāo)歧義詞匯數(shù)目;mi是第i個(gè)歧義詞匯正確分類的測(cè)試句子數(shù);ni是包含第i個(gè)歧義詞的所有測(cè)試句子數(shù);pi為第i個(gè)歧義詞的消歧準(zhǔn)確率;pavg為詞義消歧的平均準(zhǔn)確率。

      實(shí)驗(yàn)1~4的消歧準(zhǔn)確率如表2所示。

      表2 實(shí)驗(yàn)1~4的消歧準(zhǔn)確率Table 2 Disambiguation accuracy from experiment 1~4 %

      實(shí)驗(yàn)4的消歧平均準(zhǔn)確率達(dá)到了70.80%,比實(shí)驗(yàn)1提高了13.20%,比實(shí)驗(yàn)2提高了4.40%,比實(shí)驗(yàn)3提高了15.40%。其原因在于:實(shí)驗(yàn)4采用軟投票對(duì)邏輯回歸模型、梯度提升決策樹和SVM模型進(jìn)行集成,綜合了各種分類模型的優(yōu)點(diǎn),取長(zhǎng)補(bǔ)短,其消歧效果要比單一分類模型好。

      實(shí)驗(yàn)5~8利用本文所提出的方法來進(jìn)行詞義消歧。以SemEval-2007: Task#5的訓(xùn)練語(yǔ)料為基礎(chǔ),結(jié)合哈爾濱工業(yè)大學(xué)無標(biāo)注語(yǔ)料使用本文所提出的方法來優(yōu)化集成分類器FEN(Efeature)。在訓(xùn)練結(jié)束后,獲得了優(yōu)化的集成分類器FEN(Efeature)。同時(shí),也得到了半監(jiān)督學(xué)習(xí)下的優(yōu)化的FLR(Efeature)、FGD(Efeature)和FSVM(Efeature)。實(shí)驗(yàn)5利用半監(jiān)督學(xué)習(xí)獲得的FLR(Efeature)作為詞義消歧分類器。實(shí)驗(yàn)6使用半監(jiān)督學(xué)習(xí)獲得的FGD(Efeature)進(jìn)行詞義消歧。實(shí)驗(yàn)7利用半監(jiān)督學(xué)習(xí)獲得的FSVM(Efeature)作為詞義消歧分類器。實(shí)驗(yàn)8使用半監(jiān)督學(xué)習(xí)獲得的FEN(Efeature)進(jìn)行詞義消歧。在實(shí)驗(yàn)5~8中,分別對(duì)SemEval-2007: Task#5的測(cè)試語(yǔ)料進(jìn)行語(yǔ)義分類。實(shí)驗(yàn)5~8的消歧準(zhǔn)確率如表3所示。

      表3 實(shí)驗(yàn)5~8的消歧準(zhǔn)確率Table 3 Disambiguation accuracy from experiment 5~8 %

      對(duì)比表2和表3可以看出:實(shí)驗(yàn)5的平均消歧準(zhǔn)確率比實(shí)驗(yàn)1提高了0.10%;實(shí)驗(yàn)6的平均消歧準(zhǔn)確率比實(shí)驗(yàn)2提高了3.60%;實(shí)驗(yàn)7的平均消歧準(zhǔn)確率比實(shí)驗(yàn)3提高了0.40%;實(shí)驗(yàn)8的平均消歧準(zhǔn)確率比實(shí)驗(yàn)4提高了2.0%。其原因?yàn)椋簩?shí)驗(yàn)1到實(shí)驗(yàn)4是以人工語(yǔ)義標(biāo)注語(yǔ)料為基礎(chǔ),采用有監(jiān)督學(xué)習(xí)方法來優(yōu)化詞義消歧模型。大規(guī)模人工標(biāo)注語(yǔ)料的語(yǔ)義類別是極其困難的,因此,實(shí)驗(yàn)1~4所獲取的語(yǔ)言學(xué)知識(shí)將是有限的。實(shí)驗(yàn)5~8是以人工語(yǔ)義標(biāo)注語(yǔ)料為基礎(chǔ),結(jié)合大量無標(biāo)注語(yǔ)料采用半監(jiān)督學(xué)習(xí)方法來優(yōu)化詞義消歧模型。大量無標(biāo)注語(yǔ)料是比較容易獲得的,其中蘊(yùn)含了豐富的語(yǔ)言學(xué)知識(shí),能夠?yàn)樵~義消歧過程提供指導(dǎo)信息。因此,實(shí)驗(yàn)5的平均消歧準(zhǔn)確率要高于實(shí)驗(yàn)1,實(shí)驗(yàn)6的平均消歧準(zhǔn)確率要高于實(shí)驗(yàn)2,實(shí)驗(yàn)7的平均消歧準(zhǔn)確率要高于實(shí)驗(yàn)3,實(shí)驗(yàn)8的平均消歧準(zhǔn)確率要高于實(shí)驗(yàn)4。

      在實(shí)驗(yàn)5~8中,分別統(tǒng)計(jì)具有2種、3種和4種語(yǔ)義類的詞匯的平均消歧準(zhǔn)確率,如圖2所示。

      圖2 在不同語(yǔ)義類別數(shù)下實(shí)驗(yàn)5~8的平均消歧準(zhǔn)確率Fig.2 Average disambiguation accuracy under different number of sense categories from experiment 5~8

      從圖2中可以看出:在2種、3種和4種語(yǔ)義類下,F(xiàn)EN(Efeature)的平均消歧準(zhǔn)確率要好于FLR(Efeature)、FGD(Efeature)和FSVM(Efeature)。

      5 結(jié)論

      1)本文所提出方法的消歧性能要優(yōu)于邏輯回歸模型、梯度提升決策樹和支持向量機(jī),能夠更準(zhǔn)確地確定歧義詞匯的語(yǔ)義類別。

      2)根據(jù)實(shí)驗(yàn)論證能夠證明本文提出的方法具有一定的優(yōu)勢(shì),能夠更加準(zhǔn)確地確定中文歧義詞的具體含義,可以應(yīng)用到中文消歧的實(shí)踐中。

      猜你喜歡
      消歧歧義特征向量
      命名實(shí)體消歧研究綜述
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
      克羅內(nèi)克積的特征向量
      基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
      eUCP條款歧義剖析
      一類特殊矩陣特征向量的求法
      藏文歷史文獻(xiàn)識(shí)別過程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
      EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
      English Jokes: Homonyms
      “那么大”的語(yǔ)義模糊與歧義分析
      志丹县| 凤山市| 英德市| 隆德县| 友谊县| 东城区| 锡林浩特市| 望奎县| 二连浩特市| 松阳县| 东阳市| 博兴县| 湖南省| 永宁县| 新闻| 于田县| 昭觉县| 新兴县| 铅山县| 翁牛特旗| 通辽市| 陕西省| 陆川县| 吉安市| 湖口县| 皮山县| 石林| 明光市| 镇雄县| 平谷区| 南丰县| 光泽县| 青川县| 广西| 扎赉特旗| 奉新县| 抚远县| 德化县| 奉贤区| 安徽省| 阿巴嘎旗|