• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于詞向量的無監(jiān)督詞義消歧方法

      2018-12-10 09:13:16呂曉偉章露露
      軟件導(dǎo)刊 2018年9期
      關(guān)鍵詞:機(jī)器翻譯自然語言處理

      呂曉偉 章露露

      摘要 詞義消歧在多個(gè)領(lǐng)域有重要應(yīng)用。基于Lesk及其改進(jìn)算法是無監(jiān)督詞義消歧研究的典型代表,但現(xiàn)有算法多基于上下文與義項(xiàng)詞覆蓋,通常未考慮上下文中詞與歧義詞的距離影響。為此提出一種基于詞向量的詞義消歧方法,利用向量表示上下文以及義項(xiàng),并考慮融合上下文與義項(xiàng)的語義相似度及義項(xiàng)分布頻率進(jìn)行詞義消歧。在Senseval-3數(shù)據(jù)集上測試,結(jié)果表明,該方法能有效實(shí)現(xiàn)詞義消歧。

      關(guān)鍵詞 詞義消歧;詞向量;自然語言處理;機(jī)器翻譯;Word2vec

      DOIDOI:10.11907/rjdk.181100

      中圖分類號(hào):TP391

      文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)009019303

      英文標(biāo)題Unsupervised Word Disambiguation Method Based on Word Embeddings

      --副標(biāo)題

      英文作者LV Xiaowei,ZHANG Lulu

      英文作者單位(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)

      英文摘要Abstract:Word sense disambiguation have important applications in many fields.Lesk algorithm and its improved algorithm are typical representatives of unsupervised wordsense disambiguation.However,most of the existing algorithms are mostly based on word coverage of context and gloss.In addition,the effect of distance between ambiguous words and word in context is not considered.This paper proposes a method of wordsense disambiguation based on word vectors,which uses vectors to represent contexts and gloss and also considers combined semantic similarity between context and gloss with the distribution frequency of gloss.The test results on the Senseval3 dataset show that this method can effectively achieve wordsense disambiguation.

      英文關(guān)鍵詞Key Words:word sense disambiguation; word embedding; natural language processing;machine translation;Word2vec

      0引言

      在自然語言中存在大量一詞多義現(xiàn)象,這些詞被稱為歧義詞。詞義消歧指在給定的語境中識(shí)別歧義詞的正確含義[1]。詞義消歧是自然語言處理領(lǐng)域的基礎(chǔ)研究,也是核心研究,在機(jī)器翻譯、語音識(shí)別、文本分類、信息檢索等方面有著十分重要的作用。

      目前,解決詞義消歧任務(wù)主要有4種方法[2]:①基于知識(shí)的方法,②基于語料庫的無監(jiān)督方法,③基于語料庫的有監(jiān)督方法,④組合以上方法的方法。基于知識(shí)的方法主要使用豐富且系統(tǒng)的語義知識(shí)庫進(jìn)行消歧,例如《知網(wǎng)》[3]、WordNet[4]等;基于語料庫的有監(jiān)督方法使用經(jīng)過標(biāo)注的語料庫進(jìn)行消歧。有監(jiān)督的方法消歧效果較好,但這種方法需要人工標(biāo)注語料庫,現(xiàn)實(shí)中大量人工標(biāo)注的語料庫往往難以獲取,故多數(shù)特定場合難以采用此方式。

      基于語料庫的無監(jiān)督方法使用未經(jīng)標(biāo)注的語料庫進(jìn)行消歧,典型代表為Lesk算法[5]。該算法利用機(jī)讀詞典,將歧義詞的每個(gè)義項(xiàng)與上下文中詞的每個(gè)義項(xiàng)進(jìn)行匹配,單詞覆蓋的最多義項(xiàng)為該歧義詞上下文中的正確含義。

      Lesk算法雖能進(jìn)行詞義消歧任務(wù),但存在兩個(gè)問題[7]:①計(jì)算單詞覆蓋度的次數(shù)與概念中的單詞數(shù)量有關(guān),單詞數(shù)量越多,計(jì)算次數(shù)越多;②詞匯覆蓋只是基于義項(xiàng)中詞匯的共現(xiàn)。針對(duì)第一個(gè)問題,有研究者提出簡化版的Lesk算法[8]:將歧義詞的各個(gè)義項(xiàng)分別與歧義詞所在的上下文計(jì)算單詞的覆蓋度,覆蓋度最大的義項(xiàng)為最佳含義。針對(duì)第二個(gè)問題,有研究者[9]提出根據(jù)語義相關(guān),使用WordNet作為語義網(wǎng)絡(luò),擴(kuò)充歧義詞各個(gè)義項(xiàng),以增加覆蓋度。王永生[10]以WordNet為基礎(chǔ),使用CBC算法擴(kuò)充目標(biāo)詞的相似詞集合進(jìn)行詞義消歧。Pierpaolo Basile等[11]考慮擴(kuò)展后的義項(xiàng)頻率等信息,并在分布語義空間中計(jì)算相似度以消歧?;诟倪M(jìn)的Lesk算法,通過不同方式擴(kuò)展同義詞、義項(xiàng),再與上下文計(jì)算相似度進(jìn)行消歧。

      隨著Word2vec、Glove的提出以及普及,大量研究者使用詞向量[6]完成自然語言處理中的許多任務(wù),詞義消歧任務(wù)也不例外。

      詞向量是使用一個(gè)向量表示一個(gè)詞。目前,有兩種詞向量表達(dá)方式:① onehot representation方式;②Distributed representation[12]。onehot representation方式表示的詞向量非常簡單,向量的長度為辭典大小,向量中的每一維由0或1表示,詞在辭典中對(duì)應(yīng)的維為1,其它為0。這種方式雖然可簡單表示一個(gè)詞,但不能有效表達(dá)詞之間的詞義信息,而且存在數(shù)稀疏問題。Distributed representation這種方式能很好地克服onehot representation方式的兩個(gè)缺點(diǎn)。該方法將一個(gè)詞映射到一個(gè)實(shí)數(shù)向量空間中,一般為100~300維,這種方法使得詞義之間的相似性可以用空間距離表示,兩個(gè)詞向量的空間距離越近,表示兩個(gè)詞的相似性越高。

      Google公司2013年開放了Word2vec[16]這一可以訓(xùn)練詞向量的工具。Word2vec以大量文本訓(xùn)練語料作為輸入,通過訓(xùn)練模型快速有效地將一個(gè)詞語表達(dá)成向量形式。該工具包含CBOW和Skip_gram兩種訓(xùn)練模型。CBOW模型通過上下文預(yù)測當(dāng)前詞,Skip_gram模型通過當(dāng)前詞預(yù)測其上下文。Word2vec開放后,有研究者使用Word2vec訓(xùn)練所得的詞向量進(jìn)行詞義消歧實(shí)驗(yàn)。楊安等[13]考慮義項(xiàng)與上下文相似度分?jǐn)?shù)、領(lǐng)域相關(guān)性分?jǐn)?shù)、WordNet相似度分?jǐn)?shù)以及義項(xiàng)頻度分?jǐn)?shù)4種因素進(jìn)行消歧。Kaveh Taghipour[14]等結(jié)合IMS系統(tǒng),加入詞向量進(jìn)行消歧。

      上述方法考慮了擴(kuò)展注釋、相似詞集、參考領(lǐng)域信息、利用語義網(wǎng)絡(luò)等因素,但是未考慮上下文中詞與歧義詞的距離對(duì)消歧的影響。本文使用文檔向量表示歧義詞所在的上下文,使用義項(xiàng)向量表示歧義詞的各個(gè)義項(xiàng),進(jìn)行詞義消歧。同時(shí)考慮到義項(xiàng)頻度對(duì)消歧的準(zhǔn)確度影響,最終實(shí)現(xiàn)無監(jiān)督詞義消歧方法。通過在Senseval3數(shù)據(jù)集上測試,表明本文方法能有效實(shí)現(xiàn)詞義消歧。

      1基于詞向量的詞義消歧方法

      1.1方法描述

      本文提出的詞義消歧方法主要思想是,使用向量分別表示歧義詞的各個(gè)義項(xiàng)及歧義詞所在的上下文,分別計(jì)算向量表示的上下文與歧義詞的各個(gè)義項(xiàng)之間的相似度,再計(jì)算歧義詞各個(gè)義項(xiàng)的分布頻率,結(jié)合相似度以及義項(xiàng)頻度,選擇出歧義詞的最佳含義。消歧步驟如下:①數(shù)據(jù)預(yù)處理;②上下文以及義項(xiàng)的向量表示;③上下文-義項(xiàng)相似度計(jì)算;④義項(xiàng)分布;⑤最終詞義選擇。如圖1所示。

      在數(shù)據(jù)預(yù)處理步驟中,本文只進(jìn)行去標(biāo)點(diǎn)、分詞、大寫轉(zhuǎn)換小寫操作,得到歧義詞的上下文,后續(xù)分別描述上下文及義項(xiàng)的向量表示、上下文-義項(xiàng)相似度計(jì)算、義項(xiàng)分布以及最終詞義選擇。

      1.2上下文及義項(xiàng)向量表示

      直觀來看,若上下文中的詞距離歧義詞越近,對(duì)歧義詞正確含義的判定影響就越大。為體現(xiàn)上下文中詞與歧義詞距離的影響,本文采用局部加權(quán)法計(jì)算上下文中詞相對(duì)歧義詞的位置權(quán)重。如公式(1)所示。

      wi=e(-|xi-t|2τ2),xi∈|C|(1)

      式(1)中,wi表示上下文中第i個(gè)詞位置權(quán)重,xi表示上下文中第i個(gè)詞位置,t表示歧義詞位置,|C|表示上下文大小,τ2是調(diào)節(jié)參數(shù),表示上下文中的詞相對(duì)歧義詞位置的權(quán)重關(guān)系,距離關(guān)鍵詞距離越近,權(quán)重越大。

      在定義位置權(quán)重基礎(chǔ)上,上下文向量計(jì)算公式如下:

      ci=∑nie1i·wi,wi∈0,C(2)

      式(2)中,ci表示第i篇上下文的向量表示,wi表示上下文中第i個(gè)詞的位置權(quán)重,e1表示上下文向量,e1i表示上下文詞集中第i個(gè)詞的詞向量,|C|表示歧義詞所在上下文的大小。

      各個(gè)義項(xiàng)的向量計(jì)算如下:

      gi=∑ni∈ae2i(3)

      式(3)中,gi表示歧義詞第i個(gè)義項(xiàng)的向量表示,a表示義項(xiàng)中的詞,e2表示義項(xiàng)向量,e2i表示義項(xiàng)中的第i個(gè)詞的詞向量。

      1.3上下文-義項(xiàng)相似度計(jì)算

      本文使用余弦相似度判斷上下文與各個(gè)義項(xiàng)的相似度。公式(4)為余弦相似度計(jì)算公式。

      cos(c,gi)=c·gi‖c‖·‖gi‖(4)

      式(4),cos(c,gi)表示上下文向量與歧義詞第i個(gè)義項(xiàng)的余弦相似度,c表示上下文向量,gi表示第i個(gè)義項(xiàng)的義項(xiàng)向量。

      1.4義項(xiàng)分布頻率

      義項(xiàng)分布頻率指歧義詞的各個(gè)義項(xiàng)在包含該歧義詞的文檔中出現(xiàn)的概率。根據(jù)式(5)計(jì)算各個(gè)義項(xiàng)分布概率:

      Pi=niN(5)

      式(5)中,N表示包含該歧義詞的上下文數(shù)量, ni表示在上下文中歧義詞的含義是第i個(gè)義項(xiàng)的上下文數(shù)目。

      1.5最終詞義選擇

      最佳義項(xiàng)選擇采用評(píng)分方式,對(duì)上下文和義項(xiàng)的相似度以及義項(xiàng)頻度綜合考慮。根據(jù)公示(6)計(jì)算每一個(gè)義項(xiàng)得分,最高得分的義項(xiàng)為歧義詞在該上下文的最佳含義。

      scorei=a·cos(c,gi)+b·Pi(6)

      式(6)中,a、b是參數(shù),本文方法中a=b=0.5。

      2實(shí)驗(yàn)

      本文使用維基百科數(shù)據(jù)集,采用Word2vec訓(xùn)練詞向量,使用CBOW模型,窗口大小為5,詞向量維度為300。

      本文使用Senseval3數(shù)據(jù)集,該數(shù)據(jù)集包含57個(gè)歧義詞,其中動(dòng)詞32個(gè),名詞20個(gè),形容詞5個(gè)。訓(xùn)練集包含7 860篇文檔,測試集包含3 944篇文檔,每個(gè)詞平均義項(xiàng)為6.473個(gè),義項(xiàng)分布頻率在Senseval3數(shù)據(jù)集中得到。使用本文方法在Senseval3測試集上測試,并與基于改進(jìn)的Lesk算法[15] (L1)及文獻(xiàn)[10]中的方法(L2)進(jìn)行對(duì)比,本文方法使用L3表示,結(jié)果見表1。

      使用本文方法全部詞的平均準(zhǔn)確率達(dá)到0.558,高于文獻(xiàn)[15]中改進(jìn)的Lesk算法準(zhǔn)確度,也高于文獻(xiàn)[10]中沒有使用義項(xiàng)頻度只計(jì)算名詞消歧的準(zhǔn)確度,表明本文考慮上下文中詞與歧義詞的距離及融合義項(xiàng)頻度方法有效。

      3結(jié)語

      語義消歧在機(jī)器翻譯、語音識(shí)別、文本分類、信息檢索等方面有著十分重要的作用??紤]歧義詞周圍詞語對(duì)歧義詞正確含義判定的影響,以及歧義詞各個(gè)義項(xiàng)在數(shù)據(jù)集中出現(xiàn)的概率,使用詞向量進(jìn)行消歧,消歧效果優(yōu)于改進(jìn)的Lesk算法。歧義詞的有些義項(xiàng)在數(shù)據(jù)集中并不存在,消歧準(zhǔn)確率還有進(jìn)一步提升空間。下一步擬研究更準(zhǔn)確的歧義詞義項(xiàng)概率及用更準(zhǔn)確的方法表示上下文以及歧義詞義項(xiàng)方法。

      參考文獻(xiàn)參考文獻(xiàn):

      [1]NAVIGLI R.Word sense disambiguation:asurvey[J].ACM Computing Surveys,2009,42(2):169.

      [2]AGIRRE E,EDMONNDS P.Word sense disambiguation[J].Algorithm and Application,2007(10):128.

      [3]董振東,董強(qiáng).知網(wǎng)和漢語研究[J].當(dāng)代語言學(xué),2001,3(1):3344.

      [4]FELLBAUM C.WordNet: An electronic lexical database[M].Cambridge:MIT press,1998.

      [5]LESK M.Automatic sense disambiguation using machine readable dictionaries:how to tell a pine cone from an ice cream cone[C].Proceedings of the 5th Annual International Conference on Systems Documentation,1986:2426.

      [6]蔣振超,李麗雙,黃德根,等.基于詞語關(guān)系的詞向量模型[J].中文信息學(xué)報(bào),2017,31(3):2531.

      [7]BASILE P,CAPUTO A,SEMERARO G.An enhanced Lesk word sense disambiguation algorithm through a distributional semantic model[C].International Conference on Roceedings of Coling,2014.

      [8]KILGARRIFF A,ROSENZWEING J.Framework and Results for English SENSEVAL[J].Computers and the Humanities,2000,34(12):1548.

      [9]BANERJEE S,PEDERSEN T.An adapted Lesk algorithm for word sense disambiguation using WordNet[J].Computational Linguistics and Intelligent Text Processing,2002(2276) 136145.

      [10]王永生.基于改進(jìn)的Lesk算法的詞義排歧算法[J].微型機(jī)與應(yīng)用,2013 (24):6971.

      [11]BASILE P,CAPUTO A,SEMERARO G.An enhanced Lesk word sense disambiguation algorithm through a distributional semantic model[C].International Conference on Roceedings of Coling,2014.

      [12]HINTON G E.Learning distributed representation of concepts.[C].Proceedings of CogSci,1986:112.

      [13]楊安,李素建,李蕓.基于領(lǐng)域知識(shí)和詞向量的詞義消歧方法[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2017,53 (2):204210.

      [14]TAGHIPOUR K,NG H T.Semisupervised word sense disambiguation using word embeddings in general and specific domains[J].The 2015 Annual Conference of the North American Chapter of the ACL,2015(5):314323.

      [15]BASILE P,CAPUTO A,SEMERARO G.An enhanced Lesk word sense disambiguation algorithm through a distributional semantic model[C].International Conference on Roceedings of Coling,2014.

      [16]周練.Word2vec的工作原理及應(yīng)用探究[J].圖書情報(bào)導(dǎo)刊,2015(2):145148.

      責(zé)任編輯(責(zé)任編輯:杜能鋼)

      猜你喜歡
      機(jī)器翻譯自然語言處理
      互聯(lián)網(wǎng)+新時(shí)代下人機(jī)翻譯模式研究
      考試周刊(2017年2期)2017-01-19 09:13:50
      “語聯(lián)網(wǎng)+行業(yè)” 助力中國偉大復(fù)興
      考試周刊(2017年2期)2017-01-19 09:12:54
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      大數(shù)據(jù)背景下石油科技翻譯
      機(jī)器翻譯不可盲取
      面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
      基于免費(fèi)在線翻譯工具的機(jī)器翻譯缺陷探討
      詞向量的語義學(xué)規(guī)范化
      漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
      科技視界(2016年5期)2016-02-22 11:41:39
      峨眉山市| 惠州市| 探索| 叙永县| 基隆市| 湟源县| 余干县| 凤城市| 南郑县| 萨嘎县| 扶沟县| 柳河县| 龙南县| 贡觉县| 农安县| 锦屏县| 额尔古纳市| 治县。| 綦江县| 页游| 深泽县| 永吉县| 徐闻县| 建瓯市| 阳城县| 洞口县| 宁都县| 桂林市| 永吉县| 辉南县| 万荣县| 内黄县| 清镇市| 荆州市| 衡阳县| 水富县| 桃园县| 汉川市| 华亭县| 岳普湖县| 两当县|