• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于共同語(yǔ)境的近義詞/同義詞短語(yǔ)查找模型

      2021-07-28 12:36:48晨,張宇,胡
      關(guān)鍵詞:近義詞后綴語(yǔ)料庫(kù)

      石 晨,張 宇,胡 博

      1.東南大學(xué),南京211189

      2.浙江警察學(xué)院,杭州310053

      近義詞短語(yǔ)和同義詞短語(yǔ)無(wú)監(jiān)督查找文本挖掘和搜索引擎到語(yǔ)義分析,以及機(jī)器翻譯等多種應(yīng)用都很有用。同義詞具有不同程度的相似性,從完全的語(yǔ)境替代或絕對(duì)同義詞到近義詞或詞語(yǔ)辯析體現(xiàn)了相似性的由高至低[1-2]。文獻(xiàn)[3]總結(jié)了在意義上接近而不能完全替換,但在其外延、內(nèi)涵、含義、重點(diǎn)或表達(dá)的深意有所變化的詞語(yǔ)(近義詞)的定義。以上這些定義可以擴(kuò)展到多詞短語(yǔ),例如“極難”可以擴(kuò)展為“非常具有挑戰(zhàn)性”;同義詞是一個(gè)比一般的釋義任務(wù)更窄的子集,因?yàn)楹笳呖梢园喾N形式的語(yǔ)義關(guān)系。

      近義詞短語(yǔ)的提取在諸如自然語(yǔ)言處理(Natural Language Processing,NLP)、信息檢索、文本摘要、機(jī)器翻譯和其他人工智能應(yīng)用等領(lǐng)域具有極其重要的意義。盡管查找單個(gè)詞或常見(jiàn)的封閉詞組的近義詞可能只需要查找同義詞庫(kù),但查找近義的多詞短語(yǔ)一般需要一個(gè)基于對(duì)大型語(yǔ)料庫(kù)的分析生成過(guò)程。例如,采用本文方法查找“it is fair to say”的近義詞如下:“it’s safe to say”“we all understand”“it’s pretty clear”“we believe”“it’s well known”“it’s commonly accepted”等。盡管這些短語(yǔ)的含義非常接近,但對(duì)于構(gòu)成它們各自許多相應(yīng)的單詞來(lái)說(shuō),卻并不是這樣;此外,對(duì)于專(zhuān)有名詞,采用本文方法還可找到正字法(拼字正確的)變體(最好的同義詞)以及描述性近義詞。例如,對(duì)于“Al Qaeda”,會(huì)查找出“Al Qaida”“Al-Qaeda network”“jihadist group”“terrorist organization”“Bin Laden’s followers”;顯然,近義詞短語(yǔ)有助于文本挖掘,例如在文本語(yǔ)料庫(kù)或文本流中發(fā)現(xiàn)感興趣的實(shí)體,以及在大型和各種各樣的自然語(yǔ)料庫(kù)中發(fā)現(xiàn)以不同方式表達(dá)的關(guān)系。

      近年來(lái),近義詞的重要性引起了人們的關(guān)注。文獻(xiàn)[4]提出在許多任務(wù)中處理Twitter 摘要。近義詞在信息檢索中顯得至關(guān)重要,特別是回憶很重要的事情時(shí),這時(shí)搜索查詢(xún)的近義詞可能具有極高的價(jià)值。例如,如果一個(gè)人想要“廉價(jià)住房”,則搜索“負(fù)擔(dān)得起的住房”可能是有用的。如果查找“心臟病發(fā)作”,也可以通過(guò)擴(kuò)展查詢(xún),搜索“心臟驟?!被颉靶牧λソ摺?。盡管搜索引擎可以自動(dòng)提供擴(kuò)展搜索,但就人們所能觀察和理解而言,只有通過(guò)高度相關(guān)的單個(gè)詞替換才能實(shí)現(xiàn);此外,為了模擬短語(yǔ)敘詞表,由于預(yù)編譯的數(shù)據(jù)庫(kù)[5]無(wú)論大小如何,都不能實(shí)現(xiàn)完全覆蓋,因此實(shí)時(shí)(可擴(kuò)展)系統(tǒng)是必不可少的。

      文獻(xiàn)[6]基于向量空間模型(Vector Space Model,VSM)相似度算法和《知網(wǎng)》相似度算法,針對(duì)TF-IDF算法計(jì)算權(quán)重時(shí)融入特征項(xiàng)位置因素、彌補(bǔ)詞頻統(tǒng)計(jì)過(guò)于片面的問(wèn)題,提出了VSM 與《知網(wǎng)》語(yǔ)義理解相結(jié)合的相似度計(jì)算模型,即把相同和相似的詞語(yǔ)作為空間坐標(biāo)的同一維度,計(jì)算相似度時(shí)融入詞語(yǔ)語(yǔ)義相似度。這樣既彌補(bǔ)了VSM 在語(yǔ)義層面的不足,又彌補(bǔ)了《知網(wǎng)》詞語(yǔ)相似度算法忽略詞語(yǔ)重要程度的缺陷;為解決一詞多義等詞匯歧義問(wèn)題,文獻(xiàn)[7]提出了一種基于低維向量組合的語(yǔ)義向量模型。模型引入了知識(shí)庫(kù)與語(yǔ)料庫(kù)的多語(yǔ)義特征的融合,主要的語(yǔ)義融合對(duì)象包括連續(xù)的分布式詞向量和來(lái)自于WordNet 結(jié)構(gòu)中的語(yǔ)義特征信息。首先利用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,預(yù)先從文本語(yǔ)料中學(xué)習(xí)得到連續(xù)的低維詞向量,然后從知識(shí)庫(kù)WordNet中抽取多種語(yǔ)義信息和關(guān)系信息,再將多語(yǔ)義信息融入到詞向量進(jìn)行知識(shí)擴(kuò)展和強(qiáng)化,生成語(yǔ)義向量,從而實(shí)現(xiàn)基于向量空間的語(yǔ)義相似性度量方法。實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于基于單一信息源(知識(shí)庫(kù)WordNet 或文本語(yǔ)料)的語(yǔ)義相似性度量方法;文獻(xiàn)[8-9]提出了擴(kuò)展統(tǒng)計(jì)語(yǔ)言模型和神經(jīng)語(yǔ)言模型,模型根據(jù)之前見(jiàn)過(guò)的單詞,基于2~10-gram 預(yù)測(cè)下一個(gè)單詞;文獻(xiàn)[10]基于神經(jīng)網(wǎng)絡(luò)并采用排名損失訓(xùn)練目標(biāo),加入額外的上下文來(lái)訓(xùn)練單詞嵌入,通過(guò)學(xué)習(xí)每個(gè)單詞的多重嵌入來(lái)考慮同音異義性和一詞多義性。

      也有在短語(yǔ)級(jí)研究語(yǔ)義相似性問(wèn)題的NLP 文獻(xiàn)報(bào)道。文獻(xiàn)[11-12]提出的組合分布式語(yǔ)義方法試圖通過(guò)將向量合成函數(shù)應(yīng)用到與其構(gòu)成詞相關(guān)的向量上來(lái)形式化復(fù)合詞的含義,但沒(méi)有討論短語(yǔ)同義詞,更重要的是把短語(yǔ)(復(fù)合詞)視為由個(gè)別構(gòu)成詞構(gòu)成,而不視為不同的實(shí)體,從而忽略了一個(gè)基本事實(shí),即整體的語(yǔ)義可能與其構(gòu)成成分的語(yǔ)義有很大的不同;另一些討論短語(yǔ)的方法沒(méi)有將它們分解成構(gòu)成詞,而是采用并行資源構(gòu)造釋義對(duì),包括釋義范疇的多種語(yǔ)義關(guān)系;文獻(xiàn)[13]采用手工編碼的語(yǔ)言模式僅對(duì)齊特定的文本片段上下文來(lái)生成釋義,而且需要特定語(yǔ)言資源如語(yǔ)音標(biāo)記部分和解析器;這種方法只能找到具有相同內(nèi)容詞的替代結(jié)構(gòu),例如“X 制造Y”意指“X 是Y 的工廠(chǎng)”。而近義詞有一組不同的詞,如“使收支相抵”和“支付賬單”,都無(wú)法通過(guò)他們的方法檢測(cè)到;文獻(xiàn)[14]提出了一種啟發(fā)式方法,有助于基于上下文的機(jī)器翻譯系統(tǒng)。方法采用不同上下文數(shù)量及其長(zhǎng)度來(lái)估計(jì)近義詞。

      本文針對(duì)大型語(yǔ)料庫(kù)中近義詞/同義詞短語(yǔ)的查找問(wèn)題,提出了一種基于共同語(yǔ)境的近義詞/同義詞短語(yǔ)查找新模型。它通過(guò)n-gram分布式方法捕獲語(yǔ)義相似性,不需要解析就能隱式地保存局部句法結(jié)構(gòu),使底層方法語(yǔ)言獨(dú)立;具體實(shí)現(xiàn)分為兩個(gè)階段:第一階段是上下文收集和過(guò)濾,即用圍繞查詢(xún)短語(yǔ)的本地上下文作為條件模型的特征來(lái)捕獲語(yǔ)義和語(yǔ)法信息。第二階段是候選詞短語(yǔ)收集和篩選,即對(duì)數(shù)據(jù)中的每個(gè)“左”“右”和“配對(duì)”的全部實(shí)例進(jìn)行迭代,以收集一組近義詞/同義詞候選短語(yǔ);還給出了構(gòu)成模型的要素和用于評(píng)價(jià)模型性能的評(píng)分函數(shù);共同語(yǔ)境的實(shí)例越多,所述上下文就越具體,共享上下文就越長(zhǎng),潛在的近義詞/同義詞關(guān)系就越強(qiáng),而且本文模型僅依賴(lài)于一個(gè)大型的單一語(yǔ)料庫(kù),不需要預(yù)先存在的語(yǔ)言或詞匯資源就可以應(yīng)用于任何語(yǔ)言;實(shí)驗(yàn)結(jié)果表明,本文提出的建模方法在總的統(tǒng)計(jì)評(píng)分查找性能和整體可擴(kuò)展性方面都優(yōu)于常用的其他查找方法模型。

      1 基于共同語(yǔ)境的近義詞/同義詞短語(yǔ)查找系統(tǒng)模型

      為敘述方便,將本文提出的近義詞/同義詞短語(yǔ)查找系統(tǒng)模型簡(jiǎn)稱(chēng)為近-同義詞系統(tǒng)模型(Near-Synonym System Model,NSSM)。它采用一種不同于其他方法的新方法,不需要并行資源,也不采用預(yù)先確定的手工編碼模式集;NSSM通過(guò)n-gram分布式方法捕獲語(yǔ)義相似性,不需要解析就能隱式地保存局部句法結(jié)構(gòu),使底層方法語(yǔ)言獨(dú)立;NSSM 還是一個(gè)Web 服務(wù)器,它的功能類(lèi)似于一個(gè)活的近義詞短語(yǔ)生成器;NSSM基于后綴數(shù)組[15]和并行計(jì)算來(lái)實(shí)現(xiàn)大型語(yǔ)料庫(kù)的實(shí)時(shí)性能。后綴數(shù)組采用一種增廣形式的二叉樹(shù)來(lái)搜尋語(yǔ)料庫(kù)中字符串模式的所有出現(xiàn)。在處理諸如“W是A的子字符串嗎?”之類(lèi)的查詢(xún)時(shí),時(shí)間復(fù)雜度為O(P+lgN),其中P=|W|,N=|A|。

      給定一個(gè)長(zhǎng)度為N的大文本A=a0a1a2…aN-1,令A(yù)i=aiai+1…aN-1表示A的后綴,即始于位置i。后綴數(shù)組則是按字典順序排序的數(shù)組Pos,即Pos[k]是集合{A0,A1,…,AN-1}中第k個(gè)按字典順序的最小后綴的開(kāi)始,即:

      是詞典編纂的順序。由于它是排序的,所以它可以通過(guò)搜索Pos中W的左和右邊界來(lái)定位A中字符串模式W的所有出現(xiàn),這需要2 個(gè)二進(jìn)制搜索,即2×O(P+lgN)時(shí)間。在本文中,A是一個(gè)單詞標(biāo)記序列,且P<

      1.1 NSSM運(yùn)行體系結(jié)構(gòu)

      采用術(shù)語(yǔ)“查詢(xún)短語(yǔ)”來(lái)表示要查找的近義詞或同義詞的輸入短語(yǔ),NSSM 的整個(gè)運(yùn)行體系結(jié)構(gòu)如圖1 所示,圖中以“has undergone a majorsea changein the last five”為例。

      圖1 給定一個(gè)輸入短語(yǔ)的NSSM運(yùn)行體系結(jié)構(gòu)

      總的來(lái)說(shuō),NSSM運(yùn)行包括以下兩個(gè)階段。

      第一階段,上下文收集和過(guò)濾。NSSM用圍繞查詢(xún)短語(yǔ)的本地上下文(共同語(yǔ)境)作為條件模型的特征來(lái)捕獲語(yǔ)義和語(yǔ)法信息。本地上下文包括:

      (1)稱(chēng)之為“左”的左上下文,是一個(gè)查詢(xún)短語(yǔ)的最左端的3~4-gram標(biāo)記。

      (2)稱(chēng)之為“右”的右上下文,與(1)定義類(lèi)似(較長(zhǎng)的n-gram可進(jìn)一步改善結(jié)果)。

      (3)稱(chēng)之為“配對(duì)”的配對(duì)左右上下文,即將同一查詢(xún)短語(yǔ)的左和右上下文結(jié)合在一起。

      迭代查詢(xún)短語(yǔ)在數(shù)據(jù)中的每一次出現(xiàn),并在每個(gè)實(shí)例中收集相應(yīng)的本地上下文,分別形成3 組不同的左、右上下文和配對(duì)左右上下文。為了計(jì)算上下文查詢(xún)短語(yǔ)的相關(guān)性(參見(jiàn)模型要素一節(jié)),在迭代期間使用多線(xiàn)程后綴數(shù)組將查詢(xún)短語(yǔ)的每個(gè)上下文的頻率以及查詢(xún)短語(yǔ)的頻率存儲(chǔ)在數(shù)據(jù)中。

      第二階段,候選詞短語(yǔ)收集和篩選。對(duì)數(shù)據(jù)中的每個(gè)“左”“右”和“配對(duì)”的全部實(shí)例進(jìn)行迭代,以收集一組近義詞/同義詞候選短語(yǔ),但遵從下列最小和最大候選長(zhǎng)度:

      式中,QL為查詢(xún)短語(yǔ)長(zhǎng)度,d0和d1是常量參數(shù)。為了計(jì)算候選上下文強(qiáng)度和歸一化因子(見(jiàn)模型要素一節(jié)),仍采用多線(xiàn)程后綴數(shù)組存儲(chǔ)每個(gè)上下文的每個(gè)候選短語(yǔ)的頻率以及它們獨(dú)立出現(xiàn)的頻率,以加快進(jìn)程。

      下面對(duì)算法的計(jì)算復(fù)雜度進(jìn)行簡(jiǎn)單分析。

      考慮一個(gè)后綴數(shù)組,給定一個(gè)查詢(xún)短語(yǔ)q,如果N是數(shù)據(jù)中的單詞標(biāo)記數(shù),f(q)是q的頻率,X是q的上下文(左、右和配對(duì))集合,Y是q的挖掘到的近義詞/同義詞候選集合,fmax(x) 是X中最高頻率的上下文,XLmax是最大允許的單邊上下文長(zhǎng)度(在本文中為4),則當(dāng)僅采用共享特征增益評(píng)分函數(shù)(見(jiàn)后面小節(jié))時(shí),對(duì)于查詢(xún)短語(yǔ)q,NSSM的運(yùn)行時(shí)間復(fù)雜度的嚴(yán)格上限為:

      采用并行后綴數(shù)組時(shí),上述表達(dá)式中唯一的區(qū)別是:N、f(q)和fmax(x)定義為本地?cái)?shù)據(jù)對(duì)應(yīng)的一個(gè)后綴數(shù)組,而不是整個(gè)數(shù)據(jù)。

      1.2 模型要素

      本節(jié)提出一個(gè)新的條件模型來(lái)構(gòu)造一個(gè)概率組合函數(shù),實(shí)際上就是根據(jù)共享(公共)特征集上的函數(shù)來(lái)度量?jī)蓚€(gè)實(shí)體之間的相似性,具體如下。

      1.2.1 上下文查詢(xún)短語(yǔ)相關(guān)性

      上下文查詢(xún)短語(yǔ)相關(guān)性(Contextual Query Phrase Relevance,CQR)是衡量查詢(xún)短語(yǔ)對(duì)其上下文的重要性的一種度量,是與其一起出現(xiàn)的其他短語(yǔ)相比較:

      式中,p(?)和q(?)分別為分布中的概率點(diǎn)和頻率點(diǎn)。

      1.2.2 候選上下文強(qiáng)度

      候選上下文強(qiáng)度(Candidate Contextual Strength,CCS)是衡量查詢(xún)短語(yǔ)上下文與近義詞/同義詞候選短語(yǔ)之間的關(guān)聯(lián)程度的一種度量,是與其周?chē)钠渌镜厣舷挛南啾容^:

      1.2.3 歸一化

      為了解決候選短語(yǔ)之間基級(jí)頻率的變化問(wèn)題,引入一個(gè)歸一化因子:

      式中,d是一個(gè)常數(shù)。

      1.2.4 上下文信息

      根據(jù)上下文的內(nèi)容(例如類(lèi)型和/或字?jǐn)?shù)),有些上下文仍然比其他上下文包含更多的語(yǔ)義信息,本文模型設(shè)法考慮到這一點(diǎn)。因此,上下文信息(Contextual Information,CInf)為:

      式中,w(x)是上下文x中的內(nèi)容字?jǐn)?shù),l(x)是x的長(zhǎng)度,a、b和c為系數(shù)。

      1.3 共享特征增益評(píng)分函數(shù)

      為了得到共享特征增益(Shared Feature Gain,SFG)評(píng)分函數(shù),結(jié)合上述概念,首先計(jì)算左上下文(L(q))的分?jǐn)?shù):

      模型還考慮了替換的上下文匹配,這些匹配本質(zhì)上是“配對(duì)”匹配,但在查詢(xún)的不同實(shí)例中采用左匹配和右匹配:

      式中,DL(q)是L(q)的一個(gè)子集,表示左移。同樣,可以計(jì)算出右上下文和配對(duì)左右上下文的分?jǐn)?shù),并將這三個(gè)分?jǐn)?shù)結(jié)合得到最終分?jǐn)?shù)為:

      式中,Ccf>1 是用于提高配對(duì)左右上下文的得分,使之與SC匹配。

      1.4 Kullback-Leibler散度評(píng)分函數(shù)

      KL 散度(Kullback-Leibler Divergence,KLD)[16]是度量?jī)蓚€(gè)概率分布之間的差異,本文用它來(lái)度量當(dāng)給定一個(gè)候選對(duì)象的上下文分布用于近似給定查詢(xún)短語(yǔ)的相同上下文分布時(shí)所丟失的信息,即:

      式中,L(q)表示查詢(xún)短語(yǔ)和候選詞的組合左集合。和前面一樣,概率比p(?)和r(?)可以解釋為頻率比。應(yīng)用平滑方法,并計(jì)算合并的右上下文和合并的配對(duì)左右上下文的分?jǐn)?shù),然后將三者結(jié)合得到最后的分?jǐn)?shù)為:

      采用式(15)重新評(píng)分和重新排名通過(guò)共享特征增益所得到的前1 000個(gè)得分候選上下文。

      1.5 參數(shù)訓(xùn)練

      在全部參數(shù)大于零的條件下,S(y,q)是兩個(gè)非負(fù)凸函數(shù)的乘積,且仍然是凸的。這使得優(yōu)化目標(biāo)是兩個(gè)凸函數(shù)的差。本文采用二值搜索的多起始坐標(biāo)上升,而不增加線(xiàn)性步長(zhǎng)。參數(shù)在30 個(gè)查詢(xún)短語(yǔ)集上進(jìn)行訓(xùn)練,與性能評(píng)價(jià)中采用的短語(yǔ)(見(jiàn)實(shí)驗(yàn)部分)分開(kāi)。

      2 實(shí)驗(yàn)結(jié)果及分析

      2.1 Gigaword語(yǔ)料庫(kù)

      實(shí)驗(yàn)選擇英文Gigaword(http://www.chineseldc.org)為本文實(shí)驗(yàn)提供一個(gè)綜合新聞專(zhuān)線(xiàn)文本數(shù)據(jù)檔案。把語(yǔ)料庫(kù)分割成32 個(gè)相等的部分,每個(gè)分割部分構(gòu)造一個(gè)后綴數(shù)組。選擇的服務(wù)器硬件可以并行支持多達(dá)32(16×2)個(gè)線(xiàn)程,因此每個(gè)后綴數(shù)組都在自己?jiǎn)为?dú)的線(xiàn)程上運(yùn)行。使用37.5%的數(shù)據(jù)(12 個(gè)后綴數(shù)組)用于實(shí)驗(yàn)。完整的Gigaword 可能會(huì)得到更好的效果,但會(huì)運(yùn)行得更慢。

      2.2 等級(jí)敏感評(píng)價(jià)

      實(shí)驗(yàn)中挑選了54 個(gè)隨機(jī)選擇的查詢(xún)短語(yǔ),其中包括15個(gè)單詞、23個(gè)單詞短語(yǔ)和16個(gè)較長(zhǎng)的短語(yǔ)。對(duì)于每個(gè)查詢(xún)短語(yǔ),采用前面本文提出的2 個(gè)評(píng)分函數(shù)(共享特征增益評(píng)分函數(shù)及Kullback-Leibler散度評(píng)分函數(shù))和參與比較的其他模型算法的每一個(gè)生成20個(gè)近義詞的候選詞。要求注釋者(6名人工評(píng)級(jí)員)對(duì)每個(gè)查詢(xún)短語(yǔ)-同義詞候選組合提供評(píng)級(jí),評(píng)級(jí)從0~3,其中3 表示絕對(duì)同義詞,2表示近義詞,1表示某些語(yǔ)義相關(guān)性如上義關(guān)系、下義關(guān)系或反義關(guān)系,0表示沒(méi)有關(guān)系。

      本文對(duì)標(biāo)準(zhǔn)度量指標(biāo)平均精度(Mean Average Precision,MAP)和歸一化折現(xiàn)累積增益(Normalized Discounted Cumulative Gain,NDCG)進(jìn)行擴(kuò)展。不直接采用MAP,因?yàn)樗鼘?duì)等級(jí)不敏感,并且只對(duì)二進(jìn)制(0或1,相關(guān)或不相關(guān))評(píng)級(jí)標(biāo)準(zhǔn)有效;在NDCG的情形下,即使它考慮了排序,也不會(huì)因?yàn)榻Y(jié)果差而受到懲罰,此外,NDGG也不因丟失結(jié)果而受到懲罰;因此,本文的標(biāo)準(zhǔn)度量指標(biāo)采用平均等級(jí)敏感得分(Mean Rank-sensitive Score,MRS),這樣使得較低等級(jí)(離最高排名更遠(yuǎn))的注釋分?jǐn)?shù)降低:

      式中,Sr是注釋分?jǐn)?shù),n是第n個(gè)等級(jí)的截止點(diǎn)(臨界點(diǎn)),r是候選等級(jí),A是評(píng)級(jí)者集合。MRS通過(guò)用零填充丟失值的評(píng)級(jí)序列來(lái)考慮丟失結(jié)果。

      2.3 查找性能比較

      2.3.1 與Roget同義詞詞典的比較

      為了表明一般詞典查找同義詞短語(yǔ)的不足,將本文模型方法法與Roget同義詞詞典基準(zhǔn)進(jìn)行比較。與所有其他主要包含單個(gè)詞的詞典一樣,將查詢(xún)短語(yǔ)中單個(gè)詞的同義詞集中的元素組合起來(lái),為54 個(gè)查詢(xún)短語(yǔ)的每一個(gè)構(gòu)造候選詞。例如,在“strike a balance”中,隨機(jī)選擇“hammer”和“harmony”分別作為“strike”和“balance”的同義詞,構(gòu)成“hammer a harmony”作為候選詞;假設(shè)單個(gè)詞同義詞條目的同義詞精度為100%,而其余部分雇用3名人工評(píng)級(jí)員。表1、表2和表3分別比較了單個(gè)單詞、兩個(gè)單詞和大于兩個(gè)單詞和查詢(xún)短語(yǔ)的共享特征增益(SFG)、KL 散度(KLD)和Roget 同義詞詞典的MRS得分(見(jiàn)表1、表2和表3的第1行、第2行和第5行)??梢郧宄乜吹剑诒疚哪P头椒ǖ腟FG 和KLD 的MRS性能在單個(gè)單詞查詢(xún)短語(yǔ)長(zhǎng)度上與Roget 同義詞詞典查詢(xún)非常接近,但在兩個(gè)單詞和大于兩個(gè)單詞的多個(gè)單詞查詢(xún)短語(yǔ)長(zhǎng)度上比Roget 同義詞詞典查詢(xún)的MRS性能有明顯提高,即使在截止點(diǎn)n達(dá)到20 時(shí),相比于Roget 同義詞詞典查詢(xún)的MRS,本文模型方法的SFG和KLD的MRS也分別提高了1.05和1.34,而且隨著多個(gè)單詞查詢(xún)短語(yǔ)長(zhǎng)度的增加,MRS并未降低,而是提高得越多。這進(jìn)一步表明了本文模型方法對(duì)于詞典結(jié)構(gòu)有相當(dāng)大的優(yōu)勢(shì),特別是在兩個(gè)單詞級(jí)別上性能最佳;就SFG 和KLD 的MRS性能而言,SFG 對(duì)于單個(gè)單詞級(jí)別上查詢(xún)的性能更強(qiáng),而KLD 對(duì)于兩個(gè)單詞和大于兩個(gè)單詞級(jí)別上查詢(xún)的性能更強(qiáng)。

      表1 單個(gè)單詞的查詢(xún)短語(yǔ)的評(píng)分函數(shù)比較

      表2 兩個(gè)單詞的查詢(xún)短語(yǔ)的評(píng)分函數(shù)比較

      表3 大于兩個(gè)單詞的查詢(xún)短語(yǔ)的評(píng)分函數(shù)比較

      還可以看到,由于MRS對(duì)截止點(diǎn)不敏感,所以基于本文模型方法得到的兩個(gè)評(píng)分函數(shù)SFG和KLD在更嚴(yán)格的截止點(diǎn)(即更低的n值)得到更大的分?jǐn)?shù),這意味著本文模型方法能夠從相對(duì)較弱的匹配中區(qū)分更強(qiáng)的語(yǔ)義匹配,并將高度同義的候選詞排名更高。

      2.3.2 與釋義數(shù)據(jù)庫(kù)的比較

      將本文模型方法與文獻(xiàn)[5]提出的機(jī)器翻譯技術(shù)PPDB 進(jìn)行比較。PPDB 的英文部分包含了超過(guò)2 220萬(wàn)個(gè)釋義。從7 300萬(wàn)個(gè)短語(yǔ)和800萬(wàn)個(gè)詞匯釋義對(duì)中提取了54 個(gè)查詢(xún)短語(yǔ)的前20 個(gè)近義詞,利用數(shù)據(jù)庫(kù)中提供的注釋Gigaword分布相似性分?jǐn)?shù)來(lái)對(duì)候選詞進(jìn)行排名,此外,由6名人工評(píng)判提供評(píng)級(jí)。表1、表2和表3的第3 行為采用文獻(xiàn)[5]提出的機(jī)器翻譯技術(shù)PPDB 得到的MRS(n),與表1、表2和表3的第1行和第2行進(jìn)行比較,可以清楚地看到,基于本文模型方法的SFG 和KLD 的MRS(n)在每個(gè)截止點(diǎn)(n)和短語(yǔ)長(zhǎng)度(單個(gè)單詞的查詢(xún)短語(yǔ)、兩個(gè)單詞的查詢(xún)短語(yǔ)和大于兩個(gè)單詞的查詢(xún)短語(yǔ))上都有更好的性能。鑒于NSSM是在單語(yǔ)料庫(kù)上運(yùn)行,不需要任何NLP特定資源,與PPDB相比,它是一個(gè)實(shí)時(shí)檢索系統(tǒng),而PPDB 并不是這樣,這一點(diǎn)對(duì)于實(shí)時(shí)查詢(xún)來(lái)說(shuō)相當(dāng)重要。

      2.3.3 與開(kāi)放源可擴(kuò)展釋義獲取工具包的比較

      與一種基于Hadoop的開(kāi)放源可擴(kuò)展釋義獲取工具包[4]進(jìn)行了比較。具體而言,文獻(xiàn)[4]的釋義獲取工具包將一個(gè)短語(yǔ)的上下文定義為短語(yǔ)的直接左右側(cè)的ngram 連接,并將一個(gè)n-gram 上下文的最小長(zhǎng)度和最大長(zhǎng)度分別設(shè)置為2 和3,但他們采用逐點(diǎn)交互信息加權(quán)短語(yǔ)向量來(lái)計(jì)算余弦相似性,以作為兩個(gè)短語(yǔ)之間相關(guān)性的度量,即:

      式中,C(p)表示短語(yǔ)p的上下文向量。

      用NSSM 在本文的數(shù)據(jù)集(占預(yù)處理后的英語(yǔ)Gigaword 第五版的37.5%)上實(shí)現(xiàn)了式(18)的評(píng)分函數(shù),如表1、表2 和表3 的第4 行所示,仍然可以看到,基于本文模型算法得到的兩個(gè)評(píng)分函數(shù)SFG 和KLD 的MRS(n)無(wú)論在每個(gè)截止點(diǎn)(n),還是在短語(yǔ)長(zhǎng)度(單個(gè)單詞的查詢(xún)短語(yǔ)、兩個(gè)單詞的查詢(xún)短語(yǔ)和大于兩個(gè)單詞的查詢(xún)短語(yǔ))上都優(yōu)于基于Hadoop 的開(kāi)放源可擴(kuò)展釋義獲取工具包。

      最后,圖2 所示為基于18.7%、37.5%和71.8%的Gigaword語(yǔ)料庫(kù)采用SFG評(píng)分函數(shù),對(duì)于單個(gè)詞的短語(yǔ)、兩個(gè)詞的短語(yǔ)和大于兩個(gè)詞的短語(yǔ)得到的MRS(n)??梢?jiàn),采用NSSM 的檢索質(zhì)量隨著語(yǔ)料庫(kù)的增大而提高,說(shuō)明本文的NSSM是有效的。

      圖2 對(duì)于不同詞短語(yǔ)采用SFG評(píng)分函數(shù)得到的MRS(n)

      3 結(jié)束語(yǔ)

      本文提出了一種新的用于從大型單語(yǔ)無(wú)注釋語(yǔ)料庫(kù)中查找近義詞/同義詞短語(yǔ)的無(wú)監(jiān)督建模方法,而且本文模型僅依賴(lài)于一個(gè)大型的單一語(yǔ)料庫(kù),不需要預(yù)先存在的語(yǔ)言或詞匯資源就可以應(yīng)用于任何語(yǔ)言,模型方法是基于頻率統(tǒng)計(jì)、信息論和可擴(kuò)展算法的結(jié)合;實(shí)驗(yàn)結(jié)果表明,在詞匯和短語(yǔ)兩個(gè)級(jí)別的查找上都明顯優(yōu)于自動(dòng)近義詞/同義詞短語(yǔ)的查找方法,并且在多詞近義詞/同義詞生成方面優(yōu)于基于同義詞詞典的方法,在總的統(tǒng)計(jì)評(píng)分查找性能和整體可擴(kuò)展性方面都優(yōu)于常用的其他查找方法模型;對(duì)于未來(lái)的研究,主要考慮:(1)在多種語(yǔ)言上測(cè)試本文提出的NSSM,因?yàn)樗话囟ㄓ谟⒄Z(yǔ)的假設(shè)或知識(shí);(2)將NSSM 完全并行化為一種高效的基于云的近義詞/同義詞短語(yǔ)服務(wù)器;(3)實(shí)現(xiàn)基于任務(wù)的評(píng)價(jià),如Web搜索。

      猜你喜歡
      近義詞后綴語(yǔ)料庫(kù)
      怎樣辨析近義詞
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      找找近義詞
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      河北霸州方言后綴“乎”的研究
      TalKaholic話(huà)癆
      說(shuō)“迪烈子”——關(guān)于遼金元時(shí)期族名后綴問(wèn)題
      不由分說(shuō)
      一種基于后綴排序快速實(shí)現(xiàn)Burrows-Wheeler變換的方法
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
      赞皇县| 裕民县| 弥渡县| 连城县| 台中县| 内江市| 大悟县| 定远县| 新乐市| 石城县| 塘沽区| 广元市| 新干县| 宜宾市| 敦化市| 玉溪市| 淮北市| 铜山县| 年辖:市辖区| 洛阳市| 镇赉县| 瑞昌市| 陈巴尔虎旗| 新竹县| 兴和县| 如东县| 汝城县| 永仁县| 铅山县| 白河县| 左云县| 简阳市| 胶州市| 靖远县| 新乐市| 开远市| 岳普湖县| 成安县| 水城县| 葵青区| 汶川县|