• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于路徑與深度的同義詞詞林詞語相似度計算

      2016-05-04 02:54:34陳宏朝朱新華馬潤聰
      中文信息學(xué)報 2016年5期
      關(guān)鍵詞:義項結(jié)點詞典

      陳宏朝,李 飛,朱新華,馬潤聰

      (廣西師范大學(xué) 多源信息挖掘與安全重點實驗室,廣西 桂林 541004)

      基于路徑與深度的同義詞詞林詞語相似度計算

      陳宏朝,李 飛,朱新華,馬潤聰

      (廣西師范大學(xué) 多源信息挖掘與安全重點實驗室,廣西 桂林 541004)

      該文提出了一種基于路徑與深度的同義詞詞林詞語語義相似度計算方法。該方法通過兩個詞語義項之間的最短路徑以及它們的最近公共父結(jié)點在層次樹中的深度計算出兩個詞語義項的相似度。在處理兩個詞語義項的最短路徑與其最近公共父結(jié)點的深度時,為提高路徑與深度計算的合理性,為分類樹中不同層之間的邊賦予不同的權(quán)值,同時通過兩個義項在其最近公共父結(jié)點中的分支間距動態(tài)調(diào)節(jié)詞語義項間的最短路徑,從而平衡兩個詞語的相似度。該方法修正了目前相關(guān)算法只能得出幾個固定的相似度值,所有最近公共父結(jié)點處于同一層次的義項對之間的相似度都相同的不合理現(xiàn)象,使詞語語義相似度的計算結(jié)果更為合理。實驗表明,該方法對MC30詞對的相似度計算值與人工判定值相比,取得了0.856的皮爾遜相關(guān)系數(shù),該結(jié)果高于目前大多數(shù)詞語相似度算法與MC30的相關(guān)度。

      同義詞詞林;路徑;深度;分支間距;最近公共父結(jié)點

      1 引言

      詞語語義相似度的計算是自然語言處理的重要研究內(nèi)容,在智能檢索、詞義排歧、自動問答和機(jī)器翻譯等領(lǐng)域都有廣泛的應(yīng)用,它是一個基礎(chǔ)研究課題,正在被越來越多的研究人員所關(guān)注。目前詞語相似度計算的研究策略大體分為兩類[1]: 一類是根據(jù)某種世界知識來計算,主要是基于概念間結(jié)構(gòu)層次關(guān)系組織的語義詞典的方法,根據(jù)在這類語言學(xué)資源中概念之間的上下位關(guān)系和同位關(guān)系來計算詞語的相似度;另一類是利用大規(guī)模的語料庫進(jìn)行統(tǒng)計,這種基于統(tǒng)計的方法主要將上下文信息的概率分布作為詞語語義相似度的參照依據(jù)。

      目前可為英文詞語的語義相似度計算提供支持的語義詞典主要有WordNet[2]、FrameNet[3]、MindNet[4]等??蔀闈h語詞語語義相似度計算提供支持的語義詞典主要有《知網(wǎng)》[5]、《同義詞詞林》[6]、《中文概念詞典》[7]等。

      關(guān)于相似度的概念,Dekang Lin認(rèn)為任何兩個對象的相似度取決于它們的共性(commonality ) 和個性(differentces)[8], 他從信息理論的角度給出任意兩個對象相似度的通用公式如式(1)所示。

      (1)

      其中分子是描述A、B共性所需要的信息量大小。分母是完整的描述出A、B所需要的信息量大小。Dekang Lin 的這一理論是目前絕大多數(shù)基于語義詞典的方法的詞語相似度計算模型的基本思想[9]。

      目前,國內(nèi)中文詞語相似度計算的相關(guān)研究主要采用《知網(wǎng)》作為分類詞典[9-11],采用《同義詞詞林》的相關(guān)研究較少。事實上,《同義詞詞林》是目前國內(nèi)在結(jié)構(gòu)上與著名英文語義詞典WordNet最為接近的一個分類詞典[12],而國際上許多著名的詞語相似度算法[13-15]都是采用WordNet作為分類詞典,因此《同義詞詞林》在中文詞語相似度計算的研究中是大有潛力的。目前,基于《同義詞詞林》的詞語相似度計算研究主要有:田久樂[16]利 用《同 義 詞 詞林》提出的綜合詞語距離與分支層間隔的詞語相似度計算方法;耿端[17]提出的基于邊權(quán)重的同義詞詞林詞語相似度計算方法。這兩種方法在國際標(biāo)準(zhǔn)測試集MC30中的相似度測量值與人工判定值的皮爾遜相關(guān)系數(shù)偏低,與國際上優(yōu)秀的基于路徑和深度的算法相比還有一定的差距。

      2 相關(guān)知識

      2.1 同義詞詞林簡介

      同義詞詞林是由梅家駒[6]等人于1983年編撰的可計算漢語詞庫,其設(shè)計目標(biāo)是實現(xiàn)漢語同義詞和同類詞的劃分和歸類。同義詞詞林經(jīng)哈爾濱工業(yè)大學(xué)信息檢索研究室的擴(kuò)展后,目前共有七萬多個詞語,這些詞語被分為了12個大類,95個中類,1 428個小類,小類下方進(jìn)一步劃分為4 026個詞群和17 797個原子詞群兩級[18]。為便于處理不同大類的詞語對,本文為所有大類虛構(gòu)了一個根結(jié)點O,從而形成圖1所示的六層樹形結(jié)構(gòu)。

      同義詞詞林中上面四層的結(jié)點都代表抽象的類別,只有最底層的葉子結(jié)點才是一個個具體的詞條或義項[12],同一個詞條可能在不同的類別中同時存在,即詞條的義項編碼不是唯一的。第一至三大類多屬名詞,數(shù)詞和量詞在第四大類中,第五類多屬形容詞,第六至十類多是動詞,十一類多屬虛詞,十二類是難以被分到上述類別中的一些詞語。大類和中類的排序遵照具體概念到抽象概念的原則[6]。

      關(guān)于詞條的編碼如表1所示。第八位編碼只有三種情況,“=”代表“相等”、“同義”?!?”代表“不等”、“同類”,屬于相關(guān)詞語?!癅”代表“自我封閉”、“獨立”,它在詞典中既沒有同義詞也沒有相關(guān)詞[6]。前七位編碼就可以唯一確定一條編碼,即不存在這種情況: 前七位編碼相同而第八位不相同的多條編碼同時存在。當(dāng)前七位編碼確定以后,第八位就是固定的,要么是“=”,要么是“#”,要么是“@”。例如,(喬木,灌木,林木)這一組同義詞在詞林中的編碼為“Bh01A68#”。

      本研究使用的同義詞詞林是哈爾濱工業(yè)大學(xué)發(fā)布的《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》的 1.0 版本。

      表1 詞林中詞語的編碼結(jié)構(gòu)

      2.2 基于路徑和深度的方法介紹

      基于路徑和深度的方法目前已廣泛應(yīng)用于基于WordNet的英語詞語相似度計算。Wu等人[19]在機(jī)器翻譯作詞語選擇問題的時候,提出了這種方法。他們定義詞語義項s1和s2的相似度計算公式如式(2)所示。

      (2)

      這里N1和N2分別表示義項s1和義項s2到他們最近公共父結(jié)點的路徑距離,H表示義項s1和s2最近公共父結(jié)點到根結(jié)點的距離,即深度。

      Hao等人[20]也利用兩個詞語義項的最短路徑跟它們的最近公共父結(jié)點的深度來計算兩個詞語在WordNet中的相似度,其詞語義項s1和s2相似度計算公式如式(3)所示。

      (3)

      這里d表示兩個詞語義項之間的路徑距離,h表示它們最近公共父結(jié)點的深度,α和β是平滑參數(shù)。當(dāng)h=0的時候,將兩個詞語義項間的相似度處理為0,α的取值范圍在0-1之間,每次的變化步長為0.1,β每次變化的步長為1。他們通過實驗得出當(dāng)α=0,β=1的時候相似度取值最合理。

      Liu等人[21]提出了一種改進(jìn)式(2)的計算相似度方法。他們方法的基本思想是基于人工判定的方法,用詞語義項s1和s2的共同特性與它們二者總的特性的比值作為兩個詞語義項的相似度,提出相似度計算公式如式(4)所示。

      (4)

      這里l是詞語義項s1和s2的最短路徑,d是最近公共父結(jié)點的深度,α和β是平滑參數(shù)且(0<α,β<1),它們通過實驗得出式(4)中的參數(shù)α=0.5,β=0.55,但在實際測量時,存在對于不同大類之間的詞的相似度都為0的現(xiàn)象。

      田久樂[16]提出了一種變異的基于路徑和深度的同義詞詞林詞語相似度計算方法,對于兩個詞語義項s1和s2,其相似度計算公式如式(5)所示。

      (5)

      3 基于路徑和深度的同義詞詞林詞語相似度的計算方法

      3.1 基于路徑和深度的詞林詞語相似度公式的提出

      Wu等人[19]是最早在式(1)的思想之上采用路徑與深度來計算詞語相似度的,他們提出了式(2)計算兩個詞語的相似度,但是該公式對路徑與深度未使用任何動態(tài)調(diào)節(jié)參數(shù),這在葉子結(jié)點深度不均勻、義項遍布所有結(jié)點的WordNet中是可以反映出多數(shù)義項對之間的差異性的,但詞林的所有義項都在葉子結(jié)點且所有葉子結(jié)點的深度相同,因此如果直接在同義詞詞林中應(yīng)用該公式,只能得出0,0.2,0.4,0.8,1等幾個固定的相似度值,這樣所有最近公共父結(jié)點處于同一層次的義項對之間的相似度都相同,這與實際情況不相符;同樣,Hao等人[20]提出的式(3)與Liu等人[21]提出的式(4),由于只采用了固定參數(shù)來調(diào)節(jié)路徑與深度,因此應(yīng)用于同義詞詞林也只能得出幾個固定的相似度值,無法進(jìn)一步反映出公共父結(jié)點處于同一層次的義項對之間的差異性。

      為解決上述問題,本文提出一種新的基于一個動態(tài)調(diào)節(jié)參數(shù)的詞語相似度計算方法。首先,根據(jù)式(1)的思想,我們提出在語義詞典中任意兩個義項概念s1和s2的特性與相似度的關(guān)系為式(6)。

      (6)

      其中,comm(s1,s2)表示兩個義項s1和s2在語義詞典中的共同特性,diff(s1,ss)表示s1和s2在語義詞典中的差異特性。

      在詞林中,對任意兩個詞語義項s1和s2,它們在樹形圖中的關(guān)系可以抽象為圖2所示。O為樹的根結(jié)點,LCP為義項s1和s2的最近公共父結(jié)點,Path1、Path2分別為義項s1和s2到它們最近公共父結(jié)點的路徑距離,Depth為s1、s2最近公共父結(jié)點到根結(jié)點的深度距離。

      圖2 詞林樹形結(jié)構(gòu)抽象圖

      由圖2,我們提出對于任意兩個義項s1和s2在詞林中的共性與差異性的計算公式為式(7)、式(8)。

      其中,Path(s1,s2)=Path1+Path2,表示兩個義項之間的最短路徑;α為深度調(diào)節(jié)參數(shù),β為路徑調(diào)節(jié)參數(shù)。將式(7)、式(8)代入式(6),可以得到任意兩個義項s1、s2的相似度計算公式為式(9)。

      (9)

      當(dāng)兩個義項的編碼相同且處于“=”后面時,表示兩個義項為同義詞,他們相似度被處理為1;當(dāng)兩個義項的編碼相同且處于“#”后面時,表示兩個義項為同類詞,他們相似度被處理為0.5。

      考慮到有的詞語會有多個義項,兩個詞語的最終相似度取所有義項對中相似度最大者。設(shè)詞語w1有m個義項,詞語w2有n個義項,則詞語w1與w2在同義詞詞林中的相似度計算公式為式(10)。

      (10)

      其中,sim(s1i,s2j)表示詞語w1的第i個義項與w2的第j個義項的相似度值。

      3.2 路徑和深度的計算公式

      為確保義項路徑距離計算的合理性,本文借助文獻(xiàn)[1]的思想在詞語路徑與深度的計算公式中引入了邊權(quán)重概念。本文為圖1所示的同義詞詞林結(jié)構(gòu)中五條不同層次之間的邊,從下到上分別設(shè)定權(quán)重Weight(i)(1≤i≤5)(對應(yīng)圖1中的WT1、WT2、WT3、WT4、WT5),且滿足:

      其中,設(shè)圖1中最底部的葉子結(jié)點的層編號為0,最上面根結(jié)點層編號為5,Weight(i)為上層編號為i的邊的權(quán)重。

      于是,設(shè)義項s1和s2的最近公共父結(jié)點LCP處于第k層且到根結(jié)點共有m條邊相連,則LCP的深度距離Depth(LCP(s1,s2))的計算公式如式(11)所示。

      (11)

      由于在詞林中,所有詞語義項都處于最低的葉子層,因此任意兩個義項到其最近公共父結(jié)點的距離都是相同的。設(shè)義項s1、s2到其最近公共父結(jié)點分別有n條邊相連,則義項s1與s2之間的最短路徑距離Path(s1,s2)的計算公式如式(12)所示。

      (12)

      3.3α和β參數(shù)的取值

      在同義詞詞林的分類樹中,不同大類詞語義項的公共父結(jié)點為本文所虛擬的根結(jié)點,而根結(jié)點的深度Depth =0,為了避免不同大類詞語義項間的相似度為0,我們假定根結(jié)點的深度為α(α∈[0,1])。

      在詞林語義詞典中,每個分類結(jié)點下方分支結(jié)點的排列與編碼具有一定規(guī)律,圖3給出了在詞林分類結(jié)構(gòu)中,最近公共父結(jié)點為第四層“Ae02A 工人類”的分支結(jié)點排列與編碼示例。

      圖3中,第五層中的詞語編碼從左到右依次遞增編碼,例如,“工人”的編碼為Ae02A01,“工匠”的編碼為Ae02A02,“師傅”的編碼為Ae02A03,…,“畫匠”的編碼為Ae02A13,…,“工程建設(shè)者”的編碼為Ae02A24。從圖3可以看出,在分支層中,分支結(jié)點的編碼一般遵循從抽象類到一般的原則,且間距越近的兩個概念意義越接近,該規(guī)律同樣出現(xiàn)在最近公共父結(jié)點處于更高層次的分支結(jié)點中。于是我們能夠得出兩個詞語義項的相似度與其在最近公共父結(jié)點中的分支間距線性負(fù)相關(guān)。另一方面,在語義詞典的分類結(jié)構(gòu)中,每個分類結(jié)點下面的直接孩子數(shù)N差別很大,因此我們?nèi)∮脙蓚€義項在分支層的相對間距作為路徑調(diào)節(jié)參數(shù)β,并將其視作義項之間路徑的延伸,如式(13)所示。

      圖3 詞林分支結(jié)構(gòu)實例

      (13)

      其中,i為分支結(jié)點B1,B2所在層的編號(圖4),Weight(i)為連接分支結(jié)點與最近公共父結(jié)點的邊權(quán)重,N表示兩個義項最近公共父結(jié)點(LCP)的直接孩子的個數(shù),K表示兩個義項在最近公共父結(jié)點中的分支間距,比如在圖4中,s1與s2這兩個詞語義項之間的K=2,N=5。

      圖4 分支間距示意圖

      4 實驗與分析

      目前國際上對詞語相似度算法的評價標(biāo)準(zhǔn)普遍采用Miller & Charles(MC)發(fā)布的英語普通名詞數(shù)據(jù)集(Common nouns dataset)及其人工判定值[22]。該數(shù)據(jù)集分別由高度相關(guān)、中度相關(guān)與低度相關(guān)共30個英語詞對組成,并讓38個試驗者對數(shù)據(jù)集進(jìn)行語義相似度判斷,最后取他們的平均值作為人工判定值。Miller & Charles發(fā)布的英語普通名詞數(shù)據(jù)集來源于Rubenstein & Goodenough(RG)[23]發(fā)布的65對名詞數(shù)據(jù)集。雖然Miller & Charles的實驗比Rubenstein & Goodenough實驗晚25年左右,但是這兩個數(shù)據(jù)集的皮爾遜相關(guān)系數(shù)卻是達(dá)到了0.97,這說明人對詞語間的語義相似度的認(rèn)識隨著時間的流逝還是比較穩(wěn)定的,人對詞語間的評判值可以被當(dāng)作評估詞語語義相似計算方法的依據(jù)。

      在本文中,考慮到國際標(biāo)準(zhǔn)測試集MC30在評判詞語相似度方法中的流行程度,我們將Rubenstein & Goodenough的65對詞分割成兩部分: 一部分包含MC和RG共同使用的30對詞,定義為集合D0;另一部分包含RG65對詞中剩余的35對詞,定義為集合D1。為了確保實驗結(jié)果的客觀性,我們使用集合D1去訓(xùn)練我們的計算公式,對參數(shù)α和β進(jìn)行優(yōu)化處理,然后再用集合D0去測試我們的方法。

      4.1 α和β參數(shù)的確定

      首先,將訓(xùn)練集合D1中的35對英語詞對按照意義最接近的原則翻譯成對應(yīng)的中文名詞詞對(表2),然后在訓(xùn)練集合D1中不斷地改變參數(shù)α以及參數(shù)β中的權(quán)值,最后比較參數(shù)α和權(quán)值改變時計算的相似度值與Rubenstein & Goodenough的人工判定值的皮爾遜相關(guān)系數(shù),當(dāng)皮爾遜相關(guān)系數(shù)達(dá)到最大時,所用的參數(shù)α和權(quán)重即為我們確定的參數(shù)值。通過實驗我們確定參數(shù)α=0.9,權(quán)重函數(shù)Weight(i)按照表3取值時效果最好,皮爾遜相關(guān)系數(shù)為0.8615,數(shù)據(jù)如表2所示。

      表2 D1數(shù)據(jù)集中的最佳計算結(jié)果

      續(xù)表

      表3 邊權(quán)重函數(shù)的最佳離散值

      4.2 對比實驗

      本文采用Miller & Charles(MC)發(fā)布的數(shù)據(jù)集及其人工判定值作為標(biāo)準(zhǔn),比較本文提出的式(10)與Wu等人提出的式(2)和Hao等人提出的式(3)、Liu等人提出的式(4)以及田久樂提出的式(5)的詞語相似度計算結(jié)果。首先,將測試集合D0中的30個英語詞對按照意義最接近的原則翻譯成對應(yīng)的中文名詞詞對,然后采用不同的公式對該數(shù)據(jù)集計算相似度(表4),最后計算出不同公式的相似度計算值與MC人工值的皮爾遜相關(guān)系數(shù)(表5)。為增加結(jié)果的可比性,表5還列出了若干英文詞語相似度算法與MC30人工判定值的皮爾遜相關(guān)系數(shù)。

      表4 Miller詞對集的計算結(jié)果對比

      續(xù)表

      表5 不同方法與MC人工值的皮爾遜相關(guān)系數(shù)

      4.3 結(jié)果分析

      通過上述實驗與實例,可以得出以下結(jié)論。

      (1) 從上述對比實驗可以看出: 效果最好的是本文提出的基于路徑和深度的同義詞詞林詞語語義相似度計算方法,所得出的相似度值的覆蓋范圍最廣,且與MC30人工值的皮爾遜相關(guān)系數(shù)達(dá)到了0.856,該值高于目前國內(nèi)外大多數(shù)詞語相似度算法。本文方法與MC30皮爾遜相關(guān)系數(shù)比較高的原因是,本文公式嚴(yán)格遵循了任意兩個對象相似度的通用公式的思想,并且通過采用動態(tài)邊權(quán)重,調(diào)高了最近公共父結(jié)點層次較低的詞語相似度的值(表4中的前九對詞語),而同時調(diào)低了最近公共父結(jié)點層次較高的詞語相似度的值(表4中的最后九對詞語),從而使計算結(jié)果更加符合實際情況。

      (2) 式(2)、(3)與(4)的方法在計算相似度時,只能得出五個固定的相似度值,所有最近公共父結(jié)點處于同一層次的義項對之間的相似度都相同,這與實際應(yīng)用情況不相符,本文方法通過一個基于分支間距的動態(tài)路徑調(diào)節(jié)參數(shù)β避免了這種現(xiàn)象。同時,本文方法通過一個深度調(diào)節(jié)參數(shù)α,避免了表4中最后四對跨大類的詞語相似度為0的現(xiàn)象。

      (3) 田久樂提出的式(5)的計算結(jié)果,與MC人工值的皮爾遜相關(guān)系數(shù)只有0.520 4,主要是由于該公式直接使用分支間距作為相似度的調(diào)節(jié)參數(shù),從而使公式對詞語在最近公共父結(jié)點中的分支間距過于敏感,造成分支間距較大的詞對的相似度值過低,如在計算“轎車”與“汽車”、“男孩子”與“小伙子”兩個詞對的相似度時,由于他們在最近公共父結(jié)點中的分支間距過大,造成了他們的相似度過低。而在本文的方法中,分支間距只是作為義項之間路徑的延伸,從而降低了對該值的敏感度,提高了詞語相似度的準(zhǔn)確度。

      (4) 在表4中,所有方法在計算“食物”與“水果”詞對的相似度時與MC人工值相比都偏低,這主要是在同義詞詞林分類結(jié)構(gòu)中,將“食物”歸為第二大類“物”中的“糧食”中類而將“水果”歸為“物”的“草木”中類,造成二者的公共父結(jié)點的層次過高。“兄弟”與“和尚”詞對的相似度計算結(jié)果過低,也是他們在同義詞詞林分類結(jié)構(gòu)中公共父結(jié)點的層次過高造成的。

      (5) 通過表5可以看出,同樣的式(2)、式(3)、式(4)在同義詞詞林中的MC30皮爾遜相關(guān)系數(shù)要高于其在英文WordNet中的結(jié)果,這說明同義詞詞林的簡明分類結(jié)構(gòu)要優(yōu)于WordNet的復(fù)雜分類結(jié)構(gòu),因此只要有優(yōu)秀的應(yīng)用算法相配合,同義詞詞林在中文信息處理中是可以大有作為的。

      5 結(jié)束語

      本文提出了一種新的基于路徑與深度的詞語相似度計算方法,合理地利用了兩個詞語在樹形結(jié)構(gòu)中的最短路徑、最近公共父結(jié)點的深度與分支間距等因素。實驗證明,該方法計算出的詞語相似度與人工判定值高度相似,在相關(guān)領(lǐng)域具有較好的實用價值。我們也發(fā)現(xiàn)有一些詞語無論用哪種方法計算結(jié)果均不理想,這種情況主要是詞語在詞典結(jié)構(gòu)中的分類不合理造成的,這需要修正詞典的分類結(jié)構(gòu)才能解決。我們下一步打算進(jìn)一步引入最近公共父結(jié)點的信息內(nèi)容對本文方法進(jìn)行優(yōu)化。

      [1] 葛斌,李芳芳,郭絲路,等大權(quán). 基于知網(wǎng)的詞匯語義相似度計算方法研究[J].計算機(jī)應(yīng)用研究,2010,09: 3329-3333.

      [2] G A Miller, C Fellbaum. Semantic network of English [M], B. Levin (Ed.), lexical & conceptual semantics, Amsterdam: Elsevier Science Publishers, 1991.

      [3] C F Baker. The BerkeleyFrameNet project[C]// Proceedings of the COLING-ACL, Montreal, Canada, 1998: 86-90.

      [4] S D Richardson, W B Dolan.MindNet: Acquiring and structuring semantic information from text[C]// Proceedings of COLING-ACL, Quebec, Canada, 1998: 1098-1102.

      [5] 董振東.語義關(guān)系的表達(dá)和知識系統(tǒng)的建造[ J ].語言文字應(yīng)用, 1998, 03: 76-83.

      [6] 梅家駒, 等. 同義詞詞林[M]. 上海: 上海辭書出版社出版, 1983.

      [7] 于江生,俞士汶.中文概念詞典的結(jié)構(gòu)[ J ].中文信息學(xué)報, 2002,16(4): 12-20.

      [8] Dekang Lin. An Information Theoretic Definition of Similarity Semantic distance in WordNet[C]//Proceedings of the Fifteenth International Conference on Machine Learning, Madison, Wisconsin, USA,1998: 928-933.

      [9] 張亮,尹存燕,陳家駿.基于語義樹的中文詞語相似度計算與分析[J].中文信息學(xué)報,2010,24(6): 23-29.

      [10] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[C].臺北: 第三屆漢語詞匯語義學(xué)研討會, 2002: 59-76.

      [11] 江敏,肖詩斌,王弘蔚,等. 一種改進(jìn)的基于《知網(wǎng)》的詞語語義相似度計算[J]. 中文信息學(xué)報,2008,22(5): 84-89.

      [12] 梅立軍,周強(qiáng),臧路,等. 知網(wǎng)與同義詞詞林的信息融合研究[J].中文信息學(xué)報,2005,19(1): 63-70.

      [13] Mohamed AliHadj Taieb, Mohamed Ben Aouicha, Abdelmajid Ben Hamadou. A new semantic relatedness measurement using wordnet features [J]. Knowledge and Information Systems, 2014, 41(2): 467-497.

      [14] L Meng, J Gu, Z Zhou. A new model of information content based on concept's topology for measuring semantic similarity in WordNet [J]. Journal of Grid & Distributed Computing, 2012, 5(3): 81-96.

      [15] Z Zhou, Y Wang, J Gu. A new model of information content for semantic similarity in WordNet[C]//Proceedings of the International Conference on the Future Generation Communication and Networking Symposia, Sanya, China, 2008: 85-89.

      [16] 田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學(xué)學(xué)報(信息科學(xué)版),2010,06: 602-608.

      [17] 耿端.基于同義詞詞林的評分在中醫(yī)案例自測系統(tǒng)中的應(yīng)用[D]. 西北大學(xué)碩士學(xué)位論文,2013.

      [18] 劉丹丹,彭成,錢龍華,等.《同義詞詞林》在中文實體關(guān)系抽取中的作用[J]. 中文信息學(xué)報,2014,28(2): 91-99.

      [19] Z. Wu, M. Palmer. Verbs semantics and lexical selection [C]// Proceedings of the 32nd Annual Meeting on Association for Computational Linguistics, ACL'94, Association for Computational Linguistics, Stroudsburg, PA, USA, 1994: 133-138.

      [20] D.Hao, W. Zuo, T. Peng. An approach for calculating semantic similarity between words using wordnet [C]//Proceedings of the second International Conference on Digital Manufacturing and Automation, Zhangjiajie, China, 2011: 177-180.

      [21] X. Liu, Y. Zhou, R.Zheng. Measuring semantic similarity in WordNet[C]//Proceedings of the Sixth International Conference on Machine Learning and Cybernetics, Hong Kong, China, 2007: 3431-3435.

      [22] G.A. Miller, W.G. Charles. Contextual correlates of semantic similarity [J]. Language and Cognitive Processes, 1991, 6 (1): 1-28.

      [23] H. Rubenstein, J.B.Goodenough. Contextual correlates of synonymy[C]//Proceedings of the ACM8(10), 1965: 627-633.

      [24] P. Resnik. Semantic Similarity in Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language [J]. Journal of Artificial Intelligence Research, 1999, 11: 95-130.

      [25] J W Kim, K S Candan. CP/CV: Concept similarity mining without frequency information from domain describing taxonomies [C]//Proceedings of the 15th ACM international conference on Information and knowledge management, New York, USA, 2006: 483-492.

      [26] A H T Mohamed,B A Mohamed, A B Hamadou. Ontology-based approach for measuring semantic similarity [J]. Journal of Engineering Applications of Artificial Intelligence, 2014,36: 238-261.

      A Path and Depth—Based Approach to Word Semantic Similarity Calcalation in CiLin

      CHEN Hongchao,LI Fei,ZHU Xinhua, MA Runcong

      (Guangxi Key Lab of Multi-source Information Mining & Security, Guangxi Normal University, Guilin,Guangxi 541004,China)

      In this paper, we propose a word semantic similarity approach based on the path and depth in CiLin. This approach exploits the shortest path between two word senses and the depth of their lowest common parent node in the hierarchy tree to calculate the semantic similarity between two word senses. In order to improve the rationality of calculating the path and depth, we assign different weights to the edges between the different layers in classification tree, while dynamically adjusting the shortest path between two senses through their branch interval in the lowest common parent node. The experiments show that the correlation coefficient between the human judgments in MC30 dataset and the computational measures presented in this approach is 0.856, which is higher than those of most of current semantic similarity algorithms.

      CiLin; path; depth; branch interval; lowest common parent node

      陳宏朝(1963—),副教授,主要研究領(lǐng)域為自然語言處理、知識工程等。E?mail:chen7297@sina.com李飛(1990—),碩士研究生,主要研究領(lǐng)域為自然語言處理。E?mail:312078417@qq.com朱新華(1965—),通信作者,教授,主要研究領(lǐng)域為自然語言處理、智能教學(xué)系統(tǒng)等。E?mail:zxh429@263.net

      1003-0077(2016)05-0080-09

      2015-01-07 定稿日期: 2015-05-25

      國家自然科學(xué)基金(61363036,61462010)

      猜你喜歡
      義項結(jié)點詞典
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點個數(shù)估計
      評《現(xiàn)代漢語詞典》(第6版)
      小心兩用成語中的冷義項
      詞典例證翻譯標(biāo)準(zhǔn)探索
      兩用成語中的冷義項
      知識窗(2015年1期)2015-05-14 09:08:17
      基于Raspberry PI為結(jié)點的天氣云測量網(wǎng)絡(luò)實現(xiàn)
      《胡言詞典》(合集版)刊行
      Enhanced Precision
      Beijing Review(2012年37期)2012-10-16 02:24:10
      基于DHT全分布式P2P-SIP網(wǎng)絡(luò)電話穩(wěn)定性研究與設(shè)計
      利津县| 徐汇区| 东台市| 石棉县| 慈利县| 凌源市| 北安市| 高青县| 白河县| 浦城县| 壶关县| 沅江市| 小金县| 湖北省| 江孜县| 西青区| 商洛市| 东港市| 湄潭县| 伊川县| 衡阳市| 榆林市| 肇州县| 开江县| 凌海市| 威海市| 光山县| 永德县| 共和县| 宣武区| 黄陵县| 杂多县| 珠海市| 宁陕县| 广安市| 光泽县| 铁力市| 静海县| 海晏县| 日照市| 馆陶县|