魏 韡,向 陽(yáng)
(1.井岡山大學(xué)電子與信息工程學(xué)院流域生態(tài)與地理環(huán)境監(jiān)測(cè)國(guó)家測(cè)繪地理信息局重點(diǎn)實(shí)驗(yàn)室,江西吉安343009;2.同濟(jì)大學(xué)電子與信息工程學(xué)院,上海201804)
基于2008版《知網(wǎng)》的詞語(yǔ)相似度計(jì)算方法
魏 韡1,2,向 陽(yáng)2
(1.井岡山大學(xué)電子與信息工程學(xué)院流域生態(tài)與地理環(huán)境監(jiān)測(cè)國(guó)家測(cè)繪地理信息局重點(diǎn)實(shí)驗(yàn)室,江西吉安343009;2.同濟(jì)大學(xué)電子與信息工程學(xué)院,上海201804)
詞語(yǔ)相似度的計(jì)算是自然語(yǔ)言處理領(lǐng)域的重要問(wèn)題,在機(jī)器翻譯、信息檢索、文本分類等領(lǐng)域有廣泛的應(yīng)用。分析和利用新版語(yǔ)義詞典2008版《知網(wǎng)》,從概念的主類義原和概念的特征描述2個(gè)方面綜合計(jì)算詞語(yǔ)相似度。運(yùn)用義原樹(shù)的樹(shù)形層次結(jié)構(gòu),得到義原的深度信息量,再考慮義原的路徑計(jì)算得到義原相似度。通過(guò)層次特征類型匹配計(jì)算概念特征描述的相似度。綜合主類義原相似度、概念特征描述相似度以及義原之間的對(duì)義、反義關(guān)系計(jì)算得到詞語(yǔ)相似度。實(shí)驗(yàn)結(jié)果表明,該方法得到的詞語(yǔ)相似度計(jì)算結(jié)果與人的主觀認(rèn)識(shí)趨于一致。
詞語(yǔ)相似度;2008版《知網(wǎng)》;義原;深度信息量;路徑;特征描述
在自然語(yǔ)言處理領(lǐng)域,詞語(yǔ)相似度計(jì)算被廣泛地應(yīng)用于信息檢索、機(jī)器翻譯、自動(dòng)問(wèn)答、詞義消歧等方面,是一個(gè)具有基礎(chǔ)研究性質(zhì)的課題。例如:在信息檢索中,詞語(yǔ)相似度可以幫助匹配用戶查詢和符合條件的文本,提高檢索的準(zhǔn)確率和召回率;在基于實(shí)例的機(jī)器翻譯中,詞語(yǔ)相似度可以衡量2個(gè)不同詞語(yǔ)在文本中的可替換程度;在自動(dòng)問(wèn)答系統(tǒng)中,詞語(yǔ)相似度可以用來(lái)表示用戶問(wèn)題和答案之間的符合程度;在詞義消歧中,詞語(yǔ)相似度可以用來(lái)判斷歧義詞的詞義。文獻(xiàn)[1]認(rèn)為2個(gè)詞語(yǔ)的相似度是它們?cè)诓煌纳舷挛闹锌梢曰ハ嗵鎿Q且不改變文本的句法語(yǔ)義結(jié)構(gòu)的程度。簡(jiǎn)而言之,如果2個(gè)詞語(yǔ)可替換的程度越高,它們的相似度就越大。詞語(yǔ)的相似度和其語(yǔ)義的聯(lián)系最密切,所以詞語(yǔ)的相似度一般也指詞語(yǔ)的語(yǔ)義相似度。詞語(yǔ)的相似度一般用[0,1]區(qū)間的一個(gè)實(shí)數(shù)來(lái)表示。
目前,詞語(yǔ)相似度的計(jì)算方法大體上可分為2類,即基于大規(guī)模語(yǔ)料庫(kù)統(tǒng)計(jì)的方法和基于本體或詞典的方法。基于語(yǔ)料庫(kù)統(tǒng)計(jì)的方法比較依賴于訓(xùn)練所用的語(yǔ)料庫(kù),計(jì)算量大、計(jì)算方法復(fù)雜,同時(shí)也容易受到數(shù)據(jù)稀疏和數(shù)據(jù)噪聲的干擾?;诒倔w或詞典的方法比較直觀,易于計(jì)算,但需要有完備的本體或詞典。
雖然2類方法各有千秋,但是由領(lǐng)域?qū)<覙?gòu)建的本體或詞典更具有權(quán)威性和完備性,因此,基于本體或詞典的方法計(jì)算詞語(yǔ)相似度得到的結(jié)果也更合理些。由于目前大多數(shù)基于《知網(wǎng)》的詞語(yǔ)相似度計(jì)算使用的是舊版的《知網(wǎng)》,而2008版《知網(wǎng)》與舊版有較大的改動(dòng),比舊版更豐富和更完備。本文基于2008版《知網(wǎng)》提出新的詞語(yǔ)相似度計(jì)算方法,將詞語(yǔ)相似度分為詞語(yǔ)概念的主類義原相似度和詞語(yǔ)概念的概念特征描述相似度兩部分。通過(guò)基于義原樹(shù)的義原深度信息量及路徑的混合方法計(jì)算主類義原相似度,采用層次特征類型匹配來(lái)計(jì)算特征描述相似度。
《知網(wǎng)》(How Net)[2]是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。知網(wǎng)中的概念指的是詞語(yǔ)的語(yǔ)義,一個(gè)詞語(yǔ)如果有多個(gè)語(yǔ)義,也就有多個(gè)概念。概念是用義原進(jìn)行描述的,義原是不可分割的最小意義單位,唯一且確定。義原之間的關(guān)系主要有:上下位關(guān)系,同義關(guān)系,反義關(guān)系,對(duì)義關(guān)系,屬性-宿主關(guān)系,部件-整體關(guān)系,材料-成品關(guān)系,事件-角色關(guān)系。其中,主要的關(guān)系是上下位關(guān)系、反義關(guān)系、對(duì)義關(guān)系。2008版《知網(wǎng)》大概有2 000多個(gè)義原,大致可分為事件(Event)、實(shí)體(Entity)、屬性(Attribute)、屬性值(Attribute Value)、次要特征(Secondary Feature)等幾個(gè)特征類別,每個(gè)特征類別的義原構(gòu)成一個(gè)樹(shù)狀的層次體系,可稱為義原樹(shù)。
2008版《知網(wǎng)》中概念的描述架構(gòu)和以前版本有很大不同,概念的定義由主類義原及特征描述兩部分組成。主類義原是描述概念的最基本的語(yǔ)義,而特征描述是用特征角色和特征標(biāo)注來(lái)詳細(xì)定義概念,特征描述可以有多重嵌套。例如,詞語(yǔ)“醫(yī)院”在2008版《知網(wǎng)》中的定義如下:
其中,NO.為概念編號(hào);W_C,G_C,E_C分別是漢語(yǔ)的詞語(yǔ)、詞性和例子;W_E,G_E,E_E分別是對(duì)應(yīng)的英語(yǔ)詞語(yǔ)、詞性和例子;DEF是《知網(wǎng)》對(duì)于該概念的定義。在DEF的描述中,場(chǎng)所是主類義原,場(chǎng)所冒號(hào)后面就是由特征角色和特征標(biāo)注組成的特征描述,其中特征標(biāo)注也是義原。這個(gè)特征描述對(duì)場(chǎng)所作了詳細(xì)的說(shuō)明,其中包括了2層嵌套。
詞語(yǔ)相似度可以體現(xiàn)為描述詞語(yǔ)概念之間的相似度,用公式表示為:
詞語(yǔ)W1,W2分別有n和m個(gè)概念;S1i為W1的第i個(gè)概念,S1j為W2的第j個(gè)概念,2個(gè)詞語(yǔ)的相似度取W1和W2的各個(gè)概念相似度的最大值。其中式(1)在計(jì)算中結(jié)合概念的詞性,詞性相同的概念分類組合,減少不同詞性的概念組合的計(jì)算量。本文提出了一種計(jì)算詞語(yǔ)相似度的新方法,該方法可以在主義原相似度計(jì)算和特征描述相似度計(jì)算基礎(chǔ)上得到概念相似度。
3.1 主義原相似度計(jì)算
主義原確定了概念最主要的語(yǔ)義,主義原相似度的計(jì)算對(duì)概念相似度計(jì)算有重大影響。主義原相似度的計(jì)算一般是依靠義原樹(shù)的樹(shù)形層次體系來(lái)計(jì)算。其中,一類方法是依據(jù)義原在樹(shù)形層次體系中的距離來(lái)計(jì)算,2個(gè)義原的距離越近,則它們的相似度也越大;另一類方法是利用義原的信息量來(lái)計(jì)算,如果2個(gè)義原的公共信息量越大,則它們的相似度也越大。文獻(xiàn)[1]給出的公式是:
其中,P1和P2表示2個(gè)義原;dis(P1,P2)表示2個(gè)義原在義原樹(shù)層次體系中的路徑長(zhǎng)度;α是一個(gè)可調(diào)節(jié)的參數(shù)。文獻(xiàn)[4]參考了文獻(xiàn)[3]根據(jù)義原的層次深度計(jì)算相似度的思路,考慮了義原所在層次的影響,提出了修改后的公式:
其中,deP(P1)和deP(P2)分別表示義原P1和P2在義原樹(shù)層次體系中的層次深度,根節(jié)點(diǎn)的層次深度為1。
文獻(xiàn)[4]在借鑒文獻(xiàn)[5]中利用WordNet計(jì)算英文詞語(yǔ)相似度的公式,提出了基于義原信息量來(lái)計(jì)算義原相似度的公式:
其中,LCN表示義原P1和P2在義原樹(shù)中的最近公共父節(jié)點(diǎn);f(P)表示該節(jié)點(diǎn)的子節(jié)點(diǎn)個(gè)數(shù)(包括自己)與樹(shù)中的所有節(jié)點(diǎn)個(gè)數(shù)的比值。文獻(xiàn)[6]綜合基于義原在義原樹(shù)中的距離以及最近公共父節(jié)點(diǎn)提出了如下公式:
其中,α是一個(gè)可調(diào)節(jié)的參數(shù);m,h,n分別表示義原P1,P2以及P1和P2的最近公共父節(jié)點(diǎn)的層次數(shù)。
以上方法只簡(jiǎn)單考慮義原之間的距離以及所在義原樹(shù)的深度,或者義原之間的公共信息量,并未綜合考慮影響義原相似度的各種因素。因此,綜合考慮義原所代表的信息量、所在義原樹(shù)的深度及結(jié)構(gòu)特征,提出基于義原在義原樹(shù)的深度信息量及路徑的混合方法來(lái)計(jì)算義原相似度。首先考慮義原在義原樹(shù)的深度,定義義原P在義原樹(shù)中的深度信息量IC(P),IC(P)的計(jì)算公式如下:
其中,num_chi(P)表示義原P的子節(jié)點(diǎn)個(gè)數(shù);num(T)表示義原P所在義原樹(shù)的總節(jié)點(diǎn)個(gè)數(shù);dePth(P)表示義原P在義原樹(shù)的深度;maχdePth(T)表示義原樹(shù)的最大深度。當(dāng)義原的子孫節(jié)點(diǎn)個(gè)數(shù)越多,義原的深度越小,該義原的深度信息量越小,即該義原越抽象,包含的語(yǔ)義信息也越少。本文基于深度信息量及路徑的混合方法所涉及的相關(guān)術(shù)語(yǔ)如下:
定義1(路徑) T=<P,E>是一個(gè)有向樹(shù),設(shè)根節(jié)點(diǎn)P0和P之間的路徑V=(P0,P1,…,Pn),其中,Pn=P,Pi是Pi+1(0≤i≤n-1)的直接祖先,即Pi和Pi+1存在有向邊連接。
定義2(路徑的交) 設(shè)有向樹(shù)中節(jié)點(diǎn)P1和P2的路徑分別是V1和V2,則路徑V1和V2的交記為V1∩2,V1∩2包含的所有節(jié)點(diǎn)同時(shí)出現(xiàn)在路徑V1和V2中。
定義3(路徑的并) 設(shè)有向樹(shù)中節(jié)點(diǎn)P1和P2的路徑分別是V1和V2,則路徑V1和V2的交記為V1∪2,V1∪2由在路徑V1和V2中全部節(jié)點(diǎn)組成。
若2個(gè)義原不在同一棵義原樹(shù)上,則相似度取一個(gè)極小常數(shù)0.001,若2個(gè)義原在同一棵義原樹(shù)上,計(jì)算2個(gè)義原相似度的算法步驟如下:
(1)分別計(jì)算出根節(jié)點(diǎn)到2個(gè)義原節(jié)點(diǎn)的路徑。
(2)分別計(jì)算出路徑的交和路徑的并。
(3)計(jì)算出V1∩2中各節(jié)點(diǎn)的深度信息量之和:
(4)計(jì)算出V1∪2中各節(jié)點(diǎn)的深度信息量之和:
(5)計(jì)算出V1∩2中各節(jié)點(diǎn)的深度信息量之和IC(V1∩2)與V1∪2中各節(jié)點(diǎn)的深度信息量之和IC(V1∪2)的比值作為節(jié)點(diǎn)P1和P2代表的義原之間的相似度sim(P1,P2):
為了比較本文方法與其他方法的優(yōu)劣,選取了3組義原對(duì)(A:“牲畜”和“禽”,B:“動(dòng)物”和“植物”,C:“動(dòng)物”和“禽”,其所在的義原樹(shù)示意圖如圖1所示。分別使用式(2)~式(5)和本文方法來(lái)計(jì)算其相似度,在式(2)和式(3)中,參數(shù)α的取值均為1.6,式(5)中參數(shù)α的取值是4,這些參數(shù)的取值均與對(duì)應(yīng)文獻(xiàn)中的一致,具體結(jié)果如表1所示。
圖1 實(shí)體義原樹(shù)的部分示意圖
表1 不同方法計(jì)算的義原相似度
雖然義原相似度的評(píng)價(jià)沒(méi)有精確的數(shù)值來(lái)參考,但是可以依據(jù)義原的位置和人工判斷來(lái)對(duì)義原相似度的大小排序。根據(jù)義原在義原樹(shù)中的位置和人工直覺(jué)判斷,3組義原對(duì)的相似度從大到小依次為:A,C,B。在表1中的結(jié)果可以發(fā)現(xiàn),式(2)計(jì)算3組義原對(duì)的相似度的值都相等,這是因?yàn)槭剑?)計(jì)算義原相似度時(shí)只考慮義原之間的路徑長(zhǎng)度,沒(méi)有考慮義原深度差異的影響,而這3組義原對(duì)中義原之間的路徑長(zhǎng)度都為2,由此看出式(2)的計(jì)算方法不太合理。式(3)計(jì)算3組義原對(duì)的相似度時(shí)比式(2)稍微合理一些,其中義原對(duì)A的相似度和義原對(duì)B及義原對(duì)C的相似度不相等,但是義原對(duì)B和義原對(duì)C的相似度仍然相等而沒(méi)有區(qū)別,這是因?yàn)槭剑?)只考慮了義原的最小深度,而義原對(duì)B和義原對(duì)C的義原最小深度都是5。式(4)計(jì)算3組義原對(duì)的相似度均不相等,但是計(jì)算出的相似度結(jié)果按大小排序與人工判斷的并不一致,這表明只利用義原信息量計(jì)算義原相似度并不合理。式(5)計(jì)算3組義原對(duì)的相似度雖然有合理的部分,其中義原對(duì)C的相似度比義原對(duì)B的相似度大,符合人工判斷,但是兩者十分接近,區(qū)分不明顯,同時(shí)義原對(duì)A的相似度不符合人工判斷,顯示出即使考慮了公共祖先和義原深度仍然不能較精確地刻畫(huà)義原相似度。而本文方法計(jì)算3組義原對(duì)的相似度的值雖然偏小,但是大小排序完全符合人工判斷,而且三者之間的相似度有一定的差距,區(qū)分較明顯,表明本文方法比其他方法計(jì)算得到的結(jié)果更具合理性。
3.2 特征描述相似度計(jì)算
特征描述是概念在主義原的基礎(chǔ)上進(jìn)行詳細(xì)說(shuō)明,可以分為有動(dòng)態(tài)角色和無(wú)動(dòng)態(tài)角色2種,同時(shí)可以有多層嵌套。如例子“醫(yī)院”在《知網(wǎng)》中的定義所示:對(duì)主義原“場(chǎng)所”的特征描述有2層嵌套,第1層次有“醫(yī)”和“醫(yī)治”,其中特征標(biāo)注“醫(yī)”前面還有動(dòng)態(tài)角色“domain”,而“醫(yī)治”則沒(méi)有動(dòng)態(tài)角色。第2層次有“疾病”和“場(chǎng)所”,其中,“疾病”的動(dòng)態(tài)角色是“content”,場(chǎng)所的動(dòng)態(tài)角色是“l(fā)ocation”。計(jì)算2個(gè)特征描述相似度算法步驟如下:
(1)分別對(duì)2個(gè)特征描述層次分組。
(2)對(duì)同一層次的特征描述配對(duì),計(jì)算其特征標(biāo)注相似度。其中有相同動(dòng)態(tài)角色的特征標(biāo)注和沒(méi)有動(dòng)態(tài)角色的特征標(biāo)注分別組成集合對(duì)。以沒(méi)有動(dòng)態(tài)角色的特征標(biāo)注為例,設(shè)集合對(duì)是T1和T2,T1中包括的特征標(biāo)注為ti(i=1,2,…,m),T2中包括的特征標(biāo)注為tj(j=1,2,…,n)。首先利用本文的基于深度信息量與路徑的混合方法計(jì)算T1和T2中的特征標(biāo)注相似度sim(ti,tj)得到特征標(biāo)注相似度集合S。取出特征標(biāo)注相似度集合S中最大值sim(tu,tν)= max{sim(ti,tj)}加入集合R,且在T1中刪除tu,在T2中刪除tν,并在S中刪除涉及tu和tν的特征標(biāo)注相似度值。重復(fù)以上步驟,直到T1或T2為空。將集合R中的特征標(biāo)注相似度的平均值作為配對(duì)特征標(biāo)注相似度sim(T1,T2),具體計(jì)算公式如下:
如果存在不同動(dòng)態(tài)角色的特征標(biāo)注,則集合對(duì)T1和T2兩者其中之一為空集,此時(shí)集合R中的特征標(biāo)注相似度值只有一個(gè)值為0,配對(duì)特征標(biāo)注相似度sim(T1,T2)也為0。
(3)計(jì)算出每個(gè)層次的特征描述的相似度,即每個(gè)層次配對(duì)的特征標(biāo)注相似度的平均值。設(shè)層次的特征描述的配對(duì)集合數(shù)為s,每個(gè)配對(duì)集合得到的集合R中的特征描述相似度值的個(gè)數(shù)為th(h=1,2,…,s),則層次的特征描述相似度sim(C1,C2)可由以下公式計(jì)算得到:
(4)將每個(gè)層次的特征描述相似度加權(quán)得到總的特征描述相似度sim(D1,D2),公式為:
3.3 概念相似度計(jì)算
在計(jì)算得到2個(gè)概念的主義原相似度和特征描述相似度的基礎(chǔ)上,2個(gè)概念的相似度sim(S1,S2)可由以下公式計(jì)算得到:
其中,S1和S2分別表示2個(gè)概念;β表示主義原相似度在概念相似度中的權(quán)重,當(dāng)2個(gè)概念都沒(méi)有特征描述時(shí),β等于1;一般情況下取[0,1]的某個(gè)實(shí)數(shù),經(jīng)過(guò)反復(fù)實(shí)驗(yàn)后,設(shè)定β為0.6;θ表示懲罰因子,一般情況下,θ等于1,當(dāng)2個(gè)概念中的義原存在反義或?qū)αx的關(guān)系時(shí),則θ?。?,1]的某個(gè)實(shí)數(shù)。由于當(dāng)2個(gè)概念的義原存在反義或?qū)αx的關(guān)系時(shí)差異較大,經(jīng)過(guò)反復(fù)實(shí)驗(yàn)后,設(shè)定θ為0.1。
其中,D1和D2分別表示2個(gè)概念的特征描述;C1K和C2K表示對(duì)應(yīng)層次的特征描述;λK表示加權(quán)系數(shù),且
目前基于《知網(wǎng)》的中文詞語(yǔ)相似度計(jì)算研究,除了文獻(xiàn)[4,6],文獻(xiàn)[7]從信息論的角度出發(fā),改進(jìn)了義原間的相似度計(jì)算公式。文獻(xiàn)[8]利用義原的其他關(guān)系來(lái)考慮到詞語(yǔ)的極性對(duì)詞語(yǔ)相似度的影響。文獻(xiàn)[9]引入弱義原概念,排除了弱義原對(duì)詞語(yǔ)相似度計(jì)算的干擾。文獻(xiàn)[10]根據(jù)不同類型的義原個(gè)數(shù)來(lái)調(diào)整類型義原的計(jì)算權(quán)重。文獻(xiàn)[11]提出了新的義原描述式權(quán)重分配方案。這些文獻(xiàn)都是在文獻(xiàn)[1]的基礎(chǔ)上基于舊版《知網(wǎng)》作改進(jìn)。為了驗(yàn)證本文方法的有效性,選取了文獻(xiàn)[1]中的一部分?jǐn)?shù)據(jù)作為實(shí)驗(yàn)詞語(yǔ),分別比較采用文獻(xiàn)[1]方法、2008版《知網(wǎng)》提供的軟件包以及本文方法計(jì)算詞語(yǔ)相似度。實(shí)驗(yàn)結(jié)果如表2所示。
表2 詞語(yǔ)相似度計(jì)算結(jié)果
從結(jié)果來(lái)看,2008版《知網(wǎng)》提供的軟件包和本文方法都比文獻(xiàn)[1]方法更符合人的主觀認(rèn)識(shí),其中的原因可能是因?yàn)?008版《知網(wǎng)》比以前版本的《知網(wǎng)》對(duì)詞語(yǔ)的定義更精確,所以可以得到更好的結(jié)果。例如,“男人”和“父親”2個(gè)詞在以前版本的《知網(wǎng)》的定義完全相同,所以導(dǎo)致文獻(xiàn)[1]方法計(jì)算出來(lái)的結(jié)果相似度為1。而2008版《知網(wǎng)》對(duì)“男人”和“父親”2個(gè)詞的定義則有區(qū)別,所以2008版《知網(wǎng)》提供的軟件包和本文方法計(jì)算出來(lái)的相似度沒(méi)有為1。但是更主要的原因是本文方法充分分析與利用了2008版《知網(wǎng)》對(duì)詞語(yǔ)的更準(zhǔn)確定義,考慮了多種影響詞語(yǔ)相似度的因素。
本文方法和2008版《知網(wǎng)》提供的軟件包相比,在計(jì)算不具褒貶性的中性詞語(yǔ)時(shí)大部分結(jié)果都比較接近,同時(shí)在某些數(shù)據(jù)上得到的結(jié)果更好。例如,“跑”和“跳”2個(gè)詞的相似度的結(jié)果表明本文方法計(jì)算得到的0.401比2008版《知網(wǎng)》提供的軟件包計(jì)算得到的0.119要更合理些。在計(jì)算具有褒貶性的詞語(yǔ)時(shí),本文方法能有效地顯示出詞語(yǔ)的褒貶性對(duì)詞語(yǔ)相似度的影響:即褒義詞與褒義詞的詞語(yǔ)相似度要比褒義詞與貶義詞的詞語(yǔ)相似度大。例如:本文方法計(jì)算褒義詞“美麗”和褒義詞“優(yōu)雅”的詞語(yǔ)相似度要大于褒義詞“美麗”和貶義詞“賊眉鼠眼”的詞語(yǔ)相似度。而2008版《知網(wǎng)》提供的軟件包計(jì)算褒義詞“美麗”和褒義詞“優(yōu)雅”之間的詞語(yǔ)相似度卻小于褒義詞“美麗”和貶義詞“賊眉鼠眼”的詞語(yǔ)相似度。這是因?yàn)楸疚姆椒ㄔ谟?jì)算詞語(yǔ)相似度時(shí)考慮了義原之間的反義和對(duì)義的關(guān)系。不同的參數(shù)選擇,會(huì)對(duì)詞語(yǔ)相似度計(jì)算產(chǎn)生細(xì)微的影響,例如某些詞語(yǔ)的概念特征描述比較詳細(xì),可以考慮增加特征相似度的權(quán)重,即將β的取值調(diào)低一些,可能使計(jì)算結(jié)果更準(zhǔn)確一些。
由于《知網(wǎng)》具有豐富的語(yǔ)義知識(shí),因此《知網(wǎng)》是中文詞語(yǔ)相似度計(jì)算的理想平臺(tái)。但是目前中文詞語(yǔ)相似度計(jì)算大部分是基于舊版的《知網(wǎng)》,由于舊版的《知網(wǎng)》在某些方面不夠完善,因此會(huì)影響到中文詞語(yǔ)相似度計(jì)算的準(zhǔn)確性。本文分析和利用2008版《知網(wǎng)》的詞語(yǔ)概念的描述架構(gòu),從概念的主義原定義和概念的特征描述兩方面綜合計(jì)算得到詞語(yǔ)的相似度。實(shí)驗(yàn)結(jié)果表明本文方法得到的詞語(yǔ)相似度和人的主觀認(rèn)識(shí)更趨于一致,且部分實(shí)驗(yàn)結(jié)果優(yōu)于2008版《知網(wǎng)》提供的軟件包方法得到的詞語(yǔ)相似度。
[1] 劉 群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C]//第三屆漢語(yǔ)詞匯語(yǔ)義研討會(huì)論文集.臺(tái)北,中國(guó):[出版者不詳],2002.
[2] 董振東,董 強(qiáng).知網(wǎng)[EB/OL].(2011-03-18).http:// www.keenage.com.
[3] 吳 健,吳朝暉,李 瑩.基于本體論和詞匯語(yǔ)義相似度的Web服務(wù)發(fā)現(xiàn)[J].計(jì)算機(jī)學(xué)報(bào),2005,28(4):595-602.
[4] 李 峰,李 芳.中文詞語(yǔ)語(yǔ)義相似度計(jì)算ˉˉˉ基于《知網(wǎng)》2000[J].中文信息學(xué)報(bào),2007,21(3):99-105.
[5] Lin Dekang.An Information-theoretic Definition of Similarity[C]//Proceedings of the 15th International Conference on Machine Learning.San Francisco,USA:M organ Kaufmann,1998:296-304.
[6] 張 亮,尹存燕,陳家駿.基于語(yǔ)義樹(shù)的中文詞語(yǔ)相似度計(jì)算與分析[J].中文信息學(xué)報(bào),2010,24(6):23-30.
[7] 夏 天.漢語(yǔ)詞語(yǔ)語(yǔ)義相似度研究[J].計(jì)算機(jī)工程,2007,33(6):191-194.
[8] 江 敏,肖詩(shī)斌,王弘蔚,等.一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2008,22(5):84-89.
[9] 林 麗,薛 方,任仲晟.一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)相似度計(jì)算方法[J].計(jì)算機(jī)應(yīng)用,2009,29(1):217-220.
[10] 王小林,王小義.改進(jìn)的基于知網(wǎng)的詞語(yǔ)相似度算法[J].計(jì)算機(jī)應(yīng)用,2011,31(11):3075-3077.
[11] 朱征宇,孫俊華.改進(jìn)的基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].計(jì)算機(jī)應(yīng)用,2013,33(8):2276-2279.
編輯 顧逸斐
Method of Word Similarity ComPutation Based on How Net 2008
WEIWei1,2,XIANG Yang2
(1.Key Laboratory of W atershed Ecology and Geographical Environment Monitoring,College of Electronics and Inform ation Engineering,Jinggangshan University,Ji'an 343009,China;2.College of Electronics and Information Engineering,Tongji University,Shanghai201804,China)
Word similarity computing is a key issue in natural language processing,which is w idely used in machine translation,information retrieval and text classification.Based on lexical taxonomy new How Net(2008),this paper proposes a new method to analyze and compute Chinese word similarity from two dimensions:the main sememe of the concept and the concept characteristic description of the concept.In this paper,the depth information is obtained by using the sememe tree structure,then the sememe similarity is computed by taking into account the hierarchical path of the sememe.Computing the similarity between two concept characteristic descriptions is based on characteristic type mapping.Word similarity is com puted based on the sememe similarity,the concept characteristic descriptions similarity and the antonym information of sememe.Experimental results show that the calculating results of word similarity by this method are more in line with subjective cognition of the people.
word similarity;How Net 2008;sememe;depth information quantity;path;characteristic description
魏 韡,向 陽(yáng).基于2008版《知網(wǎng)》的詞語(yǔ)相似度計(jì)算方法[J].計(jì)算機(jī)工程,2015,41(9):215-219.
英文引用格式:WeiWei,Xiang Yang.Method of Word Similarity Computation Based on How Net 2008[J].Computer Engineering,2015,41(9):215-219.
1000-3428(2015)09-0215-05
A
TP391
10.3969/j.issn.1000-3428.2015.09.040
國(guó)家自然科學(xué)基金資助項(xiàng)目(61363014,71171148);江西省自然科學(xué)基金資助項(xiàng)目(20151BAB207016)。
魏 韡(1983-),男,講師、博士研究生,主研方向:自然語(yǔ)言處理,人工智能;向 陽(yáng),教授、博士生導(dǎo)師。
2014-08-04
2014-10-13 E-m ail:weiweihzkd@163.com