張瑞霞,楊國(guó)增,吳慧欣
(1. 華北水利水電學(xué)院 信息工程學(xué)院,河南 鄭州 450011;2.鄭州師范學(xué)院 數(shù)學(xué)系 河南 鄭州 450044)
在自然語(yǔ)言信息處理領(lǐng)域中,詞匯相似度的計(jì)算廣泛應(yīng)用于基于實(shí)例的機(jī)器翻譯、信息檢索、信息抽取和詞義消歧等領(lǐng)域,并取得了豐富成果,如文獻(xiàn)[1-6]利用不同方法計(jì)算了詞匯相似度。而隨著網(wǎng)絡(luò)的出現(xiàn),涌現(xiàn)出了大量未登錄詞,關(guān)于未登錄詞識(shí)別有很多研究[7-11],但關(guān)于其語(yǔ)義相似度計(jì)算的研究甚少,在計(jì)算漢語(yǔ)詞匯語(yǔ)義相似度的眾多文獻(xiàn)中,只有文獻(xiàn)[3]涉及了,并且其計(jì)算方法也有待完善。因此設(shè)計(jì)合理的未登錄詞相似度計(jì)算方法有利于促進(jìn)應(yīng)自然語(yǔ)言處理相關(guān)領(lǐng)域的發(fā)展。
鑒于上述原因,提出了一種基于《知網(wǎng)》2005的漢語(yǔ)未登錄詞語(yǔ)義相似度計(jì)算方法。該方法首先形式化描述了《知網(wǎng)》的動(dòng)態(tài)角色與意合網(wǎng)絡(luò)的語(yǔ)義關(guān)系,并在此基礎(chǔ)上構(gòu)造了語(yǔ)義關(guān)系匹配函數(shù);接著在用概念圖表示未登錄詞語(yǔ)義信息的基礎(chǔ)上,根據(jù)節(jié)點(diǎn)在語(yǔ)義表示中的不同作用,對(duì)其分類(lèi);然后根據(jù)匹配函數(shù)定義了不同弧、節(jié)點(diǎn)對(duì)及節(jié)點(diǎn)對(duì)集的構(gòu)成方法;最后提出了未登錄詞的整體相似度、不同類(lèi)型節(jié)點(diǎn)對(duì)及節(jié)點(diǎn)對(duì)集相似度的計(jì)算方法。實(shí)驗(yàn)結(jié)果證明此方法是有效的。
《知網(wǎng)》是一個(gè)以英漢雙語(yǔ)所代表的概念以及概念的特征為基礎(chǔ)的常識(shí)知識(shí)庫(kù),它主要描述了概念與概念之間以及概念所具有的特性之間的關(guān)系[12]。董振東先生強(qiáng)調(diào)“關(guān)系是知識(shí)的核心,關(guān)系是《知網(wǎng)》的靈魂”[13]。本計(jì)算方法是在利用《知網(wǎng)》的《知識(shí)詞典》和《中文信息結(jié)構(gòu)庫(kù)》構(gòu)造未登錄詞語(yǔ)義信息的基礎(chǔ)上提出的,它在計(jì)算過(guò)程中能夠有效的利用語(yǔ)義關(guān)系,能夠充分的利用語(yǔ)義信息。
意合網(wǎng)絡(luò)是魯川先生根據(jù)漢語(yǔ)自身的特點(diǎn),對(duì)語(yǔ)義網(wǎng)絡(luò)的內(nèi)容和形式進(jìn)行了相應(yīng)改進(jìn)而提出的關(guān)于漢語(yǔ)語(yǔ)法語(yǔ)義表示方面的系統(tǒng)理論;它是由各級(jí)“語(yǔ)義單位”組成的,清晰表示“語(yǔ)義關(guān)系”、“語(yǔ)義依附”和“語(yǔ)義指向”的有層次網(wǎng)絡(luò),是“語(yǔ)義組合系統(tǒng)”的形式化圖解[14];當(dāng)代語(yǔ)言學(xué)家胡明揚(yáng)先生認(rèn)為它是中國(guó)計(jì)算機(jī)專(zhuān)家寫(xiě)的第一部現(xiàn)代漢語(yǔ)語(yǔ)法理論著作,值得每一個(gè)從事漢語(yǔ)研究的人一讀[15]。
文獻(xiàn)[3]中利用《知網(wǎng)》2000版計(jì)算了未登錄詞語(yǔ)義相似度,計(jì)算方法不適用于知網(wǎng)新版本;文獻(xiàn)[5]利用《知網(wǎng)》2005版計(jì)算了漢語(yǔ)登錄詞的相似度,但此方法若應(yīng)用于未登錄詞,則會(huì)忽略去部分語(yǔ)義信息從而影響計(jì)算效果。例如未登錄詞“制造商”和“癡迷者”,根據(jù)對(duì)未登錄詞語(yǔ)義分析的研究,利用《知網(wǎng)》的《知識(shí)詞典》和《中文信息結(jié)構(gòu)庫(kù)》,得到兩個(gè)詞語(yǔ)的概念圖分別如圖1、圖2所示。若采用文獻(xiàn)[5]中語(yǔ)義相似度計(jì)算方法,則只有圖1的節(jié)點(diǎn)“人”與圖2的節(jié)點(diǎn)“人”參與相似度計(jì)算,這樣“制造商”與“癡迷者”的語(yǔ)義相似度就被簡(jiǎn)化為“商”與“者”的相似度,顯然不合理。所以計(jì)算未登錄詞語(yǔ)義相似度的主要問(wèn)題有以下三個(gè):
圖1 “制造商”的概念圖
圖2 “癡迷者”的概念圖
(1)如何實(shí)現(xiàn)語(yǔ)義關(guān)系的模糊匹配,以使各種語(yǔ)義信息有效的參與計(jì)算;
(2)如何按照語(yǔ)義關(guān)系的匹配分類(lèi)節(jié)點(diǎn)對(duì);
(3)如何計(jì)算節(jié)點(diǎn)對(duì)、節(jié)點(diǎn)對(duì)集合及未登錄詞整體的相似度。
《知網(wǎng)》對(duì)語(yǔ)義關(guān)系的描述是比較細(xì)化的,如圖1中“人”作為“制造”的agent與圖2中“人”作為“喜歡”的experiencer是不同的;但若語(yǔ)義關(guān)系的粒度稍微粗略一些,圖1“人”是 作為“制造”的主體,圖2“人”也是作為“喜歡”主體,因此兩者的語(yǔ)義關(guān)系是相同的,這樣計(jì)算語(yǔ)義相似度時(shí),“制造”與“喜歡”模糊匹配成功,從而參與計(jì)算,提高計(jì)算的準(zhǔn)確性。魯川先生的意合網(wǎng)絡(luò)理論對(duì)語(yǔ)義關(guān)系劃分的粒度比較合適,因此參照其首先形式化描述了語(yǔ)義關(guān)系匹配集,然后構(gòu)造了語(yǔ)義關(guān)系匹配函數(shù)。
意合網(wǎng)絡(luò)的語(yǔ)義關(guān)系集合記為Roleyihe,《知網(wǎng)》的動(dòng)態(tài)角色集合記為Rolehownet,語(yǔ)義關(guān)系標(biāo)識(shí)號(hào)集合記為Sid,父語(yǔ)義關(guān)系標(biāo)識(shí)號(hào)集合記為SparentId。
語(yǔ)義關(guān)系記為一個(gè)四元組x:x=
根據(jù)意合網(wǎng)絡(luò)語(yǔ)義關(guān)系的層次,對(duì)語(yǔ)義關(guān)系集合按層次進(jìn)行劃分,分別稱(chēng)為:
語(yǔ)義關(guān)系第一匹配集,記為MatchFirst={(周邊)}。
語(yǔ)義關(guān)系第二匹配集,記為MatchSecond={(參與),(情景)}。
語(yǔ)義關(guān)系第三匹配集,記為MatchThird={(主體),(客體),(鄰體),(系體),……}。
語(yǔ)義關(guān)系第四匹配集,記為MatchForth={(施事),(當(dāng)事),(領(lǐng)事),(受事),……}。
語(yǔ)義關(guān)系第五匹配集,記為:
MatchFifth={
下面定義了匹配集間的函數(shù)關(guān)系f,g,稱(chēng)為語(yǔ)義關(guān)系匹配函數(shù):
f:MatchFifth→MatchForth,?x∈MatchFifth,y=f(x)?x.parentId=y.id,則f確定了動(dòng)態(tài)角色按照MatchForth的匹配規(guī)則,即若f(xi)=f(xj),則xi.name與xj.name可模糊匹配。
g:MatchForth→MatchThird, ?y∈MatchForth,z=g(y)?y.parentId=z.id,則g確定了意合網(wǎng)絡(luò)第四層語(yǔ)義關(guān)系按照MatchThird的匹配規(guī)則,即若g(yi)=g(yj),則yi.name與yj.name可模糊匹配。
由函數(shù)的傳遞性可知,復(fù)合函數(shù)g°f:MatchFifth→MatchThird,?x∈MatchFifth,z=g(f(x))?f(x).parentId=z.id,則g°f確定了動(dòng)態(tài)角色按照MatchThird的匹配規(guī)則,即若g(f(xi))=g(f(xj)),則xi.name與xj.name可匹配。
構(gòu)造匹配函數(shù)后,就增強(qiáng)了動(dòng)態(tài)角色模糊匹配的可操作性,如動(dòng)態(tài)角色experiencer和agent按照匹配函數(shù)g°f可以進(jìn)行匹配。
設(shè)概念圖G1、G2分別為詞語(yǔ)W1、W2的概念圖,其中:
G1= G2= 令v1i∈V1,e1j∈E1且e1j與v1i相關(guān)聯(lián),e1j的關(guān)系類(lèi)型為《知網(wǎng)》的動(dòng)態(tài)角色kind,則其對(duì)應(yīng)的語(yǔ)義關(guān)系為x1j=(kind);令v2k∈V2,e2l∈E2且e2l與v2k相關(guān)聯(lián),e2l對(duì)應(yīng)的語(yǔ)義關(guān)系四元組為x2l;有x1j,x2l∈MatchFifth。 文獻(xiàn)[16]對(duì)詞圖中的節(jié)點(diǎn)分為詞語(yǔ)節(jié)點(diǎn)、中心義原節(jié)點(diǎn)、基本義原節(jié)點(diǎn),由于未登錄詞的概念圖是由詞圖合并得到的,因此在文獻(xiàn)[16]對(duì)節(jié)點(diǎn)分類(lèi)的基礎(chǔ)上添加了次中心義原節(jié)點(diǎn)。 定義1:次中心義原節(jié)點(diǎn):若一節(jié)點(diǎn)在概念圖合并之前是中心義原節(jié)點(diǎn),在合并之后不是中心義原節(jié)點(diǎn),則稱(chēng)此節(jié)點(diǎn)為次中心義原節(jié)點(diǎn)。 對(duì)圖1和圖2中的節(jié)點(diǎn)進(jìn)行分類(lèi)如表1所示: 表1 圖例節(jié)點(diǎn)分類(lèi)表 根據(jù)弧被加入概念圖中的時(shí)間不同將其分為基本弧和擴(kuò)展弧,根據(jù)語(yǔ)義關(guān)系的匹配性可分為基本同型弧、α擴(kuò)展同型弧、β擴(kuò)展同型弧、χ?jǐn)U展同型弧。 定義2:基本?。簶?gòu)建登錄詞概念圖過(guò)程中添加的弧稱(chēng)為基本弧。 定義3:擴(kuò)展?。汉喜蓚€(gè)概念圖過(guò)程中添加的弧稱(chēng)為擴(kuò)展弧。 定義4:基本同型弧:e1j與e2l為基本同型弧當(dāng)且僅當(dāng)e1j與e2l是基本弧且x1j=x2l。 定義5:α擴(kuò)展同型?。篹1j與e2l為α擴(kuò)展同型弧當(dāng)且僅當(dāng)e1j與e2l是擴(kuò)展弧且x1j=x2l。 定義6:β擴(kuò)展同型?。篹1j與e2l為β擴(kuò)展同型弧當(dāng)且僅當(dāng)e1j與e2l是擴(kuò)展弧且x1j≠x2l且f(x1j)=f(x2l)。 定義7:χ?jǐn)U展同型弧:e1j與e2l為χ?jǐn)U展同型弧當(dāng)且僅當(dāng)e1j與e2l是擴(kuò)展弧且f(x1j)≠f(x2l)且g°f(x1j)=g°f(x2l)。 對(duì)圖1和圖2中的弧進(jìn)行分類(lèi)如表2所示: 表2 圖例弧分類(lèi)表 跟據(jù)節(jié)點(diǎn)所關(guān)聯(lián)的弧的類(lèi)型不同,對(duì)節(jié)點(diǎn)對(duì)可分為不同的類(lèi)別。 定義8:節(jié)點(diǎn)v1i與v2k是基本同構(gòu)節(jié)點(diǎn)對(duì):當(dāng)v1i和v2k滿足下列所有條件時(shí),稱(chēng)v1i與v2k為基本同構(gòu)節(jié)點(diǎn)對(duì),記為 (1)e1j和e2l為基本同型??; (2)v1i與v2k均為基本義原節(jié)點(diǎn); (3)v1i與v2k分別為e1j和e2l的始點(diǎn)或終點(diǎn)。 對(duì)于 類(lèi)似的當(dāng)v1i與v2k分別為G1和G2的次中心義原節(jié)點(diǎn)時(shí),可定義α擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì),記為 定義9:默認(rèn)次中心同構(gòu)節(jié)點(diǎn)對(duì):當(dāng)vi是概念圖G的次中心義原節(jié)點(diǎn)且vi不包含在與G關(guān)聯(lián)的任一α擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)、β擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)及χ?jǐn)U展同構(gòu)節(jié)點(diǎn)對(duì)中,則稱(chēng)vi與是默認(rèn)次中心同構(gòu)節(jié)點(diǎn)對(duì),記為(vi,)s。 類(lèi)似的可定義默認(rèn)基本同構(gòu)節(jié)點(diǎn)對(duì),記為(vj,)。 對(duì)圖1和圖2中的節(jié)點(diǎn)對(duì)進(jìn)行分類(lèi),其中基本同構(gòu)節(jié)點(diǎn)對(duì)、α擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)、β擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)、默認(rèn)次中心節(jié)點(diǎn)對(duì)均無(wú),χ?jǐn)U展同構(gòu)節(jié)點(diǎn)對(duì)有<制造,喜歡>χ,默認(rèn)基本同構(gòu)節(jié)點(diǎn)對(duì)有(職位,)、(經(jīng)濟(jì),)。 由不同類(lèi)型的節(jié)點(diǎn)對(duì)可構(gòu)成不同的節(jié)點(diǎn)對(duì)集,如基本同構(gòu)節(jié)點(diǎn)對(duì)集ISO(G1,G2)、α擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)集αEISO(G1,G2)、β擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)集βEISO(G1,G2),χ?jǐn)U展同構(gòu)節(jié)點(diǎn)對(duì)集χEISO(G1,G2)、默認(rèn)次中心同構(gòu)節(jié)點(diǎn)對(duì)集DSISO(G1,G2)、默認(rèn)基本同構(gòu)節(jié)點(diǎn)對(duì)集DNISO(G1,G2)。 計(jì)算詞語(yǔ)W1和W2的相似度也即計(jì)算其概念圖G1和G2的相似度sim(G1,G2)。根據(jù)概念圖中節(jié)點(diǎn)對(duì)的分類(lèi),局部相似度包括中心義原節(jié)點(diǎn)對(duì)的相似度sim0、ISO(G1,G2)相似度sim1、αEISO(G1,G2)相似度sim2、βEISO(G1,G2)相似度sim3、χEISO(G1,G2)相似度sim4、DNISO(G1,G2)相似度sim5、DSISO(G1,G2)相似度sim6,G1、G2相似度由局部相似度加權(quán)和得到,如公式(1)所示。 (1) 下面探討不同類(lèi)型節(jié)點(diǎn)對(duì)及節(jié)點(diǎn)對(duì)集相似度的計(jì)算。 (1)基本同構(gòu)節(jié)點(diǎn)對(duì)相似度的計(jì)算: 設(shè) (2)α擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)相似度的計(jì)算: 設(shè) (3)β擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)相似度的計(jì)算: 設(shè) 由于v1i和v2k是基于語(yǔ)義關(guān)系模糊匹配的,所以加入?yún)?shù)β′對(duì)原相似度進(jìn)行調(diào)節(jié),并令β′=f(x1j).weight;δi為一調(diào)參數(shù),同公式(1)的設(shè)置。 類(lèi)似的有χ?jǐn)U展同構(gòu)節(jié)點(diǎn)對(duì)相似度的計(jì)算方法,設(shè) 其中χ′為一調(diào)節(jié)參數(shù),χ′=(g°f(x1j)).weight,δi為一調(diào)參數(shù),同公式(1)的設(shè)置。 (4)默認(rèn)基本同構(gòu)節(jié)點(diǎn)對(duì)和默認(rèn)次中心同構(gòu)節(jié)點(diǎn)對(duì)的相似度分別設(shè)定為較小的常數(shù)ε1和ε2。 (5)中心義原節(jié)點(diǎn)對(duì)相似度sim0的計(jì)算,按文獻(xiàn)[5]中的義原相似度計(jì)算方法。 (6)sim1的計(jì)算,參照文獻(xiàn)[5]中同構(gòu)節(jié)點(diǎn)對(duì)集的計(jì)算,如公式(4)所示: (4) 同理可計(jì)算sim2、sim3及sim4。 (7)sim5和sim6的計(jì)算如公式(5)和公式(6)所示: 其中n=|DNISO(G1,G2)|,m=|DSISO(G1,G2)|。 如,計(jì)算“制造商”與“癡迷者”的相似度即計(jì)算圖1與圖2的相似度,根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn),主要參數(shù)設(shè)置如表3所示: 表3 參數(shù)設(shè)置 計(jì)算過(guò)程中有sim0=1.0,sim1=0.0,sim2=0.0,sim3=0.0,sim4=0.277 777 8,sim5=0.002,sim6=0.0,按照公式(1)有“制造商”與“癡迷者”的相似度為0.705 565 6。 主要參數(shù)設(shè)置如表3所示,表4列舉了一些未登錄詞相似度的計(jì)算結(jié)果。 表4中實(shí)驗(yàn)舉例分兩部分,一部分是未登錄詞“體育部”和一些詞語(yǔ)的相似度,另一部分是未登錄詞“中國(guó)隊(duì)”和一些詞語(yǔ)的相似度。在第一部分中,前4行與人的直覺(jué)一致;第5行相似度和第6行相似度人的直覺(jué)不容易分辨,但是若從語(yǔ)義結(jié)構(gòu)來(lái)分析,“體育部”和“讀書(shū)人”的語(yǔ)義結(jié)構(gòu)要比“體育部”和“美少女”的語(yǔ)義結(jié)構(gòu)更相近,所以實(shí)驗(yàn)結(jié)果是合理的;第6行和第7行相似度大小從直覺(jué)上不易區(qū)別,但結(jié)果顯示第6行相似度略大于第7行,是因?yàn)閮烧叩母拍顖D中第6行中的默認(rèn)基本同構(gòu)節(jié)點(diǎn)對(duì)多于第7行中的;第7~10行結(jié)果與直覺(jué)一致。 第二部分中,“中國(guó)隊(duì)”和一些未登錄詞的相似度計(jì)算,除了第7行,其他均和人的直覺(jué)一致,第7行相似度較第6行高,主要原因在于“隊(duì)”與“畫(huà)”的相似度大于“隊(duì)”與“人”的相似度,改善方法為豐富知網(wǎng)對(duì)這些詞語(yǔ)概念項(xiàng)的描述。 表5 未登錄詞與登錄詞相似度實(shí)驗(yàn)結(jié)果舉例 表5列舉了未登錄詞“俄國(guó)人”和一些登錄詞的相似度計(jì)算結(jié)果,從整體上看,由于未登錄詞的概念圖是根據(jù)知網(wǎng)中的《中文信息結(jié)構(gòu)庫(kù)》構(gòu)造的,所以按照提出的相似度計(jì)算方法,單個(gè)來(lái)看,相似度值偏低,當(dāng)整體來(lái)看,計(jì)算結(jié)果是合理的。第4行和第5行相似度相同,因?yàn)椤靶茇垺钡闹饕x原“走獸”和“鴿子”的主要義原“禽”在知網(wǎng)的“實(shí)體”義原樹(shù)中處于同一層次,因此在計(jì)算其與“人”的相似度時(shí),按照語(yǔ)義距離計(jì)算方法無(wú)法區(qū)分。 本實(shí)驗(yàn)的實(shí)驗(yàn)集由兩部分組成,第一部分來(lái)自《PFR人民日?qǐng)?bào)標(biāo)注語(yǔ)料》,從中統(tǒng)計(jì)出13 890個(gè)未登錄詞,其中名詞60%、動(dòng)詞20%、日常用語(yǔ)10%、其他詞性的未登錄詞10%,以及來(lái)自哈工大信息檢索研究室語(yǔ)言技術(shù)平臺(tái)的標(biāo)注語(yǔ)料,從中選出4 000個(gè)未登錄詞,其中名詞60%、動(dòng)詞20%、其他詞性的未登錄詞20%;第二部分是隨機(jī)選取《PFR人民日?qǐng)?bào)標(biāo)注語(yǔ)料》中的2 000個(gè)登錄詞和2 000個(gè)未登錄詞。根據(jù)實(shí)驗(yàn)結(jié)果統(tǒng)計(jì),名詞性的未登錄詞相似度中85.2%和人的直覺(jué)一致,動(dòng)詞性未登錄詞的 70.1% 和直覺(jué)一致,日常用語(yǔ)的51.7%和直覺(jué)一致,其他詞性未登錄詞的72.4%和直覺(jué)一致。名詞性未登錄詞相似度計(jì)算效果較好主要原因在于《知識(shí)詞典》對(duì)名詞性概念項(xiàng)的描述較詳盡,《中文信息結(jié)構(gòu)庫(kù)》中關(guān)于名詞性短語(yǔ)的語(yǔ)義結(jié)構(gòu)也較豐富,因此根據(jù)《知識(shí)詞典》和《中文信息結(jié)構(gòu)庫(kù)》對(duì)名詞性未登錄詞概念圖構(gòu)造的正確性比較高,所以其相似度計(jì)算效果較好;《知識(shí)詞典》對(duì)動(dòng)詞性概念的描述較簡(jiǎn)單,《中文信息結(jié)構(gòu)庫(kù)》中關(guān)于動(dòng)詞性短語(yǔ)的語(yǔ)義結(jié)構(gòu)相對(duì)不如名詞性短語(yǔ)的語(yǔ)義結(jié)構(gòu)豐富,因此其概念圖構(gòu)造的正確性就不如名詞性未登錄詞,其相似度計(jì)算效果也不如名詞;對(duì)于日常用語(yǔ)相似度計(jì)算效果較差,主要原因在于《中文信息結(jié)構(gòu)庫(kù)》中難以找到與其對(duì)應(yīng)的準(zhǔn)確語(yǔ)義結(jié)構(gòu);這些體現(xiàn)了基于知識(shí)庫(kù)的語(yǔ)義相似度計(jì)算的缺點(diǎn)。 以《知網(wǎng)》2005版為語(yǔ)義資源提出了漢語(yǔ)未登錄詞語(yǔ)義相似度的計(jì)算方法,該方法首先形式化描述了知網(wǎng)的動(dòng)態(tài)角色與意合網(wǎng)絡(luò)的語(yǔ)義關(guān)系,構(gòu)造了匹配函數(shù);接著在用概念圖表示未登錄詞語(yǔ)義信息的基礎(chǔ)上,根據(jù)節(jié)點(diǎn)的作用不同對(duì)其分類(lèi),并根據(jù)匹配函數(shù)對(duì)弧、節(jié)點(diǎn)對(duì)及節(jié)點(diǎn)對(duì)集分類(lèi);最后提出了未登錄詞整體相似度、不同類(lèi)型節(jié)點(diǎn)對(duì)及節(jié)點(diǎn)對(duì)集相似度的計(jì)算方法。實(shí)驗(yàn)結(jié)果證明此方法是有效的。 在下一步的工作中,需要繼續(xù)完善本方法。例如在計(jì)算過(guò)程中,目前所有的參數(shù)都是經(jīng)驗(yàn)值,應(yīng)嘗試一些參數(shù)估計(jì)法或機(jī)器學(xué)習(xí)法,來(lái)自動(dòng)尋找最優(yōu)參數(shù);再如,計(jì)算過(guò)程中,由于《知網(wǎng)》對(duì)概念項(xiàng)或?qū)φZ(yǔ)義結(jié)構(gòu)信息描述的不詳盡,而影響了計(jì)算效果,應(yīng)嘗試結(jié)合統(tǒng)計(jì)方法修正計(jì)算結(jié)果;還有,目前計(jì)算詞語(yǔ)相似度是單從詞語(yǔ)角度來(lái)做的,應(yīng)嘗試把詞語(yǔ)放入具體語(yǔ)境中計(jì)算相似度等。 [1]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C]//第三屆漢語(yǔ)詞匯語(yǔ)義研討會(huì),臺(tái)北,2002. [2]關(guān)毅,王曉龍.基于統(tǒng)計(jì)的漢語(yǔ)詞匯間語(yǔ)義相似度計(jì)算[C]//全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集,哈爾濱,2003,221-227. [3]夏天.漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計(jì)算研究[J].計(jì)算機(jī)工程, 2007,33(6):191-194. [4]李峰,李芳.中文詞語(yǔ)語(yǔ)義相似度計(jì)算——基于《知網(wǎng)》2002[J].中文信息學(xué)報(bào),2007,21(4):99-105. [5]張瑞霞,朱貴良,楊國(guó)增.基于知試圖的漢語(yǔ)詞匯語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2009,23(3):116-120. [6]葛斌,李芳芳,郭絲路,等.基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算方法研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(9):3329-3333. [7]鄒綱,劉洋,劉群,等.面向Internet的中文新詞語(yǔ)檢測(cè)[J].中文信息學(xué)報(bào),2004,18(6):1-9. [8]劉華.一種快速獲取領(lǐng)域新詞語(yǔ)的新方法[J].中文信息學(xué)報(bào),2006,20(5):17-23. [9]韓艷,林煜熙,姚健民.基于統(tǒng)計(jì)信息的未登錄詞的擴(kuò)展識(shí)別方法[J].中文信息學(xué)報(bào),2009,23(3):24-30. [10]程沖,黃水清.自適應(yīng)分詞算法中的未登錄詞識(shí)別技術(shù)研究[J].情報(bào)學(xué)報(bào),2009,28(4):530-536. [11]張海軍,史樹(shù)敏,朱朝勇,等.中文新詞識(shí)別技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2010,37(3):6-10. [12]董振東,董強(qiáng).《知網(wǎng)》——《知網(wǎng)》簡(jiǎn)介[R].http://www.keenage.com [13]董振東,董強(qiáng),郝長(zhǎng)伶.《知網(wǎng)》的理論發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2007,21(4):3-9. [14]魯川.漢語(yǔ)語(yǔ)法的意合網(wǎng)絡(luò)[M].北京:商務(wù)印書(shū)館,2001:39-69. [15]胡明揚(yáng).讀魯川著.《漢語(yǔ)語(yǔ)法的意合網(wǎng)絡(luò)》[J].漢語(yǔ)學(xué)習(xí),2003(2):73-75. [16]張瑞霞,肖漢.基于知網(wǎng)的詞圖構(gòu)造[J].華北水利水電學(xué)院學(xué)報(bào)(自然版),2008,29(3):53-56.3.3 未登錄詞相似度計(jì)算
4 實(shí)驗(yàn)與分析
4.1 相似度計(jì)算舉例
4.2 實(shí)驗(yàn)結(jié)果分析
5 結(jié)束語(yǔ)