• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于《知網(wǎng)》的漢語(yǔ)未登錄詞語(yǔ)義相似度計(jì)算

      2012-06-28 08:25:36張瑞霞楊國(guó)增吳慧欣
      中文信息學(xué)報(bào) 2012年1期
      關(guān)鍵詞:中文信息知網(wǎng)同構(gòu)

      張瑞霞,楊國(guó)增,吳慧欣

      (1. 華北水利水電學(xué)院 信息工程學(xué)院,河南 鄭州 450011;2.鄭州師范學(xué)院 數(shù)學(xué)系 河南 鄭州 450044)

      1 引言

      在自然語(yǔ)言信息處理領(lǐng)域中,詞匯相似度的計(jì)算廣泛應(yīng)用于基于實(shí)例的機(jī)器翻譯、信息檢索、信息抽取和詞義消歧等領(lǐng)域,并取得了豐富成果,如文獻(xiàn)[1-6]利用不同方法計(jì)算了詞匯相似度。而隨著網(wǎng)絡(luò)的出現(xiàn),涌現(xiàn)出了大量未登錄詞,關(guān)于未登錄詞識(shí)別有很多研究[7-11],但關(guān)于其語(yǔ)義相似度計(jì)算的研究甚少,在計(jì)算漢語(yǔ)詞匯語(yǔ)義相似度的眾多文獻(xiàn)中,只有文獻(xiàn)[3]涉及了,并且其計(jì)算方法也有待完善。因此設(shè)計(jì)合理的未登錄詞相似度計(jì)算方法有利于促進(jìn)應(yīng)自然語(yǔ)言處理相關(guān)領(lǐng)域的發(fā)展。

      鑒于上述原因,提出了一種基于《知網(wǎng)》2005的漢語(yǔ)未登錄詞語(yǔ)義相似度計(jì)算方法。該方法首先形式化描述了《知網(wǎng)》的動(dòng)態(tài)角色與意合網(wǎng)絡(luò)的語(yǔ)義關(guān)系,并在此基礎(chǔ)上構(gòu)造了語(yǔ)義關(guān)系匹配函數(shù);接著在用概念圖表示未登錄詞語(yǔ)義信息的基礎(chǔ)上,根據(jù)節(jié)點(diǎn)在語(yǔ)義表示中的不同作用,對(duì)其分類(lèi);然后根據(jù)匹配函數(shù)定義了不同弧、節(jié)點(diǎn)對(duì)及節(jié)點(diǎn)對(duì)集的構(gòu)成方法;最后提出了未登錄詞的整體相似度、不同類(lèi)型節(jié)點(diǎn)對(duì)及節(jié)點(diǎn)對(duì)集相似度的計(jì)算方法。實(shí)驗(yàn)結(jié)果證明此方法是有效的。

      2 《知網(wǎng)》和意合網(wǎng)絡(luò)

      《知網(wǎng)》是一個(gè)以英漢雙語(yǔ)所代表的概念以及概念的特征為基礎(chǔ)的常識(shí)知識(shí)庫(kù),它主要描述了概念與概念之間以及概念所具有的特性之間的關(guān)系[12]。董振東先生強(qiáng)調(diào)“關(guān)系是知識(shí)的核心,關(guān)系是《知網(wǎng)》的靈魂”[13]。本計(jì)算方法是在利用《知網(wǎng)》的《知識(shí)詞典》和《中文信息結(jié)構(gòu)庫(kù)》構(gòu)造未登錄詞語(yǔ)義信息的基礎(chǔ)上提出的,它在計(jì)算過(guò)程中能夠有效的利用語(yǔ)義關(guān)系,能夠充分的利用語(yǔ)義信息。

      意合網(wǎng)絡(luò)是魯川先生根據(jù)漢語(yǔ)自身的特點(diǎn),對(duì)語(yǔ)義網(wǎng)絡(luò)的內(nèi)容和形式進(jìn)行了相應(yīng)改進(jìn)而提出的關(guān)于漢語(yǔ)語(yǔ)法語(yǔ)義表示方面的系統(tǒng)理論;它是由各級(jí)“語(yǔ)義單位”組成的,清晰表示“語(yǔ)義關(guān)系”、“語(yǔ)義依附”和“語(yǔ)義指向”的有層次網(wǎng)絡(luò),是“語(yǔ)義組合系統(tǒng)”的形式化圖解[14];當(dāng)代語(yǔ)言學(xué)家胡明揚(yáng)先生認(rèn)為它是中國(guó)計(jì)算機(jī)專(zhuān)家寫(xiě)的第一部現(xiàn)代漢語(yǔ)語(yǔ)法理論著作,值得每一個(gè)從事漢語(yǔ)研究的人一讀[15]。

      3 基于《知網(wǎng)》的未登錄詞語(yǔ)義相似度計(jì)算方法

      文獻(xiàn)[3]中利用《知網(wǎng)》2000版計(jì)算了未登錄詞語(yǔ)義相似度,計(jì)算方法不適用于知網(wǎng)新版本;文獻(xiàn)[5]利用《知網(wǎng)》2005版計(jì)算了漢語(yǔ)登錄詞的相似度,但此方法若應(yīng)用于未登錄詞,則會(huì)忽略去部分語(yǔ)義信息從而影響計(jì)算效果。例如未登錄詞“制造商”和“癡迷者”,根據(jù)對(duì)未登錄詞語(yǔ)義分析的研究,利用《知網(wǎng)》的《知識(shí)詞典》和《中文信息結(jié)構(gòu)庫(kù)》,得到兩個(gè)詞語(yǔ)的概念圖分別如圖1、圖2所示。若采用文獻(xiàn)[5]中語(yǔ)義相似度計(jì)算方法,則只有圖1的節(jié)點(diǎn)“人”與圖2的節(jié)點(diǎn)“人”參與相似度計(jì)算,這樣“制造商”與“癡迷者”的語(yǔ)義相似度就被簡(jiǎn)化為“商”與“者”的相似度,顯然不合理。所以計(jì)算未登錄詞語(yǔ)義相似度的主要問(wèn)題有以下三個(gè):

      圖1 “制造商”的概念圖

      圖2 “癡迷者”的概念圖

      (1)如何實(shí)現(xiàn)語(yǔ)義關(guān)系的模糊匹配,以使各種語(yǔ)義信息有效的參與計(jì)算;

      (2)如何按照語(yǔ)義關(guān)系的匹配分類(lèi)節(jié)點(diǎn)對(duì);

      (3)如何計(jì)算節(jié)點(diǎn)對(duì)、節(jié)點(diǎn)對(duì)集合及未登錄詞整體的相似度。

      3.1 語(yǔ)義關(guān)系的模糊匹配

      《知網(wǎng)》對(duì)語(yǔ)義關(guān)系的描述是比較細(xì)化的,如圖1中“人”作為“制造”的agent與圖2中“人”作為“喜歡”的experiencer是不同的;但若語(yǔ)義關(guān)系的粒度稍微粗略一些,圖1“人”是 作為“制造”的主體,圖2“人”也是作為“喜歡”主體,因此兩者的語(yǔ)義關(guān)系是相同的,這樣計(jì)算語(yǔ)義相似度時(shí),“制造”與“喜歡”模糊匹配成功,從而參與計(jì)算,提高計(jì)算的準(zhǔn)確性。魯川先生的意合網(wǎng)絡(luò)理論對(duì)語(yǔ)義關(guān)系劃分的粒度比較合適,因此參照其首先形式化描述了語(yǔ)義關(guān)系匹配集,然后構(gòu)造了語(yǔ)義關(guān)系匹配函數(shù)。

      意合網(wǎng)絡(luò)的語(yǔ)義關(guān)系集合記為Roleyihe,《知網(wǎng)》的動(dòng)態(tài)角色集合記為Rolehownet,語(yǔ)義關(guān)系標(biāo)識(shí)號(hào)集合記為Sid,父語(yǔ)義關(guān)系標(biāo)識(shí)號(hào)集合記為SparentId。

      語(yǔ)義關(guān)系記為一個(gè)四元組x:x=,其中parentId∈SparentId,id∈Sid,name∈(Roleyihe∪Rolehownet),weight為子語(yǔ)義類(lèi)并入該語(yǔ)義類(lèi)時(shí)對(duì)相似度計(jì)算影響的權(quán)重,weight∈[0,1]。在x上定義運(yùn)算“.”,表示取x的某個(gè)分量,如:x.parentId、x.id、x.name及x.weight。在x的前三個(gè)分量集合上定義運(yùn)算“()”,表示取得該分量所對(duì)應(yīng)的語(yǔ)義關(guān)系四元組,如:(主體)表示x.name=主體的語(yǔ)義關(guān)系四元組。

      根據(jù)意合網(wǎng)絡(luò)語(yǔ)義關(guān)系的層次,對(duì)語(yǔ)義關(guān)系集合按層次進(jìn)行劃分,分別稱(chēng)為:

      語(yǔ)義關(guān)系第一匹配集,記為MatchFirst={(周邊)}。

      語(yǔ)義關(guān)系第二匹配集,記為MatchSecond={(參與),(情景)}。

      語(yǔ)義關(guān)系第三匹配集,記為MatchThird={(主體),(客體),(鄰體),(系體),……}。

      語(yǔ)義關(guān)系第四匹配集,記為MatchForth={(施事),(當(dāng)事),(領(lǐng)事),(受事),……}。

      語(yǔ)義關(guān)系第五匹配集,記為:

      MatchFifth={|parentId∈SparentId,id∈Sid,name∈Rolehownet}。

      下面定義了匹配集間的函數(shù)關(guān)系f,g,稱(chēng)為語(yǔ)義關(guān)系匹配函數(shù):

      f:MatchFifth→MatchForth,?x∈MatchFifth,y=f(x)?x.parentId=y.id,則f確定了動(dòng)態(tài)角色按照MatchForth的匹配規(guī)則,即若f(xi)=f(xj),則xi.name與xj.name可模糊匹配。

      g:MatchForth→MatchThird, ?y∈MatchForth,z=g(y)?y.parentId=z.id,則g確定了意合網(wǎng)絡(luò)第四層語(yǔ)義關(guān)系按照MatchThird的匹配規(guī)則,即若g(yi)=g(yj),則yi.name與yj.name可模糊匹配。

      由函數(shù)的傳遞性可知,復(fù)合函數(shù)g°f:MatchFifth→MatchThird,?x∈MatchFifth,z=g(f(x))?f(x).parentId=z.id,則g°f確定了動(dòng)態(tài)角色按照MatchThird的匹配規(guī)則,即若g(f(xi))=g(f(xj)),則xi.name與xj.name可匹配。

      構(gòu)造匹配函數(shù)后,就增強(qiáng)了動(dòng)態(tài)角色模糊匹配的可操作性,如動(dòng)態(tài)角色experiencer和agent按照匹配函數(shù)g°f可以進(jìn)行匹配。

      3.2 節(jié)點(diǎn)、弧及節(jié)點(diǎn)對(duì)的分類(lèi)

      設(shè)概念圖G1、G2分別為詞語(yǔ)W1、W2的概念圖,其中:

      G1=,V1={v1i|0

      G2=,V2={v2k|0

      令v1i∈V1,e1j∈E1且e1j與v1i相關(guān)聯(lián),e1j的關(guān)系類(lèi)型為《知網(wǎng)》的動(dòng)態(tài)角色kind,則其對(duì)應(yīng)的語(yǔ)義關(guān)系為x1j=(kind);令v2k∈V2,e2l∈E2且e2l與v2k相關(guān)聯(lián),e2l對(duì)應(yīng)的語(yǔ)義關(guān)系四元組為x2l;有x1j,x2l∈MatchFifth。

      文獻(xiàn)[16]對(duì)詞圖中的節(jié)點(diǎn)分為詞語(yǔ)節(jié)點(diǎn)、中心義原節(jié)點(diǎn)、基本義原節(jié)點(diǎn),由于未登錄詞的概念圖是由詞圖合并得到的,因此在文獻(xiàn)[16]對(duì)節(jié)點(diǎn)分類(lèi)的基礎(chǔ)上添加了次中心義原節(jié)點(diǎn)。

      定義1:次中心義原節(jié)點(diǎn):若一節(jié)點(diǎn)在概念圖合并之前是中心義原節(jié)點(diǎn),在合并之后不是中心義原節(jié)點(diǎn),則稱(chēng)此節(jié)點(diǎn)為次中心義原節(jié)點(diǎn)。

      對(duì)圖1和圖2中的節(jié)點(diǎn)進(jìn)行分類(lèi)如表1所示:

      表1 圖例節(jié)點(diǎn)分類(lèi)表

      根據(jù)弧被加入概念圖中的時(shí)間不同將其分為基本弧和擴(kuò)展弧,根據(jù)語(yǔ)義關(guān)系的匹配性可分為基本同型弧、α擴(kuò)展同型弧、β擴(kuò)展同型弧、χ?jǐn)U展同型弧。

      定義2:基本?。簶?gòu)建登錄詞概念圖過(guò)程中添加的弧稱(chēng)為基本弧。

      定義3:擴(kuò)展?。汉喜蓚€(gè)概念圖過(guò)程中添加的弧稱(chēng)為擴(kuò)展弧。

      定義4:基本同型弧:e1j與e2l為基本同型弧當(dāng)且僅當(dāng)e1j與e2l是基本弧且x1j=x2l。

      定義5:α擴(kuò)展同型?。篹1j與e2l為α擴(kuò)展同型弧當(dāng)且僅當(dāng)e1j與e2l是擴(kuò)展弧且x1j=x2l。

      定義6:β擴(kuò)展同型?。篹1j與e2l為β擴(kuò)展同型弧當(dāng)且僅當(dāng)e1j與e2l是擴(kuò)展弧且x1j≠x2l且f(x1j)=f(x2l)。

      定義7:χ?jǐn)U展同型弧:e1j與e2l為χ?jǐn)U展同型弧當(dāng)且僅當(dāng)e1j與e2l是擴(kuò)展弧且f(x1j)≠f(x2l)且g°f(x1j)=g°f(x2l)。

      對(duì)圖1和圖2中的弧進(jìn)行分類(lèi)如表2所示:

      表2 圖例弧分類(lèi)表

      跟據(jù)節(jié)點(diǎn)所關(guān)聯(lián)的弧的類(lèi)型不同,對(duì)節(jié)點(diǎn)對(duì)可分為不同的類(lèi)別。

      定義8:節(jié)點(diǎn)v1i與v2k是基本同構(gòu)節(jié)點(diǎn)對(duì):當(dāng)v1i和v2k滿足下列所有條件時(shí),稱(chēng)v1i與v2k為基本同構(gòu)節(jié)點(diǎn)對(duì),記為

      (1)e1j和e2l為基本同型??;

      (2)v1i與v2k均為基本義原節(jié)點(diǎn);

      (3)v1i與v2k分別為e1j和e2l的始點(diǎn)或終點(diǎn)。

      對(duì)于,稱(chēng)x1j.name為其類(lèi)型,此時(shí)可記為。

      類(lèi)似的當(dāng)v1i與v2k分別為G1和G2的次中心義原節(jié)點(diǎn)時(shí),可定義α擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì),記為α;定義β擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì),記為β,稱(chēng)f(x1j).name為其類(lèi)型;定義χ?jǐn)U展同構(gòu)節(jié)點(diǎn)對(duì),記為χ,稱(chēng)(g°f(x1j)).name為其類(lèi)型。

      定義9:默認(rèn)次中心同構(gòu)節(jié)點(diǎn)對(duì):當(dāng)vi是概念圖G的次中心義原節(jié)點(diǎn)且vi不包含在與G關(guān)聯(lián)的任一α擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)、β擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)及χ?jǐn)U展同構(gòu)節(jié)點(diǎn)對(duì)中,則稱(chēng)vi與是默認(rèn)次中心同構(gòu)節(jié)點(diǎn)對(duì),記為(vi,)s。

      類(lèi)似的可定義默認(rèn)基本同構(gòu)節(jié)點(diǎn)對(duì),記為(vj,)。

      對(duì)圖1和圖2中的節(jié)點(diǎn)對(duì)進(jìn)行分類(lèi),其中基本同構(gòu)節(jié)點(diǎn)對(duì)、α擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)、β擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)、默認(rèn)次中心節(jié)點(diǎn)對(duì)均無(wú),χ?jǐn)U展同構(gòu)節(jié)點(diǎn)對(duì)有<制造,喜歡>χ,默認(rèn)基本同構(gòu)節(jié)點(diǎn)對(duì)有(職位,)、(經(jīng)濟(jì),)。

      由不同類(lèi)型的節(jié)點(diǎn)對(duì)可構(gòu)成不同的節(jié)點(diǎn)對(duì)集,如基本同構(gòu)節(jié)點(diǎn)對(duì)集ISO(G1,G2)、α擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)集αEISO(G1,G2)、β擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)集βEISO(G1,G2),χ?jǐn)U展同構(gòu)節(jié)點(diǎn)對(duì)集χEISO(G1,G2)、默認(rèn)次中心同構(gòu)節(jié)點(diǎn)對(duì)集DSISO(G1,G2)、默認(rèn)基本同構(gòu)節(jié)點(diǎn)對(duì)集DNISO(G1,G2)。

      3.3 未登錄詞相似度計(jì)算

      計(jì)算詞語(yǔ)W1和W2的相似度也即計(jì)算其概念圖G1和G2的相似度sim(G1,G2)。根據(jù)概念圖中節(jié)點(diǎn)對(duì)的分類(lèi),局部相似度包括中心義原節(jié)點(diǎn)對(duì)的相似度sim0、ISO(G1,G2)相似度sim1、αEISO(G1,G2)相似度sim2、βEISO(G1,G2)相似度sim3、χEISO(G1,G2)相似度sim4、DNISO(G1,G2)相似度sim5、DSISO(G1,G2)相似度sim6,G1、G2相似度由局部相似度加權(quán)和得到,如公式(1)所示。

      (1)

      下面探討不同類(lèi)型節(jié)點(diǎn)對(duì)及節(jié)點(diǎn)對(duì)集相似度的計(jì)算。

      (1)基本同構(gòu)節(jié)點(diǎn)對(duì)相似度的計(jì)算:

      設(shè),v1i和v2k的義原分別為s1i和s2k,其相似度sim(s1i,s2k)采用文獻(xiàn)[5]中義原相似度的計(jì)算方法。

      (2)α擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)相似度的計(jì)算:

      設(shè)α,由于v1i和v2k分別是次中心義原節(jié)點(diǎn),其相似度即是分別以v1i和v2k為中心義原節(jié)點(diǎn)的子概念圖G1m和G2n的相似度sim(G1m,G2n),可按公式(1)計(jì)算。

      (3)β擴(kuò)展同構(gòu)節(jié)點(diǎn)對(duì)相似度的計(jì)算:

      設(shè)β,同理,其相似度是以分別v1i和v2k為中心義原節(jié)點(diǎn)的子概念圖G1m和G2n的相似度sim(G1m,G2n),可按公式(2)計(jì)算

      由于v1i和v2k是基于語(yǔ)義關(guān)系模糊匹配的,所以加入?yún)?shù)β′對(duì)原相似度進(jìn)行調(diào)節(jié),并令β′=f(x1j).weight;δi為一調(diào)參數(shù),同公式(1)的設(shè)置。

      類(lèi)似的有χ?jǐn)U展同構(gòu)節(jié)點(diǎn)對(duì)相似度的計(jì)算方法,設(shè)χ,則v1i和v2k的相似度,按公式(3)計(jì)算

      其中χ′為一調(diào)節(jié)參數(shù),χ′=(g°f(x1j)).weight,δi為一調(diào)參數(shù),同公式(1)的設(shè)置。

      (4)默認(rèn)基本同構(gòu)節(jié)點(diǎn)對(duì)和默認(rèn)次中心同構(gòu)節(jié)點(diǎn)對(duì)的相似度分別設(shè)定為較小的常數(shù)ε1和ε2。

      (5)中心義原節(jié)點(diǎn)對(duì)相似度sim0的計(jì)算,按文獻(xiàn)[5]中的義原相似度計(jì)算方法。

      (6)sim1的計(jì)算,參照文獻(xiàn)[5]中同構(gòu)節(jié)點(diǎn)對(duì)集的計(jì)算,如公式(4)所示:

      (4)

      同理可計(jì)算sim2、sim3及sim4。

      (7)sim5和sim6的計(jì)算如公式(5)和公式(6)所示:

      其中n=|DNISO(G1,G2)|,m=|DSISO(G1,G2)|。

      如,計(jì)算“制造商”與“癡迷者”的相似度即計(jì)算圖1與圖2的相似度,根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn),主要參數(shù)設(shè)置如表3所示:

      表3 參數(shù)設(shè)置

      計(jì)算過(guò)程中有sim0=1.0,sim1=0.0,sim2=0.0,sim3=0.0,sim4=0.277 777 8,sim5=0.002,sim6=0.0,按照公式(1)有“制造商”與“癡迷者”的相似度為0.705 565 6。

      4 實(shí)驗(yàn)與分析

      4.1 相似度計(jì)算舉例

      主要參數(shù)設(shè)置如表3所示,表4列舉了一些未登錄詞相似度的計(jì)算結(jié)果。

      表4中實(shí)驗(yàn)舉例分兩部分,一部分是未登錄詞“體育部”和一些詞語(yǔ)的相似度,另一部分是未登錄詞“中國(guó)隊(duì)”和一些詞語(yǔ)的相似度。在第一部分中,前4行與人的直覺(jué)一致;第5行相似度和第6行相似度人的直覺(jué)不容易分辨,但是若從語(yǔ)義結(jié)構(gòu)來(lái)分析,“體育部”和“讀書(shū)人”的語(yǔ)義結(jié)構(gòu)要比“體育部”和“美少女”的語(yǔ)義結(jié)構(gòu)更相近,所以實(shí)驗(yàn)結(jié)果是合理的;第6行和第7行相似度大小從直覺(jué)上不易區(qū)別,但結(jié)果顯示第6行相似度略大于第7行,是因?yàn)閮烧叩母拍顖D中第6行中的默認(rèn)基本同構(gòu)節(jié)點(diǎn)對(duì)多于第7行中的;第7~10行結(jié)果與直覺(jué)一致。

      第二部分中,“中國(guó)隊(duì)”和一些未登錄詞的相似度計(jì)算,除了第7行,其他均和人的直覺(jué)一致,第7行相似度較第6行高,主要原因在于“隊(duì)”與“畫(huà)”的相似度大于“隊(duì)”與“人”的相似度,改善方法為豐富知網(wǎng)對(duì)這些詞語(yǔ)概念項(xiàng)的描述。

      表5 未登錄詞與登錄詞相似度實(shí)驗(yàn)結(jié)果舉例

      表5列舉了未登錄詞“俄國(guó)人”和一些登錄詞的相似度計(jì)算結(jié)果,從整體上看,由于未登錄詞的概念圖是根據(jù)知網(wǎng)中的《中文信息結(jié)構(gòu)庫(kù)》構(gòu)造的,所以按照提出的相似度計(jì)算方法,單個(gè)來(lái)看,相似度值偏低,當(dāng)整體來(lái)看,計(jì)算結(jié)果是合理的。第4行和第5行相似度相同,因?yàn)椤靶茇垺钡闹饕x原“走獸”和“鴿子”的主要義原“禽”在知網(wǎng)的“實(shí)體”義原樹(shù)中處于同一層次,因此在計(jì)算其與“人”的相似度時(shí),按照語(yǔ)義距離計(jì)算方法無(wú)法區(qū)分。

      4.2 實(shí)驗(yàn)結(jié)果分析

      本實(shí)驗(yàn)的實(shí)驗(yàn)集由兩部分組成,第一部分來(lái)自《PFR人民日?qǐng)?bào)標(biāo)注語(yǔ)料》,從中統(tǒng)計(jì)出13 890個(gè)未登錄詞,其中名詞60%、動(dòng)詞20%、日常用語(yǔ)10%、其他詞性的未登錄詞10%,以及來(lái)自哈工大信息檢索研究室語(yǔ)言技術(shù)平臺(tái)的標(biāo)注語(yǔ)料,從中選出4 000個(gè)未登錄詞,其中名詞60%、動(dòng)詞20%、其他詞性的未登錄詞20%;第二部分是隨機(jī)選取《PFR人民日?qǐng)?bào)標(biāo)注語(yǔ)料》中的2 000個(gè)登錄詞和2 000個(gè)未登錄詞。根據(jù)實(shí)驗(yàn)結(jié)果統(tǒng)計(jì),名詞性的未登錄詞相似度中85.2%和人的直覺(jué)一致,動(dòng)詞性未登錄詞的 70.1% 和直覺(jué)一致,日常用語(yǔ)的51.7%和直覺(jué)一致,其他詞性未登錄詞的72.4%和直覺(jué)一致。名詞性未登錄詞相似度計(jì)算效果較好主要原因在于《知識(shí)詞典》對(duì)名詞性概念項(xiàng)的描述較詳盡,《中文信息結(jié)構(gòu)庫(kù)》中關(guān)于名詞性短語(yǔ)的語(yǔ)義結(jié)構(gòu)也較豐富,因此根據(jù)《知識(shí)詞典》和《中文信息結(jié)構(gòu)庫(kù)》對(duì)名詞性未登錄詞概念圖構(gòu)造的正確性比較高,所以其相似度計(jì)算效果較好;《知識(shí)詞典》對(duì)動(dòng)詞性概念的描述較簡(jiǎn)單,《中文信息結(jié)構(gòu)庫(kù)》中關(guān)于動(dòng)詞性短語(yǔ)的語(yǔ)義結(jié)構(gòu)相對(duì)不如名詞性短語(yǔ)的語(yǔ)義結(jié)構(gòu)豐富,因此其概念圖構(gòu)造的正確性就不如名詞性未登錄詞,其相似度計(jì)算效果也不如名詞;對(duì)于日常用語(yǔ)相似度計(jì)算效果較差,主要原因在于《中文信息結(jié)構(gòu)庫(kù)》中難以找到與其對(duì)應(yīng)的準(zhǔn)確語(yǔ)義結(jié)構(gòu);這些體現(xiàn)了基于知識(shí)庫(kù)的語(yǔ)義相似度計(jì)算的缺點(diǎn)。

      5 結(jié)束語(yǔ)

      以《知網(wǎng)》2005版為語(yǔ)義資源提出了漢語(yǔ)未登錄詞語(yǔ)義相似度的計(jì)算方法,該方法首先形式化描述了知網(wǎng)的動(dòng)態(tài)角色與意合網(wǎng)絡(luò)的語(yǔ)義關(guān)系,構(gòu)造了匹配函數(shù);接著在用概念圖表示未登錄詞語(yǔ)義信息的基礎(chǔ)上,根據(jù)節(jié)點(diǎn)的作用不同對(duì)其分類(lèi),并根據(jù)匹配函數(shù)對(duì)弧、節(jié)點(diǎn)對(duì)及節(jié)點(diǎn)對(duì)集分類(lèi);最后提出了未登錄詞整體相似度、不同類(lèi)型節(jié)點(diǎn)對(duì)及節(jié)點(diǎn)對(duì)集相似度的計(jì)算方法。實(shí)驗(yàn)結(jié)果證明此方法是有效的。

      在下一步的工作中,需要繼續(xù)完善本方法。例如在計(jì)算過(guò)程中,目前所有的參數(shù)都是經(jīng)驗(yàn)值,應(yīng)嘗試一些參數(shù)估計(jì)法或機(jī)器學(xué)習(xí)法,來(lái)自動(dòng)尋找最優(yōu)參數(shù);再如,計(jì)算過(guò)程中,由于《知網(wǎng)》對(duì)概念項(xiàng)或?qū)φZ(yǔ)義結(jié)構(gòu)信息描述的不詳盡,而影響了計(jì)算效果,應(yīng)嘗試結(jié)合統(tǒng)計(jì)方法修正計(jì)算結(jié)果;還有,目前計(jì)算詞語(yǔ)相似度是單從詞語(yǔ)角度來(lái)做的,應(yīng)嘗試把詞語(yǔ)放入具體語(yǔ)境中計(jì)算相似度等。

      [1]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C]//第三屆漢語(yǔ)詞匯語(yǔ)義研討會(huì),臺(tái)北,2002.

      [2]關(guān)毅,王曉龍.基于統(tǒng)計(jì)的漢語(yǔ)詞匯間語(yǔ)義相似度計(jì)算[C]//全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集,哈爾濱,2003,221-227.

      [3]夏天.漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計(jì)算研究[J].計(jì)算機(jī)工程, 2007,33(6):191-194.

      [4]李峰,李芳.中文詞語(yǔ)語(yǔ)義相似度計(jì)算——基于《知網(wǎng)》2002[J].中文信息學(xué)報(bào),2007,21(4):99-105.

      [5]張瑞霞,朱貴良,楊國(guó)增.基于知試圖的漢語(yǔ)詞匯語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2009,23(3):116-120.

      [6]葛斌,李芳芳,郭絲路,等.基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算方法研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(9):3329-3333.

      [7]鄒綱,劉洋,劉群,等.面向Internet的中文新詞語(yǔ)檢測(cè)[J].中文信息學(xué)報(bào),2004,18(6):1-9.

      [8]劉華.一種快速獲取領(lǐng)域新詞語(yǔ)的新方法[J].中文信息學(xué)報(bào),2006,20(5):17-23.

      [9]韓艷,林煜熙,姚健民.基于統(tǒng)計(jì)信息的未登錄詞的擴(kuò)展識(shí)別方法[J].中文信息學(xué)報(bào),2009,23(3):24-30.

      [10]程沖,黃水清.自適應(yīng)分詞算法中的未登錄詞識(shí)別技術(shù)研究[J].情報(bào)學(xué)報(bào),2009,28(4):530-536.

      [11]張海軍,史樹(shù)敏,朱朝勇,等.中文新詞識(shí)別技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2010,37(3):6-10.

      [12]董振東,董強(qiáng).《知網(wǎng)》——《知網(wǎng)》簡(jiǎn)介[R].http://www.keenage.com

      [13]董振東,董強(qiáng),郝長(zhǎng)伶.《知網(wǎng)》的理論發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2007,21(4):3-9.

      [14]魯川.漢語(yǔ)語(yǔ)法的意合網(wǎng)絡(luò)[M].北京:商務(wù)印書(shū)館,2001:39-69.

      [15]胡明揚(yáng).讀魯川著.《漢語(yǔ)語(yǔ)法的意合網(wǎng)絡(luò)》[J].漢語(yǔ)學(xué)習(xí),2003(2):73-75.

      [16]張瑞霞,肖漢.基于知網(wǎng)的詞圖構(gòu)造[J].華北水利水電學(xué)院學(xué)報(bào)(自然版),2008,29(3):53-56.

      猜你喜歡
      中文信息知網(wǎng)同構(gòu)
      著作權(quán)使用聲明
      巧用同構(gòu)法解決壓軸題
      指對(duì)同構(gòu)法巧妙處理導(dǎo)數(shù)題
      同構(gòu)式——解決ex、ln x混合型試題最高效的工具
      高等代數(shù)教學(xué)中關(guān)于同構(gòu)的注記
      中國(guó)中文信息學(xué)會(huì)2019年活動(dòng)計(jì)劃2019年活動(dòng)計(jì)劃表
      中國(guó)中文信息學(xué)會(huì)2018年學(xué)術(shù)活動(dòng)計(jì)劃
      基于知網(wǎng)的翻譯研究方向畢業(yè)論文寫(xiě)作
      近三年維吾爾語(yǔ)言研究情況綜述
      HowNet在自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀與分析
      科技視界(2016年5期)2016-02-22 11:41:39
      横峰县| 突泉县| 临沂市| 伊宁县| 确山县| 金沙县| 泊头市| 大冶市| 科技| 桑日县| 景德镇市| 昌乐县| 乐平市| 阳朔县| 湖北省| 德昌县| 栖霞市| 酉阳| 无锡市| 赣州市| 天水市| 芒康县| 许昌县| 长乐市| 双柏县| 兴宁市| 本溪市| 桂平市| 昂仁县| 宽城| 宁远县| 宜宾县| 岫岩| 广丰县| 济源市| 连江县| 平昌县| 同德县| 邵阳市| 仙游县| 屯留县|