• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于依存句法與詞語語義的漢語句子相似度計(jì)算

      2022-07-11 10:44:42黃樹成周尓昊
      關(guān)鍵詞:知網(wǎng)三元組計(jì)算方法

      申 震,王 遜,黃樹成,周尓昊

      (江蘇科技大學(xué) 計(jì)算機(jī)學(xué)院, 鎮(zhèn)江 212100)

      句子相似度計(jì)算廣泛用于自然語言處理的多個(gè)領(lǐng)域[1],具有很高的學(xué)術(shù)價(jià)值和應(yīng)用價(jià)值,在文檔查重中用來定位不同文檔間的相似內(nèi)容;在信息檢索中,通過相似度計(jì)算返回給用戶想要的信息;在問答系統(tǒng)、推薦系統(tǒng)中,經(jīng)過相似度計(jì)算返回最佳的答案或方案.在考試自動(dòng)評(píng)分系統(tǒng)中,句子相似度用來衡量考生答案與參考答案的文本相似程度,直接影響考生成績的評(píng)定;為了更好地衡量兩個(gè)或多個(gè)文本內(nèi)容的相似或相關(guān)程度,需要進(jìn)一步改進(jìn)提高句子相似度計(jì)算的準(zhǔn)確性.國內(nèi)外學(xué)者對(duì)句子相似度計(jì)算方法的研究現(xiàn)狀[2-3]如表1.

      表1 國內(nèi)外研究現(xiàn)狀

      句法分析是對(duì)句子的語法結(jié)構(gòu)分析[8],也屬于語義分析的一種,但其不依賴于某種語料庫或世界知識(shí).混合方法是對(duì)幾種方法的融合.針對(duì)現(xiàn)有基于句法分析的計(jì)算方法中,未充分考慮句子中各成分依存信息,并且忽略單個(gè)詞語的語義信息等問題,文中提出在句法分析的基礎(chǔ)上,加入基于本體知識(shí)詞典的詞語語義相似度計(jì)算方法,考慮到句子成分、依存關(guān)系、詞語語義等多個(gè)層面的語義特征,更準(zhǔn)確的計(jì)算句子間的相似程度,正確判斷句子內(nèi)容的一致性.

      1 相關(guān)工作

      1.1 依存句法分析

      文中使用哈工大語言技術(shù)平臺(tái)(LTP)提供的依存句法服務(wù)分析句子內(nèi)各成分之間的依存關(guān)系以揭示其句法結(jié)構(gòu).語言技術(shù)平臺(tái)是哈工大社會(huì)計(jì)算與信息檢索研究中心歷時(shí)十年研制的一整套開放中文自然語言處理系統(tǒng),該系統(tǒng)提供了中文分詞、詞性標(biāo)注、依存句法分析、語義依存分析等服務(wù),目前所有服務(wù)已經(jīng)部署到訊飛開放平臺(tái).訊飛開放平臺(tái)是一個(gè)開放的移動(dòng)互聯(lián)網(wǎng)智能交互技術(shù)服務(wù)平臺(tái).

      通過構(gòu)造HTTP請(qǐng)求訪問相應(yīng)的Web API接口就可以使用語言技術(shù)平臺(tái)提供的服務(wù).例如:句子“我們即將以昂揚(yáng)的斗志迎來新的一年.”調(diào)用https://ltpapi.xfyun.cn/v1/{dp}依存句法分析接口后得到j(luò)son格式的響應(yīng)數(shù)據(jù):

      { "code": "0", "data": { "dp": [ {"parent": 6,"relate": "SBV"}, {"parent": 6, "relate": "ADV"}, {"parent": 6, "relate": "ADV"},

      {"parent": 5, "relate": "ATT"}, {"parent": 3, "relate": "RAD"}, {"parent": 2, "relate": "POB"}, {"parent": -1, "relate": "HED"}, {"parent": 10, "relate": "ATT"}, {"parent": 7, "relate": "RAD"}, {"parent": 10, "relate": "ATT"}, {"parent": 6, "relate": "VOB"}, { "parent": 6, "relate": "WP"} ] }, "desc": "success", "sid": "ltp00fefb0c@dx487a1323f800a00100"}

      句子分詞后對(duì)詞語編號(hào),root根節(jié)點(diǎn)記作-1,后面詞語和標(biāo)點(diǎn)符號(hào)依次編號(hào),parent字段為父節(jié)點(diǎn),relate字段代表依賴關(guān)系類型.對(duì)數(shù)據(jù)經(jīng)過結(jié)構(gòu)化整理后,得到句子的依存分析樹如圖1.

      圖1 依存句法分析

      依存句法分析樹中的依存關(guān)系標(biāo)注如表2.

      表2 依存關(guān)系的標(biāo)注類型

      1.2 知網(wǎng)的詞語相似度計(jì)算

      知網(wǎng)中有兩個(gè)重要的單位名詞:“概念”與“義原”.一個(gè)詞匯的語義可能由多個(gè)概念描述,而概念又是由一種“知識(shí)表示語言(即義原)”來表述的.多個(gè)義原之間的關(guān)系錯(cuò)綜復(fù)雜,以義原之間的上下位關(guān)系為主線可以將所有的義原組成一個(gè)有層次的樹狀結(jié)構(gòu),如圖2.知網(wǎng)的詞語相似度計(jì)算以義原相似度計(jì)算為基礎(chǔ).

      圖2 樹狀的義原層次結(jié)構(gòu)

      文獻(xiàn)[9]提出了將義原之間的路徑距離轉(zhuǎn)化為計(jì)算兩個(gè)義原之間的相似度,義原距離越小,義原相似度越大.若s1和s2表示兩個(gè)義原,Dis(s1,s2)為s1和s2在知網(wǎng)中的路徑距離,α為一個(gè)調(diào)節(jié)參數(shù),代表相似度是0.5時(shí)的取值,文獻(xiàn)中α取值為1.6.計(jì)算為:

      (1)

      對(duì)于兩個(gè)漢語詞語W1和W2,如果W1有m個(gè)概念:C11,C12,…,C1m;W2有n個(gè)概念:C21,C22,…,C2n,W1和W2的相似度為所有概念的相似度的最大值,為:

      (2)

      兩個(gè)概念語義表達(dá)式的計(jì)算方法為:

      (3)

      式中:βi(1≤i≤3)是不同義原的所占比重,分別代表獨(dú)立義原、關(guān)系義原和關(guān)系符號(hào)義原各自所占的權(quán)重,且β1+β2+β3=1,β1≥β2≥β3.文獻(xiàn)[10]中取值為:β1=0.7,β2=0.17,β3=0.13.采用連乘積的形式是讓主要義原的相似度制約次要義原的相似度,如果詞語的主要義原部分相似度不高,那么詞語的次要義原部分對(duì)詞語整體影響也不能過大.

      1.3 同義詞詞林詞語相似度計(jì)算

      《同義詞詞林》是由梅家駒等人編寫的一部大詞典,所有詞語也是被組織成一種有層次的樹狀結(jié)構(gòu).鑒于同義詞詞林中很多詞語為生僻詞且沒有更新,哈工大信息檢索研究室利用大量詞語相關(guān)資源,完成了《同義詞詞林?jǐn)U展版》的編寫,剔除了原版中的非常用詞,含有豐富的語義信息.《同義詞詞林?jǐn)U展版》繼承了《同義詞詞林》的編碼體系.如沒有加以說明,文中“詞林”指的是《同義詞詞林?jǐn)U展版》.詞林將所有的詞語分為大、中、小3類,為了體現(xiàn)各個(gè)詞語間的詞義遠(yuǎn)近和相關(guān)程度,又將小類分為詞群和原子詞群[11].樹狀結(jié)構(gòu)及每一類的層次編碼規(guī)則如圖3,例如:“東西南北”的編碼為Cb02A01=,詞語的編碼規(guī)則如表3.

      圖3 樹狀結(jié)構(gòu)及編碼規(guī)則

      表3 詞語編碼表

      在第五層之后,分別使用“=”,“#”,“@”3個(gè)符號(hào)標(biāo)記加以區(qū)別描述.“=”代表屬于同義詞;“#”代表屬于同類或相關(guān)詞語;“@”代表既沒有同義詞,也沒有相關(guān)詞.

      文獻(xiàn)[11]利用詞林的樹狀層次結(jié)構(gòu)和詞語的義項(xiàng)編碼,計(jì)算兩個(gè)義項(xiàng)之間的相似度為:

      (4)

      式中:A,B為兩個(gè)義項(xiàng);α為根據(jù)作為葉子節(jié)點(diǎn)的兩個(gè)義項(xiàng)在哪一層分支取相應(yīng)的系數(shù)值;n為分支處的節(jié)點(diǎn)總數(shù);k為兩個(gè)分支間的距離.一個(gè)詞語可能有多個(gè)義項(xiàng)編碼,兩兩計(jì)算兩個(gè)詞語所有的編碼,取其中的最大值作為詞語的語義相似度值.

      2 改進(jìn)的句子相似度計(jì)算方法

      句子相似度計(jì)算是一個(gè)較為復(fù)雜的過程,既要包含組成句子的詞語之間的詞義相似度計(jì)算,又要考慮到句子語法結(jié)構(gòu)對(duì)句子語義相似度的影響.文中首先通過調(diào)用訊飛開放平臺(tái)提供的哈工大研發(fā)的語言技術(shù)平臺(tái)依存句法分析接口得到句子中的依存句法信息,然后使用基于本體知識(shí)的詞語相似度計(jì)算獲得詞語之間的相似度.

      定義1:依存關(guān)系樹Tree(V,E,R):V是樹中所有節(jié)點(diǎn)的集合,E是樹中所有分支的集合,R是所有分支上的依存關(guān)系集合.且滿足:① ?e∈E,?u,v∈V(u≠v),使得e=;②R的取值是依存關(guān)系的15種標(biāo)志類型.

      2.1 基于依存句法的句子相似度計(jì)算

      文獻(xiàn)[12]通過計(jì)算句子中所有詞語之間的相似度得到句子相似度.假設(shè)計(jì)算句子A和句子B的句子相似度,句子A所有的詞語為:A1,A2,…,Am.句子B所有的詞語為:B1,B2,…,Bn;相似度為:

      (5)

      式中:

      ai=max(S(Ai,B1),S(Ai,B2),...,S(Ai,Bn))

      bj=max(S(A1,Bj),S(A2,Bj),...,S(Am,Bj))

      S(Ai,Bj)(1≤i≤m,1≤j≤n)為詞語Ai和Bj的詞語相似度.

      該方法單純的考慮了詞語方面的語義特征,存在語義缺失,不能準(zhǔn)確的反應(yīng)句子的含義.對(duì)一詞多義、結(jié)構(gòu)復(fù)雜的句子計(jì)算相似度時(shí),相似度結(jié)果不可靠.因此,文中提出在計(jì)算詞語相似度的基礎(chǔ)上,加入依存句法分析中依存關(guān)系特征.結(jié)合詞語和詞語間依存關(guān)系進(jìn)行相似度計(jì)算,增加了相似度結(jié)果的可靠性.

      文獻(xiàn)[13]根據(jù)依存句法分析將句子中的詞語分為:核心詞、關(guān)鍵詞和其他詞,各部分分配相應(yīng)的權(quán)重進(jìn)行詞語相似度計(jì)算.雖然考慮到了所有詞語,但只是簡單的將詞語分為3類,未利用句子中各個(gè)詞語或成分之間的依存關(guān)系信息.文獻(xiàn)[14]結(jié)合依存句法與詞林計(jì)算句子相似性,通過依存關(guān)系圖提取出關(guān)系路徑,計(jì)算相同長度的關(guān)系路徑上的詞語相似度,最后對(duì)不同長度的路徑進(jìn)行語義相似度加權(quán)求和,是一種較為理想的方法.但盡管關(guān)系路徑長度相同,對(duì)路徑上不同句法關(guān)系的詞語之間計(jì)算相似度,難免會(huì)造成相似度偏低.

      針對(duì)這些問題文中提出構(gòu)造依存關(guān)系三元組,同時(shí)考慮句中詞語層面上的相似度和句子依存句法層面上的相似度.具體步驟和計(jì)算方法為:

      定義2:依存關(guān)系三元組T(p,q,r):p是依存詞,q是被依存詞,r是兩者之間的依存關(guān)系.且滿足:

      ① (p,q∈V)∩(p≠q)∩∈E

      ②r∈R

      (1) 假設(shè)待計(jì)算相似度的兩個(gè)句子為A和B,調(diào)用語言技術(shù)平臺(tái)的依存句法分析接口得到依存句法分析信息,經(jīng)過結(jié)構(gòu)化數(shù)據(jù)整理得到依存關(guān)系樹Tree(V,E,R),并去掉其中沒有實(shí)際意義的標(biāo)點(diǎn)符號(hào)的依存關(guān)系;

      (2) 根據(jù)兩個(gè)句子的依存關(guān)系樹分別構(gòu)造依存關(guān)系三元組TA(pA,qA,rA)和TB(pB,qB,rB).例如在1.1小節(jié)的依存句法分析例句中“我們”是主語,“迎來”是謂語,兩者之間是主謂關(guān)系;“我們”是依存詞語,“迎來”是被依存詞語,構(gòu)成依存關(guān)系三元組T(我們,迎來,SBV).

      (3) 假設(shè)句子A和句子B分別有m和n個(gè)依存關(guān)系三元組.句子A的第i個(gè)依存關(guān)系三元組記作TAi(pAi,qAi,rAi)(1≤i≤m),pAi,qAi和rAi分別表示句子A的第i個(gè)依存關(guān)系三元組的依存詞、被依存詞和依存關(guān)系;句子B的第j個(gè)依存關(guān)系三元組記作TBj(pBj,qBj,rBj)(1≤j≤n),pBj,qBj和rBj分別表示句子B的第j個(gè)依存關(guān)系三元組的依存詞、被依存詞和依存關(guān)系.

      (4) 一般句子中可能有多個(gè)像定中、狀中、并列等關(guān)系的依存關(guān)系三元組,為了盡量讓主謂和主謂關(guān)系、動(dòng)賓和動(dòng)賓關(guān)系、狀中和狀中關(guān)系等這樣有相同依存關(guān)系的依存關(guān)系三元組進(jìn)行相似度計(jì)算,對(duì)A和B句子中提取出的依存關(guān)系三元組按一定的依存關(guān)系順序進(jìn)行排序.并增加了一個(gè)依存關(guān)系相似度標(biāo)志R_Sim(rAi,rBj),取值為:

      1≤i≤m,1≤j≤n

      (6)

      (5) 將詞語間的依存關(guān)系信息加入相似度計(jì)算中,依存關(guān)系三元組之間的相似度為:

      Sim(TAi,TBj)=Sim(pAi,pBj)×Sim(qAi,qBj)×R_Sim(rAi,rBj)

      (7)

      式中:(1≤i≤m)和(1≤j≤n);Sim(pAi,pBj)是句子A的第i個(gè)依存關(guān)系三元組的依存詞和句子B中第j個(gè)依存關(guān)系三元組的依存詞的詞語相似度;Sim(qAi,qBj)是句子A的第i個(gè)依存關(guān)系三元組的被依存詞和句子B中第j個(gè)依存關(guān)系三元組的被依存詞的詞語相似度;R_Sim(rAi,rBj)是依存關(guān)系相似度標(biāo)志.

      考慮到,依存關(guān)系三元組相似度體現(xiàn)的是兩對(duì)詞語以及語法結(jié)構(gòu)的相似度[15],如果相似度數(shù)值較小,不足以體現(xiàn)依存關(guān)系的重要程度.所以將式(7)改進(jìn)得:

      R_Sim(rAi,rBj)

      (8)

      (6) 句子A和B中所有的依存關(guān)系三元組之間相似度計(jì)算一一對(duì)應(yīng),構(gòu)成m*n維的相似度矩陣:

      (9)

      使用式(8)計(jì)算相似度矩陣中的每個(gè)元素Sim(TAi,TBj)的值.

      (7) 考慮到不同依存關(guān)系對(duì)整個(gè)句子相似度的影響可能不同[16],一個(gè)句子中主要成分是主語、謂語和賓語,輔助成分為“定狀補(bǔ)等”.因此,構(gòu)成主干成分比如:主謂、動(dòng)賓等的依存關(guān)系占的比重較大,而其他比如:定中、狀中、介賓等依存關(guān)系,在句子中只是起到修飾的作用,所占的比重要小些.用W(r)代表依存關(guān)系r的權(quán)重,使用文獻(xiàn)[17]的研究成果進(jìn)行賦值,每個(gè)標(biāo)注類型對(duì)應(yīng)的權(quán)重如表4.

      表4 依存關(guān)系的權(quán)重

      (8) 綜上,對(duì)式(5)進(jìn)行改進(jìn),融入依存關(guān)系的語義影響因素,得到句子相似度為:

      (10)

      2.2 綜合知網(wǎng)與詞林的詞語相似度計(jì)算

      文獻(xiàn)[11]將義原之間的路徑距離轉(zhuǎn)化為計(jì)算兩個(gè)義原之間的相似度,義原距離越小,義原相似度越大.但是影響義原相似度的因素還有節(jié)點(diǎn)密度和節(jié)點(diǎn)層次等語義信息[18-19].

      文獻(xiàn)[10]中提出了一種綜合知網(wǎng)與詞林的詞語相似度計(jì)算方法,根據(jù)不同情況選擇不同權(quán)重計(jì)算詞語相似度,是一種比較簡單直觀的計(jì)算方法.但沒有考慮到還有兩種情況的處理:① 一個(gè)詞語被知網(wǎng)和詞林收錄,另一個(gè)詞語沒被收錄;② 兩個(gè)詞語都沒被收錄.文中對(duì)于第一種情況給定一個(gè)較小的常數(shù)值;對(duì)于第二種情況,轉(zhuǎn)化為比較兩個(gè)字符串是否相同,從而更全面,有更高的容錯(cuò)率.

      假設(shè)W1、W2是待計(jì)算相似度的兩個(gè)詞語,基于知網(wǎng)和詞林計(jì)算出的詞語相似度設(shè)為Sim1和Sim2,分別賦予權(quán)重λ1和λ2,且滿足:λ1+λ2=1,相似度計(jì)算為:

      Sim(W1,W2)=λ1Sim1+λ2Sim2

      (11)

      詞語在知網(wǎng)和詞林中的分布狀況如圖4,集合U表示所有的詞語;集合A表示知網(wǎng)中收錄的詞語,共計(jì)50 222個(gè);集合B表示詞林中收錄的詞語,共計(jì)52 256個(gè);集合C表示知網(wǎng)和詞林同時(shí)收錄的詞語,共計(jì)30 926個(gè)[20];目前知網(wǎng)和詞林仍在更新發(fā)展中,詞語的收錄情況也在不斷地變化.

      圖4 詞語分布圖

      采用如下的動(dòng)態(tài)加權(quán)策略計(jì)算:

      (1) 當(dāng)W1∈C,W2∈C時(shí),使用知網(wǎng)和詞林分別計(jì)算W1和W2的詞語相似度,記為Sim1和Sim2的值,式(9)中λ1= 0.5,λ2= 0.5.

      (2) 當(dāng)W1∈(A-C),W2∈(A-C)或W1∈(B-C),W2∈(B-C) 時(shí),使用知網(wǎng)或詞林計(jì)算W1和W2的詞語相似度,記為Sim1或Sim2,此時(shí),式(9)中λ1=1,λ2=0或λ1= 0,λ2= 1.

      (3) 當(dāng)W1∈(A-C),W2∈(B-C)時(shí),在詞林中查找W2的所有相似詞,并依次與W1使用知網(wǎng)計(jì)算相似度,取其中的最大值作為詞語相似度值,記為Sim1,如果詞林中無相似詞,則取Sim1=0.2,此時(shí),式(9)中λ1=1,λ2=0.

      (4) 當(dāng)W1∈(A-C),W2∈C;或W2∈C,W1∈(B-C)時(shí),首先對(duì)W1和W2使用知網(wǎng)或詞林計(jì)算,記為Sim1或Sim2,然后在詞林中找到W2或W1的所有相似詞,依次與W1或W2使用知網(wǎng)計(jì)算相似度,取其中的最大值,記為Sim2或Sim1;如果在詞林中找不到相似詞,取Sim1=Sim2;此時(shí),式(9)中λ1=0.6,λ2=0.4或λ1=0.4,λ2=0.6.

      (5) 當(dāng)W1∈(A∪B),W2?(A∪B)時(shí),Sim(W1,W2)=0.2.

      (6) 當(dāng)W1?(A∪B),W2?(A∪B)時(shí),則對(duì)W1和W2進(jìn)行字符串的比較.如果字符串相同取Sim(W1,W2)=1,否則Sim(W1,W2)=0.

      綜合知網(wǎng)和詞林兩個(gè)知識(shí)庫的詞語相似度計(jì)算方法,可計(jì)算的詞語范圍得到了一定的擴(kuò)充,充分利用了詞語在兩個(gè)不同知識(shí)庫中層次體系結(jié)構(gòu)和語義的信息,從而使詞語相似度的計(jì)算更加全面,也更加精確.

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)設(shè)計(jì)

      實(shí)驗(yàn)數(shù)據(jù)集:選自西安科技大學(xué)提供的中文語義相似度訓(xùn)練集,該訓(xùn)練集將句子相似度值控制在[0,5]區(qū)間,5表示相似度最高(意思一樣),0表示相似度最低(語義相反或不相干).從中篩選了具有代表性的20個(gè)句子作為標(biāo)準(zhǔn)集,每個(gè)標(biāo)準(zhǔn)句有10個(gè)相似句子作為相似集,另外選取500個(gè)與標(biāo)準(zhǔn)集中句子不相似的句子作為噪聲集.測(cè)試集由相似集和噪聲集組成,共計(jì)700個(gè)句子.

      實(shí)驗(yàn)方法:依次選取標(biāo)準(zhǔn)集中的第i(1≤i≤20)個(gè)句子,與測(cè)試集中的700個(gè)句子兩兩計(jì)算相似度,然后選取相似度數(shù)值大的10個(gè)句子,根據(jù)這10個(gè)句子與第i個(gè)句子的10個(gè)相似句子的共有句子數(shù),判斷該計(jì)算方法的準(zhǔn)確程度.

      評(píng)價(jià)指標(biāo):主要采用準(zhǔn)確率P(Precision)、召回率R(Recall)和F值作為實(shí)驗(yàn)效果的度量標(biāo)準(zhǔn)[21].準(zhǔn)確率是選取的句子樣本中有多少是真正的相似句子樣本;召回率是在相似句子樣本中被選取的比例;F值是準(zhǔn)確率和召回率的組合度量,F(xiàn)值越大,實(shí)驗(yàn)結(jié)果越準(zhǔn)確.具體計(jì)算公式為:

      (12)

      (13)

      (14)

      式中:R1為200個(gè)相似句子的集合,R2為計(jì)算方法選取的句子集合.

      3.2 實(shí)驗(yàn)結(jié)果分析

      根據(jù)實(shí)驗(yàn)方法,對(duì)標(biāo)準(zhǔn)集中的每個(gè)句子和測(cè)試集句子進(jìn)行相似度計(jì)算,選取正確的相似句子樣本個(gè)數(shù)分布如圖5.

      圖5 各方法相似度計(jì)算效果

      提中出的基于依存句法與詞語語義的漢語句子相似度計(jì)算方法與其他4種方法的3個(gè)評(píng)價(jià)指標(biāo)如表5.

      表5 4種方法的性能對(duì)比

      通過表5中的實(shí)驗(yàn)數(shù)據(jù)可以看出,文中計(jì)算方法F值最高,與同類方法相比有一定程度的改進(jìn).基于HowNet的計(jì)算方法由于僅僅考慮了詞義的相似程度,且概念和詞庫在一定程度上不夠豐富,因此測(cè)試結(jié)果不太理想;基于Word2Vec的計(jì)算方法通過大規(guī)模語料庫訓(xùn)練得到詞向量模型來衡量句子相似度,相比基于詞典的方法3個(gè)指標(biāo)都得到了提升,但依賴于強(qiáng)大的語料庫,同時(shí)受數(shù)據(jù)噪聲的干擾比較大,導(dǎo)致計(jì)算正確率不高;結(jié)合依存關(guān)系和詞林的計(jì)算方法通過提取兩個(gè)句子之間的關(guān)系路徑來計(jì)算語義相似度,并結(jié)合詞林樹狀體系結(jié)構(gòu)計(jì)算詞語的相似度,考慮的比較全面,所以實(shí)驗(yàn)結(jié)果比較理想;第四種方法通過對(duì)句子模式歸納,識(shí)別出句子中的問題元,對(duì)中心詞擴(kuò)展.采用融合向量空間模型、TF-IDF方法、同義詞詞林的方法計(jì)算句子相似度.對(duì)特定規(guī)范和格式的句子計(jì)算性能較好,但需要大量歸納句子模式及問題元,適應(yīng)性比較窄,穩(wěn)定性低.文中方法的F值有了一定的提升是因?yàn)樵谝来骊P(guān)系的基礎(chǔ)上,構(gòu)建“依存關(guān)系三元組”,更加精確地計(jì)算句子中相同依存關(guān)系的相似度,對(duì)句子格式?jīng)]有要求.并且更加全面地利用了詞語在知網(wǎng)和詞林本體知識(shí)中的語義信息.既考慮了句子語法結(jié)構(gòu)的深層信息,也考慮了句子中詞匯詞義上的表層信息.

      4 結(jié)論

      文中提出的漢語句子相似度計(jì)算方法,在詞語相似度計(jì)算研究的基礎(chǔ)上,從句子的依存句法分析樹中構(gòu)造依存關(guān)系三元組,進(jìn)而考慮到了句子成分、依存關(guān)系、詞語語義等多個(gè)語義特征對(duì)句子相似程度的影響.對(duì)兩個(gè)句子中的有相同依存關(guān)系的依存關(guān)系三元組進(jìn)行相似度計(jì)算,不同的依存關(guān)系賦予不同的權(quán)重,并且在詞語相似度計(jì)算中充分利用了詞語在兩個(gè)不同知識(shí)庫中的語義信息.實(shí)驗(yàn)表明:該算法的準(zhǔn)確率相比同類方法有了一定的提高,證實(shí)了其有效性,但其未考慮專業(yè)領(lǐng)域中專業(yè)詞匯對(duì)相似度計(jì)算的影響,下一步將根據(jù)專業(yè)詞匯獲取句子主題特征,并加入到相似度計(jì)算,最后將相似度計(jì)算方法應(yīng)用于考試系統(tǒng)中主觀題自動(dòng)評(píng)分中.

      猜你喜歡
      知網(wǎng)三元組計(jì)算方法
      基于語義增強(qiáng)雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
      著作權(quán)使用聲明
      浮力計(jì)算方法匯集
      關(guān)于余撓三元組的periodic-模
      基于知網(wǎng)的翻譯研究方向畢業(yè)論文寫作
      近三年維吾爾語言研究情況綜述
      隨機(jī)振動(dòng)試驗(yàn)包絡(luò)計(jì)算方法
      HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
      科技視界(2016年5期)2016-02-22 11:41:39
      不同應(yīng)變率比值計(jì)算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
      体育| 闽清县| 黄骅市| 三台县| 巴东县| 贵溪市| 洪洞县| 昆明市| 元阳县| 孝昌县| 儋州市| 江川县| 商洛市| 灯塔市| 牟定县| 台东县| 高州市| 海宁市| 丽江市| 丹凤县| 平昌县| 米易县| 通海县| 汉阴县| 凌源市| 清苑县| 连云港市| 玉山县| 水城县| 东源县| 浮山县| 平谷区| 句容市| 郎溪县| 江安县| 天台县| 双鸭山市| 沙河市| 敦化市| 获嘉县| 三穗县|