基于依存句法與詞語語義的漢語句子相似度計(jì)算

2022-07-11 10:44:42黃樹成周尓昊

江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年2期

申震，王遜，黃樹成，周尓昊

(江蘇科技大學(xué) 計(jì)算機(jī)學(xué)院，鎮(zhèn)江 212100)

句子相似度計(jì)算廣泛用于自然語言處理的多個(gè)領(lǐng)域[1]，具有很高的學(xué)術(shù)價(jià)值和應(yīng)用價(jià)值，在文檔查重中用來定位不同文檔間的相似內(nèi)容；在信息檢索中，通過相似度計(jì)算返回給用戶想要的信息；在問答系統(tǒng)、推薦系統(tǒng)中，經(jīng)過相似度計(jì)算返回最佳的答案或方案.在考試自動(dòng)評(píng)分系統(tǒng)中，句子相似度用來衡量考生答案與參考答案的文本相似程度，直接影響考生成績的評(píng)定；為了更好地衡量兩個(gè)或多個(gè)文本內(nèi)容的相似或相關(guān)程度，需要進(jìn)一步改進(jìn)提高句子相似度計(jì)算的準(zhǔn)確性.國內(nèi)外學(xué)者對(duì)句子相似度計(jì)算方法的研究現(xiàn)狀[2-3]如表1.

表1 國內(nèi)外研究現(xiàn)狀

句法分析是對(duì)句子的語法結(jié)構(gòu)分析[8]，也屬于語義分析的一種，但其不依賴于某種語料庫或世界知識(shí).混合方法是對(duì)幾種方法的融合.針對(duì)現(xiàn)有基于句法分析的計(jì)算方法中，未充分考慮句子中各成分依存信息，并且忽略單個(gè)詞語的語義信息等問題，文中提出在句法分析的基礎(chǔ)上，加入基于本體知識(shí)詞典的詞語語義相似度計(jì)算方法，考慮到句子成分、依存關(guān)系、詞語語義等多個(gè)層面的語義特征，更準(zhǔn)確的計(jì)算句子間的相似程度，正確判斷句子內(nèi)容的一致性.

1 相關(guān)工作

1.1 依存句法分析

文中使用哈工大語言技術(shù)平臺(tái)(LTP)提供的依存句法服務(wù)分析句子內(nèi)各成分之間的依存關(guān)系以揭示其句法結(jié)構(gòu).語言技術(shù)平臺(tái)是哈工大社會(huì)計(jì)算與信息檢索研究中心歷時(shí)十年研制的一整套開放中文自然語言處理系統(tǒng)，該系統(tǒng)提供了中文分詞、詞性標(biāo)注、依存句法分析、語義依存分析等服務(wù)，目前所有服務(wù)已經(jīng)部署到訊飛開放平臺(tái).訊飛開放平臺(tái)是一個(gè)開放的移動(dòng)互聯(lián)網(wǎng)智能交互技術(shù)服務(wù)平臺(tái).

通過構(gòu)造HTTP請(qǐng)求訪問相應(yīng)的Web API接口就可以使用語言技術(shù)平臺(tái)提供的服務(wù).例如：句子“我們即將以昂揚(yáng)的斗志迎來新的一年.”調(diào)用https://ltpapi.xfyun.cn/v1/{dp}依存句法分析接口后得到j(luò)son格式的響應(yīng)數(shù)據(jù)：

{ "code": "0", "data": { "dp": [ {"parent": 6,"relate": "SBV"}, {"parent": 6, "relate": "ADV"}, {"parent": 6, "relate": "ADV"},

{"parent": 5, "relate": "ATT"}, {"parent": 3, "relate": "RAD"}, {"parent": 2, "relate": "POB"}, {"parent": -1, "relate": "HED"}, {"parent": 10, "relate": "ATT"}, {"parent": 7, "relate": "RAD"}, {"parent": 10, "relate": "ATT"}, {"parent": 6, "relate": "VOB"}, { "parent": 6, "relate": "WP"} ] }, "desc": "success", "sid": "ltp00fefb0c@dx487a1323f800a00100"}

句子分詞后對(duì)詞語編號(hào)，root根節(jié)點(diǎn)記作-1，后面詞語和標(biāo)點(diǎn)符號(hào)依次編號(hào)，parent字段為父節(jié)點(diǎn)，relate字段代表依賴關(guān)系類型.對(duì)數(shù)據(jù)經(jīng)過結(jié)構(gòu)化整理后，得到句子的依存分析樹如圖1.

圖1 依存句法分析

依存句法分析樹中的依存關(guān)系標(biāo)注如表2.

表2 依存關(guān)系的標(biāo)注類型

1.2 知網(wǎng)的詞語相似度計(jì)算

知網(wǎng)中有兩個(gè)重要的單位名詞：“概念”與“義原”.一個(gè)詞匯的語義可能由多個(gè)概念描述，而概念又是由一種“知識(shí)表示語言(即義原)”來表述的.多個(gè)義原之間的關(guān)系錯(cuò)綜復(fù)雜，以義原之間的上下位關(guān)系為主線可以將所有的義原組成一個(gè)有層次的樹狀結(jié)構(gòu)，如圖2.知網(wǎng)的詞語相似度計(jì)算以義原相似度計(jì)算為基礎(chǔ).

圖2 樹狀的義原層次結(jié)構(gòu)

文獻(xiàn)[9]提出了將義原之間的路徑距離轉(zhuǎn)化為計(jì)算兩個(gè)義原之間的相似度，義原距離越小，義原相似度越大.若s1和s2表示兩個(gè)義原，Dis(s1,s2)為s1和s2在知網(wǎng)中的路徑距離，α為一個(gè)調(diào)節(jié)參數(shù)，代表相似度是0.5時(shí)的取值，文獻(xiàn)中α取值為1.6.計(jì)算為：

(1)

對(duì)于兩個(gè)漢語詞語W1和W2，如果W1有m個(gè)概念：C11，C12，…，C1m；W2有n個(gè)概念：C21，C22，…，C2n，W1和W2的相似度為所有概念的相似度的最大值,為：

(2)

兩個(gè)概念語義表達(dá)式的計(jì)算方法為：

(3)

式中：βi(1≤i≤3)是不同義原的所占比重，分別代表獨(dú)立義原、關(guān)系義原和關(guān)系符號(hào)義原各自所占的權(quán)重，且β1+β2+β3=1，β1≥β2≥β3.文獻(xiàn)[10]中取值為：β1=0.7，β2=0.17，β3=0.13.采用連乘積的形式是讓主要義原的相似度制約次要義原的相似度，如果詞語的主要義原部分相似度不高，那么詞語的次要義原部分對(duì)詞語整體影響也不能過大.

1.3 同義詞詞林詞語相似度計(jì)算

《同義詞詞林》是由梅家駒等人編寫的一部大詞典，所有詞語也是被組織成一種有層次的樹狀結(jié)構(gòu).鑒于同義詞詞林中很多詞語為生僻詞且沒有更新，哈工大信息檢索研究室利用大量詞語相關(guān)資源，完成了《同義詞詞林?jǐn)U展版》的編寫，剔除了原版中的非常用詞，含有豐富的語義信息.《同義詞詞林?jǐn)U展版》繼承了《同義詞詞林》的編碼體系.如沒有加以說明，文中“詞林”指的是《同義詞詞林?jǐn)U展版》.詞林將所有的詞語分為大、中、小3類，為了體現(xiàn)各個(gè)詞語間的詞義遠(yuǎn)近和相關(guān)程度，又將小類分為詞群和原子詞群[11].樹狀結(jié)構(gòu)及每一類的層次編碼規(guī)則如圖3,例如：“東西南北”的編碼為Cb02A01=，詞語的編碼規(guī)則如表3.

圖3 樹狀結(jié)構(gòu)及編碼規(guī)則

表3 詞語編碼表

在第五層之后，分別使用“=”，“#”，“@”3個(gè)符號(hào)標(biāo)記加以區(qū)別描述.“=”代表屬于同義詞；“#”代表屬于同類或相關(guān)詞語；“@”代表既沒有同義詞，也沒有相關(guān)詞.

文獻(xiàn)[11]利用詞林的樹狀層次結(jié)構(gòu)和詞語的義項(xiàng)編碼，計(jì)算兩個(gè)義項(xiàng)之間的相似度為：

(4)

式中：A，B為兩個(gè)義項(xiàng)；α為根據(jù)作為葉子節(jié)點(diǎn)的兩個(gè)義項(xiàng)在哪一層分支取相應(yīng)的系數(shù)值；n為分支處的節(jié)點(diǎn)總數(shù)；k為兩個(gè)分支間的距離.一個(gè)詞語可能有多個(gè)義項(xiàng)編碼，兩兩計(jì)算兩個(gè)詞語所有的編碼，取其中的最大值作為詞語的語義相似度值.

2 改進(jìn)的句子相似度計(jì)算方法

句子相似度計(jì)算是一個(gè)較為復(fù)雜的過程，既要包含組成句子的詞語之間的詞義相似度計(jì)算，又要考慮到句子語法結(jié)構(gòu)對(duì)句子語義相似度的影響.文中首先通過調(diào)用訊飛開放平臺(tái)提供的哈工大研發(fā)的語言技術(shù)平臺(tái)依存句法分析接口得到句子中的依存句法信息，然后使用基于本體知識(shí)的詞語相似度計(jì)算獲得詞語之間的相似度.

定義1：依存關(guān)系樹Tree(V,E,R)：V是樹中所有節(jié)點(diǎn)的集合，E是樹中所有分支的集合，R是所有分支上的依存關(guān)系集合.且滿足：① ?e∈E,?u,v∈V(u≠v),使得e=；②R的取值是依存關(guān)系的15種標(biāo)志類型.

2.1 基于依存句法的句子相似度計(jì)算

文獻(xiàn)[12]通過計(jì)算句子中所有詞語之間的相似度得到句子相似度.假設(shè)計(jì)算句子A和句子B的句子相似度，句子A所有的詞語為：A1，A2，…，Am.句子B所有的詞語為：B1，B2，…，Bn；相似度為：

(5)

式中：

ai=max(S(Ai,B1),S(Ai,B2),...,S(Ai,Bn))

bj=max(S(A1,Bj),S(A2,Bj),...,S(Am,Bj))

S(Ai,Bj)(1≤i≤m,1≤j≤n)為詞語Ai和Bj的詞語相似度.

該方法單純的考慮了詞語方面的語義特征，存在語義缺失，不能準(zhǔn)確的反應(yīng)句子的含義.對(duì)一詞多義、結(jié)構(gòu)復(fù)雜的句子計(jì)算相似度時(shí)，相似度結(jié)果不可靠.因此，文中提出在計(jì)算詞語相似度的基礎(chǔ)上，加入依存句法分析中依存關(guān)系特征.結(jié)合詞語和詞語間依存關(guān)系進(jìn)行相似度計(jì)算，增加了相似度結(jié)果的可靠性.

文獻(xiàn)[13]根據(jù)依存句法分析將句子中的詞語分為：核心詞、關(guān)鍵詞和其他詞，各部分分配相應(yīng)的權(quán)重進(jìn)行詞語相似度計(jì)算.雖然考慮到了所有詞語，但只是簡單的將詞語分為3類，未利用句子中各個(gè)詞語或成分之間的依存關(guān)系信息.文獻(xiàn)[14]結(jié)合依存句法與詞林計(jì)算句子相似性，通過依存關(guān)系圖提取出關(guān)系路徑，計(jì)算相同長度的關(guān)系路徑上的詞語相似度，最后對(duì)不同長度的路徑進(jìn)行語義相似度加權(quán)求和，是一種較為理想的方法.但盡管關(guān)系路徑長度相同，對(duì)路徑上不同句法關(guān)系的詞語之間計(jì)算相似度，難免會(huì)造成相似度偏低.

針對(duì)這些問題文中提出構(gòu)造依存關(guān)系三元組，同時(shí)考慮句中詞語層面上的相似度和句子依存句法層面上的相似度.具體步驟和計(jì)算方法為：

定義2：依存關(guān)系三元組T(p,q,r)：p是依存詞，q是被依存詞，r是兩者之間的依存關(guān)系.且滿足：

① (p,q∈V)∩(p≠q)∩∈E

②r∈R

(1) 假設(shè)待計(jì)算相似度的兩個(gè)句子為A和B，調(diào)用語言技術(shù)平臺(tái)的依存句法分析接口得到依存句法分析信息，經(jīng)過結(jié)構(gòu)化數(shù)據(jù)整理得到依存關(guān)系樹Tree(V,E,R)，并去掉其中沒有實(shí)際意義的標(biāo)點(diǎn)符號(hào)的依存關(guān)系；

(2) 根據(jù)兩個(gè)句子的依存關(guān)系樹分別構(gòu)造依存關(guān)系三元組TA(pA,qA,rA)和TB(pB,qB,rB).例如在1.1小節(jié)的依存句法分析例句中“我們”是主語，“迎來”是謂語，兩者之間是主謂關(guān)系；“我們”是依存詞語，“迎來”是被依存詞語，構(gòu)成依存關(guān)系三元組T(我們,迎來，SBV).

(3) 假設(shè)句子A和句子B分別有m和n個(gè)依存關(guān)系三元組.句子A的第i個(gè)依存關(guān)系三元組記作TAi(pAi,qAi,rAi)(1≤i≤m)，pAi，qAi和rAi分別表示句子A的第i個(gè)依存關(guān)系三元組的依存詞、被依存詞和依存關(guān)系；句子B的第j個(gè)依存關(guān)系三元組記作TBj(pBj,qBj,rBj)(1≤j≤n)，pBj，qBj和rBj分別表示句子B的第j個(gè)依存關(guān)系三元組的依存詞、被依存詞和依存關(guān)系.

(4) 一般句子中可能有多個(gè)像定中、狀中、并列等關(guān)系的依存關(guān)系三元組，為了盡量讓主謂和主謂關(guān)系、動(dòng)賓和動(dòng)賓關(guān)系、狀中和狀中關(guān)系等這樣有相同依存關(guān)系的依存關(guān)系三元組進(jìn)行相似度計(jì)算，對(duì)A和B句子中提取出的依存關(guān)系三元組按一定的依存關(guān)系順序進(jìn)行排序.并增加了一個(gè)依存關(guān)系相似度標(biāo)志R_Sim(rAi,rBj)，取值為：

1≤i≤m,1≤j≤n

(6)

(5) 將詞語間的依存關(guān)系信息加入相似度計(jì)算中，依存關(guān)系三元組之間的相似度為：

Sim(TAi,TBj)=Sim(pAi,pBj)×Sim(qAi,qBj)×R_Sim(rAi,rBj)

(7)

式中：(1≤i≤m)和(1≤j≤n)；Sim(pAi,pBj)是句子A的第i個(gè)依存關(guān)系三元組的依存詞和句子B中第j個(gè)依存關(guān)系三元組的依存詞的詞語相似度；Sim(qAi,qBj)是句子A的第i個(gè)依存關(guān)系三元組的被依存詞和句子B中第j個(gè)依存關(guān)系三元組的被依存詞的詞語相似度；R_Sim(rAi,rBj)是依存關(guān)系相似度標(biāo)志.

考慮到，依存關(guān)系三元組相似度體現(xiàn)的是兩對(duì)詞語以及語法結(jié)構(gòu)的相似度[15]，如果相似度數(shù)值較小，不足以體現(xiàn)依存關(guān)系的重要程度.所以將式(7)改進(jìn)得：

R_Sim(rAi,rBj)

(8)

(6) 句子A和B中所有的依存關(guān)系三元組之間相似度計(jì)算一一對(duì)應(yīng)，構(gòu)成m*n維的相似度矩陣：

(9)

使用式(8)計(jì)算相似度矩陣中的每個(gè)元素Sim(TAi,TBj)的值.

(7) 考慮到不同依存關(guān)系對(duì)整個(gè)句子相似度的影響可能不同[16]，一個(gè)句子中主要成分是主語、謂語和賓語，輔助成分為“定狀補(bǔ)等”.因此，構(gòu)成主干成分比如：主謂、動(dòng)賓等的依存關(guān)系占的比重較大，而其他比如：定中、狀中、介賓等依存關(guān)系，在句子中只是起到修飾的作用，所占的比重要小些.用W(r)代表依存關(guān)系r的權(quán)重，使用文獻(xiàn)[17]的研究成果進(jìn)行賦值，每個(gè)標(biāo)注類型對(duì)應(yīng)的權(quán)重如表4.

表4 依存關(guān)系的權(quán)重

(8) 綜上，對(duì)式(5)進(jìn)行改進(jìn)，融入依存關(guān)系的語義影響因素，得到句子相似度為：

(10)

2.2 綜合知網(wǎng)與詞林的詞語相似度計(jì)算

文獻(xiàn)[11]將義原之間的路徑距離轉(zhuǎn)化為計(jì)算兩個(gè)義原之間的相似度，義原距離越小，義原相似度越大.但是影響義原相似度的因素還有節(jié)點(diǎn)密度和節(jié)點(diǎn)層次等語義信息[18-19].

文獻(xiàn)[10]中提出了一種綜合知網(wǎng)與詞林的詞語相似度計(jì)算方法，根據(jù)不同情況選擇不同權(quán)重計(jì)算詞語相似度，是一種比較簡單直觀的計(jì)算方法.但沒有考慮到還有兩種情況的處理：① 一個(gè)詞語被知網(wǎng)和詞林收錄，另一個(gè)詞語沒被收錄；② 兩個(gè)詞語都沒被收錄.文中對(duì)于第一種情況給定一個(gè)較小的常數(shù)值；對(duì)于第二種情況，轉(zhuǎn)化為比較兩個(gè)字符串是否相同，從而更全面，有更高的容錯(cuò)率.

假設(shè)W1、W2是待計(jì)算相似度的兩個(gè)詞語，基于知網(wǎng)和詞林計(jì)算出的詞語相似度設(shè)為Sim1和Sim2，分別賦予權(quán)重λ1和λ2，且滿足：λ1+λ2=1，相似度計(jì)算為：

Sim(W1,W2)=λ1Sim1+λ2Sim2

(11)

詞語在知網(wǎng)和詞林中的分布狀況如圖4，集合U表示所有的詞語；集合A表示知網(wǎng)中收錄的詞語，共計(jì)50 222個(gè)；集合B表示詞林中收錄的詞語，共計(jì)52 256個(gè)；集合C表示知網(wǎng)和詞林同時(shí)收錄的詞語，共計(jì)30 926個(gè)[20]；目前知網(wǎng)和詞林仍在更新發(fā)展中，詞語的收錄情況也在不斷地變化.

圖4 詞語分布圖

采用如下的動(dòng)態(tài)加權(quán)策略計(jì)算：

(1) 當(dāng)W1∈C,W2∈C時(shí)，使用知網(wǎng)和詞林分別計(jì)算W1和W2的詞語相似度，記為Sim1和Sim2的值，式(9)中λ1= 0.5，λ2= 0.5.

(2) 當(dāng)W1∈(A-C),W2∈(A-C)或W1∈(B-C),W2∈(B-C) 時(shí)，使用知網(wǎng)或詞林計(jì)算W1和W2的詞語相似度，記為Sim1或Sim2，此時(shí)，式(9)中λ1=1，λ2=0或λ1= 0，λ2= 1.

(3) 當(dāng)W1∈(A-C),W2∈(B-C)時(shí)，在詞林中查找W2的所有相似詞，并依次與W1使用知網(wǎng)計(jì)算相似度，取其中的最大值作為詞語相似度值，記為Sim1，如果詞林中無相似詞，則取Sim1=0.2，此時(shí)，式(9)中λ1=1，λ2=0.

(4) 當(dāng)W1∈(A-C),W2∈C；或W2∈C，W1∈(B-C)時(shí)，首先對(duì)W1和W2使用知網(wǎng)或詞林計(jì)算，記為Sim1或Sim2，然后在詞林中找到W2或W1的所有相似詞，依次與W1或W2使用知網(wǎng)計(jì)算相似度，取其中的最大值，記為Sim2或Sim1；如果在詞林中找不到相似詞，取Sim1=Sim2；此時(shí)，式(9)中λ1=0.6，λ2=0.4或λ1=0.4，λ2=0.6.

(5) 當(dāng)W1∈(A∪B),W2?(A∪B)時(shí)，Sim(W1,W2)=0.2.

(6) 當(dāng)W1?(A∪B),W2?(A∪B)時(shí)，則對(duì)W1和W2進(jìn)行字符串的比較.如果字符串相同取Sim(W1,W2)=1，否則Sim(W1,W2)=0.

綜合知網(wǎng)和詞林兩個(gè)知識(shí)庫的詞語相似度計(jì)算方法，可計(jì)算的詞語范圍得到了一定的擴(kuò)充，充分利用了詞語在兩個(gè)不同知識(shí)庫中層次體系結(jié)構(gòu)和語義的信息，從而使詞語相似度的計(jì)算更加全面，也更加精確.

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)數(shù)據(jù)集：選自西安科技大學(xué)提供的中文語義相似度訓(xùn)練集，該訓(xùn)練集將句子相似度值控制在[0,5]區(qū)間，5表示相似度最高(意思一樣)，0表示相似度最低(語義相反或不相干).從中篩選了具有代表性的20個(gè)句子作為標(biāo)準(zhǔn)集，每個(gè)標(biāo)準(zhǔn)句有10個(gè)相似句子作為相似集，另外選取500個(gè)與標(biāo)準(zhǔn)集中句子不相似的句子作為噪聲集.測(cè)試集由相似集和噪聲集組成，共計(jì)700個(gè)句子.

實(shí)驗(yàn)方法：依次選取標(biāo)準(zhǔn)集中的第i(1≤i≤20)個(gè)句子，與測(cè)試集中的700個(gè)句子兩兩計(jì)算相似度，然后選取相似度數(shù)值大的10個(gè)句子，根據(jù)這10個(gè)句子與第i個(gè)句子的10個(gè)相似句子的共有句子數(shù)，判斷該計(jì)算方法的準(zhǔn)確程度.

評(píng)價(jià)指標(biāo)：主要采用準(zhǔn)確率P(Precision)、召回率R(Recall)和F值作為實(shí)驗(yàn)效果的度量標(biāo)準(zhǔn)[21].準(zhǔn)確率是選取的句子樣本中有多少是真正的相似句子樣本；召回率是在相似句子樣本中被選取的比例；F值是準(zhǔn)確率和召回率的組合度量，F(xiàn)值越大，實(shí)驗(yàn)結(jié)果越準(zhǔn)確.具體計(jì)算公式為：

(12)

(13)

(14)

式中：R1為200個(gè)相似句子的集合，R2為計(jì)算方法選取的句子集合.

3.2 實(shí)驗(yàn)結(jié)果分析

根據(jù)實(shí)驗(yàn)方法，對(duì)標(biāo)準(zhǔn)集中的每個(gè)句子和測(cè)試集句子進(jìn)行相似度計(jì)算，選取正確的相似句子樣本個(gè)數(shù)分布如圖5.

圖5 各方法相似度計(jì)算效果

提中出的基于依存句法與詞語語義的漢語句子相似度計(jì)算方法與其他4種方法的3個(gè)評(píng)價(jià)指標(biāo)如表5.

表5 4種方法的性能對(duì)比

通過表5中的實(shí)驗(yàn)數(shù)據(jù)可以看出，文中計(jì)算方法F值最高，與同類方法相比有一定程度的改進(jìn).基于HowNet的計(jì)算方法由于僅僅考慮了詞義的相似程度，且概念和詞庫在一定程度上不夠豐富，因此測(cè)試結(jié)果不太理想；基于Word2Vec的計(jì)算方法通過大規(guī)模語料庫訓(xùn)練得到詞向量模型來衡量句子相似度，相比基于詞典的方法3個(gè)指標(biāo)都得到了提升，但依賴于強(qiáng)大的語料庫，同時(shí)受數(shù)據(jù)噪聲的干擾比較大，導(dǎo)致計(jì)算正確率不高；結(jié)合依存關(guān)系和詞林的計(jì)算方法通過提取兩個(gè)句子之間的關(guān)系路徑來計(jì)算語義相似度，并結(jié)合詞林樹狀體系結(jié)構(gòu)計(jì)算詞語的相似度，考慮的比較全面，所以實(shí)驗(yàn)結(jié)果比較理想；第四種方法通過對(duì)句子模式歸納，識(shí)別出句子中的問題元，對(duì)中心詞擴(kuò)展.采用融合向量空間模型、TF-IDF方法、同義詞詞林的方法計(jì)算句子相似度.對(duì)特定規(guī)范和格式的句子計(jì)算性能較好，但需要大量歸納句子模式及問題元，適應(yīng)性比較窄，穩(wěn)定性低.文中方法的F值有了一定的提升是因?yàn)樵谝来骊P(guān)系的基礎(chǔ)上，構(gòu)建“依存關(guān)系三元組”，更加精確地計(jì)算句子中相同依存關(guān)系的相似度，對(duì)句子格式?jīng)]有要求.并且更加全面地利用了詞語在知網(wǎng)和詞林本體知識(shí)中的語義信息.既考慮了句子語法結(jié)構(gòu)的深層信息，也考慮了句子中詞匯詞義上的表層信息.

4 結(jié)論

文中提出的漢語句子相似度計(jì)算方法，在詞語相似度計(jì)算研究的基礎(chǔ)上，從句子的依存句法分析樹中構(gòu)造依存關(guān)系三元組，進(jìn)而考慮到了句子成分、依存關(guān)系、詞語語義等多個(gè)語義特征對(duì)句子相似程度的影響.對(duì)兩個(gè)句子中的有相同依存關(guān)系的依存關(guān)系三元組進(jìn)行相似度計(jì)算，不同的依存關(guān)系賦予不同的權(quán)重，并且在詞語相似度計(jì)算中充分利用了詞語在兩個(gè)不同知識(shí)庫中的語義信息.實(shí)驗(yàn)表明：該算法的準(zhǔn)確率相比同類方法有了一定的提高，證實(shí)了其有效性，但其未考慮專業(yè)領(lǐng)域中專業(yè)詞匯對(duì)相似度計(jì)算的影響，下一步將根據(jù)專業(yè)詞匯獲取句子主題特征，并加入到相似度計(jì)算，最后將相似度計(jì)算方法應(yīng)用于考試系統(tǒng)中主觀題自動(dòng)評(píng)分中.