引文相似性測量模型

2017-09-05 07:49:40陳衛(wèi)玲袁乖寧王華

大陸橋視野·下 2017年6期

陳衛(wèi)玲　袁乖寧　王華

【摘要】CSLN 是引文語義鏈網(wǎng)絡(luò)。傳統(tǒng)相似度計(jì)算不能準(zhǔn)確的測量CSLN中引文間的相似性。本文在對(duì)引文的特征進(jìn)行分析后，提出了引文相似性測量模型，該模型能夠提高引文相似性測量的準(zhǔn)確性。

【關(guān)鍵詞】引文；CSLN；相似性

1.引言

引文網(wǎng)絡(luò)是指被引文獻(xiàn)與引用文獻(xiàn)之間因引用關(guān)系而形成的一種網(wǎng)絡(luò)。語義鏈網(wǎng)絡(luò)（SLN）是一個(gè)用于管理Web資源的語義數(shù)據(jù)模型[1]。一個(gè)典型的語義鏈網(wǎng)絡(luò)包含語義節(jié)點(diǎn)，語義鏈以及語義鏈推理規(guī)則。其中，語義節(jié)點(diǎn)可以是任意類型的資源、抽象概念或者是另外一個(gè)語義鏈網(wǎng)絡(luò)。語義鏈?zhǔn)菍?duì)超鏈接的擴(kuò)展，并為之添加語義關(guān)系。語義鏈繼承了超鏈接的易用性，使之具有推理能力，并且具有語義自組織性：任意節(jié)點(diǎn)可以連接到其他語義相關(guān)的節(jié)點(diǎn)。利用語義鏈推理規(guī)則可以推導(dǎo)出更多的語義鏈[2]。

在這篇文章中，我們首先介紹了傳統(tǒng)相似度計(jì)算模型，接著對(duì)引文的特征進(jìn)行深入的分析后，最后提出引文相似性測量模型，該模型能夠提高引文相似性測量的準(zhǔn)確性。

2.傳統(tǒng)相似度計(jì)算模型

當(dāng)我們進(jìn)行引文相似度計(jì)算時(shí)，最常用的方法是采用數(shù)學(xué)工具把引文表示成一個(gè)數(shù)學(xué)模型，然后在這個(gè)模型上進(jìn)行引文相似度運(yùn)算。傳統(tǒng)的相似度計(jì)算模型有向量空間模型和集合運(yùn)算模型等。

2. 1向量空間模型

向量空間模型VSM是六十年代末由Salton等人提出來的。VSM是一種代數(shù)的模型，目前已經(jīng)被廣泛的應(yīng)用于信息檢索等領(lǐng)域而且已經(jīng)取得了很好的效果。VSM的表示方法是它最與眾不同的優(yōu)點(diǎn)，VSM是通過把文本以向量的形式定義到實(shí)數(shù)域來對(duì)自然語言的文本進(jìn)行表示。這種對(duì)自然語言文本的表示方法極大的提高了文本的可操作性和可計(jì)算性。而模式識(shí)別和其它領(lǐng)域中的計(jì)算方法也采用了VSM這種對(duì)文本的表示方法[3]。

向量空間模型VSM的基本思想是：我們用向量來表示文檔，并且假設(shè)詞與詞之間是不相關(guān)的，這樣就可以簡化文檔中關(guān)鍵詞之間的復(fù)雜關(guān)系，從而使得向量空間模型VSM具備了可計(jì)算性。而在向量空間模型VSM中，把文檔看成是由相互獨(dú)立的詞條組（T1，T2，T3，……，Tn）所構(gòu)成，并且對(duì)于每一個(gè)詞條Ti根據(jù)這個(gè)詞條在文檔中的重要程度賦以該詞條一定的權(quán)值Wi。如果將這些相互獨(dú)立的詞條組（T1，T2，T3，……，Tn）看作是一個(gè)n維坐標(biāo)系中的坐標(biāo)軸，那么這些詞條的權(quán)重（W1 ，W2，W3，……，Wn）就這些坐標(biāo)軸所對(duì)應(yīng)的坐標(biāo)值。所以由這些詞條組（T1，T2，T3，……，Tn）分解得到的正交詞條矢量組就構(gòu)成了一個(gè)文檔向量空間。

2. 2集合運(yùn)算模型

3.引文相似性測量模型

一篇引文是由標(biāo)題、關(guān)鍵字、正文等多個(gè)部分組成。因?yàn)橐牡母鱾€(gè)部分的重要程度不一樣，所以在計(jì)算兩個(gè)引文之間的相似性時(shí)我們應(yīng)當(dāng)把引文的各個(gè)部分分開當(dāng)作多個(gè)對(duì)象來分析，而不能把一篇引文當(dāng)作一個(gè)對(duì)象來分析。例如，引文的正文部分有大量的文字而且關(guān)鍵詞很分散，所以我們應(yīng)當(dāng)采用統(tǒng)計(jì)詞頻的方法來計(jì)算兩個(gè)引文之間的相似程度。而對(duì)于標(biāo)題和關(guān)鍵字，因?yàn)殛P(guān)鍵字是整個(gè)文章中非常重要的一部分，所占權(quán)重也非常大，因此這一部分我們必須要重點(diǎn)考慮。所以我們?cè)谟?jì)算引文相似性時(shí)應(yīng)該對(duì)關(guān)鍵字這一部分進(jìn)行單獨(dú)處理。

通過上述分析，本文提出了引文相似性測量模型，我們首先把一篇引文的各個(gè)部分分開來進(jìn)行相似性測量，然后再把各個(gè)部分綜合起來以此來計(jì)算兩篇引文之間的相似性。

4.總結(jié)

計(jì)算兩個(gè)引文之間的相似性有多種方法，因?yàn)镃SLN中的引文是許多對(duì)象的集合。單個(gè)對(duì)象的相似度計(jì)算顯然不能準(zhǔn)確的測量引文間的相似性。因此，有必要針對(duì)引文的不同部分使用不同的相似度計(jì)算方法。本文首先介紹了傳統(tǒng)相似度計(jì)算模型，然后在對(duì)引文各部分的特點(diǎn)進(jìn)行深入分析后，提出了引文相似性測量模型，該模型能夠提高引文相似性測量的準(zhǔn)確性。

參考文獻(xiàn)：

[1]H. Zhuge， Y. Sun， and J. Zhang， “Schema theory for semantic link network，” in Proc. Fourth Int. Conf. Semantics， Knowledge and Grid SKG 08， 2008， pp. 189-196.

[2]H. Zhuge， “Communities and emerging semantics in semantic link network： Discovery and learning，” IEEE Trans. Knowl. Data Eng.， vol. 21， no. 6， pp. 785-799， 2009.

[3]侯海燕. 基于知識(shí)圖譜的科學(xué)計(jì)量學(xué)進(jìn)展研究[博士學(xué)位論文].大連：大連理工大學(xué)，2006.