詞語同義關(guān)系的模糊矩陣描述

2012-10-25 04:59:24賈璐

山東大學(xué)學(xué)報（哲學(xué)社會科學(xué)版） 2012年6期

賈璐

［責(zé)任編輯:丁秀菊］

物質(zhì)世界是普遍聯(lián)系著的，因此客觀事物之間就存在著各種各樣的關(guān)系。在這些關(guān)系中，有些關(guān)系的界限是很明確的，比如同學(xué)關(guān)系、師生關(guān)系、兄弟關(guān)系等，而更多的是一些界限不明確的關(guān)系，比如朋友關(guān)系、作物生長與土壤的關(guān)系、經(jīng)濟發(fā)展與產(chǎn)業(yè)結(jié)構(gòu)的“協(xié)調(diào)關(guān)系”、父親與子女間相貌的“相像關(guān)系”等等。我們把界限明確的關(guān)系稱為普通關(guān)系，而把界限不明確的關(guān)系稱為模糊關(guān)系①陳水利、李敬功、王向公:《模糊集理論及其應(yīng)用》，北京:科學(xué)出版社，2005年，第59頁。。模糊關(guān)系不僅大量存在于我們的現(xiàn)實生活中，而且也存在于一些語言現(xiàn)象當(dāng)中。因此，對具有各種性質(zhì)的模糊關(guān)系進行深入的探討，并設(shè)法以精確的形式描述它，是非常具有理論意義和實踐價值的。

一、詞語同義關(guān)系的模糊性及其矩陣表示

模糊關(guān)系體現(xiàn)的是關(guān)系外延的不確定性，語言中詞語的同義關(guān)系就具有這樣的特征。詞語的同義關(guān)系是靠同義詞來體現(xiàn)的，《現(xiàn)代漢語詞典》對“同義詞”的解釋是:“意義相同或相近的詞”。但是，怎樣才算“意義相同或相近”，意義究竟相近到什么程度才能叫做同義詞，這些都是不確定的。換句話說，詞語的同義關(guān)系具有模糊性。

我們把具有同義關(guān)系的詞語所形成的集合稱為同義聚合體。如果兩個詞語彼此之間毫無關(guān)系，那它們就被排除在同義聚合體之外;其余所有的進入同義聚合體中的詞語，相互之間具有的同義關(guān)系都應(yīng)有一種程度上的不同。其中，等義詞之間具有的同義關(guān)系程度最高。用模糊集合論的觀點來表述就是:詞語之間所具有的同義關(guān)系是一種模糊關(guān)系，刻畫這種關(guān)系不是要簡單地區(qū)分每組詞語是否具有同義關(guān)系，而是要確定詞語彼此之間具有同義關(guān)系的程度如何。下面我們給出模糊關(guān)系在數(shù)學(xué)中的精確定義:

對于同義關(guān)系而言，詞語之間具有同義關(guān)系的程度就是詞語對同義關(guān)系的隸屬度，它的取值為單位區(qū)間［0，1］。該隸屬度體現(xiàn)的是同義詞之間的相似程度，所以我們把它稱為同義詞間的相似系數(shù)，用r②此處的r指詞語甲和乙對同義關(guān)系的隸屬度。來表示。若兩個詞語之間完全沒有同義關(guān)系，則r=0;若兩個詞語完全同義，是意義相互之間的一致程度達(dá)到百分之百的等義詞，則r=1。大多數(shù)同義詞是同中有異的，它們之間的相似系數(shù)應(yīng)該介于0和1之間。

詞語的同義關(guān)系是語言詞義關(guān)系中十分重要的一種，對同義關(guān)系進行深入研究有助于我們更好地掌握一種語言的詞匯系統(tǒng)。由以上論述可知，詞語之間的同義關(guān)系是一種模糊關(guān)系，與其他模糊關(guān)系不同，詞語的同義關(guān)系具有數(shù)學(xué)上十分重要的兩個特點:(1)詞語的同義關(guān)系具有自反性。所謂自反性是指對某一詞語而言，它與自身是百分之百同義的。(2)詞語的同義關(guān)系具有對稱性。即對于兩個同義詞語甲和乙，甲與乙的相似程度等于乙與甲的相似程度。

模糊數(shù)學(xué)中將具有自反性和對稱性的模糊關(guān)系稱為模糊相似關(guān)系。為了精確地描述同義詞語之間的這種關(guān)系，并把它們直觀地表示出來，我們需要借助于一種數(shù)學(xué)工具。這樣，專門用來刻畫模糊關(guān)系的模糊矩陣便成為了我們選擇的對象。

有限論域上的模糊關(guān)系都可以用模糊矩陣來表示，每個模糊矩陣都代表一定的模糊關(guān)系。③苗東升:《模糊學(xué)導(dǎo)引》，北京:中國人民大學(xué)出版社，1987年，第63頁。在描述普通關(guān)系的布爾矩陣中，元素的取值為集合0，{}1，而在模糊矩陣中，元素的取值需擴展為區(qū)間［0，1］，即如果對任意的 i≤m 及 j≤n，都有 rij∈［0，1］，那么矩陣 M=［rij］m×n就稱為的模糊矩陣④王新洲、史文中、王樹良:《模糊空間信息處理》，武昌:武漢大學(xué)出版社，2003年，第13頁。。在有限論域中，給定一個模糊關(guān)系，就惟一確定一個模糊矩陣;反之，給定一個模糊矩陣，也惟一確定一個模糊關(guān)系。模糊關(guān)系與模糊矩陣是一一對應(yīng)的。

鑒于詞語同義關(guān)系的上述兩個特點，我們用來對其進行描述的模糊矩陣也應(yīng)滿足相應(yīng)條件。由于同義關(guān)系的自反性，即詞語自身與自身完全相似，相似系數(shù)為1，這就要求矩陣中行標(biāo)與列標(biāo)相等的元素rii=1;由于同義關(guān)系的對稱性，詞語間的相似程度不因詞語相互順序的改變而改變，故而要求矩陣中行標(biāo)與列標(biāo)互換后得到的元素仍相等，即rij=rji，這樣勢必要求該矩陣是一個行數(shù)與列數(shù)都相等的方陣。我們將能夠體現(xiàn)模糊關(guān)系自反性與對稱性的矩陣稱為模糊相似矩陣，詞語的同義關(guān)系就可以用模糊相似矩陣來予以形式化的描述。由上可知，模糊相似矩陣的實質(zhì)是主對角線上元素恒為1的對稱方陣，其形式如下:

模糊相似矩陣中的元素其實就是同義詞之間的相似系數(shù)，只要我們能夠確定這些相似系數(shù)，那么同義聚合體中各個成員彼此間的親疏遠(yuǎn)近關(guān)系就可以一目了然地呈現(xiàn)在模糊相似矩陣這個平面當(dāng)中。這不僅可以深化我們對同義詞本身詞義的認(rèn)識，而且可以為計算機進行同義詞的信息處理提供方便。為了達(dá)到這個目的，我們來嘗試確定一種同義詞間相似系數(shù)的方法。

二、同義詞間相似系數(shù)的確定方法

相似性科學(xué)是現(xiàn)代自然科學(xué)中的一門新興理論，主要以相似性和相似系統(tǒng)為研究對象。語言中的同義詞彼此之間就具有相似性。如果我們將同義聚合體中的一個成員視為一個系統(tǒng)，那么就可以將相似性科學(xué)中的有關(guān)方法引入到同義詞的相似性研究中。

系統(tǒng)相似度的數(shù)值度量包括組成要素的數(shù)量相似度量和特性相似度量兩方面。實現(xiàn)對相似系統(tǒng)要素特性的數(shù)值度量，需要獲取每一個特性的特征值，相似系統(tǒng)間對應(yīng)要素特性的特征值的比例系數(shù)就反映了系統(tǒng)要素特性的相似程度①周美立:《相似性科學(xué)》，北京:科學(xué)出版社，2004年，第38頁。。由于語言的特性都是用文字來描述的，不能像物理量那樣具體測量它的特征值，所以很難進行相似系統(tǒng)要素特性的定量分析。下面是系統(tǒng)要素數(shù)量相似度的計算方法:

設(shè)兩個系統(tǒng) A 和 B，若系統(tǒng) A 有 K 個組成要素:a1，a2，…，aK，系統(tǒng) B 有 L 個組成要素:b1，b2，…，bL，則系統(tǒng)A和B可以分別表示為它們對應(yīng)的組成要素的集合:

如果A、B這兩個系統(tǒng)中存在相似要素，那么系統(tǒng)A與B即為相似系統(tǒng)，設(shè)兩系統(tǒng)間相似要素的個數(shù)為N。我們把系統(tǒng)A、B間相似要素的數(shù)量與系統(tǒng)A、B間共有且不重復(fù)要素數(shù)量的比值，稱為系統(tǒng)要素數(shù)量的相似度，記為Qn，用公式表示為:

② 周美立:《相似性科學(xué)》，第66頁。

由上式可見，在系統(tǒng)A、B中要素數(shù)量一定的條件下，系統(tǒng)間相似要素的數(shù)量越多，相似度越大。

相似性科學(xué)中關(guān)于系統(tǒng)相似程度的計算方法適用于一切相似系統(tǒng)，我們可以利用它來量化同義詞之間的相似程度。但要對詞義具有相似性的同義詞進行相似程度的計算，首先必須對同義詞本身進行組成要素的分析?，F(xiàn)代語義學(xué)界提出的義素分析法為我們分析詞義的內(nèi)部構(gòu)成提供了一種可資借鑒的方法。義素分析法對處于同一語義場內(nèi)的各個義位進行對比，然后找出它們所包含的義素。它“將觸角伸到了詞義的微觀世界，破天荒地發(fā)現(xiàn)了詞義的下義單位——義素，從而在追求詞義分析的精細(xì)化、科學(xué)性的方向上邁出了極為堅實、極為可喜的一步，為詞義的分析開辟了一片新天地?！雹鄄軣?《現(xiàn)代漢語詞義學(xué)》，上海:學(xué)林出版社，2001年，第90頁。

從語義學(xué)的觀點來看，同義詞之間的相似，實際上是不同詞語中構(gòu)成同義關(guān)系的義位之間的相似。我們可以將一個義位視作一個系統(tǒng)，該系統(tǒng)的組成要素即為義素。由于義素是由文字表達(dá)的，它的特征值無法精確測量，因此我們只從義素的數(shù)量分析入手，將兩個同義義位中的義素的數(shù)量相似度作為具有該義位的同義詞之間的相似系數(shù)，這是鑒于語言的特殊性而在方法上做出的選擇。那么怎樣以義素分析法為中介來確定同義詞之間的相似系數(shù)呢?

設(shè)詞語X和Y為某一同義聚合體中的任意兩個成員，若X、Y為單義詞，則它們只有一個義位，只需分別對其進行義素分析即可;若X、Y為多義詞，則它們有多個義位，做義素分析時我們只選取其中對應(yīng)的具有同義關(guān)系的兩個義位。這些構(gòu)成同義關(guān)系的義位可以聚合形成同義語義場。設(shè)在該語義場中存在任意兩個義位A和B，分別對其進行義素分析，可以得到描寫該義位的一系列語義特征，也即義素。因為義位是義素的聚合體，是一束語義特征的集合，因此，若義位A的義素個數(shù)為K，義位B的義素個數(shù)為L，則義位A、B可分別表示為以下集合:

同義詞是同中有異的，所以在對義位A、B進行義素分析后得到的這一系列義素中肯定存在相同的義素，我們設(shè)二者相同的義素個數(shù)為N。根據(jù)相似性科學(xué)中提出的方法，義位A與義位B中義素數(shù)量的相似程度，也即同義詞語X與Y的相似系數(shù)為:

同義詞間的相似系數(shù)即為詞語對同義關(guān)系的隸屬度，它的取值范圍是0≤r≤1。對于構(gòu)成同義關(guān)系的兩個義位A與B而言，若r越接近于1，則義位A與義位B具有同義關(guān)系的程度越大，包含該義位的同義詞之間的差異就越小;反之，若r越接近于0，則義位A與義位B具有同義關(guān)系的程度越小，包含該義位的同義詞之間的差異就越大。r反映的是兩個同義詞之間的相似程度。

由此可見，義素分析法是量化語言信息的橋梁，它將義位分解為若干義素的集合，在語言信息的數(shù)量化過程中起到了中介的作用，使相似性科學(xué)中的有關(guān)方法得以在同義詞的研究中順利應(yīng)用，從而為詞語同義關(guān)系的矩陣描述提供了有力保障。

三、詞語同義關(guān)系的矩陣描述舉例

詞語的同義關(guān)系是一種模糊關(guān)系，套用前面模糊關(guān)系的數(shù)學(xué)定義，詞語的同義關(guān)系可以表述如下:設(shè)彼此間具有同義關(guān)系的詞語所構(gòu)成的同義聚合體為論域U，其中任意兩個詞語之間具有的同義關(guān)系就是U自身的笛卡爾積U×U的一個模糊子集。用來描述詞語同義關(guān)系的矩陣為具有自反性和對稱性的模糊相似矩陣，矩陣中的元素即為彼此間具有同義關(guān)系的詞語之間的相似系數(shù)。當(dāng)我們確定出這些相似系數(shù)之后，就可以對詞語的同義關(guān)系進行矩陣描述了。

根據(jù)義素分析法的步驟，首先需要對被分析詞語的義位確立一個語義場，然后在該場內(nèi)進行分析比較，找出組成各義位的義素，最后以序列或圖表的形式表示出來。我們此處不準(zhǔn)備具體探討如何進行義素分析，僅想以現(xiàn)有的研究成果為例來說明問題?！扒终肌?、“侵奪”、“侵犯”、“侵吞”4個同義詞，構(gòu)成同義關(guān)系的義位進行義素分析后，它們的義位、義素關(guān)系可用圖表的形式表示如下(其中“+”表示某義位包含有該義素，“－”表示某義位不含有該義素):①曹煒:《現(xiàn)代漢語詞義學(xué)》，第110頁。

個人或集團憑借勢力非法獲取或損害他人或他集團領(lǐng)土財產(chǎn) 權(quán)益暗中侵占++++++－－侵奪++++－+－－侵犯+++++－+－侵吞++++++－+

這里論域U= {侵占，侵奪，侵犯，侵吞 }，聚合形成同義語義場的是這4個詞語中構(gòu)成同義關(guān)系的義位。表中任意兩個詞語之間所具有的同義關(guān)系就是U上的一個模糊關(guān)系，它是U自身的笛卡爾積U×U的一個模糊子集，笛卡爾積U×U=＜侵占，侵占＞，＜侵占，侵奪＞，＜侵占，侵犯＞，＜侵占，侵吞＞，＜侵奪，侵占＞，＜侵奪，侵奪＞，＜侵奪，侵犯＞，＜侵奪，侵吞＞，＜侵犯，侵占＞，＜侵犯，侵奪＞，＜侵犯，侵犯＞，＜侵犯，侵吞＞，＜侵吞，侵占＞，＜侵吞，侵奪＞，＜侵吞，侵犯＞，＜侵吞，侵吞＞。r用來表示同義詞之間的相似系數(shù)，根據(jù)同義關(guān)系的自反性，有r(侵占，侵占)=r(侵奪，侵奪)=r(侵犯，侵犯)=r(侵吞，侵吞)=1;根據(jù)同義關(guān)系的對稱性，有r(侵占，侵奪)=r(侵奪，侵占)，r(侵占，侵犯)=r(侵犯，侵占)，r(侵占，侵吞)=r(侵吞，侵占)，r(侵奪，侵犯)=r(侵犯，侵奪)，r(侵奪，侵吞)=r(侵吞，侵奪)，r(侵犯，侵吞)=r(侵吞，侵犯)。在用來描述所有詞語兩兩之間的同義關(guān)系的模糊相似矩陣中，待定元素為后6組具有對稱性特點的同義詞之間的相似系數(shù)。在確定它們的具體數(shù)值之前，我們先把上表各詞語中構(gòu)成同義關(guān)系的義位表示為它們對應(yīng)義素的集合:

侵占:{個人或集團，憑借勢力，非法獲取或損害，他人或他集團，領(lǐng)土，財產(chǎn)}

侵奪:{個人或集團，憑借勢力，非法獲取或損害，他人或他集團，財產(chǎn)}

侵犯:{個人或集團，憑借勢力，非法獲取或損害，他人或他集團，領(lǐng)土，權(quán)益}

侵吞:{個人或集團，憑借勢力，非法獲取或損害，他人或他集團，領(lǐng)土，財產(chǎn)，暗中}

這樣，我們就可以清楚地看出每個詞語的義位所具有的義素個數(shù)及與其他詞語的義位相同的義素個數(shù)。利用相似性科學(xué)中提出的計算公式，上述4個同義詞語兩兩之間的相似系數(shù)分別為:

將以上得出的所有的相似系數(shù)以矩陣的形式來表示，就得到了描述同義詞語“侵占”、“侵奪”、“侵犯”、“侵吞”兩兩之間關(guān)系的模糊相似矩陣:

從這個矩陣中我們可以看出，處于同一個同義聚合體中的各個詞語，它們相互之間的聚合并不在同一平面上，而是可以分為不同的層次。也就是說，詞語相互之間具有同義關(guān)系的程度是不同的。其中，詞語“侵占”與“侵吞”的相似程度最大，為0.86;詞語“侵犯”與“侵奪”的相似程度最小，為0.57。本例中所有詞語兩兩之間相似系數(shù)的順序依次為:r(侵占，侵吞)≈0.86＞r(侵占，侵奪)≈0.83＞r(侵占，侵犯)=r(侵奪，侵吞)≈ 0.71 ＞ r(侵犯，侵吞)≈ 0.63 ＞ r(侵奪，侵犯)≈ 0.57。所有的相似系數(shù)都大于0.5，說明這些詞語彼此相同的程度要大于彼此相異的程度，這也正說明了同義詞是同中有異，而且是大同小異的。

需要指出的是，確定詞語相似系數(shù)的方法，是建立在對詞語進行合理的義素分析基礎(chǔ)之上的。雖然義素分析法還存在著這樣那樣的缺點，而且也不能適用于所有詞語，但是我們不應(yīng)該就此放棄對義素分析法的利用。我們需要做的，是不斷深入對義素分析法的研究，修訂、完善它在理論上和實踐中的一些不足，使它精確描寫詞義的優(yōu)勢得以充分發(fā)揮，從而為我們進一步探討詞義關(guān)系提供保障。同時，如何形式化處理模糊語言現(xiàn)象，讓計算機能夠更好地識別這些信息并為我們的語言研究服務(wù)，是一個需要不斷探索的問題。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

詞語同義關(guān)系的模糊矩陣描述

一、詞語同義關(guān)系的模糊性及其矩陣表示

二、同義詞間相似系數(shù)的確定方法

三、詞語同義關(guān)系的矩陣描述舉例

一、詞語同義關(guān)系的模糊性及其矩陣表示

二、同義詞間相似系數(shù)的確定方法