賈 璐
[責(zé)任編輯:丁秀菊]
物質(zhì)世界是普遍聯(lián)系著的,因此客觀事物之間就存在著各種各樣的關(guān)系。在這些關(guān)系中,有些關(guān)系的界限是很明確的,比如同學(xué)關(guān)系、師生關(guān)系、兄弟關(guān)系等,而更多的是一些界限不明確的關(guān)系,比如朋友關(guān)系、作物生長與土壤的關(guān)系、經(jīng)濟發(fā)展與產(chǎn)業(yè)結(jié)構(gòu)的“協(xié)調(diào)關(guān)系”、父親與子女間相貌的“相像關(guān)系”等等。我們把界限明確的關(guān)系稱為普通關(guān)系,而把界限不明確的關(guān)系稱為模糊關(guān)系①陳水利、李敬功、王向公:《模糊集理論及其應(yīng)用》,北京:科學(xué)出版社,2005年,第59頁。。模糊關(guān)系不僅大量存在于我們的現(xiàn)實生活中,而且也存在于一些語言現(xiàn)象當(dāng)中。因此,對具有各種性質(zhì)的模糊關(guān)系進行深入的探討,并設(shè)法以精確的形式描述它,是非常具有理論意義和實踐價值的。
模糊關(guān)系體現(xiàn)的是關(guān)系外延的不確定性,語言中詞語的同義關(guān)系就具有這樣的特征。詞語的同義關(guān)系是靠同義詞來體現(xiàn)的,《現(xiàn)代漢語詞典》對“同義詞”的解釋是:“意義相同或相近的詞”。但是,怎樣才算“意義相同或相近”,意義究竟相近到什么程度才能叫做同義詞,這些都是不確定的。換句話說,詞語的同義關(guān)系具有模糊性。
我們把具有同義關(guān)系的詞語所形成的集合稱為同義聚合體。如果兩個詞語彼此之間毫無關(guān)系,那它們就被排除在同義聚合體之外;其余所有的進入同義聚合體中的詞語,相互之間具有的同義關(guān)系都應(yīng)有一種程度上的不同。其中,等義詞之間具有的同義關(guān)系程度最高。用模糊集合論的觀點來表述就是:詞語之間所具有的同義關(guān)系是一種模糊關(guān)系,刻畫這種關(guān)系不是要簡單地區(qū)分每組詞語是否具有同義關(guān)系,而是要確定詞語彼此之間具有同義關(guān)系的程度如何。下面我們給出模糊關(guān)系在數(shù)學(xué)中的精確定義:
對于同義關(guān)系而言,詞語之間具有同義關(guān)系的程度就是詞語對同義關(guān)系的隸屬度,它的取值為單位區(qū)間[0,1]。該隸屬度體現(xiàn)的是同義詞之間的相似程度,所以我們把它稱為同義詞間的相似系數(shù),用r②此處的r指詞語甲和乙對同義關(guān)系的隸屬度。來表示。若兩個詞語之間完全沒有同義關(guān)系,則r=0;若兩個詞語完全同義,是意義相互之間的一致程度達(dá)到百分之百的等義詞,則r=1。大多數(shù)同義詞是同中有異的,它們之間的相似系數(shù)應(yīng)該介于0和1之間。
詞語的同義關(guān)系是語言詞義關(guān)系中十分重要的一種,對同義關(guān)系進行深入研究有助于我們更好地掌握一種語言的詞匯系統(tǒng)。由以上論述可知,詞語之間的同義關(guān)系是一種模糊關(guān)系,與其他模糊關(guān)系不同,詞語的同義關(guān)系具有數(shù)學(xué)上十分重要的兩個特點:(1)詞語的同義關(guān)系具有自反性。所謂自反性是指對某一詞語而言,它與自身是百分之百同義的。(2)詞語的同義關(guān)系具有對稱性。即對于兩個同義詞語甲和乙,甲與乙的相似程度等于乙與甲的相似程度。
模糊數(shù)學(xué)中將具有自反性和對稱性的模糊關(guān)系稱為模糊相似關(guān)系。為了精確地描述同義詞語之間的這種關(guān)系,并把它們直觀地表示出來,我們需要借助于一種數(shù)學(xué)工具。這樣,專門用來刻畫模糊關(guān)系的模糊矩陣便成為了我們選擇的對象。
有限論域上的模糊關(guān)系都可以用模糊矩陣來表示,每個模糊矩陣都代表一定的模糊關(guān)系。③苗東升:《模糊學(xué)導(dǎo)引》,北京:中國人民大學(xué)出版社,1987年,第63頁。在描述普通關(guān)系的布爾矩陣中,元素的取值為集合0,{}1,而在模糊矩陣中,元素的取值需擴展為區(qū)間[0,1],即如果對任意的 i≤m 及 j≤n,都有 rij∈[0,1],那么矩陣 M=[rij]m×n就稱為的模糊矩陣④王新洲、史文中、王樹良:《模糊空間信息處理》,武昌:武漢大學(xué)出版社,2003年,第13頁。。在有限論域中,給定一個模糊關(guān)系,就惟一確定一個模糊矩陣;反之,給定一個模糊矩陣,也惟一確定一個模糊關(guān)系。模糊關(guān)系與模糊矩陣是一一對應(yīng)的。
鑒于詞語同義關(guān)系的上述兩個特點,我們用來對其進行描述的模糊矩陣也應(yīng)滿足相應(yīng)條件。由于同義關(guān)系的自反性,即詞語自身與自身完全相似,相似系數(shù)為1,這就要求矩陣中行標(biāo)與列標(biāo)相等的元素rii=1;由于同義關(guān)系的對稱性,詞語間的相似程度不因詞語相互順序的改變而改變,故而要求矩陣中行標(biāo)與列標(biāo)互換后得到的元素仍相等,即rij=rji,這樣勢必要求該矩陣是一個行數(shù)與列數(shù)都相等的方陣。我們將能夠體現(xiàn)模糊關(guān)系自反性與對稱性的矩陣稱為模糊相似矩陣,詞語的同義關(guān)系就可以用模糊相似矩陣來予以形式化的描述。由上可知,模糊相似矩陣的實質(zhì)是主對角線上元素恒為1的對稱方陣,其形式如下:
模糊相似矩陣中的元素其實就是同義詞之間的相似系數(shù),只要我們能夠確定這些相似系數(shù),那么同義聚合體中各個成員彼此間的親疏遠(yuǎn)近關(guān)系就可以一目了然地呈現(xiàn)在模糊相似矩陣這個平面當(dāng)中。這不僅可以深化我們對同義詞本身詞義的認(rèn)識,而且可以為計算機進行同義詞的信息處理提供方便。為了達(dá)到這個目的,我們來嘗試確定一種同義詞間相似系數(shù)的方法。
相似性科學(xué)是現(xiàn)代自然科學(xué)中的一門新興理論,主要以相似性和相似系統(tǒng)為研究對象。語言中的同義詞彼此之間就具有相似性。如果我們將同義聚合體中的一個成員視為一個系統(tǒng),那么就可以將相似性科學(xué)中的有關(guān)方法引入到同義詞的相似性研究中。
系統(tǒng)相似度的數(shù)值度量包括組成要素的數(shù)量相似度量和特性相似度量兩方面。實現(xiàn)對相似系統(tǒng)要素特性的數(shù)值度量,需要獲取每一個特性的特征值,相似系統(tǒng)間對應(yīng)要素特性的特征值的比例系數(shù)就反映了系統(tǒng)要素特性的相似程度①周美立:《相似性科學(xué)》,北京:科學(xué)出版社,2004年,第38頁。。由于語言的特性都是用文字來描述的,不能像物理量那樣具體測量它的特征值,所以很難進行相似系統(tǒng)要素特性的定量分析。下面是系統(tǒng)要素數(shù)量相似度的計算方法:
設(shè)兩個系統(tǒng) A 和 B,若系統(tǒng) A 有 K 個組成要素:a1,a2,…,aK,系統(tǒng) B 有 L 個組成要素:b1,b2,…,bL,則系統(tǒng)A和B可以分別表示為它們對應(yīng)的組成要素的集合:
如果A、B這兩個系統(tǒng)中存在相似要素,那么系統(tǒng)A與B即為相似系統(tǒng),設(shè)兩系統(tǒng)間相似要素的個數(shù)為N。我們把系統(tǒng)A、B間相似要素的數(shù)量與系統(tǒng)A、B間共有且不重復(fù)要素數(shù)量的比值,稱為系統(tǒng)要素數(shù)量的相似度,記為Qn,用公式表示為:
② 周美立:《相似性科學(xué)》,第66頁。
由上式可見,在系統(tǒng)A、B中要素數(shù)量一定的條件下,系統(tǒng)間相似要素的數(shù)量越多,相似度越大。
相似性科學(xué)中關(guān)于系統(tǒng)相似程度的計算方法適用于一切相似系統(tǒng),我們可以利用它來量化同義詞之間的相似程度。但要對詞義具有相似性的同義詞進行相似程度的計算,首先必須對同義詞本身進行組成要素的分析?,F(xiàn)代語義學(xué)界提出的義素分析法為我們分析詞義的內(nèi)部構(gòu)成提供了一種可資借鑒的方法。義素分析法對處于同一語義場內(nèi)的各個義位進行對比,然后找出它們所包含的義素。它“將觸角伸到了詞義的微觀世界,破天荒地發(fā)現(xiàn)了詞義的下義單位——義素,從而在追求詞義分析的精細(xì)化、科學(xué)性的方向上邁出了極為堅實、極為可喜的一步,為詞義的分析開辟了一片新天地?!雹鄄軣?《現(xiàn)代漢語詞義學(xué)》,上海:學(xué)林出版社,2001年,第90頁。
從語義學(xué)的觀點來看,同義詞之間的相似,實際上是不同詞語中構(gòu)成同義關(guān)系的義位之間的相似。我們可以將一個義位視作一個系統(tǒng),該系統(tǒng)的組成要素即為義素。由于義素是由文字表達(dá)的,它的特征值無法精確測量,因此我們只從義素的數(shù)量分析入手,將兩個同義義位中的義素的數(shù)量相似度作為具有該義位的同義詞之間的相似系數(shù),這是鑒于語言的特殊性而在方法上做出的選擇。那么怎樣以義素分析法為中介來確定同義詞之間的相似系數(shù)呢?
設(shè)詞語X和Y為某一同義聚合體中的任意兩個成員,若X、Y為單義詞,則它們只有一個義位,只需分別對其進行義素分析即可;若X、Y為多義詞,則它們有多個義位,做義素分析時我們只選取其中對應(yīng)的具有同義關(guān)系的兩個義位。這些構(gòu)成同義關(guān)系的義位可以聚合形成同義語義場。設(shè)在該語義場中存在任意兩個義位A和B,分別對其進行義素分析,可以得到描寫該義位的一系列語義特征,也即義素。因為義位是義素的聚合體,是一束語義特征的集合,因此,若義位A的義素個數(shù)為K,義位B的義素個數(shù)為L,則義位A、B可分別表示為以下集合:
同義詞是同中有異的,所以在對義位A、B進行義素分析后得到的這一系列義素中肯定存在相同的義素,我們設(shè)二者相同的義素個數(shù)為N。根據(jù)相似性科學(xué)中提出的方法,義位A與義位B中義素數(shù)量的相似程度,也即同義詞語X與Y的相似系數(shù)為:
同義詞間的相似系數(shù)即為詞語對同義關(guān)系的隸屬度,它的取值范圍是0≤r≤1。對于構(gòu)成同義關(guān)系的兩個義位A與B而言,若r越接近于1,則義位A與義位B具有同義關(guān)系的程度越大,包含該義位的同義詞之間的差異就越小;反之,若r越接近于0,則義位A與義位B具有同義關(guān)系的程度越小,包含該義位的同義詞之間的差異就越大。r反映的是兩個同義詞之間的相似程度。
由此可見,義素分析法是量化語言信息的橋梁,它將義位分解為若干義素的集合,在語言信息的數(shù)量化過程中起到了中介的作用,使相似性科學(xué)中的有關(guān)方法得以在同義詞的研究中順利應(yīng)用,從而為詞語同義關(guān)系的矩陣描述提供了有力保障。
詞語的同義關(guān)系是一種模糊關(guān)系,套用前面模糊關(guān)系的數(shù)學(xué)定義,詞語的同義關(guān)系可以表述如下:設(shè)彼此間具有同義關(guān)系的詞語所構(gòu)成的同義聚合體為論域U,其中任意兩個詞語之間具有的同義關(guān)系就是U自身的笛卡爾積U×U的一個模糊子集。用來描述詞語同義關(guān)系的矩陣為具有自反性和對稱性的模糊相似矩陣,矩陣中的元素即為彼此間具有同義關(guān)系的詞語之間的相似系數(shù)。當(dāng)我們確定出這些相似系數(shù)之后,就可以對詞語的同義關(guān)系進行矩陣描述了。
根據(jù)義素分析法的步驟,首先需要對被分析詞語的義位確立一個語義場,然后在該場內(nèi)進行分析比較,找出組成各義位的義素,最后以序列或圖表的形式表示出來。我們此處不準(zhǔn)備具體探討如何進行義素分析,僅想以現(xiàn)有的研究成果為例來說明問題?!扒终肌?、“侵奪”、“侵犯”、“侵吞”4個同義詞,構(gòu)成同義關(guān)系的義位進行義素分析后,它們的義位、義素關(guān)系可用圖表的形式表示如下(其中“+”表示某義位包含有該義素,“-”表示某義位不含有該義素):①曹煒:《現(xiàn)代漢語詞義學(xué)》,第110頁。
個人或集團 憑借勢力 非法獲取或損害 他人或他集團 領(lǐng)土 財產(chǎn) 權(quán)益 暗中侵占++++++--侵奪++++-+--侵犯+++++-+-侵吞++++++-+
這里論域U= {侵占,侵奪,侵犯,侵吞 },聚合形成同義語義場的是這4個詞語中構(gòu)成同義關(guān)系的義位。表中任意兩個詞語之間所具有的同義關(guān)系就是U上的一個模糊關(guān)系,它是U自身的笛卡爾積U×U的一個模糊子集,笛卡爾積U×U=<侵占,侵占>,<侵占,侵奪>,<侵占,侵犯>,<侵占,侵吞>,<侵奪,侵占>,<侵奪,侵奪>,<侵奪,侵犯>,<侵奪,侵吞>,<侵犯,侵占>,<侵犯,侵奪>,<侵犯,侵犯>,<侵犯,侵吞>,<侵吞,侵占>,<侵吞,侵奪>,<侵吞,侵犯>,<侵吞,侵吞>。r用來表示同義詞之間的相似系數(shù),根據(jù)同義關(guān)系的自反性,有r(侵占,侵占)=r(侵奪,侵奪)=r(侵犯,侵犯)=r(侵吞,侵吞)=1;根據(jù)同義關(guān)系的對稱性,有r(侵占,侵奪)=r(侵奪,侵占),r(侵占,侵犯)=r(侵犯,侵占),r(侵占,侵吞)=r(侵吞,侵占),r(侵奪,侵犯)=r(侵犯,侵奪),r(侵奪,侵吞)=r(侵吞,侵奪),r(侵犯,侵吞)=r(侵吞,侵犯)。在用來描述所有詞語兩兩之間的同義關(guān)系的模糊相似矩陣中,待定元素為后6組具有對稱性特點的同義詞之間的相似系數(shù)。在確定它們的具體數(shù)值之前,我們先把上表各詞語中構(gòu)成同義關(guān)系的義位表示為它們對應(yīng)義素的集合:
侵占:{個人或集團,憑借勢力,非法獲取或損害,他人或他集團,領(lǐng)土,財產(chǎn)}
侵奪:{個人或集團,憑借勢力,非法獲取或損害,他人或他集團,財產(chǎn)}
侵犯:{個人或集團,憑借勢力,非法獲取或損害,他人或他集團,領(lǐng)土,權(quán)益}
侵吞:{個人或集團,憑借勢力,非法獲取或損害,他人或他集團,領(lǐng)土,財產(chǎn),暗中}
這樣,我們就可以清楚地看出每個詞語的義位所具有的義素個數(shù)及與其他詞語的義位相同的義素個數(shù)。利用相似性科學(xué)中提出的計算公式,上述4個同義詞語兩兩之間的相似系數(shù)分別為:
將以上得出的所有的相似系數(shù)以矩陣的形式來表示,就得到了描述同義詞語“侵占”、“侵奪”、“侵犯”、“侵吞”兩兩之間關(guān)系的模糊相似矩陣:
從這個矩陣中我們可以看出,處于同一個同義聚合體中的各個詞語,它們相互之間的聚合并不在同一平面上,而是可以分為不同的層次。也就是說,詞語相互之間具有同義關(guān)系的程度是不同的。其中,詞語“侵占”與“侵吞”的相似程度最大,為0.86;詞語“侵犯”與“侵奪”的相似程度最小,為0.57。本例中所有詞語兩兩之間相似系數(shù)的順序依次為:r(侵占,侵吞)≈0.86>r(侵占,侵奪)≈0.83>r(侵占,侵犯)=r(侵奪,侵吞)≈ 0.71 > r(侵犯,侵吞)≈ 0.63 > r(侵奪,侵犯)≈ 0.57。所有的相似系數(shù)都大于0.5,說明這些詞語彼此相同的程度要大于彼此相異的程度,這也正說明了同義詞是同中有異,而且是大同小異的。
需要指出的是,確定詞語相似系數(shù)的方法,是建立在對詞語進行合理的義素分析基礎(chǔ)之上的。雖然義素分析法還存在著這樣那樣的缺點,而且也不能適用于所有詞語,但是我們不應(yīng)該就此放棄對義素分析法的利用。我們需要做的,是不斷深入對義素分析法的研究,修訂、完善它在理論上和實踐中的一些不足,使它精確描寫詞義的優(yōu)勢得以充分發(fā)揮,從而為我們進一步探討詞義關(guān)系提供保障。同時,如何形式化處理模糊語言現(xiàn)象,讓計算機能夠更好地識別這些信息并為我們的語言研究服務(wù),是一個需要不斷探索的問題。