鄧大勇, 唐雨朋, 杜巧連
(1.浙江師范大學 行知學院,浙江 蘭溪 321100;2.浙江師范大學 數(shù)學與計算機科學學院,浙江 金華 321004)
粒計算理論[1-2]自被提出二十多年以來,取得了豐碩的研究成果,它已經(jīng)成為人工智能的重要研究方向.在粒計算基本的組成理論中,粗糙集理論[3-4]是其基礎和出發(fā)點.近四十年的粗糙集理論研究和發(fā)展中,產(chǎn)生了可變精度粗糙集[5-6]、鄰域粗糙集[7-9]、覆蓋粗糙集[10-11]、三支決策[12-14]、F-粗糙集[15-17]等眾多粗糙集模型,這些粗糙集模型大部分從關系角度對粗糙集進行擴展.例如:鄰域粗糙集用鄰域關系代替等價關系,覆蓋粗糙集用一般關系代替等價關系等;三支決策的關注點從經(jīng)典粗糙集模型重點考慮的正區(qū)域擴大為正區(qū)域、負區(qū)域和邊界區(qū)域,并給出了它們新的語義解釋;F-粗糙集把粗糙集模型動態(tài)化,以方便處理動態(tài)變化的數(shù)據(jù)和大數(shù)據(jù).
但是粒計算本身是一個直觀的概念,缺乏嚴格的數(shù)學定義,很多粒計算的基本問題沒有得到解決,比如:什么是信息粒?各種粗糙集模型是否可以統(tǒng)一?
針對這些問題,從傳統(tǒng)集合論和離散數(shù)學出發(fā),探索信息粒的基本含義,在信息系統(tǒng)中定義了信息?;妥钚⌒畔⒘;雀拍睿岢隽死硐胄畔⑾到y(tǒng)假設,探討了信息?;谋硎灸芰八鼈冎g的關系.初步回答了“什么是信息粒?”“各種粗糙集模型是否可以統(tǒng)一?”等問題.本研究結果為粒計算的進一步發(fā)展奠定了一定的數(shù)學基礎.
假設讀者對離散數(shù)學知識和粗糙集知識比較熟悉,下面僅簡單介紹粗糙集[3-4]的基本知識.
設IS=(U,A)是一個信息系統(tǒng),U為論域,A為屬性或關系,X?U是一個概念,記
定義1[3-4]設DS=(U,A,d)是一個決策系統(tǒng),U為論域,A為屬性或關系,d為決策屬性,稱B?A為屬性約簡當且僅當它滿足以下條件:
1)POS(U,B,d)=POS(U,A,d);
2)對于任意的S?B,都有
POS(U,S,d)≠POS(U,A,d).
下面探討信息粒定義,提出理想信息系統(tǒng)假設.
定義2信息粒是某種關系下對論域的分類或聚類.
在論域U下,U的任何子集都是一個信息粒,即信息粒的本質是論域中個體的集合.但信息粒與集合有一定的區(qū)別,集合強調個體元素的組成,而信息粒強調集合中個體所包含的共同信息.此外,信息粒具有一定的動態(tài)性和不確定性.例如,集合{1,-1}和集合{x:x2-1=0∧x∈R}從集合論的角度來看完全相等,但是從信息粒的角度來看就有些不同,前者僅僅表示2個數(shù)組成了一個集合;后者帶有更豐富的信息,表示一元二次方程的2個根組成一個集合.2個集合所包含的信息并不相等,也就是說,從信息粒的角度看,集合{1,-1}和集合{x:x2-1=0∧x∈R}并不完全相等.所以,所謂信息粒就是帶有特定信息的集合,換句話說,信息粒=集合+信息.如果忽略信息或者不特別考慮信息,那么信息粒就是集合.
?和U是平凡信息粒.空集?是一個特殊的信息粒,它是不包含任何個體的信息粒.U是包含所有個體的信息粒,它包含U中全體個體的特質信息.
概念是與信息粒的意義最接近的一個詞.每一個概念都是一個信息粒,粒計算的研究者往往把概念和信息粒混用,但信息粒與概念有一定的區(qū)別.主要區(qū)別在于:信息粒比概念意義更廣,信息粒不一定能夠明確表示,更不一定具有標簽.例如,“好人”這個詞,人們往往把它看成一個概念,但是它具有太強的不確定性,沒有明顯的外延和內涵,具有很強的動態(tài)性和不穩(wěn)定性.如果把它當成一個信息粒,理解起來更容易些.不同的人、不同的時間、不同的空間,甚至同一個人在不同的條件下,“好人”這個詞表示的意義都有可能不同,它的內涵和外延都有可能發(fā)生變化.
所有表示集合的方法都可以用來表示信息粒,包括:枚舉法、謂詞法、文氏圖等.
理想信息系統(tǒng)假設:設U為論域,則關于論域U的理想信息系統(tǒng)為IS=P(U)(U的冪集).
理想信息系統(tǒng)IS=P(U)中的每個元素都是一個信息粒,P(U)包含關于論域U的所有的信息粒,這是一種理想的情況.實際的信息系統(tǒng)往往僅包括P(U)的部分元素.
容易得到下列關于理想信息系統(tǒng)的結論:
命題1理想信息系統(tǒng)IS=P(U)關于∪運算構成幺半群.
命題2理想信息系統(tǒng)IS=P(U)關于∩運算構成幺半群.
命題3理想信息系統(tǒng)IS=P(U)中信息粒的個數(shù)為2|U|,其中|U|表示U的勢.
命題4〈P(U),∪,∩,,?,U〉是一個布爾代數(shù),其中偏序關系為?,為補集運算.
文獻[18]從鄰域角度定義了信息粒向量,粗糙集[3-4]從等價關系角度定義了粗糙集意義下的基本知識.本節(jié)將從更廣泛意義上定義信息粒向量、信息?;⑻接懰鼈兊男再|.
定義3設X1,X2∈P(U)是2個信息粒,若X1?X2,則稱X1是X2的細化,X2是X1的粗化.
∩運算是信息粒細化操作符,∪運算是一種信息粒粗化操作符.當2個信息粒X1=X2時,可以看成信息粒特殊的細化或粗化.
定義4稱〈X1,X2,…,Xk〉為信息粒向量,其中Xi∈P(U)(i=1,2,…,k).當不考慮信息粒的順序時,信息粒向量〈X1,X2,…,Xk〉可用標量形式表示,即E={X1,X2,…,Xk}.
對信息粒向量E1,E2,若任意X∈E1都存在X′∈E2,使得X?X′,且對于任意X′∈E2,存在X∈E1,使得X?X′,則稱E1是E2的細化,E2是E1的粗化.
定義5設E?P(U)是一個信息粒向量,X∈P(U)是一個信息粒,X被E表示分為2種情況:確定性表示和不確定性表示.
1)確定性表示:存在N?E,使得X=∪N.
2)不確定性表示:X關于E的上、下近似是不確定性表示,即
一般情況下表示的信息粒向量E相對于被表示的信息粒X∈P(U)來說比較細,所以人們習慣于用∪運算定義信息粒之間的表示關系.根據(jù)需要∩運算也可用于定義信息粒之間的表示關系.∪運算或∩運算在表示信息粒之間的關系時不需要額外的信息.例如, 在一個決策系統(tǒng)中,用條件屬性的信息粒表示決策屬性的信息粒,前者往往比后者更細,而且條件屬性的信息粒之間往往通過∩運算進行細化.在表示決策屬性信息粒時,無論是確定性表示還是不確定性表示都是通過∪運算實現(xiàn)的.
定義6設E?P(U)是一個信息粒向量,若E中任何信息粒都不能由信息粒向量E中其他信息粒表示,則稱信息粒向量E內部獨立.
注1信息粒內部表示都是∪運算下的確定性表示.
定義7稱能夠被信息粒向量E表示的信息粒的個數(shù)為信息粒向量的信息表示量.稱信息粒向量的表示量與所有理想信息系統(tǒng)信息粒的量之比為信息粒向量的表示率.
信息粒向量的表示量和信息粒向量的表示率都能表示信息粒向量的表示能力.信息系統(tǒng)IS中信息粒的個數(shù)是信息系統(tǒng)中包含的信息量的一種表示.信息系統(tǒng)IS中包含的信息粒越多,它所包含的信息量就越大.信息系統(tǒng)IS的信息量第2種表示方法是信息粒向量的表示率,即IS中信息粒的個數(shù)與理想信息系統(tǒng)中信息粒的個數(shù)之比,
其中,|G(IS)|表示信息系統(tǒng)IS包含信息粒的個數(shù).用γINF(IS)表示信息系統(tǒng)IS的信息量可以方便地比較不同論域信息系統(tǒng)中的信息量.
例1如表1所示,若
G(IS)={?,{x1,x2},{x3,x4},{x1,x2,x3},{x3},{x4},{x1,x2,x4},U},
表1 信息系統(tǒng)IS
信息粒向量的表示量表示了信息粒向量表示的信息粒的多少,意義直觀,但不方便比較不同系統(tǒng)中的信息粒向量的表示能力,信息粒向量的表示率剛好彌補了這個缺陷.
定義8在論域U中,稱滿足以下2個條件的信息粒向量E為信息?;?/p>
1)E內部獨立;
2)∪E=U.
定義9當信息?;鶟M足“任何2個信息粒要么相等,要么相交為空”時,就稱其為信息粒劃分基.稱最細的信息粒劃分基為最小信息?;?
信息粒劃分基對應著一個等價關系,而信息?;鶎我怅P系,所以信息粒劃分基是一種特殊的信息粒基.
定理1任何信息?;ㄟ^∩運算和運算可以轉化為信息粒劃分基,也可轉化為最小信息?;?
證明結果顯然成立.證略.
例2如表1所示,設
={{x3,x4},{x1,x2,x3},{x1,x2,x4}}
′={{x1,x2},{x3},{x4}}.
定理1表明,在論域U上通過任意關系形成的信息?;伎梢酝ㄟ^∩運算和運算轉化為等價關系形成的最小信息粒基.例如,鄰域粗糙集中鄰域關系形成的信息粒基和優(yōu)勢粗糙集中優(yōu)勢關系形成的信息?;伎梢赞D化為基于等價關系的最小信息?;纱?,可得下面結論:
推論1任何粗糙集模型都可以轉化為Pawlak粗糙集模型.
Pawlak粗糙集模型是粗糙集的起源,是所有粗糙集模型的出發(fā)點,根據(jù)這個推論,其他粗糙集模型都可以回歸到這個出發(fā)點.
定義10信息粒基的信息粒表示能力等于相應的最小信息?;谋硎灸芰Γ?/p>
命題5在論域為U的信息系統(tǒng)IS中,設為最小信息粒基,則可以表示的信息粒個數(shù)等于2,信息表示率為
推論2信息?;郊?,則其表示能力越強.
例如,基因可以準確區(qū)分每一個個體,它比指紋、足印等能更好地表示和區(qū)分人,也能更好地區(qū)分人類群體.
本研究定義了信息粒、信息粒向量、信息?;雀拍?,提出了理想信息系統(tǒng)假設,給出了一種信息系統(tǒng)信息表示能力的計算方法,探討了信息粒向量之間的相互表示,得出了“任何粗糙集模型都可以轉化為Pawlak粗糙集”等有趣結論.
接下來可進一步對本研究方法和結論展開深入的理論及應用研究,比如:用粗糙集模型優(yōu)化計算,用信息粒向量的表示率進行概念漂移探測等.