閆夢宇,李金海+
1.昆明理工大學 數(shù)據(jù)科學研究中心,昆明 650500
2.昆明理工大學 理學院,昆明 650500
形式概念分析是德國數(shù)學家Wille[1]于1982年提出的,它以形式背景為研究對象,研究對象、屬性及其層次關系的理論,提供了一種與傳統(tǒng)數(shù)據(jù)分析和知識表示完全不同的方法。目前,形式概念分析在數(shù)據(jù)挖掘[2-3]、信息處理[4]、軟件工程[5-6]、可視化[7-8]、在線分析[9]等領域得到了廣泛應用。
眾所周知,形式背景的屬性分析是形式概念分析理論中的基本問題。截止目前,已有許多學者基于Wille概念格對屬性分析進行了研究。如,張文修等[10]通過格同構思想建立了概念格約簡理論,利用屬性與約簡之間的內在聯(lián)系將其區(qū)分為三類:絕對必要屬性、相對必要屬性和絕對不必要屬性。這種區(qū)分屬性類型的思想隨后得到了其他學者的廣泛重視,原因是它有助于約簡計算與數(shù)據(jù)分析。洪文學等[11]在構建偏序結構圖的過程中,引入了“最大共有屬性”“共有屬性”和“獨有屬性”等概念,在此基礎上嘗試實現(xiàn)大規(guī)模數(shù)據(jù)分析。張濤等[12-13]借助所謂的“頂層屬性”“過渡屬性”“底層屬性”和“伴生屬性”快速計算Wille概念格,其原理是從屬性視角出發(fā)挖掘數(shù)據(jù)之間的潛在有用結構關系,并加以充分利用,以避免生成概念的過程中數(shù)據(jù)被反復低效訪問。
在形式概念分析中,Wille概念格、面向對象概念格和面向屬性概念格均可用于數(shù)據(jù)分析。盡管人們對這些數(shù)據(jù)分析方法有了一定的了解,如Wille概念格是基于屬性和對象之間的共同擁有關系提出的,而面向對象概念格和面向屬性概念格是將粗糙集理論中的上、下近似思想引入形式背景建立的[14-15],且面向對象概念格和面向屬性概念格在約簡方面存在密切聯(lián)系[16]。然而,這些數(shù)據(jù)分析方法之間的差異尚不完全清楚。考慮到現(xiàn)有的很多工作已表明屬性分析有助于認識概念層次結構[10-13],因此從屬性分析角度探討概念格數(shù)據(jù)分析方法的異同是一種可行的做法。
鑒于上述討論,本文基于Wille概念格、面向對象概念格和面向屬性概念格定義了共有屬性(對象)與獨有屬性(對象),并指出Wille概念格可用于共有屬性(對象)的數(shù)據(jù)分析,而面向對象概念格和面向屬性概念格可用于獨有屬性(對象)的數(shù)據(jù)分析。在此基礎上,討論了共有屬性(對象)與獨有屬性(對象)的相互關系,有關結果有助于揭示概念格數(shù)據(jù)分析方法之間的異同。
一個形式背景可表示為三元組(U,A,I),其中U是對象集,A是屬性集,I是笛卡爾積U×A上的二元關系。為了方便,記(x,a)∈I表示對象x擁有屬性a。
本文默認所有討論的形式背景均是正則的[10],即不存在空關系的行和列,也不存在滿關系的行和列。
Wille在形式背景(U,A,I)上定義了概念誘導算子:
定義1[1]給定形式背景(U,A,I),對于X?U,B?A,如果X↑=B且B↓=X,則稱序對 (X,B)為形式概念。其中X稱為概念的外延,B稱為概念的內涵。
定義2(共有屬性) 給定形式背景(U,A,I),對于X?U,如果a∈A滿足:則稱a是對象集X的共有屬性。為了方便,記對象集X的所有共有屬性組成的集合為Xg。
類似地,可以在形式背景中引入一個屬性集的共有對象。不妨記屬性集B的所有共有對象組成的集合為Bg。
性質1給定形式背景(U,A,I),對于對象集X?U,有Xg=X↑,Bg=B↓。
由性質1可知,Wille概念可以理解為是基于共有屬性(對象)分析構建的。
Yao[14],Düntsch和Gediga[15]在形式背景 (U,A,I)上給出了另外兩種概念誘導算子:
其中,Ia表示與屬性a有關系的所有對象,xI表示與對象x有關系的所有屬性。由于本文討論的形式背景均是正則的,因此Ia和xI都是非空的。
更多有關以上三種概念誘導算子的討論可參見文獻[17],在此不再贅述。
定義3[14]給定形式背景(U,A,I),對于X?U,B?A,如果X□=B且B◇=X,則稱序對(X,B)為面向對象概念。其中X稱為面向對象概念的外延,B稱為面向對象概念的內涵。
定義4(獨有屬性)給定形式背景(U,A,I),對于對象集X?U,如果a∈A滿足:存在x∈X,(x,a)∈I,且不存在,則稱a是對象集X的獨有屬性。為了方便,記對象集X的所有獨有屬性組成的集合為Xd。
類似地,可以在形式背景中引入一個屬性集的獨有對象。不妨記屬性集B的所有獨有對象組成的集合為Bd。
性質2給定形式背景(U,A,I),對于X?U,B?A,有。
證明對于任意a∈Xd,由定義4可知,存在x∈X使得 (x,a)∈I,且不存在使得 (y,a)∈I。因此,與屬性a有關系的對象都來自于對象集X,故有Ia?X,即a∈X□。
反之,對于任意a∈X□,有Ia?X成立,故不存在使得 (y,a)∈I。另一方面,由于Ia非空,且Ia?X,存在x∈X使得(x,a)∈I。因此,a∈Xd。
綜上可得,Xd=X□。
由性質2可知,面向對象概念可以理解為是基于獨有屬性(對象)分析構建的。
定義5[15]給定形式背景 (U,A,I),對于X?U,B?A,如果X◇=B且B□=X,則稱序對(X,B)為面向屬性概念。其中X稱為面向屬性概念的外延,B稱為面向屬性概念的內涵。
性質3給定形式背景(U,A,I),對于X?U,B?A,有。
性質3可類似于性質2進行證明,在此省略。
由性質3可知,面向屬性概念也可以理解為是基于獨有屬性(對象)分析構建的。
性質4設(U,A,I)為形式背景,任意X,X1,X2?U,B,B1,B2?A,則共有屬性與對象有以下性質:
證明由性質1,再結合Wille概念格的性質,即可得證。
性質5設(U,A,I)為形式背景,任意X,X1,X2?U,B,B1,B2?A,則獨有屬性與對象有以下性質:
證明只證(1)、(2)、(3)、(4),其余性質可類似得到。
(1)由性質2可知:
又因為:
因此,Ia?X2。從而,。
(2)由性質2可得:
又因為:
(3)由性質2和性質3可知:
(4)由性質2可知:
則對任意b∈B,Ib中的對象一定擁有屬性b,故對任意x∈Ib有:
3.3.2 其他個體因素 除性別外,有研究發(fā)現(xiàn)年齡、職業(yè)和文化程度等對配偶間HIV傳播也會產(chǎn)生影響[20,27]。
本章針對命題:共有屬性(對象)是獨有屬性(對象),討論其充分性、必要性以及充分必要性是否成立。
性質6給定形式背景(U,A,I),對于X?U,如果a∈Xg,則a∈Xd不成立。
證明注意到a∈Xg,只是下列條件成立:
而a∈Xd則要求滿足:
存在x∈X,(x,a)∈I,且不存在顯然不存在使得(x,a)∈I這個條件未必成立,命題得證。 □
性質7給定形式背景(U,A,I),對于B?A,如果a∈Bg,則a∈Bd不成立。
性質7可類似于性質6證得,在此省略。
下面,通過一個實例表明性質6和性質7的存在性,以方便理解。
例1表1是一個形式背景,其中對象x1、x2、x3、x4、x5、x6、x7、x8分別代表學生甲、乙、丙、丁、戊、己、庚、辛,屬性是有關研究生考試面試環(huán)節(jié)的各項要求,其中a1、a2、a3、a4、a5、a6、a7、a8分別代表四級通過、六級通過、計算機二級通過、本科學習成績優(yōu)秀、愿意繼續(xù)讀博、心態(tài)平和、有特長和適應能力強。對象xi(i=1,2,…,8)擁有屬性aj(j=1,2,…,8)在表中對應交叉位置標記為1,對象不擁有屬性在表中對應交叉位置標記為0。
Table 1 Formal context(U,A,I)表1 形式背景(U,A,I)
由表1,易計算得到:
設X={x3,x4,x5},Xg={a3,a6,a7,a8}表示學生丙丁戊的共有屬性為計算機二級通過、心態(tài)平和、有特長和適應能力強;但Xd={a4,a6}表示學生丙丁戊的獨有屬性為本科學習成績優(yōu)秀和心態(tài)平和。屬性計算機二級通過、有特長和適應能力強雖然是學生丙丁戊共同擁有,但是從表1中可以看出學生乙己庚辛也擁有屬性計算機二級通過;學生甲庚辛也擁有屬性有特長;學生甲己庚辛也擁有屬性適應能力強;因此計算機二級通過、有特長和適應能力強不是學生丙丁戊的獨有屬性。綜上可知共有屬性未必是獨有屬性。
設B={a1,a3,a6,a7,a8},Bg={x3,x4}表示屬性四級通過、計算機二級通過、心態(tài)平和、有特長和適應能力強的共有對象為學生丙??;但是Bd={x3,x8}表示屬性四級通過、計算機二級通過、心態(tài)平和、有特長和適應能力強的獨有對象為學生丙辛。學生丁雖然擁有屬性四級通過、計算機二級通過、心態(tài)平和、有特長和適應能力強,但其還擁有屬性本科學習成績優(yōu)秀,因此學生丁并不是屬性四級通過、計算機二級通過、心態(tài)平和、有特長和適應能力強的獨有對象。綜上可知,共有對象也未必是獨有對象。
性質8給定形式背景(U,A,I),對于X?U,如果a∈Xd,則a∈Xg不成立。
證明注意到a∈Xd,只是下列條件成立:
存在x∈X,(x,a)∈I,且不存在而a∈Xg則要求滿足:
比較上述條件,易知獨有屬性不一定就是共有屬性,因為獨有屬性是X擁有而不擁有的屬性,而共有屬性是X擁有同時也可以擁有的屬性。
性質9給定形式背景(U,A,I),對于B?A,如果a∈Bd,則a∈Bg不成立。
性質9可類似于性質8證得,在此省略。
下面,通過一個實例表明性質8和性質9的存在性,以方便理解。
例2繼續(xù)以表1為分析對象進行討論。設X={x3,x4,x5},那么Xd={a4,a6}表示學生丙丁戊的獨有屬性為本科學習成績優(yōu)秀和心態(tài)平和;但Xg={a3,a6,a7,a8}表示學生丙丁戊的共有屬性為計算機二級通過、心態(tài)平和、有特長和適應能力強。屬性本科學習成績優(yōu)秀因為只被學生丁擁有,學生丙戊并不擁有此屬性,因此屬性本科學習成績優(yōu)秀不是學生丙丁戊的共有屬性。綜上可知,獨有屬性未必是共有屬性。
設B={a1,a3,a6,a7,a8},Bd={x3,x8}表示屬性四級通過、計算機二級通過、心態(tài)平和、有特長和適應能力強的獨有對象為學生丙辛;但Bg={x3,x4}表示屬性四級通過、計算機二級通過、心態(tài)平和、有特長和適應能力強的共有對象為丙丁。學生辛是屬性四級通過、計算機二級通過、心態(tài)平和、有特長和適應能力強的獨有對象,但其并不擁有屬性集B中的心態(tài)平和屬性,因此學生辛不是屬性四級通過、計算機二級通過、心態(tài)平和、有特長和適應能力強的共有對象。綜上可知,獨有對象也未必是共有對象。
通過上述討論可知,命題“共有屬性(對象)是獨有屬性(對象)”的充分條件和必要條件均不成立。因此,給出該命題充要條件成立的附加條件,是非常有意義的。
定理1(原命題充要條件成立的附加條件) 給定形式背景(U,A,I),X?U,B?A,且滿足:
則Xg=Xd=B。
證明已知:
故:
另一方面,對于任意a∈B,由于(U,A,I)是正則的,因此存在x0∈X使得(x0,a)∈I,再結合:
反之,對于任意的a∈Xd,如果a?B,那么,根據(jù):
可得 ?x∈X,(x,a)?I,這與存在x∈X使得 (x,a)∈I矛盾,因此假設不成立,原命題a∈B正確,故:
綜上可得,Xd=B,因此Xg=Xd=B。 □
定理2(原命題充要條件成立的附加條件) 給定形式背景(U,A,I),X?U,B?A,且滿足:
則Bg=Bd=X。
定理2可類似于定理1證得,在此省略。
下面,通過一個實例說明上述兩個定理,以方便理解。
例3表2是一個形式背景(U,A,I1),其中對象x1、x2、x3、x4、x5、x6、x7、x8與例1相同,屬性a1、a2、a3、a4、a5、a6、a7、a8也與例1相同,但是對象和屬性之間的關系I1與例1不同,具體見表2。
由表2,易計算得到:
根據(jù)定理1,令X={x1,x3,x4,x5},由表2可以看出X滿足定理1,那么Xg={a1,a3,a6}表示學生甲丙丁戊共有屬性為四級通過、計算機二級通過和心態(tài)平和,可以看出屬性四級通過、計算機二級通過和心態(tài)平和只有學生甲丙丁戊擁有,而其他學生不擁有;Xd={a1,a3,a6}表示只有甲丙丁戊擁有屬性四級通過、計算機二級通過和心態(tài)平和,滿足Xg=Xd,即共有屬性是獨有屬性;同樣可以得到獨有屬性是共有屬性??傊颂幑灿袑傩约椽氂袑傩?,獨有屬性也是共有屬性。同理,對于Xg=B={a1,a3,a6},Bg=Bd={x1,x3,x4,x5}也滿足定理2,因此可得共有對象即獨有對象,獨有對象也是共有對象。綜上所述,滿足定理1可以得到命題的充要條件成立。
Table 2 Formal context(U,A,I1)表2 形式背景(U,A,I1)
根據(jù)定理2,令B={a1,a3,a6},由表2可以看出B滿足定理2,那么Bg={x1,x3,x4,x5}表示共同擁有屬性四級通過、計算機二級通過和心態(tài)平和的學生是甲丙丁戊,可以看出學生甲丙丁戊只擁有屬性四級通過、計算機二級通過和心態(tài)平和,而不擁有其他屬性;Bd={x1,x3,x4,x5}表示只擁有屬性四級通過、計算機二級通過和心態(tài)平和的學生為甲丙丁戊,滿足Bg=Bd,即共有對象即獨有對象;同樣的,也可以得到獨有對象是共有對象??傊?,這里共有對象即獨有對象,獨有對象也是共有對象。同理,對于X={x1,x3,x4,x5},Xg=Xd={a1,a3,a6},也滿足定理1,因此可以得到共有屬性即獨有屬性,獨有屬性也是共有屬性。綜上所述,滿足定理2可以得到命題的充要條件成立。
由上述討論可得:共有屬性是獨有屬性的充要條件,與共有對象是獨有對象的充要條件是完全相同的,即下列定理成立。
定理3(原命題充要條件成立的附加條件) 給定形式背景(U,A,I),X?U,B?A,則共有屬性是獨有屬性的充要條件,以及共有對象是獨有對象的充要條件均為:
實際上,上述三個約束條件的直觀意義非常明確。具體地,第一個表示X×B區(qū)域均是數(shù)字“1”填充,第二個表示X×B區(qū)域之外不再增加列方向的數(shù)字“1”,第三個表示X×B區(qū)域之外不再增加行方向的數(shù)字“1”。換言之,X×B區(qū)域相對于數(shù)字“1”填充問題是不可擴充的。
性質10給定形式背景(U,A,I),若存在X?U滿足Xg=Xd,則不存在X1?X(或X1?X)使得;類似地,若存在B?A滿足Bg=Bd,則不存在B1?B(或B1?B)使得。
證明如果Xg=Xd=B,下證不存在X1?X(或X1?X)使得:
(1)假設存在X1?X,滿足,則:
(2)假設存在X1?X,滿足,則:
由定理1條件可知,此時不滿足Xg=Xd=B,與假設矛盾,所以原命題正確。
同理可證:若存在B?A滿足Bg=Bd,則不存在B1?B(或B1?B)使得。 □
由性質10可知,在一個形式背景中若存在對象集X和屬性集B滿足Xg=Xd或Bg=Bd,那么在概念序關系意義下,此對象集X和屬性集B是唯一的。換言之,在形式背景中若存在對象集X和屬性集B滿足Xg=Xd或Bg=Bd,那么不可能存在其真子集或者覆蓋集也滿足共有即獨有。
下面,通過一個實例說明性質10,以方便理解。
例4表3是一個形式背景(U,A,I2),其中對象x1、x2、x3、x4、x5、x6、x7、x8與例1相同,屬性a1、a2、a3、a4、a5、a6、a7、a8也與例1相同,但是對象和屬性之間的關系I2與例1不同,具體見表3。
Table 3 Formal context(U,A,I2)表3 形式背景(U,A,I2)
由表3,易計算得到:
通過表3以及定理3可得:
(1)當X={x1,x2,x3}時,Xg=Xd={a1,a2,a3};當X={x4,x5,x6}時 ,Xg=Xd={a4,a5,a6};當X={x7,x8}時 ,Xg=Xd={a7,a8}。顯然三個對象集之間無序關系。
(2)當B={a1,a2,a3}時,Bg=Bd={x1,x2,x3};當B={a4,a5,a6}時,Bg=Bd={x4,x5,x6};當B={a7,a8},Bg=Bd={x7,x8}。顯然這三個屬性集之間也無序關系。
對于上述三個對象集,以其中一個X={x1,x2,x3}為例,需要分兩種情況進行分析;第一種情況是對其真子集逐一分析;第二種情況是對其覆蓋集逐一分析。這里只分析每種情況下的一個集合,其余可類似得出。當X1={x1,x2},顯然X1?X,此時,但,因此;當X1={x1,x2,x3,x4}時,顯然X1?X,此時,但,因此。
對于上述三個屬性集,以B={a1,a2,a3}為例,同理需要分兩種情況考慮,這里只分析每種情況下的一個集合。當B1={a1,a2}時,顯然B1?B,此時,但,因此;當B1={a1,a2,a3,a4}時,此時,但,因此。
此外,可以繼續(xù)討論表3中的形式概念、面向對象概念以及面向屬性概念。根據(jù)定義1、定義3和定義 5可知,形式概念為 (x1x2x3,a1a2a3),(x4x5x6,a4a5a6),(x7x8,a7a8)。面向對象概念為 (x1x2x3,a1a2a3),(x4x5x6,a4a5a6),(x7x8,a7a8)。面向屬性概念為 (x1x2x3,a1a2a3),(x4x5x6,a4a5a6),(x7x8,a7a8)。因此可以得出形式概念、面向對象概念和面向屬性概念是完全相同的。
最后,需要指出的是,從概念認知角度而言,當充要條件成立時,共有屬性(對象)與獨有屬性(對象)的概念認知趨同,即既是共有屬性(對象)又是獨有屬性(對象)的概念會產(chǎn)生完全相同的認知結果。而且,例4進一步表明,在特定的數(shù)據(jù)環(huán)境下,這兩種概念認知層次結構也完全相同(不考慮空概念和滿概念)。該結論對于基于共有屬性(對象)和獨有屬性(對象)的概念認知研究是有參考意義的。
本文研究了概念格共有屬性(對象)和獨有屬性(對象)之間的關系。具體地,在Wille概念格、面向對象概念格以及面向屬性概念格的基礎上,引入了共有屬性、共有對象、獨有屬性、獨有對象等概念,并圍繞共有屬性(對象)是否是獨有屬性(對象)展開了詳細討論,得到了一些有用的性質。
從屬性類型的角度而言,面向對象概念格和面向屬性概念格數(shù)據(jù)分析方法事實上是等價的。因此,Wille概念格、面向對象概念格和面向屬性概念格是兩種類型的數(shù)據(jù)分析方法。同時,本文的性質表明,這兩種數(shù)據(jù)分析方法雖然是迥異的,但是在某些特定條件時,它們也可以是等價的。
今后,可以繼續(xù)探討基于共有屬性(對象)和獨有屬性(對象)建立更加一般的概念格數(shù)據(jù)分析方法,即基于概念誘導算子Bg、Xg、Bd、Xd,直接構建對象冪集與屬性冪集之間的伽羅瓦連接,得到廣義的概念格數(shù)據(jù)分析方法。這將是一個非常有前景的研究方向,因為這些概念誘導算子的認知語義是非常明確的,有助于概念認知學習的研究與發(fā)展[18]。