駱公志,梅 燾
南京郵電大學 管理學院,南京 210003
粗糙集理論作為一種有效處理不精確和不確定性信息的有效工具[1],當前已廣泛應(yīng)用于數(shù)據(jù)挖掘、聚類分析、預(yù)警系統(tǒng)和圖像處理等領(lǐng)域[2-5]。經(jīng)典Pawlak 粗糙集將論域分為正域和邊界域的集合,而未恰當解釋決策類的負域,導致經(jīng)典粗糙集中負域恒為空。
鑒于經(jīng)典Pawlak 粗糙集存在無法描述決策類負域的問題,Yao 在長期研究概率粗糙集過程中,用概率粗糙集將論域分為三個區(qū)域[6],即正域、負域和邊界域,提出符合人類實際認知能力的三支決策模式,并依據(jù)貝葉斯最小風險決策規(guī)則,定義概率粗糙集中兩個參數(shù)在現(xiàn)實里的語義解釋,建立決策粗糙集模型[7-8]。之后有學者針對Yao 的三支決策模型并未考慮決策時所遇到的多樣性以及適應(yīng)性的現(xiàn)實問題,將其引入到鄰域[9]、動態(tài)粒度[10-11]、群決策[12]等方面。
技術(shù)上的進步促進了信息科技的飛速發(fā)展,隨之導致了信息處理量的劇增,梁吉業(yè)等學者針對單一粒度空間下粗糙集的缺點,考慮粒計算[13]下多粒度的特點,提出了多粒度粗糙集[14],同時定義了悲觀多粒度粗糙集和樂觀多粒度粗糙集[15-16]。由于多粒度粗糙集模型不但可以處理分布式數(shù)據(jù)[17-18],且在處理時間上呈現(xiàn)出更加高效的特性,因此在應(yīng)用上有更加寬廣的前景。Dai 等針對多粒度粗糙集的屬性約簡問題,將粒子群算法引入其中,提出一種新的多知識快速約簡方法[19]。Jing 將知識粒度與視圖相結(jié)合,提出新的增量式屬性約簡方法[20]。
錢宇華等學者進一步將多粒度數(shù)據(jù)分析的理念引入決策粗糙集中,建立了多粒度決策粗糙集模型[21-23]。史進玲從決策信息表視角出發(fā),著眼于粒度劃分數(shù)量和粒化決策權(quán)重,提出了基于風險最小化的多粒度三支決策模型[24]。Wu針對多粒度標記信息系統(tǒng)考慮了不同標記尺度,提出了多粒度劃分粗糙集分析方法[25]。顧沈明在多粒度標記信息系統(tǒng)的前提下,尋求單個粒度的最優(yōu)點,提出了多粒度決策系統(tǒng)下的局部最優(yōu)粒度選擇[26]。Li 從集合近似的角度出發(fā),將多粒度與三支決策相結(jié)合,給定了一種新的學習認知概念[27]。
傳統(tǒng)多粒度決策粗糙集使用單一閾值,大大限制了對論域?;约敖档托畔⒉淮_定性的能力。本文借助監(jiān)督學習中對象現(xiàn)有或預(yù)測的標記信息[28],引入類內(nèi)閾值和類間閾值的概念,結(jié)合多粒度數(shù)據(jù)分析的優(yōu)勢,構(gòu)建新的多粒度決策粗糙模型,提出了基于監(jiān)督機制的多粒度決策粗糙集,驗證了模型的相關(guān)性質(zhì),并討論了模型之間的關(guān)系。該模型是傳統(tǒng)多粒度決策粗糙集的推廣形式,通過理論分析和實例證明,該模型可以通過變更類內(nèi)閾值和類間閾值來提升多粒度決策粗糙集刻畫不確定性知識的能力,幫助優(yōu)化決策,具有更好的實用性。
設(shè)信息系統(tǒng)S=<U,A=C?D,V,f >,A=C?D,其中U={x1,x2,…,xn}為有限對象集,稱為論域;A表示全體屬性集,C為條件屬性集,D為決策屬性集,Va為屬性a∈A的值域,f(x,a)表示對象x在屬性a上的取值。
定義1[1]設(shè)S=<U,A=C?D,V,f >是一個完備的決策信息系統(tǒng),其中屬性子集Ai?A,可構(gòu)成二元不可分辨關(guān)系:
IND(A)稱為自反的、對稱的和傳遞的。
定義2[6]設(shè)S=<U,A=C?D,V,f >是一個完備的決策信息系統(tǒng),其中屬性子集Ai?A,對于任意X?U,決策粗糙集的下近似、上近似和邊界區(qū)為:
其中:0 ≤β < α≤ 1 。
定義3[15]設(shè)S=<U,A=C?D,V,f >是一個完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集,對于任意X?U,樂觀多粒度粗糙集的下近似、上近似和邊界區(qū)分別為:
定義4[16]設(shè)S=<U,A=C?D,V,f >是一個完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集,對于任意X?U,悲觀多粒度粗糙集的下近似、上近似和邊界區(qū)分別為:
為區(qū)分類內(nèi)關(guān)系和類外關(guān)系,本文在已有研究基礎(chǔ)的前提下,給出參數(shù)λ的定義:即X與Y的交集超過一半及以上可判定為類內(nèi),否則判定為類外。
本文規(guī)定當P(Dk|[x]Ai)>λ時,采用類內(nèi)閾值α0、β0,否則采用類間閾值α1、β1。
定義5設(shè)S=<U,A=C?D,V,f >是一個完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。給定類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0<α0≤ 1 ,0 ≤β1≤β0≤α1≤1 。Dk的關(guān)于屬性子集A1,A2,…,Am的樂觀多粒度監(jiān)督?jīng)Q策粗糙集的下近似、上近似以及邊界區(qū)為:
當α0=1,α1=β1=β0=0 時,基于監(jiān)督機制的樂觀多粒度決策粗糙集退化為傳統(tǒng)的樂觀多粒度粗糙集。為降低信息的不確定性,采用如下方法:使類內(nèi)閾值α0等于傳統(tǒng)下近似閾值α,減小類間閾值α1,即0 ≤α1<α0≤1。
定理1設(shè)S=<U,A=C?D,V,f >是一個完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。給定類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。可知:
證明
同理可證(2)。
由定理1可知,基于監(jiān)督機制的樂觀多粒度決策粗糙集的下、上近似是各粒度分類規(guī)則下的下、上近似集合的并。
定義6設(shè)S=<U,A=C?D,V,f >是一個完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。給定類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0<α0≤ 1 ,0 ≤β1≤β0≤α1≤1。Dk的關(guān)于屬性子集A1,A2,…,Am的悲觀多粒度監(jiān)督?jīng)Q策粗糙集的下近似、上近似以及邊界區(qū)作如下定義:
當α0=1,α1=β1=β0=0 時,基于監(jiān)督機制的悲觀多粒度決策粗糙集退化為傳統(tǒng)的悲觀多粒度粗糙集。為降低信息的不確定性,采用如下方法使類內(nèi)閾值α0等于傳統(tǒng)下近似閾值α,減小類間閾值α1,即0 ≤α1<α0≤1。
定理2設(shè)S=<U,A=C?D,V,f >是一個完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。給定類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 ??芍?/p>
證明
同理可證(2)。
定理3設(shè)S=<U,A=C?D,V,f >是一個完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。給定類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 ??芍?/p>
證明
同理可證(2)。
由定理3可知,基于監(jiān)督機制的悲觀多粒度決策粗糙集的下、上近似是各粒度分類規(guī)則下的下、上近似集合的交。
定理4設(shè)S=<U,A=C?D,V,f >是一個完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。給定類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。則基于監(jiān)督機制的多粒度決策粗糙集有如下性質(zhì):
證明由定義5和定義6可得。
定義7設(shè)S=<U,A=C?D,V,f >是一個完備的決策信息系統(tǒng),其中A={A1,A2,…,Am}是條件屬性C上的m個屬性子集。決策屬性D將U劃分為K個決策類,表示為D={Dk},k=1,2,…,n。且類內(nèi)閾值α0,β0和類間閾值α1,β1滿足 0 ≤β1≤β0< α1< α0≤1 。則集合X在樂觀與悲觀條件下的分類精度作如下定義:
分類質(zhì)量分別定義為:
為說明該算法的可行性和有用性,本章將基于監(jiān)督機制的多粒度決策粗糙集應(yīng)用于工地項目建設(shè)后的評價問題。考慮15個已經(jīng)完成的工地項目,表1從三個一級指標:項目建設(shè)質(zhì)量評價、技術(shù)評價、環(huán)境保護評價,以及相對應(yīng)的8個二級指標(以分號劃分):樁基工程質(zhì)量、基礎(chǔ)工程質(zhì)量、主體工程質(zhì)量;工藝流程、工藝路線、工藝創(chuàng)新;“三廢”排放情況、環(huán)保設(shè)施運行狀況進行判別,從而得到的關(guān)于工地項目建設(shè)后的評估數(shù)據(jù)表。
將整個評估表看做一個完備決策信息系統(tǒng),論域U={x1,x2,…,x15}表示15個已經(jīng)完成的工地項目,條件屬性集合C={a1,a2,a3,a4,a5,a6,a7,a8} ,決策屬性集合D={D1,D2}分別表示驗收通過和不通過,并分別用1和2表示,決策信息系統(tǒng)的條件屬性子集族為R={R1,R2,R3}={{a1,a2,a3},{a4,a5,a6},{a7,a8}}。其中評價指標被分成4類e={1,2,3,4},分別表示e={優(yōu),良,中,差}。
表1 工地項目建設(shè)評價
基于專家經(jīng)驗,在這里以β0=0.45,β1=0.4,λ=0.5為例,調(diào)整類內(nèi)閾值α0和類間閾值α1,獲取不同情況下基于監(jiān)督機制的多粒度決策粗糙集的下、上近似集。
步驟1根據(jù)決策屬性D劃分決策類如下:
步驟2在條件屬性集子集族下,根據(jù)表1劃分等價類如下:
根據(jù)定義5~7,計算基于監(jiān)督機制的多粒度決策粗糙集的下近似和上近似分別如下。
(1)當α0=0.8,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時 ,基于監(jiān)督機制的樂觀多粒度決策粗糙集的下、上近似求得為:
基于監(jiān)督機制的悲觀多粒度決策粗糙集的下、上近似求得為:
(2)當α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5時,基于監(jiān)督機制的樂觀多粒度決策粗糙集的下、上近似求得為:
基于監(jiān)督機制的悲觀多粒度決策粗糙集的下、上近似求得為:
(3)當α0=0.55,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時,基于監(jiān)督機制的樂觀多粒度決策粗糙集的下、上近似求得為:
基于監(jiān)督機制的悲觀多粒度決策粗糙集的下、上近似求得為:
(4)當α0=0.7,α1=0.4,λ=0.5 時,此時α1< β0=0.45,因此只考慮下近似,基于監(jiān)督機制的樂觀多粒度決策粗糙集的下近似求得為:
基于監(jiān)督機制的悲觀多粒度決策粗糙集的下近似求得為:
(5)當α0=0.7,α1=0.25,λ=0.5 時,此時α1< β0=0.45,因此只考慮下近似,基于監(jiān)督機制的樂觀多粒度決策粗糙集的下近似求得為:
基于監(jiān)督機制的悲觀多粒度決策粗糙集的下近似求得為:
步驟3以基于監(jiān)督機制的樂觀和悲觀多粒度決策粗糙集為例,求得三種情況下決策類的分類質(zhì)量。
(1)當α0=0.8,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時:
(2)當α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時:
(3)當α0=0.55,α1=0.5,β0=0.45,β1=0.4,λ=0.5 時:
以β0=0.45,β1=0.4,λ=0.5 為例,求得三種不同類內(nèi)閾值情況下,基于監(jiān)督機制的樂觀多粒度決策粗糙集的分類質(zhì)量均為100%,基于監(jiān)督機制的悲觀多粒度決策粗糙集的分類質(zhì)量分別為40%、60%、80%。對比發(fā)現(xiàn)固定β0、β1,隨著給定類內(nèi)閾值α0的不斷減少,決策信息系統(tǒng)中的對象越能被正確分類,這表明調(diào)整閾值α0,在一定程度上可降低噪聲的影響。通過實例也能看出,隨著類間閾值α1的減少也會使得樂觀與悲觀多粒度決策粗糙集的下近似集變多,即正域變大。因此根據(jù)監(jiān)督信息合理控制和調(diào)整類內(nèi)、類間閾值,能夠提高決策屬性D關(guān)于條件屬性C的分類精度,使模型具有一定的容錯能力和很強的分類能力。而且觀察表1可以發(fā)現(xiàn),第五個工地屬性均為良及以上,卻被認為驗收不通過,基于監(jiān)督機制的樂觀多粒度決策粗糙集在三種情況下均能將該工地正確分類,可見由于人工處理的時候,會出現(xiàn)一定的誤差,而基于監(jiān)督機制的多粒度決策粗糙集能夠及時發(fā)現(xiàn),幫助人們進行正確決策。
為進一步驗證模型在決策信息系統(tǒng)能夠有效分類,與經(jīng)典樂觀、悲觀多粒度決策粗糙集進行對比,并以本文表1 案例的數(shù)據(jù)為例。當α0=0.7,α1=0.5,β0=0.45,β1=0.4,λ=0.5,α=0.7,β=0.4 時,基于監(jiān)督機制的樂觀多粒度決策粗糙集分類質(zhì)量為100%,基于監(jiān)督機制的悲觀多粒度決策粗糙集分類質(zhì)量為60%,經(jīng)典樂觀多粒度決策粗糙集分類質(zhì)量為100%,經(jīng)典悲觀多粒度決策粗糙集分類質(zhì)量為53%。結(jié)果表明基于監(jiān)督機制的多粒度決策粗糙集對決策信息系統(tǒng)分類后,相比經(jīng)典多粒度決策粗糙集,在分類質(zhì)量上有所提高。這是由于本文構(gòu)建的新模型不僅借鑒了多粒度決策粗糙集能夠從多層次、多角度綜合考慮不同屬性子集的優(yōu)點,更能通過調(diào)整類內(nèi)和類間閾值,使模型具有一定的容錯能力,同時兼顧考慮屬性子集的特征,使得對象分類更為準確。
為降低信息不確定性,本文引入類內(nèi)閾值和類間閾值,使決策系統(tǒng)中類對象內(nèi)的數(shù)量增加而減少類間對象的數(shù)量,將其應(yīng)用在多粒度決策粗糙集,提出一種基于監(jiān)督機制的多粒度決策粗糙集,給出了樂觀多粒度決策粗糙集和悲觀多粒度決策粗糙集兩種模型的完整定義,并著重討論了基本性質(zhì)和度量參數(shù)。通過類內(nèi)和類間閾值的不同取值可以得到不同程度的對象分類,使得本文提出的模型具有一定的穩(wěn)定性和靈活性,并有效提升多粒度決策粗糙集刻畫不確定性知識的能力。接下來,將進一步研究類內(nèi)和類間上近似閾值間的關(guān)系、決策規(guī)則獲取和屬性約簡等問題。