劉玉鋒 孫文鑫
1(重慶大學(xué)城市科技學(xué)院 重慶 402167)
2(重慶水利電力職業(yè)技術(shù)學(xué)院 重慶 402167)
波蘭數(shù)學(xué)家Pawlak[1]提出的粗糙集是一種處理不確定性問(wèn)題的計(jì)算工具。粗糙集理論是建立在等價(jià)關(guān)系的基礎(chǔ)上,通過(guò)等價(jià)關(guān)系把研究對(duì)象分成不同的等價(jià)類進(jìn)而進(jìn)行不確定信息知識(shí)的獲取和信息挖掘。目前此理論已成功應(yīng)用到了決策分析、規(guī)則提取和過(guò)程控制等領(lǐng)域。
經(jīng)典粗糙集的一個(gè)局限性是處理的分類必須是完全正確的,因而其分類結(jié)果要求是精確的[2-4]。然而在實(shí)際應(yīng)用中,由于各種原因會(huì)造成數(shù)據(jù)誤差的存在,對(duì)象和對(duì)象之間的不可分辨關(guān)系也會(huì)存在誤差。為了克服局限性,拓寬粗糙集理論的應(yīng)用,學(xué)者們從不同角度對(duì)其進(jìn)行推廣,提出了程度粗糙集[5]、變精度粗糙集[6]、相似關(guān)系粗糙集等[7]。
基于β-相似關(guān)系的粗糙集是一種適應(yīng)數(shù)據(jù)誤差的粗糙集模型,該模型具有一定的知識(shí)容錯(cuò)能力,彌補(bǔ)了等價(jià)關(guān)系下粗糙集模型的局限性。只要求對(duì)象與對(duì)象之間大部分信息是相同的,忽略小部分的信息,實(shí)現(xiàn)知識(shí)的分類,知識(shí)分類所需的信息量可以通過(guò)相似度水平來(lái)控制。
多粒度[8]是由Qian等提出的一種新的數(shù)據(jù)分析的方法。從粒計(jì)算的角度分析單個(gè)二元關(guān)系(知識(shí)粒度)下粗糙集的不足,提出了多個(gè)二元關(guān)系(知識(shí)粒度)下的多粒度粗糙集。Qian等最開(kāi)始只提出了樂(lè)觀和悲觀多粒度,Xu等[9]提出了一種介于樂(lè)觀和悲觀之間的廣義多粒度粗糙集,這種粗糙集是樂(lè)觀和悲觀多粒度的推廣模型,也完善了多粒度粗糙集模型。近年來(lái),多粒度粗糙集理論的研究也是碩果累累[8-13]。
本文將結(jié)合粒度數(shù)選擇的不確定性和分類選擇的不確定性建立基于β-相似關(guān)系的廣義多粒度粗糙集。
為方便本文的論述和有關(guān)性質(zhì)的研究,本節(jié)首先給出需要用到的一些基本概念。
定義1[4]稱I=(U,A,F)為一個(gè)信息系統(tǒng),其中U為對(duì)象集,即U={x1,x2,…,xn}。而A為屬性集,即A={a1,a2,…,am}。F={fj:j≤m},其中fj:U→Vj,Vj為屬性aj的值域。對(duì)于B?A,令RB={(xi,xk)∈U2|fl(xi)=fl(xk),?al∈B},則稱RB為信息系統(tǒng)I上的等價(jià)關(guān)系。令[xi]B={xk∈U|fl(xi)=fl(xj),?al∈B},則稱[xi]B為對(duì)象xi關(guān)于等價(jià)關(guān)系RB的等價(jià)類。
定義2[8]設(shè)I=(U,A,F)為信息系統(tǒng),對(duì)于X?U,A1,A2,…,As?A,定義:
(1)
(2)
(3)
(4)
定義3[14]設(shè)I=(U,A,F)為信息系統(tǒng),對(duì)于X?U,P1,P2,…,Pl?A,定義:
(5)
定義4[14]設(shè)I=(U,A,F)為信息系統(tǒng),對(duì)于X?U,P1,P2,…,Pl?A,定義:
(6)
(7)
為了擴(kuò)大粗糙集理論的應(yīng)用,Qian等[8]把單個(gè)二元關(guān)系(知識(shí)粒度)下粗糙集推廣到多個(gè)二元關(guān)系(知識(shí)粒度)下定義的多粒度粗糙集中,本節(jié)將多粒度粗糙集推廣到β-相似關(guān)系上,建立了基于β-相似關(guān)系的多粒度粗糙集。
定義5設(shè)I=(U,A,F)為信息系統(tǒng),對(duì)于X?U,A1,A2,…,As?A,參數(shù)β∈[0,1],定義:
(8)
(9)
(10)
(11)
性質(zhì)1設(shè)I=(U,A,F)為信息系統(tǒng),對(duì)于X?U,A1,A2,…,As?A,參數(shù)β∈[0,1],有下列性質(zhì)成立。
(12)
(13)
(14)
(15)
(16)
(17)
(18)
(19)
(20)
(21)
證明式(12)-式(13)對(duì)任意的X?U,有:
式(14)-式(15)由定義5直接可得。
式(17)-式(18)對(duì)任意的X?U,有:
式(19)-式(20)由定義5直接可得。
性質(zhì)2設(shè)I=(U,A,F)為信息系統(tǒng),對(duì)于X,Y?U,A1,A2,…,As?A,參數(shù)β∈[0,1],有下列性質(zhì)成立。
(22)
(23)
(24)
(25)
(26)
(27)
(28)
(29)
(30)
(31)
(32)
(33)
(3)-(6) 由定義5和性質(zhì)2直接可得。
(9)-(12) 由定義5和性質(zhì)1直接可得。
定理1設(shè)I=(U,A,F)為信息系統(tǒng),對(duì)于任意集合X?U,A1,A2,…,As?A,若β=1,則有:
(34)
(35)
(36)
(37)
定理1表明:當(dāng)β=1時(shí),基于β-相似關(guān)系的多粒度粗糙集可退化為Qian等[8]定義的多粒度粗糙集。
在基于β-相似關(guān)系的多粒度粗糙集中,要求滿足條件的粒度數(shù)量是至少一個(gè)和所有的粒度。然而在實(shí)際應(yīng)用問(wèn)題中要求滿足條件的粒度數(shù)量可以是其他可能。為了更好地處理不確定知識(shí)。本節(jié)建立基于β-相似關(guān)系的廣義多粒度粗糙集,這種粗糙集是基于β-相似關(guān)系的多粒度粗糙集的推廣模型。
定義6設(shè)I=(U,A,F)為信息系統(tǒng),對(duì)于X?U,A1,A2,…,As?A,定義:
(38)
定義7設(shè)I=(U,A,F)為信息系統(tǒng),對(duì)于X?U,A1,A2,…,As?A,參數(shù)β∈[0,1],τ∈(0,1],定義:
(39)
(40)
性質(zhì)3設(shè)I=(U,A,F)為信息系統(tǒng),對(duì)于X?U,A1,A2,…,As?A,參數(shù)β∈[0,1],有下列性質(zhì)成立。
(41)
(42)
(43)
(44)
(45)
證明式(41)-式(42)對(duì)任意的X?U,有:
性質(zhì)4設(shè)I=(U,A,F)為信息系統(tǒng),對(duì)于X、Y?U,A1,A2,…,As?A,參數(shù)β∈[0,1],有下列性質(zhì)成立。
(46)
(47)
(48)
(49)
(50)
(51)
(3)-(6) 由定義6和性質(zhì)4直接可得。
定理2設(shè)I=(U,A,F)為信息系統(tǒng),對(duì)任意的集合X?U,A1,A2,…,As?A,參數(shù)β∈[0,1],τ∈(0,1],則有:
特別地,當(dāng)τ=1時(shí):
證明根據(jù)定義5、定義7直接可得。
定理3設(shè)I=(U,A,F)為信息系統(tǒng),對(duì)任意的集合X?U,A1,A2,…,As?A,參數(shù)τ∈(0,1],α,β∈[0,1]且α<β,則有:
(52)
(53)
證明根據(jù)定義5、定義7直接可得。
近年來(lái)全球各種傳染疾病不斷暴發(fā),如鼠疫、埃博拉、SARS和新型冠狀病毒肺炎等疾病通過(guò)不同的途徑威脅人類生命安全。在傳染病暴發(fā)的初期,為了控制疫情的擴(kuò)散,各級(jí)政府都會(huì)采取緊急控制措施,如何劃分已感染人群、可能感染人群和未感染人群成為其關(guān)鍵問(wèn)題。某傳染病感染初期主要有以下9個(gè)癥狀:發(fā)熱、乏力、干咳、鼻塞、流涕、腹瀉、胸悶、呼吸困難和精神弱,記為A={a1,a2,…,a9}。某地區(qū)有10人可能感染該傳染病病毒,記為U={x1,x2,…,x10},相關(guān)癥狀信息見(jiàn)表1?,F(xiàn)將上述9個(gè)癥狀分為3個(gè)組(粒度)進(jìn)行進(jìn)一步檢測(cè)。第一組為發(fā)熱、乏力、干咳癥狀,記為A1={a1,a2,a3};第二組為鼻塞、流涕和腹瀉癥狀,記為A2={a4,a5,a6};第三組為胸悶、呼吸困難和精神弱癥狀,記為A3={a7,a8,a9}。經(jīng)進(jìn)一步檢測(cè),10人中有6人被確診為病毒感染者,記為X={x1,x2,x3,x4,x6,x7}。
注:“0”表示無(wú)癥狀,“1”表示癥狀較輕,“2”表示癥狀較嚴(yán)重。
根據(jù)多粒度粗糙集定義可以計(jì)算得:
β=1時(shí),由各粒度下等價(jià)類和β-相似關(guān)系支持特征函數(shù)計(jì)算得表2。令τ=1,根據(jù)基于β-相似關(guān)系的廣義多粒度粗糙集定義可以計(jì)算得:
表2 β=1時(shí)的β-相似關(guān)系支持特征函數(shù)值表
令τ=0.65,根據(jù)基于β-相似關(guān)系的廣義多粒度粗糙集定義可以計(jì)算得:
令τ=0.3,根據(jù)基于β-相似關(guān)系的廣義多粒度粗糙集定義可以計(jì)算得:
β=0.65時(shí),由表1可計(jì)算得各粒度下β-相似類:
根據(jù)基于β-相似關(guān)系的多粒度粗糙集定義可以計(jì)算得:
β=0.65時(shí),由各粒度下β-相似類和β-相似關(guān)系支持特征函數(shù)計(jì)算得表3。令τ=1,根據(jù)基于β-相似關(guān)系的廣義多粒度粗糙集定義可以計(jì)算得:
表3 β=0.65時(shí)的β-相似關(guān)系支持特征函數(shù)值表
令τ=0.65,根據(jù)基于β-相似關(guān)系的廣義多粒度粗糙集定義可以計(jì)算得:
令τ=0.3,根據(jù)基于β-相似關(guān)系的廣義多粒度粗糙集定義可以計(jì)算得:
顯然:
這個(gè)結(jié)果驗(yàn)證了定理1、定理2和定理3的正確性。
由上述結(jié)果可知,下近似隨著β減小而減小,上近似隨著β減小而增大,即隨著要求滿足條件的粒度數(shù)越少下近似越小,上近似越大。在實(shí)際應(yīng)用中應(yīng)該根據(jù)醫(yī)務(wù)人員(專家)對(duì)傳染病的了解而設(shè)置合適的β值(選擇合適的粒度數(shù)),以防止因分類隔離不當(dāng),從而擴(kuò)大傳染病傳播。因此,基于β-相似關(guān)系的廣義多粒度粗糙集模型的數(shù)據(jù)分析方法更具有實(shí)際意義,它在決策過(guò)程中能夠一定程度上解決因粒度選擇不當(dāng)可能帶來(lái)的決策失誤。
本文從粒度數(shù)選擇和分類選擇的角度提出基于β-相似關(guān)系的樂(lè)觀多粒度、悲觀多粒度粗糙集模型,進(jìn)一步提出基于β-相似關(guān)系的廣義多粒度粗糙集模型,并討論了本文模型與其他多粒度粗糙集之間的關(guān)系,豐富和完善了多粒度粗糙集理論。實(shí)例分析驗(yàn)證了相關(guān)定理,進(jìn)一步表明了本文模型改善了多粒度粗糙集模型在決策分析中的局限性。本文模型通過(guò)控制參數(shù)β和τ來(lái)選擇合適的粒度數(shù)和分類,使決策分析更加準(zhǔn)確。未來(lái)還需進(jìn)一步探索本文模型中決策規(guī)則提取和約簡(jiǎn)方法。