陳躍 王宣
(六盤水師范學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,貴州六盤水 553004)
模糊集理論和粗糙集理論已經(jīng)被證明是處理不確定性信息的有效工具[1-3]。模糊集注重通過隸屬度函數(shù)描述對象的含糊程度,而粗糙集注重通過知識和概念構(gòu)造的上下近似算子達到對目標的近似表達,其顯著優(yōu)勢在于不需要任何先驗信息,就可以比較客觀地描述和處理數(shù)據(jù)信息。概率粗糙集[4-5]和決策粗糙集[6-7]是粗糙集理論的兩個重要推廣,為了對其三個區(qū)域提供一個合理的語義解釋,姚(Yao)[8-9]提出了三支決策的概念。三支決策的思想是通過一定的方法將論域劃分成三個互不相交的區(qū)域,這三個區(qū)域按照正域表示接受、負域表示拒絕、邊界域表示延遲決策的劃分規(guī)則來解釋。三支決策已經(jīng)被證明是處理復(fù)雜問題的一種新方法,被國內(nèi)外學(xué)者廣泛研究和推廣。首先是三支決策的應(yīng)用,文獻[10]利用三支決策基本原理,提出了基于畢達哥拉斯模糊信息系統(tǒng)的三支沖突分析模型,為沖突問題的解決提供了一個新思路;文獻[11]將三支決策應(yīng)用到粒計算領(lǐng)域,并指出模糊擬陣是三支粒計算的一個典例;文獻[12]分析了三支決策和經(jīng)典概念格之間的關(guān)系。其次在模型推廣方面,研究不同信息系統(tǒng)上的三支決策模型備受學(xué)者關(guān)注。例如:文獻[13]將成本參數(shù)和屬性值推廣為到直覺模糊數(shù),基于隸屬度和非隸屬度函數(shù)建立了一個新的三支決策模型;文獻[14]充分考慮未知屬性值和屬性更新的代價,建立了動態(tài)三支決策模型;文獻[15]以高斯核函數(shù)為基礎(chǔ)定義了Tcost-模糊的等價關(guān)系,建立基于不完備實值信息系統(tǒng)的三支決策模型;李(Li)[16-17]先后提出了基于雙論域和信息系統(tǒng)的三支決策模型,并根據(jù)對劃分的評價提供了一種計算閾值的新方法。
多重集由經(jīng)典集合推廣而來,它的元素不具有互異性,即同一元素可以多次出現(xiàn)[18-20]。正是如此,多重集表示的信息往往更加全面完整,例如:有四位專家對某品牌手機中央處理器(CPU)性能給出他們的專業(yè)性評價,多重集{0.3,0.9,0.9,0.9}中的元素分別為四位專家的評價值。顯然,從該多重集我們知道該品牌手機的CPU 能獲得多數(shù)專家的認可。若換用經(jīng)典集合{0.3,0.9},則我們不能獲知該品牌手機的CPU 是否獲得專家的認可?,F(xiàn)有的三支決策模型大多建立在單值的信息系統(tǒng)上,未考慮由于評價主體等的不同導(dǎo)致對象屬性值不唯一的情況。因此本文將信息系統(tǒng)推廣到多重集值信息系統(tǒng),并基于該系統(tǒng)建立了能充分體現(xiàn)各位評價主體意見的三支決策模型。
本文在文獻[17]的基礎(chǔ)上,將關(guān)系函數(shù)r的值域推廣為[0,1]上的多重集,并基于數(shù)域上多重集的距離測度,建立了基于多重集值信息系統(tǒng)上的三支決策模型。另外,本文指出[0,1]上的多重集值信息系統(tǒng)完全可以用一個模糊多重集值函數(shù)代替,并建立了基于模糊多重集的三支決策模型。最后,本文基于模糊多重集的交、并、以及差運算提出了三種相似性測度,彌補了距離測度在某些應(yīng)用中的缺陷。
定義1.1[19](多重集)設(shè)U是一個非空論域,U上的多重集M可以用函數(shù)CM:U→?(? 為自然數(shù)集)來表示,對x∈U,CM(x)稱為x的重數(shù)。記U上的全體多重集為M(U)。
多重集有多種表示方法,如M={(x,1),(y,2),(z,3)}或M={x,y,y,z,z,z}。
定義1.2[19]分明多重集中元素的個數(shù)稱為多重集的基數(shù),記為|·|,即
下面我們介紹一種衡量數(shù)域V?? 上的多重集接近程度的方法。
其中m=maxV-minV。當q=1,2 時,分別稱為Hamming距離,Euclid距離。
注1.1V上的任意多重集都可以通過重新排列元素,使得其元素按升序排列。
例1.1某中介要根據(jù)顧客的需求從現(xiàn)有的房源中篩選出合適的房子推薦給顧客。設(shè)U={u1,u2,...,u5}是房源的集合,A={a1,a2,a3,a4}是房子屬性集合,其中a1表示房源的面積大小、a2表示房源的方位、a3表示房源是否帶花園、a4表示房源的價格。房源相關(guān)信息如表1所示。
表1 房源信息
以u1為例,關(guān)系函數(shù)r(u1)={small,east,no,moderate} 表示房子u1面積小、位于城東、不帶花園、價格適中。若某顧客對房子的要求,即目標屬性集={middle,east,no,low},取評價函數(shù)
若給定閾值α=0.6,β=0.4,則可知,即u1房子暫不推薦。其它情況我們也能類似算出,即可以得到房源U的三劃分
房源U的三劃分表明,作為銷售員應(yīng)該首先將u4房子推薦給相應(yīng)的顧客,u1,u6作為備選是否推薦需進一步分析,而u2,u3,u5則沒有推薦的必要。
本節(jié),我們將信息系統(tǒng)推廣到特殊的集值信息系統(tǒng)——多重集值信息系統(tǒng),建立基于多重集值信息系統(tǒng)的三支決策模型。并進一步將三值屬性推廣到多值屬性,即將屬性值范圍從{0,0.5,1}推廣到單位區(qū)間[0,1],并根據(jù)數(shù)域上多重集的相似性測度建立了基于多重集值信息系統(tǒng)的三支決策模型。
定義2.1設(shè)U和A分別為非空有限對象集和非空有限屬性集。四元對Ψ=(U,A,r,e)稱為多重集值信息系統(tǒng)上的三支決策模型,其中關(guān)系函數(shù)是一個集值函數(shù)(Va為屬性a的取值,是以多重集為元素的集合),(L是一個全序集)是一個評價函數(shù)。設(shè)α,β∈L是一對閾值且有β<α,則對任意的目標屬性集的正域、邊界域、負域分別定義為
例2.1設(shè)U={u1,u2,...,u6} 表示6 個品牌的手機,A={a1,a2,a3,a4}表示手機的4 個屬性,其中a1表示處理器性能、a2表示電池續(xù)航、a3表示手機信號、a4表示屏幕材質(zhì)?,F(xiàn)有三位專業(yè)人士對以上六個品牌手機的四個屬性做了測評,測評結(jié)果如表2所示。
表2 手機評測多重集值信息
根據(jù)表2可知
它表示三位專業(yè)人士對u1品牌手機的a1屬性的測評結(jié)果均為強;對a2屬性的測評結(jié)果分別為長、長、中;對a3屬性的測評結(jié)果為中、差、差;對a4屬性的測評結(jié)果分別為TFT、SLCD、AMOLED。假設(shè)某消費者希望購買一臺處理器性能強、手機信號好、屏幕材質(zhì)為SLCD的手機,而對手機續(xù)航不做要求。我們用目標屬性集={強,*,好,SLCD} 表示消費者對手機四個屬性的要求(其中*表示目標屬性值不明或不作要求),并將其拓展為多重集(仍記為)得
取評價函數(shù)
其中r(ui,aj),xj分別為r(ui)和的第j個元素,且均為多重集。根據(jù)目標屬性集和表2,分別計算每個手機的評價值得到如表3所示。
表3 基于消費者需求的手機評價值
以u1品牌手機為例,
在上式中,本文規(guī)定{*,*,*}與任何一個基數(shù)為3的多重集M的交集都為M。
若取閾值α=0.7,β=0.4,則的正域、邊界域、負域分別為:
它表示作為導(dǎo)購應(yīng)該優(yōu)先給消費者推薦的是u2和u4品牌的手機,u1、u3和u5品牌的手機作為備選,肯定不必推薦的手機品牌為u6。
注2.1例2.1 所取的評價函數(shù)e(r(u),)事實上表示的是對象(手機)屬性集與目標屬性集(消費者需求)的重疊度,重疊度越高則代表該品牌手機越能滿足消費者的需求。
注2.2根據(jù)表2 可知u3品牌手機的a1屬性較u4品牌更能滿足該消費者的需求,但用e(r(u),)作為評價函數(shù)時,兩個品牌的手機在該屬性上對消費者需求的滿足度是相同的,這顯然與事實不符,即三值屬性值不能夠滿足實際的需求。
注2.3分析表2 可知,a1、a2和a3的屬性值具有明顯的序關(guān)系,即a1的屬性值明顯具有“強>中>弱”;a2的屬性值有“長>中>短”;a3的屬性值有“好>中>差”。若不考慮各種材質(zhì)的屏幕好壞,消費者選擇何種材質(zhì)完全看個人喜好,則a4的屬性值則不具備序關(guān)系。
若我們用0、0.5、1 來表示表2 中具有序關(guān)系的三個等級的基礎(chǔ)屬性值(以屬性a1為例,0表示弱、0.5 表示中、1 表示強),則a1、a2和a3的屬性值實際上是三值集合{0,0.5,1}上的多重集。三值集合只能粗略的描述對象該屬性的優(yōu)劣,而不能精確地描述其優(yōu)劣程度。因而本文首先考慮將三值集合{0,0.5,1}上的多重集推廣到單位區(qū)間[0,1]的多重集。而對不具有序關(guān)系的屬性例如a4,我們將屬于目標屬性集的元素記為1,其余的屬性值均記為0,則該屬性的取值實際上為{0,1}上的多重集,也是[0,1]上的多重集。這樣我們就可以以單位區(qū)間[0,1]上的多重集值信息表為基礎(chǔ)建立三支決策模型。
定義2.2設(shè)M={M1,M2,...,Mn},N={N1,N2,...,Nn} 是以[0,1]上的多重集為元素且基數(shù)相同的集合,則基于距離的M,N的相似性測度定義為
其中距離d可取dmax、dmin以及dp。
下面我們基于對象屬性集與目標屬性集的相似性測度在[0,1]區(qū)間上建立基于多重集值信息表的三支決策模型。
例2.2(續(xù)例2.1)我們以[0,1]作為基礎(chǔ)屬性值,將表2的屬性值推廣為[0,1]上的多重集如表4所示,評測信息表中的多重集為三位業(yè)內(nèi)人士給出的各手機屬性的測評值,數(shù)值越高則表示該項屬性越優(yōu)秀,反之亦然。某消費者對手機的需求集={0 .8,*,0.9,SLCD},我們用數(shù)字“1”表示SLCD材質(zhì)屏幕,用數(shù)字“0”表示其它材質(zhì)屏幕,并將拓展為多重集仍記為,此時消費者目標屬性集合={{ 0.8,0.8,0.8},{* ,*,*},{0 .9,0.9,0.9},{1 ,1,1} },而屬性a4的取值為{0,1} 上的多重集如表4所示。
表4 手機評測[0,1]多重集值信息
根據(jù)表4,計算消費者目標屬性集與各品牌手機屬性集的相似性測度值如表5所示。
表5 用戶需求與手機屬性相似性測度
以u1品牌為例,有u1牌手機的屬性值集r(u1)與目標屬性值集的相似性測度
在上式中,由于的第二個元素{*,*,*}表示屬性值不明或不做要求,則可規(guī)定不存在該元素,即的基數(shù)為3。
若取閾值α=0.6,β=0.4,則根據(jù)表5可得到的正域、邊界域、負域分別為:
它表示作為中介應(yīng)該優(yōu)先給顧客推薦u2品牌的手機,u1、u3和u4品牌的手機作為備選暫不推薦,u5和u6品牌的手機則沒有推薦的必要。
基于距離的相似性測度能滿足很多場景的需求,但就例2.2 所述的場景來說仍然存在一定缺陷。例如若某消費者對a1(手機處理器性能)的要求為={0 .6,0.6,0.6},假設(shè)有A 品牌手機a1的屬性值為A1={0 .8,0.8,0.8},B品牌手機a1的屬性值為B1={0 .4,0.4,0.4} 。顯然基于距離計算得到的A1與的相似性測度,和B1與的相似性測度完全一樣,然而A品牌手機處理器能滿足消費者需求,而B品牌手機卻不能滿足消費者需求。這就不可避免的導(dǎo)致了分類錯誤。糾其導(dǎo)致分類錯誤原因是我們接受好的,拒絕差的,而基于距離函數(shù)的相似性測度既拒絕好的又拒絕差的。
由于表4所列的屬性ai的取值是[0,1]上的多重集,多重集里的每一個元素可以看成是屬性ai的隸屬度(我們可將r(u1,a1)={0.9,0.9,0.8}中的三個元素看成是屬性a1的三個隸屬度),這樣我們將表4每一行的四個的多重集收集起來并進行一定整合,便可得到一個關(guān)于屬性集A的模糊多重集。例如我們完全可以用屬性集A={a1,a2,a3,a4}上的模糊多重集來表示表4第一行所呈現(xiàn)的信息。因此,本節(jié)在此基礎(chǔ)上建立了模糊多重集上的三支決策模型,并定義了三種新的相似性測度解決了距離相似性測度可能帶來的分類錯誤。
定義3.1設(shè)U和A分別為非空有限對象集和非空有限屬性集。四元對Ψ=(U,A,r,e) 稱為模糊多重集上的三支決策模型(FM3WD),其中r:U→FM(A)稱為關(guān)系函數(shù),e:FM(A)×FM(A)→L(L是一個全序集)是一個評價函數(shù)。設(shè)α,β∈L是一對閾值且β<α,則對任意的∈FM(A),的正域、邊界域、負域分別定義為
根據(jù)定義1.8,模糊多重集的并是通過取兩個模糊多重集中較大的隸屬度來構(gòu)成新的模糊多重集,這樣在以大于目標值的場景中,通過模糊集并定義的相似性測度,其語義解釋就得不到保證。但在以小于目標值的場景中,以模糊多重集的并定義的相似性測度有很好的應(yīng)用價值。
例3.1(續(xù)例2.2)事實上,表4所示的多重集值信息系統(tǒng)可以用屬性集A上的模糊多重集表示,即可得到模糊多重集上的三支決策模型Ψ=(U,A,r,e),其中關(guān)系函數(shù)r:U→FM(A)如下所示:
表6 對象屬性集r(ui)與目標屬性集的交集
表6 對象屬性集r(ui)與目標屬性集的交集
表7 模糊多重集r(ui)?的H -割集
表7 模糊多重集r(ui)?的H -割集
表8 r(ui)與的交相似性測度值
表8 r(ui)與的交相似性測度值
若取閾值α=0.55,β=0.35,則樂觀、悲觀、謹慎狀態(tài)下的三個域分別為:
可以看出在不同的狀態(tài)下的三個域的劃分不同。樂觀狀態(tài)下,的正域為{u1,u2,u4},作為導(dǎo)購u1,u2和u4品牌的手機都可以優(yōu)先推薦給消費者;而在謹慎狀態(tài)下只有u2品牌的手機可以推薦;悲觀狀態(tài)下則沒有可以推薦的手機。即在樂觀狀態(tài)下,對象(手機)只需滿足最低目標屬性(消費者最低要求);而在悲觀狀態(tài)下則需滿足最高屬性要求。
若用差相似測度e?作為評價函數(shù),第一,計算得到表9;第二,計算的0-割集得到表10;第三,計算的基數(shù)比即得如表11所示。
表9 對象屬性值集r(ui)與目標屬性值集的差集
表9 對象屬性值集r(ui)與目標屬性值集的差集
表10 r(ui)?的0-割集
表10 r(ui)?的0-割集
表11 r(ui)與的差相似性測度值
表11 r(ui)與的差相似性測度值
由例3.1可知,不同的相似性測度得到的分類結(jié)果不一樣。交相似性測度在綜合考慮目標屬性值的基礎(chǔ)上可以選擇切合自身實際的樂觀、悲觀、或謹慎的態(tài)度;而差相似性測度則充分尊重每一個目標屬性值,使得每一個屬性值在決策中發(fā)揮價值。
本文以李提出的信息系統(tǒng)上的三支決策為基礎(chǔ),將單值的信息系統(tǒng)推廣到多重集值信息系統(tǒng),并基于屬性描述的精確度進一步將其多重集值信息系統(tǒng)推廣到[0,1]多重集值信息系統(tǒng),建立了基于多重集值信息系統(tǒng)的三支決策模型?,F(xiàn)有的各種信息系統(tǒng)上的三支沖突模型沒有充分考慮由于評價主體的多樣性導(dǎo)致的對象屬性值不唯一的情況,因而其應(yīng)用受到一定限制。本文用多重集來表示對象的屬性值,不僅能精確地表示對象的屬性達成度,還能充分表示由于評價主體的不同導(dǎo)致的屬性值的不唯一,能夠充分展示各評價主體的意見。此外,基于多重集值信息系統(tǒng)的三支決策模型還給后續(xù)學(xué)者提供了一種處理評價主體意見分歧的方法,使得三支決策模型能夠更加直接的應(yīng)用于社會各領(lǐng)域。
評價函數(shù)是三支決策模型的一個核心要素,評價函數(shù)選取的科學(xué)性直接影響到三支決策模型的應(yīng)用效果。本文先是提出了基于多重集距離的相似測度,并指出了以此作為評價函數(shù)的不足,然后我們基于模糊多重集的交、并以及差運算分別提出了交相似性測度、并相似性測度和差相似性測度,這三種測度都能彌補基于多重集距離的相似性測度在實際應(yīng)用中的缺陷。
閾值是三支決策的另一各核心要素,閾值的選擇直接影響到三劃分的效果,是三支決策模型至關(guān)重要的一步?,F(xiàn)階段關(guān)于閾值的計算一般是基于貝葉斯最小風(fēng)險理論給出的。后續(xù),在本文的架構(gòu)上探討基于貝葉斯最小風(fēng)險的閾值計算形式是我們可以努力的方向。但是,由于基本貝葉斯最小風(fēng)險的閾值計算方法涉及的損失參數(shù)多,且其給定具有主觀性,所以結(jié)合多重集這一工具研究一種新的閾值計算方法意義更為深遠。