代 勁 胡 彪 王國胤*③ 張 磊
①(重慶郵電大學計算智能重慶市重點實驗室 重慶 400065)
②(重慶郵電大學軟件工程學院 重慶 400065)
③(重慶郵電大學旅游多源數(shù)據(jù)感知與決策技術(shù)文化和旅游部重點實驗室 重慶 400065)
不確定性是客觀世界的真實存在,直接導致作為信息加工與知識獲取的人類認知過程具有顯著的不確定性特點。此外,從視知覺拓撲結(jié)構(gòu)和功能層次來看,人類認知還存在“整體優(yōu)先”(全局認知優(yōu)于局部特征)特點[1],通過大范圍優(yōu)先策略形成對目標的快速判斷,并不需要大腦進行精確的、深層次的定量分析,一定程度上加劇了認知的不確定性。因此,隨著海量數(shù)據(jù)分析與挖掘任務(wù)的急劇增長,研究不確定性知識的表達、處理,尋找并且形式化地表示不確定性知識中的規(guī)律性,讓機器模擬人類的認知過程,使其具有智能,成為當前人工智能領(lǐng)域的研究熱點[2,3]。
概念是知識表達的基本組成,認知的不確定性也不可避免導致概念存在較大的不確定性。其中隨機性和模糊性是不確定性的最基本內(nèi)涵,而對應的概率論[4]、模糊集[5]、粗糙集[6]等理論模型在實踐應用中都存在一些不足。例如,在模糊集合中,隸屬度通常是依據(jù)專家的先驗知識給定的,具有較強的主觀性;在概率論中,最基本的假設(shè)是排中律,但自然語言中的概念則未必滿足該假設(shè);在粗糙集中,還存在著過擬合難題,導致數(shù)據(jù)挖掘效率不高。究其原因,以上理論對于認知的不確定性理解還存在一定的片面性[7]。在概率論和模糊數(shù)學基礎(chǔ)上,云模型[8]從概念的隨機性和模糊性角度綜合進行不確定性分析,建立了定性模糊概念與定量精確數(shù)據(jù)的雙向轉(zhuǎn)換模型,較好地解決了概念的不確定性表示及轉(zhuǎn)換,廣泛應用于決策分析、智能控制等領(lǐng)域[9–12]。作為云模型的重要研究內(nèi)容,基于云模型的不確定性相似度量(簡稱相似度量,以下同)也越來越受到學者重視。例如在決策系統(tǒng)評估中,運用云相似性度量給出的結(jié)果更符合人的認知[13];在協(xié)同過濾推薦系統(tǒng)中,基于用戶喜好的相似度量可有效提高推薦的精度[14]。
現(xiàn)有的云模型相似度量方法主要集中在基于精確數(shù)值的量化計算或基于云模型本身的形狀特征方面,度量結(jié)果具有較大的片面性,不能充分體現(xiàn)云模型的隨機性與模糊性特點,需要將兩者進行綜合考慮?;诖怂悸?,借鑒“大范圍優(yōu)先”理論基礎(chǔ)[15],本文提出了一種結(jié)合云模型整體幾何特征與微觀云滴分布貢獻的不確定性相似度量方法。該方法首先利用較大范圍(即粗粒度)上云模型整體幾何特征(包絡(luò)帶)來確定云模型間的相似性計算范圍;其次,在此計算范圍內(nèi),結(jié)合云模型的微觀云滴分布貢獻,最終得到綜合考慮粗粒度和細粒度兩方面的度量結(jié)果。
基于以上策略,本文提出了一種基于包絡(luò)帶及其云滴貢獻度的云模型不確定性相似度量方法(Envelope Area of the Contribution based on Cloud Model, EACCM),該方法利用兩個云模型的含貢獻度包絡(luò)帶重疊面積來衡量其相似性,綜合考慮了云模型模糊性與隨機性兩方面的特點,其相似度量結(jié)果更加合理可信。本文的工作及創(chuàng)新主要如下:
(1)分析了當前云模型相似度量方法存在的問題,提出了從整體定性形狀結(jié)合微觀定量貢獻度綜合進行度量的策略,并在此基礎(chǔ)上進一步提出了基于包絡(luò)帶及其云滴貢獻度的云模型相似度量方法;
(2)借助云模型數(shù)字特征對本文方法進行深入分析,揭示相似度變化趨勢及特點;
(3)通過仿真實驗對比其他幾種方法,證明本文方法其度量結(jié)果更為科學合理,更貼合實際情況。
云模型相似性度量的首要問題在于選取合適的相似性計算模型?,F(xiàn)有的云模型相似性度量方法主要包括以下幾類方法:
(1)基于隨機云滴的距離度量方法。例如,SCM(Similar Cloud Measurement)[16]方法基于云滴之間的距離計算云之間的相似度,但由于云滴的選取具有一定的隨機性,因此會造成度量結(jié)果不穩(wěn)定,而且對大量云滴進行距離的計算會帶來較高的時間復雜度;文獻[17]提出了一種基于α截集的云相似度計算方法,該方法通過計分函數(shù)計算相似度,但是計算結(jié)果依賴云滴的數(shù)量,穩(wěn)定性差。
(2)基于云模型數(shù)字特征的度量方法。例如,LICM(LIkeness comparing method based on Cloud Model)[14]方法將云模型的3個數(shù)字特征組合在一起作為一個向量,利用兩個向量夾角的余弦值來衡量云之間的相似性,然而該方法只考慮了云模型數(shù)字特征而并沒有考慮云模型的整體分布特征,而且當某個數(shù)字特征占優(yōu)時,會忽略其他數(shù)字特征的影響,產(chǎn)生較大的誤差;PSCM[18]方法(Position and Shape based Cloud Model)將云相似度分為形狀相似度和位置相似度,利用云模型數(shù)字特征分別計算這兩方面的相似度,然后將兩者相乘得到最終的云相似度,該方法較好地解決了計算復雜度高的問題,但主觀地將形狀相似度與位置相似度進行簡單運算缺乏合理性。
(3)基于云模型幾何形狀特征的方法。如ECM(Expectation based Cloud Model)方法[19]、MCM(Maximum boundary based Cloud Model)方法[19]、CCM(Concept skipping indirect approach of Cloud Model)方法[20]等。這類方法以云的特征曲線與橫軸圍成的重疊面積作為衡量依據(jù)來度量云模型的相似性,計算復雜度較低且結(jié)果穩(wěn)定,但是并沒有準確地描述云的整體分布特征,從而導致以該重疊區(qū)域作為相似性標度缺乏合理性解釋。
以上方法各有優(yōu)勢,但也存在不足之處:將云模型整體幾何形狀特征與微觀云滴分布分離,度量結(jié)果具有較大的片面性。因此,迫切需要一種融合以上方法特點,綜合考慮云模型幾何形狀特征與不同位置云滴分布貢獻度差異的相似性度量模型。
圖1 正態(tài)云模型(0,3,0.3)
根據(jù)外包絡(luò)曲線和內(nèi)包絡(luò)曲線的 3σ原則,包絡(luò)帶有以下性質(zhì):(1)橫軸在[Ex?3(En+3He),Ex+3(En+3He)]之外的區(qū)域因貢獻度非常低,不將其納入包絡(luò)帶的計算范圍內(nèi)。(2)將橫軸在[Ex?3(En+3He),Ex?3(En?3He)]之間的區(qū)域定義為曲邊梯形(以橫軸為直角邊,橫軸坐標為Ex?3(En+3He) 和Ex?3(En?3He)的兩條線段為上下底,外包絡(luò)曲線μw(x)為曲邊)。同理,橫軸在[Ex+3(En?3He),Ex+3(En+3He)]之間的區(qū)域也定義為一個曲邊梯形(如圖2所示,虛線矩形框中的陰影區(qū)域為曲邊梯形,圖中整個陰影區(qū)域就是本文所指的包絡(luò)帶)。
定義3 云滴貢獻度[21]
1維論域U中,任一小區(qū)間上的云滴群Δx對定性概念C的貢獻度為ΔA為,具體為
正態(tài)云是目前研究最多也是最重要的一種云模型,而且正態(tài)分布的普適性與鐘形隸屬函數(shù)的普遍性共同奠定了正態(tài)云模型普遍性的基礎(chǔ)。基于此,本文所研究的相似性度量方法也是針對正態(tài)云模型。
定性概念是認知的核心內(nèi)容,其主要通過概念內(nèi)涵與概念外延進行不確定性表達。因此,基于云模型的相似度量也應從概念內(nèi)涵與外延展開。其中,概念內(nèi)涵往往是根據(jù)大量的概念外延對象進行抽象而成的,其本身就具有一定的抽象性,不適合直接用于精確的相似性度量。因此,本文選擇了基于云模型云滴的分布—即概念的外延來進行相似度量。
此外,云模型本質(zhì)是一個邊界模糊的泛正態(tài)分布,如何合理地描述正態(tài)云圖(正態(tài)云模型的幾何特征),即云滴的分布特點具有重要意義。理論上,表征某個定性概念的云是由無數(shù)個云滴組成的,而通常只用正向云發(fā)生器生成的有限云滴來描述整體云的大致幾何形狀,并進行概念定性表征。這些有限的云滴實際上不足以來描述云模型的整體特征,在此基礎(chǔ)上度量云之間的相似性是不可取的。雖然云滴的確定度具有一定的隨機性,但是根據(jù)第3節(jié)定義2可知,云滴絕大部分都是分布在包絡(luò)帶中。因此從概率上分析,用包絡(luò)帶來表示云滴分布區(qū)域更為合理。
基于以上分析,可進一步探究云模型相似性的度量方法。在云模型對定性概念的外延描述中,一個云滴代表的是定性概念在數(shù)量上的一次實現(xiàn),云滴數(shù)量越多,越能反映這個定性概念的整體特征。在極限情況下,若云滴的數(shù)量趨于無窮大,則所有云滴必然會形成一個平面區(qū)域,在概率上可以近似等同于包絡(luò)帶。此時該平面區(qū)域可以最大限度地反映這個定性概念的整體特征,即云滴的分布特征(云模型的整體幾何特征)。因此,通過云間的包絡(luò)帶進行相似度量,相當于是用兩個定性概念的整體特征來進行相似性度量,顯然更具有合理性。
圖3 云C1(0,2,0.2)和 C2(4,2,0.2)包絡(luò)帶重疊區(qū)域
圖4 云C1(0,2,0.2)和 C2(1,2,0.1)包絡(luò)帶重疊區(qū)域
根據(jù)兩個云模型形狀特征,可以將期望對相似度影響規(guī)律分析劃分為下面兩種情形:(1)一個云完全包含在另一個云的內(nèi)包絡(luò)曲線內(nèi)(內(nèi)含式);(2)兩個云不存在一個云包含在另一個云的內(nèi)包絡(luò)曲線內(nèi)(非內(nèi)含式)。
(1)內(nèi)含式3He1+3He2≤En1?En2。當兩個云的形狀特征滿足:一個云完全包含在另一個云的內(nèi)包絡(luò)曲線內(nèi)時(即滿足3He1+3He2≤En1?En2),不失一般性,任取兩個云模型C1(0,2,0.2),C2(0,0.5,0.1),假設(shè)Ex2變化,則可給定期望Ex2的變化過程Ex2∈[0,10.2](當超過10.2時,這兩個云沒有任何重疊區(qū)域)。如圖6(a),其中顯示了期望變化過程中兩個云模型的3個典型的重疊情況,其中紅色為云C2。在這個位置變化過程中,應用本文方法計算出相似度隨期望變化所呈現(xiàn)的變化趨勢,如圖6(a)所示。
圖5 云模型C 1和C 2相對位置隨Ex2, Ex′2的變化
圖6 相似度隨Ex2, Ex′2, En2和He2變化趨勢
由圖6(a)可知,相似度隨著期望的增大呈現(xiàn)先增大后減小的趨勢,且開始點和結(jié)束點的相似度都為0。原因在于起始位置和結(jié)束位置兩個云的重疊面積都為0,因此根據(jù)本文相似度的計算公式,此時相似度為0,而在中間位置,兩個云重疊面積不為0,因此相似度隨著期望的增大呈現(xiàn)先增大后減小的趨勢且相似度存在最大值。圖6(a)并不是個例所呈現(xiàn)出的趨勢,而是所有滿足內(nèi)含式的云模型組其位置對相似度的影響趨勢。也符合人類的認知特點:兩個不同的定性概念之間的相似度不可能一直增大直到1,除非這兩個概念是一樣的,否則一定存在一個最大相似度。
由圖6(b)可知,非內(nèi)含式云模型組在開始位置時相似度為1,在結(jié)束位置時相似度為0,而且中間相似度變化并不是單調(diào)遞減,而是存在波動,不具有完全一致的規(guī)律。這里出現(xiàn)的波動性是由云模型的形狀特征(重尾分布[22])所決定的,同時這種復雜性也是由定性概念的不確定性(隨機性和模糊性)所決定的:定性概念存在較大的不確定性,其變化過程中其與另一個概念間的相似度常常會呈現(xiàn)出波動性。
(1)熵 En對相似度的影響。假設(shè)初始兩個云模型完全相同,不失一般性,令C1(0,2,0.2),C2(0,2,0.2)。若En2變化,可給定En2的變化過程En2∈[2,3.2](當En2≥3.2時,由5.1節(jié)的情形1可知相似度為0)。圖7(a)和圖7(b)顯示了熵En2變化過程中開始和結(jié)束時兩個云模型的重疊情況,其中紅色為云C2。在這個形狀變化過程中,應用本文方法計算出相似度隨熵變化所呈現(xiàn)的變化趨勢,如圖6(c)所示。
由圖6(c)可知,在開始位置時,云C1與云C2完全重疊,相似度為1,隨著En2的增大,兩者的相似度逐漸減小,直到云C1完全被包含在云C2的內(nèi)包絡(luò)曲線內(nèi),即5.1節(jié)中情形1的情況,此時相似度為0。圖6(c)說明當兩個云的期望和超熵相等時,其形狀相差越大(熵相差越大)則相似度越低。當兩個云的期望和超熵不相等時,不具有完全一致的規(guī)律。
(2)超熵 He對相似度的影響。假設(shè)初始是兩個云模型完全相同,不失一般性,令C1(0,2,0.2),C2(0,2,0.2)。若He2變化,可給定He2的變化過程He2∈[0.2,0.66](當3He2≥En2時,云C2霧化)。圖7(a)和圖7(c)顯示了超熵He2變化過程中開始和結(jié)束時兩個云模型的重疊情況,其中紅色為云C2。在這個形狀變化過程中,應用本文方法計算出相似度隨超熵變化所呈現(xiàn)的變化趨勢,如圖6(d)所示。
圖7 云模型C 1和C 2相對位置隨En2和He2的變化
由圖6(d)可知,在開始位置云C1與云C2完全重疊,相似度為1,隨著超熵的增大,云C2的包絡(luò)逐漸包裹著云C1,兩者的相似度逐漸減小,直到云C2霧化,此時不在本文方法度量范圍內(nèi)。圖6(d)說明當兩個云的期望和熵相等時,其形狀相差越大(超熵相差越大)則相似度越低。當兩個云的期望和熵不相等時,不具有完全一致的規(guī)律。
兩個云的相似度在直觀上會受其位置和形狀的影響,其影響并不相互獨立,不能將兩者割裂開來,也不能將兩者簡單地進行運算,這也是單獨討論位置和形狀對相似度影響的復雜之處。以上例子分析了某些情況下具有的一般規(guī)律,但是多數(shù)情況下還需要根據(jù)具體的云模型組來分析其位置和形狀對相似度的影響。
(1)連續(xù)性。由式(4)可知,相似度SimEACCM(C1,C2)由S1,S2,Sg1和Sg2共同決定,而這4個面積是通過兩個云的數(shù)字特征計算而來的。由式(5)—式(10)可知,S2,S1,Sg1和Sg2作為數(shù)字特征的函數(shù),顯然具有連續(xù)性。因此,相似度作為數(shù)字特征的函數(shù)也具有連續(xù)性。
(2)單調(diào)性。(a)由5.1節(jié)可知,固定 En和H e不變, Ex變化,此時相似度為 Ex的函數(shù)。在內(nèi)含式和非內(nèi)含式中,相似度隨 Ex的變化并沒有呈現(xiàn)明顯的單調(diào)性。(b)由5.2節(jié)可知,固定 Ex和H e不變且兩個云的期望和超熵相等時, En變化,此時相似度為 En的單調(diào)遞減函數(shù);當兩個云模型的期望和超熵不相等時,需要根據(jù)具體的云模型組來分析。(c)固定 Ex和 En不變且兩個云的期望和熵相等時,He變化,此時相似度為H e的單調(diào)遞減函數(shù);當兩個云模型的期望和熵不相等時,需要根據(jù)具體的云模型組來分析。
本節(jié)分別從云模型位置特征和形狀特征兩方面研究了其對云模型間相似度的影響,對應于云模型的數(shù)字特征,也就是其3個數(shù)字特征對相似度的影響??梢钥闯觯總€數(shù)字特征對相似度都具有一定的影響,這也客觀說明了忽略任意一個數(shù)字特征都是不合理的。同時根據(jù)相似度的計算公式和云數(shù)字特征對相似度的影響,分析了相似度的連續(xù)性和單調(diào)性。
為了進一步驗證本文方法的應用價值,將本文方法應用于軍隊某裝備保障系統(tǒng)能力評估[20,23,24],并與CCM方法[20]、MMDCM方法[23]、文獻[17]和文獻[24]中的方法進行對比。實驗中,采用黃金分割法將裝備保障系統(tǒng)的能力論域([0,100])進行劃分,共包括優(yōu)、良、中、差和極差這5個能力等級(語言原子),對應子區(qū)間以及建立的評估標尺云如表1所示。
表1 能力等級劃分對應的子區(qū)間及評估標尺
根據(jù)某裝備保障系統(tǒng)能力評估的結(jié)果,建立的對應目標云為T(84.77,4.0,0.4),目標云T與各標尺云的相交情況,如圖8所示(藍色為標尺云,從左到右分別為極差、差、中、良和優(yōu),紅色為目標云)。分別采用CCM方法、MMDCM方法、文獻[17]和文獻[24]中的方法以及本文的方法計算目標云對各評估標尺云的相似度,結(jié)果如表2所示。
表2 目標云與各標尺云的相似度
從圖8可以看出,目標云T僅與標尺云C4和C5部分重疊,而與其他標尺云沒有任何重疊,即目標云云滴與這些標尺云云滴分布在不同的區(qū)域中,在數(shù)量上的實現(xiàn)完全不同,此時認為目標云T與標尺云C1,C2和C3的相似度為0。而文獻[17]方法計算的結(jié)果遠大于0,這與以上分析相悖。此外,該方法計算出目標云T與標尺云C1,C2和C3的相似度差別較大(分別為0.01, 0.53和0.74),這意味著當兩個云存在重疊時,該方法的區(qū)分度不高(未重疊時相似度已經(jīng)高達0.74了,因此在重疊時只有小于0.26的尺度來描述相似度),容易忽略兩個云之間的細節(jié)差異。因此,從上面兩方面分析可知,文獻[17]的方法存在一定的片面性。此外,本文方法和對比方法計算出的相似度結(jié)果顯示,目標云與等級為“優(yōu)”的評估標尺云最為相似,評估結(jié)果為“優(yōu)”(根據(jù)最大相似度原則),與實際相符。
表2的方法其計算結(jié)果的差別主要體現(xiàn)在目標云T與標尺云C4和C5的相似度。因此,下面將詳細分析利用除文獻[17]外的方法計算目標云T與標尺云C4和C5相似度存在的差異。如表2所示,本文方法與對比方法在計算目標云T與標尺云C4和C5的相似度時,存在比較大的差異:對比方法計算出的目標云T與標尺云C5的相似度是目標云T與標尺云C4的相似度的3到4倍;本文方法計算的這兩組云的相似度差異并不大。在圖8可以直觀地看到,目標云T位于標尺云C4和C5之間,在橫軸上略偏向標尺云C5,而在形態(tài)上這三者的差異并不是很明顯,反而從形態(tài)上目標云T與標尺云C4更為接近。因此,從直觀上來看,這兩組云的相似度相差不大。這與對比方法的計算結(jié)果相矛盾,與本文方法的計算結(jié)果相一致,這也進一步證明了本文方法更為科學合理,更加貼合實際情況。
圖8 目標云T與各標尺云相交情況
面向時間序列數(shù)據(jù)的分類方法是數(shù)據(jù)挖掘的重要內(nèi)容,且分類過程中使用的相似度度量方法直接決定著分類結(jié)果的準確性。因此,本小節(jié)利用時間序列數(shù)據(jù)來進一步驗證本文相似度量方法的有效性。本實驗采用UCI中的常用時間序列數(shù)據(jù)集(synthetic control chart dataset),該數(shù)據(jù)集有6類數(shù)據(jù),每類數(shù)據(jù)包含100個長度為60的時間序列數(shù)據(jù)。實驗中,對每類數(shù)據(jù)采用10折交叉驗證,即將每類的100個數(shù)據(jù)劃分為相等的10份,每次測試取其中的一份為測試集,剩下的數(shù)據(jù)為訓練集。
本實驗從分析算法分類正確率入手,對比不同云模型相似度量方法在時間序列分類中的計算結(jié)果。在研究各方法分類正確率時,采用最近鄰分類(K-Nearest Neighbors, KNN)算法進行分類實驗(K=10)。每個時間序列可以通過MBCT-SR逆向云變換算法[25]生成的云模型來表示,然后利用不同的云模型相似度量方法分別計算每類測試集與其他數(shù)據(jù)(包括本類訓練數(shù)據(jù)和其他類所有數(shù)據(jù))的相似度矩陣,根據(jù)該相似度矩陣,利用KNN算法來計算分類結(jié)果,進而得到每類測試集的分類正確率(通過10折交叉驗證得到),最后計算6類數(shù)據(jù)分類正確率的均值,得到各方法的分類正確率如圖9所示。其中,對比方法為PSCM方法[18]、MCM[19]方法、文獻[17]的方法和LICM[14]方法。
由圖9可清楚看到,本文相似度量方法的平均分類正確率最高,其次為PSCM方法和MCM方法,然后是文獻[17]的方法和LICM方法。因此,該實驗驗證了本文方法在時序序列數(shù)據(jù)分類中良好的性能,進一步說明了本文方法的有效性。
圖9 不同度量方法分類的正確率
云模型作為不確定性知識獲取的重要研究工具,通過隨機性與模糊性的統(tǒng)一,較好地解決了概念的不確定性轉(zhuǎn)換難題。當前云模型間的相似性度量主要集中在基于精確數(shù)據(jù)的量化計算上,缺乏對云模型整體特征綜合考慮,度量結(jié)果缺乏科學性與有效性。綜合考慮云模型整體幾何特征與微觀云滴分布貢獻,本文提出了一種基于分布輪廓與局部特征融合的云模型不確定性相似度量方法。該方法既可合理地刻畫出云模型微觀云滴分布特征,又綜合考慮其宏觀數(shù)字特征,較好地實現(xiàn)了不確定性相似度量中基于定性概念內(nèi)涵與外延的有效結(jié)合。為了分析該方法的合理性與有效性,本文還深入探究了云模型數(shù)字特征對云模型間相似度計算的影響,并通過仿真實驗進行了驗證。本文提出的相似度量方法是對云模型理論的有效補充完善,在實際應用中,可結(jié)合云模型的各種分析挖掘任務(wù)進行使用,進一步提升不確定性知識獲取能力。