張紅霞 吳桐桐 冷雪亮
摘 ?要: 粗糙集理論是一種新型的處理含糊不確定知識(shí)的數(shù)學(xué)工具,善于分析隱藏在數(shù)據(jù)中的事實(shí)而不需要關(guān)于數(shù)據(jù)的任何附加知識(shí),粗集理論不僅為信息科學(xué)和認(rèn)知科學(xué)提供了新的科學(xué)邏輯和研究方法,而且為智能信息處理提供了有效的處理技術(shù)。聚類是作為數(shù)據(jù)挖掘系統(tǒng)中的一個(gè)模塊,既可以作為一個(gè)單獨(dú)的工具以發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)分布的深層信息,也可以作為其他數(shù)據(jù)挖掘分析算法的一個(gè)預(yù)處理步驟。模糊聚類算法忽略了聚類邊界不確定的問(wèn)題和復(fù)雜數(shù)據(jù)問(wèn)題從而導(dǎo)致聚類效果不理想。本文提出了將粗糙集和模糊聚類算法相結(jié)合,利用粗糙集中上近似集和下近似集的概念得到相似性度量來(lái)改進(jìn)模糊聚類算法。實(shí)驗(yàn)證明,改進(jìn)的算法能夠得到更好的聚類效果。
關(guān)鍵詞:?粗糙集;模糊聚類;上近似;下近似
中圖分類號(hào): TP301.6????文獻(xiàn)標(biāo)識(shí)碼:?A????DOI:10.3969/j.issn.1003-6970.2019.09.036
本文著錄格式:張紅霞,吳桐桐,冷雪亮. 基于粗糙集理論的模糊聚類算法研究[J]. 軟件,2019,40(9):156-163
Research on Fuzzy Clustering Algorithm Based on Rough Set Theory
ZHANG Hong-xia,?WU Tong-tong,?LENG Xue-liang
(College of Computer and Information, Shandong University of Science and Technology, Qingdao?266000,?China)
【Abstract】: Rough set theory is a new mathematical tool for dealing with vague and uncertain knowledge. It is good at analyzing the facts hidden in the data without any additional knowledge about the data. Rough set theory not only provides new scientific logic and research methods for information science and cognitive science, but also provides effective processing technology for intelligent information processing. Clustering is a module in the data mining system. It can be used as a separate tool to discover the deep information of data distribution in the database, or as a pre-processing step of other data mining analysis algorithms. The fuzzy clustering algorithm ignores the problem of cluster boundary uncertainty and complex data problems, which leads to the unsatisfactory clustering effect. This paper proposes to combine the rough set and the fuzzy clustering algorithm, and use the concept of the approximate set and the lower approximation set on the rough set to obtain the similarity measure to improve the fuzzy clustering algorithm. Experiments show that the improved algorithm can get better clustering effect.
【Key words】: Rough set; Fuzzy clustering; Upper approximation; Lower approximation
聚類分析按照不同的標(biāo)準(zhǔn)有不同的劃分,按照數(shù)據(jù)樣本隸屬度的取值范圍劃分,可以將聚類分析方法分為兩類,一類叫硬聚類分析,另一類叫軟聚類分析,也叫模糊聚類分析。硬聚類是一種嚴(yán)格地劃分,旨在將每一個(gè)數(shù)據(jù)樣本劃分到一個(gè)確定的簇中,劃分機(jī)制非常明確,其隸屬度只有兩個(gè)值0和1,也就是說(shuō),一個(gè)樣本只能完全屬于某一個(gè)類或者完全不屬于某一個(gè)類。例如,將小于或者等于40歲的人劃分為年輕,大于40歲的人劃分為不年輕,那么不管是39歲還是9歲,都屬于年輕類,這就是典型的“硬隸屬度”概念,這種聚類方法過(guò)于嚴(yán)格,對(duì)于一些位于邊界處的數(shù)據(jù)對(duì)象不是很友好,容易產(chǎn)生誤差。軟聚類對(duì)于數(shù)據(jù)對(duì)象的劃分比較寬容,它是依據(jù)數(shù)據(jù)樣本隸屬度的大小,將其劃分到不同的簇。比如30歲,可能屬于年輕這類的隸屬度值為0.7,而屬于不年輕這個(gè)類的值為0.3,這樣劃分就比較合理。另外,當(dāng)隸屬度的值只取0或1時(shí),模糊聚類就變成了硬聚類。通過(guò)介紹,可以看到模糊聚類獲得的聚類結(jié)果具有不確定性,它將聚類結(jié)果進(jìn)行了模糊化,這樣就能夠?qū)ΜF(xiàn)實(shí)世界中的數(shù)據(jù)劃分問(wèn)題進(jìn)行更加客觀的描述,因此模糊聚類分析已成為聚類研究的主流方向之一。
本文算法結(jié)合了粗糙集[1-3]等理論,提出了基于粗糙集理論的模糊聚類算法。該算法是通過(guò)粗糙集理論最終得到一個(gè)隸屬值,然后,用表示的抑制率乘以非獲勝者所屬類簇的隸屬度值,以修改模糊隸屬度,從而在一定程度上增加獲勝者的隸屬度值。通過(guò)實(shí)驗(yàn)表明該算法能夠解決原始算法中的缺點(diǎn),并且還能提高聚類的準(zhǔn)確率和減少花費(fèi)的時(shí)間。
1.1模糊C均值聚類算法原理
模糊C均值聚類算法是目前應(yīng)用最廣泛的軟聚類[4-5]算法之一,該算法利用目標(biāo)函數(shù)來(lái)解決數(shù)據(jù)樣本的聚類問(wèn)題,把聚類的過(guò)程轉(zhuǎn)化成帶約束的優(yōu)化問(wèn)題,因此可以借助數(shù)學(xué)領(lǐng)域中經(jīng)典的非線性規(guī)劃理論對(duì)其進(jìn)行求解。
假設(shè)數(shù)據(jù)樣本集合,是樣本個(gè)數(shù),已知該數(shù)據(jù)集共有類,聚類任務(wù)就是希望把中的所有數(shù)據(jù)對(duì)象劃分到個(gè)類中,每個(gè)類都有一個(gè)唯一的聚類中心,聚類中心集合為。那么,模1糊C均值聚類算法可以表示為下面的數(shù)學(xué)規(guī)劃問(wèn)題:
(1)
且滿足:
(2)
其中,是數(shù)據(jù)樣本屬于某一類的隸屬度。隸屬度的值越大則說(shuō)明數(shù)據(jù)樣本屬于類的可能性越大,反之則可能性越小。是模糊劃分矩陣,從模糊劃分矩陣[6]-[8]中可以找到每個(gè)數(shù)據(jù)樣本相對(duì)于每個(gè)類簇的隸屬度值;樣本與第個(gè)類類中心的相似性大小,用歐氏距離計(jì)算,記為;是模糊權(quán)重指數(shù),也稱為模糊因子,改變它的取值能對(duì)模糊類之間的分享程度進(jìn)行調(diào)節(jié)。模糊聚類算法的聚類過(guò)程就是目標(biāo)函數(shù)公式(1)的求解過(guò)程。目標(biāo)函數(shù)中有兩個(gè)未知的量,分別是和,采用拉格朗日乘數(shù)法和求導(dǎo)公式對(duì)式(1)求解,可以得到下面的結(jié)果:
(3)
(4)
觀察上式可以發(fā)現(xiàn),與是相互關(guān)聯(lián)的,彼此包含對(duì)方。在模糊聚類算法開始的時(shí)候,通常人為賦值給或者其中的一個(gè),只要數(shù)值滿足約束條件即可,然后就可以根據(jù)公式開始迭代更新。例如,假設(shè)給賦值,有了就可以計(jì)算,得到后又可以根據(jù)此去計(jì)算新的,如此反反復(fù)復(fù)。在這個(gè)過(guò)程中,目標(biāo)函數(shù)J一直在變化,最后逐漸趨向穩(wěn)定值。那么,當(dāng)J不再變化的時(shí)候就認(rèn)為算法收斂到一個(gè)比較好的結(jié)果??梢钥吹?img alt="" height="23" src="file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml6628\wps65.png" width="18"/>和在目標(biāo)函數(shù)J下構(gòu)成了一個(gè)迭代更新的過(guò)程。
假設(shè)計(jì)算數(shù)據(jù)樣本中的樣本1到各個(gè)類中心的隸屬度,此時(shí)j=1,,在式(3)中,分母求和公式里的分子表示的是數(shù)據(jù)樣本1相對(duì)于某一類的類中心距離,而求和公式的分母是這個(gè)數(shù)據(jù)樣本1相對(duì)于所有類的類中心的距離的和,因此它們的商表示的就是數(shù)據(jù)樣本1到某個(gè)類中心的距離,在樣本1到所有類中心的距離和的比重。當(dāng)越小,說(shuō)明數(shù)據(jù)樣本屬于類的可能性越大,公式1的值就越大,對(duì)應(yīng)的就越大,數(shù)據(jù)樣本就越屬于這個(gè)類。
通過(guò)上述分析可以知道,當(dāng)類確定后,式4的分母求和是一個(gè)常數(shù),根據(jù)式(4)可以得到聚類中心的更新公式:
(5)
對(duì)于式(5)通俗的解釋就是,類確定后,將所有數(shù)據(jù)樣本點(diǎn)到該類的隸屬度求和,然后對(duì)每個(gè)點(diǎn),用其隸屬度除以這個(gè)和再乘以,就是這個(gè)點(diǎn)對(duì)于這個(gè)類的貢獻(xiàn)值。
1.2模糊C均值聚類算法步驟
模糊C均值聚類算法首先需要事先確定聚類[9-11]中心,再計(jì)算每個(gè)數(shù)據(jù)樣本屬于每個(gè)聚類中心的隸屬程度,得到一個(gè)隸屬度矩陣;然后根據(jù)隸屬度的大小對(duì)所有數(shù)據(jù)樣本進(jìn)行劃分,得到每個(gè)數(shù)據(jù)樣本的聚類情況,根據(jù)最新的劃分,再重新計(jì)算每個(gè)類的聚類中心。模糊C均值聚類的過(guò)程就是通過(guò)迭代聚類中心和隸屬度矩陣,直到算法收斂為止。
算法1-1??模糊C均值聚類算法
輸入:數(shù)據(jù)集
輸出:隸屬度矩陣和聚類中心
Step1:對(duì)參數(shù)進(jìn)行初始化。給定聚類數(shù)目;模糊因子m=2;隸屬度矩陣,并使其滿足式(2);=0,用來(lái)記錄迭代次數(shù);
Step2:根據(jù)式(6)更新聚類中心;
(6)
Step3:根據(jù)式(7)更新隸屬度矩陣;
定義3.2 ?給定一個(gè)論域和論域上的一個(gè)等價(jià)關(guān)系,模糊聚類過(guò)程中 產(chǎn)生的聚類結(jié)果構(gòu)成一個(gè)劃分,是與聚類中心劃分為一類的數(shù)據(jù)樣本的集合,則集合的上近似集為:
(10)
下近似集為:
(11)
邊界域?yàn)椋?/p>
(12)
集合的下近似集為:
(13)
上近似集為:
(14)
邊界域?yàn)椋?/p>
(15)
假設(shè)數(shù)據(jù)樣本集合,數(shù)據(jù)樣本個(gè)數(shù)為n,模糊聚類算法要將中的所有數(shù)據(jù)對(duì)象劃分到c個(gè)類中,每個(gè)類都有一個(gè)唯一的聚類中心,c個(gè)聚類中心的集合為。那么RS-SFC算法可以表示為下面的數(shù)學(xué)規(guī)劃問(wèn)題:
(16)
其中:
(17)
(18)
表示樣本屬于某一類i的隸屬度,參數(shù)和分別表示第i個(gè)簇的近似精度和粗糙度,滿足。
RS-SFC算法基于下近似集和邊界域的加權(quán)平均,定義了新的模糊質(zhì)心更新公式,使其同時(shí)考慮模糊隸屬度和上近似集、下近似集的影響。通過(guò)對(duì)求解式(16),得到新的模糊聚類中心計(jì)算公式為:
(19)
其中:
(20)
(21)
為提高聚類的速度,本文借鑒文獻(xiàn)[75]中提出到的抑制因子來(lái)提高RS-SFC算法的速度,抑制因子通過(guò)引入競(jìng)爭(zhēng)機(jī)制,在保持良好的聚類精度的同時(shí)以提高收斂速度。RS-SFC算法在每次迭代更新隸屬度矩陣后,對(duì)對(duì)象進(jìn)行抑制,步驟如下:
對(duì)于每個(gè)數(shù)據(jù)對(duì)象,在獲得其新的模糊隸屬度矩陣后,找到模糊隸屬度矩陣中最大的模糊隸屬度,并宣布第k個(gè)類為獲勝者,獲得了數(shù)據(jù)對(duì)象。這樣,每個(gè)數(shù)據(jù)對(duì)象都有一個(gè)屬于自己的類簇,且不依賴任何其他數(shù)據(jù)點(diǎn)。然后,用表示的抑制率乘以非獲勝者所屬類簇的隸屬度值,以修改模糊隸屬度,從而在一定程度上增加獲勝者的隸屬度值。因此,RS-SFC算法有以下隸屬度計(jì)算公式:
(22)
這些修改后的隸屬度值被用來(lái)計(jì)算新的聚類 ?中心。
2.2算法步驟
RS-SFC算法的過(guò)程是迭代更新公式(19)和公式(3)的過(guò)程,直到式(16)趨于穩(wěn)定,迭代停止。根據(jù)上述定義和分析,基于粗糙集的抑制模糊聚類算法的步驟如下:首先,隨機(jī)選擇C個(gè)數(shù)據(jù)對(duì)象作為C個(gè)簇的聚類中心,然后根據(jù)式(3)和(22)計(jì)算所有數(shù)據(jù)樣本的模糊隸屬度,根據(jù)每個(gè)樣本相對(duì)聚類中心的大小對(duì)數(shù)據(jù)樣本進(jìn)行劃分。根據(jù)得到的新的劃分,用式(19)更新聚類中心,然后再根據(jù)新的聚類中心求解新的隸屬度矩陣,如此循環(huán),當(dāng)聚類結(jié)果趨于穩(wěn)定后,該算法終止。
算法2-2 ?基于粗糙集的抑制模糊聚類算法
輸入:數(shù)據(jù)集
輸出:隸屬度矩陣和聚類中心
Step 1:初始化相關(guān)參數(shù)。給定聚類中心的個(gè)數(shù)c,設(shè)置模糊因子m=2.0,停止閾值,迭代計(jì)數(shù),初始化隸屬度矩陣,使其滿足約束條件;設(shè)置抑制因子(0<<1);
Step 2:根據(jù)隸屬度矩陣,使用式(4.19)計(jì)算聚類中心;
Step 3:根據(jù)式(4.3)、(4.22)更新隸屬度矩陣,迭代計(jì)數(shù);
Step 4:如果,則算法終止;否則轉(zhuǎn)至Step 2。
本節(jié)將通過(guò)實(shí)驗(yàn)對(duì)RS-SFC算法進(jìn)行研究。首先對(duì)實(shí)驗(yàn)中所用數(shù)據(jù)集進(jìn)行描述,并對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理;然后將RS-SFC算法同其他兩個(gè)常用的聚類算法進(jìn)行比較,以分析該算法的有效性。最后在對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析的基礎(chǔ)上,總結(jié)RS-SFC算法的優(yōu)缺點(diǎn),為以后的研究指明方向。
本次實(shí)驗(yàn)一共分為兩部分,一是測(cè)試本文提出RS-SFC算法的聚類效果。將該算法與模糊C均值聚類算法、K-means聚類算法同時(shí)應(yīng)用在8個(gè)數(shù)據(jù)集上,并計(jì)算每個(gè)數(shù)據(jù)集的準(zhǔn)確率、F1值和互信息,以對(duì)聚類效果進(jìn)行對(duì)比;二是測(cè)試RS-SFC算法的收斂速度。分別記錄RS-SFC算法和模糊C均值聚類算法在對(duì)數(shù)據(jù)集進(jìn)行聚類時(shí)的迭代次數(shù)。每個(gè)算法運(yùn)行30次,最后取平均值。模糊C均值聚類算法在上文中已有介紹,K-means聚類算法是在現(xiàn)實(shí)生活中應(yīng)用十分廣泛的聚類算法,它是一種基于距離的聚類方法,具體描述見參考文獻(xiàn)。
3.1數(shù)據(jù)集描述
由于本實(shí)驗(yàn)需要計(jì)算聚類準(zhǔn)確率,以對(duì)算法的聚類效果進(jìn)行分析,因此實(shí)驗(yàn)中采用帶有屬性標(biāo)簽的數(shù)據(jù)集。實(shí)驗(yàn)中所用到的數(shù)據(jù)集的信息如表1所示,其中包含經(jīng)典的人工數(shù)據(jù)集和UCI上的真實(shí)數(shù)據(jù)集。這些數(shù)據(jù)集在屬性數(shù)量、類簇?cái)?shù)量上有一定的區(qū)分度。
在進(jìn)行聚類之前,先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。使用本文第三章中提出的MIMR屬性約簡(jiǎn)算法,對(duì)表1中的數(shù)據(jù)集進(jìn)行屬性約簡(jiǎn),以剔除數(shù)據(jù)集中沒有用的列,減少數(shù)據(jù)集的規(guī)模。經(jīng)過(guò)屬性約簡(jiǎn)后,得到表2所示的實(shí)驗(yàn)數(shù)據(jù)集。
3.2評(píng)價(jià)指標(biāo)
本文通過(guò)計(jì)算聚類結(jié)果的準(zhǔn)確率(Accuracy),F(xiàn)-measure和互信息(NMI),來(lái)評(píng)價(jià)聚類結(jié)果的質(zhì)量,通過(guò)算法迭代次數(shù)評(píng)價(jià)收斂速度。
聚類結(jié)果的準(zhǔn)確率類定義如下:
(23)
其中,為數(shù)據(jù)集類簇的數(shù)量,表示正確分類到類中的樣本數(shù)量,為全體數(shù)據(jù)樣本。
F-measure又稱F-score:
(24)
其中,,表示屬于類簇但被錯(cuò)誤分類到其它簇的樣本數(shù)量。當(dāng)參數(shù)取1時(shí),就是常見的F1值。
標(biāo)準(zhǔn)化互信息是描述變量之間相互依賴性大小的度量。
(25)
其中,和表示隨機(jī)變量,它們之間的互信息定義如下:
(26)
和分別表示X與Y的熵:
(27)
(28)
3.3實(shí)驗(yàn)結(jié)果及分析
3.3.1??聚類效果比較
為了驗(yàn)證本文提出的RS-SFC算法的有效性,將RS-SFC算法與模糊C均值算法和K-means聚類算法進(jìn)行對(duì)比。為了評(píng)價(jià)算法的聚類效果,實(shí)驗(yàn)對(duì)每個(gè)數(shù)據(jù)集在三個(gè)算法上取得的聚類結(jié)果的準(zhǔn)確率、F1值和互信息進(jìn)行了比較。每個(gè)算法在每個(gè)數(shù)據(jù)集上一共運(yùn)行30次,最后取平均值。
(1)聚類準(zhǔn)確率比較
表3是三種算法在數(shù)據(jù)集上取得的聚類結(jié)果準(zhǔn)確率,每個(gè)表的最后一行是這8個(gè)數(shù)據(jù)集獲得的平均值。表中加黑的單元格數(shù)據(jù)表示這一行中的最 ?優(yōu)值。
從準(zhǔn)確率的平均值來(lái)看,本文的RS-SFC算法在這8個(gè)數(shù)據(jù)集上取得的準(zhǔn)確率最高,比K-means算法和模糊C均值算法都有明顯的提高。為了更直觀的比較三個(gè)算法的優(yōu)劣,將表3用折線圖進(jìn)行展示,如圖2所示。
從單個(gè)數(shù)據(jù)集來(lái)看,K-MEANS聚類算法對(duì)于Dp1數(shù)據(jù)集的聚類結(jié)果最差,模糊C均值和RS-SFC算法在Dp1數(shù)據(jù)集上都取得了很高的聚類準(zhǔn)確率;
對(duì)于wine數(shù)據(jù)集來(lái)說(shuō),K-means算法取得了最高的準(zhǔn)確率,本文的RS-SFC算法雖然沒有取得最大值,但是比K-means算法的準(zhǔn)確率僅低3.4%,并且仍然高于模糊C均值算法。在hepatitis數(shù)據(jù)集上,三個(gè)算法的準(zhǔn)確率都不高,沒有超過(guò)80%。通過(guò)分析發(fā)現(xiàn),hepatitis數(shù)據(jù)集是一個(gè)不平衡性數(shù)據(jù)集,準(zhǔn)確率評(píng)價(jià)指標(biāo)在數(shù)據(jù)劃分相對(duì)平衡的數(shù)據(jù)集上,能夠更好的說(shuō)明聚類效果。在其他幾個(gè)數(shù)據(jù)集上,RS-SFC算法都能得到較高的準(zhǔn)確率,尤其在類簇?cái)?shù)量比較多的數(shù)據(jù)集上取得了不錯(cuò)的表現(xiàn),如glass數(shù)據(jù)集和Heart-disease數(shù)據(jù)集。綜上所述,RS-SFC算法的聚類準(zhǔn)確率遠(yuǎn)于其他兩個(gè)對(duì)比算法相比,具有明顯的優(yōu)勢(shì)。
(2)F1值比較
表4和圖3展示的三個(gè)算法聚類結(jié)果的F1值。在表4中,最后一行是對(duì)每一列數(shù)據(jù)求均值得到的平均數(shù)。表中加黑的單元格數(shù)據(jù)表示這三個(gè)算法在同一個(gè)數(shù)據(jù)集上取得的最優(yōu)值。F1值評(píng)價(jià)指標(biāo)在評(píng)價(jià)聚類效果時(shí)更加全面,它不僅考慮了聚類結(jié)果的準(zhǔn)確率,還考慮了召回率,因而能夠更好的描述不平衡數(shù)據(jù)的聚類效果。
由表4和圖3可發(fā)現(xiàn),RS-SFC算法在數(shù)據(jù)集glass和heart-disease上得到的F1值要明顯的大于另外兩個(gè)算法,這個(gè)數(shù)據(jù)集的聚類數(shù)目分別是7和5,這說(shuō)明RS-SFC算法在類簇?cái)?shù)較多的數(shù)據(jù)集上也可以取得理想的效果。對(duì)于wine數(shù)據(jù)集來(lái)說(shuō),盡管K-means算法得到最高的F1值,但是在兩個(gè)軟聚類算法中,RS-SFC算法的F1值仍然高于模糊C均值算法。此外,在haberman數(shù)據(jù)集上,模糊C均值算法的F1值略高于其他兩個(gè)算法,但是相差不大。
整體上來(lái)看,RS-SFC算法在8個(gè)數(shù)據(jù)集上得到的平均F1值高于另外兩個(gè)算法,并且在四分之三的數(shù)據(jù)集中取得了最大值,這證明了RS-SFC算法的有效性和穩(wěn)定性。
(3)標(biāo)準(zhǔn)互信息比較
標(biāo)準(zhǔn)互信息(NMI)可以衡量?jī)蓚€(gè)變量的之間的相關(guān)性,是一種常見的評(píng)價(jià)聚類效果的指標(biāo)。在本章的實(shí)驗(yàn)里,用標(biāo)準(zhǔn)互信息來(lái)衡量數(shù)據(jù)樣本的實(shí)際類別與聚類結(jié)果是否一致。
標(biāo)準(zhǔn)互信息的值域是(0,1),對(duì)于聚類算法來(lái)說(shuō),聚類效果越好,其值越接近于1,否則越接近0。圖4是根據(jù)表5所作的三個(gè)算法在8個(gè)數(shù)據(jù)集上得到的互信息折線圖。
從圖4可以發(fā)現(xiàn),RS-SFC算法求得的標(biāo)準(zhǔn)互信息的平均值要高于另外兩個(gè)算法。從單個(gè)數(shù)據(jù)集來(lái)看,在wine數(shù)據(jù)集上,與準(zhǔn)確率和FI一樣,K-means算法的效果更好,但是在兩個(gè)軟聚類算法中,RS-SFC算法的標(biāo)準(zhǔn)互信息值較模糊C均值算法仍然有小幅度的提升。此外,在維度比較高的兩個(gè)數(shù)據(jù)集breast和Heart-disease上,本章的RS-SFC算法較另外兩個(gè)算法仍有較大幅度的提升。在其他數(shù)據(jù)集上,RS-SFC算法相對(duì)于另外兩個(gè)算法也有小幅度的提升。
綜合三個(gè)評(píng)價(jià)指標(biāo)可以發(fā)現(xiàn),本章提出的RS-SFC算法和模糊C均值算法在wine數(shù)據(jù)集上的表現(xiàn)較差,略遜色于K-means算法。這是由于K-means聚類算法屬于硬聚類算法,當(dāng)一個(gè)數(shù)據(jù)集中,屬于同一個(gè)簇的數(shù)據(jù)樣本相似度很高,而屬于不同簇的數(shù)據(jù)樣本相似度明顯小的時(shí)候,這類算法具有明顯的優(yōu)勢(shì)。但對(duì)于噪聲樣本比較多、簇與簇之間邊界不清晰的數(shù)據(jù)集來(lái)說(shuō),RS-SFC算法則更加適用。另外,通過(guò)實(shí)驗(yàn)可知,?RS-SFC算法在實(shí)驗(yàn)中的大多數(shù)數(shù)據(jù)集上聚類效果都優(yōu)于對(duì)比算法,證明了RS-SFC算法的有效性。
3.3.2??迭代次數(shù)比較
在RS-SFC算法中,設(shè)置了一個(gè)抑制因子來(lái)加快算法的迭代速度。為了驗(yàn)證該算法在收斂速度上是否有所提高,實(shí)驗(yàn)中將RS-SFC算法和模糊C均值算法的最終迭代次數(shù)進(jìn)行比較。實(shí)驗(yàn)中為抑制因子設(shè)置了不同值,記錄了在不同的抑制因子下,RS-SFC算法和模糊C均值算法的迭代次數(shù)。
實(shí)驗(yàn)結(jié)果如表6所示。
通過(guò)上表很明顯的可以看出,RS-SFC算法的迭代次數(shù)明顯少于模糊C均值聚類算法,且隨著抑制因子的增大,迭代次數(shù)也逐漸增多,驗(yàn)證了RS-SFC算法在收斂速度上優(yōu)于模糊C均值算法。
本章首先介紹了模糊聚類的有關(guān)概念,對(duì)模糊C均值聚類算法的原理進(jìn)行了解釋,描述了模糊C均值算法的算法步驟;然后將粗糙集理論引入到模糊C均值算法中,根據(jù)粗糙集理論中上、下近似集的思想,將模糊C均值算法中的聚類中心更新公式進(jìn)行了改進(jìn),降低了簇邊緣噪聲數(shù)據(jù)對(duì)聚類效果影響,同時(shí)設(shè)置了一個(gè)抑制因子以提高算法的收斂速度,提出了一種基于粗糙集的抑制模糊聚類算法;最后通過(guò)實(shí)驗(yàn),在多個(gè)數(shù)據(jù)集上對(duì)RS-SFC算法進(jìn)行了驗(yàn)證。
參考文獻(xiàn)
[1]?王國(guó)胤, 姚一豫, 于洪. 粗糙集理論與應(yīng)用研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2009, 32(07): 1229-1246.
[2]?苗奪謙, 張清華, 錢宇華, 梁吉業(yè), 王國(guó)胤, 吳偉志, 高陽(yáng), 商琳, 顧沈明, 張紅云. 從人類智能到機(jī)器實(shí)現(xiàn)模型——粒計(jì)算理論與方法[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(06): 743-757.