袁桂蓉
摘 要:本文將一種混合模糊聚類算法應(yīng)用于農(nóng)業(yè)產(chǎn)業(yè)分析,表明這種混合模糊聚類法比傳統(tǒng)FCM方法更切合實際,收斂速度更快,且不用人為給定聚類類別數(shù),不容易受初始化的影響。
關(guān)鍵詞:混合模糊聚類;F-統(tǒng)計量
現(xiàn)有的模糊聚類算法都是以某種準則來評價一個已給定劃分的特性的,有些聚類算法只能對某種分布數(shù)據(jù)聚類效果較好,對其它分布的數(shù)據(jù)聚類效果則很差。許多聚類算法是根據(jù)歐氏距離和Manhattan距離來進行聚類的,基于這類距離的聚類方法一般只能發(fā)現(xiàn)具有類似大小和密度的圓形或球狀聚類,既需要提供參數(shù)—聚類數(shù)目,而且對非球狀或橢球型分布的數(shù)據(jù)集聚類效果不理想。本文將提出的一種混合模糊聚類算法應(yīng)用于我國的農(nóng)業(yè)產(chǎn)業(yè)分析,以此證明因而需要設(shè)計一種好的聚類算法來提高算法的自主性和適應(yīng)性,減少用戶的參與。
一、農(nóng)業(yè)生產(chǎn)值的混合模糊聚類分析
根據(jù)衡量農(nóng)業(yè)生產(chǎn)值的指標體系:農(nóng)業(yè)、林業(yè)、牧業(yè)、漁業(yè),以我國31個省市自治區(qū)作為研究對象,對這31個省市自治區(qū)2007年農(nóng)業(yè)各生產(chǎn)值的數(shù)據(jù)進行混合模糊聚類分析,以此來研究我國農(nóng)業(yè)發(fā)展情況。
設(shè)論域,每一對象,于是可以得到原始數(shù)據(jù)矩陣。為了保證不同量綱的數(shù)據(jù)具有可比性,將原始數(shù)據(jù)矩陣統(tǒng)一趨勢化,得到無量綱矩陣,
其中
表示四分位極差。
按照普通的聚類方法中相似系數(shù)確定方法,建立模糊相似矩陣,與的相似程度 用海明距離來度量
其中c=0.1。
再利用傳遞閉包法得到模糊等價矩陣,然后將模糊等價矩陣依次取截集,得到一系列分類,從而得到每一個截集對應(yīng)的分類結(jié)果的F-統(tǒng)計量,見表1.1。
當(dāng)=0.73時,所有樣本歸為一類;≥0.90時,31個樣本所歸的類數(shù)r≥13,明顯都不是理想的結(jié)果。當(dāng)=0.79時,F(xiàn)=7.7564為最大,此時將樣本分為3類,且根據(jù)經(jīng)驗,分為三類比較合理,故接下來的FCM聚類的類別數(shù)c=3。
第一類:{北京、天津、山西、內(nèi)蒙古、遼寧、吉林、黑龍江、上海、江蘇、浙江、安徽、福建、江西、湖北、湖南、廣東、廣西、海南、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏、新疆};
第二類:{河北、河南、四川};
第三類:{山東}。
采用Matlab7.0編程后,調(diào)用函數(shù)fcmfun得到
迭代次數(shù)為23次,最終的目標函數(shù)值 。
由此得混合模糊聚類分析的結(jié)果為:
第一類:{北京、天津、山西、內(nèi)蒙古、吉林、上海、海南、重慶、貴州、西藏、陜西、甘肅、青海、寧夏、新疆};
第二類:{河北、黑龍江、安徽、江西、河南、湖南、廣西、四川、云南};
第三類:{遼寧、江蘇、浙江、福建、山東、湖北、廣東};
比較發(fā)現(xiàn),混合模糊聚類分析的結(jié)果比單獨用傳遞閉包法分類要合理得多,傳遞閉包法分為三類的時候只將河北、河南、四川、山東分離出來,其余都歸為一類,過于籠統(tǒng)。而混合模糊聚類分析法將注重農(nóng)牧業(yè)的河北、黑龍江、安徽、江西、河南、湖南、廣西、四川、云南歸為一類;將土地肥沃、資源豐富的沿海沿湖地區(qū)遼寧、江蘇、浙江、福建、山東、湖北、廣東劃為一類,在這些地區(qū)農(nóng)牧漁業(yè)都是重要的農(nóng)業(yè)經(jīng)濟命脈,分類結(jié)果完全符合實際情況。
為了表明混合模糊聚類分析的優(yōu)越性,本文通過Matlab提供的模糊 均值聚類程序?qū)@組數(shù)據(jù)進行分類,在迭代48次后聚類目標函數(shù)的誤差才達到0.00001。
對比可知,這種混合模糊聚類法比傳統(tǒng)FCM方法更切合實際,收斂速度更快,且不用人為給定聚類類別數(shù),不容易受初始化的影響。
二、結(jié)論
本文將混合模糊聚類算法應(yīng)用于我國的農(nóng)業(yè)產(chǎn)業(yè)分析,先利用傳遞閉包法得到一系列分類,再引入F-統(tǒng)計量,根據(jù)F-統(tǒng)計值的大小確定一種分類,以最大的F-統(tǒng)計值對應(yīng)的一種分類的類數(shù)作為FCM聚類的類別數(shù)c,以這種分類的聚類中心作為FCM算法的初始聚類中心。通過實例應(yīng)用和比較分析,說明此方法能夠反映出原始數(shù)據(jù)的真實特性,真正達到聚類分析的無監(jiān)督性;同時也降低了由于人為因素造成的不確定性影響,增強了聚類結(jié)果的準確性和可信度。
參考文獻:
[1]王洪春,彭宏.一種基于熵的聚類算法[J].計算機科學(xué),2007,34(11):178-179.
[2]CROSS G R, JAIN A K.Measurement of clustering tendency[C]//IFAC Symposium on Digital Control. New Delhi: [s. n. ],1982:24-29.