【摘要】模糊聚類分析是以相似性為基礎(chǔ),主要用于研究樣本的分類問題。在模糊聚類的基礎(chǔ)上,提出了通過構(gòu)造最優(yōu)(劣)樣本,分別計算各類樣本與最優(yōu)(劣)樣本的相似系數(shù),根據(jù)與最優(yōu)(劣)樣本最相似者為最優(yōu)(劣)原則,確定聚類結(jié)果優(yōu)劣次序,從而使之具有綜合評價功能,并通過車內(nèi)空氣質(zhì)量的綜合評價驗證了應(yīng)方法的實用性。
【關(guān)鍵詞】模糊聚類、構(gòu)造、最優(yōu)(劣)、綜合評價
Abstract: Fuzzy clustering analysis based on similarity, and mainly was used for sample classification. In this paper, by fuzzy clustering to construct optimal (poor) samples, and then calculate the similarity between various samples and optimal (poor) samples. Finally,according to this similarity to evaluate the order of clustering results.
Key words: fuzzy clustering, construct, optimal (poor), comprehensive evaluation
1模糊聚類分析的基本原理[1-5]
模糊聚類是采用模糊數(shù)學方法,依據(jù)客觀事物間的特征、親疏程度和相似性, 通過建立模糊相似關(guān)系,并在此基礎(chǔ)上根據(jù)一定的隸屬度來確定分類關(guān)系,也就是用模糊數(shù)學的方法把樣本之間的模糊關(guān)系(相似性)加以定量的確定,從而客觀且準確地進行分類。其一般過程為:對于給定論域(需聚類的樣本集),采用平移極差變換對原始數(shù)據(jù)進行標準化,然后利用距離系數(shù)或相似系數(shù)建立模糊相似矩陣(模糊相似關(guān)系)R,因為如此建立的模糊相似關(guān)系一般不具有傳遞性,通常用傳遞閉包法將其改造成模糊等價關(guān)系,稱為R的傳遞閉包t(R),然后在適當?shù)乃溅松辖厝(R),得到普通等價關(guān)系Rλ,從而實現(xiàn)分類。不同的水平λ決定了不同的普通等價關(guān)系,從而也決定了不同的分類結(jié)果。
由于現(xiàn)實的分類過程往往伴隨著模糊性,所以用模糊聚類的方法來進行聚類分析會顯得更自然、更符合客觀實際。
2基于模糊聚類的綜合評價方法
由上述,模糊聚類分析主要用于研究樣本的聚類,根據(jù)樣本之間的相似性,把最相似的樣本聚成一類。然而現(xiàn)實情況下,僅僅知道樣本的分類是不夠的,還需要知道不同類之間的優(yōu)劣等次,并給出評價。
模糊聚類過程中,為了確定各個樣本之間的關(guān)系,通常采用距離d或相似系數(shù)來表示樣本之間的接近程度[6],距離d越小兩樣本越接近;或者,相似系數(shù)越接近1兩個樣本越相似?;诖?,在聚類的基礎(chǔ)上,我們構(gòu)造一個最優(yōu)(劣)樣本,該樣本的各項指標為論域中所有樣本相應(yīng)指標的最優(yōu)(劣)值(通常就是最大值),然后考查聚類結(jié)果中各類與最優(yōu)(劣)樣本的相似性,根據(jù)與最優(yōu)(劣)樣本最相似者為最優(yōu)(劣)原則,從而確定聚類結(jié)果的優(yōu)劣等次的評價。
3基于模糊聚類的綜合評價方法的一般步驟
步驟1 確定論域,并構(gòu)造最優(yōu)(劣)樣本
步驟2 原始數(shù)據(jù)標準化
步驟3 建立模糊相似關(guān)系
步驟4 計算傳遞閉包并聚類
步驟5 比較聚類結(jié)果與最優(yōu)(劣)樣本的相似性,完成評價
4車內(nèi)空氣質(zhì)量的綜合評價
4.1 確定論域并構(gòu)造最優(yōu)(劣)樣本
隨著家用汽車消費的快速增長,汽車室內(nèi)空氣質(zhì)量(污染)問題也越來越引起人們關(guān)注,車內(nèi)空氣污染物主要是由甲醛、苯、TVOC(總揮發(fā)性有機化合物)等對人體有害物質(zhì)構(gòu)成,各污染物的濃度可由相關(guān)專業(yè)機構(gòu)檢測,在目前國內(nèi)尚無車內(nèi)空氣污染物濃度限值標準的情況下,對各種不同車型、車輛的車內(nèi)空氣污染水平作一科學合理的分類、評價將是有意義的。
選擇10輛家用小汽車,要求使用時間在3個月以內(nèi),且行駛里程在12000公里以內(nèi),沒有經(jīng)過內(nèi)飾改裝或除甲醛等處理,車輛使用者無在車內(nèi)吸煙等習慣,平時沒有裝載其他會增加或減少車輛異味的物品。在外部空氣質(zhì)量和天氣狀況良好,室外溫度20-30℃的情況下檢測其車內(nèi)空氣中甲醛、苯、TVOC的濃度,選取樣本的原始檢測數(shù)據(jù)如下表:
從而得到十輛汽車車內(nèi)空氣污染分類為C1={1,5,7},C2={2},C3={3,6,10},C4={4,9},C5={8}。
4.5 綜合評價
上述聚類結(jié)果說明當相似水平為λ=0.983,表1中汽車{1,5,7}車內(nèi)空氣質(zhì)量相似,其特點是車內(nèi)空氣中甲醛、苯、TVOC的濃度都較高;{3,6,10}相似,車內(nèi)苯的濃度較低但甲醛和TVOC的濃度都較高;{4,9}相似,車內(nèi)甲醛、苯、TVOC的濃度都較低;而{2}甲醛、苯、TVOC的濃度都高,{8}甲醛、苯濃度較低而TVOC的濃度稍高于第三類。
計算上述各類中心(使用標準化的數(shù)據(jù))如下:
C1={0.667,0.719,0.771},C2={1,0.94,0.063},C3={0.667,0.925,0.313},C4={0,0.043,0.668},C5={0,0.569,0}。
再計算類 C1,C2,C3,C4,C5 與最劣樣本{1,1,1}的相似系數(shù)(仍用夾角余弦法),分別為:0.9982,0.8415,0.930,0.6122,0.5774。從而可知車內(nèi)空氣質(zhì)量的優(yōu)劣等次為C5,C4,C2,C3,C1。即類C1車內(nèi)空氣質(zhì)量綜合評價最差,污染最嚴重;而類C5車內(nèi)空氣質(zhì)量綜合評價最好,即污染最輕。
5結(jié)束語
模糊聚類分析是基于樣本之間的相似性,將最相似的樣本聚成一類。但不能直接實現(xiàn)傳統(tǒng)意義的名次排序。通過構(gòu)造最優(yōu)(劣)樣本,根據(jù)與最優(yōu)(劣)樣本最相似者為最優(yōu)(劣)原則,可以確定各類的優(yōu)劣名次。本文的應(yīng)用實例說明該方法無需依賴其他先驗信息,只需根據(jù)評價對象指標數(shù)據(jù)就可得出對象的分類和評價結(jié)果,具有一般意義。
參考文獻
[1]高新波 模糊聚類分析及其應(yīng)用[M].西安電子科技大學出版社,2004.
[2]羅蘭星 基于基于傳遞閉包法的西南5城市環(huán)境質(zhì)量評價分析[J].上海理工大學學報,31(3)2009:303-306
[3]馮梅 基于模糊聚類分析的教師課堂教學質(zhì)量評價[J].學的實踐與認識,2008,38(2):12-15.
[4]張秀梅,王 濤 模糊聚類分析方法在學生成績評價中的應(yīng)用[J] 渤海大學學報(自然科學版) 28(2) 2007.6:169-172
[5]張東生,季超等.基于模糊聚類的考試分析方法[J].電腦知識與技術(shù)5(33), 2009.11:9579-9580,9590
[6]邵峰晶 于忠清等 數(shù)據(jù)挖掘原理與算法(第二版) [M] 科學出版社2008:181-182
作者簡介:趙建文(1970--)男,浙江仙居人,浙江師范大學幼兒師范學院講師,主要從事應(yīng)用數(shù)學,數(shù)據(jù)挖掘教學與研究。