逄琳 劉方愛
摘 要:針對傳統(tǒng)的聚類算法對數(shù)據(jù)集反復聚類,且在大型數(shù)據(jù)集上計算效率欠佳的問題,提出一種基于層次劃分的最佳聚類數(shù)和初始聚類中心確定算法——基于層次劃分密度的聚類優(yōu)化(CODHD)。該算法基于層次劃分,對計算過程進行研究,不需要對數(shù)據(jù)集進行反復聚類。首先,掃描數(shù)據(jù)集獲得所有聚類特征的統(tǒng)計值;其次,自底向上地生成不同層次的數(shù)據(jù)劃分,計算每個劃分數(shù)據(jù)點的密度,將最大密度點定為中心點,計算中心點距離更高密度點的最小距離,以中心點密度與最小距離乘積之和的平均值為有效性指標,增量地構建一條關于不同層次劃分的聚類質量曲線;最后,根據(jù)曲線的極值點對應的劃分估計最佳聚類數(shù)和初始聚類中心。實驗結果表明,所提CODHD算法與預處理階段的聚類優(yōu)化(COPS)算法相比,聚類準確度提高了30%,聚類算法效率至少提高14.24%。所提算法具有較強的可行性和實用性。
關鍵詞:聚類算法;層次劃分;最佳聚類數(shù);初始聚類中心;聚類有效性指標
中圖分類號: TP301.6 文獻標志碼:A英文標題