李清 沈彤 關(guān)毅
摘要: 針對大規(guī)模日志數(shù)據(jù)的聚類問題,提出了DBk-means算法。該算法使用Hadoop對原始日志數(shù)據(jù)進行預處理,并結(jié)合了k-means和DBSCAN聚類算法各自的優(yōu)勢。實驗結(jié)果表明,相比k-means算法進行聚類分析,文中使用DBk-means算法進行聚類,能夠取得更好的聚類效果,正確率可以達到83%以上。
關(guān)鍵詞:
中圖分類號:TP391文獻標識碼:A文章編號:2095-2163(2012)05-0042-04