徐德剛,徐戲陽,陳 曉,趙盼磊,蘇志芳,謝永芳,陽春華
(中南大學 信息科學與工程學院,湖南 長沙 410083)
?
基于Minkowski距離的一致聚類改進算法及應(yīng)用研究*
徐德剛,徐戲陽,陳曉,趙盼磊,蘇志芳?,謝永芳,陽春華
(中南大學 信息科學與工程學院,湖南 長沙410083)
摘要:針對一致聚類算法中聚類數(shù)目判斷不準確、聚類速度慢等問題,通過集成復雜網(wǎng)絡(luò)中的Newman貪婪算法與譜聚類算法,提出了一種新的基于Minkowski距離的一致聚類算法.該算法利用Minkowski距離刻畫樣本間的相似度,根據(jù)隨機游走策略,結(jié)合不同數(shù)據(jù)的特征值分布分析方法進行聚類,實現(xiàn)聚類數(shù)目的自動識別.實驗仿真說明算法具有較少的運算時間及較高的聚類精度.結(jié)合實際銅礦泡沫浮選過程特點,將該算法應(yīng)用于浮選工況分類,進一步驗證了算法的有效性.
關(guān)鍵詞:一致聚類;Minkowski距離;一致矩陣;聚類數(shù)目;工況識別
聚類分析作為一種有效的數(shù)據(jù)處理方法,在復雜工業(yè)工程中得到了廣泛關(guān)注.近年來涌現(xiàn)出了多種聚類分析方法,包括層次聚類算法[1,2]、劃分式聚類算法(如K-modes-Huang算法[3]等)、基于網(wǎng)格和密度的聚類算法(如網(wǎng)格密度等值線聚類算法[4]、基于移位網(wǎng)格概念的密度和網(wǎng)格的聚類算法SGC[5])等.這些聚類方法在多個領(lǐng)域得到廣泛應(yīng)用,其理論也得到不斷的豐富和發(fā)展.
但是對不同結(jié)構(gòu)特征的數(shù)據(jù)進行聚類分析時,現(xiàn)有的聚類方法遇到了難題,如相似度矩陣的選取問題﹑聚類數(shù)目的自動確定等.而一致聚類方法的提出[6,7],成為解決聚類問題的一種重要分析方法.該方法也稱作聚類集成或劃分算法,即針對某一特定的數(shù)據(jù)獲得多種數(shù)目的不同聚類結(jié)果,并從中選取最能反映聚類信息的類別.在確定聚類數(shù)目方面,一致聚類方法具有特色,并為基因微陣數(shù)據(jù)﹑文本數(shù)據(jù)等聚類問題的解決提供了很好的思路[8-10].由于聚類過程中聚類數(shù)目的判斷標準不盡相同,適用的領(lǐng)域也不同,其中最具有代表性的兩種一致聚類方法是結(jié)合重采樣或交叉驗證等技術(shù)的一致聚類方法[9]和基于迭代的一致聚類方法[11].但這兩種一致聚類算法也存在聚類數(shù)目識別不準確等問題,主要是源于其重采樣方法中最優(yōu)的采樣次數(shù)及迭代方法中的迭代次數(shù)不能有效且最優(yōu)設(shè)定.
本文提出了一種新的基于Minkowski距離的一致聚類分析方法,充分利用數(shù)據(jù)特征分布特點,自動識別聚類的數(shù)目,從而解決一致聚類中數(shù)目不能自動設(shè)定的問題.通過Minkowski距離優(yōu)化調(diào)節(jié)一致矩陣參數(shù),能夠在不同的度量下獲得有效的聚類結(jié)果,且由于算法本身機制集成了多種聚類算法,該法還具備一定的魯棒性.仿真結(jié)果表明本文算法在聚類數(shù)目的確定精度和準確度上優(yōu)于其他一致聚類算法.
當前銅礦泡沫浮選過程生產(chǎn)環(huán)境惡劣且長期依靠人工肉眼現(xiàn)場監(jiān)測,受到工人主觀經(jīng)驗影響,易導致浮選工況操作波動異常,引起浮選藥劑等資源和能源的浪費.隨著計算機技術(shù)、圖像處理技術(shù)、智能控制等領(lǐng)域的迅速發(fā)展,機器視覺技術(shù)在礦物泡沫浮選領(lǐng)域得到越來越廣泛的應(yīng)用,為浮選生產(chǎn)過程提供豐富的實時監(jiān)控信息[12-13].
通過視覺圖像系統(tǒng)及液位、壓力等工藝參數(shù)傳感器測量,浮選生產(chǎn)現(xiàn)場積累了大量反映礦物生產(chǎn)狀態(tài)的泡沫圖像數(shù)據(jù)和生產(chǎn)操作信息,如何有效地分析和利用這些數(shù)據(jù)對浮選過程工況的分類、識別及過程調(diào)控具有重要意義.為此,本文提出了基于Minkowski距離的一致聚類分析方法,并應(yīng)用到銅礦泡沫浮選過程工況的判別,取得了較好的聚類效果,有助于實現(xiàn)生產(chǎn)實時工況的自動判別.
1一致聚類方法
常規(guī)聚類分析過程中,由于單一的聚類算法無法獲得對所有數(shù)據(jù)的最優(yōu)聚類結(jié)果,融合多種聚類算法的一致聚類方法引起研究人員的關(guān)注.一致聚類具體算法流程如圖1所示.
圖1 一致聚類框圖
利用聚類算法集成的一致聚類方法的出發(fā)點主要通過進行多次采樣或結(jié)合多種聚類算法對數(shù)據(jù)進行分析,獲得反映數(shù)據(jù)類別信息的一致矩陣,從而進行數(shù)據(jù)的劃分.一致聚類算法已在基因數(shù)據(jù)分析及文本聚類分析等應(yīng)用中取得了較好的效果[11,14].當前一致聚類主要有兩類算法:基于重采樣的一致聚類方法和基于迭代的一致聚類分析方法.
1.1基于重采樣的一致聚類方法
基于重采樣的一致聚類方法輸入:樣本數(shù)據(jù)D={e1,e2,…,eN}聚類方法:譜聚類方法重采樣比例:80%,采樣次數(shù)H聚類數(shù)目集合K輸出:聚類數(shù)目For k∈{1,2,length(K)} for h∈{1,2,…,H}重采樣獲得采樣數(shù)據(jù)集D(h)進行聚類數(shù)目為k的譜聚類分析獲得一致矩陣M(h)M(k)=M(k)∪M(h) endEnd獲得M(k)對應(yīng)的CDF曲線及其面積變化量Δ(k),k∈{1,2,…,length(K)}根據(jù)曲線變化及Δ(k)判斷準則獲得最終聚類數(shù)目
結(jié)合重采樣或交叉驗證等技術(shù)來模擬原始數(shù)據(jù)的擾動,該法是通過多次運行某一聚類算法(例如隨機選取起始點的K-means或基于模型的貝葉斯聚類方法等)來獲得類別穩(wěn)定性,提供了一種可視化的途徑來觀察類別數(shù)目﹑類別成員以及類別邊界等信息[13].
大量實驗表明,盡管該方法適合基因表達數(shù)據(jù)的聚類[9],但對其他類別聚類效果不佳,其原因為:重采樣隨機采樣大部分樣本,采樣次數(shù)以及采樣比例對算法影響大;基于重采樣的一致聚類分析方法中確定聚類數(shù)目的準則不統(tǒng)一,算法中Δ(k)為不同聚類數(shù)目下CDF曲線與橫軸包圍面積的變化量,其最大值對應(yīng)最終的聚類數(shù)目,將Δ(k)變化值作為判斷聚類數(shù)目的標準不確定.針對這些問題,一些學者提出了基于迭代的一致聚類方法[11].
1.2基于迭代的一致聚類分析方法
該方法遵循一致聚類方法的基本思路,不同之處在于不需要對樣本進行重采樣,而是利用了多種聚類算法分別對同一樣本數(shù)據(jù)進行聚類,獲得一致矩陣,并通過將隨機游走的策略引入一致矩陣的分析中,獲得了概率轉(zhuǎn)移矩陣,然后通過分析概率轉(zhuǎn)移矩陣的特征值進而確定聚類的數(shù)目.如果矩陣特征值不能明顯反映聚類信息,則將一致矩陣代替相似度矩陣進行多次迭代,最終獲得能夠反映聚類數(shù)目的特征值分布.該法采用多種聚類算法,克服了僅采用一種聚類算法的局限性,但仍存在缺陷,包括迭代的次數(shù)及迭代終止的條件不明確性,相似度矩陣的確定方法單一,僅依賴高斯距離公式進行標度等問題.
針對上述兩類聚類方法存在的問題,本文通過分析這兩類方法的特點,提出了基于Minkowski距離的一致聚類分析方法,有效地避免多次迭代,能較準確地獲得聚類數(shù)目信息.
2基于Minkowski距離的一致聚類算法(CCBM)
本文提出了一種基于Minkowski距離的一致聚類數(shù)目自動識別為核心算法的一致聚類方法(CCBM-consensus clustering based Minkowski distance).該方法集成多種聚類算法,與以上兩種一致聚類方法不同之處在于相似度矩陣的構(gòu)建及聚類算法的選擇上.為了克服重采樣、迭代方法采樣數(shù)目和迭代次數(shù)不能有效的最優(yōu)確定等缺點,考慮到Minkowski距離公式能夠準確刻畫數(shù)據(jù)大范圍的相似度量信息[15],本文方法采用Minkowski距離對輸入數(shù)據(jù)進行了不同的度量,從而完成參數(shù)設(shè)定并對相似度矩陣進行一致聚類,并確定最能反映聚類信息的相似度度量,不需要迭代即能較準確獲得聚類數(shù)目信息.下面詳細說明本文所提出的方法算法流程,如圖2所示.
圖2 基于Minkowski距離的一致聚類算法
2.1Minkowski距離函數(shù)的設(shè)定
相對于常規(guī)的歐式距離或高斯距離,本文采用Minkowski距離公式[15],如式(1)-式(2).
(1)
SMp(x,y)=?exp(-?Mp(x,y)).
(2)
其中,x和y為n維樣本點,p和?為距離調(diào)整參數(shù).當p取1時,式(1)為曼哈頓距離,刻畫的是數(shù)據(jù)i與j橫縱坐標差值的絕對值之和;當p取2時,式(1)為歐式距離,刻畫的是數(shù)據(jù)i與j的最短距離,即對角線距離;當p取無窮大時,式(1)為切比雪夫距離,刻畫的是數(shù)據(jù)i與j在某維度上的最大差值;p也可取其他值(如p=0.5,0.1等小于1的數(shù)).不同p值構(gòu)建的Minkowski距離,利用算法分析會產(chǎn)生不同的聚類效果.式(2)中?為可調(diào)參數(shù),通過調(diào)整p值及?值,該距離公式能夠從不同角度反映數(shù)據(jù)(主要是p值影響)的相似度信息.
本文設(shè)定3種不同的p值(p分別取1,2,3)及5類不同?值(?分別取0.1,0.2,0.5,0.8,0.9),通過公式(1)-(2)獲得不同相似度矩陣的構(gòu)建(共15種),并對其進行聚類分析.由于以上構(gòu)建的15種距離能夠較全面地刻畫數(shù)據(jù)間不同角度的相似信息,因此可以結(jié)合矩陣特征值分析方法,獲得數(shù)據(jù)不同的特征值分布,為獲得數(shù)據(jù)的聚類數(shù)目信息提供依據(jù).
2.2聚類算法的集成
聚類算法的集成需要考慮不同聚類算法的特點,選擇合適的聚類算法對一致聚類算法的有效集成至關(guān)重要.譜聚類算法作為劃分式聚類算法之一,能夠在任意形狀的樣本空間上聚類,并且能收斂于全局最優(yōu)解.而Newman貪婪算法作為復雜網(wǎng)絡(luò)層次式分析方法,由于其收斂速度快等優(yōu)點,在數(shù)據(jù)的聚類分析中有著廣泛的應(yīng)用.本文主要融合兩種不同Laplacian矩陣構(gòu)建的譜聚類算法[16](如式(3)-式(4))與復雜網(wǎng)絡(luò)中的Newman貪婪算法[17-19]的改進算法,一定程度上避免了聚類算法復雜度高的缺點.
Lsym=D-1/2LD1/2
(3)
Lrm=D-1L
(4)
其中,D為將相似度矩陣每行之和賦值到對角線上的對角矩陣,L為相似度矩陣.
2.3聚類數(shù)目的識別
2.3.1聚類數(shù)目的識別準則
由于相似矩陣可看作一個無向圖中節(jié)點之間的鄰接矩陣,樣本數(shù)可看作圖中的節(jié)點數(shù),相似矩陣中的權(quán)值可看作圖中節(jié)點之間的邊,并可以利用邊的粗細代表權(quán)值的大小.
2.3.2一致相似矩陣及其特征值分布
2.3.3確定聚類數(shù)目的一致聚類算法流程
提出的基于Minkowski距離的一致聚類算法確定聚類數(shù)目的具體算法流程如圖3所示.
圖3 基于Minkowski距離的
具體步驟如下:
3 基于Minkowski距離的一致聚類算法(CCBM)分析
3.1聚類數(shù)目識別分析
本文算法優(yōu)越性體現(xiàn)在聚類數(shù)目的自動識別問題上,能夠?qū)?shù)據(jù)進行分析并獲得準確的聚類數(shù)目信息.為了驗證算法有效性,測試數(shù)據(jù)為標準數(shù)據(jù)庫中的UCI數(shù)據(jù)﹑圖形數(shù)據(jù)及人工隨機數(shù)據(jù)等代表性數(shù)據(jù),如表1所示.
表1 試驗數(shù)據(jù)包括隨機數(shù)據(jù)、圖形數(shù)據(jù)、UCI數(shù)據(jù)
本文采用具有代表性的數(shù)據(jù)包括隨機5類(仿真中利用Matlab軟件mvnrnd函數(shù)設(shè)置均向量分別為[1,1],[1,6],[6,1],[6,6]及[3.5,3.5],對應(yīng)方差均為0.1而獲得的高斯數(shù)據(jù))﹑Flame圖形數(shù)據(jù)﹑Iris數(shù)據(jù)及Wine數(shù)據(jù)(對維數(shù)較高的采用SVD降維),仿真結(jié)果如圖4-圖7所示.
(a)隨機5類數(shù)據(jù)最終聚類結(jié)果
特征值數(shù)目
(a)Flame圖形數(shù)據(jù)最終聚類結(jié)果
特征值數(shù)目
(a)Iris數(shù)據(jù)的聚類結(jié)果
(a)Wine數(shù)據(jù)的聚類結(jié)果
特征值數(shù)目
由圖4-圖7可以發(fā)現(xiàn),本文算法對表1中數(shù)據(jù)聚類數(shù)目的識別非常準確,可有效地判斷概率轉(zhuǎn)移矩陣特征值分布(統(tǒng)計值接近于1的特征值數(shù)目)并確定聚類數(shù)目.
3.2聚類數(shù)目結(jié)果分析
為了對比本文一致聚類方法與其他一致聚類算法的不同,針對表1的數(shù)據(jù),分別進行聚類分析,得到的結(jié)果如表2所示.
由表2可發(fā)現(xiàn),基于迭代的一致聚類算法耗時最少,主要是由于其迭代次數(shù)較少且沒有重采樣和參數(shù)選擇環(huán)節(jié),但是其判斷數(shù)據(jù)類別數(shù)目不準確,如Iris數(shù)據(jù)的類別判斷,其迭代終止的準則不明確,因此判斷聚類數(shù)目不可靠.基于重采樣的一致聚類算法耗時最多,主要是由于其迭代次數(shù)較大,這是為了提高精度而選擇較多迭代次數(shù)的結(jié)果,但是其判斷類別數(shù)目也不準確,如隨機5類數(shù)據(jù)的類別判斷.本文算法由于要對Minkowski距離公式參數(shù)進行選擇,故耗時多于基于迭代的一致聚類算法,但是參數(shù)選擇種類相對固定,耗時少于基于重采樣的一致聚類算法.本文算法對于表1中4類數(shù)據(jù)聚類數(shù)目的判斷準確,在聚類數(shù)目的識別準確性上優(yōu)于其他兩種一致聚類算法.
表2 一致聚類算法分析表1數(shù)據(jù)的結(jié)果
4銅礦泡沫浮選的工況識別
在某企業(yè)銅礦泡沫浮選廠中銅優(yōu)粗選流程如圖8所示.銅礦石經(jīng)過球磨粉碎過程,磨礦后的礦漿首先經(jīng)過抑泥槽,后接攪拌槽,再通過粗選首槽(槽I)和粗選槽Ⅱ,其中礦物泡沫到精選過程,而礦漿到掃選過程.根據(jù)該流程生產(chǎn)工藝特點獲知,對浮選生產(chǎn)有關(guān)鍵作用的是銅優(yōu)浮選過程的粗選首槽.
圖8 浮選車間銅優(yōu)先浮選的粗選過程
在浮選過程入礦條件穩(wěn)定的情況下,首槽泡沫會隨著生產(chǎn)操作參數(shù)的改變發(fā)生變化.因此,根據(jù)浮選泡沫的表觀形狀和其帶礦量的多少,可以將銅優(yōu)浮選粗選首槽泡沫進行工況分類,并將分類結(jié)果對應(yīng)相應(yīng)的操作變量,以給出合理的操作建議,指導操作.如圖9所示為浮選泡沫圖像的3種不同浮選生產(chǎn)狀態(tài),銅礦泡沫形態(tài)的特征可以分別描述為:
A類泡沫:泡沫粒徑、形狀不規(guī)則,多為細長的扁形且以連生體存在,泡沫間的邊緣不明顯,礦化程度高,含泥多,泡沫負荷過多,泡沫顏色泛白、粘稠、穩(wěn)定度高,但泡沫尺寸小、速度慢.
B類泡沫:泡沫顏色、大小適中、形狀規(guī)則,氣泡上有堅實的礦物負荷.
C類泡沫:泡沫上負荷量減少,泡沫多為虛泡、不穩(wěn)定、易破裂或兼并.
通過現(xiàn)場觀察和生產(chǎn)指標分析對比研究,在這3類浮選生產(chǎn)狀態(tài)中,B類狀態(tài)對應(yīng)泡沫含礦最多.
圖9 不同狀態(tài)的泡沫圖像
由于在銅優(yōu)浮選粗選首槽已經(jīng)構(gòu)建由高分辨率工業(yè)攝像機、高頻光源及高性能工業(yè)控制計算機等設(shè)備組成的泡沫圖像采集平臺,準確提取了反映生產(chǎn)工況的泡沫表征特征(包括紋理、大小、顏色等).針對圖9所示的3類泡沫圖像特征,隨機選取了實際生產(chǎn)過程的1個月200組數(shù)據(jù),其中A,B,C類數(shù)據(jù)分別為50,100,50組數(shù)據(jù),對其采用基于Minkowski距離的一致聚類算法分析,一致矩陣特征值分布如圖10所示.由圖可見,可以明顯劃分為3類工況,數(shù)據(jù)聚類的結(jié)果準確性高.原數(shù)據(jù)和聚類后的數(shù)據(jù)分別如圖11和圖12所示.
特征值數(shù)目
圖11 泡沫原數(shù)據(jù)多維特征圖
圖12 泡沫圖像數(shù)據(jù)聚類后多維特征圖
通過對比分析發(fā)現(xiàn)選取200組數(shù)據(jù)中只有2個誤分點,正確率達到98.5%.因此,本文所提算法可用于實際銅礦泡沫浮選過程圖像數(shù)據(jù)的有效聚類,從而有助于進一步實現(xiàn)浮選生產(chǎn)工況的自動識別,識別浮選泡沫生產(chǎn)狀態(tài),為浮選生產(chǎn)操作提供指導.
5結(jié)論
針對常規(guī)聚類算法中相似度矩陣的選取問題﹑聚類數(shù)目的自動確定等問題,本文提出了基于Minkowski距離的一致聚類分析方法.該方法利用Minkowski距離公式對數(shù)據(jù)進行不同角度度量,集成多種聚類算法進行聚類,根據(jù)隨機游走策略,并將獲取的一致矩陣轉(zhuǎn)化為概率轉(zhuǎn)移矩陣,結(jié)合不同數(shù)據(jù)的特征值分布分析方法確定類別數(shù)目,實現(xiàn)自動聚類.通過對標準數(shù)據(jù)實驗對比表明算法具有較快的運算速度和較高的類別劃分準確度.將本文算法應(yīng)用到銅礦泡沫浮選過程工況分類效果,進一步驗證算法有效性,也為泡沫浮選工況自動識別及生成過程操作提供了指導信息.
參考文獻
[1]MARQUES J P, WU Y F. Pattern recognition-concepts, methods and applications [M]. Beijing: Tsinghua University Press, 2002:51-74.
[2]BOUGUETTAYA A, YU Q, LIU X,etal. Efficient agglomerative hierarchical clustering[J]. Expert Systems with Applications, 2015, 42(5): 2785-2797.
[3]HUANG Z. Extensions to the k-means algorithm for clustering large data sets with categorical values [J]. Data Mining and Knowledge, Discovery II, 1998,2(3):283-304.
[4]周炎濤,吳正國,易興東,等.基于網(wǎng)格帶有參考參數(shù)的擴展聚類算法[J].湖南大學學報:自然科學版, 2009,36(2):48-52.
ZHOU Yan-tao, WU Zheng-guo, YI Xing-dong,etal. Extended grid-based clustering algorithm with referential parameters[J]. Journal of Hunan University: Natural Sciences Edition, 2009, 36(2):48-52.(In Chinese)
[5]YUE S, WEI M, WANG J S,etal. A general grid-clustering approach[J]. Pattern Recognition Letters, 2008, 29(9): 1372-1384.
[6]VLADIMIR F, STEVEN S. Integrating microarray data by consensus clustering [J]. International Journal on Artificial Intelligence Tools, 2004, 13(4):863-880.
[7]NAM N, RICH C. Consensus clustering[C]//Proceedings of the 7th IEEE International Conference on Data Mining. Washington DC, USA, 2007: 607-612.
[8]ALEXANDER S, JOYDEEP G. Cluster ensembles-a knowledge reuse framework for combining multiple partitions [J]. Journal on Machine Learning Research, 2012,3(3):583-617.
[9]TAO L, CHRIS D, MICHAEL I J. Solving consensus and semi-supervised clustering problems using nonnegative matrix factorization[C]//Data Mining, ICDM, 2007:577-582.
[10]陳宏義,李存斌,施立剛,等.基于聚類分析的短期負荷智能預測方法研究[J].湖南大學學報:自然科學版,2014,41(5):94-98.
CHEN Hong-yi, LI Cun-bin, SHI Li-gang,etal. A new forecasting approach for short-term load intelligence based on cluster method[J]. Journal of Hunan University: Natural Sciences Edition, 2014, 41(5):94-98.(In Chinese)
[11]CARL M, SHAINA R, KEVIN V. Determining the number of clusters via consensus clustering [C]// Proceedings of the 2013 SIAM International Conference on Data Mining.2013:94-102.
[12]桂衛(wèi)華,陽春華,徐德剛,等.基于機器視覺的礦物浮選過程監(jiān)控技術(shù)研究進展[J].自動化學報, 2013, 39(11): 1879-1887.
GUI Wei-hua, YANG Chun-hua, XU De-gang,etal. Machine vision based online measuring and controlling technologies for mineral flotation―a review[J]. Acta Automatica Sinica, 2013, 39(11): 1879 -1887. (In Chinese)
[13]XU C H, GUI W H, YANG C H. Flotation process fault detection using output PDF of bubble size distribution [J]. Minerals Engineering, 2012,26(1):5-12.
[14]STEFANO M, PABLO T, JILL M,etal. Consensus clustering: a resampling-based method for class discovery and visualization of gene expression microarray data [J]. Machine Learning, 2003, 52(1/2): 91-118.
[15]HATHAWAY K J, BEZDEK J C, HU Y. Generalized fuzzy c-means clustering strategies using L p norm distances [J]. IEEE Trans on Fuzzy Systems, 2000,8(5):576-582.
[16]ULTIKE V L. A tutorial on spectral clustering[J]. Statistics and Computering, 2007, 17(4): 395-416.
[17]YANG B, LIU D Y, LIU J M. Complex network clustering algorithms [J]. Journal of Software, 2009, 20(1): 54-66.
[18]NEWMAN M J. Detecting community structure in networks [J]. European Physical Journal (B), 2004, 38(2): 321-330.
[19]NEWMAN M J. Fast algorithm for detecting community structure in networks [J].Physical Review E, 2004, 69(6): 0666133.
Research on Improved Consensus Clustering Algorithm Based on Minkowski Distance and Its Application
XU De-gang, XU Xi-yang, CHEN Xiao, ZHAO Pan-lei, SU Zhi-fang?, XIE Yong-fang, YANG Chun-hua
(College of Information Science and Engineering, Central South Univ, Changsha,Hunan410083,China)
Abstract:Aiming at the inaccuracy of clustering numbers and the slow speed of ordinary consensus clustering algorithms, Newman greedy algorithms of complex networks theory and spectral clustering algorithms were combined to propose a novel consensus clustering algorithm based on Minkowski distance. The algorithm depicts the similarity between samples in terms of Minkowski distance and adopts the strategy of random walk. By adjusting the parameters of the Laplacian distance, the accurate information of the clustering number is automatically obtained. The simulation results show that the proposed consensus clustering algorithm based on Minkowski distance has the superiority of the running time and accuracy of the clustering number. This method was applied to actual copper froth flotation process, and the results further illustrated its effectiveness.
Key words:consensus clustering; Minkowski distance; consensus matrix; clustering number; conditions identification
中圖分類號:TP273
文獻標識碼:A
作者簡介:徐德剛(1978-),男,山東濰坊人,中南大學副教授,博士?通訊聯(lián)系人,E-mail:suzhifang1@csu.edu.cn
基金項目:國家自然科學基金資助項目(614733319, 61104135, 61134006),National Natural Science Foundation of China(614733319, 61104135, 61134006) ;國家創(chuàng)新研究群體科學基金資助項目(61321003);中南大學創(chuàng)新驅(qū)動計劃(2016CX014)
收稿日期:2015-01-27
文章編號:1674-2974(2016)04-0133-08