何士豪,張玉龍,唐啟凡
(西安交通大學(xué)軟件學(xué)院,710049,西安)
近年來,隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,“大數(shù)據(jù)”一詞開始頻頻出現(xiàn)在大眾視野,隨著海量數(shù)據(jù)的涌現(xiàn),如何有效地在數(shù)據(jù)中挖掘出有價(jià)值的信息成為熱門的研究課題。其中,多視角數(shù)據(jù)因其包含更全面的信息而成為熱點(diǎn)研究數(shù)據(jù)。多視角數(shù)據(jù)是指同源數(shù)據(jù)的多種表示形式,例如,一幅圖片可以由顏色、紋理、邊緣等特征表示,一篇文章可以由多種語言表示等。聚類分析一直以來是數(shù)據(jù)挖掘的主要任務(wù)之一,其中子空間聚類是聚類分析中的重要研究部分。傳統(tǒng)的子空間聚類算法在處理多視角數(shù)據(jù)時(shí),通常是將多視角數(shù)據(jù)簡單拼接為單視角數(shù)據(jù),然后對其應(yīng)用經(jīng)典的單視角子空間聚類算法[1-3]。這種做法的優(yōu)點(diǎn)是簡單快捷,但同時(shí)帶來了一系列缺點(diǎn)。首先,多視角數(shù)據(jù)具有互補(bǔ)性與一致性的特點(diǎn)[4]?;パa(bǔ)性是指各視角包含其他視角所不具備的信息,各視角所含數(shù)據(jù)信息具有互補(bǔ)性。一致性是指來自同一數(shù)據(jù)源的各視角數(shù)據(jù)所包含的基本信息是一致的[4]。單視角聚類算法僅將多視角數(shù)據(jù)簡單拼接,無法有效地挖掘多視角所包含的豐富信息,因此無法取得較好的聚類效果。其次,多視角數(shù)據(jù)中含有大量重復(fù)數(shù)據(jù)和噪聲數(shù)據(jù),簡單地將其拼接成單視角數(shù)據(jù)時(shí),往往會(huì)帶來維度災(zāi)難,導(dǎo)致數(shù)據(jù)龐大而冗余。因此,近年來多視角聚類算法受到越來越廣泛的關(guān)注。
多視角聚類算法通過提取多視角間的互補(bǔ)性[5-7]或一致性信息[8-12]來提升聚類性能。然而,隨著研究的深入,單一地探索多視角數(shù)據(jù)的互補(bǔ)性或一致性信息已不能滿足聚類性能要求。于是,一系列同時(shí)探索多視角數(shù)據(jù)的互補(bǔ)性和一致性信息的聚類算法被提出[13-15],這些算法通過對多視角共享的鄰接矩陣和單視角私有的鄰接矩陣添加規(guī)范項(xiàng)來更全面地探索數(shù)據(jù)信息,進(jìn)一步提升了聚類性能。
這些多視角聚類算法具有開創(chuàng)性意義,且聚類性能均達(dá)到非常優(yōu)秀的水平,其中關(guān)于多視角子空間聚類的研究主要集中在線性子空間的聚類上。然而,現(xiàn)實(shí)中數(shù)據(jù)不一定嚴(yán)格地符合線性子空間模型,例如,在人臉圖像聚類中,反射率通常是非朗伯式的,而且拍攝對象的姿勢經(jīng)常變化,在這些條件下,面部圖像更像是在一個(gè)非線性的子空間中[15]。針對這個(gè)問題,文獻(xiàn)[16-18]通過核技巧[19]進(jìn)行了嘗試,但目前仍需依靠經(jīng)驗(yàn)選擇核類型,并且沒有嚴(yán)格的證明表示核所屬的隱式特征空間可以完美地適配子空間聚類。近年來,越來越多的研究工作將深度學(xué)習(xí)與子空間聚類結(jié)合,利用自編碼器將數(shù)據(jù)映射到非線性子空間,通過在編碼器與解碼器間的全連接層學(xué)習(xí)鄰接矩陣進(jìn)行子空間聚類[15,20-22]。實(shí)驗(yàn)表明,自編碼器可以有效挖掘多視角數(shù)據(jù)間的非線性子空間關(guān)系,從而提升聚類性能。
為了在非線性子空間中同時(shí)挖掘多視角數(shù)據(jù)中的互補(bǔ)性與一致性信息、最大程度地利用多視角數(shù)據(jù)的有效信息提升聚類性能,一種行之有效的方法是將深度學(xué)習(xí)與傳統(tǒng)的多視角聚類算法相結(jié)合,例如:文獻(xiàn)[23]利用兩個(gè)網(wǎng)絡(luò)分別挖掘數(shù)據(jù)的互補(bǔ)性與一致性信息,然而由于兩個(gè)網(wǎng)絡(luò)的獨(dú)立性,多視角共享的相似度矩陣和多視角獨(dú)有的相似度矩陣是獨(dú)立的,兩種相似度矩陣缺乏關(guān)聯(lián)性,未能充分挖掘相關(guān)信息,導(dǎo)致某些數(shù)據(jù)集上的實(shí)驗(yàn)效果欠佳;文獻(xiàn)[24]利用全局結(jié)構(gòu)和局部結(jié)構(gòu)使得多視角共享的系數(shù)矩陣與多視角私有的潛在特征表示產(chǎn)生連接,同時(shí)利用規(guī)范項(xiàng)挖掘多視角數(shù)據(jù)的互補(bǔ)性信息,然而其缺乏對聚類標(biāo)簽的有效利用,導(dǎo)致系數(shù)矩陣的學(xué)習(xí)缺乏反饋過程,很難學(xué)習(xí)到好的特征表示。盡管聚類標(biāo)簽不一定正確地標(biāo)記所有數(shù)據(jù)點(diǎn)的類信息,但其包含一些有價(jià)值的信息,因此可以用聚類標(biāo)簽來監(jiān)督自表達(dá)系數(shù)的訓(xùn)練過程,以提升聚類性能[25]。
本文提出一種互補(bǔ)與一致的多視角子空間聚類網(wǎng)絡(luò)(C2MSCN),用來解決自監(jiān)督式地在非線性空間中同時(shí)挖掘多視角數(shù)據(jù)的互補(bǔ)性與一致性信息的問題。C2MSCN由編碼器、自表達(dá)層、譜聚類模塊和解碼器組成。C2MSCN中的數(shù)據(jù)流通過程主要有4個(gè)階段:①編碼器將原始數(shù)據(jù)映射到非線性空間;②自表達(dá)層在非線性空間同時(shí)學(xué)習(xí)各視角共享的自表達(dá)系數(shù)矩陣和各視角私有的自表達(dá)系數(shù)矩陣;③將自表達(dá)系數(shù)矩陣供給譜聚類模塊聚類,得到聚類標(biāo)簽,譜聚類模塊將聚類標(biāo)簽返回網(wǎng)絡(luò);④解碼器將自表達(dá)數(shù)據(jù)還原到原始空間。C2MSCN算法在4個(gè)評價(jià)指標(biāo)下6個(gè)數(shù)據(jù)集的對比實(shí)驗(yàn)中取得了1.25的平均排名;參數(shù)敏感度實(shí)驗(yàn)和消融性實(shí)驗(yàn)表明,C2MSCN算法能夠有效地在非線性子空間中探索數(shù)據(jù)互補(bǔ)性與一致性,并且在不同數(shù)據(jù)集上表現(xiàn)穩(wěn)定。
假設(shè)高維數(shù)據(jù)來自低維子空間,子空間聚類的任務(wù)是將一群高維數(shù)據(jù)分為多組,為每組數(shù)據(jù)尋找一個(gè)適配的低維子空間[4]。自表達(dá)是指用屬于同一子空間的數(shù)據(jù)的線性組合來表示高維數(shù)據(jù),數(shù)據(jù)的線性組合系數(shù)被稱為自表達(dá)系數(shù),由所有數(shù)據(jù)的自表達(dá)系數(shù)組成的矩陣被稱為自表達(dá)系數(shù)矩陣。子空間聚類的流程是:①構(gòu)造自表達(dá)系數(shù)矩陣;②構(gòu)造相似度矩陣;③應(yīng)用譜聚類得到聚類結(jié)果。子空間聚類的重點(diǎn)是如何利用自表達(dá)系數(shù)矩陣正確地恢復(fù)數(shù)據(jù)的子空間結(jié)構(gòu)。近年來,子空間聚類算法主要研究如何學(xué)習(xí)一個(gè)優(yōu)質(zhì)的數(shù)據(jù)自表達(dá)系數(shù)矩陣。其中一些優(yōu)秀的算法包括:SSC通過對自表達(dá)系數(shù)矩陣添加L1范數(shù),保證了自表達(dá)系數(shù)矩陣的稀疏性[1];LRR通過對自表達(dá)系數(shù)矩陣添加核范數(shù)約束,挖掘了自表達(dá)系數(shù)矩陣的低秩性[2];深度子空間聚類網(wǎng)絡(luò)(DSCN)在編碼器與解碼器間加入自表達(dá)層,在編碼器映射的低維非線性空間中學(xué)習(xí)自表達(dá)系數(shù)矩陣,可以對具有復(fù)雜或非線性潛在結(jié)構(gòu)的數(shù)據(jù)有效地聚類,從而彌補(bǔ)了傳統(tǒng)子空間聚類算法只能探索線性數(shù)據(jù)關(guān)系的弊端[15];自監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)(S2SCN)在DSCN的基礎(chǔ)上加入了自監(jiān)督模塊,將自表達(dá)系數(shù)矩陣的學(xué)習(xí)與譜聚類結(jié)合,首次利用聚類標(biāo)簽信息監(jiān)督自表達(dá)系數(shù)矩陣的學(xué)習(xí)[25];多級深度子空間表示學(xué)習(xí)(MLRDSC)取用自編碼器網(wǎng)絡(luò)多個(gè)中間層數(shù)據(jù),并利用自表達(dá)層學(xué)習(xí)中間層數(shù)據(jù)共享的自表達(dá)系數(shù)矩陣和中間層數(shù)據(jù)私有的自表達(dá)系數(shù)矩陣,融合了多個(gè)中間層數(shù)據(jù)的互補(bǔ)性與一致性信息,通過挖掘網(wǎng)絡(luò)的中間層數(shù)據(jù)提高了聚類效果[26];基于差分演化算法的軟子空間聚類在目標(biāo)函數(shù)中綜合利用了模糊加權(quán)類內(nèi)相似性和界約束權(quán)值矩陣,并用復(fù)合差分演化算法搜尋子空間聚類,有效地提高了聚類效果[27]。
多視角聚類的關(guān)鍵是如何充分利用多視角數(shù)據(jù)的有效信息來提升聚類效果。目前,一系列多視角聚類算法通過對多視角數(shù)據(jù)的關(guān)系進(jìn)行建?;蛘邔W(xué)習(xí)數(shù)據(jù)的內(nèi)在表示來提高聚類效果[23]。RMSC通過學(xué)習(xí)公共低秩概率轉(zhuǎn)移矩陣來融合多視角數(shù)據(jù)的有效信息,通過學(xué)習(xí)各視角的私有稀疏噪聲矩陣來處理多視角數(shù)據(jù)中的噪聲,有效地融合了多視角數(shù)據(jù)信息,過濾了噪聲[8];LMSC首先將數(shù)據(jù)從原始空間映射到潛在的數(shù)據(jù)空間,然后在潛在空間學(xué)習(xí)自表達(dá)系數(shù)矩陣,從而挖掘了更深層的數(shù)據(jù)信息[9];Co-Reg假設(shè)多視角數(shù)據(jù)具有相同的類別關(guān)系,對不同視角間的特征向量矩陣添加協(xié)同約束,利用一個(gè)視角的數(shù)據(jù)信息去優(yōu)化其他視角特征向量矩陣的學(xué)習(xí),以此挖掘多視角數(shù)據(jù)信息[6];一致與特殊多視角子空間聚類(CSMSC)通過學(xué)習(xí)多視角共享的自表達(dá)系數(shù)矩陣和多視角私有的自表達(dá)系數(shù)矩陣,在線性空間同時(shí)挖掘了多視角數(shù)據(jù)間的互補(bǔ)性與一致性信息[4];一種雙重加權(quán)的多視角聚類算法利用互信息學(xué)習(xí)各個(gè)視角的權(quán)重,并將各視角權(quán)重用于基于內(nèi)容和基于上下文的多視角表示,充分利用了兩種數(shù)據(jù)形式下的多視角數(shù)據(jù)間的互補(bǔ)性信息[28]。
自編碼器通過將數(shù)據(jù)映射到非線性低維空間來提取數(shù)據(jù)的內(nèi)在非線性特征。因此,在子空間聚類中,可以利用自編碼器來挖掘多視角間潛在的非線性關(guān)系[15]。深度多模態(tài)子空間聚類(DMSCN)將自編碼器與多視角聚類結(jié)合,采用端對端的訓(xùn)練算法,利用多視角數(shù)據(jù)間的一致信息,在非線性空間中學(xué)習(xí)公共自表達(dá)系數(shù)矩陣,從而克服了傳統(tǒng)多視角聚類算法無法探索多視角數(shù)據(jù)間非線性關(guān)系的弊端[21];自編碼器網(wǎng)絡(luò)中的自編碼器算法(Ae2-nets)由內(nèi)部自編碼器和外部自編碼器組成,內(nèi)部自編碼器由自編碼器網(wǎng)絡(luò)組成,外部自編碼器由退化網(wǎng)絡(luò)和內(nèi)部自編碼器網(wǎng)絡(luò)組成,首先單獨(dú)訓(xùn)練內(nèi)部自編碼器,然后通過退化網(wǎng)絡(luò)將潛在特征退化為內(nèi)部自編碼器的中間層特征表示Z′,通過優(yōu)化真正的中間層特征表示Z與Z′的差距得到良好的潛在特征,從而自適應(yīng)地平衡多視角數(shù)據(jù)間的互補(bǔ)性與一致性信息[29]。
圖1 互補(bǔ)與一致的多視角子空間聚類網(wǎng)絡(luò)
根據(jù)C2MSCN的網(wǎng)絡(luò)結(jié)構(gòu),目標(biāo)函數(shù)由重構(gòu)損失、自表達(dá)損失、多樣性規(guī)范化項(xiàng)、自監(jiān)督規(guī)范化項(xiàng)和其他約束共5部分組成。
(1)重構(gòu)損失。由于端對端的訓(xùn)練方式,輸入編碼器的原始數(shù)據(jù)與輸出解碼器的重構(gòu)數(shù)據(jù)間存在重構(gòu)損失。重構(gòu)損失項(xiàng)通過約束自編碼器的網(wǎng)絡(luò)參數(shù),確保原始數(shù)據(jù)經(jīng)編碼器編碼獲得的隱式特征可以通過解碼器還原到原始數(shù)據(jù),從而保證隱式特征的有效性。重構(gòu)損失定義為
(1)
(2)自表達(dá)損失。潛在特征表示與自表達(dá)特征間存在自表達(dá)損失。自表達(dá)損失項(xiàng)通過約束自表達(dá)系數(shù),確保原始數(shù)據(jù)與其自表達(dá)系數(shù)表示形式具有一致性。自表達(dá)損失定義為
(2)
(3)多樣性規(guī)范化項(xiàng)。為充分挖掘多視角數(shù)據(jù)間的互補(bǔ)性信息,參考文獻(xiàn)[24],在私有自表達(dá)系數(shù)矩陣間引入多樣性規(guī)范化項(xiàng)
H(Di,Dj)=‖Di⊙Dj‖0
(3)
式中:⊙表示哈達(dá)瑪積;‖·‖0表示矩陣的L0范數(shù);Di表示第i視角自表達(dá)系數(shù)矩陣。利用多樣性規(guī)范化項(xiàng)使兩個(gè)矩陣盡可能正交。理想情況下,如果Di的(a,b)位置不等于0,規(guī)范化項(xiàng)將迫使Dj的相同位置為0,使得私有自表達(dá)系數(shù)基于位置盡可能不相同。因此,多樣性規(guī)范化項(xiàng)可以挖掘不同視角數(shù)據(jù)在不同集群中的互補(bǔ)信息。由于L0范數(shù)的非凸性,將L0范數(shù)松弛為L1范數(shù)[18],Di與Dj間多樣性規(guī)范化變?yōu)?/p>
H(Di,Dj)=‖Di⊙Dj‖1=tr((Di)TDj)
(4)
所有視角的私有自表達(dá)系數(shù)矩陣兩兩之間的多樣性規(guī)范化之和構(gòu)成總的多樣性規(guī)范化項(xiàng)
(5)
(4)自監(jiān)督規(guī)范化項(xiàng)。參考文獻(xiàn)[25]中的研究工作,即使譜聚類產(chǎn)生的聚類標(biāo)簽不一定與真實(shí)聚類相同,聚類標(biāo)簽仍包含一些價(jià)值信息,可以用譜聚類的輸出來監(jiān)督自表達(dá)系數(shù)的訓(xùn)練過程。從自表達(dá)模塊學(xué)習(xí)到自表達(dá)系數(shù)矩陣應(yīng)包含足夠的預(yù)測數(shù)據(jù)點(diǎn)的類標(biāo)簽信息。因此,將譜聚類的目標(biāo)函數(shù)作為自監(jiān)督規(guī)范化項(xiàng),具有監(jiān)督自表達(dá)模塊訓(xùn)練的效果。在得到自表達(dá)系數(shù)矩陣后,計(jì)算出相似度矩陣A=(|C|+|C|T)/2,其中|C|代表對矩陣C求絕對值。通過最小化損失函數(shù)
(6)
對相似度矩陣A應(yīng)用譜聚類得到聚類指示矩陣Q。式(6)中,M={Q∈{0,1}k×N,s.t.1TQ=1T,rank(Q)=k}是具有k類的有效聚類指示矩陣的集合,qm和qn表示Q的第m列和第n列向量,分別指示第m個(gè)視角數(shù)據(jù)與第n個(gè)視角數(shù)據(jù)所屬的類別,1為元素全是1的向量,利用譜聚類模塊為網(wǎng)絡(luò)提供的聚類標(biāo)簽信息Q構(gòu)造自監(jiān)督規(guī)范化項(xiàng)
(7)
S為相似度矩陣,構(gòu)造算法為
(8)
由式(7)可以看出,自監(jiān)督項(xiàng)可以衡量相似度矩陣S和聚類指示矩陣Q間的差異性。在已知Q的情況下,最小化式(7)會(huì)有如下效果:當(dāng)qm不等于qn時(shí),迫使相似度矩陣S的(m,n)位置項(xiàng)Sm,n趨近于0;當(dāng)且僅當(dāng)qm等于qn時(shí),Sm,n才有可能為非0項(xiàng)。背后的意義是:當(dāng)?shù)趇項(xiàng)數(shù)據(jù)和第j項(xiàng)數(shù)據(jù)不屬于同一簇時(shí),迫使它們之間的相似度趨于0;只有當(dāng)它們屬于同一簇時(shí),它們之間的相似度才有可能為非0項(xiàng)。相似度矩陣由公有自表達(dá)系數(shù)C和私有自表達(dá)系數(shù)Di組成,于是式(7)間接地約束C和Di,從而為其自表達(dá)系數(shù)的訓(xùn)練提供反饋,達(dá)到自監(jiān)督公有自表達(dá)系數(shù)和私有自表達(dá)系數(shù)的效果。
(5)其他規(guī)范化項(xiàng)。理想情況下,各個(gè)子空間應(yīng)該是相互獨(dú)立的,子空間中的數(shù)據(jù)應(yīng)僅由屬于同一子空間的其他數(shù)據(jù)表示[26],于是公有自表達(dá)系數(shù)應(yīng)具有塊狀結(jié)構(gòu),即稀疏的矩陣結(jié)構(gòu),L1范數(shù)可以迫使它具有系數(shù)的矩陣結(jié)構(gòu)。另外,對私有自表達(dá)系數(shù)加入F范數(shù)約束可以保證連通性,使得私有自表達(dá)系數(shù)更緊密,從而消除連通性問題[4]。為保證自表達(dá)系數(shù)的這些特征,參考文獻(xiàn)[26]的思想,對公共系數(shù)C和私有系數(shù)Di添加約束
(9)
式中QT|C|的第(i,j)位置元素表示在構(gòu)建數(shù)據(jù)j時(shí)使用屬于第i個(gè)簇的數(shù)據(jù)比例。與‖C‖1促使整個(gè)矩陣所有元素稀疏性不同,Lc僅促進(jìn)樣本簇成員數(shù)據(jù)間的稀疏性。換言之,它鼓勵(lì)每個(gè)數(shù)據(jù)僅由具有相同類標(biāo)簽的樣本表示,從而使樣本對不同子空間的成員預(yù)測變得平滑。此外,正則化項(xiàng)Ld使得不同矩陣的元素在數(shù)值上趨于相似,從而增強(qiáng)了與相似度矩陣的連通性[26]。
將所有約束項(xiàng)相加得到目標(biāo)函數(shù)
(10)
目標(biāo)函數(shù)有λ1~λ5共5個(gè)超參數(shù):λ1負(fù)責(zé)調(diào)節(jié)自表達(dá)重構(gòu)約束的強(qiáng)度;λ2和λ4分別負(fù)責(zé)調(diào)節(jié)共享系數(shù)矩陣和私有系數(shù)矩陣的稀疏程度;λ3和λ5分別調(diào)節(jié)私有自表達(dá)系數(shù)矩陣的多樣性程度和自監(jiān)督規(guī)范化項(xiàng)程度。
C2MSCN算法分為3個(gè)階段:第1階段預(yù)訓(xùn)練自編碼器網(wǎng)絡(luò);第2階段正式訓(xùn)練整個(gè)網(wǎng)絡(luò);第3階段利用自表達(dá)系數(shù)矩陣構(gòu)造相似度矩陣進(jìn)行聚類。
(2)微調(diào)階段。首先,使用預(yù)訓(xùn)練階段得到的多視角編碼器參數(shù)和多視角解碼器參數(shù)初始化自編碼器。然后,迭代優(yōu)化編碼器參數(shù)、解碼器參數(shù)和自表達(dá)層參數(shù)(共享自表達(dá)系數(shù)與私有自表達(dá)系數(shù))以獲得最優(yōu)參數(shù)。參考文獻(xiàn)[15]的訓(xùn)練策略,使用Adam優(yōu)化器優(yōu)化目標(biāo)函數(shù),并設(shè)置優(yōu)化器的初始學(xué)習(xí)率為1.0×10-3。由于加入了自監(jiān)督規(guī)范化項(xiàng),在訓(xùn)練過程中需利用譜聚類模塊更新Q。采用間隔式的方式更新Q,即每隔一定的迭代次數(shù)更新一次Q,原因有兩點(diǎn):①由于自表達(dá)系數(shù)是隨機(jī)初始化的,在初始迭代階段,其包含的正確信息不多,這會(huì)導(dǎo)致由其構(gòu)造的相似度矩陣S具有很強(qiáng)的誤導(dǎo)性,最終導(dǎo)致聚類指示矩陣Q具有誤導(dǎo)性,如果此時(shí)利用Q約束自表達(dá)系數(shù),會(huì)導(dǎo)致自表達(dá)系數(shù)偏離正確的優(yōu)化方向,影響迭代速度;②更新Q的過程就是進(jìn)行譜聚類的過程,如果每迭代一次都進(jìn)行一次譜聚類,將導(dǎo)致很大程度地增加算法的收斂時(shí)間,得不償失。因此,間隔式更新Q既能保證自監(jiān)督效果,又能節(jié)省時(shí)間,是權(quán)衡時(shí)間與效果后的結(jié)果。
最后,基于相似度矩陣應(yīng)用譜聚類得到聚類結(jié)果。算法流程如下。
輸入:多視角數(shù)據(jù){X1,X2,…,XV},超參數(shù)λ1~λ5,預(yù)訓(xùn)練迭代數(shù)M′,學(xué)習(xí)率α,Q的更新周期T0,最大迭代數(shù)Tmax。
1 設(shè)置λ1=…=λ5=0,隨機(jī)初始化自編碼器網(wǎng)絡(luò)參數(shù),設(shè)置t1=0。
2 WHILEt1 3 優(yōu)化LRE,更新自編碼器網(wǎng)絡(luò)參數(shù); 4t1←t1+1; 5 END WHILE 6 隨機(jī)初始化C、Di(i=1,2,…,V)、Q,使用預(yù)訓(xùn)練階段得到的網(wǎng)絡(luò)參數(shù)初始化自編碼器網(wǎng)絡(luò),設(shè)置t=0; 7 WHILEt 8 IFt%T0==0 THEN 9 通過譜聚類模塊更新Q; 10 END IF 11 優(yōu)化目標(biāo)函數(shù),更新整個(gè)網(wǎng)絡(luò)參數(shù); 12t←t+1; 13END WHILE 14構(gòu)造相似度矩陣,應(yīng)用譜聚類得到聚類結(jié)果。 輸出:聚類結(jié)果 3.1.1 數(shù)據(jù)集 本文使用6種廣泛應(yīng)用的多視角數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。Yale是一個(gè)包含15人共165張人臉圖像的數(shù)據(jù)集,每張圖像的光線、人臉的表情等特征均有所不同。ORL是一個(gè)包含40種不同對象的數(shù)據(jù)集,每個(gè)對象含10張?jiān)诓煌饩€、面部表情和臉部細(xì)節(jié)下采集的圖像。對于Yale和ORL數(shù)據(jù)集,提取強(qiáng)度、局部二值模式(LBP)和Gabor共3種圖像特征作為3個(gè)視角。BBCSport[8]數(shù)據(jù)集里包含了BBC Sport網(wǎng)站的544篇運(yùn)動(dòng)新聞文章,文章涵蓋兩個(gè)視角下的5種專題領(lǐng)域。3sources[30]數(shù)據(jù)集包含BBC、Reuters和Guardian共3個(gè)視角的新聞,共有169篇文章和6個(gè)主題。Newsgroups(NGs)[30]數(shù)據(jù)集是20Newsgroups數(shù)據(jù)集的子集,由3個(gè)視角的500個(gè)樣本構(gòu)成。Movie數(shù)據(jù)集包含了17個(gè)電影種類下的617部電影,由演員和關(guān)鍵字兩種視角描述。 3.1.2 評價(jià)指標(biāo) 本文使用4種評價(jià)指標(biāo)評估聚類算法的聚類效果:歸一化互信息N、準(zhǔn)確率A、F分?jǐn)?shù)F和修正隨機(jī)指數(shù)R。4種指標(biāo)都是值越大代表聚類效果更好。 (1)歸一化互信息。計(jì)算預(yù)測結(jié)果與實(shí)際結(jié)果的歸一化相似度,定義為 (11) 式中:B是樣本總數(shù);ni和nj分別為真實(shí)簇標(biāo)簽是第i簇和第j簇的樣本數(shù);ni,j為真實(shí)簇標(biāo)簽是第i簇而聚類結(jié)果標(biāo)簽為第j簇的樣本數(shù)。 (2)準(zhǔn)確率。用來評估聚類的準(zhǔn)確率,定義為 (12) 式中:li是真實(shí)簇標(biāo)簽;ci是聚類結(jié)果簇標(biāo)簽;f(ci)是映射函數(shù),將聚類標(biāo)簽映射到真實(shí)標(biāo)簽;{li=f(ci)}的定義為 (13) (3)F分?jǐn)?shù)?;跍?zhǔn)確率與召回率的評價(jià)指標(biāo),定義為 (14) 式中K為召回率。 (4)修正隨機(jī)指數(shù)。隨機(jī)指數(shù)r的改良版本,定義為 (15) 3.1.3 對比算法 對比算法選取2種單視角聚類算法和8種多視角聚類算法,多視角聚類算法包括5種經(jīng)典算法和3種深度學(xué)習(xí)算法。 單視角聚類算法:①BSV,對多個(gè)視角進(jìn)行譜聚類,選擇最優(yōu)的聚類效果;②LRRbest[2],使用LRR算法對多個(gè)視角進(jìn)行聚類,選擇最優(yōu)的聚類效果。 多視角聚類算法:①特征拼接(FeaCon),合并所有視角的特征,對合并的數(shù)據(jù)進(jìn)行譜聚類;②Co-Reg[6],通過協(xié)同約束的算法隱式地將多視角的圖融合,利用一個(gè)視角的數(shù)據(jù)去優(yōu)化其他視角特征向量矩陣的學(xué)習(xí);③RMSC[8],通過低秩稀疏分解得到共享的概率轉(zhuǎn)移矩陣,將其輸入基于馬爾可夫鏈的譜聚類算法進(jìn)行聚類;④LMSC[9],尋找數(shù)據(jù)的潛在表示空間,在潛在表示空間進(jìn)行子空間聚類;⑤CSMSC[4],在原始數(shù)據(jù)空間同時(shí)學(xué)習(xí)共享自表達(dá)系數(shù)矩陣和私有自表達(dá)系數(shù)矩陣,最后利用其構(gòu)造鄰接矩陣進(jìn)行譜聚類;⑥D(zhuǎn)MSCN[21],用卷積神經(jīng)網(wǎng)絡(luò)提取深層數(shù)據(jù)特征,利用自表達(dá)層融合多視角數(shù)據(jù)信息得到共享自表達(dá)系數(shù)矩陣,使用共享自表達(dá)系數(shù)構(gòu)造相似度矩陣進(jìn)行譜聚類;⑦Ae2-nets[29],利用自編碼器非線性提取深層數(shù)據(jù)特征,通過最優(yōu)化退化網(wǎng)絡(luò)的輸出與自編碼器中間層數(shù)據(jù)的損失來優(yōu)化退化網(wǎng)絡(luò)以及多視角數(shù)據(jù)共享的潛在特征表示,在目標(biāo)函數(shù)收斂后將潛在特征表示輸入K-means算法得到聚類結(jié)果;⑧DMSC-UDL[24],利用自編碼器將數(shù)據(jù)映射到非線性空間,通過約束多視角數(shù)據(jù)潛在特征和自表達(dá)系數(shù),同時(shí)挖掘多視角數(shù)據(jù)的互補(bǔ)與一致信息。 DMSC-UDL與本文算法相同之處在于:二者均利用自編碼器將多視角數(shù)據(jù)映射到非線性空間,以更好地適應(yīng)具有非線性關(guān)系的子空間;二者都同時(shí)挖掘了多視角數(shù)據(jù)的互補(bǔ)性與一致性信息以提升聚類效果。不同之處在于:DMSC-UDL在自表達(dá)過程中僅學(xué)習(xí)了公共的自表達(dá)系數(shù),未學(xué)習(xí)私有自表達(dá)系數(shù),且是通過對多視角數(shù)據(jù)的潛在空間表示進(jìn)行約束來挖掘多視角數(shù)據(jù)間的互補(bǔ)信息,本文算法在自表達(dá)過程中同時(shí)學(xué)習(xí)了公共的自表達(dá)系數(shù)和私有自表達(dá)系數(shù),且通過對私有自表達(dá)系數(shù)進(jìn)行約束來挖掘互補(bǔ)信息;DMSC-UDL未加入自監(jiān)督約束,而是加入了局部結(jié)構(gòu)約束來挖掘數(shù)據(jù)的局部特征,本文算法利用聚類信息監(jiān)督自表達(dá)系數(shù)的學(xué)習(xí)過程,以學(xué)習(xí)到更好的自表達(dá)系數(shù),提升聚類效果。 3.2.1 對比實(shí)驗(yàn) 表1~6展示了C2MSCN算法與對比算法在6個(gè)數(shù)據(jù)集上的4種評價(jià)指標(biāo)效果。調(diào)節(jié)所有對比算法的超參數(shù),記錄其最優(yōu)效果。對所有算法均運(yùn)行30次,并在表中以“平均值(標(biāo)準(zhǔn)差)”的形式記錄。表中效果最好的數(shù)據(jù)用加粗表示,次好的用加粗下劃線表示,再次的用下劃線表示。 表1 Yale數(shù)據(jù)集對比實(shí)驗(yàn)結(jié)果 表2 ORL數(shù)據(jù)集對比實(shí)驗(yàn)結(jié)果 表3 BBCSport數(shù)據(jù)集對比實(shí)驗(yàn)結(jié)果 表4 3sources數(shù)據(jù)集對比實(shí)驗(yàn)結(jié)果 表5 NGs數(shù)據(jù)集對比實(shí)驗(yàn)結(jié)果 表6 Movie數(shù)據(jù)集對比實(shí)驗(yàn)結(jié)果 由表1~6可知,在Yale數(shù)據(jù)集上,C2MSCN算法在N、A、R、F上比第二名算法分別提升了6.846%、6.337%、10.826 3%和7.735 3%。對比傳統(tǒng)多視角聚類算法RMSC和LMSC,C2MSCN算法在所有數(shù)據(jù)集上的4個(gè)評價(jià)指標(biāo)均優(yōu)于它們的。在ORL數(shù)據(jù)集上,C2MSCN算法的N低于CSMSC算法的0.3%;在其他數(shù)據(jù)集上,C2MSCN算法的4個(gè)評價(jià)指標(biāo)上均優(yōu)于CSMSC算法的。對比近年來的深度多視角子空間聚類算法DMSCN和Ae2-nets。在3sources數(shù)據(jù)集上,C2MSCN的F優(yōu)于DMSCN算法的1.5%;在其他數(shù)據(jù)集上,C2MSCN的4個(gè)評價(jià)指標(biāo)均優(yōu)于DMSCN和Ae2-nets的,這驗(yàn)證了C2MSCN算法的優(yōu)越性。對比類似的深度多視角子空間聚類算法DMSC-UDL。在Yale數(shù)據(jù)集上,本文算法的4個(gè)指標(biāo)均位居第一;在其他數(shù)據(jù)集上,本文算法與DMSC-UDL不相上下。這是因?yàn)橛行?shù)據(jù)集如BBCSport、3sources等具有明顯的局部結(jié)構(gòu),挖掘其局部結(jié)構(gòu)會(huì)明顯提升聚類效果,所以DMSC-UDL效果更好,而有些數(shù)據(jù)集如Yale并不具備明顯的局部結(jié)構(gòu),所以本文算法效果更好。 由表4可知,在3sources數(shù)據(jù)集上,C2MSCN的A、N、R低于最好算法DMSCN的約10%。這是因?yàn)?sources數(shù)據(jù)集是由BBC、Reuters和Guardian這3家知名新聞網(wǎng)站圍繞6個(gè)主題報(bào)導(dǎo)的共169篇文章組成。由于不同新聞網(wǎng)站的語言風(fēng)格大相徑庭,且語言具有很大的發(fā)揮空間,有時(shí)帶有歧義,導(dǎo)致了即使是同一主題,不同新聞網(wǎng)站報(bào)道的文章在文字層面具有很強(qiáng)的屬于新聞網(wǎng)站的獨(dú)特色彩,這些不一致信息非但不具有互補(bǔ)性,反而會(huì)影響聚類結(jié)果。所以,對于同時(shí)利用多視角的互補(bǔ)性與一致性信息的算法,如CSMSC、Ae2-nets、C2MSC,過度挖掘多視角間的不一致信息反而會(huì)使得聚類效果比僅挖掘多視角間一致性信息的DMSCN算法的效果差。 相比其他多視角聚類算法,C2MSCN算法的優(yōu)越性主要體現(xiàn)在3個(gè)方面:①深度卷積網(wǎng)絡(luò)提取非線性數(shù)據(jù)特征,經(jīng)過全連接層同時(shí)學(xué)習(xí)共享自表達(dá)系數(shù)和私有自表達(dá)系數(shù),使C2MSCN算法可以在非線性空間中同時(shí)探索數(shù)據(jù)的互補(bǔ)性與一致性信息,在更復(fù)雜的子空間關(guān)系中充分挖掘了多視角數(shù)據(jù)的有效信息;②多樣性規(guī)范化使算法更充分地挖掘多視角數(shù)據(jù)間的互補(bǔ)信息;③自監(jiān)督規(guī)范化項(xiàng)利用聚類標(biāo)簽信息對自表達(dá)模型反饋,有效地監(jiān)督自表達(dá)系數(shù)的學(xué)習(xí)過程。 3.2.2 參數(shù)敏感度實(shí)驗(yàn) 為了分析不同參數(shù)對算法的影響,對所有參數(shù)進(jìn)行了敏感度實(shí)驗(yàn)。圖2~6展示了參數(shù)在Yale數(shù)據(jù)集上的敏感度實(shí)驗(yàn)結(jié)果。在研究某一參數(shù)時(shí),固定其他參數(shù)。每組參數(shù)實(shí)驗(yàn)均運(yùn)行5次。 圖2 λ1敏感度實(shí)驗(yàn)結(jié)果 圖3 λ2敏感度實(shí)驗(yàn)結(jié)果 圖4 λ3敏感度實(shí)驗(yàn)結(jié)果 圖5 λ4敏感度實(shí)驗(yàn)結(jié)果 圖6 λ5敏感度實(shí)驗(yàn)結(jié)果 λ1~λ5取自{10-4,10-3,10-2,10-1,100,101,102,103}。由于本文算法參數(shù)較多,很難在研究單一參數(shù)時(shí)獲取其他參數(shù)的最佳值,在權(quán)衡時(shí)間與效果后,進(jìn)行了一定的妥協(xié)。在進(jìn)行參數(shù)敏感度實(shí)驗(yàn)時(shí),首先固定其他參數(shù)為1,在[10-2,102]內(nèi)以10倍間隔對參數(shù)λ1進(jìn)行選擇;獲得此時(shí)λ1最佳值后固定λ1,在[10-2,102]內(nèi)以10倍間隔對參數(shù)λ2進(jìn)行選擇;獲得此時(shí)λ1和λ2最佳值后固定λ1和λ2,在[10-2,102]內(nèi)以10倍間隔對參數(shù)λ3進(jìn)行選擇,直到獲得所有參數(shù)的妥協(xié)最佳值。當(dāng)獲得所有參數(shù)的最佳值后,為測試參數(shù)的敏感度,在更大的范圍內(nèi)如[10-4,103]以10倍間隔對所有參數(shù)進(jìn)行敏感度實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,在固定其他參數(shù)的情況下,當(dāng)λ1小于10-2時(shí),聚類效果良好且在較小的范圍內(nèi)波動(dòng)。同樣,當(dāng)λ2小于101、λ2小于100、λ5小于10-1時(shí),C2MSCN均能取得良好的聚類效果,且參數(shù)具有較廣泛的選擇范圍。這說明C2MSCN的參數(shù)的選擇具有一定的魯棒性。圖4表明,選擇合適的λ3對聚類效果具有很大的提升,恰當(dāng)?shù)赝诰蚨嘁暯菙?shù)據(jù)間的互補(bǔ)信息是提升多視角聚類效果的關(guān)鍵。 3.2.3 收斂性實(shí)驗(yàn) 為驗(yàn)證本文算法的收斂性,對Yale數(shù)據(jù)集進(jìn)行收斂性實(shí)驗(yàn),結(jié)果如圖7所示??梢钥闯?在200次迭代后,本文算法的聚類效果已達(dá)到最優(yōu)且在小范圍內(nèi)上下波動(dòng)。在其他數(shù)據(jù)集上同樣如此。由此,本文算法的收斂性得到了驗(yàn)證。 圖7 收斂性實(shí)驗(yàn)結(jié)果 3.2.4 消融性實(shí)驗(yàn) 為驗(yàn)證多樣性規(guī)范化和自監(jiān)督規(guī)范化項(xiàng)的有效性,在Yale數(shù)據(jù)集上對C2MSCN算法進(jìn)行了消融性實(shí)驗(yàn)研究,結(jié)果如表7所示。表中:M1為不帶自監(jiān)督規(guī)范化項(xiàng)和多樣性規(guī)范化的算法;M2為只有自監(jiān)督規(guī)范化項(xiàng)的算法;M3為只有多樣性規(guī)范化的算法;M4為C2MSCN算法;效果最好的數(shù)據(jù)用加粗表示。 表7 在Yale數(shù)據(jù)集上的消融性實(shí)驗(yàn)結(jié)果1 由表7可以看出:M2性能超過了M1,說明自監(jiān)督規(guī)范化項(xiàng)對自表達(dá)系數(shù)矩陣學(xué)習(xí)的監(jiān)督有效提升了聚類效果;M3的性能超越了M1,說明多樣性規(guī)范化有效地挖掘多視角間的互補(bǔ)信息,提升了聚類效果;M4的性能超過了M1、M2、M3,說明自監(jiān)督規(guī)范化項(xiàng)和多樣性規(guī)范化能同時(shí)提聚類效果。由此,加入多樣性規(guī)范化和自監(jiān)督規(guī)范化項(xiàng)的有效性得到了驗(yàn)證。 為驗(yàn)證公有自表達(dá)系數(shù)和私有自表達(dá)系數(shù)對聚類效果結(jié)果的影響,在Yale數(shù)據(jù)集上對C2MSCN算法進(jìn)行了消融性實(shí)驗(yàn)研究,結(jié)果如表8所示。表中:N1為只利用式(10)第1項(xiàng)構(gòu)造相似度矩陣S的算法;N2為只利用式(10)第2項(xiàng)構(gòu)造相似度矩陣S的算法;N3為C2MSCN算法;效果最好的數(shù)據(jù)用加粗表示。 表8 在Yale數(shù)據(jù)集上的消融性實(shí)驗(yàn)結(jié)果2 由表8可以看出,N1的性能超過了N2,即僅利用多視角數(shù)據(jù)的一致性信息對聚類性能的影響超越了僅利用多視角數(shù)據(jù)的互補(bǔ)性信息,說明在本實(shí)驗(yàn)中多視角數(shù)據(jù)的一致性信息包含了更多有效的聚類信息;N3的性能超過了N1,說明同時(shí)利用多視角數(shù)據(jù)的互補(bǔ)性與一致性信息能有效地提聚類效果。由此,公有自表達(dá)系數(shù)和私有自表達(dá)系數(shù)對結(jié)果的影響得到了驗(yàn)證。 多視角子空間聚類算法的研究中,如何在非線性子空間中同時(shí)充分地挖掘多視角數(shù)據(jù)間的互補(bǔ)性與一致性信息是提升聚類效果的關(guān)鍵。針對這個(gè)問題,本文提出了一種互補(bǔ)與一致的多視角子空間聚類網(wǎng)絡(luò),用來自監(jiān)督式地在非線性子空間中同時(shí)探索多視角數(shù)據(jù)的互補(bǔ)性與一致性信息,提升聚類效果。本文的主要結(jié)論如下。 (1)提出了一種多視角子空間網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過深度自編碼器將多視角數(shù)據(jù)映射到非線性空間,以探索多視角數(shù)據(jù)的非線性子空間關(guān)系。通過規(guī)定公共自表達(dá)矩陣和私有自表達(dá)矩陣,同時(shí)探索數(shù)據(jù)的互補(bǔ)性與一致性信息。利用多樣性規(guī)范化充分挖掘多視角數(shù)據(jù)間的互補(bǔ)信息。添加譜聚類模塊對中間結(jié)果聚類獲得聚類標(biāo)簽信息,并利用自監(jiān)督規(guī)范化項(xiàng)監(jiān)督自表達(dá)系數(shù)矩陣的學(xué)習(xí)。 (2)6個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法的N、A、R、F這4個(gè)評價(jià)指標(biāo)在大部分?jǐn)?shù)據(jù)集上優(yōu)于其他算法的,其中在Yale數(shù)據(jù)集上,比近期提出的CSMSC、DMSCN和Ae2-Nets算法分別提高了8.3%、6.3%和11.7%。 (3)由參數(shù)敏感度實(shí)驗(yàn)可以看出,多樣性規(guī)范化項(xiàng)參數(shù)的穩(wěn)定性不夠,選擇范圍不夠?qū)?如何更穩(wěn)定地挖掘互補(bǔ)信息有待后續(xù)研究。3 實(shí) 驗(yàn)
3.1 實(shí)驗(yàn)設(shè)置
3.2 結(jié)果分析
4 結(jié) 論