• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于StarGAN和子空間學(xué)習(xí)的缺失多視圖聚類

      2021-01-05 05:51:26劉小蘭葉澤慧
      關(guān)鍵詞:鑒別器視圖聚類

      劉小蘭 葉澤慧

      (華南理工大學(xué) 數(shù)學(xué)學(xué)院,廣東 廣州 510640)

      現(xiàn)實(shí)世界中的許多數(shù)據(jù)集由不同的表示或視圖組成。對(duì)于同一個(gè)數(shù)據(jù),可以根據(jù)該數(shù)據(jù)的不同特征進(jìn)行劃分,每種特征代表一種視圖數(shù)據(jù)。例如,網(wǎng)頁(yè)可通過(guò)文本或網(wǎng)頁(yè)鏈接的形式獲取數(shù)據(jù),從而構(gòu)成兩個(gè)視圖的多視圖數(shù)據(jù);同一個(gè)故事可以在不同的新聞中被講述,一份文件可以被翻譯成多種不同的語(yǔ)言等等。通常,多視圖為語(yǔ)義相同的數(shù)據(jù)提供兼容和互補(bǔ)信息,因此將它們集成在一起能獲得比單視圖更好的性能[1]。多視圖聚類的目的是基于對(duì)象的多個(gè)表示將對(duì)象劃分為若干個(gè)簇。近年來(lái)利用多視圖數(shù)據(jù)的互補(bǔ)性和一致性,研究者們提出了很多多視圖聚類算法?,F(xiàn)有的多視圖聚類算法大致可分為4類。第1類方法是基于子空間的方法[2- 6],這些方法學(xué)習(xí)一個(gè)潛在空間,將不同視圖的數(shù)據(jù)都投影到這個(gè)潛在空間。第2類方法是基于協(xié)同訓(xùn)練的方法[7- 9],這些方法用迭代聚類的方式獲得聚類結(jié)果。第3類稱為后期融合[10- 12],它通過(guò)投票或其他融合策略將不同視圖的聚類結(jié)果結(jié)合起來(lái)。最后一類方法是在多視圖數(shù)據(jù)之間學(xué)習(xí)一個(gè)一致的、可用于最終聚類的相似矩陣[13]。

      應(yīng)該指出的是,以前的多視圖聚類方法通常假定所有視圖都具有完整的信息,即數(shù)據(jù)庫(kù)中的每個(gè)視圖都具有完整的特征集。然而,在實(shí)際應(yīng)用中,經(jīng)常會(huì)出現(xiàn)一些視圖缺少信息的情況。例如,一份損壞的文件有英語(yǔ)和中文兩個(gè)版本,即英語(yǔ)和中文分別為文件的兩個(gè)視圖,并且這兩個(gè)視圖都存在信息缺失,現(xiàn)在需要對(duì)文件里的內(nèi)容進(jìn)行聚類,由此產(chǎn)生了缺失多視圖聚類問(wèn)題。針對(duì)缺失多視圖聚類問(wèn)題,常見的方法可分為兩大類。第1類是基于核的方法。RAI等[14]和Shao等[15]提出補(bǔ)全不完全多視圖核矩陣的方法,然后使用基于內(nèi)核的聚類方法進(jìn)行聚類。然而,這些方法只能處理基于核的多視圖聚類算法,這極大地限制了它們擴(kuò)展到更廣泛的多視圖聚類方法。第2類是基于非負(fù)矩陣分解(NMF)的方法。Li等[16]提出了一種基于非負(fù)矩陣分解的缺失多視圖聚類方法PVC,但它只能處理兩個(gè)視圖的問(wèn)題。Shao等[17]提出了一種魯棒的帶l2,1正則化的加權(quán)非負(fù)矩陣分解的缺失多視圖聚類算法MIC。Rai等[18]探索每個(gè)視圖中數(shù)據(jù)分布的內(nèi)在幾何結(jié)構(gòu),將PVC方法擴(kuò)展到兩個(gè)視圖以上的情況,并考慮了各個(gè)視圖的圖拉普拉斯正則化,提出了GPMVC算法。Zhao等[19]考慮了多視圖數(shù)據(jù)的緊湊全局結(jié)構(gòu),通過(guò)拉普拉斯項(xiàng)將不同視圖缺失的樣本數(shù)據(jù)連接起來(lái)。Yin等[1]對(duì)缺失多視圖數(shù)據(jù)學(xué)習(xí)統(tǒng)一的潛在表示和投影矩陣,所學(xué)的潛在表示即為歸一化指標(biāo)矩陣的一個(gè)近似。Xu等[20]提出了一種同時(shí)進(jìn)行潛在表示學(xué)習(xí)和子空間聚類的統(tǒng)一框架。然而,這些方法都有一些局限性,限制了其應(yīng)用:

      (1)利用非負(fù)矩陣分解來(lái)學(xué)習(xí)數(shù)據(jù)的潛在表示,它不能很好地處理帶有負(fù)特征表示的數(shù)據(jù)。

      (2)非負(fù)矩陣分解方法利用了正則化方法來(lái)約束新表示,因此在每個(gè)視圖中沒(méi)有顯式地補(bǔ)全丟失的數(shù)據(jù)。

      針對(duì)上述問(wèn)題,受到文獻(xiàn)[21]提出的生成式方法的啟發(fā),考慮先補(bǔ)全各視圖缺失的數(shù)據(jù),然后再用完整的多視圖聚類方法對(duì)多視圖數(shù)據(jù)進(jìn)行聚類。也就是說(shuō),通過(guò)直接補(bǔ)全缺失的樣本,缺失多視圖聚類問(wèn)題可以轉(zhuǎn)化為完整的多視圖聚類問(wèn)題,這使得在進(jìn)行聚類任務(wù)時(shí),對(duì)于聚類模型的選擇可以更廣泛。極大似然估計(jì)法、近似法、馬爾科夫鏈法等都是傳統(tǒng)的生成式方法。最近,基于深度神經(jīng)網(wǎng)絡(luò)(DNN)構(gòu)建的生成式模型在圖像合成、圖像轉(zhuǎn)換、超分辨率成像和人臉圖像合成等方面都獲得了成功,典型的網(wǎng)絡(luò)結(jié)構(gòu)包括循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[22]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[23]、變分自編碼器(VAE)[24]和生成對(duì)抗網(wǎng)絡(luò)(GAN)[25- 28]等。其中,GAN避免了馬爾科夫鏈?zhǔn)降膶W(xué)習(xí)機(jī)制的缺點(diǎn),當(dāng)真實(shí)數(shù)據(jù)樣本概率密度不可計(jì)算時(shí),模型依然可以應(yīng)用[29]。它在結(jié)構(gòu)上受博弈論中二人零和博弈啟發(fā),通過(guò)構(gòu)建生成模型和判別模型捕捉真實(shí)數(shù)據(jù)樣本的潛在分布并生成新的數(shù)據(jù)樣本。例如,Isola等[26]利用配對(duì)訓(xùn)練數(shù)據(jù)的條件生成對(duì)抗網(wǎng)絡(luò)[28]將圖像從一種分布轉(zhuǎn)移到另一種分布,并發(fā)展了Pix2Pix生成對(duì)抗網(wǎng)絡(luò),在圖像成對(duì)轉(zhuǎn)換工作中取得了不錯(cuò)的結(jié)果。可是,Pix2Pix只適用于成對(duì)的圖像。為了解決這個(gè)問(wèn)題,Zhu等[27]提出了循環(huán)生成對(duì)抗網(wǎng)絡(luò),它利用循環(huán)一致性損失保存輸入和轉(zhuǎn)換后的圖像之間的關(guān)鍵屬性來(lái)訓(xùn)練未配對(duì)圖像,具有比Pix2Pix生成對(duì)抗網(wǎng)絡(luò)更好的性能。但無(wú)論是 Pix2Pix生成對(duì)抗網(wǎng)絡(luò)還是循環(huán)生成對(duì)抗網(wǎng)絡(luò),都只解決了從一個(gè)域到另一個(gè)域的圖像轉(zhuǎn)換問(wèn)題。當(dāng)有很多域需要轉(zhuǎn)換時(shí),對(duì)于每一對(duì)域轉(zhuǎn)換,都需要重新訓(xùn)練一個(gè)模型去解決。也就是說(shuō),對(duì)于含有K個(gè)域的轉(zhuǎn)換問(wèn)題,循環(huán)生成對(duì)抗網(wǎng)絡(luò)等需要學(xué)習(xí)K*(K-1)個(gè)生成模型。最近,Choi等[30]提出的星型生成對(duì)抗網(wǎng)絡(luò)(StarGAN),通過(guò)加入一個(gè)域的控制信息,解決了多域間的轉(zhuǎn)換問(wèn)題,它僅需要學(xué)習(xí)一個(gè)模型,并且具有更好的效果。

      文獻(xiàn)[21]中基于循環(huán)生成對(duì)抗網(wǎng)絡(luò)提出了一種缺失多視圖聚類方法CGPMVC。CGPMVC不僅可以捕獲良好的聚類結(jié)構(gòu),還推斷出缺失的視圖數(shù)據(jù)。然而,CGPMVC存在兩個(gè)缺陷。第一,CGPMVC是基于循環(huán)生成對(duì)抗網(wǎng)絡(luò)提出的,所以它繼承了循環(huán)生成對(duì)抗網(wǎng)絡(luò)的缺點(diǎn),即當(dāng)有很多域需要轉(zhuǎn)換時(shí),對(duì)于每一對(duì)域轉(zhuǎn)換,都需要重新訓(xùn)練一個(gè)模型去解決,這可能導(dǎo)致模型難以訓(xùn)練且過(guò)于復(fù)雜。第二,CGPMVC沒(méi)有充分利用視圖的信息,對(duì)于3個(gè)及以上的缺失多視圖,它沒(méi)有考慮到不同視圖對(duì)對(duì)應(yīng)的生成模型生成的數(shù)據(jù)之間的聯(lián)系,即它的每對(duì)生成模型是割裂的。對(duì)于3個(gè)及以上的缺失多視圖聚類問(wèn)題,考慮到StarGAN僅需要學(xué)習(xí)一個(gè)生成模型,通過(guò)加入一個(gè)控制信息就能指導(dǎo)各缺失視圖數(shù)據(jù)的生成,并建立各個(gè)視圖的聯(lián)系,文中提出了一種基于StarGAN和子空間學(xué)習(xí)的缺失多視圖聚類模型SSPMVC。SSPMVC首先構(gòu)建基于DNN的編碼模型將多視圖數(shù)據(jù)映射至同一表征空間,然后將編碼后的多視圖數(shù)據(jù)通過(guò)基于StarGAN的生成模型生成其它視圖缺失的數(shù)據(jù)。這里的生成模型僅要學(xué)習(xí)一個(gè)生成器就可以生成多個(gè)視圖缺失的數(shù)據(jù),并且充分考慮了各視圖數(shù)據(jù)之間的完整性與一致性。接著構(gòu)建一個(gè)基于子空間的聚類模型,該聚類模型利用各視圖數(shù)據(jù)的互補(bǔ)性學(xué)習(xí)了一個(gè)具有良好聚類性質(zhì)的潛在子空間結(jié)構(gòu)。它將學(xué)習(xí)的各個(gè)視圖的低維相似矩陣進(jìn)行融合,得到包含所有視圖信息的相似矩陣,最后進(jìn)行譜聚類。在幾個(gè)多視圖數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)驗(yàn)證了本文中提出算法的有效性。

      1 相關(guān)工作

      1.1 多視圖子空間聚類

      近年來(lái),許多論文[34- 38]致力于利用輸入數(shù)據(jù)的自表示和對(duì)自表示矩陣添加約束得到一個(gè)良好的相似矩陣。更具體地說(shuō),對(duì)數(shù)據(jù)M∈Rd×n(每列為一個(gè)數(shù)據(jù)),通過(guò)求解下面的優(yōu)化問(wèn)題來(lái)得到相似矩陣C:

      (1)

      式中,d表示數(shù)據(jù)的維數(shù),n表示數(shù)據(jù)的個(gè)數(shù),C∈Rn×n對(duì)應(yīng)M的自表示矩陣,||·||F表示Frobenius范數(shù),R(C)表示正則化條件。這些方法的主要區(qū)別在于R(C)的選擇。例如,稀疏子空間聚類(SSC)[39]中的C用“l(fā)1-范數(shù)”使C成為稀疏的,而低秩表示(LRR)[34]的C則采用核范數(shù)作為R(·),使C成為低秩的。求得C后,通過(guò)A=|C|+|CT|建立一個(gè)親和矩陣,然后對(duì)A進(jìn)行譜聚類,最終得到數(shù)據(jù)的聚類結(jié)果。

      文獻(xiàn)[2- 6,13,38- 39]中將上述單視圖子空間聚類算法推廣到了多視圖子空間聚類算法。多視圖子空間聚類模型的一般描述如下:

      (2)

      式中,Xi,Ci分別表示第i個(gè)視圖的原數(shù)據(jù)和其對(duì)應(yīng)的子空間表示,R(Ci)為正則項(xiàng)。根據(jù)正則項(xiàng)R(Ci)的不同,這些多視圖子空間聚類方法可分為3類。第1類方法學(xué)習(xí)不同視圖間的互補(bǔ)信息[13,38]。第2類方法學(xué)習(xí)不同視圖間的共享結(jié)構(gòu),保證視圖間聚類結(jié)果的一致性[5- 6]。第3類方法是前面兩種方法的結(jié)合,它同時(shí)學(xué)習(xí)視圖間的互補(bǔ)性和一致性,更全面地描述多視圖數(shù)據(jù)[39]。

      1.2 星型生成對(duì)抗網(wǎng)絡(luò)(StarGAN)

      近年來(lái),生成對(duì)抗網(wǎng)絡(luò)在圖像生成、圖像轉(zhuǎn)換、超分辨率成像以及人臉圖像合成等計(jì)算機(jī)視覺任務(wù)中取得了不錯(cuò)的效果[25- 26,30,40]。典型的生成對(duì)抗模型由兩個(gè)模塊組成:鑒別器和生成器。生成器G的主要作用是生成圖片,即輸入一個(gè)隨機(jī)編碼z,生成假樣本G(z)。判別器D的主要作用是判斷輸入是否為真實(shí)圖片并提供反饋機(jī)制。

      由于很多圖像轉(zhuǎn)換工作在處理多個(gè)域的圖像轉(zhuǎn)換任務(wù)時(shí),效率都比較低,因?yàn)楸仨殲槊繉?duì)域訓(xùn)練不同的模型。這就導(dǎo)致它們沒(méi)有充分利用訓(xùn)練數(shù)據(jù),影響了生成的圖像的質(zhì)量。星型生成對(duì)抗網(wǎng)絡(luò)StarGAN[30]的提出解決了這些問(wèn)題,它僅用一個(gè)模型就實(shí)現(xiàn)了多個(gè)域的轉(zhuǎn)換。StarGAN的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。假定x為輸入的圖片,b′為原域,b為目標(biāo)域。訓(xùn)練生成器G時(shí),StarGAN將(x,b)作為生成器的輸入,生成假圖片x′,再將(x′,b′)輸入生成器G,用它重構(gòu)圖片x。訓(xùn)練鑒別器D時(shí),將(x,b′)和(x′,b)作為鑒別器的輸入,鑒別器要學(xué)會(huì)判斷圖片是否真實(shí)以及將圖片分類到其對(duì)應(yīng)的域中。StarGAN的主要工作如下:

      (1)為了指導(dǎo)各個(gè)域圖像的生成,在生成器G的輸入中添加目標(biāo)領(lǐng)域信息b,得到對(duì)抗損失Ladv:

      Ladv=Ex[logDsrc(x)]+

      Ex,c[log(1-Dsrc(G(x,b)))]

      (3)

      式中,Dsrc(x)為鑒別器D給出的數(shù)據(jù)的概率分布。

      (4)

      (5)

      式中,Dcls(b′|x)代表由D計(jì)算的原域b′上的概率分布。

      (3)為了保證圖像轉(zhuǎn)換過(guò)程中圖像內(nèi)容的保存,只改變域差異的部分信息,引入圖像重構(gòu)。圖像重構(gòu)是指圖像從原始域轉(zhuǎn)換到目標(biāo)域,再將轉(zhuǎn)化后的目標(biāo)域中的圖像轉(zhuǎn)換回原域,要保證轉(zhuǎn)換后的圖像與原圖像一致,于是得到循環(huán)一致性損失Lrec:

      Lrec=Ex,b,b′[||x-G(G(x,b),b′)||1]

      (6)

      圖1 StarGAN框架

      2 基于StarGAN和子空間學(xué)習(xí)的缺失多視圖聚類

      基于神經(jīng)網(wǎng)絡(luò)的缺失多視圖聚類方法CGPMVC[21],雖然利用已有的數(shù)據(jù)信息推斷出了缺失的視圖信息,但對(duì)于每一對(duì)視圖,都需要訓(xùn)練一個(gè)模型去生成缺失的數(shù)據(jù),并且沒(méi)有考慮到不同生成模型生成的數(shù)據(jù)之間的關(guān)系??紤]到StarGAN能有效處理多于兩個(gè)視圖的缺失視圖的生成問(wèn)題,基于自表示的多視圖子空間聚類算法能很好學(xué)習(xí)不同視圖間的互補(bǔ)信息,提出了一種基于StarGAN和子空間學(xué)習(xí)的缺失多視圖聚類方法SSPMVC。SSPMVC算法的網(wǎng)絡(luò)框架如圖2所示。SSPMVC算法將數(shù)據(jù)生成過(guò)程和子空間學(xué)習(xí)過(guò)程結(jié)合,充分利用已有的數(shù)據(jù)信息。首先補(bǔ)全缺失的數(shù)據(jù),生成完整的多視圖數(shù)據(jù),然后學(xué)習(xí)各個(gè)完整視圖的子空間表示,并將它們的信息融合,得到包含所有視圖信息的相似矩陣,再將該矩陣用于譜聚,以獲得更好的聚類結(jié)果。

      圖2 模型框架

      2.1 基于StarGAN的多視圖數(shù)據(jù)生成模型

      (7)

      將多視圖數(shù)據(jù)映射到同一潛在空間后,接下來(lái)就要用得到的表征向量來(lái)生成各個(gè)缺失視圖的數(shù)據(jù)。傳統(tǒng)的對(duì)抗網(wǎng)絡(luò)只以隨機(jī)變量z作為模型的輸入,無(wú)法指定生成器生成某一特定視圖對(duì)應(yīng)的數(shù)據(jù)。為此采用StarGAN的思想,在生成器和鑒別器引入條件變量b,來(lái)指導(dǎo)各個(gè)視圖數(shù)據(jù)的生成,得到對(duì)抗損失如下:

      (8)

      下面以三視圖缺失數(shù)據(jù)的生成為例加以說(shuō)明。三視圖數(shù)據(jù)的缺失情況如圖3所示,包括6種情況。對(duì)于圖3中間的3種情況,每個(gè)實(shí)例僅在一個(gè)視圖上有數(shù)據(jù),可以由該已知視圖上的數(shù)據(jù)去生成缺失視圖對(duì)應(yīng)的數(shù)據(jù)。對(duì)于最后一列的3種情況,也可以由已知視圖上的數(shù)據(jù)去生成缺失視圖對(duì)應(yīng)的數(shù)據(jù),不過(guò)這時(shí)每個(gè)實(shí)例在多個(gè)視圖上存在樣本。對(duì)每個(gè)實(shí)例,每次隨機(jī)挑選兩個(gè)視圖上的樣本,用這兩個(gè)樣本分別生成缺失視圖上的樣本,這時(shí)要保證它們生成的樣本是一致的,于是得到如下的生成損失:

      (9)

      式中,ak∈Xk、al∈Xl為同一實(shí)例在視圖k、l上對(duì)應(yīng)的樣本,且該實(shí)例在視圖j不存在對(duì)應(yīng)的樣本。生成損失充分考慮了視圖間的兼容性和互補(bǔ)性,利用已有的視圖信息,保證了生成數(shù)據(jù)的一致性。

      圖3 多視圖的缺失情況

      (10)

      (11)

      式中,Dcls(b|xi)代表由D計(jì)算的域標(biāo)簽上的概率分布。

      通過(guò)最小化自編碼損失、對(duì)抗損失和分類損失,訓(xùn)練生成器G可以生成真實(shí)且被分類到其正確目標(biāo)域的數(shù)據(jù)。然而,生成模型僅被訓(xùn)練成將輸入數(shù)據(jù)映射到目標(biāo)域中的任意樣本。這說(shuō)明了僅靠這三個(gè)目標(biāo)損失不能保證視圖間的數(shù)據(jù)一一對(duì)應(yīng)。對(duì)于每一個(gè)樣本,在通過(guò)周期循環(huán)后,應(yīng)該被重構(gòu)回本身,即生成器應(yīng)該將給定樣本映射到期望的輸出。為此,引入StarGAN的循環(huán)一致性損失:

      (12)

      2.2 基于子空間學(xué)習(xí)的多視圖聚類模型

      通過(guò)上一小節(jié),已經(jīng)訓(xùn)練了生成器和鑒別器,以生成多視圖缺失的數(shù)據(jù)。這一小節(jié)主要是構(gòu)造一個(gè)用于實(shí)現(xiàn)聚類的模型。

      子空間聚類利用原始數(shù)據(jù)的自表示特性,即每個(gè)數(shù)據(jù)點(diǎn)可以通過(guò)數(shù)據(jù)本身的有效組合來(lái)重建,來(lái)探索潛在子空間結(jié)構(gòu)。受到文獻(xiàn)[2- 6,9- 13,34- 38]的啟發(fā),嘗試構(gòu)建一個(gè)基于子空間的多視圖聚類模型。首先學(xué)習(xí)各個(gè)視圖的自表示,目標(biāo)函數(shù)如下:

      (13)

      (14)

      注意到引入權(quán)重向量W∈RV的l2范數(shù)作為正則項(xiàng),是為了避免平凡解,即W中僅有一個(gè)wi等于1,其它的都為0。這意味著只有一個(gè)視圖起作用,而其它視圖沒(méi)有貢獻(xiàn)。

      綜上所述,得到聚類模型的損失函數(shù):

      (15)

      2.3 模型求解

      綜合2.1和2.2節(jié),可以得到SSPMVC的優(yōu)化模型如下:

      LG=λAE×LAE+λadv×Ladv+λgen×Lgen+

      λcls×Lcls+λrec×Lrec

      (16)

      LGC=LG+λC×LC

      (17)

      (18)

      式中:LG是生成器的損失函數(shù);LGC是生成損失和聚類損失函數(shù);LD是鑒別器的損失函數(shù);λAE、λadv、λgen、λcls、λrec、λc是用于平衡自編碼損失、對(duì)抗損失、生成損失、分類損失、循環(huán)一致?lián)p失和聚類損失的超參數(shù)。

      為了使生成模型和聚類模型互相促進(jìn),SSPMVC交替優(yōu)化生成模型和聚類模型的參數(shù)。其中,LGC優(yōu)化學(xué)習(xí)編碼器、解碼器、生成器和聚類模型的參數(shù),LD優(yōu)化學(xué)習(xí)鑒別器的參數(shù),并且每?jī)?yōu)化4或5次模型的其它參數(shù),再優(yōu)化1次鑒別器的參數(shù)。

      同時(shí),為了使生成器也能更好地捕捉各個(gè)視圖的特征,還將自編碼損失LAE修改為

      (19)

      SSPMVC算法的具體步驟和過(guò)程見算法1。

      算法1 #SSPMVC算法

      輸入:缺失多視圖數(shù)據(jù)集合X={X1,…,Xi,…,Xv},參數(shù)λAE、λadv、λgen、λcls、λrec、λc、λ1、λ2、λ3迭代次數(shù)Max,批處理數(shù)S。

      步驟1 訓(xùn)練星型生成對(duì)抗網(wǎng)絡(luò)

      1.for epoch=1 to Max:

      2.從V個(gè)視圖各挑選S個(gè)對(duì)應(yīng)相同的樣本,若存在視圖不存在某個(gè)樣本,從該視圖隨機(jī)挑選一個(gè)樣本代替;

      3.計(jì)算式(16);

      4.更新鑒別器D的參數(shù);

      5.if epoch%5==0:

      6.計(jì)算式(18);

      8.end if

      9.end for

      步驟2 訓(xùn)練完整網(wǎng)絡(luò)

      10.for epoch=1 to Max:

      11.從V個(gè)視圖各挑選S個(gè)對(duì)應(yīng)相同的樣本,若存在視圖不存在某個(gè)樣本,從該視圖隨機(jī)挑選一個(gè)樣本代替;

      12.計(jì)算式(16);

      13.更新鑒別器D的參數(shù);

      14.if epoch%5==0:

      15.計(jì)算式(18);

      17.end if

      18.end for

      輸出:C*

      3 實(shí)驗(yàn)分析

      本節(jié)中將本文提出的算法SSPMVC在4個(gè)數(shù)據(jù)庫(kù)(3Sources、COIL20、UCI Digit、MNIST)上與一些先進(jìn)的缺失多視圖聚類方法,包括傳統(tǒng)的缺失多視圖聚類方法PVC[16]、MIC[17]、GPMVC[18]以及基于神經(jīng)網(wǎng)絡(luò)的多視圖聚類方法CGPMVC[21]進(jìn)行了比較。

      3.1 數(shù)據(jù)庫(kù)

      實(shí)驗(yàn)采用的4個(gè)數(shù)據(jù)庫(kù):3Sources,COIL20,UCI Digit和MNIST的詳細(xì)信息如表1所示。

      表1 數(shù)據(jù)集描述

      3Sources:它來(lái)自3個(gè)在線新聞源:BBC,Reuters和Guardian,每個(gè)新聞源都可以看作是新聞報(bào)道的一個(gè)視圖??偣灿?48篇報(bào)道,包含416個(gè)不同的新聞報(bào)道。在這些不同的故事中,有169個(gè)在所有3個(gè)新聞源中均有報(bào)告,194個(gè)在兩個(gè)新聞源中有報(bào)告,53個(gè)出現(xiàn)在單一新聞源中。每個(gè)故事都有6個(gè)主題標(biāo)簽之一:商業(yè)、娛樂(lè)、健康、政治、體育、科技。其中,BBC、Reuters和Guardian新聞源的缺失率分別為15.38%、29.33%、27.40%。用IF-TDF對(duì)這3個(gè)視圖進(jìn)行預(yù)處理,得到3 068維的BBC特征,3 560維的Guardian特征和3 632維的Reuters特征。

      COIL20:由1 440幅圖像組成,有20個(gè)類別,每個(gè)類別有72個(gè)角度。同樣的,實(shí)驗(yàn)提取它的兩個(gè)不同的特征:1 024維的Intensity特征和3 304維的LBP特征,構(gòu)成兩個(gè)視圖的數(shù)據(jù)。

      UCI Digit:由從0到9的10個(gè)類組成的包含 2 000 幅圖像的手寫數(shù)字?jǐn)?shù)據(jù)庫(kù)。每個(gè)類包含200個(gè)樣本,一共有5個(gè)特征。在實(shí)驗(yàn)中,選取其中兩個(gè)特征:76維的Fourier coefficients和216維的Profile coefficients,構(gòu)成兩個(gè)視圖的數(shù)據(jù)。

      MNIST:它是一個(gè)手寫數(shù)字圖像數(shù)據(jù)集,每個(gè)圖像裁剪為28×28像素。類似于論文[21]的實(shí)驗(yàn)設(shè)置,隨機(jī)選擇4 000個(gè)圖像作為一個(gè)子集。論文用VGG網(wǎng)絡(luò)提取了它的兩個(gè)特征:784維的Intensity特征和4 096維的Edge特征。

      3.2 實(shí)現(xiàn)細(xì)節(jié)

      由于3Sources數(shù)據(jù)庫(kù)本身是缺失的數(shù)據(jù)庫(kù),BBC、Reuters和Guardian新聞源的缺失率分別為15.38%、29.33%、 27.40%,直接使用該數(shù)據(jù)庫(kù)。而數(shù)據(jù)庫(kù)COIL20和UCI Digit為完整數(shù)據(jù)庫(kù),所以在每個(gè)缺失率下隨機(jī)挑選數(shù)據(jù)形成缺失的多視圖數(shù)據(jù)。缺失率(PER)設(shè)置為0.1、0.3、0.5、0.7和0.9。缺失率為0.1表示每個(gè)視圖的完整度為90%。

      3.3 實(shí)驗(yàn)結(jié)果

      使用聚類精確度(ACC)和歸一化互信息(NMI)這兩個(gè)指標(biāo)來(lái)對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià)。為了保證結(jié)果的穩(wěn)定性和準(zhǔn)確性,SSPMVC和其他4個(gè)比較的算法都進(jìn)行10次試驗(yàn),取10次的平均值作為最終結(jié)果,結(jié)果見表2、表3、表4和表5,黑體表示最佳結(jié)果。從表2-5可以看出:

      表2 3Sources上的聚類結(jié)果

      表3 COIL20(Intensity-LBP)上的聚類結(jié)果

      表4 UCI Digit(Fourier-Profile)上的聚類結(jié)果

      表5 MNIST(Intensity-Edge)上的聚類結(jié)果

      (1)與已有的4個(gè)算法相比,除了COIL20數(shù)據(jù)集和MNIST數(shù)據(jù)集上缺失率0.9的NMI,以及UCI Digit數(shù)據(jù)集上缺失率0.3、0.9的NMI外,SSPMVC在4個(gè)數(shù)據(jù)庫(kù)上的ACC和NMI都是最高的。與傳統(tǒng)多視圖聚類方法PVC、MIC和GPMVC相比,對(duì)于3Sources數(shù)據(jù)庫(kù),SSPMVC在ACC和NMI指標(biāo)上分別相對(duì)獲得超過(guò)至少28%和18%以上的聚類質(zhì)量;對(duì)于COIL20數(shù)據(jù)庫(kù)中的多視圖Intensity-LBP,SSPMVC在ACC指標(biāo)上相對(duì)獲得超過(guò)至少8%以上的聚類質(zhì)量,在NMI指標(biāo)上,除缺失率為0.9的情況,可以相對(duì)獲得超過(guò)至少3%以上的聚類質(zhì)量;對(duì)于UCI Digit數(shù)據(jù)庫(kù)中的多視圖Fourier-Profile,SSPMVC在ACC指標(biāo)上可以相對(duì)獲得超過(guò)至少10%以上的聚類質(zhì)量,在NMI指標(biāo)上,

      除缺失率為0.9的情況,可以相對(duì)獲得超過(guò)至少6%以上的聚類質(zhì)量;對(duì)于MNIST數(shù)據(jù)庫(kù)中的多視圖Intensity-Edge,SSPMVC在ACC指標(biāo)上可以相對(duì)獲得超過(guò)至少13%以上的聚類質(zhì)量,在NMI指標(biāo)上,可以相對(duì)獲得超過(guò)至少6%以上的聚類質(zhì)量。與基于神經(jīng)網(wǎng)絡(luò)的多視圖聚類方法CGPMVC相比,對(duì)于3Sources數(shù)據(jù)庫(kù),SSPMVC在ACC和NMI指標(biāo)上分別相對(duì)獲得超過(guò)至少86%和76%以上的聚類質(zhì)量,對(duì)于COIL20數(shù)據(jù)庫(kù)中的多視圖Intensity-LBP,SSPMVC在ACC指標(biāo)上可以相對(duì)獲得超過(guò)至少4%以上的聚類質(zhì)量,在NMI指標(biāo)上基本可以相對(duì)獲得超過(guò)至少1%以上的聚類質(zhì)量;對(duì)于UCI Digit數(shù)據(jù)庫(kù)中的多視圖Fourier-Profile,SSPMVC在ACC指標(biāo)上可以相對(duì)獲得超過(guò)至少1%以上的聚類質(zhì)量,在NMI指標(biāo)上,除缺失率為0.3的情況,基本可以相對(duì)獲得超過(guò)至少1%以上的聚類質(zhì)量;對(duì)于MNIST數(shù)據(jù)庫(kù)中的多視圖Intensity-Edge,SSPMVC在ACC指標(biāo)上可以相對(duì)獲得超過(guò)至少18%以上的聚類質(zhì)量,在NMI指標(biāo)上,除缺失率為0.9的情況,可以相對(duì)獲得超過(guò)至少4%以上的聚類質(zhì)量。

      (2)圖4的兩幅圖分別展示了5個(gè)算法在UCIDigit和COIL20數(shù)據(jù)集不同缺失率的聚類精確度。從圖4可以看出,由于缺失數(shù)據(jù)會(huì)降低多視圖聚類方法的性能,所以隨著缺失率越來(lái)越大,所有方法的聚類性能基本都會(huì)下降,但是文中的方法SSPMVC相對(duì)而言下降較小,說(shuō)明SSPMVC是比較魯棒的。當(dāng)缺失率由0.9減小到0.7或由0.7減小到0.5時(shí),SSPMVC的聚類性能迅速上升,這說(shuō)明在缺失率為0.7或者0.5時(shí),生成模型已經(jīng)能夠較好的生成缺失的數(shù)據(jù),使得聚類模型能夠獲得較好的聚類結(jié)果。

      (a)UCI Digit

      (b) COIL20

      (3)SSPMVC之所以能獲得好的性能是因?yàn)樗粌H生成了各視圖缺失的數(shù)據(jù),保證了各視圖的完整性和一致性,同時(shí)還學(xué)習(xí)了各個(gè)視圖的潛在子空間表示,揭示了嵌入在原始數(shù)據(jù)中的潛在子空間結(jié)構(gòu)。

      3.4 收斂性分析

      本節(jié)中給出SSMPVC算法的收斂性分析。其中,圖5分別展示了SSMPVC算法在3Sources數(shù)據(jù)庫(kù)中BBC-Guardian和兩對(duì)多視圖以及數(shù)據(jù)庫(kù)COIL20和UCI Digit在缺失率為0.5時(shí)在SSMPVC算法上ACC和NMI上的收斂性情況。圖6展示了生成器和鑒別器的目標(biāo)函數(shù)在缺失率為0.1的MNIST數(shù)據(jù)庫(kù)的收斂情況,其中g(shù)_loss為生成器損失,d_loss為鑒別損失,real_loss為鑒別器對(duì)真實(shí)圖像的預(yù)測(cè)值,fake_loss為鑒別器對(duì)生成圖像的預(yù)測(cè)值。從圖中可以看出,最終生成器判別器的損失函數(shù)趨于平穩(wěn),real_loss和fake_loss在一條水平線上波動(dòng),即判別器最終對(duì)于真假圖像已經(jīng)沒(méi)有判別能力,而是進(jìn)行隨機(jī)判斷??梢钥闯觯疚闹械乃惴⊿SMPVC在這4個(gè)數(shù)據(jù)庫(kù)上都具有不錯(cuò)的穩(wěn)定性。

      (a)3Sources(BBC-Guardian)

      (b)UCI Digit(PER=0.5)

      (c) COIL20(PER=0.5)

      (a)生成器損失

      (b)鑒別器損失

      4 結(jié)論

      提出了一種適用于缺失多視圖聚類任務(wù)的算法SSPMVC。SSPMVC利用生成對(duì)抗網(wǎng)絡(luò)生成視圖缺失的數(shù)據(jù),將補(bǔ)全的多視圖在子空間進(jìn)行聚類,將生成網(wǎng)絡(luò)和聚類模型聯(lián)合訓(xùn)練。SSPMVC學(xué)習(xí)了良好的聚類結(jié)構(gòu),并對(duì)不完全視圖的缺失數(shù)據(jù)進(jìn)行了推斷。實(shí)驗(yàn)結(jié)果表明,論文中提出的算法優(yōu)于與之比較的經(jīng)典的多視圖聚類方法。接下來(lái)的研究方向是如何將生成模型和聚類模型更好的結(jié)合起來(lái),以取得更好的效果。

      猜你喜歡
      鑒別器視圖聚類
      基于多鑒別器生成對(duì)抗網(wǎng)絡(luò)的時(shí)間序列生成模型
      衛(wèi)星導(dǎo)航信號(hào)無(wú)模糊抗多徑碼相關(guān)參考波形設(shè)計(jì)技術(shù)*
      基于DBSACN聚類算法的XML文檔聚類
      5.3 視圖與投影
      視圖
      Y—20重型運(yùn)輸機(jī)多視圖
      SA2型76毫米車載高炮多視圖
      陣列天線DOA跟蹤環(huán)路鑒別器性能分析
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      宜春市| 临汾市| 陈巴尔虎旗| 嘉义县| 墨脱县| 广东省| 长泰县| 民丰县| 普兰店市| 庐江县| 香格里拉县| 崇义县| 玛纳斯县| 大港区| 白山市| 修武县| 道孚县| 广安市| 盖州市| 望城县| 保定市| 松滋市| 忻州市| 金沙县| 建德市| 中卫市| 岳阳县| 四平市| 五原县| 玉屏| 杭锦旗| 潍坊市| 太保市| 华池县| 建湖县| 梁平县| 卓尼县| 叶城县| 合山市| 红原县| 定安县|