• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多視圖聚類研究進(jìn)展與展望

      2022-12-01 08:31:27梁吉業(yè)劉曉琳
      關(guān)鍵詞:視圖聚類矩陣

      梁吉業(yè) ,劉曉琳

      (1.山西大學(xué) 智能信息處理研究所,山西 太原 030006;2.山西大學(xué) 計算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)

      0 引言

      隨著計算機(jī)技術(shù)的迅猛發(fā)展,人們獲取與采集數(shù)據(jù)的能力大大提高,信息量也以前所未有的速度增長。數(shù)據(jù)往往呈現(xiàn)出規(guī)模大、實(shí)時性強(qiáng)、維度高和結(jié)構(gòu)復(fù)雜的特點(diǎn),為其標(biāo)記類別信息不僅代價高昂,還需要耗費(fèi)大量的人力物力。作為處理大規(guī)模無標(biāo)記數(shù)據(jù)的一種重要技術(shù)手段,聚類分析為這些數(shù)據(jù)的特征提取與潛在結(jié)構(gòu)發(fā)現(xiàn)提供了強(qiáng)有力的幫助。同時,聚類分析作為數(shù)據(jù)預(yù)處理策略也被廣泛地應(yīng)用于信息粒化、數(shù)據(jù)采樣和數(shù)據(jù)壓縮等其他數(shù)據(jù)分析領(lǐng)域,從而提升這些數(shù)據(jù)分析技術(shù)的效率和性能[1-3]。2017年國務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》,將以聚類為主的無監(jiān)督學(xué)習(xí)列入“建立新一代人工智能基礎(chǔ)理論體系”的第一個重點(diǎn)任務(wù)中,這足以體現(xiàn)聚類的重要性。發(fā)展至今,研究者已從理論探索、方法創(chuàng)新、應(yīng)用推廣等方面對聚類分析進(jìn)行了深入研究,并取得了顯著成果。針對數(shù)據(jù)類型、分布假設(shè)、應(yīng)用場景等不同,已經(jīng)提出了大量聚類算法,可粗略歸類為:劃分聚類、密度聚類、層次聚類、譜聚類等[4-7]。

      隨著信息技術(shù)的發(fā)展,數(shù)據(jù)的采集方式趨于多樣,數(shù)據(jù)可以通過不同的特征采集器提取得到,我們稱這種不同來源或多個模態(tài)的數(shù)據(jù)為多視圖數(shù)據(jù)[8]。如何從多視圖數(shù)據(jù)中挖掘有價值的、潛在的、復(fù)雜的結(jié)構(gòu)關(guān)聯(lián),賦予計算機(jī)理解多源異構(gòu)海量數(shù)據(jù)的能力,已成為多視圖數(shù)據(jù)挖掘領(lǐng)域迫切需要解決的關(guān)鍵問題。由于多視圖數(shù)據(jù)特征間的差異性及其相互關(guān)系的復(fù)雜性,傳統(tǒng)的聚類算法并不能準(zhǔn)確刻畫和提取這些不同視圖數(shù)據(jù)的空間分布特性以及其內(nèi)在關(guān)系。多視圖聚類作為一種新的機(jī)器學(xué)習(xí)范式,給定一組標(biāo)簽未知的多視圖數(shù)據(jù)對象,通過對多個視圖進(jìn)行模型構(gòu)建并學(xué)習(xí)共識函數(shù),目的是挖掘多個視圖之間的潛在關(guān)聯(lián),將數(shù)據(jù)對象劃分到相應(yīng)的類簇。多視圖聚類期望打破傳統(tǒng)聚類產(chǎn)生的“數(shù)據(jù)孤島”現(xiàn)象,進(jìn)而形成多個視圖的“數(shù)據(jù)群峰”效應(yīng),拓展對數(shù)據(jù)認(rèn)識的深度和廣度,從而構(gòu)建出相比于傳統(tǒng)單視圖聚類性能更優(yōu)越、結(jié)果更準(zhǔn)確的模型和算法。

      作為一個新興的研究領(lǐng)域,近年來多視圖聚類受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。國際機(jī)器學(xué)習(xí)大會(International Conference on Ma?chine Learning,ICML)在2005年召開了首次多視圖主題研討會,極大地推動了多視圖學(xué)習(xí)的浪潮。自2010年起,知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會議( International Conference on Knowledge Dis?covery and Data Mining,KDD)曾連續(xù)多年舉辦專題為“MultiClust”的研討會,給多視圖聚類的發(fā)展帶來了深遠(yuǎn)的影響。在多語言環(huán)境下的自然語言處理、基于用戶屬性和社交關(guān)系的異構(gòu)社交網(wǎng)絡(luò)、基于多個基因和蛋白質(zhì)庫的生物信息學(xué)以及基于多智能體智能決策等實(shí)際應(yīng)用領(lǐng)域中,研究者都對多視圖聚類進(jìn)行了相關(guān)的前沿探索[9],其理論與應(yīng)用研究現(xiàn)正處于集中爆發(fā)期。因此,開展多視圖聚類算法的分析與探討,對于推動大數(shù)據(jù)環(huán)境下的智能信息處理具有重要的理論意義和應(yīng)用價值。

      1 多視圖聚類算法研究進(jìn)展

      多視圖聚類的關(guān)鍵問題在于如何有效地利用多個視圖中的信息,充分發(fā)揮每個視圖各自的優(yōu)勢,規(guī)避各自的局限,從而獲得準(zhǔn)確且穩(wěn)健的聚類性能。一致性原則和互補(bǔ)性原則是多視圖學(xué)習(xí)中的兩個重要理論依據(jù),其中,一致性原則旨在最大化多個視圖之間的一致性,如多個視圖應(yīng)具有相同的類別結(jié)構(gòu);互補(bǔ)性原則是指多視圖數(shù)據(jù)的每一個視圖都可能包含其他視圖所不具備的信息或知識,使用多個視圖可以獲得更加全面而準(zhǔn)確的數(shù)據(jù)描述。近年來,在多視圖學(xué)習(xí)有效性理論的基礎(chǔ)上,多視圖聚類取得了快速的發(fā)展,從方法原理的角度,可以將多視圖聚類廣義的劃分為:基于協(xié)同學(xué)習(xí)、基于圖學(xué)習(xí)、基于子空間學(xué)習(xí)、基于集成學(xué)習(xí)、基于多核學(xué)習(xí)和基于深度學(xué)習(xí)的多視圖聚類方法。

      1.1 基于協(xié)同學(xué)習(xí)的算法

      基于協(xié)同學(xué)習(xí)的多視圖聚類算法旨在利用每個視圖的先驗(yàn)信息或?qū)W習(xí)得到的知識去引導(dǎo)其他視圖上的聚類進(jìn)程,在執(zhí)行多次迭代策略后,使得所有視圖上的聚類結(jié)果趨于一致,共識信息達(dá)到最大化。Bickel等[10]于2004年首次將多視圖的概念應(yīng)用到聚類過程,作者將期望最大化算法擴(kuò)展到兩個視圖,提出了一個適用于文本數(shù)據(jù)的協(xié)同式最大期望多視圖聚類算法。在此基礎(chǔ)上,Jiang等[11]在概率潛在語義模型中引入?yún)f(xié)同正則化的思想,使同一對象在不同視圖下的語義主題空間保持最大的一致性。隨后,Kumar等[12]提出了一種基于協(xié)同訓(xùn)練的譜聚類算法,該算法交互式地利用一個視圖的拉普拉斯特征向量去更新另一個視圖的拉普拉斯矩陣,通過交叉迭代的更新過程使得兩個視圖獲得一致的低維表示。此外,Kumar等[13]在協(xié)同正則化譜聚類算法中引入聚類指示矩陣的差異性約束,在約束多個視圖彼此協(xié)作的同時獲得一致的聚類指示矩陣。Cleuziou等[14]提出了基于協(xié)同的多核模糊聚類算法,將局部的核構(gòu)造和全局模糊聚類形成一個統(tǒng)一的學(xué)習(xí)框架,通過協(xié)同學(xué)習(xí)策略,實(shí)現(xiàn)了從局部到全局的交互式信息傳遞。Zhang等[15]提出了基于代表點(diǎn)一致性約束的多視圖模糊聚類算法,該算法綜合考慮了視圖內(nèi)的劃分質(zhì)量以及視圖間代表點(diǎn)的一致性,并利用代表點(diǎn)一致性約束進(jìn)行多視圖間全協(xié)同學(xué)習(xí)。

      基于協(xié)同學(xué)習(xí)的聚類方法可以促進(jìn)不同視圖間互相學(xué)習(xí)、互相改進(jìn),然而算法的有效性依賴于視圖的充分性、兼容性和條件獨(dú)立性3個條件,這在一定程度上限制了其在復(fù)雜多視圖數(shù)據(jù)上的應(yīng)用。

      1.2 基于圖學(xué)習(xí)的算法

      基于圖學(xué)習(xí)的多視圖聚類方法旨在尋找一個由所有視圖共享,且能夠刻畫所有視圖相互關(guān)系的融合圖,然后在融合圖上使用圖切割算法或其他譜圖技術(shù),獲取最終聚類結(jié)果。該類算法主要分為三個關(guān)鍵步驟[16]:(1)基于單視圖分別構(gòu)造初始圖;(2)學(xué)習(xí)融合全部視圖拓?fù)浣Y(jié)構(gòu)的一致圖;(3)將聚類問題轉(zhuǎn)化成圖分割問題。其中,如何構(gòu)造高質(zhì)量的初始圖和如何設(shè)計有效的圖融合策略是這類方法的關(guān)鍵。

      在初始圖構(gòu)造方面,Hou等[17]提出了基于自適應(yīng)圖學(xué)習(xí)的多視圖聚類方法,該算法以自步學(xué)習(xí)的方式學(xué)習(xí)動態(tài)變化圖,而不是對固定的輸入圖進(jìn)行處理。為了提高圖學(xué)習(xí)的性能,Zhan等[18]從不同視圖的數(shù)據(jù)中學(xué)習(xí)初始圖,并在拉普拉斯矩陣的秩約束下對初始圖進(jìn)行優(yōu)化。受流形學(xué)習(xí)的啟發(fā),Li等[19]提出了自適應(yīng)一致性傳播的圖聚類方法,該算法通過從近到遠(yuǎn)傳播數(shù)據(jù)點(diǎn)之間的拓?fù)溥B接,充分利用輸入數(shù)據(jù)的流形結(jié)構(gòu)去學(xué)習(xí)初始圖結(jié)構(gòu)。在圖構(gòu)造的效率方面,Li等[20]提出基于二部圖的多視圖聚類算法,該算法用二部圖來計算樣本間的相似性矩陣,大大提高了計算效率,對處理大規(guī)模數(shù)據(jù)也更為有效。

      圍繞圖的融合策略方面,眾多學(xué)者也開展了一系列研究。Xia等[21]提出一種多視圖譜嵌入的算法,該算法將多個視圖嵌入在一個拓?fù)鋱D中,使得多個視圖包含的信息可以通過嵌入的拓?fù)鋱D進(jìn)行共享和補(bǔ)充。Ren等[22]提出了自適應(yīng)加權(quán)的多視圖融合方法,該方法在引入多視圖類別作為先驗(yàn)信息的基礎(chǔ)上,通過最小化不同視圖間的差異來求得具有最優(yōu)聚類結(jié)構(gòu)的一致性仿射圖。此外,Nie等[23]也提出一種多圖融合的方法,該算法可以自動學(xué)習(xí)每個圖的最優(yōu)權(quán)值,而不引入其他參數(shù)。Wang等[24]在圖融合的過程中強(qiáng)調(diào)了多視圖的一致性和互補(bǔ)性,所提算法可迭代獲得多個視圖共享的一致圖和多個視圖特有的分歧圖。

      由于圖結(jié)構(gòu)具有可解釋性強(qiáng)的特點(diǎn),該類方法在聚類結(jié)果的解釋方面具有一定優(yōu)勢。然而,基于圖模型的多視圖聚類算法的性能大多依賴于圖的初始化,而初始圖的質(zhì)量通常難以得到保障。

      1.3 基于子空間學(xué)習(xí)的算法

      基于子空間學(xué)習(xí)的方法假設(shè)所有的數(shù)據(jù)對象共享一個公共的子空間,每個視圖的樣本在該空間中都有對應(yīng)的投影或表示。多視圖子空間學(xué)習(xí)的核心思想在于盡可能保留每個視圖特有分布信息的情況下,尋找多個視圖共享的表示空間。子空間學(xué)習(xí)方法有典型相關(guān)分析、矩陣分解、自表示、主題模型和字典學(xué)習(xí)等,本文主要介紹基于典型相關(guān)分析、矩陣分解和基于自表示的多視圖子空間聚類方法。

      1.3.1 基于典型相關(guān)分析的方法

      不同視圖中必然存在某些相關(guān)關(guān)系,因此,挖掘視圖間的相關(guān)關(guān)系成為多視圖特征學(xué)習(xí)過程中的首要任務(wù)?;诘湫拖嚓P(guān)分析(CCA)的多視圖聚類算法以最大化視圖間相關(guān)性作為學(xué)習(xí)目標(biāo)去尋找數(shù)據(jù)的潛在公共子空間。Chaudhuri等[25]于 2009 年利用典型相關(guān)分析將原始數(shù)據(jù)從高維空間(dv維,即原始視圖維度)向低維空間(d維,d<

      1.3.2 基于矩陣分解的方法

      矩陣分解的核心思想是將原始數(shù)據(jù)分解為兩個低維矩陣:系數(shù)矩陣和基矩陣,其中,系數(shù)矩陣可以看作聚類的指示矩陣,實(shí)現(xiàn)了數(shù)據(jù)從高維(dv維)向低維(c維,即類別個數(shù))的映射表示。Xu等[28]首次將非負(fù)矩陣分解(NMF)應(yīng)用到多視圖學(xué)習(xí)中,旨在從多視圖數(shù)據(jù)中獲得一個統(tǒng)一的低維指示矩陣。自此之后,眾多學(xué)者圍繞潛在表示的學(xué)習(xí)過程和優(yōu)化目標(biāo)的構(gòu)建方面對多視圖矩陣分解的有效性和結(jié)構(gòu)性開展了一系列相關(guān)研究。

      針對矩陣分解潛在表示的有效性學(xué)習(xí)方面,Liu等[29]人提出了一種聯(lián)合非負(fù)矩陣分解的多視圖共有低維表征矩陣學(xué)習(xí)方法,該方法從各視圖的子空間中間接地學(xué)習(xí)多視圖的共有表征矩陣,這種策略不僅能夠減少矩陣分解上的誤差,而且提高了視圖間共有矩陣學(xué)習(xí)的靈活性。Zhang等[30]提出的二值多視圖聚類算法將哈希編碼的思想引入到多視圖子空間學(xué)習(xí),聯(lián)合地將多視圖數(shù)據(jù)投影到一個共有的二值編碼空間,并從該二值編碼中利用二值矩陣分解技術(shù)得到最終的聚類結(jié)果,該方法在計算和內(nèi)存占用方面都有顯著的降低?;贙-means和NMF 的等價性,Cai等[31]提出了基于 K-means的多視圖聚類算法,該算法假設(shè)每個視圖共享相同的潛在簇結(jié)構(gòu),同時引入權(quán)重參數(shù)計算視圖的重要性,其目標(biāo)函數(shù)采用具有稀疏性質(zhì)的l2,1范數(shù),強(qiáng)制每個視圖分解后的結(jié)果趨于一致且滿足稀疏結(jié)構(gòu)。

      在矩陣分解優(yōu)化目標(biāo)的構(gòu)建方面,部分研究工作的重點(diǎn)在于引入多種有意義的正則項(xiàng),以保持多視圖數(shù)據(jù)的結(jié)構(gòu)特性。Zhang等[32]提出了一種具有樣本空間結(jié)構(gòu)約束的非負(fù)矩陣分解方法,該算法利用流形正則構(gòu)造平滑懲罰因子,能夠在子空間充分保持多視圖數(shù)據(jù)的幾何結(jié)構(gòu)。Zong等[33]提出了一種多流形正則非負(fù)矩陣分解框架,該框架將一致系數(shù)矩陣和一致流形與多流形正則化結(jié)合,以保持多視圖數(shù)據(jù)空間的局部幾何結(jié)構(gòu)。Zhu等[34]提出了一種多流形正則化稀疏編碼算法,該算法能夠利用高階流形一致正則去更好地捕捉數(shù)據(jù)的潛在聚類結(jié)構(gòu)。

      盡管基于矩陣分解的方法可以挖掘到多視圖數(shù)據(jù)中隱含的聚類結(jié)構(gòu),具有一定的穩(wěn)定性和魯棒性,但是產(chǎn)生的低維潛在表示存在難以解釋的問題,這也限制了該類方法在實(shí)際中的應(yīng)用。

      1.3.3 基于自表示的方法

      基于自表示子空間方法的核心思想是通過數(shù)據(jù)之間的互相表達(dá)來重建數(shù)據(jù)自身,并基于重建系數(shù)構(gòu)造樣本間的相似性,從而挖掘樣本之間的關(guān)系,實(shí)現(xiàn)數(shù)據(jù)從視圖維度(dv維)向樣本維度(n維)的映射表示。從子空間的特性方面考慮,可以將現(xiàn)有的工作劃分為:多個視圖共享一致的子空間、多個視圖編碼不同的子空間以及一致性和多樣性聯(lián)合嵌入的子空間。

      多個視圖共享一致的子空間:Yan等[35]提出了一種魯棒多視圖子空間聚類框架,該框架通過擴(kuò)展聯(lián)合特征選擇和自表示模型來學(xué)習(xí)與理想子空間結(jié)構(gòu)一致的相似性矩陣。Zhang等[36]提出了基于柔性多視圖表示學(xué)習(xí)的子空間聚類算法,得到的一致子空間可以靈活編碼不同視圖的結(jié)構(gòu)信息,并探索視圖之間的非線性、高階關(guān)聯(lián)關(guān)系,從而使?jié)撛诒硎靖咏诓煌囊晥D,更適合于子空間聚類。Zhang等[37]提出一種潛在多視圖子空間聚類算法,算法假設(shè)多個視圖源于同一子空間,該子空間可以比單個視圖更深刻地描述數(shù)據(jù)本身,從而使子空間表示更準(zhǔn)確和魯棒。

      多個視圖編碼不同的子空間:Cao等[38]提出基于多樣性誘導(dǎo)的多視圖子空間聚類,算法將希爾伯特-施密特獨(dú)立標(biāo)準(zhǔn)作為差異性約束,計算不同視圖的互補(bǔ)性,減少多視圖數(shù)據(jù)的冗余,提高聚類結(jié)果的準(zhǔn)確性。Liu等[39]提出一種基于多樣性正則化和秩約束的多視圖子空間聚類算法,該算法利用多樣性正則化方法來學(xué)習(xí)每個視圖的最優(yōu)權(quán)值,從而抑制冗余,增強(qiáng)不同特征視圖之間的多樣性。以上成果表明有多樣性的子空間聚類研究已初見端倪,但對視圖間多樣性刻畫方面的研究不充分,亟需更多的視圖多樣性分析技術(shù)。

      一致性和多樣性聯(lián)合嵌入的子空間:Mi等[40]提出的子空間學(xué)習(xí)方法利用自表示特性,尋求所有視圖之間的共享一致表示和每個視圖的不同表示,以更好地學(xué)習(xí)潛在嵌入空間中的相似性矩陣。Zhang等[41]提出了一種聯(lián)合利用多視圖一致性和多樣性進(jìn)行子空間表示學(xué)習(xí)方法,該方法使用一個共享的一致表示和一組多樣性表示來約束多視圖自表示屬性以挖掘數(shù)據(jù)的子空間結(jié)構(gòu),其中,一致性為所有視圖中的公共屬性建模,而多樣性捕獲每個視圖中的內(nèi)在差異。

      基于自表示的子空間學(xué)習(xí)方法能夠在實(shí)現(xiàn)數(shù)據(jù)降維的同時保留數(shù)據(jù)的流形結(jié)構(gòu),但是該類方法往往涉及較多參數(shù)且計算復(fù)雜度較高,因此難以適應(yīng)計算資源受限的環(huán)境。

      1.4 基于集成學(xué)習(xí)的算法

      集成學(xué)習(xí)的核心思想在于充分發(fā)揮每個個體學(xué)習(xí)器的優(yōu)勢,形成弱弱生強(qiáng)的學(xué)習(xí)模式,以提高算法的學(xué)習(xí)能力?;谶@一思想,Liu等[42]提出了一種多視圖集成聚類框架,以集成的方式來解決多視圖聚類問題。算法為每個視圖分別生成基聚類器,并在所有基聚類器之間尋求一致的劃分。聚類集成算法設(shè)計的關(guān)鍵由兩部分構(gòu)成,一是提高基聚類器的準(zhǔn)確性和多樣性,二是優(yōu)化集成策略。

      在提高基聚類器的準(zhǔn)確性和多樣性方面,Xie等[43]提出了一種多視圖聚類集成算法,該算法將多視圖譜聚類或多核K-means算法作為基聚類器,得到多個準(zhǔn)確性高、差異性強(qiáng)的基聚類結(jié)果,然后利用mico-p算法對基聚類進(jìn)行集成。Wahid A等[44]在多視圖集成時引入了交叉、變異、調(diào)整、進(jìn)化的概念,增強(qiáng)了多視圖聚類集成的多樣性和魯棒性。

      在優(yōu)化集成策略方面,Cheng等[45]提出了多視圖下的聚類集成算法,該方法首先對每個視圖使用譜聚類算法得到基聚類結(jié)果,然后計算新的相似度矩陣,再使用譜聚類得到最終的數(shù)據(jù)劃分。Liang等[46]提出了一種多視圖混合數(shù)據(jù)集成聚類算法,該算法首先利用K-proto?type聚類算法在每個視圖上分別生成一組基聚類器;然后,在考慮所有基聚類的基礎(chǔ)上構(gòu)造類-類相似矩陣;接著,采用METIS算法對相似性矩陣進(jìn)行元聚類;最后,在元聚類的基礎(chǔ)上,應(yīng)用多數(shù)投票將對象分配到相應(yīng)的聚類中,得到最終的聚類結(jié)果。Xia等[47]提出一種基于鄰域多核學(xué)習(xí)的后融合多視圖聚類算法,該算法在鄰域多核學(xué)習(xí)的基礎(chǔ)上,利用譜旋轉(zhuǎn)的方法對多個視圖的類別指示矩陣進(jìn)行融合。

      基于集成學(xué)習(xí)的多視圖聚類算法通常具有很強(qiáng)的可擴(kuò)展性,但是基聚類器的質(zhì)量往往是良莠不齊的,最終的聚類的準(zhǔn)確性因?yàn)橘|(zhì)量差的基聚類器而大大降低。

      1.5 基于多核學(xué)習(xí)的算法

      核函數(shù)是實(shí)現(xiàn)映射關(guān)系內(nèi)積的一種方法,將低維特征空間映射到高維空間,使得低維特征空間線性不可分的數(shù)據(jù)在高維空間可能實(shí)現(xiàn)線性可分。多視圖數(shù)據(jù)由于每個視圖都有其特有的分布信息,單個核函數(shù)構(gòu)成的核運(yùn)算并不能滿足多視圖數(shù)據(jù)的實(shí)際分析需求。多核學(xué)習(xí)需要對不同的視圖構(gòu)造不同的基核,并通過線性、非線性等方式找出視圖間的結(jié)構(gòu)關(guān)聯(lián),有效融合多視圖信息得到一致性核,最終達(dá)到提高聚類性能的目的。多核學(xué)習(xí)存在兩個關(guān)鍵問題:一是如何選擇合適的核函數(shù);二是如何有效地組合多個核函數(shù)。

      在核函數(shù)的選擇方面,Zhao等[48]提出局部自適應(yīng)的多核聚類算法,用自適應(yīng)的核去代替?zhèn)鹘y(tǒng)的核。Yang等[49]提出了一種基于變權(quán)多核學(xué)習(xí)的多視圖聚類算法,該算法采用了改進(jìn)的加權(quán)高斯核函數(shù),而不是傳統(tǒng)的組合核函數(shù),從而對數(shù)據(jù)進(jìn)行了更精細(xì)的分析,提高了聚類質(zhì)量。

      在組合優(yōu)化核函數(shù)方面,Manna等[50]提出了一種自加權(quán)多核學(xué)習(xí)框架,該框架自動為每個視圖的核函數(shù)分配適當(dāng)?shù)臋?quán)重,而不引入額外的參數(shù)。由于現(xiàn)實(shí)數(shù)據(jù)中的噪聲或異常值可能會影響多核學(xué)習(xí)的性能,Manna等[50]還提出了一種魯棒自加權(quán)多視圖多核學(xué)習(xí)框架,該框架使用l2,1范數(shù)來減少數(shù)據(jù)集中異常值的影響。考慮到從不同視角中構(gòu)建的核矩陣存在冗余性,容易導(dǎo)致視圖信息不平衡,Liu等[51]提出基于誘導(dǎo)矩陣正則項(xiàng)的多核K-means算法來增強(qiáng)不同核之間的差異性,提高不同視圖信息的利用率。針對多視圖細(xì)粒度融合問題,Liu等[52]提出了基于簇加權(quán)的多視圖核K-means聚類算法,該算法為各個視圖內(nèi)的每個簇分配了一個權(quán)重,并通過比較不同視圖間對應(yīng)簇的簇內(nèi)相似度來更新權(quán)重,使得擁有較高簇內(nèi)相似度的簇?fù)碛休^高的權(quán)重值。

      基于多核的多視圖聚類算法通過將樣本映射到可再生希爾伯特空間實(shí)現(xiàn)了數(shù)據(jù)的非線性映射,核方法通過利用優(yōu)化組合算法進(jìn)一步提高聚類性能,但存在時間復(fù)雜度高,內(nèi)存消耗大,可擴(kuò)展性差等問題。

      1.6 基于深度學(xué)習(xí)的算法

      深度學(xué)習(xí)算法具有很強(qiáng)的非線性擬合能力,能夠使用深度結(jié)構(gòu)從大規(guī)模數(shù)據(jù)中進(jìn)行深層特征學(xué)習(xí),還能表達(dá)更加復(fù)雜的目標(biāo)函數(shù),進(jìn)而提升聚類和分類等學(xué)習(xí)任務(wù)的性能。根據(jù)獲取特征表示的方式,可以將該類算法劃分為兩類:(1)基于共享特征表示學(xué)習(xí)的聚類算法;(2)基于聯(lián)合特征表示學(xué)習(xí)的聚類算法。

      基于共享特征表示學(xué)習(xí)的聚類算法主要以自編碼器為模型框架,在訓(xùn)練的過程中,希望多個視圖學(xué)習(xí)一個低維的共享中間層特征,并基于共享特征構(gòu)建相應(yīng)的聚類損失,幫助模型發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的類簇結(jié)構(gòu)。該類方法的損失函數(shù)一般由數(shù)據(jù)的重構(gòu)損失、聚類損失和網(wǎng)絡(luò)輔助損失三部分構(gòu)成,即希望表示學(xué)習(xí)和聚類任務(wù)協(xié)同指導(dǎo)模型的訓(xùn)練過程。基于以上思路,Du等[53]提出了一種基于多編碼器的深度多視圖聚類算法,該算法結(jié)合各視圖的局部不變量和任意兩個視圖之間的一致互補(bǔ)信息,采用自動編碼器分層捕獲各視圖的非線性結(jié)構(gòu)信息,算法將表示學(xué)習(xí)和聚類集成到一個統(tǒng)一的框架中,從而共同優(yōu)化兩個任務(wù)。Cheng等[54]提出了一種多視圖屬性圖卷積網(wǎng)絡(luò)模型用于聚類任務(wù),模型設(shè)計有雙路徑編碼器,第一條路徑是多視圖屬性圖注意力網(wǎng)絡(luò),以減少噪聲和冗余,并學(xué)習(xí)多視圖數(shù)據(jù)的圖嵌入特征;第二條路徑是一致性嵌入編碼器,用于捕捉不同視圖之間的幾何關(guān)系和概率分布的一致性,自適應(yīng)地為多視圖屬性找到一致的聚類嵌入空間。Shi等[55]提出了一種任務(wù)引導(dǎo)的圖自動編碼聚類框架,該框架中的圖自編碼器能夠通過使用一個信息豐富的圖和屬性數(shù)據(jù)來重建多個圖并學(xué)習(xí)節(jié)點(diǎn)嵌入,因此,算法可以很好地捕捉多個圖的共享特征表示。在此基礎(chǔ)上,模型還提出了一種自訓(xùn)練聚類目標(biāo),以迭代的方式改善聚類結(jié)果。

      基于聯(lián)合特征表示學(xué)習(xí)的聚類算法一般以深度前饋神經(jīng)網(wǎng)絡(luò)(全連接或卷積)為模型框架,該類方法通常會聯(lián)合多個視圖在網(wǎng)絡(luò)的輸出層構(gòu)建聚類損失,形成一種端到端的聚類模式。相較于共享特征表示學(xué)習(xí)的聚類算法,該類算法對聚類損失的魯棒性要求更高,其關(guān)鍵在于如何產(chǎn)生可靠的確定性信息來輔助模型訓(xùn)練。一般的做法是將傳統(tǒng)聚類算法的損失函數(shù)遷移到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,形成聯(lián)合的深度聚類過程,并通過交替優(yōu)化或聯(lián)合優(yōu)化的方式實(shí)現(xiàn)聚類?;谝陨纤悸罚琙hao等[56]提出了一種面向多視圖聚類的深度矩陣分解框架,該算法采用半非負(fù)矩陣分解,以分層的方式學(xué)習(xí)多視圖數(shù)據(jù)的層次語義。為了最大化每個視圖的互信息,算法在最后一層強(qiáng)制每個視圖的非負(fù)表示是相同的。此外,為了保留每個視圖數(shù)據(jù)中固有的幾何結(jié)構(gòu),算法引入了圖正則化項(xiàng)來耦合深層結(jié)構(gòu)的輸出表示。Peng等[57]提出了一種多視圖譜聚類網(wǎng)絡(luò),算法將每個視圖的局部不變性和不同視圖之間的一致性融合到一個新的目標(biāo)函數(shù)中,其中局部不變性由深度度量學(xué)習(xí)網(wǎng)絡(luò)定義,而并非傳統(tǒng)方法采用的歐氏距離。Zhang等[58]提出了一種基于神經(jīng)網(wǎng)絡(luò)的廣義潛在多視圖子空間聚類方法,與現(xiàn)有的單視圖子空間聚類方法直接利用原始特征重構(gòu)數(shù)據(jù)點(diǎn)不同,該算法從多個視圖中利用深度神經(jīng)網(wǎng)絡(luò)挖掘潛在的互補(bǔ)信息并同時尋找聯(lián)合的潛在表示,實(shí)現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)與子空間學(xué)習(xí)的有效聯(lián)合訓(xùn)練。

      上述基于深度的多視圖聚類算法雖然在高維和大規(guī)模數(shù)據(jù)集上表現(xiàn)出比傳統(tǒng)聚類更好的處理能力,但是算法依賴于聚類網(wǎng)絡(luò)的初始化和預(yù)訓(xùn)練。因此,如何設(shè)計更高效可用的深度聚類算法,以及如何提升大規(guī)模多視圖數(shù)據(jù)的聚類效果,將是未來深度多視圖聚類研究的重點(diǎn)。

      2 多視圖聚類算法展望

      經(jīng)過多年的發(fā)展,多視圖聚類算法已經(jīng)在理論、方法和應(yīng)用等方面取得了階段性成果。但多視圖聚類算法作為機(jī)器學(xué)習(xí)研究的前沿方向之一,仍然存在很多開放性的問題有待進(jìn)一步探索。具體可以概括為以下四個方面:

      (1)多視圖數(shù)據(jù)的低質(zhì)性問題:傳統(tǒng)的多視圖聚類算法通常要求數(shù)據(jù)是高質(zhì)量的。由于實(shí)際中存在諸多風(fēng)險因素,收集到的多視圖數(shù)據(jù)的數(shù)據(jù)質(zhì)量通常較差,數(shù)據(jù)中可能包含了孤立點(diǎn)、缺失或錯誤的數(shù)據(jù)。例如,在同一場景下的多個視頻監(jiān)控中,某些攝像頭可能由于設(shè)備故障等原因無法正常工作,從而采集不到某個角度的視頻畫面,造成該故障設(shè)備視圖下的樣本缺失;在醫(yī)療診斷過程中,某些患者由于高昂的檢查費(fèi)用或自身的一些原因只參加兩種測試中的一種,從而造成檢查結(jié)果視圖下的患者樣本部分非對齊的情況;戰(zhàn)場環(huán)境中不同傳感器收集的數(shù)據(jù)可以視為多視圖數(shù)據(jù),但是由于通信的干擾,某些傳感器收集到的數(shù)據(jù)可能具有噪聲。這些低質(zhì)量的多視圖數(shù)據(jù),會降低傳統(tǒng)的多視圖聚類算法的性能。研究如何充分合理地利用這些低質(zhì)量多視圖數(shù)據(jù)的信息,進(jìn)行正確地聚類,使得多視圖聚類算法在現(xiàn)實(shí)應(yīng)用中具有更高的穩(wěn)定性,是多視圖聚類中最具挑戰(zhàn)性的問題之一。

      (2)多視圖數(shù)據(jù)的規(guī)模性:在信息時代,每天都會產(chǎn)生海量的數(shù)據(jù),并且在許多的研究領(lǐng)域都涉及多視圖數(shù)據(jù)。例如,在抖音數(shù)據(jù)平臺上每分鐘都會產(chǎn)生大量的視頻數(shù)據(jù),這些視頻數(shù)據(jù)可以用圖像、聲音和文本來進(jìn)行表示;在氣象監(jiān)測領(lǐng)域,每天都會從不同的采集器上接收到大量的數(shù)據(jù),這種不同來源的數(shù)據(jù)也是多視圖數(shù)據(jù)。由于大量的復(fù)雜性計算和巨大的存儲成本,現(xiàn)有的多視圖學(xué)習(xí)方法無法有效地對大規(guī)模數(shù)據(jù)集進(jìn)行聚類。因此,如何在保證聚類準(zhǔn)確性的前提下高效地對大規(guī)模數(shù)據(jù)集進(jìn)行聚類對多視圖聚類算法顯得尤為重要。

      (3)多視圖數(shù)據(jù)的動態(tài)性問題:實(shí)際應(yīng)用中存在大量具有時序關(guān)系的多視圖數(shù)據(jù),如多個攝像頭連續(xù)拍攝的監(jiān)控視頻,每個攝像頭可以看作是一個特征采集器,所拍攝的畫面構(gòu)成多個具有時間信息的多視圖數(shù)據(jù);在醫(yī)學(xué)診斷過程中,醫(yī)生需要對病人的病程進(jìn)行一系列的檢查和治療,每一項(xiàng)檢查結(jié)果下的病歷數(shù)據(jù)構(gòu)成了動態(tài)變化的多視圖數(shù)據(jù)。因此,在線環(huán)境下,隨著時間的推移,每個視圖的數(shù)據(jù)特征和分布都有可能發(fā)生變化?,F(xiàn)有的多視圖聚類算法僅能適用于離線的靜態(tài)環(huán)境數(shù)據(jù),無法隨著數(shù)據(jù)的變化實(shí)時更新模型。對于具有時序關(guān)系的多視圖數(shù)據(jù),研究在線的多視圖聚類方法也是多視圖研究領(lǐng)域的一個挑戰(zhàn)性問題。

      (4)多視圖聚類的多解性問題:現(xiàn)有的多視圖聚類算法假設(shè)多個視圖擁有一致且唯一的聚類結(jié)果。然而這樣的假設(shè)未免過于苛刻。在現(xiàn)實(shí)世界中,數(shù)據(jù)往往可能有不同的分組方式,關(guān)注數(shù)據(jù)的不同表示可以得到不同的聚類結(jié)果。例如,抖音平臺的用戶數(shù)據(jù),可以按照屬性特征對用戶進(jìn)行分組,也可以按照社交好友關(guān)系對用戶進(jìn)行分組。多劃分聚類建模的目的是尋找數(shù)據(jù)多個有意義的粒度空間,挖掘隱含的多種有意義的聚類劃分。多視圖數(shù)據(jù)的多源異質(zhì)性可以為不同??臻g的聚類結(jié)果提供豐富的、多角度語義解釋,進(jìn)一步多粒度、可解釋的多劃分聚類建模將給決策者提供更多的選擇空間,并且可以使決策者根據(jù)自身需求探索性地相信和選用聚類劃分。多劃分聚類方式是對單維聚類的擴(kuò)展,為復(fù)雜數(shù)據(jù)提供了一種新的探索分析方式,希望基于多解的多視圖聚類算法在未來引起更多學(xué)者的關(guān)注。

      綜上可知,多視圖數(shù)據(jù)的低質(zhì)性、大規(guī)模性、動態(tài)性與多解性給聚類任務(wù)帶來的挑戰(zhàn)是多方面的、多層次的。為此,需要在現(xiàn)有研究成果的基礎(chǔ)上,以全新的視角發(fā)展新理論與新方法,推動多視圖聚類的發(fā)展與應(yīng)用。

      3 結(jié)論及展望

      開展多視圖聚類算法的研究,賦予計算機(jī)理解多源異構(gòu)數(shù)據(jù)的能力,對于大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)具有重要理論意義與應(yīng)用價值。本文系統(tǒng)梳理了多視圖聚類算法的多種模型與方法,并對各類算法優(yōu)劣進(jìn)行了歸納和總結(jié),最后從多視圖數(shù)據(jù)的低質(zhì)性、大規(guī)模性、動態(tài)性以及聚類結(jié)果的多解性等方面探討了當(dāng)前研究的挑戰(zhàn)與未來重點(diǎn)研究方向,以期為多視圖領(lǐng)域的研究提供必要借鑒。

      猜你喜歡
      視圖聚類矩陣
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      5.3 視圖與投影
      視圖
      Y—20重型運(yùn)輸機(jī)多視圖
      SA2型76毫米車載高炮多視圖
      初等行變換與初等列變換并用求逆矩陣
      基于改進(jìn)的遺傳算法的模糊聚類算法
      矩陣
      南都周刊(2015年4期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年3期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年1期)2015-09-10 07:22:44
      嘉禾县| 仁寿县| 军事| 进贤县| 北京市| 通城县| 曲松县| 苗栗市| 萝北县| 盐边县| 安康市| 荣昌县| 永城市| 禹州市| 盘锦市| 靖西县| 布尔津县| 府谷县| 绥芬河市| 汪清县| 九寨沟县| 铜鼓县| 兖州市| 商丘市| 安远县| 繁昌县| 南乐县| 张家港市| 天镇县| 闽清县| 土默特右旗| 连平县| 故城县| 崇文区| 缙云县| 富民县| 都江堰市| 巴东县| 石台县| 塔河县| 和平县|