域間F-范數(shù)正則化遷移譜聚類方法*

2018-03-12 08:39:23魏彩娜錢鵬江

計算機與生活 2018年3期

魏彩娜，錢鵬江，奚臣

江南大學(xué) 數(shù)字媒體技術(shù)學(xué)院，江蘇無錫 214122

1 引言

聚類分析是機器學(xué)習(xí)、模式識別等領(lǐng)域的主要課題之一，致力于將一組未標記的數(shù)據(jù)樣本按照它們內(nèi)在本質(zhì)上的親疏程度劃分到多個組（group）中，且同一組內(nèi)樣本間的相似程度應(yīng)足夠大，不同組間的相似程度應(yīng)足夠小[1-3]。然而現(xiàn)實中往往遇到由于信號干擾或環(huán)境噪聲等因素的影響，使得采集的數(shù)據(jù)樣本受到很大程度污染，不能理想反映數(shù)據(jù)內(nèi)在的分布特征的情況，此時，傳統(tǒng)聚類分析算法的聚類性能常常面臨很大挑戰(zhàn)。

針對上述挑戰(zhàn)，近年來機器學(xué)習(xí)領(lǐng)域出現(xiàn)了遷移學(xué)習(xí)研究熱潮[4-7]。遷移學(xué)習(xí)可以很好地解決數(shù)據(jù)受干擾或噪聲影響時聚類效果差的問題，當(dāng)前在聚類、分類問題中引入遷移學(xué)習(xí)機制已引起了學(xué)者們的廣泛研究。Zhao等人將遷移學(xué)習(xí)運用到在線任務(wù)上[4]；Yang等人提出應(yīng)用于圖像聚類的異構(gòu)遷移學(xué)習(xí)方法[5]；Dai等人提出自學(xué)習(xí)無監(jiān)督遷移聚類算法（selftaught clustering，STC），在大量的輔助未標記數(shù)據(jù)的幫助下對目標未標注數(shù)據(jù)進行聚類[6]；Jiang等人提出遷移譜聚類算法（transfer spectral clustering，TSC），主要利用協(xié)同聚類來實現(xiàn)和控制任務(wù)之間的知識轉(zhuǎn)移[7]；Qian等人提出的兩種基于多樣性測量和知識遷移的跨域軟分區(qū)聚類算法TI-KT-CM（type-I knowledgetransfer-oriented C-means）和TII-KT-CM（type-II knowledge-transfer-oriented C-means），主要解決數(shù)據(jù)不充分或由于大量的噪音干擾帶來異常值的問題[8]。

譜聚類方法作為聚類方法的一個研究分支，以圖論為理論基礎(chǔ)，利用數(shù)據(jù)樣本間的相似度矩陣構(gòu)建（廣義）特征系統(tǒng)，再基于此特征系統(tǒng)的特征矩陣進行K-means或譜擾動聚類[9]。其本質(zhì)是將聚類問題轉(zhuǎn)化為圖論中的無向加權(quán)圖的最優(yōu)分割問題。與現(xiàn)有的其他典型的聚類分析方法（如K-means[10]和模糊C均值[11]）相比，譜聚類具有（近似）全局最優(yōu)解，且同時適用于凸形和非凸形數(shù)據(jù)集[9]。

本文以譜聚類為基礎(chǔ)，利用遷移學(xué)習(xí)機制，提出域間F-范數(shù)正則化遷移譜聚類算法（transfer spectral clustering based on inter-domain F-norm regularization，TSC-IDFR）。TSC-IDFR的主旨是利用源域的歷史譜聚類知識，即部分歷史特征向量來輔助目標域的譜聚類過程。為此本文基于K近鄰（Knearest neighbor）策略[12]為目標域每一數(shù)據(jù)樣本從源域挑選一可用來遷移歷史聚類知識的歷史樣本，利用這些歷史數(shù)據(jù)樣本的歷史特征向量組成歷史特征矩陣，結(jié)合F-范數(shù)正則化機制[13]構(gòu)造目標域最優(yōu)譜聚類目標函數(shù)完成聚類。本文算法具有三大特點：

（1）通過遷移歷史特征矩陣，TSC-IDFR實現(xiàn)了對歷史知識的有效學(xué)習(xí)和利用，很大程度上提高了目標算法在受干擾或噪聲影響的目標數(shù)據(jù)集上的聚類效果。

（2）TSC-IDFR從源域遷移的是歷史特征矩陣這一高級歷史知識，而非原始數(shù)據(jù)樣本，這在一定程度上可以滿足源域隱私保護的要求。

（3）通過第K近鄰點策略和為F-范數(shù)正則化項引入正則化系數(shù)λ(λ≥0)，結(jié)合有效的聚類有效性驗證指標，TSC-IDFR可以較靈活地決定關(guān)于源域歷史知識的借鑒程度，最終服務(wù)于目標域的譜聚類過程。

2 相關(guān)工作

2.1 譜聚類算法

譜聚類是模式識別中聚類學(xué)習(xí)的重要技術(shù)之一[14-17]，是一種基于圖論的聚類算法，它可以聚類并收斂于任意形狀樣本空間的全局最優(yōu)解，且能夠同時適用于凸形和非凸形的數(shù)據(jù)集。

給定樣本空間X={xi|xi∈Rd,i=1,2,…,N}，d表示數(shù)據(jù)集的維度，N表示數(shù)據(jù)集樣本容量。G=(V,E,W)表示無向加權(quán)圖，其中數(shù)據(jù)集X中的每個數(shù)據(jù)對應(yīng)于圖G中的一個頂點V，每兩個頂點vi、vj的連線構(gòu)成邊集合E，每條邊上的兩個頂點相似度wij作為邊的權(quán)重，所有邊的權(quán)重構(gòu)成了相似度矩陣W。兩個頂點間的相似度wij由采用的親和度函數(shù)計算而得，如高斯徑向基函數(shù)：

L=稱為拉普拉斯矩陣（Laplacian matrix），其中D稱為度矩陣（degree matrix）且有D=diag(d11,

譜聚類的最優(yōu)化模型可以表示為：

其中，tr()表示矩陣的跡；U是由拉普拉斯矩陣L特征分解后的前k個特征向量歸一化以后組成的特征矩陣；k對應(yīng)聚類的類別數(shù)。

歸一化譜聚類算法（normalized spectral clustering）的具體執(zhí)行步驟如下：

步驟1根據(jù)式（1）計算相似度矩陣W，進而計算度矩陣D和拉普拉斯矩陣L；

步驟2通過對L的特征分解得到前k個特征向量，對每一行進行歸一化操作得到特征矩陣U；

步驟3通過k-means聚類或譜擾動[9]算法對特征矩陣U的每一行進行聚類。

2.2 遷移學(xué)習(xí)

遷移學(xué)習(xí)引起了廣泛的關(guān)注和研究，它是運用已有的知識對不同但相關(guān)的領(lǐng)域問題進行求解的一種機器學(xué)習(xí)方法的統(tǒng)稱。遷移學(xué)習(xí)也稱知識遷移，是從歷史場景（稱作源域）獲取有益信息（數(shù)據(jù)或知識），用于指導(dǎo)現(xiàn)有場景（稱作目標域）的數(shù)據(jù)分析過程。遷移學(xué)習(xí)的目標是將從一個環(huán)境中學(xué)到的知識用來幫助新環(huán)境中的學(xué)習(xí)任務(wù)，即目標域上的新的學(xué)習(xí)處理過程。關(guān)于遷移學(xué)習(xí)的整體介紹可參見文獻[18-23]。

遷移學(xué)習(xí)場景中，源域和目標域的數(shù)據(jù)分布規(guī)律通常表象不同但內(nèi)在存在一定聯(lián)系。鑒于此特點，目標域如何有效地從源域發(fā)現(xiàn)有用的可借鑒知識，并如何適度地借鑒學(xué)習(xí)此知識是知識遷移的關(guān)鍵問題之一。

3 基于域間F-范數(shù)正則化遷移的譜聚類算法

為了解決受噪聲或干擾信息影響的目標域數(shù)據(jù)集的有效聚類問題，本文引入遷移學(xué)習(xí)機制，在F-范數(shù)正則化的基礎(chǔ)上構(gòu)建了遷移譜聚類算法TSC-IDFR。

介紹TSC-IDFR算法之前，首先介紹譜聚類方法中什么知識可以用來進行源域到目標域的知識遷移。如第2.1節(jié)所介紹，譜聚類最終將進行基于拉普拉斯矩陣L的特征分解操作，得到由前k個特征向量（對應(yīng)于前k個最小的特征值）構(gòu)成的特征矩陣。也就是說譜聚類可以理解為將數(shù)據(jù)信息從原數(shù)據(jù)集X(N×d)變換成特征矩陣U(N×k)，如圖1所示。

Fig.1 Transformation from data setXto eigenvector matrixUin spectral clustering圖1 譜聚類中原數(shù)據(jù)集X與特征矩陣U的轉(zhuǎn)換

譜聚類中這種從原數(shù)據(jù)集X到特征矩陣U的轉(zhuǎn)換過程給了人們很大的啟示。認為U可被視作一種源域中的高級知識，是對源域數(shù)據(jù)分布規(guī)律的一種高級知識表示形式，且這種知識表示可被目標域的聚類過程借鑒學(xué)習(xí)。這正是本文最大的研究創(chuàng)新。如此，可以從兩方面受益：

（1）從源域獲得一種可用于目標域知識借鑒的高級知識表示機制；

（2）基于特征矩陣進行知識遷移而非源域數(shù)據(jù)樣本本身，這可滿足數(shù)據(jù)隱私保護環(huán)境下的遷移學(xué)習(xí)過程。

接著分析如何從源域獲取適用的特征矩陣用于目標域的知識借鑒學(xué)習(xí)。這里需要強調(diào)一點：本文重點關(guān)注一個經(jīng)典的遷移學(xué)習(xí)場景，即目標域數(shù)據(jù)樣本由于受到一定程度的環(huán)境噪聲或干擾信息的影響，以至于數(shù)據(jù)樣本本身并不能準確反映潛在的數(shù)據(jù)分布真相的場景。在此場景下，為目標域的任意數(shù)據(jù)樣本從源域找到適宜的可從其借鑒知識的參照樣本是本文需要首先解決的問題（假設(shè)源域的數(shù)據(jù)量遠大于目標域的數(shù)據(jù)量）。為此，本文提出第K近鄰機制：對于目標域中的任意樣本，從源域找距離它第K個最近的樣本作為它的可參照樣本（注意，這里不是選前K個最近的樣本，而是僅第K個最近樣本，即前面K-1個最近樣本都不被采用）。通過這種機制，本文旨在提出一種源域與目標域之間的較具有靈活性的知識借鑒機制（本文K的最佳取值將通過網(wǎng)格尋優(yōu)策略決定）。這樣，基于目標域的N個數(shù)據(jù)樣本可從源域找出由相應(yīng)N個樣本構(gòu)成的歷史被參照樣本子集，這些歷史被參照樣本在源域特征矩陣中的相應(yīng)行就構(gòu)成了最終用以目標域知識借鑒的特征子矩陣（記作U(O)）。

基于上述思想，在經(jīng)典譜聚類的最優(yōu)化架構(gòu)上融入對源域知識的借鑒學(xué)習(xí)項，參考文獻[24-28]本文提出TSC-IDFR的最優(yōu)化目標表達式。

根據(jù)遷移學(xué)習(xí)理論，源域數(shù)據(jù)（歷史被參照數(shù)據(jù)）與目標域數(shù)據(jù)（當(dāng)前待處理數(shù)據(jù)）應(yīng)具有一定程度的相似性。本文用D(U(C),U(O))來度量目標域數(shù)據(jù)上的譜聚類知識和源域數(shù)據(jù)上的譜聚類知識之間的不相似程度，其中U(C)和U(O)分別表示目標域數(shù)據(jù)和源域數(shù)據(jù)的特征矩陣。為定義D(U(C),U(O))，本文引入線性核函數(shù)和F-范數(shù)的相關(guān)知識。用符號KU(C)和分別表示目標域特征矩陣U(C)和源域特征矩陣U(O)對應(yīng)的相似度矩陣（由線性核函數(shù)計算而得），||*||F表示相似度矩陣的F范數(shù)。這樣本文D(U(C),U(O))可以定義為：

由于采用線性核函數(shù)，將得到兩個性質(zhì)：

式（4）等號右邊的式子等于F范數(shù)的平方，對于n×m矩陣A，其F范數(shù)為：

設(shè)B、C均為n矩陣，矩陣的跡具有以下性質(zhì)：

為了找到目標域數(shù)據(jù)上的譜聚類知識和源域數(shù)據(jù)上的譜聚類知識之間的不相似程度，按照F范數(shù)和矩陣跡的性質(zhì)和公式，式（4）改變?yōu)椋?/p>

經(jīng)過以上公式最終得到：

本文希望最小化不相似度D(U(C),U(O))，即最大化tr(U(C)U(C)TU(O)U(O)T)。這樣省略常數(shù)項因子，基于譜聚類目標函數(shù)，可以提出TSC-IDFR的最優(yōu)化目標函數(shù)：

其中，tr(U(C)TL(C)U(C))是原譜聚類最優(yōu)化項；U(O)U(O)T)是基于F-范數(shù)的知識遷移正則化項；λ(λ≥0)是遷移正則化項的系數(shù)。

適當(dāng)合并處理后式（9）可寫成：目標表達式中的L(C)+λU(O)U(O)T等同于經(jīng)典譜聚類里面的拉普拉斯矩陣L，區(qū)別在于前者加入了供目標域知識借鑒的特征子矩陣的相關(guān)信息。這里將歷史信息以特征矩陣的形式給出，通過調(diào)整正則化系數(shù)λ的值來調(diào)整目標域關(guān)于源域知識的遷移學(xué)習(xí)程度，成功地將歷史相關(guān)知識融入到目標函數(shù)中實現(xiàn)了遷移譜聚類的思想。

TSC-IDFR算法的整體設(shè)計思想如圖2所示。

Fig.2 Design idea of TSC-IDFR圖2 TSC-IDFR算法設(shè)計架構(gòu)

TSC-IDFR算法的具體執(zhí)行步驟為：

階段1數(shù)據(jù)處理階段

步驟1輸入目標域數(shù)據(jù)集和源域數(shù)據(jù)集，根據(jù)第K最近鄰策略為目標域任一樣本從源域數(shù)據(jù)集挑選出一可參照數(shù)據(jù)樣本，如此獲得目標域在源域的可參照數(shù)據(jù)子集。

階段2遷移譜聚類算法階段

步驟2輸入相似度參數(shù)σ，經(jīng)由式（1）分別計算出目標域數(shù)據(jù)和源域的可參照數(shù)據(jù)子集上的拉普拉斯矩陣L(C)和L(O)L(O)；

步驟3對L(O)進行特征分解，取前k個最小特征值對應(yīng)的特征向量，并對每一行進行歸一化操作得到特征矩陣U(O)；

步驟4根據(jù)式（10），輸入正則化系數(shù)λ，新的譜聚類的拉普拉斯矩陣等于L(C)+λU(O)U(O)T；

步驟5對步驟4得到的新拉普拉斯矩陣做特征分解，最后通過k-means聚類算法或譜擾動方法對特征矩陣的每一行進行聚類；

步驟6輸出聚類實驗結(jié)果。

4 實驗研究

為驗證本文提出的TSC-IDFR算法的聚類有效性，以下將基于一組模擬數(shù)據(jù)集和5個真實數(shù)據(jù)集進行實驗。本文除了與經(jīng)典譜聚類算法（spectral clustering，SC）對比，還將在對比實驗中加入現(xiàn)有的幾種典型的相關(guān)算法進行比較評價，包括共享學(xué)習(xí)子空間的多任務(wù)聚類算法（learning the shared subspace for multi-task clustering，LSSMTC）[29]、自學(xué)習(xí)聚類算法（STC）[6]、遷移譜聚類算法（TSC）[7]和兩種基于分歧度度量知識遷移的跨域軟劃分聚類算法（TI-KT-CM/TII-KT-CM）[8]。需要說明的是，TSC算法要求數(shù)據(jù)維度大于聚類的類目數(shù)，因此對于不滿足該條件的數(shù)據(jù)集，以“—”表示無法獲得其上的聚類結(jié)果。本實驗采用歸一化互信息（normalized mutual information，NMI[30]）和芮氏指標（rand index，RI[31]）兩種外部評價指標對實驗結(jié)果進行評價。兩種評價指標的取值范圍均為[0,1]，值越大表明算法的聚類性能越好。

本文算法涉及對徑向基參數(shù)σ、正則化系數(shù)λ和第K近鄰機制中的參數(shù)K的取值問題，為此本文采用了廣為熟知的網(wǎng)格搜索法來進行參數(shù)遍歷尋優(yōu)。表1給出了本文TSC-IDFR算法關(guān)于徑向基參數(shù)σ和正則化系數(shù)λ在各個數(shù)據(jù)集上的推薦尋優(yōu)區(qū)間；第K近鄰參數(shù)K的值則從1到7在各個數(shù)據(jù)集上遍歷獲得。其他幾種被比較算法均采用原文獻推薦的參數(shù)區(qū)間設(shè)置。實驗結(jié)果統(tǒng)計中NMI-meanNMI-std（RI-meanRI-std）分別表示在最優(yōu)參數(shù)下運行10次后NMI的均值與方差（RI的均值與方差）。

Table 1 Recommended parameter settings to TSC-IDFR表1 TSC-IDFR算法推薦參數(shù)尋優(yōu)區(qū)間

實驗環(huán)境：i3 3.7 GHz CPU，12 GB RAM（根據(jù)自己電腦實際修改），Matlab R2014a等。

4.1 模擬數(shù)據(jù)集實驗與結(jié)果分析

鑒于遷移學(xué)習(xí)的場景是源域和目標域數(shù)據(jù)分布通常表象不同但存在內(nèi)在關(guān)聯(lián)性，為此本文特設(shè)計滿足此特點的兩種模擬遷移數(shù)據(jù)場景如下。

（1）月牙型遷移數(shù)據(jù)場景L1-M1。構(gòu)造如圖3（a）、（b）所示的二維月牙型數(shù)據(jù)集L1和M1。其中L1不含噪聲，2類分布清晰共含1 210個數(shù)據(jù)點；M1則較明顯不同于L1的數(shù)據(jù)分布，即所含2類形狀與L1明顯不同且類間部分重疊相交（模擬受噪聲干擾場景），且共有460個數(shù)據(jù)點。

（2）簇狀遷移數(shù)據(jù)場景L2-M2。構(gòu)造如圖3（c）、（d）所示的二維人造簇狀數(shù)據(jù)集。首先采用高斯概率分布函數(shù)生成4類共1 200個數(shù)據(jù)點的源域數(shù)據(jù)集L2（每類300個點），其中4類滿足如下分布規(guī)律：第一類均值m=[10 8]，方差s=[8 0；0 8]；第二類均值m=[25 10]，方差s=[14 0；0 16]；第三類均值m=[40 18]，方差s=[20 0；0 20]；第四類均值m=[-1 8]，方差s=[12 0；0 12]。類似地采用高斯概率分布函數(shù)生成目標域數(shù)據(jù)集M2，它包含3類共600個數(shù)據(jù)點（每類200個點）。這3類滿足如下分布：第一類均值m=[10 20]，方差s=[10 0；0 10]；第二類均值m=[15 10]，方差s=[12 0；0 14]；第 3 類均值m=[20 25]，方差s=[15 0；0 15]。這三類彼此部分重疊，用于模擬受噪聲干擾目標域類簇較難區(qū)分的場景。

本實驗的目的是檢驗遷移聚類算法是否能通過來自源域的知識借鑒以有效提升其在目標域數(shù)據(jù)集（受到較大程度噪聲影響）上的聚類有效性。這里L(fēng)1-M1場景屬于遷移學(xué)習(xí)中任務(wù)相同（都要求劃分出2類）但數(shù)據(jù)域不同（源域和目標域數(shù)據(jù)分布明顯不同）的情形；L2-M2場景則屬于任務(wù)和數(shù)據(jù)域均不相同的遷移學(xué)習(xí)場景，因為源域和目標域不僅數(shù)據(jù)分布不同，所含類簇數(shù)也不同。

Fig.3 Artificial transfer data scenarios圖3 人造遷移數(shù)據(jù)場景

注意：TSC算法要求數(shù)據(jù)維度大于聚類的類目數(shù)，這里的模擬數(shù)據(jù)集顯然不滿足該條件，因此本文模擬數(shù)據(jù)集上的實驗未使用TSC算法。

表2給出了各算法在L1-M1和L2-M2遷移數(shù)據(jù)場景下的最終聚類性能情況?；诒?可以給出如下實驗結(jié)果分析。

（1）從源域是L1目標域是M1組成的遷移場景L1-M1可以看出，在如圖3（b）所示的非凸形目標數(shù)據(jù)集上，基于譜聚類的TSC-IDFR、SC和STC算法的性能明顯優(yōu)于LSSMTC、TI-KT-CM和TII-KT-CM算法。這是因為譜聚類可以適應(yīng)任意形狀（凸形或非凸形）數(shù)據(jù)集且擁有全局（近似）最優(yōu)解。TI-KT-CM和TII-KT-CM雖然也屬于時興知識遷移聚類算法，但對于非凸形數(shù)據(jù)集聚類效果不佳。就TSC-IDFR、SC和STC三者而言，基于歷史譜聚類知識遷移的TSC-IFR算法明顯優(yōu)于SC和STC算法。原因有二：一方面是TSC-IDFR學(xué)習(xí)的是歷史特征矩陣這一高級歷史譜聚類知識，而非來自源域的原始數(shù)據(jù)樣本，這使其具備了避免由于參照數(shù)據(jù)選擇不當(dāng)而造成負遷移的能力，從而實現(xiàn)在目標數(shù)據(jù)集上的相對有效聚類；另一方面通過靈活調(diào)整正則化系數(shù)λ的值，在源域與目標域數(shù)據(jù)分布區(qū)別明顯的情況下，TSC-IDFR仍然實現(xiàn)了對源域歷史譜聚類知識的較合理利用，從而在目標域聚類中獲益。

（2）從源域是L2目標域是M2組成的遷移場景L2-M2可以看出，TSC-IDFR、STC、TI-KT-CM和TIIKT-CM算法的聚類性能都優(yōu)于LSSMTC算法。這是因為LSSMTC算法是一種多任務(wù)聚類算法。其目的是同時完成多個聚類任務(wù)且任務(wù)之間會有一些交互信息。由于源域與目標域間數(shù)據(jù)分布的差異，導(dǎo)致源域聚類任務(wù)和目標域聚類任務(wù)之間的交互有效性降低，從而得不到理想的雙贏結(jié)果。遷移聚類算法TSC-IDFR、STC、TI-KT-CM和TII-KT-CM在此遷移場景中均可獲得來自源域的有用信息來提高其在目標域中的聚類有效性。

（3）較之經(jīng)典譜聚類SC算法，TSC-IDFR的實際性能提升取決于其從源域獲取的知識對其在目標域上聚類的實際指導(dǎo)價值。總體而言，目標域與源域相似度越大，從源域獲取的知識對目標域的指導(dǎo)價值就越大。比如L1-M1場景較之L2-M2場景源域跟目標域更相似，因此較之SC，TSC-IDFR算法在M1數(shù)據(jù)集上獲得了約11%的聚類性能提升，而在M2上僅4%左右。

4.2 真實數(shù)據(jù)集實驗及結(jié)果分析

為了進一步驗證本文算法的有效性，選擇了5個真實數(shù)據(jù)源用于構(gòu)造遷移學(xué)習(xí)場景。

（1）來自新聞文本數(shù)據(jù)庫20NG（http://www.cs.nyu.edu/?roweis/data.html）的rec VS talk數(shù)據(jù)集。本文從原數(shù)據(jù)庫選擇其中rec和talk兩個大類涉及的相關(guān)子類的數(shù)據(jù)記錄構(gòu)成該遷移學(xué)習(xí)數(shù)據(jù)集，其中源域數(shù)據(jù)由rec.autos和talk.politics.guns的1 500條數(shù)據(jù)組成，目標域由rec.sports.baseball和talk.politics.mideast的500條記錄構(gòu)成。

（2）來自電子郵件垃圾郵件過濾資源庫的ESF數(shù)據(jù)庫（http://www.ecmlpkdd2006.org/challenge.html）。其中源域數(shù)據(jù)來自公共可用消息資源的4 000條記錄，目標域則來自用戶1的私人消息資源共2 500條記錄。

Table 2 Clustering results of each algorithm in simulated data sets表2 模擬數(shù)據(jù)集的各算法聚類結(jié)果

（3）來自UCI的人類活動時間序列（human motion time series，HMTS）數(shù)據(jù)集（http://archive.ics.uci.edu/ml/datasets/）。該數(shù)據(jù)集的原始數(shù)據(jù)由每個志愿者進行各類日?；顒訒r，包括爬樓梯、坐下、走路等，其佩戴在手腕的3個傳感器記錄的3條時間序列組成。本文首先經(jīng)3到6層的Haar離散小波變換處理將每一原始時間序列統(tǒng)一降維到17維，接著把每個志愿者的3條17維的新序列拼接為統(tǒng)一的51維特征向量[8]。本文將女性志愿者的共494條記錄用作源域，男性志愿者的共312條記錄構(gòu)成目標域數(shù)據(jù)。

（4）來自人臉數(shù)據(jù)庫的ORL數(shù)據(jù)集（http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html）。本文選擇其中8個不同人的各10幅人臉圖像用以構(gòu)成實驗圖像。把每人的任意8幅圖像放入源域，剩余的2幅圖像放入目標域。為了使源域與目標域數(shù)據(jù)差異盡可能大，對源域每幅人臉分別按10°和20°進行正時針繞轉(zhuǎn)，對目標域圖像則按10°和20°進行反時針繞轉(zhuǎn)，由此形成實驗用的所有人臉圖像。對每一圖像的像素灰度特征用PCA方法降維后獲得最終239維的ORL數(shù)據(jù)集。

（5）來自Brodatz紋理數(shù)據(jù)庫（http://www.ee.oulu.fi/research/imag/texture/image_data/Brodatz32.html）的TIS數(shù)據(jù)集。本文從中選擇了3種不同紋理用以分別構(gòu)造源域和目標域紋理圖像。如圖4（a）為源域紋理圖像（無噪聲），圖4（b）為目標域圖像（與源域分布不同且受到一定程度的噪聲干擾）。通過Gabor濾波方法提取紋理特征構(gòu)成了最終數(shù)據(jù)集TIS。

Fig.4 Texture images of TIS data sets圖4 TIS數(shù)據(jù)集涉及的紋理圖像

上述5個真實遷移數(shù)據(jù)場景的源域和目標域數(shù)據(jù)記錄數(shù)、數(shù)據(jù)維度及所含類別數(shù)情況詳見表3。表4給出了各算法在這些數(shù)據(jù)集上的聚類結(jié)果。此外，為了驗證本文TSC-IDFR算法關(guān)于參數(shù)的魯棒性，也評估了TSC-IDFR算法中的3個參數(shù)，第K近鄰機制參數(shù)K、正則化系數(shù)λ和徑向基函數(shù)參數(shù)σ，對其實際性能的具體影響情況。如圖5～圖7所示，以其中4個數(shù)據(jù)集為例示意了TSC-IDFR關(guān)于核心算法參數(shù)的性能變化情景。

Table 3 Characteristics of real-world transfer data sets表3 真實遷移數(shù)據(jù)集數(shù)據(jù)特征

通過觀察表4及圖5～圖7，可以得到如下結(jié)論：

（1）無論是高維數(shù)據(jù)（如ORL和rec VS talk）還是較低維情景（如TIS），TSC-IDFR算法的聚類性能都優(yōu)于其他算法。這是因為TSC-IDFR算法通過第K近鄰點策略為目標數(shù)據(jù)集找到適宜的可從其借鑒知識的參照樣本，通過遷移歷史特征矩陣，實現(xiàn)了對歷史知識的有效學(xué)習(xí)和利用。具體說就是通過第K近鄰點策略和F-范數(shù)正則化系數(shù)λ的調(diào)節(jié)，TSC-IDFR算法可以較靈活地決定關(guān)于源域歷史知識的借鑒程度，最終服務(wù)于目標域的譜聚類過程。此外，TSCIDFR遷移的是歷史特征矩陣，這還可以滿足源域隱私保護的特定需求。這些結(jié)論與在人造數(shù)據(jù)場景中所得結(jié)論是一致的。

（2）TII-KT-CM算法的實際性能始終優(yōu)于TI-KTCM算法，這是因為TI-KT-CM僅依賴于源域歷史類中心這一高級知識，而TII-KT-CM同時借鑒了源域歷史類中心和關(guān)于歷史類中心的模糊隸屬度知識，即TII-KT-CM具有更強的歷史知識借鑒學(xué)習(xí)能力，因此總體上比TI-KT-CM更有效。而在這些數(shù)據(jù)集上本文TSC-IDFR算法更優(yōu)于TII-KT-CM算法，這進一步佐證了本文同時結(jié)合遷移學(xué)習(xí)、譜聚類和F范數(shù)正則化等機制提出的遷移譜聚類方法的有效性。

Table 4 Clustering results of all algorithms on real-world data sets表4 真實數(shù)據(jù)集的各算法聚類結(jié)果

Fig.5 Relationships between parameterKand clustering performance in TSC-IDFR圖5 TSC-IDFR算法性能與參數(shù)K關(guān)系曲線

Fig.6 Relationships between parameterλand clustering performance in TSC-IDFR圖6 TSC-IDFR算法性能與參數(shù)λ關(guān)系曲線

Fig.7 Relationships between parameterσand clustering performance in TSC-IDFR圖7 TSC-IDFR算法性能與參數(shù)σ關(guān)系曲線

（3）圖5示意了參數(shù)K對TSC-IDFR算法的性能影響情況。結(jié)合給定的聚類有效性指標，可以為每個數(shù)據(jù)集找到一個最優(yōu)K值。圖6、圖7示意了參數(shù)λ和σ對TSC-IDFR算法的聚類性能影響情況，總體上看，取最佳參數(shù)設(shè)置時，TSC-IDFR算法對正則化參數(shù)λ相對穩(wěn)定，對高斯徑向基窗寬參數(shù)σ相對敏感，但在合適區(qū)間范圍內(nèi)，其聚類性能總體上波動不大。

5 結(jié)束語

為了解決受噪聲或干擾信息影響的目標域數(shù)據(jù)集的有效聚類問題，本文引入遷移學(xué)習(xí)機制，在F-范數(shù)正則化的基礎(chǔ)上構(gòu)建了遷移譜聚類算法TSC-IDFR。通過遷移歷史特征矩陣，TSC-IDFR實現(xiàn)了對歷史知識的有效學(xué)習(xí)和利用，很大程度上提高了目標算法在受干擾或噪聲影響的目標數(shù)據(jù)集上的聚類效果。本文在人造數(shù)據(jù)集和真實數(shù)據(jù)集聚類中較充分地驗證了TSC-IDFR算法的有效性。關(guān)于該研究的進一步工作：一是將此算法進一步應(yīng)用到某些領(lǐng)域，如面向大尺度醫(yī)學(xué)圖像的有效分割問題。二是在此算法基礎(chǔ)上加入半監(jiān)督知識，如加入成對約束信息等，以更好地解決數(shù)據(jù)缺失等問題。

[1]Tzortzis G,Likas A,Tzortzis G.The MinMaxk-means clustering algorithm[J].Pattern Recognition,2014,47(7):2505-2516.

[2]Deng Zhaohong,Zhang Jiangbin,Jiang Yizhang,et al.Fuzzy subspace clustering based zero-order L2-norm TSK fuzzy system[J].Journal of Electronics&Information Technology,2015,37(9):2082-2088.

[3]Jiang Yizhang,Deng Zhaohong,Wang Jun,et al.Transfer generalized fuzzy C-means clustering algorithm with improved fuzzy partitions by leveraging knowledge[J].Pattern Recognition andArtificial Intelligence,2013,26(10):975-984.

[4]Zhao Peilin,Hoi S C H,Wang Jialei,et al.Online transfer learning[J].Artificial Intelligence,2014,216:76-102.

[5]Yang Qiang,Chen Yuqiang,Xue Guirong,et al.Heterogeneous transfer learning for image clustering via the socialweb[C]//Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the AFNLP,Singapore,Aug 2-7,2009.Stroudsburg:ACL,2009:1-9.

[6]Dai Wenyuan,Yang Qiang,Xue Guirong,et al.Self-taught clustering[C]//Proceedings of the 25th International Conference on Machine Learning,Helsinki,Jun 5-9,2008.New York:ACM,2008:200-207.

[7]Jiang Wenhao,Chung F L.Transfer spectral clustering[C]//LNCS 7524:Proceedings of the 2012 European Conference on Machine Learning and Knowledge Discovery in Databases,Bristol,Sep 24-28,2012.Berlin,Heidelberg:Springer,2012:789-803.

[8]Qian Pengjiang,Sun Shouwei,Jiang Yizhang,et al.Crossdomain,soft-partition clustering with diversity measure and knowledge reference[J].Pattern Recognition,2016,50:155-177.

[9]Qian Pengjiang,Jiang Yizhang,Wang Shitong,et al.Affinity and penalty jointly constrained spectral clustering with allcompatibility,flexibility,and robustness[J].IEEE Transactions on Neural Networks and Learning Systems,2016,28(5):1123-1138.

[10]Kanungo T,Mount D M,Netanyahu N S,et al.An efficientk-means clustering algorithm:analysis and implementation[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2002,24(7):881-892.

[11]Zhu Lin,Chung F L,Wang Shitong.Generalized fuzzy C-means clustering algorithm with improved fuzzy partitions[J].IEEE Transactions on Systems,Man and Cybernetics:Part B Cybernetics,2009,39(3):578-591.

[12]Samadpour M M,Parvin H,Rad F.Diminishing prototype size fork-nearest neighbors classification[C]//Proceedings of the 14th Mexican International Conference on Artificial Intelligence,Cuernavaca,Oct 25-31,2015.Washington:IEEE Computer Society,2015:139-144.

[13]Fang Jianbin,Chen Zhengxu.An approximation method of positive semi-definite matrix based on weighted F-norm[J].Statistics&Information Forum,2007,22(2):44-48.

[14]Kamvar S D,Klein D,Manning C D.Spectral learning[C]//Proceedings of the 18th International Joint Conference on Artificial Intelligence,Acapulco,Aug 9-15,2003.San Francisco:Morgan Kaufmann Publishers Inc,2003:561-566.

[15]Fan R K C.Spectral graph theory[M]//Conference Board of the Mathematical Sciences Regional Conference Series in Mathematics.Providence:American Mathematical Society,1997:149-180.

[16]Zhou Dengyong,Burges C J C.Spectral clustering and transductive learning with multiple views[C]//Proceedings of the 24th International Conference on Machine Learning,Corvallis,Jun 20-24,2007.New York:ACM,2007:1159-1166.

[17]Luxburg U V.A tutorial on spectral clustering[J].Statistics and Computing,2007,17(4):395-416.

[18]Ling Xiao,Dai Wenyuan,Xue Guirong,et al.Spectral domaintransfer learning[C]//Proceedings of the 14th International Conference on Knowledge Discovery and Data Mining,Las Vegas,Aug 24-27,2008.New York:ACM,2008:488-496.

[19]Weiss K,Khoshgoftaar T M,Wang Dingding.A survey of transfer learning[J].Journal of Big Data,2016,3(1):9.

[20]Pan S J,Yang Qiang.A survey on transfer learning[J].IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.

[21]Saha B,Gupta S K,Phung D Q,et al.Multiple task transfer learning with small sample sizes[J].Knowledge and Information Systems,2016,46(2):315-342.

[22]Liu Zhen,Yang Junan,Liu Hui,et al.Transfer learning by fuzzy neighborhood density-based clustering and re-sampling[C]//Proceedings of the 2015 International Conference on Computer Science and Applications,Wuhan,Nov 20-22,2015.Washington:IEEE Computer Society,2015:232-236.

[23]Zhuang Fuzhen,Luo Ping,He Qing,et al.Survey on transfer learning research[J].Journal of Software,2015,26(1):26-39.

[24]Kumar A,Rai P,Daumé H.Co-regularized multi-view spectral clustering[C]//Proceedings of the 2011 International Conference on Neural Information Processing Systems,Granada,Dec 12-14,2011:1413-1421.

[25]Huang Likun,Lu Jiwen,Tan Y P.Co-learned multi-view spectral clustering for face recognition based on image sets[J].IEEE Signal Processing Letters,2014,21(7):875-879.

[26]Sun Shouwei,Qian Pengjiang,Chen Aiguo,et al.Clustercenter-distance maximization clustering with knowledge transfer[J].Computer Engineering and Applications,2016,52(16):149-155.

[27]Chen Aiguo,Wang Shitong.Knowledge transfer clustering algorithm with privacy protection[J].Journal of Electronics&Information Technology,2016,38(3):523-531.

[28]Qian Pengjiang,Sun Shouwei,Jiang Yizhang,et al.Knowledge transfer based maximum entropy clustering[J].Control and Decision,2015,30(6):1000-1006.

[29]Gu Quanquan,Zhou Jie.Learning the shared subspace for multi-task clustering and transductive transfer classification[C]//Proceedings of the 9th IEEE International Conference on Data Mining,Miami,Dec 6-9,2009.Washington:IEEE Computer Society,2009:159-168.

[30]Jing Liping,Ng M K,Huang J Z.An entropy weightingkmeans algorithm for subspace clustering of high-dimensional sparse data[J].IEEE Transactions on Knowledge and Data Engineering,2007,19(8):1026-1041.

[31]Liu Jun,Mohammed J,Carter J,et al.Distance-based clustering of CGH data[J].Bioinformatics,2006,22(16):1971-1978.

附中文參考文獻：

[2]鄧趙紅,張江濱,蔣亦樟,等.基于模糊子空間聚類的〇階L2型TSK模糊系統(tǒng)[J].電子與信息學(xué)報,2015,37(9):2082-2088.

[3]蔣亦樟,鄧趙紅,王駿,等.基于知識利用的遷移學(xué)習(xí)一般化增強模糊劃分聚類算法[J].模式識別與人工智能,2013,26(10):975-984.

[13]方建斌,陳正旭.一種基于加權(quán)F-范數(shù)的半正定矩陣的逼近方法[J].統(tǒng)計與信息論壇,2007,22(2):44-48.

[23]莊福振,羅平,何清,等.遷移學(xué)習(xí)研究進展[J].軟件學(xué)報,2015,26(1):26-39.

[26]孫壽偉,錢鵬江,陳愛國,等.具備遷移能力的類中心距離極大化聚類算法[J].計算機工程與應(yīng)用,2016,52(16):149-155.

[27]陳愛國,王士同.具有隱私保護功能的知識遷移聚類算法[J].電子與信息學(xué)報,2016,38(3):523-531.

[28]錢鵬江,孫壽偉,蔣亦樟,等.知識遷移極大熵聚類算法[J].控制與決策,2015,30(6):1000-1006.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看