基于多種輸出嵌入結(jié)合的無(wú)標(biāo)簽圖像分類(lèi)

2016-10-17 09:13:44盧建軍劉志鵬

電視技術(shù) 2016年9期

關(guān)鍵詞：層次結(jié)構(gòu)結(jié)構(gòu)化標(biāo)簽

何　琪，盧建軍，劉志鵬

(西安郵電大學(xué) a.通信與信息工程學(xué)院；b.經(jīng)濟(jì)與管理學(xué)院，陜西西安 710121)

基于多種輸出嵌入結(jié)合的無(wú)標(biāo)簽圖像分類(lèi)

何琪a，盧建軍b，劉志鵬b

(西安郵電大學(xué) a.通信與信息工程學(xué)院；b.經(jīng)濟(jì)與管理學(xué)院，陜西西安 710121)

利用多種輸出嵌入相結(jié)合的方法，改善無(wú)標(biāo)簽圖像的分類(lèi)性能。以邊信息作為標(biāo)簽嵌入，用圖像特征作為輸入嵌入，在標(biāo)簽嵌入和輸入嵌入之間構(gòu)建一個(gè)聯(lián)合兼容函數(shù)，建立結(jié)構(gòu)化聯(lián)合嵌入框架。通過(guò)調(diào)整聯(lián)合嵌入的權(quán)重矩陣，使兼容函數(shù)取得最大值，據(jù)此確定圖像的分類(lèi)。借助兩個(gè)數(shù)據(jù)集進(jìn)行的驗(yàn)證，實(shí)驗(yàn)結(jié)果顯示，多種輸出嵌入結(jié)合的圖像分類(lèi)方法準(zhǔn)確率優(yōu)于單輸出嵌入的圖像分類(lèi)方法。

圖像分類(lèi)；標(biāo)簽嵌入；輸出嵌入

大規(guī)模數(shù)量集如ImageNet[1]的出現(xiàn)，使得卷積神經(jīng)網(wǎng)絡(luò)[2]等深度學(xué)習(xí)[3-4]方法在大規(guī)模視覺(jué)識(shí)別中處于主導(dǎo)的地位，然而，卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程需要大量的標(biāo)簽數(shù)據(jù)，對(duì)于無(wú)標(biāo)簽數(shù)據(jù)的圖像分類(lèi)卷積神經(jīng)網(wǎng)絡(luò)就有了局限性，因此需要與對(duì)象類(lèi)相關(guān)的可替代的信息源。針對(duì)這一問(wèn)題，本文采用邊信息[5]作為對(duì)象類(lèi)的信息源，進(jìn)行標(biāo)簽嵌入[6]即輸出嵌入。標(biāo)簽嵌入是一種有效模擬類(lèi)別之間潛在關(guān)系的工具，主要包括獨(dú)立數(shù)據(jù)嵌入、學(xué)習(xí)嵌入和邊信息嵌入3種類(lèi)型，本文只針對(duì)于邊信息嵌入進(jìn)行分析說(shuō)明。本文介紹屬性嵌入、文本嵌入和層次結(jié)構(gòu)嵌入3種類(lèi)型的邊信息嵌入作為輸出嵌入，因?yàn)椴煌妮敵銮度敕庋b了圖像的不同信息，為了獲得更加完備的圖像信息，通過(guò)串聯(lián)或者并聯(lián)的方式將多種輸出嵌入進(jìn)行結(jié)合，與單輸出嵌入進(jìn)行實(shí)驗(yàn)分析比較，在AWA[7]和CUB[8]兩個(gè)數(shù)據(jù)集上進(jìn)行驗(yàn)證，實(shí)驗(yàn)結(jié)果表明：多種輸出嵌入相結(jié)合的圖像分類(lèi)準(zhǔn)確率高于單輸出嵌入的圖像分類(lèi)準(zhǔn)確率。

結(jié)構(gòu)化支持向量機(jī)(SVM)[9]是應(yīng)用于圖像分類(lèi)的一種通用方法，該方法是對(duì)帶標(biāo)簽的圖像進(jìn)行訓(xùn)練學(xué)習(xí)的，然而，標(biāo)簽的缺失限制了它在無(wú)標(biāo)簽圖像分類(lèi)中的應(yīng)用，因此，基于標(biāo)簽嵌入技術(shù)和結(jié)構(gòu)化支持向量機(jī)的原理，本文將標(biāo)簽嵌入和結(jié)構(gòu)化支持向量機(jī)相結(jié)合，形成了結(jié)構(gòu)化聯(lián)合嵌入(SJE)框架。將圖像特征作為輸入嵌入，邊信息作為輸出嵌入分別映射到輸入和輸出嵌入空間，在輸入輸出空間建立一個(gè)兼容函數(shù)，通過(guò)對(duì)權(quán)值矩陣W的學(xué)習(xí)，使得輸入嵌入輸出嵌入達(dá)到最高的匹配。

本文采用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)和費(fèi)舍爾向量(FV)[10]兩種算法對(duì)圖像進(jìn)行特征提取，并對(duì)密集SIFT特征進(jìn)行了優(yōu)化。在2004年，DG Lowe提出了具有角度不變性的密集SIFT特征，該方法能夠?qū)ι贁?shù)收斂點(diǎn)進(jìn)行特征提取，但當(dāng)圖像缺少紋理或者亮度較低時(shí)，特征提取效果不太理想。因此，本文采用了按網(wǎng)格點(diǎn)來(lái)提取SIFT特征的方法，從而得到圖像的D-SIFT[11]特征，提高圖像特征提取的準(zhǔn)確度。

1　結(jié)構(gòu)化聯(lián)合嵌入框架

1.1模型

結(jié)構(gòu)化聯(lián)合嵌入框架如圖1所示。

圖1　結(jié)構(gòu)化聯(lián)合嵌入框架

在輸入空間X和結(jié)構(gòu)化輸出空間Y之間，定義了一個(gè)兼容函數(shù)F:X×Y→R，給定一個(gè)特定的輸入嵌入，在SJE結(jié)構(gòu)中通過(guò)兼容函數(shù)F最大化得到一個(gè)預(yù)測(cè)值，如下

(1)

式中：W是D×E的矩陣，D代表輸入嵌入的維度；E代表輸出嵌入的維度。因此，兼容性函數(shù)F的雙線性形式如下

(2)

(3)

則此時(shí)輸入輸出的聯(lián)合嵌入在一個(gè)相同的R維數(shù)空間上。

1.2參數(shù)學(xué)習(xí)

根據(jù)結(jié)構(gòu)化支持向量機(jī)公式，目標(biāo)是

(4)

(5)

(6)

式中：ηt是迭代t的學(xué)習(xí)步長(zhǎng)。

1.3聯(lián)合輸出嵌入學(xué)習(xí)

每個(gè)輸出嵌入捕獲輸出空間的不同方面，提供關(guān)于輸出空間簡(jiǎn)短的信息，通過(guò)將多種輸出嵌入結(jié)合起來(lái)得到一個(gè)更好的聯(lián)合輸出嵌入。則聯(lián)合輸出嵌入的兼容函數(shù)如下

(7)

約束條件為

∑KαK=1

(8)

式中：W1…WK是聯(lián)合嵌入的權(quán)重矩陣，WK對(duì)應(yīng)于第K個(gè)輸出嵌入φK。先單獨(dú)訓(xùn)練WK，之后在驗(yàn)證集上對(duì)αK進(jìn)行網(wǎng)格搜索。

2　輸出嵌入

2.1屬性嵌入

屬性[5，8]模擬了對(duì)象的共同特征，例如顏色、紋理、形狀和空間聯(lián)系等，這些屬性通過(guò)眾包技術(shù)[12]很容易獲得。屬性通過(guò)共享的對(duì)象特征將不同的類(lèi)聯(lián)系起來(lái)，一般通過(guò)人工來(lái)標(biāo)注，并且轉(zhuǎn)換成機(jī)器可讀的矢量格式。描述性的屬性集可以通過(guò)語(yǔ)言專(zhuān)家[9]來(lái)決定屬性和類(lèi)別之間的關(guān)系，其可能是一個(gè)二進(jìn)制值φ0,1，它描述一個(gè)屬性的存在/不存在，或者是一個(gè)連續(xù)值φA，它定義每個(gè)類(lèi)的屬性置信水平[8]。每個(gè)類(lèi)的屬性如下

(9)

ρy,i表示類(lèi)和屬性之間的連接關(guān)系，用實(shí)數(shù)或者二進(jìn)制數(shù)表示，y代表類(lèi)，E代表與類(lèi)相關(guān)的屬性數(shù)量。φA可能比φ0,1編碼更多的信息。例如，以老鼠，貓和鯊魚(yú)3類(lèi)的大小作為屬性，φ0,1={0，0，1}表示就體積而言，老鼠=貓<鯊魚(yú)，然而φA={2，10，90}表示老鼠<貓<鯊魚(yú)，其結(jié)果更加準(zhǔn)確。

2.2文本嵌入

GloVe[13](φg)：通過(guò)對(duì)經(jīng)常在文檔中一起出現(xiàn)的單詞進(jìn)行統(tǒng)計(jì)編碼，語(yǔ)義相似的單詞如“眉毛”和“眼睛”一起出現(xiàn)的頻率比“眉毛”和“高樓”一起出現(xiàn)的頻率要高。通過(guò)訓(xùn)練學(xué)習(xí)詞向量使得這兩個(gè)單詞的點(diǎn)積等于它們同現(xiàn)的概率。

Bag-of-Words[14](φb)：BoW通過(guò)計(jì)算每個(gè)單詞在文檔中出現(xiàn)的頻率構(gòu)建一個(gè)單詞頻率包，不保留每個(gè)單詞在文檔中出現(xiàn)的順序。筆者收集與對(duì)象類(lèi)相對(duì)應(yīng)的維基百科文章，對(duì)出現(xiàn)頻率較高的單詞構(gòu)建一個(gè)詞匯表，最后建立這些單詞的直方圖使這些對(duì)象類(lèi)向量化。

2.3層次結(jié)構(gòu)嵌入

根據(jù)類(lèi)的分類(lèi)順序[15]作為層次結(jié)構(gòu)輸出嵌入，這種分類(lèi)可以從預(yù)定義的本體WordNet[1]中自動(dòng)構(gòu)建。在這種情況下，通過(guò)語(yǔ)義相似度來(lái)測(cè)量節(jié)點(diǎn)之間的距離。最后，從大量無(wú)監(jiān)督的文本語(yǔ)料庫(kù)中得到分布式文本表示作為層次結(jié)構(gòu)嵌入。用φh表示類(lèi)層次嵌入。

3　實(shí)驗(yàn)

3.1實(shí)驗(yàn)設(shè)置

在Caltech UCSD Birds(CUB)和Animals With Attributes(AWA)兩個(gè)數(shù)據(jù)集中對(duì)結(jié)構(gòu)化聯(lián)合嵌入SJE進(jìn)行實(shí)驗(yàn)分析， CUB數(shù)據(jù)集包含200種鳥(niǎo)的11 789張圖像， AWA數(shù)據(jù)集中包含50種不同的動(dòng)物的30 475張圖像，在訓(xùn)練集和驗(yàn)證集上進(jìn)行交叉驗(yàn)證，即訓(xùn)練不相交的子集。實(shí)驗(yàn)將CUB數(shù)據(jù)集中的150類(lèi)作為訓(xùn)練集加驗(yàn)證集，其余50個(gè)不相交的類(lèi)作為測(cè)試集。AWA有一個(gè)預(yù)定義分類(lèi)， 40類(lèi)為訓(xùn)練集加驗(yàn)證集，10類(lèi)為測(cè)試集。

3.1.1輸入嵌入

采用費(fèi)舍爾向量(FV)和深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)兩種算法對(duì)圖像進(jìn)行特征提取，F(xiàn)V對(duì)每張圖像進(jìn)行統(tǒng)計(jì)，計(jì)算從本地圖像補(bǔ)丁到固定長(zhǎng)度的圖像描述子。從多尺度正則網(wǎng)格中提取64維的D-SIFT特征，通過(guò)主成分分析算法(PCA)[16]將它們減少到32維，用128高斯模型構(gòu)建一個(gè)視覺(jué)詞匯表，最后費(fèi)舍爾向量減少到2 048。同樣，采用深度卷積網(wǎng)絡(luò)進(jìn)行特征提取時(shí)，這些特征通常是從充分激活的連接層中獲得。將每個(gè)圖像調(diào)整到112×112并傳入由AlexNet[4]或者GoogLeNet[17]模型框架預(yù)先訓(xùn)練好的網(wǎng)絡(luò)。AlexNet(記為CNN)模型用2 048維激活的頂層隱藏單元作為特征，而GoogLeNet(記為GOOG)模型則用512維頂層池化單元作為特征。這兩種網(wǎng)絡(luò)是用BVLC[18]實(shí)現(xiàn)的。

3.1.2輸出嵌入

AWA類(lèi)有85個(gè)二進(jìn)制和連續(xù)屬性，CUB類(lèi)有312個(gè)連續(xù)屬性二進(jìn)制屬性。

用英文維基百科對(duì)GloVe模型進(jìn)行訓(xùn)練，首先通過(guò)更換類(lèi)名對(duì)它進(jìn)行預(yù)處理，即用學(xué)名替代特殊類(lèi)名，再交叉驗(yàn)證嵌入的維度。對(duì)于BoW模型的訓(xùn)練，首先下載與每個(gè)類(lèi)相對(duì)應(yīng)的維基百科文章，并且通過(guò)刪除低頻和高頻詞匯來(lái)構(gòu)建一個(gè)詞匯表，然后交叉驗(yàn)證詞匯表的大小。當(dāng)這些詞匯出現(xiàn)在對(duì)應(yīng)的文檔中時(shí)，則構(gòu)成詞匯表中單詞的直方圖。

層次結(jié)構(gòu)嵌入模型使用的NLTK庫(kù)來(lái)建立層次結(jié)構(gòu)并測(cè)量節(jié)點(diǎn)間的相似性，因此，每個(gè)向量表示類(lèi)與其他類(lèi)的相似性程度。

3.1.3輸出嵌入的結(jié)合

將監(jiān)督屬性、無(wú)監(jiān)督GloVe、BoW、層次結(jié)構(gòu)嵌入4種輸出嵌入通過(guò)串聯(lián)(cnc)或者并聯(lián)(cmb)形式相結(jié)合。以AWA為例， 45維φA和200維φb串聯(lián)時(shí)，構(gòu)成245維的輸出嵌入，以1 024維的GOOG作為輸入嵌入，則只需要對(duì)1 024×245維的W進(jìn)行學(xué)習(xí)，如果是并聯(lián)，需要對(duì)1 024×45維的WA和1 024×200維的WB分別進(jìn)行學(xué)習(xí)，再對(duì)系數(shù)α交叉驗(yàn)證。

3.2實(shí)驗(yàn)結(jié)果

3.2.1離散屬性對(duì)比連續(xù)屬性

屬性用一個(gè)類(lèi)向量表示，向量代表了各屬性存在和缺失或者各屬性的置信水平。在表1中，在圖像的深層特征方面，φA比φ0,1更好地表明了連續(xù)屬性比二進(jìn)制屬性擁有更多的語(yǔ)義編碼?？偟膩?lái)說(shuō)，CNN優(yōu)于FV，然而GOOG給出了最優(yōu)的結(jié)果。

表1離散屬性和連續(xù)屬性對(duì)比結(jié)果 %

模型AWA準(zhǔn)確率CUB準(zhǔn)確率φ0,1φAφ0,1φAFV33.539.312.515.6CNN42.257.926.837.1GOOG48.760.733.746.9ALE[10]41.645.318.622.7

對(duì)表1進(jìn)行分析，在CUB中，φA的準(zhǔn)確率達(dá)到46.9%，遠(yuǎn)高于之前的22.7%，此外，φ0,1的準(zhǔn)確率為33.7%也高于之前的18.6%。 AWA也有同樣的趨勢(shì)。對(duì)φ0,1和φA進(jìn)行分析得到，應(yīng)用深層神經(jīng)網(wǎng)絡(luò)提取特征，φA的分類(lèi)性能明顯比φ0,1好，這表明，結(jié)構(gòu)化聯(lián)合嵌入方法對(duì)W矩陣進(jìn)行學(xué)習(xí)時(shí)，φA比φ0,1具有更好的圖像和邊信息的兼容性。

3.2.2文本嵌入

隨著不同類(lèi)的對(duì)象之間視覺(jué)相似度的不斷增加，屬性的收集成本也在增加，因此，從無(wú)標(biāo)簽的在線文本資源中自動(dòng)提取類(lèi)相似度很有必要。每種輸出嵌入得到分類(lèi)效果如表2所示。

表2結(jié)構(gòu)化聯(lián)合框架下的有監(jiān)督和無(wú)監(jiān)督的輸出嵌入比較

方式來(lái)源φAWA準(zhǔn)確率/%CUB準(zhǔn)確率/%無(wú)監(jiān)督文本φg55.721.4文本φb41.222.9WordNetφh48.918.9有監(jiān)督人工φ0,149.534.4人工φA63.147.6

在表2中，AWA準(zhǔn)確率最高的是φg(55.7%)，高于之前有監(jiān)督的45.3%(表1)，CUB準(zhǔn)確率最高的是φb(22.9%)，超過(guò)了之前有監(jiān)督的22.7%(表1)，但在φg和φb之間沒(méi)有優(yōu)劣關(guān)系。

3.2.3層次結(jié)構(gòu)嵌入

概念的層次結(jié)構(gòu)通常體現(xiàn)了語(yǔ)言的一部分隱含信息，比如同義、語(yǔ)義關(guān)系等。通過(guò)類(lèi)之間的層次距離定義語(yǔ)義相關(guān)性，其構(gòu)成的數(shù)值向量將用于圖像分類(lèi)學(xué)習(xí)的輸出嵌入。WordNet層次結(jié)構(gòu)包括CUB的319個(gè)節(jié)點(diǎn)(200個(gè)類(lèi))，AWA的104個(gè)節(jié)點(diǎn)(50個(gè)類(lèi))，采用相似度測(cè)量方法來(lái)測(cè)量類(lèi)之間的距離。

φh最高的準(zhǔn)確率是48.9%(表2)，這個(gè)值是緊隨φ0,1(49.5%)之后并高于φb(41.2%)，對(duì)于CUB，φh是18.9%(表2)，仍在φ0,1(34.4%)之下，但接近φb(20.3%)。

3.2.4輸出嵌入結(jié)合

表2匯總了每種輸出嵌入得到的結(jié)果，因?yàn)椴煌那度朐噲D封裝不同的信息，所以若將屬性嵌入、文本嵌入和層次結(jié)構(gòu)嵌入3種輸出嵌入結(jié)合，圖像分類(lèi)的準(zhǔn)確率應(yīng)該會(huì)提高。本文將多種輸出嵌入通過(guò)cnc或cmb兩種方式進(jìn)行連接。cnc將執(zhí)行全部的結(jié)構(gòu)化聯(lián)合嵌入訓(xùn)練并對(duì)串聯(lián)輸出嵌入進(jìn)行交叉驗(yàn)證，而cmb將對(duì)每個(gè)并行輸出進(jìn)行聯(lián)合嵌入的學(xué)習(xí)并且通過(guò)交叉驗(yàn)證來(lái)找到整體的權(quán)重。與cnc方法相比，cmb可以提高性能，同時(shí)不需要用額外的聯(lián)合訓(xùn)練。觀察表3可知，在大部分情況下，cmb都優(yōu)于cnc。

表3多種輸出嵌入結(jié)合比較

輸出嵌入AWA準(zhǔn)確率/%CUB準(zhǔn)確率/%φAφgφbφhcnccmbcnccmb—√—√57.256.925.626.3——√√46.645.723.324.4√√—√68.569.338.747.9√—√√65.867.237.746.8

在表3中，首先對(duì)無(wú)監(jiān)督嵌入的結(jié)合進(jìn)行分析，在AWA數(shù)據(jù)集中，φg(55.7%，表2)與φh(48.9%，表2)結(jié)合，準(zhǔn)確率達(dá)到57.2%(表3)，與之前的(45.3%，表1)相比，準(zhǔn)確率有所提升。對(duì)于CUB數(shù)據(jù)集，φg和φh結(jié)合，準(zhǔn)確率達(dá)到26.3%(表3)，高于之前有監(jiān)督的準(zhǔn)確率(22.7%，表1)，實(shí)驗(yàn)結(jié)果表明，從文本和層次結(jié)構(gòu)獲得的無(wú)監(jiān)督輸出嵌入是可以互相補(bǔ)充的。在大部分情況下，cmb比cnc的準(zhǔn)確率更高或者基本持平。有監(jiān)督嵌入(φA)和無(wú)監(jiān)督嵌入(φg，φb，φh)的結(jié)合顯現(xiàn)出相似的趨勢(shì)。對(duì)于AWA，將φA，φg和φh結(jié)合，準(zhǔn)確率達(dá)到69.3%，高于之前的45.3%(表1)。對(duì)于CUB，將φA，φg和φh結(jié)合，準(zhǔn)確率達(dá)到47.9%，超過(guò)了之前有監(jiān)督的22.7%(表1)。這些實(shí)驗(yàn)表明，在結(jié)構(gòu)化聯(lián)合嵌入框架中，通過(guò)人工標(biāo)注獲得的有監(jiān)督輸出嵌入也能與無(wú)監(jiān)督輸出嵌入相互補(bǔ)充。

對(duì)結(jié)構(gòu)化聯(lián)合嵌入框架的有監(jiān)督屬性嵌入和從層次結(jié)構(gòu)和無(wú)標(biāo)簽文本語(yǔ)料庫(kù)中獲得的無(wú)監(jiān)督輸出嵌入進(jìn)行實(shí)驗(yàn)分析，通過(guò)結(jié)合多個(gè)輸出嵌入，建立了一個(gè)關(guān)于AWA和CUB的表格，如表4所示。

表4SJE框架最優(yōu)的分類(lèi)結(jié)果

方式方法AWA準(zhǔn)確率/%CUB準(zhǔn)確率/%無(wú)監(jiān)督SJE57.226.3有監(jiān)督SJE69.347.9

實(shí)驗(yàn)結(jié)果表明，結(jié)構(gòu)化聯(lián)合嵌入的無(wú)監(jiān)督的圖像分類(lèi)在原來(lái)基礎(chǔ)上得到了改善，AWA達(dá)到了57.2%，CUB達(dá)到26.3%。

4　小結(jié)

本文提出了多種輸出嵌入相結(jié)合的方法，將多種輸出嵌入通過(guò)串并聯(lián)的方式進(jìn)行連接，同時(shí)，采用了優(yōu)化的D-SIFT對(duì)圖像的特征進(jìn)行提取，并將標(biāo)簽嵌入和支持向量機(jī)通過(guò)兼容函數(shù)結(jié)合起來(lái)。實(shí)驗(yàn)表明，多種輸出嵌入相結(jié)合的方法能很好地實(shí)現(xiàn)圖像分類(lèi)，提高了分類(lèi)的準(zhǔn)確性。當(dāng)然，本文仍有進(jìn)一步研究的空間，在下一步的工作中，主要研究如何從文本中得到更好地表示圖像特征的輸出嵌入方法。

[1]DENGJ，DONGW，LIFF.Imagenet：alargeVscalehierarchicalimagedatabase[C]//IEEEComputerSocietyConferenceonComputerVisionandPatterRecognition.Miami，USA：IEEE，2009：248-255.

[2]許可.卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別上的應(yīng)用研究[D].杭州：浙江大學(xué)，2012：10-37.

[3]李衛(wèi).深度學(xué)習(xí)在圖像識(shí)別中的研究及應(yīng)用[D].武漢：武漢理工大學(xué)，2014：27-34.

[4]KRIZHEVSKYA，STUSKEVERI，HINTONG.Imagenetclassificationwithdeepconvolutionalneuralnetworks[C]//The25thAnnualConferenceonNeuralInformationProcessingSystems.Nevada，US：MIT，2012： 1106-1114.

[5]FERRARIV，ZISSERMANA.Learningvisualattributes[C]//The20thAnnualConferenceonNeuralInformationProcessingSystems. [S.l.]:MIT， 2007： 433-400.

[6]AKATAZ，PRRRONNINF，SCHMIDC.Labelembeddingforimageclassification[EB/OL].[2015-08-28].http：//arxiv.org/pdf/1503.08677.pdf.

[7]PERONAP，BRANSONP，BELONGIES.Multiclassrecognitionandpartlocalizationwithhumansintheloop[C]//IEEEInternationalConferenceonComputerVision. [S.l.]：IEEE， 2011：2524-2531.

[8]LAMPERTC，NICKISCHH，HARMELINGH.Attribute4-basedclassificationforzeroVshotvisualobjectcategorization[J].IEEEtransactionsonpatternanalysisandmachineintelligence, 2013，36(3)：435-465.

[9]TSOCHANTARIDISI，JOACHIMST，ALTUNY.Largemarginmethodsforstructuredandinterdependentoutputvariables[J].Journalofmachinelearningresearch, 2005，6：1453-1484.

[10]PERRONNINF，DANCEC.Fisherkernelsonvisualvocabulariesforimagecategorization[C]//IEEEComputerSocietyConferenceonComputerVisionandPatterRecognition. [S.l.]：IEEE，2007： 332-340.

[11]張帆.基于密集SIFT特征及其池化模型的圖像分類(lèi)[D].長(zhǎng)沙：中南大學(xué)， 2014：18-22.

[12]DENGJ，KRAUSEJ，LIFF.Fine-grainedcrowdsourcingforfine-grainedrecognition[C]//IEEEComputerSocietyConferenceonComputerVisionandPatterRecognition. [S.l.]：IEEE，2013：580-587.

[13]PENNINGTONJ，SOCHERR，MANNNINGCD.Glove：Globalvectorsforwordrepresentation[C]//Proc.ConferenceonEmpiricalMethodsinNaturalLanguageProcessing. [S.l.]：ACL，2014：1532-1543.

[14]吳麗娜.基于詞袋模型的圖像分類(lèi)算法研究[D].北京：北京交通大學(xué)，2013：18-29.

[15]胡廣寰.基于內(nèi)容圖像檢索中圖像語(yǔ)義技術(shù)分類(lèi)研究[D].杭州：浙江大學(xué)，2015：12-35.

[16]邢杰，蕭德云.基于PCA的概率神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版)，2008，48(1)：141-144.

[17]SZEGEDYC，LIUW，JIAYQ.Goingdeeperwithconvolutions[EB/OL].[2015-09-17].http：//arxiv.org/pdf/1409.4842.pdf.

[18]JIAYQ，SHELHAMERE，DARRELLT.Caffe：convolutionalarchitectureforfastfeatureembedding[EB/OL].[2015-09-02].http：//arxiv.org/pdf/1408.5093.pdf.

責(zé)任編輯：閆雯雯

Unlabeled image classification based on multiple output embeddings

HE Qia，LU Jianjunb，LIU Zhipengb

(a.SchoolofCommunicationandInformationEngineering；b.SchoolofManagementEngineering，Xi’anUniversityofPostsandTelecommunications，Xi’an710121，China)

By using the method of combining multiple output embeddings， the performance of unlabeled image classification is improved. Side information is used as label embedding and image features are used as output embedding， by introducing a joint compatibility function between label embedding and output embedding， the structured joint embedding framework is established. By adjusting the weighting matrix to make the compatibility function to the maximum， and thus the image classification is determined. Validation with two data sets， the experiment results show that the image classification method of combining multiple output embeddings has superior accuracy to that of using the single output embedding.

image classification；label embedding；output embedding

TP309

10.16280/j.videoe.2016.09.027

2015-11-05

文獻(xiàn)引用格式：何琪，盧建軍，劉志鵬. 基于多種輸出嵌入結(jié)合的無(wú)標(biāo)簽圖像分類(lèi)[J].電視技術(shù)，2016，40(9)：132-136.

HE Q，LU J J，LIU Z P. Unlabeled image classification based on multiple output embeddings [J]. Video engineering，2016，40(9)：132-136.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于多種輸出嵌入結(jié)合的無(wú)標(biāo)簽圖像分類(lèi)

1 結(jié)構(gòu)化聯(lián)合嵌入框架

2 輸出嵌入

3 實(shí)驗(yàn)

4 小結(jié)

1　結(jié)構(gòu)化聯(lián)合嵌入框架

2　輸出嵌入

3　實(shí)驗(yàn)

4　小結(jié)