摘要: 針對(duì)零樣本圖像分類中屬性和特征之間映射不全面以及屬性空間結(jié)構(gòu)挖掘不充分問題,提出了基于關(guān)系有向圖正則化的屬性三因子分解模型。首先,利用屬性矩陣三因子分解實(shí)現(xiàn)了屬性空間和特征空間的映射;其次,通過權(quán)值矩陣構(gòu)建了屬性關(guān)系有向圖;最后,在屬性空間或特征空間計(jì)算測(cè)試樣本和各測(cè)試類別的相似性,進(jìn)而實(shí)現(xiàn)圖像分類。在aPY和SUN數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提模型有效地提高了零樣本圖像分類精度。
關(guān)鍵詞: 零樣本圖像; 屬性三因子分解; 關(guān)系有向圖; 正則化
中圖分類號(hào): TP18
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1671-6841(2025)01-0067-07
DOI: 10.13705/j.issn.1671-6841.2023147
Attribute Tri-factorization Model with Regularization of Relation
Digraph
ZHANG Jiarui1, 2, LI Ruilin3, KONG Yi2, YU Nannan1
(1.School of Electrical Engineering and Automation, Jiangsu Normal University, Xuzhou 221116, China;
2.School of Information and Control Engineering, China University of Mining and Technology, Xuzhou
221116, China; 3.State Key Laboratory of Intelligent Construction and Healthy Operation & Maintenance
of Deep Underground Engineering, China University of Mining and Technology, Xuzhou 221116, China)
Abstract: Aiming at the problems of incomplete mapping between attributes and features, as well as the insufficient mining of the attribute space structure in zero-shot image classification, an attribute tri-factorization model with regularization of relation digraph was proposed. Firstly, the mapping between attribute space and feature space was achieved by matrix tri-factorization of attributes. Secondly, the attribute relation digraph was constructed using the weight matrix. Finally, the similarity between the testing sample and each testing class was calculated in either the attribute space or the feature space to finish image classification. Experimental results on aPY and SUN datasets showed that the proposed model was capable of efficiently improving the accuracy of zero-shot image classification.
Key words: zero-shot image; attribute tri-factorization; relation digraph; regularization
0引言
在許多應(yīng)用場(chǎng)景中,模式分類的目的是將訓(xùn)練樣本放入正確的類別。例如,計(jì)算機(jī)解讀人類神經(jīng)活動(dòng)實(shí)驗(yàn)中,需要通過檢測(cè)人的一幅神經(jīng)活動(dòng)圖像(訓(xùn)練樣本)來判斷他正在想什么單詞(類別)。由于單詞的數(shù)量非常龐大,為每個(gè)單詞都收集并標(biāo)注一幅神經(jīng)活動(dòng)圖像幾乎是不可能的。這就是典型的零樣本分類問題,即在標(biāo)記訓(xùn)練樣本無法涵蓋所有對(duì)象類的情況下,如何對(duì)訓(xùn)練階段不可見的新對(duì)象進(jìn)行正確分類[1-3]。
利用屬性等語義信息建立訓(xùn)練集和測(cè)試集之間的聯(lián)系是
解決零樣本圖像分類問題的關(guān)鍵。傳統(tǒng)的零樣本圖像分類方法通過學(xué)習(xí)從特征到語義的映射關(guān)系來實(shí)現(xiàn)圖像分類,其中直接屬性預(yù)測(cè)模型[4]最為經(jīng)典。Akata等[5]提出結(jié)構(gòu)化聯(lián)合嵌入模型,通過學(xué)習(xí)雙線性相容函數(shù)獲得從特征輸入到人工標(biāo)注屬性、無監(jiān)督詞嵌入及分層嵌入組合輸出的聯(lián)合框架。不同于從特征到語義的單向映射,許多學(xué)者嘗試采用不同方式學(xué)習(xí)特征和語義之間的映射關(guān)系。Yu等[6]提出潛在空間編碼模型,該編碼-解碼模型通過共享潛在空間連接屬性和特征,并通過從原始空間到潛在空間的預(yù)測(cè)和從潛在空間到原始空間的恢復(fù)實(shí)現(xiàn)了知識(shí)遷移。以上模型在學(xué)習(xí)屬性和特征之間的映射關(guān)系時(shí),均未考慮各類別之間的聯(lián)系。
通過將測(cè)試類的特征或?qū)傩苑謩e看成訓(xùn)練類特征或?qū)傩缘慕M合可以有效地考慮類別之間的聯(lián)系,基于該思想建立的模型統(tǒng)稱為混合模型。近年來,Changpinyo等[7]提出SynC模型,利用訓(xùn)練類分別在語義和特征空間學(xué)習(xí)一系列虛擬類,然后通過虛擬類的凸組合合成測(cè)試類。Verma等[8]提出GFZSL模型,采用指數(shù)族類條件分布學(xué)習(xí)從類別嵌入到潛在空間的回歸函數(shù),并利用訓(xùn)練集類別屬性獲得測(cè)試類的分布參數(shù)。盡管以上混合模型學(xué)習(xí)屬性分類器時(shí)考慮了各類別之間的關(guān)系,但并未考慮屬性空間的幾何結(jié)構(gòu)。屬性是零樣本分類問題中連接訓(xùn)練集和測(cè)試集的橋梁,充分挖掘已有屬性關(guān)系及空間幾何結(jié)構(gòu)可得到更好的類別屬性描述。然而,已有模型在挖掘?qū)傩躁P(guān)系和空間結(jié)構(gòu)時(shí)一般僅考慮了屬性之間的相互關(guān)系,缺乏對(duì)屬性個(gè)體差異的描述。
綜上所述,本文以如何更加合理地映射屬性和特征之間關(guān)系、如何更好地挖掘?qū)傩钥臻g結(jié)構(gòu)為出發(fā)點(diǎn),提出基于關(guān)系有向圖正則化的屬性三因子分解模型(attribute tri-factorization model with regularization of relation digraph), 簡(jiǎn)稱為RDATF模型。本文的主要貢獻(xiàn)包括:利用屬性的矩陣三因子分解實(shí)現(xiàn)屬性空間和特征空間的映射,將投影矩陣作為訓(xùn)練階段和測(cè)試階段的共享因子;通過加權(quán)屬性之間的相似性定義權(quán)值矩陣,構(gòu)建屬性關(guān)系有向圖;在屬性空間或特征空間計(jì)算測(cè)試樣本和各測(cè)試類別的相似性,實(shí)現(xiàn)圖像分類。
1基于屬性三因子分解的零樣本圖像分類
本文所構(gòu)建的RDATF模型通過利用屬性關(guān)系有向圖來挖掘?qū)傩钥臻g結(jié)構(gòu),并在訓(xùn)練階段和測(cè)試階段共享屬性三因子分解投影矩陣以獲得更好的屬性-特征間映射,進(jìn)而提高分類精度。RDATF模型由屬性矩陣三因子分解、屬性關(guān)系有向圖構(gòu)建、屬性投影學(xué)習(xí)和零樣本圖像分類4個(gè)階段組成。
1.1屬性矩陣三因子分解
通過合理構(gòu)造屬性與特征之間的映射,可有效建立兩者的投影關(guān)系。假設(shè)有效的投影關(guān)系滿足[9]:最大化訓(xùn)練集和測(cè)試集樣本特征的經(jīng)驗(yàn)似然;保留屬性和特征兩個(gè)空間之間的幾何結(jié)構(gòu)。為了使投影關(guān)系更好地適應(yīng)訓(xùn)練和測(cè)試數(shù)據(jù),可以利用一個(gè)潛在共享因子建立兩者之間的聯(lián)系。本節(jié)通過矩陣三因子分解獲得該潛在共享因子表示。
矩陣三因子分解[10]是將矩陣U分解為F、V和G三個(gè)矩陣,利VyM8dWB98kF+TiYPKHoORpohVYPLWc8VwB5rIdD0kwg=用對(duì)U的經(jīng)驗(yàn)似然計(jì)算最小化估計(jì)誤差,
minF,G‖
U-FVGT‖2。(1)
令U=(AY)T,
V=XY,且同時(shí)使G=Y來保證訓(xùn)練集中每類樣本和其類別屬性相對(duì)應(yīng),則式(1)變?yōu)?/p>
minF
‖(AY)T-FXYYT‖2,(2)
其中:AY∈
Rs×u為訓(xùn)練集類別-屬性關(guān)系矩陣,s為訓(xùn)練集類別數(shù),u為屬性個(gè)數(shù);
F∈Ru×p為投影矩陣,p為特征維數(shù);
XY∈Rp×f為訓(xùn)練集樣本特征,f為樣本數(shù);
Y∈Rs×f
為訓(xùn)練集類別標(biāo)簽。F的每一行
f(i=1,2,…,u)表示一種屬性,每一列f(d=1,2,…,p)
表示一維特征。通過在訓(xùn)練和測(cè)試階段共享F,可隱式地反映訓(xùn)練集和測(cè)試集中屬性與特征映射關(guān)系的一致性。圖1給出了訓(xùn)練集中屬性矩陣三因子分解示意圖。
類似地,對(duì)于測(cè)試集可以表示為
minF,Z
‖(AZ)T-FXZ
ZT‖2,(3)
其中:AZ∈Rt×u為測(cè)試集類別-屬性關(guān)系矩陣,t為測(cè)試集類別數(shù);
XZ∈Rp×g為測(cè)試集樣本特征,g為測(cè)試集樣本數(shù);
Z∈Rt×g為測(cè)試集類別標(biāo)簽。
1.2屬性關(guān)系有向圖構(gòu)建
為了更好地發(fā)揮屬性在訓(xùn)練集與測(cè)試集之間的橋梁作用,需要充分挖掘?qū)傩灾g的關(guān)系。構(gòu)建屬性關(guān)系有向圖能夠挖掘?qū)傩钥臻g的幾何結(jié)構(gòu),從而更好地考慮屬性之間的相關(guān)性和差異性。
圖2為屬性關(guān)系有向圖。由于圖中任意兩個(gè)屬性之間都具有一對(duì)非零權(quán)值,因此屬性關(guān)系有向圖是強(qiáng)連通的。相比于無向圖,有向圖可以更好地獲得屬性對(duì)中兩個(gè)屬性之間的差異。屬性關(guān)系有向圖具體構(gòu)建方法如下。
設(shè)DY=(VY,EY,WY)為一個(gè)屬性關(guān)系有向圖,其中:
VY=
{aY,aY,…,aY}
∈Rs×u為頂點(diǎn)集;EY=
{(aY,aY)}
∈Ru×u(i, j=1,2,…,u且i≠j)為弧集;
WY∈Ru×u
為弧集對(duì)應(yīng)的權(quán)值矩陣。頂點(diǎn)集VY中的每一個(gè)頂點(diǎn)
aY均表示一個(gè)屬性?;〖疎Y中每條弧
e(i, j=1,2,…,u且i≠j)連接頂點(diǎn)對(duì)
(aY,
aY),表示屬性
aY到屬性
aY的關(guān)系。
對(duì)于兩個(gè)不同的屬性aY和
aY(i≠j),兩者的余弦相似性為
cos(aY,
aY)=
aY·aY
‖aY‖‖aY‖。(4)
定義權(quán)值矩陣WY中的元素為
WY=
cos(aY,
aY)
∑ui=1
cos
(aY,aY),i≠j,
0,其他。(5)
容易發(fā)現(xiàn),WY為非對(duì)稱矩陣。令度矩陣
DY=diag(∑jWY),(6)
DY=diag(∑iWY),(7)
且有
DY=12
(DY+DY),(8)
根據(jù)權(quán)值定義,有DY=I。則有向圖的拉普拉斯矩陣為
LY=
DY-WY=
12
(DY+DY)-
WY。(9)
如果屬性aY和aY在屬性空間A中距離相近,則它們?cè)谕队翱臻gF中的映射向量
f和f也應(yīng)該距離相近。因此,屬性有向圖正則項(xiàng)可以定義為
12
∑i,j‖
f-f‖2WY=
12
∑i,j,k(F-F)2WY=tr(FTLYF)。(10)
可以看出,屬性關(guān)系有向圖隱式地反映了屬性空間的幾何結(jié)構(gòu)。
1.3屬性投影學(xué)習(xí)
結(jié)合式(2)與(10),即可得到基于有向圖正則化的屬性三因子分解模型。具體地,為學(xué)習(xí)屬性投影,模型目標(biāo)函數(shù)可表示為
minF≥0‖
(AY)T-
FXYYT‖2+
λtr(FTLYF),
s.t.FT1=1,
(11)
其中:λ≥0為正則化系數(shù),λ=0時(shí)表示沒有考慮屬性有向圖約束。1和1為元素全是1的列向量,對(duì)F的每一行進(jìn)行歸一化約束使得優(yōu)化更加精確[9]。以上基于有向圖正則化的屬性三因子分解模型中,第一項(xiàng)表示屬性與特征之間的映射關(guān)系,第二項(xiàng)則反映屬性空間的潛在幾何結(jié)構(gòu)。由于該優(yōu)化問題含有約束條件,通過采用拉格朗日乘子法在該式中添加拉格朗日函數(shù)后可得
minF
‖(AY)T-
FXYYT‖2+
λtr(FTLYF)+
tr(ΩY
(FT1-1)
(FT1-1)T),(12)
其中:ΩY∈Ru×u為拉格朗日乘子。
根據(jù)KKT(Karush-Kuhn-Tucker)補(bǔ)充條件[11],式(12)對(duì)F求偏導(dǎo)并令其值為0,得到關(guān)于F的更新規(guī)則為
F←F⊙
[
(AY)T
Y(XY)T+
λ2
(WY+
(WY)T)
F]
[FXYYT
Y(XY)T+
λDYF],
(13)
其中:⊙和[·]/[·]分別表示矩陣乘法和除法計(jì)算時(shí)按元素操作。
1.4零樣本圖像分類
通過式(13)的更新規(guī)則得到投影矩陣F后,給出測(cè)試樣本X∈XZ,
可在以下兩個(gè)空間中實(shí)現(xiàn)零樣本圖像分類。
1) 屬性空間(記作RDATF-A):獲得測(cè)試樣本X在屬性空間的預(yù)測(cè)投影
a^=FX,然后計(jì)算
a^和每個(gè)測(cè)試類屬性
(AZ)T的距離,并選取最小值實(shí)現(xiàn)圖像分類,即
(X)=arg mink=1,2,…,t
D(a^,
(AZ)T),(14)
其中:AZ為AZ的第k行向量,表示第k個(gè)測(cè)試類屬性;D為距離函數(shù);
A(·)返回樣本對(duì)應(yīng)的預(yù)測(cè)類別標(biāo)簽。
2) 特征空間(記作RDATF-F):獲得測(cè)試類屬性在特征空間的預(yù)測(cè)投影C^Z=
F-1
(AZ)T,然后計(jì)算測(cè)試樣本X和每個(gè)預(yù)測(cè)類別特征
C^Z的距離并選取最小值實(shí)現(xiàn)圖像分類,即
(X)=
arg mink=1,2,…,tD
(X,C^Z),(15)
其中:C^Z為
C^Z
的第k列向量,表示第k類測(cè)試樣本預(yù)測(cè)類別特征;(·)返回樣本對(duì)應(yīng)的預(yù)測(cè)類別標(biāo)簽。
2實(shí)驗(yàn)結(jié)果與分析
2.1數(shù)據(jù)集與參數(shù)設(shè)置
實(shí)驗(yàn)選取aPY和SUN兩個(gè)常用零樣本屬性數(shù)據(jù)集進(jìn)行算法相關(guān)驗(yàn)證,兩個(gè)數(shù)據(jù)集具有不同的規(guī)模和粒度,且在屬性和類別個(gè)數(shù)方面具有較大差異。aPY數(shù)據(jù)集是一個(gè)小規(guī)模的粗粒度數(shù)據(jù)集,選擇a-Pascal中的20類作為訓(xùn)練集,a-Yahoo中的12類作為測(cè)試集。SUN數(shù)據(jù)集是一個(gè)中規(guī)模的細(xì)粒度數(shù)據(jù)集,選取其中的707類作為訓(xùn)練集,10類作為測(cè)試集[12]。RDATF-A和RDATF-F模型中,僅有正則化系數(shù)λ對(duì)分類精度有影響,其在aPY數(shù)據(jù)集中分別取10和700,在SUN數(shù)據(jù)集中分別取10和50。
2.2屬性關(guān)系有向圖
利用數(shù)據(jù)集已知的類別-屬性關(guān)系,通過1.2節(jié)方法構(gòu)建了屬性關(guān)系有向圖。圖3給出了屬性關(guān)系有向圖的權(quán)值矩陣WY。由1.2節(jié)易知,權(quán)值矩陣為u×u的非對(duì)稱矩陣,其取值范圍為[0,1)。圖中權(quán)值越趨近于0,表示對(duì)應(yīng)屬性之間差異越大,越有利于區(qū)分圖像類別。反之,其數(shù)值越大,表示對(duì)應(yīng)屬性之間相關(guān)性越強(qiáng)。可以看出,圖3中僅有部分區(qū)域數(shù)值趨近于0。這表明大部分屬性之間存在一定的相關(guān)性,充分挖掘這些屬性關(guān)系將有利于準(zhǔn)確地進(jìn)行圖像分類。
如圖3(a)所示,在aPY數(shù)據(jù)集的64個(gè)屬性中,權(quán)值矩陣最大值為0.3399,對(duì)應(yīng)第61行39列,表明屬性clear(對(duì)應(yīng)標(biāo)號(hào)61)對(duì)屬性label(對(duì)應(yīng)標(biāo)號(hào)39)的相關(guān)性最大。查找第39行61列發(fā)現(xiàn),label對(duì)clear的權(quán)值僅為0.2911,即label對(duì)clear的影響不如clear對(duì)label的大。類似情況廣泛存在于各屬性對(duì)之間。如圖3(b)所示,在SUN數(shù)據(jù)集的102個(gè)屬性中,權(quán)值矩陣最大值為0.0888,出現(xiàn)在第87行71列,對(duì)應(yīng)屬性分別為cold和snow。同時(shí),查看權(quán)值矩陣發(fā)現(xiàn),snow對(duì)cold的權(quán)值僅為0.0515。上述結(jié)果表明,下雪的情況下大概率天氣會(huì)寒冷,但寒冷時(shí)不一定下雪,這與實(shí)際情況是相符的。綜合以上分析可知,這種屬性關(guān)系的挖掘更加符合人類通過屬性對(duì)類別進(jìn)行劃分的認(rèn)知和理解。權(quán)值矩陣的不對(duì)稱性體現(xiàn)了不同屬性之間相互影響力的不同。此外,aPY數(shù)據(jù)集屬性關(guān)系權(quán)值矩陣中的元素值整體要比SUN數(shù)據(jù)集中的數(shù)值大得多。這是由于aPY數(shù)據(jù)集中的屬性個(gè)數(shù)少于SUN數(shù)據(jù)集,因此屬性之間的相互關(guān)系整體較強(qiáng),對(duì)應(yīng)權(quán)值也就越大。
2.3屬性投影的影響
在屬性矩陣三因子分解過程中,屬性投影實(shí)現(xiàn)了屬性空間和特征空間的映射關(guān)系。為了更好地反映屬性投影的作用,利用t-SNE[13]將測(cè)試樣本在屬性空間的投影進(jìn)行了可視化,結(jié)果如圖4所示。為清晰起見,兩個(gè)數(shù)據(jù)集均隨機(jī)選擇了一半測(cè)試類別進(jìn)行展示。
圖4(a)給出了aPY數(shù)據(jù)集中6類測(cè)試樣本預(yù)測(cè)屬性的分布情況??梢钥闯?,絕大部分樣本均較好地實(shí)現(xiàn)了聚類,僅有monkey和jetski類中的少部分樣本存在重疊。圖4(b)給出了SUN數(shù)據(jù)集中5類測(cè)試樣本預(yù)測(cè)屬性的分布情況。可以看出,outhouse和mineshaft、chemical_plant類存在少量混淆。其他未展示的測(cè)試類別均呈現(xiàn)出相似的規(guī)律。以上分析表明,通過RDATF模型學(xué)習(xí)到的屬性投影獲得了較好的樣本預(yù)測(cè)屬性。
2.4零樣本圖像分類
為驗(yàn)證本文模型(RDATF-A、RDATF-F)對(duì)零樣本圖像分類的有效性,分別在aPY和SUN數(shù)據(jù)集上設(shè)置15種對(duì)比實(shí)驗(yàn)。表1給出了17種模型在aPY數(shù)據(jù)集和SUN數(shù)據(jù)集上零樣本圖像分類精度結(jié)果。從表1可以得出以下結(jié)論。
1) 表中模型可分為三類:DAP、ZSRUA、ESZSL和SJE僅學(xué)習(xí)特征到語義的映射;SSE、JLSE、SynC、GFZSL、UVDS、JEDM和LSE考慮兩者之間的關(guān)系;
RDATF-A、RDATF-F和MFMR利用矩陣三因子分解獲得屬性與特征空間映射。在兩個(gè)數(shù)據(jù)集上,第一類模型分類精度相對(duì)較低,第二類模型居中,RDATF-A、RDATF-F等第三類模型分類精度整體最高。這說明,相較于學(xué)習(xí)特征到語義的單向映射,考慮兩者之間的關(guān)系更有利于提高分類精度。本文模型分類精度整體最高,這主要得益于測(cè)試類通過投影矩陣共享充分利用了訓(xùn)練得到的映射關(guān)系。也就是說,利用矩陣三因子分解可以學(xué)習(xí)到更好的屬性與特征空間映射。
2) 在兩個(gè)數(shù)據(jù)集上,RDATF-A和RDATF-F的分類精度均高于MFMR,說明屬性關(guān)系有向圖更好地挖掘了屬性間的相關(guān)性和差異性,更有利于區(qū)分相近類別。
3) 在SUN數(shù)據(jù)集上,RDATF-A和RDATF-F分別獲得了最優(yōu)和次優(yōu)分類精度;在aPY數(shù)據(jù)集上,RDATF-F和RDATF-A分類精度僅略低于UVDS。由于aPY數(shù)據(jù)集中屬性和類別個(gè)數(shù)要少得多,導(dǎo)致本文模型構(gòu)建屬性關(guān)系有向圖的作用發(fā)揮得不夠充分。相比之下,UVDS由于合成不可見視覺數(shù)據(jù)時(shí)考慮了同類樣本的過擬合問題,因而在aPY數(shù)據(jù)集上的分類精度略高于RDATF。
4) RDATF-F和RDATF-A分別在特征空間和屬性空間實(shí)現(xiàn)了零樣本圖像分類。RDATF-F在aPY數(shù)據(jù)集上的分類精度高于RDATF-A,但在SUN數(shù)據(jù)集上卻相反。這說明在不同數(shù)據(jù)集上進(jìn)行零樣本圖像分類時(shí),預(yù)測(cè)標(biāo)簽結(jié)果與所選取的計(jì)算空間緊密相關(guān)。相比SUN數(shù)據(jù)集,aPY數(shù)據(jù)集采用的特征維數(shù)更多、屬性個(gè)數(shù)較少,因而在特征空間的預(yù)測(cè)結(jié)果要優(yōu)于屬性空間。
5) 所有模型在SUN數(shù)據(jù)集上的分類結(jié)果均遠(yuǎn)高于aPY數(shù)據(jù)集。相較于aPY數(shù)據(jù)集,SUN數(shù)據(jù)集中的訓(xùn)練集類別數(shù)遠(yuǎn)大于測(cè)試集,使得各類模型均學(xué)習(xí)到更多的數(shù)據(jù)信息,因而具有更高的分類精度。
6) RDATF-A和RDATF-F既采用屬性三因子分解獲得了屬性與特征的映射關(guān)系,又通過屬性關(guān)系有向圖挖掘了屬性間的關(guān)系,因而在兩個(gè)數(shù)據(jù)集中均達(dá)到了較高精度。
分類精度僅能反映正確分類的樣本數(shù)占測(cè)試樣本總數(shù)的比例,無法體現(xiàn)每個(gè)測(cè)試類的具體情況。為此,圖5分別給出了GFZSL、MFMR、RDATF-A和RDATF-F模型在SUN數(shù)據(jù)集上的零樣本圖像分類混淆矩陣。
通過對(duì)比圖5 (a)~(d)可以看出,對(duì)于10個(gè)測(cè)試類,RDATF-A模型在mineshaft和art_school類中分別分對(duì)了19和17幅,高于其他模型;RDATF-F模型在flea_market、outhouse和shoe_shop類中分別分對(duì)了19、20和17幅,均為所有模型中最高。同時(shí),RDATF-F模型在inn、outhouse、chemical_plant和lake類別上分類精度均達(dá)到100%。綜上分析,RDATF模型總體上取得了較好的分類結(jié)果。
3結(jié)語
屬性在零樣本圖像分類問題中起著連接訓(xùn)練集和測(cè)試集的關(guān)鍵作用,因此屬性與特征之間的映射關(guān)系以及屬性空間結(jié)構(gòu)均對(duì)分類效果具有重要影響。為構(gòu)建更加合理的屬性與特征映射關(guān)系并充分挖掘?qū)傩钥臻g結(jié)構(gòu),本文提出了基于關(guān)系有向圖正則化的屬性三因子分解模型,主要優(yōu)點(diǎn)如下:
1) 采用屬性三因子分解實(shí)現(xiàn)了屬性和特征空間的映射,并通過在訓(xùn)練和測(cè)試階段共享投影因子提高了映射關(guān)系的泛化能力;
2) 利用屬性關(guān)系有向圖更加細(xì)致地刻畫了屬性之間的差異性,充分挖掘了屬性空間的幾何結(jié)構(gòu)。
未來研究可將所提模型進(jìn)一步擴(kuò)展到直推式零樣本圖像分類中,通過緩解領(lǐng)域偏移問題有效提升分類效果。
參考文獻(xiàn):
[1]XIE G S, ZHANG Z, XIONG H, et al. Towards zero-shot learning: a brief review and an attention-based embedding network[J]. IEEE transactions on circuits and systems for video technology, 2023, 33(3): 1181-1197.
[2]吳蘭, 李崇陽(yáng). 深度加權(quán)子域自適應(yīng)網(wǎng)絡(luò)[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2022, 54(1): 54-61.
WU L, LI C Y. Deep-weight subdomain adaptive network [J]. Journal of Zhengzhou university (natural science edition), 2022, 54(1): 54-61.
[3]彭濤, 鄭傳錕, 張自力, 等. 基于時(shí)空特征融合的語音情感識(shí)別[J]. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2022, 54(4): 42-48.
PENG T, ZHENG C K, ZHANG Z L, et al. Speech emotion recognition based on spatio-temporal feature fusion [J]. Journal of Zhengzhou university (natural science edition), 2022, 54(4): 42-48.
[4]LAMPERT C H, NICKISCH H, HARMELING S. Attribute-based classification for zero-shot visual object categorization[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(3): 453-465.
[5]AKATA Z, REED S, WALTER D, et al. Evaluation of output embeddings for fine-grained image classification[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2015: 2927-2936.
[6]YU Y L, JI Z, GUO J C, et al. Zero-shot learning via latent space encoding[J]. IEEE transactions on cybernetics, 2019, 49(10): 3755-3766.
[7]CHANGPINYO S, CHAO W L, GONG B Q, et al. Synthesized classifiers for zero-shot learning[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2016: 5327-5336.
[8]VERMA V K, RAI P. A simple exponential family framework for zero-shot learning[C]∥Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Cham: Springer International Publishing, 2017: 792-808.
[9]XU X, SHEN F M, YANG Y, et al. Matrix tri-factorization with manifold regularizations for zero-shot learning[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2017: 2007-2016.
[10]DING C, LI T, PENG W, et al. Orthogonal nonnegative matrix t-factorizations for clustering[C]∥Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2006: 126-135.
[11]BOYD S P, VANDENBERGHE L. Convex optimization[M]. New York: Cambridge University Press, 2004.
[12]JAYARAMAN D, GRAUMAN K. Zero-shot recognition with unreliable attributes [C]∥27th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2014: 3464-3472.
[13]MAATEN L. Accelerating t-SNE using tree-based algorithms[J]. Journal of machine learning research, 2014, 15(1): 3221-3245.
[14]ROMERA-PAREDES B, TORR P H S. An embarrassingly simple approach to zero-shot learning[C]∥Proceedings of the 32nd International Conference on International Conference on Machine Learning. New York: ACM Press, 2015: 2152-2161.
[15]ZHANG Z M, SALIGRAMA V. Zero-shot learning via semantic similarity embedding[C]∥IEEE International Conference on Computer Vision. Piscataway:IEEE Press, 2016: 4166-4174.
[16]ZHANG Z M, SALIGRAMA V. Zero-shot learning via joint latent similarity embedding[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2016: 6034-6042.
[17]LONG Y, LIU L, SHEN F M, et al. Zero-shot learning using synthesised unseen visual data with diffusion regularisation[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 40(10): 2498-2512.
[18]YU Y L, JI Z, LI X, et al. Transductive zero-shot learning with a self-training dictionary approach[J]. IEEE transactions on cybernetics, 2018, 48(10): 2908-2919.