張萬(wàn)楨,劉同來(lái),李志梅+
(1.桂林航天工業(yè)學(xué)院 實(shí)踐教學(xué)部,廣西 桂林 541004;2.廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州510006;3.桂林電子科技大學(xué) 廣西密碼學(xué)與信息安全重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)
跨模態(tài)檢索(cross-modal retrieval)[1-5]是指用戶(hù)能用任意一種媒體類(lèi)型的數(shù)據(jù)進(jìn)行檢索,搜索引擎返回多種類(lèi)型媒體數(shù)據(jù)的檢索方式。其關(guān)鍵問(wèn)題在于如何高效地解決多媒體數(shù)據(jù)之間存在的語(yǔ)義鴻溝[6-10]。為此,近年來(lái)國(guó)內(nèi)外研究人員提出了多種跨模態(tài)哈希(cross-modal hashing)方法[11-15]。其中,基于協(xié)同矩陣因式分解(collective matrix factorization,CMF)的跨模態(tài)哈希方法[16-20]取得了令人矚目的成果。CMF作為一種簡(jiǎn)單但有效的語(yǔ)義挖掘方法能夠高效地學(xué)習(xí)多模態(tài)潛在語(yǔ)義,降低多模態(tài)數(shù)據(jù)間的語(yǔ)義鴻溝。然而這些基于CMF的方法仍然存在一些固有的缺點(diǎn)。首先,在學(xué)習(xí)潛在語(yǔ)義信息時(shí),過(guò)去基于CMF的方法沒(méi)有考慮在子空間映射過(guò)程中,部分冗余信息會(huì)隨同多模態(tài)數(shù)據(jù)的主要語(yǔ)義信息一同嵌入,導(dǎo)致檢索效率下降的問(wèn)題。此外,許多方法使用松弛-量化的優(yōu)化方式會(huì)導(dǎo)致哈希碼產(chǎn)生大量的量化誤差,降低檢索性能。
為此,本文提出一種重構(gòu)約束下的離散矩陣因式分解哈希方法(RDMFH)。RDMFH對(duì)不同模態(tài)使用CMF學(xué)習(xí)潛在公共語(yǔ)義矩陣的同時(shí),對(duì)公共語(yǔ)義矩陣施加數(shù)據(jù)重構(gòu)約束、離散約束與圖約束。重構(gòu)約束保證學(xué)習(xí)到的潛在語(yǔ)義冗余信息最小化;離散約束減小最終生成哈希碼的量化誤差;圖約束使得最終生成的哈希碼更具可區(qū)分性?;谝陨?個(gè)約束,本文所提出的RDMFH不僅能充分發(fā)揮CMF學(xué)習(xí)多模態(tài)潛在語(yǔ)義信息的能力,同時(shí)克服了其魯棒性不足,量化誤差大的缺陷,使得哈希碼具有更好的檢索性能。
根據(jù)是否使用數(shù)據(jù)自身的標(biāo)簽信息,已有的跨模態(tài)哈希方法可以分為有監(jiān)督跨模態(tài)哈希方法和無(wú)監(jiān)督跨模態(tài)哈希方法。
有監(jiān)督的跨模態(tài)哈希方法利用數(shù)據(jù)本身標(biāo)注的真實(shí)標(biāo)簽信息探索異構(gòu)多模態(tài)數(shù)據(jù)之間的相關(guān)性。通常的方法是在學(xué)習(xí)低維哈希碼的同時(shí)嵌入標(biāo)簽的語(yǔ)義信息,增強(qiáng)哈希碼的可區(qū)分性。典型的有監(jiān)督跨模態(tài)哈希方法有最大語(yǔ)義相關(guān)哈希[21](semantic correlation maximization,SCM)、監(jiān)督矩陣因式分解哈希、可擴(kuò)展離散矩陣因式分解哈希、離散跨模態(tài)哈希[22](discrete cross-modal hashing,DCH)、離散潛在因子哈希[23](discrete latent factor hashing,DLFH)、魯棒多視角哈希[24](robust multi-view hashing,RMVH)等。具體地,SCM利用正交約束序列哈希碼,重構(gòu)多模態(tài)數(shù)據(jù)的相關(guān)性矩陣,學(xué)習(xí)具有可區(qū)分性的哈希碼;SMFH首先使用CMF學(xué)習(xí)多模態(tài)數(shù)據(jù)的潛在公共語(yǔ)義矩陣,然后對(duì)其施加圖約束加強(qiáng)哈希碼的可區(qū)分性;DCH使用線性分類(lèi)器學(xué)習(xí)多模態(tài)數(shù)據(jù)的哈希碼,并對(duì)所學(xué)習(xí)的哈希碼進(jìn)行標(biāo)簽回歸增強(qiáng)哈希碼的可區(qū)分性;DLFH使用潛在因子模型挖掘標(biāo)簽的語(yǔ)義信息,通過(guò)離散的優(yōu)化方法得到最終哈希碼;RMVH通過(guò)重構(gòu)潛在語(yǔ)義到原始數(shù)據(jù)與同時(shí)保存多模態(tài)數(shù)據(jù)的模態(tài)間和模態(tài)內(nèi)相似性,加強(qiáng)哈希碼的魯棒性和可區(qū)分性。
無(wú)監(jiān)督的跨模態(tài)哈希方法通過(guò)挖掘多模態(tài)數(shù)據(jù)本身的分布來(lái)學(xué)習(xí)數(shù)據(jù)的哈希碼。通常的方法是將多模態(tài)數(shù)據(jù)原始的高維空間映射到低維的漢明空間,同時(shí)保存數(shù)據(jù)的原始分布。典型的無(wú)監(jiān)督跨模態(tài)哈希方法有協(xié)同矩陣因式分解哈希(collective matrix factorization hashing,CMFH)、潛在語(yǔ)義稀疏哈希(latent semantic sparse hashing,LSSH)、混合相似哈希(fusion similarity hashing,F(xiàn)SH)、協(xié)同重構(gòu)嵌入[25](collective reconstructive embedding,CRE)等。具體地說(shuō),CMFH首先使用CMF提取多模態(tài)數(shù)據(jù)的低維潛在語(yǔ)義,然后對(duì)其進(jìn)行量化得到哈希碼;LSSH對(duì)圖像和文本分別使用CMF和稀疏編碼學(xué)習(xí)多模態(tài)數(shù)據(jù)的低維潛在語(yǔ)義;FSH通過(guò)在多模態(tài)潛在語(yǔ)義中嵌入不同模態(tài)數(shù)據(jù)內(nèi)部的結(jié)構(gòu)相似性增加哈希碼可區(qū)分性;CRE通過(guò)對(duì)多模態(tài)數(shù)據(jù)進(jìn)行重構(gòu)嵌入直接學(xué)習(xí)多模態(tài)離散語(yǔ)義。
為了加強(qiáng)CMF對(duì)哈希學(xué)習(xí)的魯棒性,同時(shí)緩解松弛-量化優(yōu)化方式對(duì)哈希學(xué)習(xí)的負(fù)面效果,提出了一種在重構(gòu)約束下的離散矩陣因式分解哈希方法。與傳統(tǒng)基于CMF的跨模態(tài)哈希方法相比,受魯棒多視角哈希RMVH模型的啟發(fā),通過(guò)對(duì)多模態(tài)數(shù)據(jù)的潛在語(yǔ)義重構(gòu)回原始數(shù)據(jù),加強(qiáng)哈希學(xué)習(xí)的魯棒性。同時(shí),對(duì)多模態(tài)數(shù)據(jù)使用CMF直接學(xué)習(xí)離散潛在語(yǔ)義,減少以往使用松弛-量化優(yōu)化方法產(chǎn)生的量化誤差。為了簡(jiǎn)便表示,本文將集中于現(xiàn)實(shí)世界中最常見(jiàn)的兩種媒體數(shù)據(jù):圖片與文本,下面將詳細(xì)介紹本文方法的模型。
因此,本文提出重構(gòu)約束的離散矩陣因式分解哈希方法的目的是學(xué)習(xí)數(shù)據(jù)庫(kù)的統(tǒng)一哈希矩陣B與一組用于查詢(xún)數(shù)據(jù)的映射函數(shù):f1:X(1)→B和f2:X(2)→B。通過(guò)該組映射函數(shù),用戶(hù)的查詢(xún)數(shù)據(jù)可以映射到低維的漢明空間,與數(shù)據(jù)庫(kù)的哈希碼B進(jìn)行對(duì)比,然后返回與查詢(xún)數(shù)據(jù)最相近的數(shù)據(jù)庫(kù)樣本。
對(duì)于圖片訓(xùn)練集X(1)與文本訓(xùn)練集X(2),假設(shè)它們有共同的潛在語(yǔ)義V,根據(jù)矩陣因式分解模型可以表示為下式
(1)
其中,U(1)∈Rd1×r和U(2)∈Rd2×r為因子矩陣,P(1)∈Rr×d1和P(2)∈Rr×d2分別為圖片和文本的映射矩陣,α和β為超參數(shù)。式(1)中第一項(xiàng)和第二項(xiàng)分別為對(duì)圖片集和文本集的矩陣因式分解,以學(xué)習(xí)它們共同的低維語(yǔ)義,第三項(xiàng)為線性回歸項(xiàng),以學(xué)習(xí)一組用于查詢(xún)數(shù)據(jù)的映射矩陣。以往的基于CMF的多模態(tài)哈希方法,如CMFH、SMFH直接優(yōu)化式(1)獲得多模態(tài)潛在語(yǔ)義V和對(duì)應(yīng)模態(tài)的映射矩陣P(1)和P(2),然后使用符號(hào)函數(shù)直接量化矩陣V獲得最終的哈希碼B。
然而這些方法忽略了數(shù)據(jù)中的冗余信息,一張圖片或一段文字中必然會(huì)存在與所描述事物不相關(guān)的冗余信息。簡(jiǎn)單地通過(guò)線性回歸模型去學(xué)習(xí)映射矩陣P(1)和P(2),會(huì)導(dǎo)致在泛化新樣本時(shí)把原始數(shù)據(jù)中的冗余信息一起映射到潛在語(yǔ)義矩陣V中。在隨后的量化過(guò)程中,冗余信息與核心語(yǔ)義信息一同被量化為哈希碼,導(dǎo)致哈希碼的可區(qū)分性下降,影響檢索性能。此外,先優(yōu)化式(1)再使用符號(hào)函數(shù)量化潛在語(yǔ)義矩陣V生成哈希碼,會(huì)導(dǎo)致量化過(guò)程中產(chǎn)生大量的量化錯(cuò)誤,也會(huì)影響最終生成哈希碼的檢索性能。
基于以上的討論,受到RMVH的啟發(fā),本文提出一種新的重構(gòu)約束的離散矩陣因式分解哈希,其公式化描述如下
(2)
其中,Q(t)∈Rd(t)×r為重構(gòu)矩陣,E(t)∈Rd(t)×n為重構(gòu)誤差矩陣。與式(1)不同的是,式(2)直接對(duì)多模態(tài)數(shù)據(jù)使用CMF學(xué)習(xí)離散潛在語(yǔ)義,通過(guò)優(yōu)化式(2),可以直接學(xué)習(xí)到離散的多模態(tài)數(shù)據(jù)的統(tǒng)一哈希碼矩陣,避免松弛-量化步驟,減少了量化誤差。同時(shí),通過(guò)重構(gòu)約束項(xiàng)X(t)=Q(t)P(t)X(t)+E(t),將多模態(tài)數(shù)據(jù)分為純凈項(xiàng)Q(t)P(t)X(t)和冗余項(xiàng)E(t),在學(xué)習(xí)多模態(tài)數(shù)據(jù)的離散潛在語(yǔ)義B時(shí),只使用P(t)X(t)而排除了冗余信息項(xiàng)E(t),增強(qiáng)哈希碼的可區(qū)分性和映射矩陣的魯棒性。同時(shí),對(duì)E(t)施加L1范數(shù)約束是為了讓重構(gòu)誤差盡可能小。此外,變量Q正交是為避免出現(xiàn)平凡解。
一般來(lái)說(shuō),希望同一類(lèi)別樣本的哈希碼盡可能相似,而不同類(lèi)別樣本的哈希碼盡可能不同。為了進(jìn)一步增強(qiáng)所學(xué)習(xí)哈希碼的可區(qū)分性,構(gòu)造了一個(gè)圖拉普拉斯矩陣以保存多模態(tài)數(shù)據(jù)的相似性,其公式化描述如下
(3)
其中,L∈Rn×n為相似矩陣S的拉普拉斯矩陣。把式(3)與式(2)結(jié)合,得到本文目標(biāo)函數(shù)式如下
(4)
其中,γ為超參數(shù)。
對(duì)于多變量的目標(biāo)函數(shù),通常的優(yōu)化方法是交替迭代乘子法(ADMM),優(yōu)化其中一個(gè)變量時(shí)固定其它變量,然而式(4)中存在離散變量B,使得直接對(duì)式(4)使用ADMM進(jìn)行優(yōu)化變得非常困難,為此,我們采取一種靈活的替代優(yōu)化方式[26],通過(guò)引入一個(gè)輔助變量K,簡(jiǎn)化式(4)的優(yōu)化過(guò)程。引入輔助變量K的目標(biāo)函數(shù)式如下
(5)
以往的方法已經(jīng)證明,該替代方式可以很大程度上方便目標(biāo)函數(shù)的優(yōu)化,同時(shí)盡量不影響最終的優(yōu)化結(jié)果。式(5)的增廣拉格朗日函數(shù)如下
(6)
其中,Z(t)為增廣拉格朗日乘子,μ為懲罰參數(shù)。通過(guò)該拉格朗日函數(shù),將帶約束優(yōu)化變?yōu)闊o(wú)約束優(yōu)化,進(jìn)一步方便優(yōu)化。對(duì)式(6)使用ADMM交替優(yōu)化目標(biāo)變量步驟如下。
步驟1 定除U(t)外的其它變量,式(6)對(duì)U(t)求偏導(dǎo)等于0解得
(7)
步驟2 定除K外的其它變量,式(6)對(duì)K求偏導(dǎo)等于0解得
A1K+KA2+A3=0
(8)
其中
可以通過(guò)使用Matlab直接求解該Sylvester方程求得K。
步驟3 定除P(t)外的其它變量,式(6)對(duì)P(t)求偏導(dǎo)為0解得
(9)
其中,D=βBX(t)+μQ(t)X(t)X(t)T-μQ(t)TE(t)X(t)T+Q(t)TZ(t)X(t)T。
步驟4 過(guò)解決下面方程,可求得變量Q(t)
(10)
步驟5 定其它變量,令式(6)對(duì)B求偏導(dǎo)等于0再用符號(hào)函數(shù)量化得
(11)
步驟6 過(guò)下式更新變量E(t)
(12)
步驟7 過(guò)下式更新Z(t),μ
(13)
因此,通過(guò)迭代更新以上變量,直到達(dá)到設(shè)定的迭代次數(shù)來(lái)優(yōu)化目標(biāo)函數(shù)的各項(xiàng)參數(shù),具體的優(yōu)化過(guò)程見(jiàn)算法1。
算法1:本文的優(yōu)化算法
輸入:圖像矩陣X(1)和文本矩陣X(2),相似矩陣S,參數(shù)α,β,γ,α(1),α(2),哈希碼長(zhǎng)r迭代次數(shù)T。
輸出:映射矩陣P(1)和P(2),哈希矩陣B。
(1)隨機(jī)初始化所有變量矩陣;
(2)Repeat;
(3)用式(7)更新矩陣U(t);
(4)用式(8)更新矩陣K;
(5)用式(9)更新矩陣P(t);
(6)用式(10)更新矩陣Q(t);
(7)用式(11)更新矩陣B;
(8)用式(12)更新E(t);
(9)用式(13)更新Z(t)和μ;
(10)Until迭代次數(shù)。
對(duì)于算法1,其計(jì)算的時(shí)間復(fù)雜度主要來(lái)自于求解Sylvester方程和SVD分解。下面詳細(xì)列出算法1的各個(gè)步驟所需要的時(shí)間復(fù)雜度。在每一次迭代中:更新矩陣U(t)的時(shí)間復(fù)雜度為O(r3+r2d+rdn);更新矩陣K的時(shí)間復(fù)雜度為O(n2);更新矩陣P(t)的時(shí)間復(fù)雜度為O(rdn);對(duì)一個(gè)d×r大小的矩陣進(jìn)行SVD所需要的時(shí)間復(fù)雜度為O(dr2),因此更新矩陣Q的時(shí)間復(fù)雜度為O(dr2+d2n)。一般來(lái)說(shuō)有n>d>r,因此本文方法每一次迭代的時(shí)間復(fù)雜度約為O(n2+d2n+drn)。
本文在Wiki、NUS-WIDE和MirFlickr-25k這3個(gè)公開(kāi)的基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證與分析,并與最近的基于CMF的跨模態(tài)哈希方法進(jìn)行對(duì)比,包括無(wú)監(jiān)督的CMFH、LSSH、RFDH,和有監(jiān)督的SMFH、SCARTCH對(duì)比。此外,為了進(jìn)一步驗(yàn)證方法的有效性,還與非基于CMF的跨模態(tài)哈希方法RMVH、DCH進(jìn)行對(duì)比。在兩種常見(jiàn)的跨模態(tài)檢索任務(wù)上進(jìn)行對(duì)比和分析:①本檢索圖片;②片檢索文本。
Wiki:Wiki數(shù)據(jù)集是從維基百科的文章中收集的圖片-文本對(duì),有2866組,共分為10大種類(lèi)。每一張圖片至少對(duì)應(yīng)一段不少于70個(gè)單詞的文段描述。每張圖片被表示為128維的SIFT特征,而文本則由10維的主題特征所表達(dá)。該數(shù)據(jù)集共有10大類(lèi)別,每一組圖片-文本對(duì)對(duì)應(yīng)其中一個(gè)類(lèi)別。本文選取2173組樣本作為訓(xùn)練集,其余的作為測(cè)試集。
NUS-WIDE:NUS-WIDE是一個(gè)真實(shí)的網(wǎng)絡(luò)圖像-文本數(shù)據(jù)集,它包含269 648張帶有標(biāo)簽注釋的圖片,共有81個(gè)類(lèi)別。本文選取其中10個(gè)數(shù)量最多的種類(lèi),共有186 577張帶有注釋的圖片作為訓(xùn)練集。每張圖像表示為500維的視覺(jué)特征,文本則表示為1000維的詞袋向量,本文選取2000組圖像文本對(duì)作為測(cè)試集,剩余的作為訓(xùn)練集。
MirFlickr-25k:MirFlickr-25k是從圖片網(wǎng)站flickr上收集的圖片-文本數(shù)據(jù)集,包含25 000組圖片-文本對(duì),共有24個(gè)類(lèi)別。每張圖片表示為150維的視覺(jué)特征,文本表示為1366維的詞袋模型。本文選取2000組圖像-文本對(duì)作為測(cè)試集,其余的作為訓(xùn)練集,數(shù)據(jù)見(jiàn)表1。
表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息
值得注意的是,由于SMFH的計(jì)算復(fù)雜度太高,因此,為了方便實(shí)驗(yàn),本次實(shí)驗(yàn)在NUS-WIDE數(shù)據(jù)集上僅采用5000個(gè)樣本作為訓(xùn)練集訓(xùn)練對(duì)比。
本文方法的參數(shù)設(shè)置如下:α控制不同模態(tài)數(shù)據(jù)對(duì)潛在語(yǔ)義影響的權(quán)重,一般設(shè)置為0.5;β設(shè)置為10;γ控制監(jiān)督信息的權(quán)重,設(shè)置為100;α設(shè)置為0.001;迭代次數(shù)T設(shè)為10。此次實(shí)驗(yàn)的性能評(píng)估標(biāo)準(zhǔn)采用平均精度均值(mean average precision,MAP)。MAP反映模型的整體準(zhǔn)確率,數(shù)值越大表示檢索效果越好。為了避免隨機(jī)初始化數(shù)據(jù)的干擾,所有的實(shí)驗(yàn)數(shù)值均重復(fù)10次取均值。實(shí)驗(yàn)環(huán)境為Intel(R) Core(TM) CPU I7-6700@4.0 GHz 32 GB RAM的服務(wù)器上運(yùn)行,系統(tǒng)為WIN10。
表2與表3分別給出了本方法與對(duì)比方法在Wiki、NUS-WIDE和MirFlickr-25k這3個(gè)數(shù)據(jù)集上的兩種跨模態(tài)務(wù)的MAP數(shù)值,哈希碼長(zhǎng)分別為16 bit、32 bit和64 bit。
表2 在Wiki和NUS數(shù)據(jù)集上MAP值
表3 在MirFlickr-25k數(shù)據(jù)集上MAP數(shù)值比較
表2、表3中最優(yōu)的數(shù)值均用黑色加粗字體表示。
對(duì)于Wiki數(shù)據(jù)集,從表2的數(shù)據(jù)可以看出,本文的方法在不同哈希碼長(zhǎng)度下的MAP值優(yōu)于所對(duì)比的方法,驗(yàn)證了本方法在跨模態(tài)檢索任務(wù)中的有效性。值得注意的是,通過(guò)觀察表2,可以發(fā)現(xiàn)大部分有監(jiān)督跨模態(tài)哈希方法比無(wú)監(jiān)督的跨模態(tài)哈希方法檢索效果更好,這是因?yàn)橛斜O(jiān)督的方法通過(guò)嵌入真實(shí)的標(biāo)簽信息到哈希碼中,可以大幅增加哈希碼的判別力,因此有監(jiān)督的方法通常比無(wú)監(jiān)督的方法檢索效果好。但是可以看到無(wú)監(jiān)督的RFDH在文本檢索圖像任務(wù)中效果比有監(jiān)督的SMFH好,這是因?yàn)镽FDH是使用離散的優(yōu)化方法優(yōu)化哈希碼,避免了松弛-量化過(guò)程造成的量化誤差,而SMFH是使用松弛-量化的方法優(yōu)化哈希碼,所以無(wú)監(jiān)督的RFDH效果比有監(jiān)督的SMFH好。而本文方法也是采用離散的優(yōu)化方法,因此檢索效果優(yōu)于非離散的方法。此外,通過(guò)表2還可以觀察到,哈希碼的碼長(zhǎng)越長(zhǎng),效果越好,這是因?yàn)楣4a的碼長(zhǎng)越長(zhǎng),哈希碼所能保存的信息越多,因此檢索效果越好。由于本文方法與RMVH均使用數(shù)據(jù)重構(gòu),使得哈希碼能夠盡可能少的受到冗余信息的干擾,哈希碼所保存原始數(shù)據(jù)的主要信息比其它方法更多,因此檢索的效果優(yōu)于其它對(duì)比方法。
對(duì)于NUS-WIDE數(shù)據(jù)集,從表2的MAP數(shù)值比較中可以觀察到,本文方法優(yōu)于其它的方法,這與在Wiki數(shù)據(jù)集中的觀察一致,再次驗(yàn)證了本文方法在跨模態(tài)檢索任務(wù)中的有效性。此外,可以觀察到,文本檢索圖片任務(wù)的MAP值比圖片檢索文本的MAP值普遍要高,這是因?yàn)槲谋舅男畔⒈葓D片的信息要直觀,能更好表達(dá)數(shù)據(jù)的核心語(yǔ)義。
對(duì)于MirFlickr-25k數(shù)據(jù)集,從表3的MAP數(shù)值對(duì)比中可以觀察到,本文方法優(yōu)于其它的對(duì)比方法,與Wiki、NUS數(shù)據(jù)集中的觀察一致,進(jìn)一步驗(yàn)證本文方法的有效性。
下面分析本文方法的收斂性,由于本文方法的優(yōu)化方式是基于迭代的優(yōu)化方式,因此優(yōu)化算法的收斂性對(duì)模型的性能起到至關(guān)重要的作用。這里主要通過(guò)實(shí)驗(yàn)驗(yàn)證本文優(yōu)化算法的收斂性。
圖1為迭代次數(shù)與目標(biāo)函數(shù)值的曲線圖。從圖1中可以觀察到,本文方法在10次迭代左右就基本收斂,因此本文方法的整體計(jì)算成本并不高,可以有效地用于大規(guī)模的跨模態(tài)檢索任務(wù)。
圖1 目標(biāo)函數(shù)迭代曲線
下面分析參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響,重點(diǎn)分析3個(gè)主要參數(shù)α,β,γ對(duì)實(shí)驗(yàn)的影響。由于實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)參數(shù)αt對(duì)本文方法實(shí)驗(yàn)影響很小,這里不作進(jìn)一步分析。為了研究以上3個(gè)參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響,在研究其中一個(gè)參數(shù)時(shí),固定其它兩個(gè)參數(shù),固定參數(shù)的取值如上文所述,哈希碼長(zhǎng)定為16 bit,以MAP作為評(píng)價(jià)指標(biāo)。
圖2顯示了各個(gè)參數(shù)在Wiki和NUS-WIDE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。從圖2中觀察到,當(dāng)α取值為0.5時(shí),本文方法在兩個(gè)數(shù)據(jù)集中取得最優(yōu)結(jié)果;參數(shù)β控制線性回歸項(xiàng)對(duì)整個(gè)模型的影響,從圖中可以看到,當(dāng)β處于[1,50]時(shí),模型的性能往上提升,當(dāng)大于50時(shí),模型性能下降,因此β的取值取中間值10為最佳;參數(shù)γ控制監(jiān)督信息對(duì)模型性能的影響,從圖中可以觀察到,當(dāng)γ的取值為100時(shí),模型性能達(dá)到最佳,繼續(xù)往上升模型性能下降,因此γ取值100。通過(guò)以上分析可知,本文方法參數(shù)能在一個(gè)較寬范圍內(nèi)取得不錯(cuò)的結(jié)果,對(duì)參數(shù)敏感性不強(qiáng)。
為了進(jìn)一步驗(yàn)證數(shù)據(jù)重構(gòu)和離散約束對(duì)實(shí)驗(yàn)結(jié)果的影響,進(jìn)行了以下3組消融對(duì)比實(shí)驗(yàn)。第一組對(duì)比實(shí)驗(yàn)為本文方法對(duì)比本文方法去除重構(gòu)約束但保留離散約束項(xiàng)的結(jié)果,記為RDMFH-1;第二組對(duì)比實(shí)驗(yàn)為對(duì)比本文方法與本文方法去除離散約束但保留重構(gòu)約束項(xiàng)的結(jié)果,記為RDMFH-2;第三組對(duì)比實(shí)驗(yàn)為對(duì)比本文方法與本文方法去除重構(gòu)約束與離散約束的結(jié)果,記為RDMFH-3。實(shí)驗(yàn)在Wiki數(shù)據(jù)集上進(jìn)行,采取MAP數(shù)值評(píng)估,實(shí)驗(yàn)結(jié)果見(jiàn)表4。表4中本文方法與RDMFH-1對(duì)比可以得出,重構(gòu)約束項(xiàng)在檢索性能上有約1%的提升,驗(yàn)證了重構(gòu)約束項(xiàng)的有效性;對(duì)比本文方法與RDMFH-2可以看出,離散約束對(duì)哈希碼的檢索能力有較大的提升,在每一位哈希碼上均有10%以上的MAP數(shù)值提升,說(shuō)明離散約束能大幅度減少量化誤差,提高哈希碼的可區(qū)分性,增加檢索能力。對(duì)比RDMFH-2與RDMFH-3可以觀察到,在哈希碼非離散的情況下,重構(gòu)約束項(xiàng)仍然對(duì)哈希碼有約1%的性能提升,再次驗(yàn)證重構(gòu)項(xiàng)的有效性。
本文提出了一種重構(gòu)約束的離散矩陣因式分解哈希方法。與以往的基于矩陣因式分解的哈希方法不同,考慮了異構(gòu)多模態(tài)數(shù)據(jù)中普遍存在的冗余信息對(duì)學(xué)習(xí)公共語(yǔ)義空間的影響,通過(guò)添加數(shù)據(jù)重構(gòu)約束,將由稀疏項(xiàng)建模的冗余信息與映射項(xiàng)建模的主要信息進(jìn)行分離,增強(qiáng)所學(xué)習(xí)哈希碼的魯棒性與可區(qū)分性。同時(shí)直接學(xué)習(xí)離散的哈希碼,避免松弛-量化造成的大量量化誤差。大量的實(shí)驗(yàn)結(jié)果表明,本文方法優(yōu)于其它基于矩陣因式分解的跨模態(tài)哈希方法。
圖2 參數(shù)調(diào)優(yōu)折線
表4 消融對(duì)比實(shí)驗(yàn)結(jié)果