跨模態(tài)檢索研究綜述

2022-12-22 11:45:54侯騰達王晏祎蔣義凱

計算機工程與應用 2022年24期

侯騰達，金冉，2，王晏祎，蔣義凱

1.浙江萬里學院大數(shù)據(jù)與軟件工程學院，浙江寧波 315100

2.浙江大學計算機科學與技術學院，杭州 310027

跨模態(tài)檢索（cross-modal retrieval，CMR）是計算機視覺與自然語言處理的交叉領域，該領域在語音-面容匹配與檢索、手語翻譯、材料識別分類等實際應用方面都取得了重大突破?？缒B(tài)檢索是指用戶可用某一模態(tài)數(shù)據(jù)來查詢不同模態(tài)的數(shù)據(jù)。例如在觀看籃球比賽時，用戶可通過球賽照片來檢索與球賽相關的音頻、視頻、文字等多媒體信息，較單模態(tài)檢索更加靈活，信息更豐富。以圖像-文本檢索為例，圖像數(shù)據(jù)I={i1,i2,…,in},文本數(shù)據(jù)T={t1,t2,…,tm},當憑借任一文本數(shù)據(jù)tx,x∈[1,n]查詢與文本對應圖像數(shù)據(jù)時，則得到的跨模態(tài)檢索結果集合可表示為vx={vy|max sim(tx,vy),y∈[1,n]}。

Peng等人[1]對2017年之前跨模態(tài)檢索的相關技術進行分類總結，并制定了基準，為該領域發(fā)展奠定了良好基礎。為便于跨模態(tài)檢索領域初學者能夠了解到此領域最新研究進展，本文研究跨模態(tài)檢索領域由始以來發(fā)展的基本路線和近期研究現(xiàn)狀，主要貢獻如下：

（1）分析了跨模態(tài)檢索主流方法近幾年的最新研究進展，探討了跨模態(tài)檢索現(xiàn)階段存在的挑戰(zhàn)。

（2）介紹具有代表性的跨模態(tài)方法，與其他研究綜述不同，本文聚焦于以深度學習為研究背景的跨模態(tài)學習方法，并根據(jù)幾種主流的深度學習技術進行簡述。

（3）列舉了每類方法中具有代表性的方法，并對其優(yōu)勢和局限性做出對比分析，并對各類跨模態(tài)檢索方法做出評述和總結。

1 實值表示學習方法

實值表示學習方法是指對不同模態(tài)進行特征提取，并直接對跨模態(tài)特征進行學習。根據(jù)實值表示學習方法的不斷演化發(fā)展，文中列舉了具有代表性的實值表示學習方法[2-6]，如表1所示。本章根據(jù)每種方法的技術特點，將實值表示學習方法大致分為兩大類，并介紹一些早期經(jīng)典方法以及近幾年領域內(nèi)研究的熱點模型。

表1 代表性實值表示學習方法簡要介紹Table 1 Brief introduction of representative real-valued representation learning methods

1.1 基于子空間學習的方法

基于子空間方法的跨模態(tài)檢索越來越受到人們的關注，它通過學習變換矩陣，將異構數(shù)據(jù)映射到同一個語義空間，在同一個度量空間中比較不同的模態(tài)數(shù)據(jù)。子空間學習方法在跨模態(tài)檢索任務中也表現(xiàn)出了其優(yōu)異的檢索性能。

1.1.1 傳統(tǒng)統(tǒng)計相關學習法

典型相關性分析（canonical correlation analysis，CCA）能夠將兩個多維變量之間的線性關系進行關聯(lián)的方法，從而使不同模態(tài)之間的線性關聯(lián)最大化。1936年Hotelling[7]率先提出了CCA用于降低變量維度，并處理兩變量之間的線性關系。假設兩種不同模態(tài)特征矩陣X=[x1,x2,…,xn]，Y=[y1,y2,…,yn]，ωx、ωy是兩投影向量，將特征矩陣轉化為線性組合：

構建集合內(nèi)協(xié)方差矩陣ΣXX、ΣYY和集合間協(xié)方差矩陣ΣXY：

通過計算U和V兩線性組合之間的相關系數(shù)ρ，體現(xiàn)兩者間的相關性：

構建拉格朗日方程L,以ωTxΣXXωx=1,ωTyΣYYωy=1為約束條件，找到最佳投影向量ωx、ωy最大化線性組合U和V之間的相關性：

設λ和θ為系數(shù)變量，找到其特征值最大的特征向量：

其主要任務是將不同多維數(shù)據(jù)經(jīng)線性變換投影為一維數(shù)據(jù)，其投影的主要標準是使得兩組數(shù)據(jù)的相關系數(shù)最大化，由此便可得出兩種不同模態(tài)數(shù)據(jù)間特征的最大相似性。但傳統(tǒng)CCA方法具有一定局限性：

（1）僅對兩個及兩個以下的視圖有效。

（2）僅能計算兩視圖間的線性相關性，不能解決實際應用中的非線性問題。

（3）傳統(tǒng)CCA是一種無監(jiān)督算法，在處理有監(jiān)督分類問題時，無法利用標簽信息。

為解決上述傳統(tǒng)CCA的缺陷，研究者在傳統(tǒng)CCA的基礎上進行了一系列相關研究：Hardoon等人[2]提出一種核典型相關性分析的方法（kernel canonical corre‐lation analysis，KCCA）改善了傳統(tǒng)CCA無法檢測非線性關系的缺點，并有效利用兩組多維數(shù)據(jù)間的非線性關系，降低數(shù)據(jù)維度，隨著技術發(fā)展需求，Hwang等人[8]將其用于跨模態(tài)檢索任務中，但很多KCCA方法在高維特征空間產(chǎn)生過擬合現(xiàn)象，且難以處理大規(guī)模數(shù)據(jù)。為解決上述過擬合問題，提高CCA的穩(wěn)定性，Cai等人[9]提出一種魯棒性核CCA算法（KCCA-ROB）。

傳統(tǒng)CCA兩視圖已滿足不了檢索對數(shù)據(jù)語義的多角度需求，為此，Gong等人[10]在兩視圖基礎上結合第三個視圖，用于捕捉高層圖像語義，Shao等人[11]改進CCA算法（ICCA），將傳統(tǒng)CCA的兩視圖擴展到了四視圖，學習模態(tài)內(nèi)語義一致性，并將四視圖CCA嵌入到漸進式框架，來緩解過度擬合問題。除以上以CCA為基礎進行優(yōu)化的方法外，Pereira等人[12]還對CCA做出變形，提出無監(jiān)督相關匹配（CM），有監(jiān)督語義匹配（SM），以及兩者結合的語義相關匹配（SCM），將多類邏輯回歸應用于CCA獲得的最大相關特征表示。

隨著深度學習（deep learning，DL）的不斷發(fā)展，深度典型相關性分析（deep-CCA，DCCA）[13]應運而生，DCCA不僅解決了非線性的問題，而且還解決了KCCA核函數(shù)選取不可知性和可擴展性問題。相對于KCCA模型來說，DCCA模型結構更為簡潔，提高了跨模態(tài)檢索性能，兩視圖DCCA結構圖如圖1所示。以此為基礎，Zeng等人[14]采用有監(jiān)督的方式，構建基于DCCA的跨模態(tài)檢索方法，其注意力主要集中于利用標簽信息來克服不同模態(tài)信息之間的異構鴻溝。受SCM的啟發(fā)，Wei等人[15]提出Deep-SM來解決帶有標簽的樣本的圖像和文本之間的跨模式檢索問題。

圖1 DCCA示意圖Fig.1 Schematic of DCCA

此外，將跨模態(tài)自編碼器與DCCA相結合構造出的拓展DCCA模型[16]將對應模態(tài)缺失特征進行重構，極大地確保了兩模態(tài)之間特征的最大相關性。在此之后，Zeng等人[17]又提出一種用于音頻-視頻檢索，基于聚類CCA的端到端有監(jiān)督學習網(wǎng)絡結構（TNN-C-CCA）。除上述方法，Shu等人[18]對ML-CCA[4]做出了進一步改進，提出SML-CCA，不僅能夠像ML-CCA一樣同時學習兩種模態(tài)數(shù)據(jù)的共同語義空間，而且很好地解決了MLCCA只關注語義相關性，忽略特征相關性的問題。在上述方法中，經(jīng)過研究者的改進一定程度上彌補了CCA的缺點，證明了語義信息對提高跨模態(tài)檢索精準度的有效性。

1.1.2 基于圖正則化的方法

跨模態(tài)檢索任務在執(zhí)行過程中通常存在兩個根本問題：相關性度量和耦合特征選擇。在大部分跨模態(tài)工作研究中，研究者只針對模態(tài)間數(shù)據(jù)的相似性度量提出一些解決方案，通過學習投影矩陣的方式將不同模態(tài)數(shù)據(jù)投影到同一個子空間中，進而測量不同模態(tài)間的相似性。隨著研究推進，Wang等人[19]解決了耦合特征選擇問題，同時從不同的特征空間中選擇合適且識別度高的特征。此外，對投影數(shù)據(jù)加入多模態(tài)圖正則化項能夠保持模態(tài)內(nèi)和模態(tài)間的相關性。

圖正則化在半監(jiān)督學習中得到廣泛應用[20]，圖中邊的權值代表跨模態(tài)數(shù)據(jù)的關聯(lián)度，通過權值來預測未標記數(shù)據(jù)的語義。為將語義信息和模態(tài)間相關系數(shù)進行統(tǒng)一優(yōu)化，Zhai等人[21]提出聯(lián)合表示學習算法（joint representation learning，JRL），首次將不同模態(tài)的稀疏矩陣和圖正則化集成到統(tǒng)一優(yōu)化問題中，在JRL的基礎之上，JGRHML[22]將不同模態(tài)結構整合到聯(lián)合圖正則化中，利用不同模態(tài)之間的互補關系，學習更好的特征表示，使得兩種模態(tài)之間的解平滑度更高。在跨模態(tài)檢索任務中，若兩個不同任務（如I-T，T-I）學習同一投影矩陣，會導致兩任務性能趨向均衡，單一任務上不能表現(xiàn)出最佳性能，為使檢索性能最優(yōu)化，Wang等人[6]提出一種基于圖正則化的方法GRMD，該方法針對不同任務學習兩對投影，并保護模態(tài)內(nèi)和模態(tài)間的特征相關性和語義相關性。圖正則化方法能夠有效在同一框架中對跨模態(tài)數(shù)據(jù)建模，且展示不同模態(tài)間的語義相關性，不足的是，在大規(guī)模數(shù)據(jù)集上，由于樣本容量龐大，類別繁多，因此跨模態(tài)圖的復雜度較高，構造難度較大。GRMD框架圖如圖2所示。

圖2 GRMD框架結構圖Fig.2 Flowchart of GRMD method

基于子空間學習的方法在跨模態(tài)信息檢索中起著至關重要的作用，其為解決跨模態(tài)數(shù)據(jù)間的異構性有著非常顯著的效果，另外，根據(jù)不同模態(tài)數(shù)據(jù)間的相關性，子空間學習能夠捕捉到兩模態(tài)之間的互補信息，并利用先驗知識，挖掘多模態(tài)數(shù)據(jù)中的高層語義。

1.2 基于機器學習和深度學習的方法

1.2.1 基于特征表示的方法

基于特征表示的方法一般通過兩種方式來提取更適合模型學習的數(shù)據(jù)特征，第一種是對特定場景選取相應網(wǎng)絡結構來提取對模型學習影響較大的特征，另一種方法則是統(tǒng)攬全局特征，對經(jīng)典神經(jīng)網(wǎng)絡做出改進調整。由于該類方法尤其對大規(guī)模、多標簽數(shù)據(jù)集有良好的適應性，可為未來跨模態(tài)檢索提供更有效的設計思路。

神經(jīng)網(wǎng)絡提取特征對模型學習效率和學習質量有著很大的影響，以針對不同場景或不同實體選用特定網(wǎng)絡，能夠使得特征提取更加高效，更具代表性。為此，Li等人[23]提出了DMASA，采用多種自注意機制從不同角度提取圖像和文本的細粒度特征。然后，將粗粒度和細粒度特征集成到多模態(tài)嵌入空間中，在該空間中可以直接比較圖像和文本之間的相似度。但自注意力機制在編碼時會過度將注意力集中于自身的位置，為解決此問題，Jin等人[24]采用粗細粒度并行注意機制來處理多模式視頻的全局和局部特征。因此，增強了相同模式視頻特征中特征點之間的關聯(lián)度，將多頭注意力機制集成到粗細粒度并行注意力中，增強了模型對特征的接受程度，并從多個角度處理相同的視頻模態(tài)特征。Ji等人[25]提出可解釋的雙路徑圖推理網(wǎng)絡，該網(wǎng)絡通過利用視覺元素和語言元素之間的細粒度語義相關性來生成關系增強的視覺和文本表示。為獲取文本中的有效特征，Xie等人[26]提出SEJE，用于學習跨模態(tài)聯(lián)合嵌入的兩階段深度特征提取框架，利用LSTM來識別關鍵術語。與前者類似，Zhao等人[27]設計了一個語義特征提取框架，為相似度度量提供豐富的語義特征并創(chuàng)建多個注意力圖以從不同角度關注局部特征并獲得大量語義特征，與其他積累多個語義表示進行均值處理不同，使用帶有遺忘門的LSTM來消除重復信息的冗余。

另外，編碼器在特征提取方面也做出重大貢獻，Gao等人[28]提出圖像編碼器、文本編碼器和多模式編碼器，用于提取文本特征和圖像特征。與單模態(tài)編碼器相比，該編碼器學習公共低維空間來嵌入圖像和文本，從而使圖像-文本匹配對象能夠挖掘出豐富的特征信息。

1.2.2 基于圖文匹配的方法

基于圖文匹配的方法更關注于不同模態(tài)間的結構關聯(lián)，此類方法通過研究圖像和文本模態(tài)間的語義對應關系來增強模態(tài)間特征表示的一致性。圖文匹配又可分為圖像文本對齊，跨模態(tài)重構以及圖文聯(lián)合嵌入，下面將按照以上三類對基于圖文匹配方法進行介紹。

跨模態(tài)重構是指以一種模態(tài)數(shù)據(jù)通過神經(jīng)網(wǎng)絡生成另一種模態(tài)結構的數(shù)據(jù)，跨模態(tài)重構能夠保留重建模態(tài)信息，減少模態(tài)特征異質性，并增強語義辨識能力。Feng等人[3]提出一種跨模態(tài)學習模型（Corr-AE），通過多模態(tài)重構和單模態(tài)重構兩組模型，將相關學習與表示學習作為一個整體來考慮，以最小化表示學習誤差，并將輸入模態(tài)進行重構。但在此模型中，高層語義信息被忽略掉，這使得該模型在檢索精度上會受到一定的影響。Xu等人[29]提出AAEGAN通過相互重建每個模態(tài)數(shù)據(jù)，以類嵌入作為重建過程中的輔助信息，使跨模態(tài)分布差異最小化。為使生成模態(tài)更加具有模態(tài)間語義一致性，Wu等人[30]提出AACR，通過增強對抗訓練將一種源模態(tài)轉換為另一種目標模態(tài)，從而將來自不同模態(tài)的數(shù)據(jù)對齊。

一部分研究者通過實現(xiàn)圖像中實體與文本片段對齊來增強模態(tài)間語義一致性，Guo等人[31]提出使用圖卷積神經(jīng)網(wǎng)絡編碼以學習視覺關系特征，然后，在關系特征的監(jiān)督下，使視覺與文本特征對齊。但面對多元場景中各種實體間的復雜關系，難以準確捕捉其中的對應關系，Chen等人[32]提出了一種迭代匹配與重復注意記憶（IMRAM）方法，該方法關注多模態(tài)數(shù)據(jù)的細粒度信息，通過多步對齊來獲取圖像和文本之間的對應關系。Cheng等人[33]提出雙向聚焦語義對齊注意網(wǎng)絡（BF‐SAAN），采用雙向聚焦注意機制共享模態(tài)語義信息，進一步消除無關語義信息的負面影響，探索二階協(xié)方差池以獲得多模態(tài)語義表示，從而捕獲模態(tài)通道語義信息，實現(xiàn)圖像文本模態(tài)之間的語義對齊。

還有研究者認為，僅通過局部對齊難以使模型掌握數(shù)據(jù)整體關系，關注全局信息產(chǎn)生的特征辨識度不強，采用聯(lián)合嵌入的方式才能有效減小“語義鴻溝”。因此，Wang等人[5]采用對抗機制，提出對抗式跨模態(tài)檢索（adversarial cross-modal retrieval，ACMR），有監(jiān)督地對抗跨模態(tài)檢索特征空間內(nèi)容更加豐富，以分類方式區(qū)分不同的模態(tài)，其利用特征投影產(chǎn)生模態(tài)不變性以及區(qū)分性表示，通過對抗性訓練學習特征以混淆模態(tài)分類器，并引入三重約束機制，來保證公共子空間中的模態(tài)語義結構，其結構如圖3所示。與對抗網(wǎng)絡形成區(qū)分性表示不同，為學習不同模態(tài)的通用表示，Tian等人[34]提出MMCA-CMR，多模態(tài)數(shù)據(jù)嵌入到公共表示空間中，模型借助自編碼器學習來自不同模式和內(nèi)容信息的特征向量，有助于在跨模式檢索中彌合多模式數(shù)據(jù)之間的異構鴻溝。He等人[35]提出CAAL，通過并行編碼器分別生成圖像和文本特征的通用表示，并由兩個并行GANs生成虛假特征來訓練鑒別器，彌合不同模態(tài)間差異。

圖3 ACMR基本框架圖Fig.3 Flowchart of ACMR method

2 二進制表示學習方法

在海量多媒體數(shù)據(jù)中查找用戶想要的信息難度越來越大，這不僅給跨模態(tài)檢索任務精度提出了更高要求，同時檢索效率也迎來很大的挑戰(zhàn)。由于存儲成本低，查詢效率高，近年來，哈希技術在海量信息處理以及多模態(tài)信息檢索上起到了重大的作用，在2010年，隨著Bronstein等人[36]首次將哈希技術用于跨模態(tài)數(shù)據(jù)相似性研究中，跨模態(tài)哈希（cross-modal hashing，CMH）逐漸表現(xiàn)出其優(yōu)勢。首先要將多維特征向量X∈Rd×n轉化成相應k位哈希碼z={z1,z2,…,zk}，由對應哈希函數(shù)獲得：

常用的哈希函數(shù)是線性哈希函數(shù)：

當z≥0時，sgn(z)=1，反之，sgn(z)=-1，w是投影向量，b是偏置變量，另外核哈希函數(shù)也是常用的：

{st}是隨機抽取的經(jīng)典樣本，{ωt}代表權重值。另外，還有基于最鄰近向量分配的函數(shù)：

在漢明空間中，通常用漢明距離dhij來描述哈希碼yi和yj之間的距離，漢明距離就是兩哈希碼之間對應不同的位數(shù)：

兩哈希碼之間的內(nèi)積shij=yiTyj也可作為相似性衡量標準，在實際檢索過程中，往往通過距離查找表來計算哈希碼之間的距離，來推斷跨模態(tài)數(shù)據(jù)間的相關程度。而在跨模態(tài)檢索過程中，僅使用數(shù)據(jù)的單一特征作為學習內(nèi)容已不足以滿足跨模態(tài)數(shù)據(jù)之間的對比選擇，Kumar等人[37]提出跨視圖哈希（cross view hashing，CVH），這也為至今的基于哈希的跨模態(tài)檢索研究奠定了良好的基礎。

根據(jù)學習過程中對樣本標簽的使用情況，跨模態(tài)哈希大致可分為有監(jiān)督哈希和無監(jiān)督哈希，而有監(jiān)督方法中還涉及半監(jiān)督學習方法。通常來講，使用標簽信息訓練模型會使得檢索精準度更高，但隨DL等技術的衍化發(fā)展，有些無監(jiān)督的方法也可能取得令人滿意的實驗結果。下面對跨模態(tài)哈希檢索最近幾年的相關研究進展做出介紹，并選取近年來比較具有代表性的幾種跨模態(tài)哈希方法[38-42]進行簡要介紹，如表2所示。

表2 代表性二值表示學習方法簡要介紹Table 2 Brief introduction of representative binary representation learning methods

2.1 有監(jiān)督哈希方法

有監(jiān)督哈希的主要任務是學習兩個模態(tài)的哈希函數(shù)：f(x):→{-1,1}c，g(y):→{-1,1}c，Zhang等人[43]提出一種典型有監(jiān)督跨模態(tài)哈希方法最大化語義相關性（semantic correlation maximization，SCM），巧妙地將標簽信息添加到哈希學習過程中，并且利用監(jiān)督信息學得相似矩陣，通過順序計算方式求解哈希函數(shù)。SCM在不同模態(tài)的訓練復雜度分別是O(cdy),O(cdx),c表示二進制哈希碼的長度，dx,dy分別表示每個模態(tài)的特征維度，盡管相比其他方法其訓練復雜度在一定程度上存在優(yōu)勢，但其并不適用于現(xiàn)有深度哈希高維度特征數(shù)據(jù)集。

Liong等人[41]提出跨模態(tài)離散哈希方法（CMDH），由兩個步驟對跨模態(tài)哈希碼學習過程進行離散優(yōu)化，在初步學習中學得不同模態(tài)特定的哈希函數(shù)，然后根據(jù)語義相似性，學習構建統(tǒng)一的二進制碼集，因二進制碼集在不同模態(tài)中是共享的，故有效減少了模態(tài)間的差異性。與CMDH相同，由語義增強符和快速離散優(yōu)化模塊組成的NSDH[44]同樣不采用任何松弛的離散約束，有效避免了累積誤差，學習到高效的哈希碼，此外，NSDH可以直接學習哈希碼，相比SCM中的逐位優(yōu)化，更加節(jié)省時間，符合現(xiàn)階段大規(guī)模跨模態(tài)數(shù)據(jù)檢索的實際應用要求。

Jiang等人[45]提出了一種新穎的離散潛在因子模型（DLFH）來學習二進制哈希碼且無需連續(xù)松弛，試圖在保持成對相似性情況下最大化跨模態(tài)數(shù)據(jù)的可能性，并使用逐列學習策略解決離散約束優(yōu)化，將相似度信息有效地保存到二進制碼中。以此為基礎，Zhan等人[42]提出離散在線哈希方法（discrete online cross-modal hashing，DOCH），將有監(jiān)督的標簽信息嵌入到待學習的哈希碼中，以便于二進制碼進行分類，進一步學習統(tǒng)一哈希碼，構建新的計算復雜度與新數(shù)據(jù)規(guī)模成線性關系，解決了DLFH擴展存在局限性的問題。

盡管傳統(tǒng)有監(jiān)督哈希方法利用標簽信息，取得一系列顯著成果，但深度神經(jīng)網(wǎng)絡（deep neural networks，DNN）在非線性表示學習取得優(yōu)異的成績，于是Jiang等人[39]將DNN引入CMH，提出端到端的深度學習框架DCMH使用負對數(shù)似然損失來保持跨模態(tài)相似性，來彌補傳統(tǒng)方法的不足。Li等人[40]提出SSAH首次引用對抗學習處理跨模態(tài)哈希問題，為更好地彌合模態(tài)間的異質鴻溝，設計了LabNet用于逐層提取多標簽向量的語義特征，進而監(jiān)督ImgNet和TxtNet中的特征學習，即將三元組(vi,ti,li)中l(wèi)i作為vi、ti的自監(jiān)督語義信息，從而構建不同模態(tài)之間的語義關聯(lián)，一致化不同模態(tài)特征分布。與之類似，DSSAH[46]同樣利用了對抗學習，但作者并未對標簽特征進行深度抽取，而是以對抗網(wǎng)絡作為模態(tài)鑒別器，尋找公共特征空間，計算不同模態(tài)相似性。為有效利用多標簽語義相關性，Zou等人[47]提出MLSPH以集成方式聯(lián)合學習高級特征和哈希碼，增強哈希碼獨特性。

由于DNN提取跨模態(tài)數(shù)據(jù)特征不能準確識別哪些特征對跨模態(tài)檢索任務幫助較大，導致檢索性能次優(yōu)，為賦予跨模態(tài)特征對應權重，Peng等人[48]DSADH和Wang等人[49]提出SCAHN中引入注意力機制來高效地使用與檢索任務相關的特征來引導哈希編碼。與之類似，為提高檢索性能，SDCH[50]、TA-ADCMH[51]對哈希碼學習進行改進，前者采用多標簽信息監(jiān)督的方式生成有區(qū)別性的哈希碼，后者通過非對稱哈希學習，針對兩個子任務學習不同的哈希碼。

為應對樣本標簽數(shù)量有限問題，半監(jiān)督哈希方法被引入跨模態(tài)檢索任務中，半監(jiān)督哈希基于非加權距離和簡單的線性映射來處理數(shù)據(jù)之間的語義相似性和不相似性，其目標是最小化標記數(shù)據(jù)集的經(jīng)驗誤差并提高編碼性能，其中經(jīng)典的半監(jiān)督哈希方法如SSH[38]，受信息論啟發(fā)，該方法將成對監(jiān)督與無監(jiān)督學習目標相結合。近年來，基于圖的半監(jiān)督哈希方法取得重大進展，最近Shen等人提出了MGCH[52]，在傳統(tǒng)圖哈希方法基礎上采用多視圖結構圖作為唯一的學習輔助來連接標記和未標記的數(shù)據(jù)，對圖特征進行精細化。

Zhang等人[53]利用生成對抗網(wǎng)絡設計了一個半監(jiān)督的跨模態(tài)哈希學習模型（SCH-GAN），該模型可以從大量未標記的數(shù)據(jù)中學習豐富的語義信息，并選擇邊界樣本。隨著研究的深入，新技術的更替迭代，以及規(guī)模更大的跨模態(tài)數(shù)據(jù)的出現(xiàn)，Wang等人[54-56]通過引入深度神經(jīng)網(wǎng)絡來提高半監(jiān)督跨模態(tài)哈希的性能。

2.2 無監(jiān)督哈希方法

盡管大多數(shù)現(xiàn)有的基于多媒體數(shù)據(jù)標簽信息的方法已經(jīng)取得了很好的效果，但由于標簽數(shù)據(jù)通常耗費龐大的資源，尤其是在大規(guī)模多媒體數(shù)據(jù)集上，從標簽數(shù)據(jù)中獲益的性能成本很高，因此，無監(jiān)督跨模態(tài)學習的出現(xiàn)，使得跨模態(tài)檢索在實際應用中得到發(fā)展。無監(jiān)督的跨模態(tài)哈希方法學習原始數(shù)據(jù)的低維嵌入，沒有任何語義標簽。由于缺少語義標簽的介入，不同模態(tài)間的語義鴻溝問題難以解決，因此CMFH[57]采用集合矩陣分解，從同一實例的不同模態(tài)中學習統(tǒng)一的哈希碼彌合語義鴻溝。但學習統(tǒng)一哈希碼會給檢索任務帶來次優(yōu)性能，因此Cheng等人[58]針對不同模態(tài)的檢索任務學習特定的哈希碼。Li等人[59]以知識蒸餾（knowledge distillation，KD）的方式，通過無監(jiān)督教師模型重構相似度矩陣，進一步指導學生模型學習，從而生成更多區(qū)分性的哈希碼，為進一步提高跨模態(tài)哈希的性能，Liu等人[60]將統(tǒng)一的哈希碼和單獨的哈希碼組合，保留模態(tài)間共享屬性和模態(tài)內(nèi)專有屬性。

為獲取更加有效的哈希碼，大多方法將模態(tài)內(nèi)相似性和模態(tài)間相似性結合起來，以充分挖掘語義相關性，并在漢明空間中保持模態(tài)間表示一致性[61-62]，Shi等人[63]提出一種視覺-文本關聯(lián)圖方法（visual-textful correlation graph hashing，OVCGH），在對象層面構建模態(tài)內(nèi)部和不同模態(tài)之間的依賴關系，以捕獲不同模式之間的相關語義信息。與現(xiàn)有方法主要關注保持相互約束的模態(tài)內(nèi)和模態(tài)間相似關系不同，CMSSR[64]將不同模態(tài)的數(shù)據(jù)視為從不同視角對場景的描述，并相應地整合不同模態(tài)的信息，學習包含場景內(nèi)相關跨模態(tài)信息的完整公共表示。

盡管二值表示學習方法在處理跨模態(tài)異構問題上表現(xiàn)出其優(yōu)勢，但在哈希碼學習過程中造成的信息損失是不可避免的，因此優(yōu)化哈希碼學習過程，減少信息損失和是目前需要研究的必要內(nèi)容。

表3給出了各類具有代表性的方法，對其優(yōu)勢和局限性進行分析及總結。

表3 跨模態(tài)檢索方法簡要評述及總結Table 3 Brief review and summary of cross modal retrieval methods

3 常用數(shù)據(jù)集及結果對比與分析

3.1 常用數(shù)據(jù)集及評價指標

隨著互聯(lián)網(wǎng)上各種模態(tài)數(shù)據(jù)的爆發(fā)式增長，在深度學習的不斷發(fā)展中，對于各種模態(tài)數(shù)據(jù)的需求也多樣化，為迎合各模型的預訓練和測試需求，涌現(xiàn)出一大批容納不同模態(tài)，不同類別的數(shù)據(jù)集，數(shù)據(jù)集對跨模態(tài)檢索任務起著至關重要的作用，數(shù)據(jù)集中數(shù)據(jù)質量直接影響模型預訓練的結果。在跨模態(tài)檢索任務中，常用的幾種數(shù)據(jù)集[65-70]如表4所示。

表4 跨模態(tài)檢索常用數(shù)據(jù)集Table 4 Common datasets for cross modal retrieval

（1）ImageNet：其中包含12個類別分支，共320萬張圖片。目前ImageNet按照同義詞集索引分為21 841個類別，圖片總量超過1 400萬張。另外，ImageNet數(shù)據(jù)集有很多子集，常被用于各種視覺任務，其中最常用的一個子數(shù)據(jù)集是ILSVRC2012。

（2）Wikipedia：該跨模態(tài)數(shù)據(jù)集中包含2 866個圖像文本對，每幅圖像都配有相應的文本描述，總共29個概念類別，其中10個為主要概念，官網(wǎng)提供128維的SIFT圖像特征和10維的LDA文本特征。

（3）Pascal Sentence：數(shù)據(jù)集中容納1 000幅圖像，每幅圖像配備5條描述語句，圖像被分為20個類別，每個類別含有5幅圖像，圖像源自Pascal VOC 2008數(shù)據(jù)集，常被用于跨模態(tài)檢索和圖像標題生成等任務。

（4）NUS-WIDE：該數(shù)據(jù)集共計269 648幅圖像和對應的文本描述，共81個概念類別。在具體使用過程中，通常會抽取其中一部分樣本用于實驗，常用的有NUSWIDE-10k、NUS-WIDE-21k兩種，10 k表示抽取10個類別，每個類別1 000張圖片和相應文本描述。

（5）MS-COCO：COCO數(shù)據(jù)集是跨模態(tài)學習中非常重要的數(shù)據(jù)集，數(shù)據(jù)庫中圖像素材來自于日常生活場景，總計91個類別，并且采用實例分割，在328 000幅圖像中標記了2 500 000個實例。

（6）Flickr-25k：圖像數(shù)據(jù)源于Flickr網(wǎng)站，并提取標簽和EXIF（可交換圖像文件格式）圖像元數(shù)據(jù)。圖像標簽包括原始標簽和處理后標簽兩種形式。在Flickr-25k中手動注釋25 000幅圖像。每幅圖像平均有8.94個標簽。有1 386個標簽與至少20個圖像關聯(lián)。同樣，F(xiàn)lick-30k則代表擁有30 000幅圖像的數(shù)據(jù)集。

mAP值指平均精準度，衡量檢索到的模態(tài)與查詢模態(tài)類別是否一致，常用于評估跨模態(tài)檢索算法性能。給出查詢數(shù)據(jù)和n個檢索結果，其檢索精度可表示為：

P(i)表示前i個檢索結果的精準度，若檢索結果與查詢項相關，則δ(i)=1，反之δ(i)=0，Q代表發(fā)起查詢的數(shù)量，最終mAP值的公式如下：

R@k（Recall@k）常在MS-COCO和Flickr-30k等數(shù)據(jù)集中作為實值表示方法的評價指標，表示正確結果出現(xiàn)在前k個返回樣例占總樣例的比例。RELk代表Top-k結果中的相關項數(shù)，REL表示給定查詢的相關項總數(shù)。這個指標回答了Top-k中是否找到了相關的結果，其計算公式如下：

3.2 實驗結果對比與分析

本章選取幾種比較重要的實值表示學習方法分別在不同數(shù)據(jù)集上，以mAP值為評價指標用于性能對比，如表5所示，以R@k值為評價指標，如表6所示。

表6 實值表示學習方法R@k值比較Table 6 Performance comparison of real-valued techniques on basis of R@k scores單位：%

在表5中，ACMR等基于深度學習方法性能明顯優(yōu)于SCM等傳統(tǒng)子空間學習方法，盡管SCM在原有CCA基礎上進行了語義匹配，但GANs等深度神經(jīng)網(wǎng)絡給模型提供的模態(tài)內(nèi)和模態(tài)間語義一致性表示是傳統(tǒng)方法無法比擬的，其性能的提高取決于數(shù)據(jù)規(guī)模的大幅增加。而在子空間學習方法當中，JRL結合了稀疏和半監(jiān)督正則化，以豐富訓練集并使解平滑，較其他子空間學習方法在數(shù)據(jù)集上有著更好的表現(xiàn)。

表5 兩個數(shù)據(jù)集上幾種重要實值表示方法的mAP值比較Table 5 Comparison of mAP scores for prominent real-valued techniques on two data sets

由表6可以看出，DMASA在以文搜圖的任務中取得更優(yōu)R@k值，分別從MS-COCO和Flicker數(shù)據(jù)集選取10 000和1 000張圖像，驗證測試比為1∶1，設置3個自注意力角度。由于多角度的自注意力機制，相比其他方法能夠獲取更加全面的圖像信息，因此在圖像檢索中效果極佳，但其文本特征提取網(wǎng)絡并未得到更加有效的優(yōu)化，因此在文本檢索任務中其性能較差。IBRAM在兩數(shù)據(jù)集中都有不錯的性能表現(xiàn)，可以驗證該方法面對各種規(guī)模數(shù)據(jù)的魯棒性，在雙向檢索任務中，其性能指標也都位于前列，且較為均衡，因此可看出注意力機制等深度神經(jīng)網(wǎng)絡和模態(tài)間細粒度信息的匹配對跨模態(tài)檢索模型性能提升起著重要作用，為下一步研究提供了重要思路。

從表7中哈希方法實驗結果可以看出，DGCPN等無監(jiān)督方法更適合于小規(guī)模數(shù)據(jù)分布的檢索任務；在Flicker-25k中，圖像的標簽信息更加豐富，監(jiān)督方法充分利用了標簽信息通?？梢垣@得更好的檢索性能。此外，DCMH等引入深度神經(jīng)網(wǎng)絡的有監(jiān)督哈希方法在特征提取和哈希學習方面更具優(yōu)勢，因此相比傳統(tǒng)哈希方法在各數(shù)據(jù)集上有著更好的性能表現(xiàn)。由于SCH-GAN等半監(jiān)督方法充分利用未標記數(shù)據(jù)進行哈希碼學習，在Flicker-25k數(shù)據(jù)集缺少標簽信息的情況下表現(xiàn)良好。由此可見DNN對哈希碼學習和特征提取的重要性以及引入DNN來提高CMH性能的必要性。

表7 NUS-WIDE和Flickr-25k數(shù)據(jù)集上幾種重要二值表示方法的mAP值比較Table 7 Performance comparison of prominent hashing learning methods on basis of mAP score

4 跨模態(tài)檢索未來展望

從傳統(tǒng)方法到深度學習方法，跨模態(tài)檢索的性能依靠各種深度神經(jīng)網(wǎng)絡一直在不斷提高，但這并不能滿足現(xiàn)實生活中對跨模態(tài)信息檢索的需求，為提高跨模態(tài)檢索性能與實際應用價值，還需做出以下思考。

4.1 跨模態(tài)檢索方法改進

近年提出的跨模態(tài)檢索算法，大多以復雜的組合結構形成檢索框架，如嵌入GANs、注意力機制（attention mechanism）等[71-72]，雖檢索精度上得到提升，但其復雜計算過程，在實際檢索任務中面對大規(guī)模的跨模態(tài)數(shù)據(jù)會有一定的檢索時延且檢索效率較低。為使模型能夠嵌入到移動設備當中，可采用知識蒸餾的手段，將精細化大模型學習到的知識轉移給簡化的小模型，既不損失原有參數(shù)信息，又做到了模型輕量化。

為確保檢索框架學習到有效的哈希碼，后續(xù)研究工作中，可嵌入情感融合、場景分析和上下文語義分析，以及獲取跨模態(tài)信息中更高層的語義，采用強監(jiān)督學習或弱監(jiān)督學習關注細粒度特征，并根據(jù)注意力機制的選擇性，選取有效特征，既避免了特征信息冗余導致時間復雜度變高，又使哈希碼變得更加有效。

4.2 圖神經(jīng)網(wǎng)絡的應用

多模態(tài)數(shù)據(jù)圖的拓撲結構非常復雜，況且圖結構中各節(jié)點是無序的，圖中包含多模態(tài)數(shù)據(jù)的特征信息，面對這種非結構化數(shù)據(jù)，現(xiàn)有很多哈希方法是基于圖的，傳統(tǒng)的神經(jīng)網(wǎng)絡無法對其進行建模，圖神經(jīng)網(wǎng)絡（graph neural networks，GNN）[73]可有效地計算各節(jié)點之間的關聯(lián)度，在跨模態(tài)檢索任務中，GNN能夠計算DNN無法處理的復雜數(shù)據(jù)網(wǎng)絡。

在GNN中，節(jié)點之間的邊代表著獨立信息，可以通過圖結構來進行傳播，而不是將其看作是特征；通常而言，GNN更新隱藏節(jié)點的狀態(tài)，是通過近鄰節(jié)點的權值和，傳播步驟使用的方法通常是不同的聚合函數(shù)（在每個節(jié)點的鄰居收集信息）和特定的更新函數(shù)（更新節(jié)點隱藏狀態(tài)）。一個節(jié)點或邊的信息不僅限于其本身，還要看它相鄰元素的加權求和來決定，通過池化（pooling）來進行層內(nèi)聚合，層內(nèi)信息傳遞，層間通過鄰域聚合來進行層級間信息傳遞。因此在圖中的各個節(jié)點，除自身特征信息外，還包含與之相關聯(lián)的同一層或更深層節(jié)點信息，甚至全局信息，因此圖全局節(jié)點之間的關聯(lián)度變得更強，更容易計算獲得。

4.3 構建面向實際應用的數(shù)據(jù)集

數(shù)據(jù)集中的各種多模態(tài)數(shù)據(jù)都被賦予標簽和相應的文本描述，如MS-COCO等大型數(shù)據(jù)集都有著豐富的數(shù)據(jù)類別。但在實際檢索任務中，現(xiàn)有數(shù)據(jù)庫中的樣本種類豐富度較日常生活所見還有很大差距，很難達到令人滿意的模型訓練效果。因此，構建面向專屬任務的數(shù)據(jù)集，或者將原有數(shù)據(jù)集樣本類別進一步擴充，并賦予數(shù)據(jù)更加豐富的標簽和文本描述，給跨模態(tài)檢索任務的實際應用提供有利條件。

4.4 提高模型可擴展性

現(xiàn)有跨模態(tài)檢索方法大多針對一對一檢索，而在實際檢索過程中，某一檢索對象可能有多個與之匹配的跨模態(tài)結果，為更貼合實際應用，多對多的大規(guī)模跨模態(tài)檢索框架應是未來研究的方向。對預訓練模型進行局部調整，使跨模態(tài)檢索模型適應任務多樣化，且能接納不同數(shù)據(jù)類型的數(shù)據(jù)庫，提高模型可擴展性，縮短模型訓練時間，提高研究效率。

5 結束語

概述了跨模態(tài)檢索近年來的研究進展，介紹了相關數(shù)據(jù)集，另外還選取幾種比較具有代表性的方法在不同數(shù)據(jù)集上進行性能對比分析。盡管近年跨模態(tài)檢索領域迎來蓬勃發(fā)展，但不同模態(tài)間存在的語義鴻溝問題尚未解決以及數(shù)據(jù)集的不完備，目前跨模態(tài)檢索還面臨著很大的挑戰(zhàn)。如何有效達成模態(tài)間語義一致性，怎樣構建更加全面的數(shù)據(jù)集且更加廣泛的應用在實際場景中仍然是未來研究中需要長期追求的目標。