王法強(qiáng), 張宏志, 王 鵬, 鄧 紅, 張大鵬
(1 哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001; 2 東北農(nóng)業(yè)大學(xué) 理學(xué)院, 哈爾濱 150030)
相似度學(xué)習(xí)是計(jì)算機(jī)視覺(jué)中的一類重要方法,該方法通過(guò)在訓(xùn)練集中學(xué)習(xí)相似度(或距離)度量,使得同類別樣本之間的相似度提高(或距離減小),不同類別樣本之間的相似度降低(或距離增大)。相似度學(xué)習(xí)可以被嵌入到很多機(jī)器學(xué)習(xí)方法中,如k近鄰分類、k均值聚類等。相似度度量學(xué)習(xí)已經(jīng)應(yīng)用于很多計(jì)算機(jī)視覺(jué)問(wèn)題中,如人臉識(shí)別[1-2]、行人識(shí)別[3-5]和圖像檢索[6-7]等。對(duì)于不同的應(yīng)用場(chǎng)景和不同的數(shù)據(jù)分布,從已有的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)合適的相似度度量,已經(jīng)成為了計(jì)算機(jī)視覺(jué)中一個(gè)活躍的研究領(lǐng)域。一個(gè)好的相似度度量可以很大程度上提升計(jì)算機(jī)視覺(jué)應(yīng)用的實(shí)際效果。
近年來(lái),隨著應(yīng)用領(lǐng)域新需求的產(chǎn)生,數(shù)據(jù)規(guī)模的增大,以及數(shù)據(jù)來(lái)源的多樣化,由相似度學(xué)習(xí)問(wèn)題即衍生了一系列新的研究領(lǐng)域。本文首先探討了相似度的表示方式和傳統(tǒng)的典型相似度學(xué)習(xí)方法,然后綜述了近年來(lái)相似度學(xué)習(xí)方法的研究進(jìn)展和發(fā)展過(guò)程,最后展望未來(lái)相似度學(xué)習(xí)方法可能的研究領(lǐng)域和發(fā)展方向。
在目前的相似度學(xué)習(xí)方法中,大部分方法使用基于馬氏距離或歐氏距離來(lái)表示圖像之間的相似度,圖像之間的距離越大,相似度越小,反之亦然。
對(duì)于基于馬氏距離的相似度學(xué)習(xí)方法,給定2個(gè)樣本x和y,樣本之間的馬氏距離定義為:
(1)
其中,M為距離度量矩陣,為了滿足馬氏距離的非負(fù)性,M應(yīng)當(dāng)為半正定矩陣。
雖然傳統(tǒng)的馬氏距離度量學(xué)習(xí)方法可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)距離度量,但是這些方法一般基于人工設(shè)計(jì)的樣本特征,無(wú)法突破人工設(shè)計(jì)的特征對(duì)模型效果造成的瓶頸。由于近年來(lái)基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在圖像分類、人臉識(shí)別、目標(biāo)檢測(cè)和目標(biāo)跟蹤等領(lǐng)域取得了標(biāo)志性重大進(jìn)展,很多學(xué)者將相似度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合,研發(fā)了一系列深度相似度學(xué)習(xí)方法。這些方法通過(guò)聯(lián)合學(xué)習(xí)圖像的深度特征與相似度度量,取得了比基于人工設(shè)計(jì)的特征的相似度學(xué)習(xí)更好的效果。
在深度相似度學(xué)習(xí)方法中,研究通過(guò)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)并提取圖像x和y的特征,分別表示為f(x)和f(y),所以樣本x和y之間的相似度可以使用圖像特征f(x)和f(y)的歐氏距離表示如下:
(2)
除了公式(1)和(2)所示的相似度函數(shù)外,還有如余弦相似度、卡方距離等相似度函數(shù)均已在相似度學(xué)習(xí)方法中獲得了成功使用。
自從距離度量學(xué)習(xí)問(wèn)題由Xing等人[8]提出以來(lái),眾多學(xué)者發(fā)展了一系列方法來(lái)學(xué)習(xí)以上形式的相似度度量。根據(jù)約束形式的不同,大多數(shù)相似度學(xué)習(xí)方法可以分為基于二元組約束的相似度學(xué)習(xí)方法以及基于三元組約束(又稱相對(duì)距離約束或相對(duì)相似度約束)的相似度學(xué)習(xí)方法。本節(jié)將從約束形式的角度對(duì)現(xiàn)有的典型相似度學(xué)習(xí)方法進(jìn)行總結(jié)和回顧。對(duì)此可做闡釋分述如下。
給定訓(xùn)練圖像集,可以建立一系列二元組(x,y),根據(jù)二元組中的2個(gè)樣本是否屬于同一類,就可以將二元組分為同類二元組集合S和異類二元組集合D。對(duì)于集合S和D中的二元組,分析指出研究中需分別滿足下列約束:
s(x,y)≤b+1-ξ(x,y)?(x,y)∈D
s(x,y)≥b-1+ξ(x,y)?(x,y)∈S
(3)
其中,s(x,y)為樣本x和y的相似度,ξ(x,y)為二元組(x,y)對(duì)應(yīng)的非負(fù)松弛變量。
二元組約束的優(yōu)點(diǎn)在于可以將其應(yīng)用于弱監(jiān)督學(xué)習(xí)問(wèn)題,即每個(gè)樣本的類別標(biāo)記未知,僅能獲得每個(gè)二元組為同類二元組或異類二元組的標(biāo)記信息。
在數(shù)學(xué)教學(xué)過(guò)程中,運(yùn)用數(shù)形結(jié)合這種方式進(jìn)行教學(xué)可以將復(fù)雜繁瑣的數(shù)學(xué)知識(shí)變得簡(jiǎn)單易懂。在數(shù)學(xué)知識(shí)以一種簡(jiǎn)單、直觀的方式呈現(xiàn)給學(xué)生,便于學(xué)生進(jìn)行理解和記憶。同時(shí)采用這種學(xué)習(xí)方法也可以幫助學(xué)生們更好學(xué)會(huì)轉(zhuǎn)換思維,便于學(xué)生在面對(duì)一道道復(fù)雜無(wú)比的題目時(shí)能輕松應(yīng)對(duì),例如面對(duì)一道難題時(shí),學(xué)生可以首先對(duì)這道數(shù)學(xué)題的條件進(jìn)行深入的研究,進(jìn)而找到題目考察的方向,最終找到難題的切入點(diǎn)而快速準(zhǔn)確的解題。在解題過(guò)程中除了增加學(xué)生們學(xué)習(xí)數(shù)學(xué)的自信外,也間接的提高了學(xué)生們的思維能力,通過(guò)這個(gè)過(guò)程的不斷應(yīng)用和重復(fù),學(xué)生們思維將會(huì)變得更加靈敏。
對(duì)于馬氏距離度量學(xué)習(xí)方法,Xing等人[8]通過(guò)最小化同類二元組的距離,并且約束異類二元組的距離大于給定閾值,從而將距離度量學(xué)習(xí)構(gòu)造為一個(gè)凸優(yōu)化問(wèn)題。Davis等人[9]提出了一種基于信息論的度量學(xué)習(xí)方法,該方法在滿足二元組約束的同時(shí),通過(guò)引入度量矩陣的先驗(yàn)矩陣,由此求得了最小化度量矩陣與先驗(yàn)矩陣的KL散度,從而使得度量矩陣和先驗(yàn)矩陣盡可能接近。
對(duì)于深度相似度學(xué)習(xí)方法,Sun等人[10]將二元組約束構(gòu)造為對(duì)比損失(ContrastiveLoss)函數(shù),并將其與Softmax損失結(jié)合,提出了一種深度相似度學(xué)習(xí)方法,再將其應(yīng)用于人臉驗(yàn)證問(wèn)題,在LFW數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了99.15%。Lin等人[11]提出了一種泛化的相似度函數(shù),并且同樣使用二元組損失函數(shù)對(duì)相似度和深度網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),而后則將該方法應(yīng)用于跨域匹配問(wèn)題。
基于三元組約束的相似度學(xué)習(xí)方法對(duì)訓(xùn)練集建立一系列的三元組約束,對(duì)于三元組(x,y,z),其中x和y類別相同,x與z類別不同,則該三元組應(yīng)當(dāng)建立以下約束:
d(x,z)-d(x,y)≥1-ξ(x, y, z)
(4)
該類約束使得每個(gè)樣本在與同類樣本和異類樣本的距離對(duì)比中,其與同類樣本的距離更近。其優(yōu)點(diǎn)在于可以應(yīng)用于排序(Ranking)問(wèn)題(如圖像檢索)。在該問(wèn)題中,研究中只有參考圖像與查詢圖像的相對(duì)相似度排序信息,而沒(méi)有每個(gè)圖像的類別信息,在這種情況下三元組約束就可以得到有效應(yīng)用。
在馬氏距離度量學(xué)習(xí)方法中,典型的基于三元組約束的方法、如大間隔最近鄰方法則是由Weinberger等人于2009年提出[12],設(shè)計(jì)上即通過(guò)最大化每個(gè)樣本與其同類樣本和不同類樣本的距離間隔來(lái)學(xué)習(xí)距離度量。Parameswaran等人[13]將該方法擴(kuò)展到多任務(wù)學(xué)習(xí)問(wèn)題上。Kedem等人[14]還將該方法延拓至卡方距離等非線性距離度量的學(xué)習(xí)研究中。
在深度相似度學(xué)習(xí)方法中,Schroff等人[2]提出了FaceNet模型。該模型將三元組約束構(gòu)造為損失函數(shù)的形式,再將其與深度卷積網(wǎng)絡(luò)結(jié)合,旨在進(jìn)行深度相似度學(xué)習(xí),最終該模型在人臉驗(yàn)證中取得了突出的效果。Ding等人[15]同樣使用三元組約束學(xué)習(xí)深度相似度,也將其應(yīng)用于行人識(shí)別問(wèn)題。Zhang等人[6]使用海明貼近度(Hamming affinity)作為相似度函數(shù),又通過(guò)三元組約束構(gòu)造鉸鏈損失,隨后就可展開(kāi)圖像的哈希編碼學(xué)習(xí)。
近年來(lái),隨著計(jì)算機(jī)視覺(jué)的應(yīng)用需求以及視覺(jué)數(shù)據(jù)來(lái)源的多樣化,對(duì)相似度學(xué)習(xí)模型的要求也在逐步提高。針對(duì)這種現(xiàn)狀,研究人員相繼推出了一系列新的相似度學(xué)習(xí)方法,這些方法的創(chuàng)新點(diǎn)包括新型距離(相似度)表示、新型相似度約束、圖像集之間的相似度學(xué)習(xí),以及跨模態(tài)的相似度學(xué)習(xí)等?;诖?,本節(jié)將闡述近年來(lái)相似度學(xué)習(xí)方法的發(fā)展過(guò)程和研究進(jìn)展。研究?jī)?nèi)容詳見(jiàn)如下。
在傳統(tǒng)的距離度量學(xué)習(xí)與深度相似度學(xué)習(xí)中,一般采用公式(1)和(2)所示的馬氏距離或深度特征的歐氏距離來(lái)表示樣本間的相似度。除了這2種方式以外,研究人員還根據(jù)不同的應(yīng)用場(chǎng)景或需求構(gòu)造了其它類型的相似度函數(shù)。Chen等人[16]提出了一種聯(lián)合貝葉斯方法,該方法使用2個(gè)樣本屬于不同類和同類的概率比值作為2個(gè)樣本是否同類決策函數(shù),并且分析該函數(shù)相當(dāng)于馬氏距離與2個(gè)樣本交叉內(nèi)積項(xiàng)的組合。Li等人[17]在馬氏距離中引入了二階函數(shù)表示的自適應(yīng)閾值,從而將馬氏距離擴(kuò)展為預(yù)測(cè)2個(gè)樣本是否同類的二階決策函數(shù)。Li等人[18]將馬氏距離與余弦相似度進(jìn)行結(jié)合,構(gòu)造了一種新的相似度函數(shù),并且基于三元組約束設(shè)計(jì)了聯(lián)合優(yōu)化距離與相似度度量的方法。Lin等人[11]通過(guò)將傳統(tǒng)馬氏距離中的線性投影擴(kuò)展到仿射變換,并且將馬氏距離與余弦相似度結(jié)合,定義了一種通用相似度度量,該項(xiàng)工作還將該相似度與深度網(wǎng)絡(luò)結(jié)合,提出了一種深度相似度學(xué)習(xí)方法。Wang等人[19]將單圖像特征的歐氏距離和圖像對(duì)特征的二值分類輸出作為判斷圖像對(duì)是否同類的決策函數(shù),并將兩者進(jìn)行結(jié)合構(gòu)造了一種包含單圖像特征和圖像對(duì)特征的新型相似度函數(shù)。
傳統(tǒng)的相似度學(xué)習(xí)方法一般通過(guò)在優(yōu)化問(wèn)題中引入二元組約束或三元組約束來(lái)學(xué)習(xí)相似度度量。近年來(lái),研究人員針對(duì)相似度學(xué)習(xí)發(fā)表了一系列新型相似度約束的成果。Chen等人[20]將三元組約束進(jìn)行擴(kuò)展,提出了四元組相似度損失函數(shù),并將其與深度網(wǎng)絡(luò)進(jìn)行結(jié)合,即使得四元組中2個(gè)同類樣本的深度相似度高于2個(gè)異類樣本的深度相似度。Wang等人[21]對(duì)三元組損失函數(shù)加以改進(jìn),通過(guò)約束三元組中負(fù)樣本點(diǎn)與其它2個(gè)樣本構(gòu)成的角度小于給定閾值構(gòu)造了角度損失(Angular loss)。Song等人[22]提出了一種新的度量學(xué)習(xí)框架,該框架通過(guò)優(yōu)化聚類質(zhì)量度量NMI構(gòu)造損失函數(shù)。
傳統(tǒng)的相似度學(xué)習(xí)方法一般對(duì)2張圖像之間的相似度進(jìn)行學(xué)習(xí)。然而在一些計(jì)算機(jī)視覺(jué)問(wèn)題中,研究常常是將一組同一類別的圖像看作一個(gè)圖像集,并希望準(zhǔn)確度量圖像和圖像集之間的相似度,以及2個(gè)圖像集之間的相似度,如圖像-視頻匹配、視頻-視頻匹配等。因而需要繼續(xù)加強(qiáng)與圖像集相關(guān)的相似度學(xué)習(xí)方法的深入探究與開(kāi)發(fā)。研究可知,其關(guān)鍵問(wèn)題在于如何表示圖像集,以及如何表示圖像樣本點(diǎn)到圖像集之間以及2個(gè)圖像集之間的相似度。
Zhu等人[23]提出了一種樣本點(diǎn)-集合和集合-集合距離度量學(xué)習(xí)方法,該方法使用仿射包表示圖像集,并基于此將圖像樣本點(diǎn)到圖像集之間的距離定義為樣本點(diǎn)到圖像集仿射包中最近點(diǎn)的距離,將2個(gè)圖像集之間的距離定義為2個(gè)相應(yīng)仿射包的最近點(diǎn)的距離。Wang等人[24]用流形表示圖像集,而且將流形表示為一組局部線性子空間,并基于此構(gòu)建了樣本點(diǎn)、子空間和流形之間的距離度量學(xué)習(xí)框架。Lu等人[25]將圖像集同樣表示為流形,并通過(guò)深度網(wǎng)絡(luò)學(xué)習(xí)非線性投影,再將每個(gè)流形投影到公共子空間中,而后計(jì)算求出其距離。Huang等人[26]針對(duì)樣本點(diǎn)到集合的匹配問(wèn)題,提出了歐幾里得-黎曼距離度量,該方法將圖像集合表示為黎曼流形,然后將其嵌入到高維希爾伯特空間中,最后將樣本集所在的希爾伯特空間和樣本點(diǎn)所在的歐幾里得空間投影至相同的歐幾里得子空間中,并計(jì)算投影后樣本點(diǎn)和樣本集之間的距離。
傳統(tǒng)的相似度學(xué)習(xí)方法一般只針對(duì)單一模態(tài),例如自然圖像之間的相似度學(xué)習(xí)、素描圖像之間的相似度學(xué)習(xí)、文本之間的相似度學(xué)習(xí)等,然而傳統(tǒng)方法不能處理一些跨模態(tài)匹配的應(yīng)用場(chǎng)景,如自然圖像與素描圖像匹配、圖像與文本匹配等。
針對(duì)這些新型應(yīng)用場(chǎng)景,研究人員通過(guò)將單一模態(tài)的相似度學(xué)習(xí)擴(kuò)展到跨模態(tài)相似度學(xué)習(xí),提出了一系列解決方法。這些方法可以分為2類,對(duì)其中的每一部分可給出研究表述如下。
一類是基于跨模態(tài)樣本生成的方法,即通過(guò)將其中一個(gè)模態(tài)的樣本轉(zhuǎn)換為另一模態(tài),使得2個(gè)樣本模態(tài)相同,然后對(duì)2個(gè)樣本進(jìn)行匹配,如Zhang等人[27]針對(duì)人臉-素描圖像匹配問(wèn)題,通過(guò)全卷積網(wǎng)絡(luò)將人臉圖像生成對(duì)應(yīng)的偽素描圖像,再將其與素描圖像進(jìn)行匹配。
另一類是基于特征學(xué)習(xí)的方法,這種方法一般尋找一個(gè)公共子空間,在此基礎(chǔ)上學(xué)習(xí)不同模態(tài)的樣本到該子空間的投影,并在公共子空間中學(xué)習(xí)不同模態(tài)樣本之間的距離。如Liong等人[28]提出了深度耦合度量學(xué)習(xí)(Deep Coupled Metric Learning, DCML)方法,通過(guò)學(xué)習(xí)2個(gè)深度網(wǎng)絡(luò),將2個(gè)模態(tài)的樣本非線性變換到公共空間,并最大化類間散度、最小化類內(nèi)散度。Bronstein等人[29]提出了一種跨模態(tài)相似度學(xué)習(xí)框架,將不同模態(tài)的樣本投影到公共的海明(Hamming)空間中,通過(guò)Boosting算法學(xué)習(xí)這種投影,再通過(guò)這種投影參數(shù)化相似度度量。
相似度學(xué)習(xí)是計(jì)算機(jī)視覺(jué)中的一類重要方法。本文從相似度的表示和相似度的約束兩方面回顧了現(xiàn)有的典型相似度學(xué)習(xí)方法,并且整體分析了近年來(lái)相似度學(xué)習(xí)的發(fā)展過(guò)程與研究進(jìn)展。對(duì)于相似度學(xué)習(xí)方法的未來(lái)走向,可以從應(yīng)用領(lǐng)域和訓(xùn)練方法等方面對(duì)現(xiàn)有的相似度學(xué)習(xí)方法進(jìn)行擴(kuò)展,或提出新的相似度學(xué)習(xí)方法。例如,在有些計(jì)算機(jī)視覺(jué)應(yīng)用中,2個(gè)自然圖像之間往往存在非常復(fù)雜的對(duì)應(yīng)關(guān)系,如何設(shè)計(jì)更符合樣本圖像以及網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)的新型相似度(或距離)函數(shù)對(duì)圖像的對(duì)應(yīng)關(guān)系建模即已成為目前亟待解決的熱點(diǎn)問(wèn)題。此外,由于深度網(wǎng)絡(luò)的高度非凸性,使得二元組或三元組的選取變得更加重要。所以設(shè)計(jì)一種能夠隨著訓(xùn)練的逐層推進(jìn),從訓(xùn)練集中自適應(yīng)地選取二元組(或三元組)的方式,也可以在識(shí)別效果和訓(xùn)練效率方面起到較大的作用。