計(jì)算機(jī)視覺(jué)中相似度學(xué)習(xí)方法的研究進(jìn)展

2019-11-26 22:47:12王法強(qiáng)張宏志張大鵬

智能計(jì)算機(jī)與應(yīng)用 2019年1期

王法強(qiáng)，張宏志，王鵬，鄧紅，張大鵬

(1 哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，哈爾濱 150001； 2 東北農(nóng)業(yè)大學(xué) 理學(xué)院，哈爾濱 150030)

0 引言

相似度學(xué)習(xí)是計(jì)算機(jī)視覺(jué)中的一類重要方法，該方法通過(guò)在訓(xùn)練集中學(xué)習(xí)相似度(或距離)度量，使得同類別樣本之間的相似度提高(或距離減小)，不同類別樣本之間的相似度降低(或距離增大)。相似度學(xué)習(xí)可以被嵌入到很多機(jī)器學(xué)習(xí)方法中，如k近鄰分類、k均值聚類等。相似度度量學(xué)習(xí)已經(jīng)應(yīng)用于很多計(jì)算機(jī)視覺(jué)問(wèn)題中，如人臉識(shí)別[1-2]、行人識(shí)別[3-5]和圖像檢索[6-7]等。對(duì)于不同的應(yīng)用場(chǎng)景和不同的數(shù)據(jù)分布，從已有的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)合適的相似度度量，已經(jīng)成為了計(jì)算機(jī)視覺(jué)中一個(gè)活躍的研究領(lǐng)域。一個(gè)好的相似度度量可以很大程度上提升計(jì)算機(jī)視覺(jué)應(yīng)用的實(shí)際效果。

近年來(lái)，隨著應(yīng)用領(lǐng)域新需求的產(chǎn)生，數(shù)據(jù)規(guī)模的增大，以及數(shù)據(jù)來(lái)源的多樣化，由相似度學(xué)習(xí)問(wèn)題即衍生了一系列新的研究領(lǐng)域。本文首先探討了相似度的表示方式和傳統(tǒng)的典型相似度學(xué)習(xí)方法，然后綜述了近年來(lái)相似度學(xué)習(xí)方法的研究進(jìn)展和發(fā)展過(guò)程，最后展望未來(lái)相似度學(xué)習(xí)方法可能的研究領(lǐng)域和發(fā)展方向。

1 相似度的表示

在目前的相似度學(xué)習(xí)方法中，大部分方法使用基于馬氏距離或歐氏距離來(lái)表示圖像之間的相似度，圖像之間的距離越大，相似度越小，反之亦然。

對(duì)于基于馬氏距離的相似度學(xué)習(xí)方法，給定2個(gè)樣本x和y，樣本之間的馬氏距離定義為：

(1)

其中，M為距離度量矩陣，為了滿足馬氏距離的非負(fù)性，M應(yīng)當(dāng)為半正定矩陣。

雖然傳統(tǒng)的馬氏距離度量學(xué)習(xí)方法可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)距離度量，但是這些方法一般基于人工設(shè)計(jì)的樣本特征，無(wú)法突破人工設(shè)計(jì)的特征對(duì)模型效果造成的瓶頸。由于近年來(lái)基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在圖像分類、人臉識(shí)別、目標(biāo)檢測(cè)和目標(biāo)跟蹤等領(lǐng)域取得了標(biāo)志性重大進(jìn)展，很多學(xué)者將相似度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合，研發(fā)了一系列深度相似度學(xué)習(xí)方法。這些方法通過(guò)聯(lián)合學(xué)習(xí)圖像的深度特征與相似度度量，取得了比基于人工設(shè)計(jì)的特征的相似度學(xué)習(xí)更好的效果。

在深度相似度學(xué)習(xí)方法中，研究通過(guò)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)并提取圖像x和y的特征，分別表示為f(x)和f(y)，所以樣本x和y之間的相似度可以使用圖像特征f(x)和f(y)的歐氏距離表示如下：

(2)

除了公式(1)和(2)所示的相似度函數(shù)外，還有如余弦相似度、卡方距離等相似度函數(shù)均已在相似度學(xué)習(xí)方法中獲得了成功使用。

2 典型相似度學(xué)習(xí)方法回顧

自從距離度量學(xué)習(xí)問(wèn)題由Xing等人[8]提出以來(lái)，眾多學(xué)者發(fā)展了一系列方法來(lái)學(xué)習(xí)以上形式的相似度度量。根據(jù)約束形式的不同，大多數(shù)相似度學(xué)習(xí)方法可以分為基于二元組約束的相似度學(xué)習(xí)方法以及基于三元組約束(又稱相對(duì)距離約束或相對(duì)相似度約束)的相似度學(xué)習(xí)方法。本節(jié)將從約束形式的角度對(duì)現(xiàn)有的典型相似度學(xué)習(xí)方法進(jìn)行總結(jié)和回顧。對(duì)此可做闡釋分述如下。

2.1 基于二元組約束的相似度學(xué)習(xí)方法

給定訓(xùn)練圖像集，可以建立一系列二元組(x,y)，根據(jù)二元組中的2個(gè)樣本是否屬于同一類，就可以將二元組分為同類二元組集合S和異類二元組集合D。對(duì)于集合S和D中的二元組，分析指出研究中需分別滿足下列約束：

s(x,y)≤b+1-ξ(x,y)?(x,y)∈D

s(x,y)≥b-1+ξ(x,y)?(x,y)∈S

(3)

其中，s(x,y)為樣本x和y的相似度，ξ(x,y)為二元組(x,y)對(duì)應(yīng)的非負(fù)松弛變量。

二元組約束的優(yōu)點(diǎn)在于可以將其應(yīng)用于弱監(jiān)督學(xué)習(xí)問(wèn)題，即每個(gè)樣本的類別標(biāo)記未知，僅能獲得每個(gè)二元組為同類二元組或異類二元組的標(biāo)記信息。

在數(shù)學(xué)教學(xué)過(guò)程中，運(yùn)用數(shù)形結(jié)合這種方式進(jìn)行教學(xué)可以將復(fù)雜繁瑣的數(shù)學(xué)知識(shí)變得簡(jiǎn)單易懂。在數(shù)學(xué)知識(shí)以一種簡(jiǎn)單、直觀的方式呈現(xiàn)給學(xué)生，便于學(xué)生進(jìn)行理解和記憶。同時(shí)采用這種學(xué)習(xí)方法也可以幫助學(xué)生們更好學(xué)會(huì)轉(zhuǎn)換思維，便于學(xué)生在面對(duì)一道道復(fù)雜無(wú)比的題目時(shí)能輕松應(yīng)對(duì)，例如面對(duì)一道難題時(shí)，學(xué)生可以首先對(duì)這道數(shù)學(xué)題的條件進(jìn)行深入的研究，進(jìn)而找到題目考察的方向，最終找到難題的切入點(diǎn)而快速準(zhǔn)確的解題。在解題過(guò)程中除了增加學(xué)生們學(xué)習(xí)數(shù)學(xué)的自信外，也間接的提高了學(xué)生們的思維能力，通過(guò)這個(gè)過(guò)程的不斷應(yīng)用和重復(fù)，學(xué)生們思維將會(huì)變得更加靈敏。

對(duì)于馬氏距離度量學(xué)習(xí)方法，Xing等人[8]通過(guò)最小化同類二元組的距離，并且約束異類二元組的距離大于給定閾值，從而將距離度量學(xué)習(xí)構(gòu)造為一個(gè)凸優(yōu)化問(wèn)題。Davis等人[9]提出了一種基于信息論的度量學(xué)習(xí)方法，該方法在滿足二元組約束的同時(shí)，通過(guò)引入度量矩陣的先驗(yàn)矩陣，由此求得了最小化度量矩陣與先驗(yàn)矩陣的KL散度，從而使得度量矩陣和先驗(yàn)矩陣盡可能接近。

對(duì)于深度相似度學(xué)習(xí)方法，Sun等人[10]將二元組約束構(gòu)造為對(duì)比損失(ContrastiveLoss)函數(shù)，并將其與Softmax損失結(jié)合，提出了一種深度相似度學(xué)習(xí)方法，再將其應(yīng)用于人臉驗(yàn)證問(wèn)題，在LFW數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了99.15%。Lin等人[11]提出了一種泛化的相似度函數(shù)，并且同樣使用二元組損失函數(shù)對(duì)相似度和深度網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)，而后則將該方法應(yīng)用于跨域匹配問(wèn)題。

2.2 基于三元組約束的相似度學(xué)習(xí)方法

基于三元組約束的相似度學(xué)習(xí)方法對(duì)訓(xùn)練集建立一系列的三元組約束，對(duì)于三元組(x,y,z)，其中x和y類別相同，x與z類別不同，則該三元組應(yīng)當(dāng)建立以下約束：

d(x,z)-d(x,y)≥1-ξ(x, y, z)

(4)

該類約束使得每個(gè)樣本在與同類樣本和異類樣本的距離對(duì)比中，其與同類樣本的距離更近。其優(yōu)點(diǎn)在于可以應(yīng)用于排序(Ranking)問(wèn)題(如圖像檢索)。在該問(wèn)題中，研究中只有參考圖像與查詢圖像的相對(duì)相似度排序信息，而沒(méi)有每個(gè)圖像的類別信息，在這種情況下三元組約束就可以得到有效應(yīng)用。

在馬氏距離度量學(xué)習(xí)方法中，典型的基于三元組約束的方法、如大間隔最近鄰方法則是由Weinberger等人于2009年提出[12]，設(shè)計(jì)上即通過(guò)最大化每個(gè)樣本與其同類樣本和不同類樣本的距離間隔來(lái)學(xué)習(xí)距離度量。Parameswaran等人[13]將該方法擴(kuò)展到多任務(wù)學(xué)習(xí)問(wèn)題上。Kedem等人[14]還將該方法延拓至卡方距離等非線性距離度量的學(xué)習(xí)研究中。

在深度相似度學(xué)習(xí)方法中，Schroff等人[2]提出了FaceNet模型。該模型將三元組約束構(gòu)造為損失函數(shù)的形式，再將其與深度卷積網(wǎng)絡(luò)結(jié)合，旨在進(jìn)行深度相似度學(xué)習(xí)，最終該模型在人臉驗(yàn)證中取得了突出的效果。Ding等人[15]同樣使用三元組約束學(xué)習(xí)深度相似度，也將其應(yīng)用于行人識(shí)別問(wèn)題。Zhang等人[6]使用海明貼近度(Hamming affinity)作為相似度函數(shù)，又通過(guò)三元組約束構(gòu)造鉸鏈損失，隨后就可展開(kāi)圖像的哈希編碼學(xué)習(xí)。

3 相似度學(xué)習(xí)方法的近期發(fā)展

近年來(lái)，隨著計(jì)算機(jī)視覺(jué)的應(yīng)用需求以及視覺(jué)數(shù)據(jù)來(lái)源的多樣化，對(duì)相似度學(xué)習(xí)模型的要求也在逐步提高。針對(duì)這種現(xiàn)狀，研究人員相繼推出了一系列新的相似度學(xué)習(xí)方法，這些方法的創(chuàng)新點(diǎn)包括新型距離(相似度)表示、新型相似度約束、圖像集之間的相似度學(xué)習(xí)，以及跨模態(tài)的相似度學(xué)習(xí)等?；诖?，本節(jié)將闡述近年來(lái)相似度學(xué)習(xí)方法的發(fā)展過(guò)程和研究進(jìn)展。研究?jī)?nèi)容詳見(jiàn)如下。

3.1 從歐氏距離和馬氏距離到新型距離(相似度)表示

在傳統(tǒng)的距離度量學(xué)習(xí)與深度相似度學(xué)習(xí)中，一般采用公式(1)和(2)所示的馬氏距離或深度特征的歐氏距離來(lái)表示樣本間的相似度。除了這2種方式以外，研究人員還根據(jù)不同的應(yīng)用場(chǎng)景或需求構(gòu)造了其它類型的相似度函數(shù)。Chen等人[16]提出了一種聯(lián)合貝葉斯方法，該方法使用2個(gè)樣本屬于不同類和同類的概率比值作為2個(gè)樣本是否同類決策函數(shù)，并且分析該函數(shù)相當(dāng)于馬氏距離與2個(gè)樣本交叉內(nèi)積項(xiàng)的組合。Li等人[17]在馬氏距離中引入了二階函數(shù)表示的自適應(yīng)閾值，從而將馬氏距離擴(kuò)展為預(yù)測(cè)2個(gè)樣本是否同類的二階決策函數(shù)。Li等人[18]將馬氏距離與余弦相似度進(jìn)行結(jié)合，構(gòu)造了一種新的相似度函數(shù)，并且基于三元組約束設(shè)計(jì)了聯(lián)合優(yōu)化距離與相似度度量的方法。Lin等人[11]通過(guò)將傳統(tǒng)馬氏距離中的線性投影擴(kuò)展到仿射變換，并且將馬氏距離與余弦相似度結(jié)合，定義了一種通用相似度度量，該項(xiàng)工作還將該相似度與深度網(wǎng)絡(luò)結(jié)合，提出了一種深度相似度學(xué)習(xí)方法。Wang等人[19]將單圖像特征的歐氏距離和圖像對(duì)特征的二值分類輸出作為判斷圖像對(duì)是否同類的決策函數(shù)，并將兩者進(jìn)行結(jié)合構(gòu)造了一種包含單圖像特征和圖像對(duì)特征的新型相似度函數(shù)。

3.2 從傳統(tǒng)約束到新型約束

傳統(tǒng)的相似度學(xué)習(xí)方法一般通過(guò)在優(yōu)化問(wèn)題中引入二元組約束或三元組約束來(lái)學(xué)習(xí)相似度度量。近年來(lái)，研究人員針對(duì)相似度學(xué)習(xí)發(fā)表了一系列新型相似度約束的成果。Chen等人[20]將三元組約束進(jìn)行擴(kuò)展，提出了四元組相似度損失函數(shù)，并將其與深度網(wǎng)絡(luò)進(jìn)行結(jié)合，即使得四元組中2個(gè)同類樣本的深度相似度高于2個(gè)異類樣本的深度相似度。Wang等人[21]對(duì)三元組損失函數(shù)加以改進(jìn)，通過(guò)約束三元組中負(fù)樣本點(diǎn)與其它2個(gè)樣本構(gòu)成的角度小于給定閾值構(gòu)造了角度損失(Angular loss)。Song等人[22]提出了一種新的度量學(xué)習(xí)框架，該框架通過(guò)優(yōu)化聚類質(zhì)量度量NMI構(gòu)造損失函數(shù)。

3.3 從圖像之間的相似度學(xué)習(xí)到圖像集之間的相似度學(xué)習(xí)

傳統(tǒng)的相似度學(xué)習(xí)方法一般對(duì)2張圖像之間的相似度進(jìn)行學(xué)習(xí)。然而在一些計(jì)算機(jī)視覺(jué)問(wèn)題中，研究常常是將一組同一類別的圖像看作一個(gè)圖像集，并希望準(zhǔn)確度量圖像和圖像集之間的相似度，以及2個(gè)圖像集之間的相似度，如圖像-視頻匹配、視頻-視頻匹配等。因而需要繼續(xù)加強(qiáng)與圖像集相關(guān)的相似度學(xué)習(xí)方法的深入探究與開(kāi)發(fā)。研究可知，其關(guān)鍵問(wèn)題在于如何表示圖像集，以及如何表示圖像樣本點(diǎn)到圖像集之間以及2個(gè)圖像集之間的相似度。

Zhu等人[23]提出了一種樣本點(diǎn)-集合和集合-集合距離度量學(xué)習(xí)方法，該方法使用仿射包表示圖像集，并基于此將圖像樣本點(diǎn)到圖像集之間的距離定義為樣本點(diǎn)到圖像集仿射包中最近點(diǎn)的距離，將2個(gè)圖像集之間的距離定義為2個(gè)相應(yīng)仿射包的最近點(diǎn)的距離。Wang等人[24]用流形表示圖像集，而且將流形表示為一組局部線性子空間，并基于此構(gòu)建了樣本點(diǎn)、子空間和流形之間的距離度量學(xué)習(xí)框架。Lu等人[25]將圖像集同樣表示為流形，并通過(guò)深度網(wǎng)絡(luò)學(xué)習(xí)非線性投影，再將每個(gè)流形投影到公共子空間中，而后計(jì)算求出其距離。Huang等人[26]針對(duì)樣本點(diǎn)到集合的匹配問(wèn)題，提出了歐幾里得-黎曼距離度量，該方法將圖像集合表示為黎曼流形，然后將其嵌入到高維希爾伯特空間中，最后將樣本集所在的希爾伯特空間和樣本點(diǎn)所在的歐幾里得空間投影至相同的歐幾里得子空間中，并計(jì)算投影后樣本點(diǎn)和樣本集之間的距離。

3.4 從單一模態(tài)相似度學(xué)習(xí)到跨模態(tài)相似度學(xué)習(xí)

傳統(tǒng)的相似度學(xué)習(xí)方法一般只針對(duì)單一模態(tài)，例如自然圖像之間的相似度學(xué)習(xí)、素描圖像之間的相似度學(xué)習(xí)、文本之間的相似度學(xué)習(xí)等，然而傳統(tǒng)方法不能處理一些跨模態(tài)匹配的應(yīng)用場(chǎng)景，如自然圖像與素描圖像匹配、圖像與文本匹配等。

針對(duì)這些新型應(yīng)用場(chǎng)景，研究人員通過(guò)將單一模態(tài)的相似度學(xué)習(xí)擴(kuò)展到跨模態(tài)相似度學(xué)習(xí)，提出了一系列解決方法。這些方法可以分為2類，對(duì)其中的每一部分可給出研究表述如下。

一類是基于跨模態(tài)樣本生成的方法，即通過(guò)將其中一個(gè)模態(tài)的樣本轉(zhuǎn)換為另一模態(tài)，使得2個(gè)樣本模態(tài)相同，然后對(duì)2個(gè)樣本進(jìn)行匹配，如Zhang等人[27]針對(duì)人臉-素描圖像匹配問(wèn)題，通過(guò)全卷積網(wǎng)絡(luò)將人臉圖像生成對(duì)應(yīng)的偽素描圖像，再將其與素描圖像進(jìn)行匹配。

另一類是基于特征學(xué)習(xí)的方法，這種方法一般尋找一個(gè)公共子空間，在此基礎(chǔ)上學(xué)習(xí)不同模態(tài)的樣本到該子空間的投影，并在公共子空間中學(xué)習(xí)不同模態(tài)樣本之間的距離。如Liong等人[28]提出了深度耦合度量學(xué)習(xí)(Deep Coupled Metric Learning, DCML)方法，通過(guò)學(xué)習(xí)2個(gè)深度網(wǎng)絡(luò)，將2個(gè)模態(tài)的樣本非線性變換到公共空間，并最大化類間散度、最小化類內(nèi)散度。Bronstein等人[29]提出了一種跨模態(tài)相似度學(xué)習(xí)框架，將不同模態(tài)的樣本投影到公共的海明(Hamming)空間中，通過(guò)Boosting算法學(xué)習(xí)這種投影，再通過(guò)這種投影參數(shù)化相似度度量。

4 結(jié)束語(yǔ)

相似度學(xué)習(xí)是計(jì)算機(jī)視覺(jué)中的一類重要方法。本文從相似度的表示和相似度的約束兩方面回顧了現(xiàn)有的典型相似度學(xué)習(xí)方法，并且整體分析了近年來(lái)相似度學(xué)習(xí)的發(fā)展過(guò)程與研究進(jìn)展。對(duì)于相似度學(xué)習(xí)方法的未來(lái)走向，可以從應(yīng)用領(lǐng)域和訓(xùn)練方法等方面對(duì)現(xiàn)有的相似度學(xué)習(xí)方法進(jìn)行擴(kuò)展，或提出新的相似度學(xué)習(xí)方法。例如，在有些計(jì)算機(jī)視覺(jué)應(yīng)用中，2個(gè)自然圖像之間往往存在非常復(fù)雜的對(duì)應(yīng)關(guān)系，如何設(shè)計(jì)更符合樣本圖像以及網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)的新型相似度(或距離)函數(shù)對(duì)圖像的對(duì)應(yīng)關(guān)系建模即已成為目前亟待解決的熱點(diǎn)問(wèn)題。此外，由于深度網(wǎng)絡(luò)的高度非凸性，使得二元組或三元組的選取變得更加重要。所以設(shè)計(jì)一種能夠隨著訓(xùn)練的逐層推進(jìn)，從訓(xùn)練集中自適應(yīng)地選取二元組(或三元組)的方式，也可以在識(shí)別效果和訓(xùn)練效率方面起到較大的作用。