張栩培,賀占莊,馬鐘,楊一岱
(西安微電子技術(shù)研究所,陜西,西安 710068)
目標(biāo)實(shí)例檢測是指在預(yù)存圖像上選擇目標(biāo),在實(shí)時(shí)圖像中檢測出該目標(biāo)及目標(biāo)位置,因此該技術(shù)在景象匹配,視覺導(dǎo)航與定位等領(lǐng)域有著廣泛的應(yīng)用. 目前針對(duì)可見光圖像的實(shí)例識(shí)別算法已有很多. 然而在無人機(jī)視覺導(dǎo)航等實(shí)際應(yīng)用中,基于可見光圖像的目標(biāo)實(shí)例檢測算法受光照影響較大,在夜晚、霧天等缺乏光照的場景下實(shí)時(shí)圖像質(zhì)量無法滿足該類算法的使用條件,而紅外圖像則可以利用熱成像原理克服光照不足的問題. 因此在可見光圖像選取目標(biāo)在紅外圖像進(jìn)行實(shí)例目標(biāo)識(shí)別的異源圖像實(shí)例檢測成為了應(yīng)對(duì)這類應(yīng)用場景的研究熱點(diǎn). 該技術(shù)是無人系統(tǒng)實(shí)現(xiàn)全天候視覺導(dǎo)航的關(guān)鍵,在軍民領(lǐng)域均有著重要的應(yīng)用潛力.
近些年來隨著深度學(xué)習(xí)算法在計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,通過神經(jīng)網(wǎng)絡(luò)提取圖像的不同層級(jí)的特征具有比傳統(tǒng)算法更好的目標(biāo)識(shí)別效果,在異源圖像實(shí)例目標(biāo)識(shí)別領(lǐng)域也出現(xiàn)了像孿生神經(jīng)網(wǎng)絡(luò)[1]等方法,該算法證明了異源圖像在高層級(jí)特征中存在著相似性,但現(xiàn)有的實(shí)驗(yàn)結(jié)果表明基于塊匹配思想的該類方法在視角變換等場景變換情況下目標(biāo)識(shí)別準(zhǔn)確度以及目標(biāo)定位精度上仍存在著比較大的實(shí)用差距. 而LIFT[2],Super-Point[3]基于深度學(xué)習(xí)的特征點(diǎn)匹配算法利用神經(jīng)網(wǎng)絡(luò)也能夠提取出高層次的特征,在可見光的同源圖像上也有了比傳統(tǒng)特征點(diǎn)匹配算法更好的效果,且能夠在視角變換及光照條件不足時(shí)提供比較高的目標(biāo)識(shí)別準(zhǔn)確度以及目標(biāo)定位精度.
但想要實(shí)現(xiàn)異源圖像實(shí)例目標(biāo)檢測仍存在以下問題:1)基于特征點(diǎn)匹配的算法其核心是幾何配準(zhǔn),但由于外觀變化紅外與可見光圖像存在著幾何變化關(guān)系,怎樣將這個(gè)變換關(guān)系得到從而進(jìn)行異源圖像上的特征點(diǎn)進(jìn)行配準(zhǔn)是異源圖像目標(biāo)檢測的基礎(chǔ)問題. 2)基于深度學(xué)習(xí)的特征點(diǎn)匹配算法需要巨大的標(biāo)注工作量無法利用人工完成,如何設(shè)計(jì)一種高效并且能夠獲得異源圖像共有特征來產(chǎn)生訓(xùn)練需要真值的標(biāo)注方法是異源圖像目標(biāo)檢測需要解決的核心問題. 3)特征點(diǎn)匹配任務(wù)需要特征點(diǎn)提取與描述符計(jì)算同步進(jìn)行,因此如何設(shè)計(jì)一個(gè)能夠同步訓(xùn)練特征點(diǎn)提取和描述符計(jì)算的深度學(xué)習(xí)網(wǎng)絡(luò)也是異源圖像目標(biāo)檢測的關(guān)鍵問題.
針對(duì)上述問題,本文設(shè)計(jì)了一種能夠?qū)Ξ愒磮D像特征進(jìn)行自標(biāo)簽的深度學(xué)習(xí)特征點(diǎn)提取與匹配算法從而實(shí)現(xiàn)異源實(shí)例目標(biāo)檢測. 實(shí)驗(yàn)證明本文算法相較于傳統(tǒng)的SIFT算法和基于深度學(xué)習(xí)的特征點(diǎn)匹配算法對(duì)異源圖像的共有特征點(diǎn)有更好的提取匹配效果,對(duì)異源圖像的實(shí)例目標(biāo)檢測成功率也有明顯的提升. 本文算法主要貢獻(xiàn)有:1)通過對(duì)圖像預(yù)處理,得到紅外圖像和可見光圖像間的幾何變換關(guān)系. 構(gòu)建了異源圖像間高層級(jí)特征點(diǎn)映射的基礎(chǔ). 2)通過隨機(jī)仿射變換的方法進(jìn)行數(shù)據(jù)增殖,利用合成圖像上訓(xùn)練的“粗”檢測器對(duì)可見光與紅外圖像提取特征,使算法具有同步提取異源圖像特征的能力,利用特征點(diǎn)重復(fù)性與幾何映射關(guān)系作為跨域特征的篩選方法,將異源圖像上具有映射關(guān)系并重復(fù)出現(xiàn)的特征點(diǎn)作為“偽”標(biāo)簽值從而實(shí)現(xiàn)自標(biāo)簽效果,為后續(xù)的特征點(diǎn)提取與匹配網(wǎng)絡(luò)的迭代訓(xùn)練提供真值. 3)結(jié)合現(xiàn)有深度學(xué)習(xí)算法框架的特點(diǎn)設(shè)計(jì)了一個(gè)能夠?qū)崿F(xiàn)特征點(diǎn)提取和描述符計(jì)算同步訓(xùn)練的網(wǎng)絡(luò)架構(gòu).
基于特征點(diǎn)匹配的識(shí)別算法先通過在圖像數(shù)據(jù)上分別提取特征點(diǎn),并將特征點(diǎn)對(duì)應(yīng)的描述子和特征點(diǎn)在圖像上的位置存儲(chǔ)下來. 只要找到足夠數(shù)量的匹配特征就可以利用基礎(chǔ)矩陣或單應(yīng)性矩陣等幾何配準(zhǔn)算法實(shí)現(xiàn)目標(biāo)識(shí)別[4]. 該類方法在SIFT[5]、SURF、ORB等特征匹配算法以及基于深度學(xué)習(xí)的特征提取算法提出后取得了非常明顯的進(jìn)步. 但是由于紅外和可見光相機(jī)成像原理的差異,使得算法在異源圖像上提取的特征存在差異,而傳統(tǒng)的SIFT等算法并沒有學(xué)習(xí)能力不能自適應(yīng)這種異源圖像特征差異. 基于深度學(xué)習(xí)的特征點(diǎn)提取算法Super-Point可以利用神經(jīng)網(wǎng)絡(luò)提取出高層級(jí)的圖像特征,這些特征也被證明在異源圖像上存在著相似性,進(jìn)而展現(xiàn)出了比傳統(tǒng)算法更高的潛力和更好的目標(biāo)檢測效果. 如圖1所示,即使可以使用SIFT算法在紅外圖像和可見光圖像上提取到不少特征,但這些特征并不能滿足匹配關(guān)系,會(huì)導(dǎo)致出現(xiàn)大量誤匹配或沒有匹配點(diǎn)對(duì). 而基于深度學(xué)習(xí)的Super-Point算法雖然能夠通過神經(jīng)網(wǎng)絡(luò)提取出異源圖像中高層級(jí)的相似特征,但這些特征沒有建立明確的映射關(guān)系,因此匹配的精度較差,甚至?xí)霈F(xiàn)誤匹配,通過上述方法實(shí)現(xiàn)異源圖像實(shí)例目標(biāo)檢測任務(wù)非常困難[6-10].
圖1 SIFT算法和Super-Point算法在RGB-IR圖像的目標(biāo)檢測結(jié)果Fig.1 The instance detection results of SIFT/Super-Point on RGB-IR images
與傳統(tǒng)分類任務(wù)與分割任務(wù)不同,基于深度學(xué)習(xí)的特征點(diǎn)提取匹配算法在獲取訓(xùn)練標(biāo)簽值時(shí)的難度非常大. 其主要原因是圖像特征點(diǎn)主要是依靠灰度值變化來確定,對(duì)于人工標(biāo)注來說不可行,并且圖像特征點(diǎn)往往數(shù)量巨大也不利于人工標(biāo)注. 目前基于深度學(xué)習(xí)的特征點(diǎn)提取算法主要依靠3類方式實(shí)現(xiàn). 1)通過RGBD相機(jī)或SFM(structure from motion)對(duì)具有視角重疊的圖像對(duì)進(jìn)行三維重建,直接或估計(jì)出圖像上各點(diǎn)在空間中的坐標(biāo),利用多視圖幾何計(jì)算出空間點(diǎn)在圖像上的投影,從而設(shè)計(jì)損失函數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練. 這類方法標(biāo)簽值的獲取成本高,標(biāo)簽值的精度依賴于設(shè)備和三維算法的精度. 2)依靠光流追蹤算法實(shí)現(xiàn)標(biāo)簽值獲取,其思想與三維重建方法類似,都需要借助其他算法來尋找圖像對(duì)之間的對(duì)應(yīng)關(guān)系. 3)與被動(dòng)尋找圖像對(duì)之間對(duì)應(yīng)關(guān)系不同,本文所提出的自標(biāo)簽方法是通過主動(dòng)生成隨機(jī)幾何變換矩陣將原圖進(jìn)行變換生成與原圖像具有確定變換關(guān)系的新圖像. 由于原圖像與新圖像之間的變換關(guān)系是已知的,那么在原圖像上的每一個(gè)特征點(diǎn)通過這個(gè)已知的變換矩陣一定在新圖像上會(huì)存在一個(gè)對(duì)應(yīng)的點(diǎn). 因此在訓(xùn)練時(shí)就可以將在原圖上提取到的點(diǎn)視為“偽”標(biāo)簽值,并利用變換矩陣獲得的新圖像上的對(duì)應(yīng)點(diǎn)來設(shè)計(jì)損失函數(shù)完成訓(xùn)練,從而實(shí)現(xiàn)不借助人工標(biāo)注或其他工具的自標(biāo)簽效果.
本文在采集可見光與紅外圖像后采用標(biāo)注求解單應(yīng)性矩陣的方法得到了圖像間的幾何變換關(guān)系,為高層級(jí)共有特征映射關(guān)系建立基礎(chǔ). 其次將自標(biāo)簽技術(shù)擴(kuò)展至異源圖像的應(yīng)用中去. 通過利用深度學(xué)習(xí)算法設(shè)計(jì)一個(gè)粗檢測器,并對(duì)輸入的可見光與紅外數(shù)據(jù)進(jìn)行特征點(diǎn)提取. 利用隨機(jī)單應(yīng)性矩陣對(duì)可見光和紅外圖像進(jìn)行數(shù)據(jù)增殖,再利用粗檢測器對(duì)增殖的數(shù)據(jù)進(jìn)行特征點(diǎn)檢測并記錄特征點(diǎn)的位置,由于可見光與紅外,可見光之間以及紅外圖像間的單應(yīng)性矩陣即仿射變換關(guān)系已知,便可將異源圖像上的共有特征映射到原可見光圖像上進(jìn)行提取預(yù)篩,從而解決了異源圖像共有特征點(diǎn)的提取問題,并將對(duì)異源圖像的自標(biāo)簽結(jié)果作為特征點(diǎn)提取和描述符計(jì)算迭代訓(xùn)練的真值,從最終實(shí)現(xiàn)了異源圖像實(shí)例目標(biāo). 本文算法的整體框架如圖2所示. 針對(duì)網(wǎng)絡(luò)輸入的可見光,將對(duì)應(yīng)的紅外圖像加入到數(shù)據(jù)增殖與自標(biāo)簽過程中獲取可見光與紅外共有的特征點(diǎn)作為后續(xù)訓(xùn)練檢測器和描述子的偽標(biāo)簽.
圖2 本文算法流程圖Fig.2 The algorithm architecture
本文用于訓(xùn)練的異源圖像在采集過程中由于無人機(jī)飛行軌跡差異,以及可見光與紅外相機(jī)內(nèi)參的差異,因此本身圖像就存在著一定的仿射變換. 雖然深度學(xué)習(xí)方法能夠提取出高層級(jí)的特征,但由于這些仿射變換,相似的高層級(jí)特征在圖像上的位置也會(huì)由于上述仿射變換而產(chǎn)生差異. 因此,通過多視幾何求取單應(yīng)性矩陣的方法[6]對(duì)采集圖像進(jìn)行同名點(diǎn)標(biāo)注,計(jì)算出了所有可見光與紅外訓(xùn)練圖像間的單應(yīng)性矩陣,如圖3所示,從而獲得可見光與紅外成對(duì)影像間的仿射變換關(guān)系,為后續(xù)異源圖像之間的特征點(diǎn)映射打下基礎(chǔ).
圖3 利用同名點(diǎn)求解可見光紅外圖像間的變換關(guān)系Hrgb-irFig.3 Using homonymous points to solve the transformation matrix Hrgb-ir
作為自標(biāo)簽以及算法實(shí)現(xiàn)的基礎(chǔ),需要先利用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)一個(gè)特征提取器,并確保這個(gè)特征提取器對(duì)角點(diǎn)特征具有提取能力. 然而對(duì)于任意的圖像很難確定特征點(diǎn)的位置,但是如果圖像上只有線段、三角形、矩形、立方體等規(guī)則形狀的簡單圖形. 那么根據(jù)特征點(diǎn)提取的原理,特征點(diǎn)位置一般都在端點(diǎn)和角點(diǎn)上,這些位置的坐標(biāo)就很好確定了. 因此使用圖形渲染工具生成大量規(guī)則圖形作為特征點(diǎn)檢測器訓(xùn)練的初始數(shù)據(jù),通過記錄上述規(guī)則圖像的角點(diǎn). 就可以利用這些確定位置的特征點(diǎn)作為標(biāo)簽值進(jìn)行特征提取器進(jìn)行訓(xùn)練. 通過將特征點(diǎn)檢測表達(dá)成一個(gè)分類問題,利用卷積神經(jīng)網(wǎng)絡(luò)提取特征后,對(duì)于對(duì)圖片的每個(gè)8×8圖像塊都計(jì)算一個(gè)概率,這個(gè)概率表示的就是其為特征點(diǎn)的可能性大小,前64維對(duì)應(yīng)每個(gè)點(diǎn)是否為關(guān)鍵點(diǎn)的概率,最后一維對(duì)應(yīng)是否存在特征點(diǎn). 經(jīng)過了在合成數(shù)據(jù)上的訓(xùn)練后,便可以得到一個(gè)具有特征點(diǎn)提取能力“粗”特征檢測器. 為了進(jìn)一步提高對(duì)異源圖像共有特征的提取,就需要利用預(yù)處理的異源圖像和自標(biāo)簽技術(shù)來迭代訓(xùn)練這個(gè)“粗”特征檢測器,從而獲得高質(zhì)量的異源圖像特征點(diǎn).
由于異源圖像特征點(diǎn)匹配的根本是要將異源圖像上公共的特征點(diǎn)提取出來,因此本算法的核心工作就是利用自標(biāo)簽方法建立異源圖像之間特征的聯(lián)系從而將公共特征點(diǎn)進(jìn)行提取匹配,從而實(shí)現(xiàn)目標(biāo)匹配. 可見光紅外圖像自標(biāo)簽流程如圖4所示.
圖4 可見光-紅外影像自標(biāo)簽流程Fig.4 Self-labeling on RGB-IR images
在預(yù)處理階段為了提取異源圖像之間的公共特征首先需要建立可見光與紅外圖像之間的聯(lián)系. 已經(jīng)計(jì)算出了可見光與相應(yīng)紅外影像間的單應(yīng)性矩陣Hrgb-ir,得到了圖像對(duì)之間的仿射變換關(guān)系. 結(jié)束對(duì)數(shù)據(jù)集仿射變換關(guān)系的求解后,將可見光圖像作為輸入,利用在合成數(shù)據(jù)集上訓(xùn)練好的特征點(diǎn)檢測器提取特征點(diǎn),利用隨機(jī)生成的單應(yīng)性矩陣對(duì)原本的可見光數(shù)據(jù)進(jìn)行仿射變換以達(dá)到數(shù)據(jù)增殖的效果. 同時(shí)由于在建立數(shù)據(jù)集時(shí)已經(jīng)通過前期處理獲得了可見光-紅外數(shù)據(jù)間的放射變換關(guān)系,那么也可以用同樣的方法對(duì)紅外數(shù)據(jù)進(jìn)行數(shù)據(jù)增殖. 將仿射變換過后的可見光和紅外圖像也通過特征點(diǎn)檢測器提取特征點(diǎn). 由于單應(yīng)性矩陣本身就可以反映二維圖像之間的幾何變換關(guān)系,假設(shè)frgb()為特征點(diǎn)在輸入可見光圖像上的映射關(guān)系,fir()為特征點(diǎn)在對(duì)應(yīng)的紅外圖像上的映射關(guān)系,RGB為輸入的可見光圖像,IR為對(duì)應(yīng)的紅外影像,Hrgb為可見光與可見光增殖數(shù)據(jù)間隨機(jī)生成的單應(yīng)性矩陣 ,Hir為紅外與紅外增殖數(shù)據(jù)間的單應(yīng)性矩陣,x代表提取到的特征點(diǎn). 由此可得
x=frgb(RGB)∪fir(IR)
(1)
根據(jù)計(jì)算機(jī)視覺原理,理想的情況下2D特征點(diǎn)在不同圖像上的形變也是能夠用單應(yīng)性矩陣來表征的,因此可以通過前期獲得的可見光-紅外圖像間的單應(yīng)性矩陣Hrgb-ir以及數(shù)據(jù)增殖時(shí)獲得的隨機(jī)單應(yīng)性矩陣Hrgb及Hir,將可見光增殖數(shù)據(jù)和紅外及紅外增殖數(shù)據(jù)上提取到的特征點(diǎn)映射到原可見光圖像. 換句話說特征點(diǎn)檢測應(yīng)該滿足如下關(guān)系:
Hrgbx=frgb(Hrgb(RGB))∪fir(Hrgb-ir(Hir(IR)))
(2)
將Hrgb左移至等式右側(cè)則有
(3)
然而實(shí)際上,在標(biāo)注Hrgb-ir以及本身“粗”檢測器在可見光與紅外影像上的提取結(jié)果無法完美的滿足公式(3)的等式關(guān)系,因此將通過隨機(jī)變換矩陣來生成新圖像以此來實(shí)現(xiàn)數(shù)據(jù)增殖的目的,并將特征點(diǎn)提取結(jié)果進(jìn)行經(jīng)驗(yàn)求和,最終篩選出在原圖像和生成圖像上重復(fù)出現(xiàn)次數(shù)最多的特征點(diǎn)作為本文自標(biāo)簽結(jié)果. 即特征點(diǎn)檢測器F(·)滿足:
(frgb(Hrgb(RGB))∪fir(Hrgb-ir(Hir-i(IR)))
(4)
如圖5所示,由此實(shí)現(xiàn)了異源圖像間共同特征點(diǎn)自標(biāo)簽的工作,為后面訓(xùn)練最終的特征點(diǎn)檢測器以及描述子提供了訓(xùn)練的“偽”真值.
圖5 自標(biāo)簽效果Fig.5 Self-label in results
為了實(shí)現(xiàn)端到端的同步訓(xùn)練,結(jié)合現(xiàn)有算法的框架本文網(wǎng)絡(luò)使用同一個(gè)編碼器(采用VGG16作為骨干網(wǎng)絡(luò))對(duì)輸入的圖像進(jìn)行了降維處理后提取特征,在編碼器后網(wǎng)絡(luò)利用兩個(gè)解碼器分別學(xué)習(xí)不同的任務(wù)權(quán)重,分別是特征點(diǎn)檢測以及描述符計(jì)算. 網(wǎng)絡(luò)架構(gòu)如圖6所示.
這里的特征點(diǎn)檢測器與粗檢測器使用的是一樣的設(shè)計(jì)思想和網(wǎng)絡(luò)架構(gòu),利用編碼器對(duì)圖像做8次降采樣,最后會(huì)輸出65通道的heatmap,每一個(gè)通道對(duì)應(yīng)原圖像上的8×8大小的圖像塊,后接softmax表示該點(diǎn)是特征點(diǎn)的概率,多出的一個(gè)值表示該圖像塊上是否存在特征點(diǎn),這樣就將特征提取問題轉(zhuǎn)換成了一個(gè)分類問題. 而描述符計(jì)算則是先按照8×8的圖像塊來學(xué)習(xí)半稠密的描述子,然后利用雙三次插值算法得到完整的描述子,最后利用L2歸一化得到一個(gè)關(guān)鍵點(diǎn)對(duì)應(yīng)的D維描述子.
圖6 訓(xùn)練網(wǎng)絡(luò)框架Fig.6 Training-network architecture
本文的loss函數(shù)也分為了特征點(diǎn)和描述子兩部分,整體的loss函數(shù)如下:
L(X,X′,D,D′;Y,Y′,S)=
Ldet(X,Y)+Ldet(X′,Y′)+λLdis(D,D′,S)
(5)
其中Ldet為特征點(diǎn)檢測器的損失函數(shù)而Ldis為描述子損失函數(shù). 本文對(duì)原始圖像做仿射變換,這里我們依然是通過隨機(jī)生成單應(yīng)性矩陣來實(shí)現(xiàn). 特征點(diǎn)檢測的損失函數(shù)是分別用特征點(diǎn)檢測器在原圖和隨機(jī)變換后的圖像上提取特征點(diǎn). 將原圖特征點(diǎn)位置經(jīng)過單應(yīng)性矩陣變換得到的特征點(diǎn)位置作為偽真值Y和在隨機(jī)變換的圖像上提取的點(diǎn)的位置X計(jì)算差值得到Ldet(X,Y),Ldis(X′,Y′)則是相反的過程即先在變換的圖像上提取點(diǎn)的位置Y′,然后利用單應(yīng)性矩陣的逆得到原圖像上的位置X′求差值得到. 描述符的損失函數(shù)計(jì)算則是先利用S判斷特征點(diǎn)是否是對(duì)應(yīng)關(guān)系,對(duì)應(yīng)關(guān)系的判斷還是利用隨機(jī)單應(yīng)性矩陣與圖像塊實(shí)現(xiàn),即圖像塊位置利用單應(yīng)性矩陣變換后是否能落到變換的圖像上特征點(diǎn)位置的一個(gè)領(lǐng)域范圍內(nèi). 如果特征點(diǎn)對(duì)是對(duì)應(yīng)關(guān)系(在領(lǐng)域內(nèi))距離越近越好,如果特征點(diǎn)對(duì)不是對(duì)應(yīng)的(領(lǐng)域外)則距離越遠(yuǎn)越好.
由于目前還沒有公開的可見光-紅外實(shí)例目標(biāo)檢測數(shù)據(jù)集可以用于算法的訓(xùn)練和測試. 本文算法的數(shù)據(jù)集是由利用無人機(jī)單獨(dú)收集的涵蓋了不同場景和目標(biāo)的可見光-紅外圖像數(shù)據(jù). 數(shù)據(jù)集包含內(nèi)容如表1所示.
表1 本文算法數(shù)據(jù)集概況Tab. 1 Our dataset overview
測試集中主要包含了廠房、公園平房、板房、居民樓、交通道路等建筑物作為目標(biāo). 測試集圖像示例如圖7所示.
圖7 測試數(shù)據(jù)集圖像示例Fig.7 The images in test dataset
為了驗(yàn)證本文算法的泛化能力,本文還選取了同源圖像進(jìn)行實(shí)例目標(biāo)檢測試驗(yàn),本文所選用的同源圖像為可見光圖像,采用的是公開數(shù)據(jù)集HPatches. 數(shù)據(jù)集中包含了共116個(gè)場景(每個(gè)場景5~6張圖像),其中光照變化場景57個(gè),視角變換場景59個(gè),共計(jì)696張圖像.
圖8 HPatches數(shù)據(jù)集示例Fig.8 The images in HPatches
本文主要針對(duì)單張可見光目標(biāo)圖像匹配多張紅外目標(biāo)圖像,即將可見光圖片作為輸入圖像,分別與多張紅外圖像進(jìn)行目標(biāo)匹配. 主要的評(píng)價(jià)包含以下兩個(gè)方面:
1)當(dāng)紅外圖像中出現(xiàn)目標(biāo)時(shí),比較不同方法的準(zhǔn)確率(參照單對(duì)圖像情況)和成功率(紅外目標(biāo)與可見光目標(biāo)匹配成功次數(shù));
2)當(dāng)紅外圖像中無目標(biāo)時(shí),比較不同方法誤匹配出現(xiàn)的次數(shù).
針對(duì)上述情況,設(shè)想評(píng)價(jià)系統(tǒng)的流程如圖9所示.
圖9 實(shí)驗(yàn)評(píng)價(jià)流程圖Fig.9 Experimental evaluation flow
綜上所述,本文主要利用AP(平均精度)及mAP(所有類別的平均精度)對(duì)算法進(jìn)行評(píng)價(jià).
① AP:計(jì)算平均精度時(shí)需要結(jié)合交并比(intersection over union,IoU)和實(shí)際的實(shí)例目標(biāo)應(yīng)用場景.
IoU是目標(biāo)檢測中常見的評(píng)價(jià)標(biāo)準(zhǔn),主要是衡量模型生成的bounding box和ground truth box之間的重疊程度,計(jì)算公式為
其中:detectionResult為檢測結(jié)果;GroundTruth為真實(shí)值.
而本文測試主要針對(duì)兩個(gè)場景,即紅外圖像上存在可見光目標(biāo)以及紅外圖像上不存在目標(biāo). 假設(shè)紅外圖像中存在目標(biāo),并且IoU值大于預(yù)先設(shè)定的閾值(本文設(shè)為0.8),那就說明預(yù)測區(qū)域是對(duì)的,此時(shí)這個(gè)區(qū)域就是TP(true positive);假設(shè)紅外圖像中存在目標(biāo),但I(xiàn)oU值小于預(yù)先設(shè)定的閾值,那就說明這個(gè)預(yù)測是錯(cuò)的,此時(shí)這個(gè)預(yù)測就是FP(false positive). 同理還可以將紅外圖像中不存在目標(biāo)但錯(cuò)誤檢測出目標(biāo)的情況定義為FN(false negative),將紅外圖像中沒有目標(biāo)算法也未檢測出目標(biāo)定義為TN(true negative).
為了充分驗(yàn)證本文算法的先進(jìn)性,選取了傳統(tǒng)的特征點(diǎn)匹配方法SIFT算法,基于塊匹配的KCF跟蹤匹配算法,Superpoint算法,R2D2算法,D2-Net[17]算法以及HOG-HardNet[18-19]算法. 將測試數(shù)據(jù)分為5個(gè)待檢測的可見光目標(biāo),每個(gè)目標(biāo)分別對(duì)應(yīng)10張紅外圖像. 同時(shí)為了模擬紅外圖像中不存在目標(biāo)的情況,利用不同目標(biāo)對(duì)應(yīng)的紅外圖像進(jìn)行了測試. 即正類樣本和負(fù)類樣本的紅外測試圖像均為20張,將IoU設(shè)為0.6,表2為實(shí)驗(yàn)結(jié)果.
由表2、表3所示本文算法在5個(gè)目標(biāo)的兩類檢測任務(wù)中均比實(shí)驗(yàn)對(duì)比的其他先進(jìn)算法具有更好的檢測成功率以及魯棒性. 但對(duì)于部分可見光和紅外圖像尺度差異較大的目標(biāo)4及目標(biāo)5算法也出現(xiàn)了誤檢測和漏檢測的目標(biāo). 說明本文算法在尺度差異加大的情況下仍存在著不足. 為了直觀地體現(xiàn)本文算法的檢測效果,下面將展示幾組算法的檢測效果對(duì)比結(jié)果.
表2 5個(gè)待測目標(biāo)評(píng)價(jià)結(jié)果
表3 算法在異源圖像上目標(biāo)實(shí)力識(shí)別的總體表現(xiàn)
圖10 對(duì)可見光紅外異源圖像目標(biāo)的檢測效果Fig.10 The objection detection results on different source images
從上述匹配效果圖可以看出,本文算法所提取的共有特征點(diǎn)充足且匹配準(zhǔn)確率高,可以滿足在異源圖像上實(shí)例目標(biāo)檢測的任務(wù),正確檢測出目標(biāo)并給出目標(biāo)所在位置.
此外為了驗(yàn)證本文算法的泛化能力,還對(duì)本文算法以及上述特征點(diǎn)提取匹配算法在同源圖像數(shù)據(jù)集HPatches上進(jìn)行了實(shí)例目標(biāo)檢測的測試. 表4為實(shí)驗(yàn)結(jié)果.
表4 算法在HPatches上的總體表現(xiàn)
圖11 對(duì)光照變化下同源圖像(HPatches)目標(biāo)的檢測效果Fig.11 The objection detection results in illumination change on same source images(HPatches)
圖12 對(duì)視角變化下同源圖像(HPatches)目標(biāo)的檢測效果Fig.12 The objection detection results in view-point change on same source images(HPatches)
通過上述的客觀實(shí)驗(yàn)結(jié)果和主觀的測試對(duì)比效果可以發(fā)現(xiàn):①在紅外圖像上存在目標(biāo)時(shí),本文算法效果明顯優(yōu)于現(xiàn)有的實(shí)驗(yàn)對(duì)比算法. 本文算法成功的建立了跨域特征之間的聯(lián)系,使得異源圖像上的高層級(jí)特征有了明確的匹配關(guān)系. 因此在異源圖像上的實(shí)力識(shí)別準(zhǔn)確率和精度都較其他兩種算法有了明顯的提升. 在紅外圖像無目標(biāo)時(shí),由于是基于特征點(diǎn)匹配的實(shí)力識(shí)別,因此無法找到足夠的目標(biāo)區(qū)域匹配特征點(diǎn)的情況下3種算法均極少出現(xiàn)誤匹配的情況. ②針對(duì)異源圖像尺度差異較大的情況,本文算法雖然較實(shí)驗(yàn)對(duì)比算法有較好的檢測效果但仍存在漏匹配和錯(cuò)誤匹配的情況. 這主要是由于本算法并沒有過多的考慮解決尺度一致性的問題,在自標(biāo)簽階段的數(shù)據(jù)增殖沒有考慮對(duì)尺度因子也進(jìn)行縮放. 算法缺乏對(duì)該情況的學(xué)習(xí),進(jìn)而導(dǎo)致了漏匹配和錯(cuò)誤匹配的情況. 這一問題在幾類比較算法中也存在. ③本文算法主要針對(duì)的是異源圖像上的實(shí)力目標(biāo)檢測任務(wù),缺乏對(duì)同源圖像的針對(duì)性研究,但實(shí)驗(yàn)顯示本文算法在同源圖像實(shí)例目標(biāo)檢測任務(wù)上仍然能夠取得與先進(jìn)算法接近的效果.
本文提出了一種基于深度學(xué)習(xí)特征點(diǎn)提取匹配的算法,該算法解決了以往研究無法獲取異源圖像共有特征的問題,從而實(shí)現(xiàn)了異源圖像實(shí)例目標(biāo)檢測任務(wù). 并通過實(shí)驗(yàn)證明了算法在異源圖像上對(duì)5類不同目標(biāo)的識(shí)別整體精度較現(xiàn)有的表現(xiàn)最好的DOG-HardNet算法提升了8%. 未來針對(duì)尺度差異引起的誤匹配,漏匹配問題可以通過借鑒圖像金字塔的思想構(gòu)建新的自標(biāo)簽方法,使得算法充分學(xué)習(xí)多尺度圖像特征點(diǎn)信息,從而解決圖像尺度差異所帶來的算法效果不佳的問題.