魏 川,張功國(guó),,呂曉萌
(1.重慶信科設(shè)計(jì)有限公司,重慶401121;2.重慶郵電大學(xué)重慶400065)
在廣場(chǎng)等大場(chǎng)景使用的監(jiān)控系統(tǒng)中,由于視頻質(zhì)量的高低和視頻監(jiān)控范圍大小二者相互制約,為了得到較高的監(jiān)控視頻質(zhì)量,一般都采用多個(gè)監(jiān)控?cái)z像頭同時(shí)使用。但是,當(dāng)需要從監(jiān)控視頻中獲取有用的信息,如進(jìn)行人群密度估計(jì)[1],由于多個(gè)監(jiān)控的分別使用,得到的視頻圖像無法從整體角度來進(jìn)行評(píng)估,造成信息采集人員的工作不便。
圖像拼接是將有共同部分的待拼接圖像通過計(jì)算機(jī)技術(shù)進(jìn)行處理,拼接成一幅整體圖像。1996年,Richard Szeliski通過獲取圖像間的幾何變換完成圖像配準(zhǔn),進(jìn)而完成圖像拼接的全景圖像拼接模型[2]。2010年,吳錦杰,劉肖琳提出了一種基于雙目相機(jī)的圖像拼接方法[3],該方法引入自適應(yīng)的非極大值抑制技術(shù),檢測(cè)重合區(qū)域的Harris角點(diǎn),對(duì)圖像進(jìn)行快速匹配;但其在圖像匹配階段的運(yùn)算時(shí)間較長(zhǎng),實(shí)時(shí)性不強(qiáng)。
本文提出一種基于雙目攝像機(jī)的圖像拼接方法,在圖像配準(zhǔn)階段借鑒文獻(xiàn)[3]中所采用基于特征點(diǎn)的圖像匹配方法的思想,采用基于特征點(diǎn)的圖像匹配方法,通過對(duì)匹配階段描述子的維數(shù)降低來減少運(yùn)算時(shí)間,采用BBF匹配算法來提高匹配效率,RANSAC消除錯(cuò)誤匹配對(duì),最后用加權(quán)平均融合法消除拼接縫隙,達(dá)到平滑拼接縫隙的目的。
圖像拼接的一般流程如圖1所示。
圖1 圖像拼接流程
圖像預(yù)處理就是在進(jìn)行圖像匹配之前,對(duì)圖像進(jìn)行噪聲消除、幾何校正等工作,以此來提高拼接的成功率。圖像匹配是圖像拼接階段最重要的一個(gè)步驟,匹配結(jié)果的好壞直接影響后期拼接的效果。圖像融合是圖像拼接的最后一步,圖像匹配解決圖像相同部分的對(duì)齊問題,圖像融合解決圖像對(duì)齊后的縫隙問題。
本文方法的適宜應(yīng)用場(chǎng)景大多采用固定攝像頭,本文使用水平固定的兩個(gè)小型攝像頭來進(jìn)行視頻的采集,采集到的圖像受到的幾何畸變對(duì)后期的匹配和配準(zhǔn)影響不大,因此可以對(duì)所獲取的圖像可以直接進(jìn)行匹配操作。
SIFT(Scale Invariant Feature Transform)算法是David G.Lowe教授提出的一種圖像局部特征描述算子,它是基于圖像特征尺度選擇的思想,在尺度空間尋找極值點(diǎn),獲取特征點(diǎn)的位置、尺度、方向等信息。
SIFT算法主要步驟如下:
(1)極值點(diǎn)檢測(cè)
基于特征的圖像匹配的關(guān)鍵是穩(wěn)定的特征點(diǎn)[4]。為了使最終的描述子具有尺度及縮放不變性,要對(duì)圖像進(jìn)行多次的高斯模糊和降采樣處理,形成高斯金字塔。1994年,Lindeberg[5]發(fā)現(xiàn)高斯差分函數(shù)(Difference of guassian)與尺度歸一化的高斯-拉普拉斯函數(shù)σ2▽2G非常相似,而尺度歸一化的高斯-拉普拉斯函數(shù)σ2▽2G的極大值和極小值和特征提取函數(shù),如Hessian矩陣比較,能夠產(chǎn)生最穩(wěn)定的圖像特征。
在生成的DOG尺度空間中,將任意一個(gè)像素點(diǎn)與同尺度周圍8個(gè)像素點(diǎn)及上下尺度對(duì)應(yīng)的18個(gè)點(diǎn)比較其像素值,如果為極大值或極小值時(shí),標(biāo)注為極值點(diǎn)。
(2)特征點(diǎn)方向確定
為了使生成的SIFT特征點(diǎn)具有旋轉(zhuǎn)不變性,利用特征點(diǎn)鄰域像素的梯度方向分布特性為每個(gè)特征點(diǎn)分配方向參數(shù),特征點(diǎn)的梯度的模和方向計(jì)算公式為:
其中,L為對(duì)應(yīng)特征點(diǎn)所在的尺度;(x,y)為特征點(diǎn)的位置。
(3)改進(jìn)的描述子
以特征點(diǎn)為中心,計(jì)算16×16鄰域內(nèi)的像素梯度值的大小和方向,將特征點(diǎn)鄰域劃分為4×4的種子點(diǎn),統(tǒng)計(jì)每個(gè)種子點(diǎn)8個(gè)方向的梯度方向直方圖。16個(gè)種子點(diǎn),每個(gè)種子點(diǎn)8個(gè)方向,形成16×8=128維描述子。生成的SIFT描述子有較好的旋轉(zhuǎn)不變性,光照不變性,當(dāng)檢測(cè)到的特征點(diǎn)數(shù)量較多的時(shí)候,128維描述子會(huì)產(chǎn)生龐大的計(jì)算量,實(shí)時(shí)性不強(qiáng)。對(duì)此,本文給出一種改進(jìn)方法,降低計(jì)算量,提高實(shí)時(shí)性。
以檢測(cè)到的特征點(diǎn)為中心,構(gòu)造分別以半徑為2,4,6,8,10,12,14,16 個(gè)像素的 8 個(gè)圓,計(jì)算這 8個(gè)半徑圓內(nèi)各像素的梯度信息,統(tǒng)計(jì)出每個(gè)圓域的8個(gè)方向的梯度值。將特征點(diǎn)的鄰域高斯加權(quán),這樣可以避免由于圖像旋轉(zhuǎn)而造成的特征點(diǎn)發(fā)生位移導(dǎo)致生成描述子偏差。
接下來將2個(gè)像素鄰域內(nèi)的8個(gè)方向的梯度累加值作為生成描述子的前8個(gè)向量,然后對(duì)第2到第4像素鄰域內(nèi)的梯度累加值作為描述子的9~16個(gè)向量,然后是計(jì)算第4到第6像素鄰域內(nèi)的梯度累加值,生成17~24個(gè)向量。依次地,形成8組鄰域的向量,總共64維描述子。
與改進(jìn)前相比較,特征點(diǎn)的鄰域范圍為16×16,但特征點(diǎn)的描述子維數(shù)降低到了64維,描述子維數(shù)明顯降低。維數(shù)的降低將會(huì)直接導(dǎo)致計(jì)算速率的提高,運(yùn)算時(shí)間的減少。
(4)匹配和誤匹配的消除
對(duì)描述子的匹配常采用的方法是窮舉法,窮舉法的優(yōu)點(diǎn)是不需要進(jìn)行任何數(shù)據(jù)預(yù)處理,但其搜索效率不高。本文通過BBF查尋機(jī)制來提高匹配點(diǎn)的搜索效率。
BBF(Best-Bin-First)查尋機(jī)制,是 KD-Tree(k dimension tree)的一種擴(kuò)展[6]。KD-Tree 是一個(gè)二叉樹,它是用分而治之的思想對(duì)數(shù)據(jù)點(diǎn)在K維空間劃分的一種數(shù)據(jù)結(jié)構(gòu),在檢索的數(shù)據(jù)集的維數(shù)高于20維時(shí),其檢索效率明顯下降[7]。BBF是在 KDTree的基礎(chǔ)上加入了查找優(yōu)先級(jí)的概念,它的檢索總是從優(yōu)先級(jí)最高(Best Bin)的節(jié)點(diǎn)開始,通過設(shè)置一個(gè)運(yùn)行超時(shí)限定來確保在所有節(jié)點(diǎn)檢查完畢或超出時(shí)間限制后算法能返回當(dāng)前找到的最好結(jié)果,其主要流程如圖2所示。
圖2 基于BBF的KD-Tree檢索流程
采用BBF查尋機(jī)制,可以將KD-Tree擴(kuò)展到高維數(shù)據(jù)集上,通過建立優(yōu)先隊(duì)列,其很好地控制了‘最佳點(diǎn)’查尋的進(jìn)程,可以在任何時(shí)候中斷并退出查詢進(jìn)程,并且能得到比較好的結(jié)果。
初始匹配對(duì)中,存在部分匹配錯(cuò)誤,消除匹配錯(cuò)誤的方法有最小二乘法和隨機(jī)抽樣一致性[8]。隨機(jī)抽樣一致性(RANSAC RANdom SAmple Consensus)是一種數(shù)學(xué)模型的參數(shù)迭代算法,它的主要特點(diǎn)是隨著迭代次數(shù)的增加,正確的幾率會(huì)逐漸提高。它通過將數(shù)據(jù)分為內(nèi)點(diǎn)和外點(diǎn),然后判斷出內(nèi)點(diǎn),取出外點(diǎn)來達(dá)到消除錯(cuò)誤匹配的目的。在該方法中有3個(gè)關(guān)鍵參數(shù)可以對(duì)其效果產(chǎn)生影響,分別是:估計(jì)次數(shù),內(nèi)外點(diǎn)距離判定閾值和一致性集合的大小閾值。
本文中的隨機(jī)抽樣一致性消除錯(cuò)誤匹配分為3步來進(jìn)行:①隨機(jī)選取3對(duì)匹配對(duì),然后根據(jù)待匹配圖像的變換模型估計(jì)出變換參數(shù)。②利用估計(jì)的參數(shù)剩余的匹配點(diǎn)進(jìn)行判斷,通過內(nèi)外點(diǎn)的判定閾值區(qū)分出內(nèi)外點(diǎn),然后重復(fù)步驟1。③當(dāng)內(nèi)點(diǎn)數(shù)目最大時(shí),得出變換模型的最佳估計(jì)。
圖像融合是將采集到的包含有同一目標(biāo)的圖像數(shù)據(jù)經(jīng)過處理,綜合到同一幅圖像中。由于圖像采集視角的不同,拼接的重疊部分會(huì)產(chǎn)生模糊和重影等。為了提高拼接效果,就需要對(duì)拼接后的圖像進(jìn)行融合處理。
圖像融合技術(shù)分為像素級(jí)、特征級(jí)和決策級(jí)3個(gè)層次,多數(shù)應(yīng)用場(chǎng)合都需要進(jìn)行像素級(jí)融合,原因是像素級(jí)融合能盡可能多地保留場(chǎng)景的原始信息[9]。本文采用加權(quán)平均融合法進(jìn)行像素級(jí)圖像融合。
本文使用水平固定的兩個(gè)小型攝像頭來進(jìn)行視頻的采集,水平夾角為40°,采集的視頻分辨率為640×480,幀率為30 f/s。獲取的原始圖像幀如圖3所示。
圖3 待拼接圖像
SIFT算法匹配結(jié)果如圖4,采用本文的改進(jìn)方法進(jìn)行匹配操作,結(jié)果如圖5,圖中出現(xiàn)的交叉線表示匹配錯(cuò)誤。與改進(jìn)前相比,使本文改進(jìn)方法進(jìn)行匹配,錯(cuò)誤的匹配點(diǎn)明顯減少,匹配準(zhǔn)確率明顯提高。
圖4 SIFT配準(zhǔn)
圖5 本文方法配準(zhǔn)
由于圖像拼接的關(guān)鍵在圖像匹配過程,為進(jìn)一步檢驗(yàn)本文改進(jìn)方法的匹配性能,本文分別將本文方法、改進(jìn)前SIFT算法及其改進(jìn)—SURF算法進(jìn)行仿真對(duì)比,采用圖像尺寸大小不同的10組圖像進(jìn)行匹配,并對(duì)其匹配時(shí)間進(jìn)行統(tǒng)計(jì),結(jié)果如圖6所示。
圖6 特征點(diǎn)數(shù)目與運(yùn)算時(shí)間關(guān)系
如圖6中統(tǒng)計(jì)結(jié)果,本文方法經(jīng)過對(duì)描述子的降維處理和匹配階段BBF匹配策略的引入,大幅減少了匹配時(shí)間;在檢測(cè)到的特征點(diǎn)數(shù)目較少的時(shí)候,與SIFT算法和SURF算法相比,本文方法有較少的匹配時(shí)間,并且在一定的特征點(diǎn)數(shù)目范圍內(nèi)保持穩(wěn)定匹配性能;隨著檢測(cè)到的特征點(diǎn)數(shù)目的繼續(xù)增加,SIFT算法和SURF算法的匹配時(shí)間大幅增加,而本文方法的匹配時(shí)間趨于穩(wěn)定增加,這是因?yàn)锽BF匹配策略利用優(yōu)先級(jí)隊(duì)列,針對(duì)某查詢點(diǎn),搜索整個(gè)KD-Tree的根節(jié)點(diǎn)和樹節(jié)點(diǎn),然后從這些節(jié)點(diǎn)中通過超時(shí)限制提取出優(yōu)先級(jí)最高的節(jié)點(diǎn),并退出搜索進(jìn)程。
為驗(yàn)證本文采用加權(quán)平均融合法對(duì)拼接縫隙的處理性能,本文采用目前普遍使用的直接平均法與本文方法作對(duì)比處理,實(shí)驗(yàn)結(jié)果分別如圖7和圖8所示。
圖7 直接平均法
圖8 本文方法
可以看出,直接平均法對(duì)拼接縫隙的處理不夠,存在較明顯的拼接縫隙,而本文采用的加權(quán)平均法,能夠根據(jù)權(quán)值對(duì)拼接的重合區(qū)域很好的處理。
綜合來看,本文方法提高了圖像的匹配效率,大幅減少了匹配時(shí)間,并且有較高的匹配準(zhǔn)確率,實(shí)現(xiàn)了圖像的無縫拼接,經(jīng)過實(shí)驗(yàn)證明,本文方法是有效的。
針對(duì)但攝像頭和雙攝像頭拍攝范圍各自的局限性,給出了一種圖像拼接方法,通過該方法可以對(duì)雙攝像頭的拍攝視頻圖像進(jìn)行快速拼接,有較高的實(shí)時(shí)性,在相關(guān)的監(jiān)控視頻信息收集中有一定的應(yīng)用價(jià)值。本文方法是正常的自然光照條件下進(jìn)行的,若遇突發(fā)情況,如較強(qiáng)的光照影響下(如攝像頭受到燈光照射),采集到的視頻資料受到影響較大,如何在影響較大的情況下繼續(xù)進(jìn)行準(zhǔn)確快速拼接有待做進(jìn)一步的研究。
[1] GUO Sen,LU Xin.Application of the binocular camera to crowd density estimation[J].Computer& Digital Engineering,2012,40(8):116 -118.(in Chinese)郭森,盧鑫.應(yīng)用雙目攝像機(jī)進(jìn)行人群密度估計(jì)[J].計(jì)算機(jī)與數(shù)字工程,2012,40(8):116 -118.
[2] Richard Szeliski.Video mosaics for virtual environments[J].IEEE Computer Graphics and Applications.1996.16(2):22-30.
[3] WU Jinjie,LIU Xiaolin.Image mosaicing based on binocular cameras[J].Computer Engineering,2010,36(12):209 -212.(in Chinese)吳錦杰,劉肖琳.基于雙目相機(jī)的圖像拼接[J].計(jì)算機(jī)工程,2010,36(12):209 -212.
[4] ZHANG Jiao,LI Junshan,ZHANG Shaohua.Algorithm for IR/Visual images matching based on line features and SIFT points[J].2013,43(5):554 -558.(in Chinese)張姣,李俊山,張少華.線特征和SIFT點(diǎn)特征結(jié)合的異源圖像匹配算法[J].激光與紅外,2013,43(5):554-558.
[5] Lindeberg T.Scalespace theory:A basic tool for analyzing structures at different scales[J].Journal of Applied Statistics,1994,21:224 -270.
[6] ZHAO Qinghua,CHEN Luo,JING Ning.Distributed spatial join query based on kd-tree recursive partitioning[J].Computer Engineering & Science,2011,33(8):167 -173.(in Chinese)趙清華,陳犖,景寧.基于Kd樹遞歸區(qū)域劃分的分布式空間連接查詢[J].計(jì)算機(jī)工程與科學(xué),2011,33(8):167-173.
[7] WANG Peizhen,CHEN Ping,ZHOU Fang.Method of feature extraction and matching for complex image[J].J.of Anhui University of Technology,2012,29(1):73 - 77.(in China)王培珍,陳平,周芳.復(fù)雜圖像特征點(diǎn)提取與匹配方法[J].安徽工業(yè)大學(xué)學(xué)報(bào),2012,29(1):73 -77.
[8] CAO Hongxing,LIU Jiahang,RUAN Ping.Stitching image based on SIFT[J].Video Engineering,2008,32(S1):146 -148.(in Chinese)曹紅杏,柳稼航,阮萍.基于SIFT特征的圖像自動(dòng)拼接[J].電視技術(shù),2008,32(S1):146 -148.
[9] SONG Baosen,F(xiàn)U Yongqing,SONG Hailiang.New efficient image fusion algorithm for image mosaic[J].Computer Science,2011,38(2):260 -264.(in Chinese)宋寶森,付永慶,宋海亮.一種消除圖像拼接痕跡的新方法[J].計(jì)算機(jī)科學(xué),2011,38(2):260 -264.