初 玲,郭三華,謝紹霞
(1.煙臺(tái)汽車工程職業(yè)學(xué)院 電子工程系,山東 煙臺(tái) 265500;2.煙臺(tái)汽車工程職業(yè)學(xué)院 汽車工程系,山東 煙臺(tái) 265500)
視頻序列拼接是由多幀視頻序列拼接而成的完整全景圖像,在視頻監(jiān)控、醫(yī)學(xué)圖像處理,遙感圖像處理等方面得到廣泛應(yīng)用[1]。在視頻序列的拼接中,相鄰幀間重疊部分較大,若每相鄰幀都做一次拼接,不僅耗費(fèi)了大量時(shí)間,而且隨著所需拼接幀數(shù)量增多,匹配誤差會(huì)增大,造成拼接效果不佳。利用關(guān)鍵幀拼接表示整個(gè)視頻序列拼接成為有效的方法,文獻(xiàn)[2]提出利用分層式自適應(yīng)幀采樣的視頻拼接,算法限制條件較多,對(duì)獲取的視頻有嚴(yán)格的限制,容易導(dǎo)致拼接失敗。文獻(xiàn)[3]提出SIFT結(jié)合Kalman跟蹤算法進(jìn)行關(guān)鍵幀的提取及拼接的實(shí)現(xiàn),由于視頻序列本身幀數(shù)量較大,關(guān)鍵幀的選取數(shù)量較大再加上SIFT算法本身的復(fù)雜性,累積造成運(yùn)算時(shí)間比較長(zhǎng),累積匹配誤差較大。
針對(duì)于此,提出了一種基于自適應(yīng)關(guān)鍵幀的視頻序列拼接方法,首先,將固定間隔采樣的視頻幀作為關(guān)鍵幀,并對(duì)其進(jìn)行特征點(diǎn)提取;其次,利用特征點(diǎn)匹配結(jié)合RANSAC魯棒估計(jì)算法得到相鄰、非相鄰關(guān)鍵幀間的單映矩陣,依此計(jì)算關(guān)鍵幀間的重疊區(qū)域,按照重疊區(qū)域的比例結(jié)合折半排序方法重新定位關(guān)鍵幀,將此關(guān)鍵幀作為基準(zhǔn)幀,重復(fù)固定幀采樣、重疊區(qū)域確定,定位后續(xù)滿足條件關(guān)鍵幀過程,直至滿足條件關(guān)鍵幀提取完畢,最后,利用特征點(diǎn)匹配矩陣和單映矩陣的級(jí)聯(lián)性,并通過融合實(shí)現(xiàn)了關(guān)鍵幀所表示的視頻無(wú)縫拼接,取得比較理想的效果。
單映矩陣變換是一種常用的幀間變換模型,主要適用于任意場(chǎng)景空間攝像機(jī)為旋轉(zhuǎn)或者縮放運(yùn)動(dòng),或者空間為平面場(chǎng)景和任意攝像機(jī)的運(yùn)動(dòng)[4]。單映矩陣變換表示為:
對(duì)于相鄰的關(guān)鍵幀,可以直接采用上述幀間變換模型,但是對(duì)于非相鄰的關(guān)鍵幀,考慮利用單映矩陣的級(jí)聯(lián)性質(zhì),得到非相鄰關(guān)鍵幀之間的單映變換矩陣。
假設(shè)第k幀 、第h幀為非相鄰的關(guān)鍵幀,以第h幀作為基準(zhǔn)幀,第幀為目標(biāo)幀,利用單映矩陣的級(jí)聯(lián)性質(zhì),可以得到兩非相鄰關(guān)鍵幀的單映變換矩陣。
其中,Hh,tHt,n…Hm,lHl,k分別是第 k 幀、 第 h 幀之間的相鄰關(guān)鍵幀的單映變換矩陣。示意圖如圖1所示。
圖1 單映矩陣的級(jí)聯(lián)示意圖Fig.1 The cascades skeleton map of homograph matrixes
在進(jìn)行視頻序列拼接時(shí),相鄰幀間的冗余量是比較大,重疊區(qū)域范圍較大,但場(chǎng)景變換不是很大,這樣考慮利用重疊區(qū)域的范圍來尋找關(guān)鍵幀,在文獻(xiàn)[5]中認(rèn)為視頻序列拼接時(shí),一般將重疊區(qū)域限定在25%-50%范圍內(nèi)為佳,在減少所選關(guān)鍵幀的同時(shí),能夠滿足拼接的需要,故文中的方法是:
1)將固定間隔采樣的視頻幀作為關(guān)鍵幀,考慮到拼接場(chǎng)景范圍需要,設(shè)定第一幀和最后一幀為必須的關(guān)鍵幀;
2)對(duì)上述關(guān)鍵幀進(jìn)行特征點(diǎn)提取,并完成基準(zhǔn)幀與后續(xù)相鄰目標(biāo)關(guān)鍵幀特征點(diǎn)匹配和單映矩陣的求解,后續(xù)相鄰目標(biāo)關(guān)鍵幀經(jīng)過單映矩陣變換之后,與基準(zhǔn)幀重疊區(qū)域進(jìn)行確定,分兩種情況來重新定位關(guān)鍵幀:
①若當(dāng)前關(guān)鍵幀與基準(zhǔn)幀的重疊區(qū)域大于設(shè)定閾值,則要考慮當(dāng)前關(guān)鍵幀后續(xù)的目標(biāo)關(guān)鍵幀,計(jì)算目標(biāo)關(guān)鍵幀與基準(zhǔn)幀之間的重疊區(qū)域,直至后續(xù)目標(biāo)關(guān)鍵幀與基準(zhǔn)幀的重疊區(qū)域大于設(shè)定閾值,而目標(biāo)關(guān)鍵幀后續(xù)相鄰關(guān)鍵幀與基準(zhǔn)幀的重疊區(qū)域小于設(shè)定閾值時(shí),在兩關(guān)鍵幀之間重新定位所需關(guān)鍵幀,采用折半排序方法找到適合條件的關(guān)鍵幀,流程如圖2所示。
圖2 折半排序?qū)ふ疫m合條件關(guān)鍵幀流程圖Fig.2 The flow chart of finding keyframes by binary search
②若當(dāng)前關(guān)鍵幀與基準(zhǔn)幀的重疊區(qū)域小于設(shè)定閾值,則須在當(dāng)前關(guān)鍵幀和基準(zhǔn)幀之間重新采用折半查找方法定位關(guān)鍵幀,流程如圖3所示。
圖3 折半排序?qū)ふ谊P(guān)鍵幀流程圖Fig.3 The flow chart of extracting keyframes by binary search
3)再以重新定位的關(guān)鍵幀為基準(zhǔn)幀,對(duì)后續(xù)視頻幀進(jìn)行1)、2)步驟操作,這樣獲取最終滿足條件的視頻關(guān)鍵幀序列。
SURF算子是Bay等人發(fā)明[6]的,其使用了積分圖像和均值濾波器來提高檢測(cè)速度并減少局部圖像描述器的維數(shù),更適用于實(shí)時(shí)圖像處理和視頻幀間處理,SURF算法利用快速Hessian檢測(cè)算法提取特征點(diǎn),Hessian矩陣具有良好的計(jì)算時(shí)間和精度表現(xiàn)。其行列式用來判定其特征點(diǎn)的尺度和位置。
1)Hessian特征提取器 對(duì)于圖像 I中的任意一點(diǎn)X(x,y)T,在 X 點(diǎn)處以尺度 σ 定義 Hessian 矩陣 H(X,σ)為:
2)積分圖像的使用 使用積分圖像可以迅速計(jì)算出箱式濾波器的圖像卷積,積分圖像定義為:
其中 II(X)表示以圖像原點(diǎn)和圖像上某點(diǎn) X=(x,y)為頂點(diǎn)的矩形區(qū)域內(nèi)所有像素之和。
3)極值點(diǎn)的判定 通過計(jì)算H矩陣行列式的決定值,并利用這個(gè)值進(jìn)行特征點(diǎn)的判別。特征點(diǎn)提取時(shí)首先構(gòu)建圖像的高斯金字塔,然后在不同的尺度空間下尋找極值,在每一個(gè)尺度下收集一定量的最值點(diǎn)作為候選特征點(diǎn)。
4)SURF特征描述子 SURF特征描述子的提取可以分為兩步:第一步根據(jù)特征點(diǎn)周圍的一個(gè)圓形區(qū)域找到特征點(diǎn)的主方向;第二步 在選定的主方向上構(gòu)建一個(gè)矩形區(qū)域,并提取所有的特征描述點(diǎn)信息。按主方向構(gòu)建一個(gè)大小為20σ的窗口,σ表示尺度,并將該窗口區(qū)域分為4×4的子區(qū)域,對(duì)于每一個(gè)子區(qū)域,分別計(jì)算相對(duì)于主方向的水平和垂直方向Haar小波響應(yīng),每個(gè)子區(qū)域得到四維向量,因此4×4的子區(qū)域得到64維特征點(diǎn)描述子,它可以擴(kuò)展到128維的特征點(diǎn)描述子,一般采用128維特征點(diǎn)描述子。
按照上述所述,拼接的具體實(shí)現(xiàn)步驟如下:
1)為了選取關(guān)鍵幀子序列,使全景圖內(nèi)容豐富,第一幀和最后一幀為必選關(guān)鍵幀,選取第一幀視頻序列關(guān)鍵幀為基準(zhǔn)幀,提取基準(zhǔn)幀的特征點(diǎn)。
2)利用SURF算法對(duì)關(guān)鍵幀提取特征點(diǎn),采用最近鄰距離比進(jìn)行特征點(diǎn)匹配,并利用幀間單映矩陣模型和關(guān)鍵幀選取過程進(jìn)行自適應(yīng)關(guān)鍵幀選擇。
①利用SURF特征點(diǎn)提取算法對(duì)間隔選定的關(guān)鍵幀特征提??;
②對(duì)相鄰關(guān)鍵幀利用幀間單映矩陣模型進(jìn)行匹配計(jì)算;為了使單映矩陣H的估計(jì)準(zhǔn)確,利用RANSAC魯棒估計(jì)方法得到相鄰關(guān)鍵幀之間單映矩陣H的估計(jì)[7],具體步驟為:
Step 1隨機(jī)抽取n≥4對(duì)匹配特征點(diǎn)來估計(jì)矩陣H的參數(shù);
Step 2對(duì)于②中的每一對(duì)匹配點(diǎn),計(jì)算對(duì)單映矩陣H的擬合誤差;
Step 3設(shè)定一個(gè)門限值,若擬合誤差小于此門限值,表示匹配點(diǎn)對(duì)是一致點(diǎn),并統(tǒng)計(jì)一致點(diǎn)的數(shù)目;
Step 4重復(fù)上述 Step 1、Step 2、Step 3步驟,直到所有的一致點(diǎn)集中至少有一個(gè)有效表征集的概率大于一定的數(shù)值為止;
Step 5選擇具有最大一致點(diǎn)集的單映矩陣H;
③對(duì)非相鄰關(guān)鍵幀利用單映矩陣的級(jí)聯(lián)性進(jìn)行計(jì)算;
④利用SURF算法結(jié)合關(guān)鍵幀的選取過程步驟實(shí)現(xiàn)自適應(yīng)關(guān)鍵幀的選取。
3)將2)選定關(guān)鍵幀作為最終拼接的關(guān)鍵幀,利用單映矩陣級(jí)聯(lián)和加權(quán)融合算法完成自適應(yīng)關(guān)鍵幀表示的視頻序列拼接。
圖4 最終獲取的關(guān)鍵幀F(xiàn)ig.4 The final keyframes of this video
圖5 關(guān)鍵幀所表示的視頻序列的拼接效果圖Fig.5 The final video mosaic by adaptive keyframes
圖6 獲取的最終關(guān)鍵幀F(xiàn)ig.6 The final keyframes of this video
實(shí)驗(yàn)采用手持?jǐn)?shù)碼相機(jī)拍攝的兩組視頻序列圖像,利用上述方法進(jìn)行了視頻序列的拼接,取得比較好的效果。
1)手持?jǐn)?shù)碼相機(jī)拍攝的一組80幀視頻序列,利用上述方法獲取的的關(guān)鍵這如圖4(a-d)所示,最終獲取的拼接效果圖如圖5(a-b)所示。
(2)手持?jǐn)?shù)碼相機(jī)拍攝的125幀的視頻序列,利用本文方法獲取的關(guān)鍵幀如圖6(a-f)所示,其拼接效果圖如圖7(ab)所示。
圖7 關(guān)鍵幀所表示的視頻序列的拼接效果圖Fig.7 The final video mosaic by adaptive keyframes
利用自適應(yīng)關(guān)鍵幀進(jìn)行視頻序列的拼接,取得比較理想的效果,將固定間隔采樣幀作為關(guān)鍵幀并對(duì)利用SURF算法對(duì)其特征點(diǎn)提?。焕锰卣鼽c(diǎn)匹配結(jié)合RANSAC魯棒估計(jì)算法得到關(guān)鍵幀間單映矩陣,進(jìn)而獲取關(guān)鍵幀間重疊區(qū)域,結(jié)合重疊區(qū)域比例及折半排序方法重新定位關(guān)鍵幀,將此關(guān)鍵幀作為基準(zhǔn)幀,重復(fù)幀采樣、重疊區(qū)域確定、定位后續(xù)所需關(guān)鍵幀過程,直至關(guān)鍵幀提取完畢,結(jié)合級(jí)聯(lián)單映矩陣和加權(quán)融合實(shí)現(xiàn)視頻序列無(wú)縫拼接。
[1]Kim D H,Yoon Y I,Choi J S.An efficient method to build panoramic image mosaics[J].Pattern Recognition Letters,2003,24 (1):2421-2429.
[2]劉永,王貴錦,姚安邦,等.基于自適應(yīng)幀采樣的視頻拼接[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2010,50(1):108-112.
LIUYong,WANGGui-jin,YAOAn-bang,etal.Videomosaicking based on adaptive sampling[J].Journal of Tsinghua University:sci&Tech,2010,50(1):108-112.
[3]Fadaeieslam M J,F(xiàn)athy M,Soryani M.Key frames selections into panoramic mosaics[C]//Proceedings of the 7th International Joint Conference on Information,Communication and signal,Macau,2009.
[4]Man S,Picard R W.Video orbits of the projective group:A simple approach to featureless estimation of parameters[J].IEEE Transactions on Image Processing,1997,6 (9):1281-1295.
[5]Steedly D,Pal C,Szeliski R.Efficiently registering video into panoramic mosaics[C]//The 10th IEEE InternationalConference on Computer Vision,Beijing,2005.
[6]Bay H,ESS A,Tuytelaars T,et al.SURF:Speeded up robust features[J].Computer Vision and Image Understanding,2008,110(3):346-359.
[7]Hartley R,Aissenrman A.Multiple view geometry in computer version[M].Cambridge,UK:Cambridge University Press,2000.