(1.長江科學院 空間信息技術(shù)研究所,武漢 430010;2.鄂北地區(qū)水資源配置工程建設(shè)與管理局,武漢 430071)
工程安全是工程建設(shè)管理的重要環(huán)節(jié),視頻監(jiān)控信息是描述工地現(xiàn)場安全狀況最為直觀的資料,也是工程建設(shè)過程管理的核心數(shù)據(jù)來源。傳統(tǒng)的視頻監(jiān)控系統(tǒng)將所有視頻探頭的監(jiān)控視頻在屏幕上進行平鋪展示,用戶無法直觀地了解監(jiān)控點的具體位置、周圍環(huán)境;同時,由于監(jiān)控點之間是互相獨立的,多路視頻之間的關(guān)系不直觀,無法還原整體施工場景。
將施工場景的地表三維模型與視頻監(jiān)控信息進行綜合集成應用,實現(xiàn)視頻流在三維場景下的實時展示和播放,便于管理部門有效而全面地把握施工現(xiàn)場的真實環(huán)境,為工地現(xiàn)場的安全防護、突發(fā)性事故應急與救援提供決策支持。
自Neumann等[1]提出實時視頻與三維場景融合技術(shù)在大范圍增強虛擬環(huán)境(augmented virtual environment,AVE)的構(gòu)建以來,劉啟芳等[2]對AVE技術(shù)用于目標檢測也做了初步的探討。動態(tài)紋理映射是增強虛擬環(huán)境相關(guān)技術(shù)中的一項關(guān)鍵技術(shù),文獻[3-4]對其進行了深入的研究。劉猛[5]詳細探討了動態(tài)紋理映射問題,但其主要針對序列圖像進行實驗,未做到多路視頻實時渲染。李增忠[6]對紋理映射進行了詳細研究,提出了各種局部紋理精確映射算法。趙凱等[7]根據(jù)實際應用提出Extend Shadow map算法將視頻圖像與三維場景無縫貼合,但未對視頻和場景的配準過程做詳細說明。阮芹[8]利用2個普通的USB攝像頭進行了視頻流的無縫拼接和實時顯示研究,包括攝像頭標定、畸變校正、特征點提取與配準、圖像融合和視頻顯示等部分。侯沛宏[9]利用消費級深度相機和配準好的多視圖像與網(wǎng)格模型,對多視紋理的無縫拼接方法做了探討。王力[10]和王聰[11]對視頻配準技術(shù)進行了詳細研究,王一等[12]提出了一種基于梯度和與一致性組合策略的無縫紋理映射方法,針對三維紋理映射中存在接縫、顏色差異大等問題,采用基于梯度值之和的選片算法,結(jié)合一致性檢查、全局顏色校正和局部顏色校正等策略,消除影像的模糊、重影與色差,實現(xiàn)無縫紋理映射,同時避免影像失焦和障礙物的影響,但該方法僅在數(shù)據(jù)量小的情況下適用,效率上無法滿足實時視頻映射需求。簡洪登等[13]在視頻與場景已配準的前提下提出了基于GLSL的多重視頻紋理映射與融合。
綜上所述,雖已有多位學者對投影紋理映射技術(shù)進行了探討,但多是討論映射處理的某一項關(guān)鍵技術(shù),比如紋理映射方法[5-7]、紋理拼接方法[8-9]、影像配準方法[10-11]等,并沒有給出一個完整的從視頻監(jiān)控到三維模型的解決方案,無法將其有效應用于解決現(xiàn)實工程問題當中去;同時,現(xiàn)有文獻多是針對紋理投影的技術(shù)研究,基于紋理與圖像已配準的前提,對于任意視頻攝像頭,在姿態(tài)未知的情況下如何進行映射的問題并未做深入探討。
本文研究海量視頻流與三維場景實時集成的解決方案,集成現(xiàn)場安裝多視角視頻探頭,通過視頻流解碼技術(shù)得到多路視頻影像序列,再通過影像與地表三維模型配準估算視頻探頭姿態(tài),采用多路視頻紋理增強和融合技術(shù)改善視頻視覺效果,消除多路視頻間的色差,真實還原監(jiān)控現(xiàn)場的動態(tài)信息。
圖1 視頻流與三維場景實時集成技術(shù)流程Fig.1 Flow chart of real-time integration of video streaming and 3D scene technology
本文提出的具體解決方案流程如圖1所示。首先對監(jiān)控現(xiàn)場傳輸回的視頻流進行視頻解碼,獲取視頻影像序列,再將序列影像與地表三維模型進行配準,估算攝像頭姿態(tài);隨后,對視頻影像進行紋理映射,并對多個視頻紋理進行增強顯示和融合處理,最終實現(xiàn)視頻流在三維場景下的集成渲染。
視頻編碼技術(shù)的復雜程度直接影響后續(xù)視頻解碼過程的效率。目前國際上常用的視頻編碼技術(shù)標準主要有MPEG系列[14-15]、H.26X系列及VC-1系列[16]。
MPEG是活動圖像專家組(Moving Picture Exports Group)的縮寫,是壓縮運動圖像及其伴音的視/音頻壓縮標準[15],也是最為經(jīng)典的視頻壓縮標準。它基于幀間壓縮技術(shù),存儲連續(xù)幀間差異(高頻信息),因此能夠獲得較大的壓縮比。MPEG-4的最大壓縮比可達到4 000∶1,大大提高了視頻流傳輸效率。
H.264是MPEG-4壓縮標準的第10部分,采用混合編碼的方式來提高壓縮比率,其最大壓縮比優(yōu)于MPEG-4。H.264編碼在對誤碼和丟包的處理更為魯棒的同時也具有很強的網(wǎng)絡(luò)適應性。
VC-1編解碼器是目前常用的高清編碼格式之一,雖然其壓縮比不如MPEG-4,但其解碼計算量小于MPEG-4,在實現(xiàn)流暢播放方面更為容易。
根據(jù)視頻的編碼技術(shù)不同,本文分別采用相應的解碼器對視頻進行實時解碼以獲取視頻影像序列。
為了實現(xiàn)海量視頻流與三維場景的紋理映射,首先要進行視頻影像與地表三維模型點之間的配準,才能準確獲取視頻影像上每一點紋理的精確位置。由于監(jiān)控系統(tǒng)中攝像頭是固定不變的,其位置和姿態(tài)都相對固定,因此就可以進一步解算出視頻攝像頭的外方位元素,得到攝像頭的姿態(tài)數(shù)據(jù)。
本文具體配準流程如下:
(1)對視頻影像序列以及當前的數(shù)字表面模型像分別進行SIFT特征提取,然后對特征描述量進行匹配,從而找到對應點。這里采用SIFT特征基于其平移旋轉(zhuǎn)不變特性,提取到的特征點準確性更高。
(2)對于影像上某個SIFT關(guān)鍵點,遍歷計算其到數(shù)字表面模型上的每個SIFT特征點的歐式距離,得到最鄰近點與次鄰近點,其距離分別表示為D1和D2,當二者比值滿足小于某一閾值時,認為該點對為匹配點對。本文認為二者比值滿足D1/D2<0.8時是初匹配正確的點。
(3)采用RANSAC算法對初匹配正確的點進行二次篩選,進一步剔除殘差,得到最終的配準結(jié)果。
根據(jù)地表模型上的三維點和視頻影像上的二維點的對應關(guān)系,采用直接線性法解算攝像頭姿態(tài)。
假設(shè)相機矩陣為P,地表三維點為X,它在影像上的對應點x=[u,v,1]T滿足關(guān)系
λx=PX。
(1)
式中λ為系數(shù)。
令P1,P2,P3分別表示相機矩陣的第1、第2、第3行,則
(2)
令
(3)
則
AP=0 。
(4)
當匹配點對個數(shù)>6時,采用最小二乘法求得相機矩陣的解。表1為本實驗中計算得到的第1路視頻對應的相機位置及姿態(tài)信息。
表1 第1路視頻相機位置與姿態(tài)計算值Table 1 Estimation result of the location and pose of camera #1
在已知攝像頭姿態(tài)的情況下,根據(jù)攝像頭的姿態(tài)參數(shù)可直接計算得到需要映射的紋理坐標。紋理投影映射在可實現(xiàn)紋理與空間三維點的實時對應的同時,也有效避免了紋理的拉伸變形。
整個映射過程為:①根據(jù)估計得出的攝像頭的位置姿態(tài)建立地表三維點和視頻影像上紋理坐標的映射關(guān)系;②透視修正插值得到當前屏幕像素對應的紋理坐標;③進行紋理拾取,將映射紋理投射到三維模型表面進行顯示,并每秒進行視頻影像的刷新顯示。
在三維展示平臺上進行不同攝像頭拍攝的視頻流實時紋理映射時,需要對不同攝像頭拍攝的視頻依次進行紋理渲染。不同時間、不同位置拍攝的視頻由于光照條件不同,視頻之間的紋理明暗程度通常會有差別,這導致了2個問題:一方面,有些視頻影像成像條件不佳導致視頻動態(tài)對比度不夠,視覺效果不佳;另一方面,不同的光照條件導致相鄰的視頻影像之間存在明暗差異,產(chǎn)生明顯的拼縫。為了改善視覺效果,需要對視頻影像進行影像增強,再在重疊區(qū)域進行融合處理以消除拼接線。具體流程如下:
(1)在視頻映射前,對視頻影像進行硬件加速實現(xiàn)實時直方圖均衡化,以改善視頻流影像的動態(tài)對比度。
(2)對于拼接線,采用倒距離加權(quán)融合的思路對相鄰影像進行融合,實現(xiàn)影像漸變效果以消除拼接線。在紋理重疊區(qū)域,沿拼接重疊區(qū)域的對角線方向進行加權(quán)融合,隨著離對角線的距離增加,一個視頻影像的權(quán)值逐漸減小,而另一個影像的權(quán)值逐漸增加,權(quán)值大小由當前點到重疊區(qū)域的對角線的距離決定。
圖2為2個視頻幀的重疊區(qū)域示意圖,其中ABCD為重疊區(qū)域,BD為重疊區(qū)域?qū)蔷€。
圖2 對角倒距離加權(quán)算法示意圖Fig.2 Schematic diagram of diagonal weighted algorithm
假設(shè)第1個攝像頭視頻的紋理坐標為(s1,t1),第2個攝像頭視頻的紋理坐標為(s2,t2)。
(1)根據(jù)當前三維點對應的紋理坐標計算紋理重疊區(qū)域的位置,包括水平距離Smax和垂直距離Tmax,并得到對角線方程。
(2)在重疊區(qū)域內(nèi)根據(jù)當前渲染點到對角線的距離,分別計算2個通道的權(quán)值。
(3)根據(jù)2個權(quán)值計算得到融合后的顏色值,得到當前點的渲染值。
直線BD的斜率k為
(5)
文獻[13]給出了具體的加權(quán)融合公式,如式(6)所示,其中α為當前通道的權(quán)值。
(6)
本文采用武漢某倉庫作為實驗區(qū)域,該區(qū)域現(xiàn)有三維展示平臺,加載了數(shù)字高程模型(DEM)和倉庫的數(shù)字表面模型(DSM),如圖3(a)所示。利用高清攝像頭采集了多路視頻數(shù)據(jù),視頻圖像采用了H.264編碼技術(shù)進行編碼。本實驗中采用的硬件設(shè)備為普通計算機,CPU為Intel i5四核CPU,內(nèi)存為8 G,顯卡為NVIDIA Geforce GTX970M,顯存為1 G。
本實驗首先對視頻進行解碼,得到影像序列,為平衡配準精度和計算量,選取前5 min的監(jiān)控視頻流,在SIFT+RANSAC配準后,估算攝像頭的姿態(tài)。由于該倉庫的攝像頭是固定攝像頭,認為該姿態(tài)為不變常量,因此在完成一次估計之后,后續(xù)所有基于該攝像頭拍攝的視頻均可直接做紋理映射。實驗截圖如圖3(b)所示,為視頻投影到DSM上的顯示結(jié)果??梢詮闹脖活伾闯鲆曨l中的植被由于光照不同而偏亮,DSM中的植被顏色偏暗一些。除色彩差別以外,幾何形狀上可以實現(xiàn)精確映射。
圖3 場景三維疊加顯示Fig.3 Three-dimensional display of the experiment area
將視頻投影結(jié)果放大,并在動態(tài)播放條件下進行實時渲染,圖4為視頻實時動態(tài)播放下不同時刻的渲染結(jié)果截圖。由圖4可以看到,三維場景下,視頻被準確投影到每個攝像頭所在的位置,當點擊攝像頭圖標時,可清晰地看到當前監(jiān)控區(qū)域的視頻信息,視頻紋理與三維平臺上的地表模型之間能有較好的融合效果,從視覺上可以清晰地看到小車在地表三維場景中流暢地行駛。
圖4 不同時刻的視頻映射結(jié)果Fig.4 Result of the experiment at different instances
該實驗場景渲染的面數(shù)大概為200萬,表2為實時渲染的效率統(tǒng)計。由表2可知,針對2路、4路、6路、8路視頻,本文渲染效率穩(wěn)定在48 fps以上,均能達到實時映射渲染的標準,同時運行效率優(yōu)于文獻[13]的實驗結(jié)果。另外,文獻[13]未給出8路視頻下的實時渲染效率,本文給出了8路視頻的渲染效率,為高于48 fps。
表2 實時渲染效率Table 2 Real-time rendering efficiency
本文對多路視頻流與三維場景的實時集成技術(shù)進行了深入的探討,給出了完整的解決方案。實驗結(jié)果表明,本文的方法可以獲得較好的視覺效果,不同攝像頭拍攝的視頻流之間的明暗程度一致,視頻接邊實現(xiàn)平滑過渡。在整個算法流程中,相機姿態(tài)求解是否準確直接影響后期高質(zhì)量紋理映射。為了提高相機姿態(tài)估算,可在配準環(huán)節(jié)之后進行人機交互操作,微調(diào)相機參數(shù)。另一方面,當攝像頭拍攝的視頻流影像與當前平臺展示的三維場景具有較大的差異時,若要保證前景和背景的色彩一致性,在做色彩融合時可能需要更多耗時,在此情況下需要對視頻流與三維模型的高效色彩融合算法進行進一步研究和探討。