GPU加速與L-ORB特征提取的全景視頻實時拼接

2017-06-23 12:48:04杜承垚袁景凌陳旻騁

計算機研究與發(fā)展 2017年6期

杜承垚袁景凌,2 陳旻騁李濤

1(武漢理工大學計算機科學與技術(shù)學院武漢 430070)2(交通物聯(lián)網(wǎng)技術(shù)湖北省重點實驗室 (武漢理工大學) 武漢 430070)3(佛羅里達大學電氣與計算機工程系美國佛羅里達州蓋恩斯維爾 32611)

杜承垚1袁景凌1,2陳旻騁1李濤3

(duchengyao@whut.edu.cn)

全景視頻是在同一視點拍攝記錄全方位場景的視頻.隨著虛擬現(xiàn)實(VR)技術(shù)和視頻直播技術(shù)的發(fā)展，全景視頻的采集設備受到廣泛關(guān)注.然而制作全景視頻要求CPU和GPU都具有很強的處理能力，傳統(tǒng)的全景產(chǎn)品往往依賴于龐大的設備和后期處理，導致高功耗、低穩(wěn)定性、沒有實時性且不利于信息安全.為了解決這些問題，首先提出了L-ORB特征點提取算法，該算法優(yōu)化了分割視頻圖像的特征檢測區(qū)域以及簡化ORB算法對尺度和旋轉(zhuǎn)不變性的支持;然后利用局部敏感Hash(Multi-Probe LSH)算法對特征點進行匹配，用改進的樣本一致性(progressive sample consensus, PROSAC)算法消除誤匹配，得到幀圖像拼接映射關(guān)系，并采用多頻帶融合算法消除視頻間的接縫.此外，使用整合了ARM A57 CPU和Maxwell GPU的Nvidia Jetson TX1異構(gòu)嵌入式系統(tǒng)，利用其Teraflops的浮點計算能力和內(nèi)建的視頻采集、存儲、無線傳輸模塊，實現(xiàn)了多攝像頭視頻信息的實時全景拼接系統(tǒng)，有效地利用GPU指令的塊、線程、流并行策略對圖像拼接算法進行加速.實驗結(jié)果表明，算法在圖像拼接的特征提取、特征匹配等各個階段均有很好的性能提升，其算法速度是傳統(tǒng)ORB算法的11倍、傳統(tǒng)SIFT算法的639倍；系統(tǒng)較傳統(tǒng)的嵌入式系統(tǒng)性能提升了29倍，但其功耗低至10 W.

全景視頻；圖像拼接；異構(gòu)計算；嵌入式GPU；ORB

Fig. 1 Image stitching pipeline圖1 圖像拼接流程

全景視頻是在同一視點拍攝記錄全方位場景的視頻[1-3].全景視頻在視頻監(jiān)控、機器人視覺、數(shù)字城市、賽事直播以及新興的虛擬現(xiàn)實中都具有廣泛的應用領域.利用全景攝像獲取的全景視頻，可以在虛擬現(xiàn)實中進行任意角度的沉浸式交互漫游、旋轉(zhuǎn)以及縮放觀察[4]；將全景設備應用于軍事監(jiān)控，將提高部隊的戰(zhàn)場感知能力，進而增強部隊的單兵作戰(zhàn)能力；應用于無人機遙感、機器人視覺，將克服以往單一攝像頭視野有限的問題，增加探測及識別效率.

生成全景視頻需要對視頻中的每一幀進行圖像配準和圖像融合，如圖1所示.圖像配準的關(guān)鍵為特征提取[5].曹世翔等人[6]提出一種映速有效的邊緣特征點提取方法,實現(xiàn)多分辨率圖像的融合拼接.該方法通過構(gòu)建邊緣圖像的Gauss金字塔，從中提取穩(wěn)定的特征點完成圖像配準，并復用金字塔信息實現(xiàn)圖像融合,很大地縮短整體拼接的時間.Ethan Rublee于2011年提出ORB(oriented FAST and rotated BRIEF)算法[7]，對FAST角點加入尺度不變特性，解決了BRIEF(binary robust independent element feature)的旋轉(zhuǎn)不變性和噪聲敏感問題，效率較SIFT算法提升了100倍.姜桂圓等人[8]提出一種SIFT特征的分布式并行提取算法DP-SIFT，該算法根據(jù)SIFT特征算法特點，設計了高度寬度受限的數(shù)據(jù)塊劃分方法、數(shù)據(jù)分配方法以及特征信息調(diào)整方法，并優(yōu)化了數(shù)據(jù)分塊原則與數(shù)據(jù)發(fā)送策略，極大減少了數(shù)據(jù)通信時間，提高算法的效率.崔哲等人[9]提出了在CUDA并行計算環(huán)境下的擴展SURF算法，該算法在低分辨率下已經(jīng)滿足了實時性.Parker[10]在CUDA并行計算環(huán)境下應用ORB算法進行3D重建.智喜洋等人[11]實現(xiàn)了基于CUDA的實時圖像配準和定位系統(tǒng)，較CPU快20倍，且滿足實時處理的要求.

創(chuàng)建全景圖像需要經(jīng)過很復雜的采集及拼接過程，因此要求CPU和GPU都具有很強的處理能力[12].傳統(tǒng)的實時拼接設備配備了廣角鏡頭和FPGA等處理組件，其成像分辨率低且無法通過復雜算法對圖像進行細致的矯正[13]；此外，傳統(tǒng)的基于軟件的方法是不實時的[14-16]，因為圖像被攝像機捕獲之后，需要離線傳輸?shù)狡唇榆浖M行拼接.這為廣大學者提出了新的挑戰(zhàn).本文主要工作如下：

1) 提出了L-ORB圖像特征提取算法，該算法優(yōu)化分割了特征檢測區(qū)域，并對尺度不變性、旋轉(zhuǎn)不變性進行了簡化.然后利用多探尋的局部敏感Hash(Multi-Probe LSH)算法對特征點進行匹配，用改進的樣本一致性(progressive sample consensus, PROSAC)算法消除誤匹配，得到幀圖像拼接映射關(guān)系，并采用多頻帶融合算法消除視頻間的接縫.

2) 利用整合了ARM A57 CPU和Maxwell GPU的Nvidia Jetson TX1異構(gòu)嵌入式系統(tǒng)中Teraflops的浮點計算能力和內(nèi)建的視頻采集、存儲、無線傳輸模塊，實現(xiàn)了多攝像頭視頻信息的實時全景拼接系統(tǒng).有效地利用了GPU指令的塊、線程、流并行策略對圖像拼接算法進行加速.實驗結(jié)果表明本文的算法在圖像拼接的特征提取、特征匹配等各個階段均有很好的性能提升.

1 L-ORB圖像特征提取算法

傳統(tǒng)的圖像拼接需要對整個圖片的內(nèi)容進行特征點檢測及匹配，匹配到的特征點需要兼顧尺度不變與旋轉(zhuǎn)不變性.在全景攝像機群中，相機的相對位置和方向固定不變，通過預先矯正好的參數(shù)對圖像進行預處理，可以降低特征點檢測的時空復雜度.

L-ORB圖像特征提取算法首先通過相機之間的位置參數(shù)對圖像進行粗略的對齊，然后計算圖像的視野重合部分，得出特征點的分布范圍[17]，減少了檢測區(qū)域面積；L-ORB算法將FAST特征點與Harris角點度量方法相結(jié)合，并生成BRIEF特征描述因子，相對于原始的ORB算法簡化了尺度、旋轉(zhuǎn)不變性，使得效率大幅提升.

1.1 幾何調(diào)整以及分割特征檢測區(qū)域

圖像拼接需要提取圖片之間重疊區(qū)域的特征點，我們通過全景攝像機群的相對位置計算出每個相機視野的重疊區(qū)域，以減少特征點檢測的數(shù)據(jù)規(guī)模.全景攝像機群是將攝像機分散均勻地放置在以一個點為圓心等半徑的圓上，再與頂部、底部的攝像機構(gòu)成攝像機陣列[18].如圖2所示，A,B為2架攝像機，2架攝像機所在圓的半徑為r，角度為θ，攝像機視野的角度為θrange，L為物體到攝像機的距離，那么，重影區(qū)對應的角度

α=π-(η+β),

(1)

其中，

(2)

(3)

Fig. 2 Camera array圖2 攝像機陣列

重影區(qū)的角度α隨景物與攝像機距離L的增加而非線性增加，最終收斂到一個固定值.當景物與攝像機距離較近時，重疊區(qū)域差異明顯；景物與攝像機較遠時，差異趨于穩(wěn)定.通過對重影區(qū)域角度極值的測試分析得出，在不同攝像機群配置中，重影區(qū)域的面積處于10%～40%之間，如圖3所示.通過分割特征檢測區(qū)域，篩選出重影區(qū)域進行特征檢測，可縮短特征檢測和特征匹配的時間.

Fig. 3 Relationship between overlapping area and distance from object to camera圖3 重影區(qū)域與物體到相機距離的關(guān)系

1.2 基于Harris特征的FAST角點檢測

把圖像重疊區(qū)域的圖像進行粗略對齊后，圖像匹配所需要的特征點不需要尺度、旋轉(zhuǎn)不變性，因此我們對ORB算法中的oFAST和rBRIEF進行簡化，去掉其中的尺度、旋轉(zhuǎn)不變性以得到性能的提升.

FAST特征是由Rosten等人提出的一種快速特征檢測方法，不具有尺度不變性，且相比傳統(tǒng)的SIFT和SURF方法具有明顯的速度優(yōu)勢[19].FAST算法檢測的特征點定義為：若像素點P周圍鄰域內(nèi)有足夠多的連續(xù)像素點與該點相差較大，則認為該點是FAST特征點.但FAST特征點不具備角點的屬性，因此需要利用Harris角點[20]的度量方法，從FAST特征點中挑選出角點響應函數(shù)值最大的N個特征點，其中響應函數(shù)為R=detM-α(traceM)2.該方法具體步驟如算法1所示.

算法1. 基于Harris特征的FAST角點檢測方法.

輸入:圖像I;

輸出:圖像中的N個角點.

① 計算圖像I(x,y)在X和Y兩個方向的梯度Ix,Iy；

② 計算圖像2個方向梯度的乘積；

④ 計算圖像I的FAST角點；

⑤ 計算FAST角點的Harris響應值R，并刪除小于閾值t的角點；

⑥ 進行非極大值抑制，鄰域內(nèi)局部最大值點即為Harris角點；

⑦ 獲取Harris角點中響應值最大的N個角點.

1.3 BRIEF圖像特征描述因子

傳統(tǒng)的SIFT與SURF特征采用128 b和64 b浮點型數(shù)據(jù)作為特征描述因子，將占用大量的存儲空間且會增加特征匹配的時間.BRIEF利用圖像鄰域內(nèi)隨機點對的灰度關(guān)系來建立圖像特征描述因子，具有時間復雜度、空間復雜度低的特性[21].

BRIEF特征描述因子的建立首先需要平滑圖像，然后在特征點周圍一定范圍內(nèi)通過特定的方法來挑選出來nd個點對.對于每一個點對(p,q)，如果這2個點的亮度值I符合I(p)>I(q),則這個點對生成的值為1；如果I(p)

Fig. 4 Matching performance under synthetic rotations圖4 圖像旋轉(zhuǎn)角度與特征識別率的關(guān)系

當圖像旋轉(zhuǎn)角度大于45°時，BRIEF圖像特征描述因子的識別率幾乎0，因此不具有旋轉(zhuǎn)不變性；但當旋轉(zhuǎn)角度為15°以內(nèi)時，圖像的識別率大于70%，且旋轉(zhuǎn)角度越低，識別率越高；當旋轉(zhuǎn)角度極小時，識別率明顯高于其他方法，如圖4所示.在全景攝像機群中，對齊后的重疊圖像旋轉(zhuǎn)幅度僅僅在0～15°的范圍內(nèi)，使用BRIEF算法可以獲得相對于傳統(tǒng)方法更快的速度和更好的效果.

通過在ORB算法上對特征檢測區(qū)域的優(yōu)化分割，以及對尺度不變性、旋轉(zhuǎn)不變性的簡化，形成L-ORB圖像特征提取算法，詳見算法2.

算法2. L-ORB圖像特征提取算法.

輸入:n幅圖像；

輸出:P組特征描述因子.

① 對全部的n幅圖像分割為m個特征檢測區(qū)域；

② 對m個特征檢測區(qū)域進行FAST角點檢測；

③ 從FAST特征點中挑選出Harris角點響應值最大的P個特征點；

④ 把P個Harris特征點建立BRIEF圖像特征描述因子.

2 基于LSH的特征點匹配算法

特征點匹配是將2幅圖片重影區(qū)域描述因子相同的特征點進行匹配，從而確定2張圖片的對應關(guān)系.在圖像重合后，其相匹配的特征點相鄰的概率很大，因此通過近似最鄰近查找(ANN)可以將搜索范圍由全部特征點的集合減小為相鄰特征點的集合，相對于線性搜索、K臨近搜索(KNN)等算法具有更小的空間復雜度和時間復雜度.

2.1 局部敏感Hash(Multi-Probe LSH)特征點搜索

LSH是ANN中一種比較快速的方法.原始的LSH利用多個Hash函數(shù)通過對向量對象進行Hash映射對數(shù)據(jù)進行降維.通過對查詢向量進行多次Hash操作，綜合多個Hash表中的查詢操作得到最終的結(jié)果.為了保證涵蓋大部分近鄰數(shù)據(jù)，原始的LSH索引需要建立很多Hash表，空間復雜度很高.Lü等人提出Multi-Probe LSH算法[22]，使用一個經(jīng)過仔細推導出的探測序列，得到和查詢數(shù)據(jù)近似的多個Hash桶，增加了查找近鄰數(shù)據(jù)的機會.

2.2 PROSAC特征點篩選

在圖像匹配過程中，可能會有各種原因產(chǎn)生匹配錯誤的外點(outliers).如果在進行圖像融合時引入了外點，則會給圖像融合帶來很大的錯誤.因此必須去除外點，選擇正確的內(nèi)點(inliers)進行參數(shù)的估計.在這里采用改進的樣本一致性(progressive sample consensus, PROSAC)[23]算法來去除誤匹配點,使得接下來求得的參數(shù)矩陣會更加接近真實值.

傳統(tǒng)的RANSAC算法隨機抽取樣本，忽略了樣本之間的好壞差異，效率低下.PROSAC算法將樣本按質(zhì)量進行排序，從較高質(zhì)量的數(shù)據(jù)子集中抽取樣本.經(jīng)過若干次的假設、驗證后，得到最優(yōu)解.效率為RANSAC的100倍且魯棒性更高.

基于LSH的特征點匹配算法由Multi-Probe LSH特征點搜索和PROSAC特征點篩選組成，其具體步驟如算法3所示.

算法3. 基于LSH的特征點匹配算法.

輸入:2幅圖片的特征點集合；

輸出:篩選好的特征點對.

① 對特征點集合使用Multi-Probe LSH進行特征點匹配；

② 利用PROSAC算法去除錯誤匹配.

重復以下步驟直到找到滿意的結(jié)果

Ⅰ 將匹配好的特征點對按照匹配質(zhì)量將數(shù)據(jù)從好到差排序，然后選取前n個較高質(zhì)量的數(shù)據(jù)；

Ⅱ 從n個數(shù)據(jù)中隨機取出m個，計算模型參數(shù)和內(nèi)點的數(shù)量；

Ⅲ 驗證模型參數(shù).

3 基于CUDA的GPU并行化視頻拼接算法

本文提出的L-ORB和LSH算法需要對圖像進行復雜矩陣的運算，CPU的串行處理模式性能無法滿足實時性要求.統(tǒng)一計算架構(gòu)(compute unified device architecture, CUDA)是由NVIDIA提出的并由其制造的圖形處理單元(GPUs)實現(xiàn)的一種并行計算平臺及程序設計模型，對大量并發(fā)線程的并發(fā)流架構(gòu)具有很好的加速能力[24-25].我們利用GPU的眾核運算特性，把本文提到的算法由串行執(zhí)行轉(zhuǎn)化為并行執(zhí)行，利用CUDA架構(gòu)對并發(fā)的矩陣運算進行加速可以成倍提高視頻拼接速度.

3.1 塊、線程并行

CUDA函數(shù)中存在塊和線程2個層次的并行方式，各個塊之間互相獨立，但同一塊中的線程可以通過共享存儲器來交換數(shù)據(jù).CPU通過優(yōu)先級和時間片論轉(zhuǎn)法實現(xiàn)線程調(diào)度；而GPU上線程只有等待資源和執(zhí)行2種狀態(tài)，如果資源滿足運行條件就會立即執(zhí)行.當GPU資源充裕時，所有線程都是并發(fā)執(zhí)行的，加速效果很接近理論加速比;而GPU資源少于總線程個數(shù)時，有一部分線程就會等待前面執(zhí)行的線程釋放資源，從而變?yōu)榇谢瘓?zhí)行.

對L-ORB算法進行CUDA并行加速的關(guān)鍵是把算法原本串行計算的部分分割成多個子任務.對于FAST特征提取、非極大值抑制、建立BRIEF圖像描述因子、圖像的變換，均滿足可拆分成多個計算過程相同且數(shù)據(jù)互不相關(guān)子任務的條件，對全景視頻實時拼接算法的GPU并行化設計如下：

算法4. 全景視頻實時拼接算法.

輸入:多個攝像頭同時采集不同方向的視頻；

輸出:全景視頻.

① 根據(jù)預先矯正的參數(shù)，對每個攝像頭采集的視頻利用GPU進行裁剪和變換；

② 對特征檢測區(qū)域內(nèi)的每個像素進行并行檢測，篩選出符合FAST特征點的像素，并計算出其Harris響應值；

③ 利用GPU對每個符合FAST特征點的像素進行非極大值抑制；

④ 獲取Harris角點中響應值最大的P個角點，并建立BRIEF圖像特征描述因子；

⑤ 把2個視頻中提取的角點進行匹配及篩選，并計算出變換矩陣；

⑥ 使用GPU對視頻進行變換，并融合成全景視頻.

3.2 流并行

圖像拼接的串行CUDA編程模式分為3步：1)將圖像從主內(nèi)存上傳到GPU內(nèi)存;2)在GPU上順序執(zhí)行角點檢測、特征匹配、圖像融合;3)將結(jié)果從GPU內(nèi)存下載到主內(nèi)存，如圖5(a)所示.然而圖像數(shù)據(jù)從主內(nèi)存到GPU內(nèi)存的傳輸速度依賴于PCI-E總線的帶寬，數(shù)據(jù)傳輸過程中會導致GPU運算資源閑置,且GPU在執(zhí)行單個任務時會導致流處理器資源閑置.

CUDA stream把程序的指令分為多個操作隊列，可以實現(xiàn)隊列之間的操作并行.由于不同stream的操作是異步執(zhí)行的，我們通過精心構(gòu)造操作隊列，使得隊列之間互相協(xié)調(diào)來充分利用GPU資源.利用CUDA stream，在上傳第2張圖像的同時可以對第1張圖像進行角點檢測；且可以對多副圖像同時進行角點檢測、特征匹配等GPU操作，大大節(jié)約了時間，提升了效率，如圖5(b)所示.

Fig. 5 CUDA stream list圖5 圖像拼接的CUDA 流并行隊列

4 實驗分析

本文CUDA和CPU實驗在Ubuntu 14.04 LTS 環(huán)境下使用配置為Intel Core i7-6700HQ，RAM 16 GB，NVIDIA GeForce GTX 970M 的Terrans Force X411計算機運行；嵌入式實驗使用NVIDIA TX1開發(fā)板;使用了 NVIDIA CUDA Toolkit 8.0 和 OpenCV 3.2.0等軟件開發(fā)包.

4.1 準確性實驗

為驗證本文提出算法的準確性，我們使用了Adobe Panoramas Dataset等圖片集進行了圖片拼接測試，如圖6(a)～(b)所示.圖6(c)～(e)分別為傳統(tǒng)的SIFT、傳統(tǒng)的ORB和本文的L-ORB特征點提取及匹配的結(jié)果.其中，圓圈表示算法提取的特征點，連線表示算法匹配到的特征點對，三角形表示匹配錯誤的特征點對.從圖6(c)～(e)中可看出，SIFT算法提取了大量的特征點，但匹配的特征點對占比較少；傳統(tǒng)的ORB算法準確率不高，產(chǎn)生了錯誤匹配；本文的L-ORB算法在相較于SIFT算法提取較少特征點的前提下，匹配到大量有效的的特征點，且準確率高于傳統(tǒng)的ORB算法.圖6(f)為2張圖片拼接后的結(jié)果.實驗證明我們的算法能夠有效地匹配到有效的特征點并完成圖像拼接.

4.2 實時性實驗

為了驗證本文提出算法的實時性，我們進行了一系列實驗.我們用SIFT，SURF，ORB，L-ORB對分辨率為800×600,1 920×1 080,2 034×1 728像素的視頻進行特征點檢測，如圖7所示.結(jié)果證明，在Intel i7 2.8 GHz單線程下，采用本文的L-ORB特征提取算法可將時間縮短為ORB算法的1/3，是傳統(tǒng)SIFT算法的1/1 000.

Fig. 7 Comparison of feature detection algorithm efficiency圖7 不同算法對圖像特征提取效率的對比

Fig. 8 Comparison of different algorithms in three stages of image stitching圖8 不同算法在圖像拼接3個階段的時間對比

我們使用SIFT,SURF,ORB,L-ORB,L-ORB+GPU分別對實時采集的2 304×1 728 pixels視頻進行拼接，記錄每個階段的拼接時間.實驗證明，本文提出的L-ORB+GPU算法在圖像拼接的特征提取、特征匹配等各個階段均有很好的性能提升，其算法速度是傳統(tǒng)ORB算法的11倍、傳統(tǒng)SIFT算法的639倍，如圖8所示:

為了驗證CUDA Stream的有效性，我們使用NVIDIA TX-1分別對不同分辨率、不同攝像頭個數(shù)、長度為1 000幀的視頻進行拼接，并計算出拼接每幀圖片時間的平均值.圖9(a)展示了是否使用CUDA Stream對2～7個視頻進行拼接的時間，實驗證明，CUDA Stream對各種分辨率的視頻拼接均有明顯的加速效果.圖9(b)展示了拼接2～11個視頻流時使用CUDA Stream與未使用CUDA Stream平均每幀節(jié)約的時間，因為不同分辨率視頻采集的內(nèi)容不同，提取角點數(shù)量不同，且磁盤I/O和圖像的壓縮算法都會影響拼接時間，在此不對不同分辨率做比較.實驗證明，在GPU資源足夠時，性能隨著視頻流的增多而提高.

Fig. 9 Performance improvement using CUDA stream圖9 CUDA Stream加速的性能提升

我們使用L-ORB算法分別在BeagleBone Black，Raspberry Pi 3B，NVIDIA TX-1 CPU，NVIDIA TX-1 GPU四種嵌入式開發(fā)版中對大小為2 304×1 728 pixels的同一組數(shù)據(jù)集進行圖像拼接實驗.實驗結(jié)果如圖10所示，本文提出的算法在NVIDIA TX-1 GPU中的拼接速度較同類速度最快的Raspberry Pi 3B提升29.2倍.

Fig. 10 Comparison of image splicing time in embedded devices圖10 嵌入式設備中圖像拼接時間對比

5 總結(jié)

本文提出了L-ORB特征提取算法，該算法減少了特征點檢測區(qū)域，簡化了傳統(tǒng)ORB算法對尺度、旋轉(zhuǎn)不變性的支持，降低了算法的時間復雜度；并利用GPU塊、線程、流并行方法對該算法進行加速優(yōu)化，進一步提升了算法的運行效率.此外還設計實現(xiàn)了一種全景視頻實時拼接系統(tǒng)，解決了傳統(tǒng)方法不能滿足全景視頻拼接實時性的問題.實驗結(jié)果表明，本文提出的方法可以頻率為60 Hz的視頻進行拼接，滿足實時性.我們進一步的研究工作將對利用剩余運算資源對融合算法進行優(yōu)化，提高全景視頻質(zhì)量.

[1]Gaddam V R, Riegler M, Eg R, et al. Tiling in interactive panoramic video: Approaches and evaluation[J]. IEEE Trans on Multimedia, 2016, 18(9): 1819-1831

[2]Wang X, Tieu K, Grimson W E L. Correspondence-free multi-camera activity analysis and scene modeling[C] //Proc of 2008 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2008: 1-8

[3]Wang Xiaogang. Intelligent multi-camera video surveillance: A review[J]. Pattern Recognition Letters, 2013, 34(1): 3-19

[4]Wu Yuezhou, Liu Changjiang, Lan Shiyong, et al. Real-time 3D road scene based on virtual-real fusion method[J]. IEEE Sensors Journal, 2015, 15(2): 750-756

[5]Zeng Dan, Chen Jian, Zhang Qi, et al. Global topology based image stitching using hierarchical triangulation[J]. Journal of Computer Research and Development, 2012, 49(1): 144-151 (in Chinese)

(曾丹, 陳劍, 張琦, 等. 基于全局拓撲結(jié)構(gòu)的分級三角剖分圖像拼接[J]. 計算機研究與發(fā)展, 2012, 49(1): 144-151)

[6]Cao Shixiang, Jiang Jie, Zhang Guangjun, et al. Multi-scale image mosaic using features from edge[J]. Journal of Computer Research and Development, 2011, 48(9): 1788-1793 (in Chinese)

(曹世翔, 江潔, 張廣軍, 等. 邊緣特征點的多分辨率圖像拼接[J]. 計算機研究與發(fā)展, 2011, 48(9): 1788-1793)

[7]Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF[C] //Proc of 2011 Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2011: 2564-2571

[8]Jiang Guiyuan, Zhang Guiling, Zhang Dakun. A distributed parallel algorithm for SIFT feature extraction[J]. Journal of Computer Research and Development, 2012, 49(5): 1130-1141 (in Chinese)

(姜桂圓, 張桂玲, 張大坤. SIFT特征分布式并行提取算法[J]. 計算機研究與發(fā)展, 2012, 49(5): 1130-1141)

[9]Cui Zhe, Meng Fanrong, Yao Rui, et al. Multi-video fusion with extended SURF based on CUDA parallel computing framework[J]. Journal of Nanjing University (Natural Sciences), 2016, 52(4): 627-637 (in Chinese)

(崔哲, 孟凡榮, 姚睿, 等. CUDA并行計算下基于擴展SURF的多攝像機視頻融合方法[J]. 南京大學學報: 自然科學版, 2016, 52(4): 627-637)

[10]Parker C, Daiter M, Omar K, et al. The CUDA LATCH binary descriptor: Because sometimes faster means better[C] //Proc of 2016 Computer Vision-ECCV Workshops. Berlin: Springer, 2016: 685-697

[11]Zhi Xiyang, Yan Junhua, Hang Yiqing, et al. Realization of CUDA-based real-time registration and target localization for high-resolution video images[J]. Journal of Real-Time Image Processing, 2016: 1-12

[12]Brown M, Lowe D G. Automatic panoramic image stitching using invariant features[J]. International Journal of Computer Vision, 2007, 74(1): 59-73

[13]Peng Bo, He Bin. Application and realization of FPGA in video mosaicing[J]. Computer Engineering and Design, 2013, 34(5): 1635-1639 (in Chinese)

(彭勃, 何賓. FPGA 在視頻拼接中的應用與實現(xiàn)[J]. 計算機工程與設計, 2013, 34(5): 1635-1639)

[14]Xiong Y, Pulli K. Fast panorama stitching for high-quality panoramic images on mobile phones[J]. IEEE Trans on Consumer Electronics, 2010, 56(2): 298-306

[15]Cha J H, Jeon Y S, Moon Y S, et al. Seamless and fast panoramic image stitching[C] //Proc of 2012 IEEE Int Conf on Consumer Electronics (ICCE). Piscataway, NJ: IEEE, 2012: 29-30

[16]Anderson R, Gallup D, Barron J T, et al. Jump: Virtual reality video[J]. ACM Trans on Graphics, 2016, 35(6): 198

[17]Zhu Z, Hanson A R. Mosaic-based 3D scene representation and rendering[J]. Signal Processing: Image Communication, 2006, 21(9): 739-754

[18]Tzavidas S, Katsaggelos A K. A multicamera setup for generating stereo panoramic video[J]. IEEE Trans on Multimedia, 2005, 7(5): 880-890

[19]Rosten E, Drummond T. Machine learning for high-speed corner detection[C] //Proc of European Conf on Computer Vision. Berlin: Springer, 2006: 430-443

[20]Harris C, Stephens M. A combined corner and edge detector[C] //Proc of the Alvey Vision Conf. Manchester, UK: Alvey Vision Club, 1988: 147-151

[21]Calonder M, Lepetit V, Strecha C, et al. Brief: Binary robust independent elementary features[C] //Proc of European Conf on Computer Vision. Berlin: Springer, 2010: 778-792

[22]Lv Qin, Josephson W, Wang Zhe, et al. Multi-probe LSH: Efficient indexing for high-dimensional similarity search[C] //Proc of the 33rd Int Conf on Very Large Data Bases. New York: ACM, 2007: 950-961

[23]Chum O, Matas J. Matching with PROSAC-progressive sample consensus[C] //Proc of 2005 IEEE Computer Society Conf on Computer Vision and Pattern Recognition (CVPR’05). Piscataway, NJ: IEEE, 2005: 220-226

[25]De Angelis F, Gentile F, Mecarini F, et al. Breaking the diffusion limit with super-hydrophobic delivery of molecules to plasmonic nanofocusing SERS structures[J]. Nature Photonics, 2011, 5(11): 682-687

Du Chengyao, born in 1992. MSc candidate. His main research interests include computer architecture and computer vision.

Yuan Jingling, born in 1975. PhD. Professor, PhD supervisor. Senior member of CCF. Her main research interests include green computing, machine learning and data mining.

Chen Mincheng, born in 1990. PhD candidate. His main research interests include green computing and data mining.

Li Tao, born in 1972. PhD. Professor, PhD supervisor. His main research interests include computer architecture and green computing.

Real-Time Panoramic Video Stitching Based on GPU Acceleration Using Local ORB Feature Extraction

Du Chengyao1, Yuan Jingling1,2, Chen Mincheng1, and Li Tao3

1(SchoolofComputerScienceandTechnology,WuhanUniversityofTechnology,Wuhan430070)2(HubeiKeyLaboratoryofTransportationInternetofThings(WuhanUniversityofTechnology),Wuhan430070)3(DepartmentofElectricalandComputerEngineering,UniversityofFlorida,Gainesville,FL,USA32611)

Panoramic video is a sort of video recorded at the same point of view to record the full scene. The collecting devices of panoramic video are getting widespread attention with the development of VR and live-broadcasting video technology. Nevertheless, CPU and GPU are required to possess strong processing abilities to make panoramic video. The traditional panoramic products depend on large equipment or post processing, which results in high power consumption, low stability, unsatisfying performance in real time and negative advantages to the information security. This paper proposes a L-ORB feature detection algorithm. The algorithm optimizes the feature detection regions of the video images and simplifies the support of the ORB algorithm in scale and rotation invariance. Then the features points are matched by the multi-probe LSH algorithm and the progressive sample consensus (PROSAC) is used to eliminate the false matches. Finally, we get the mapping relation of image mosaic and use the multi-band fusion algorithm to eliminate the gap between the video. In addition, we use the Nvidia Jetson TX1 heterogeneous embedded system that integrates ARM A57 CPU and Maxwell GPU, leveraging its Teraflops floating point computing power and built-in video capture, storage, and wireless transmission modules to achieve multi-camera video information real-time panoramic splicing system, the effective use of GPU instructions block, thread, flow parallel strategy to speed up the image stitching algorithm. The experimental results show that the algorithm mentioned can improve the performance in the stages of feature extraction of images stitching and matching, the running speed of which is 11 times than that of the traditional ORB algorithm and 639 times than that of the traditional SIFT algorithm. The performance of the system accomplished in the article is 59 times than that of the former embedded one, while the power dissipation is reduced to 10 W.

panoramic video; image stitching; heterogeneous computing; embedded GPU; oriented FAST and rotated BRIEF (ORB)

2017-02-27；

2017-04-13

國家自然科學基金項目(61303029) This work was supported by the National Natural Science Foundation of China (61303029).

袁景凌(yuanjingling@126.com)

TP391.41

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

GPU加速與L-ORB特征提取的全景視頻實時拼接

1 L-ORB圖像特征提取算法

2 基于LSH的特征點匹配算法

3 基于CUDA的GPU并行化視頻拼接算法

4 實驗分析

5 總 結(jié)

5 總結(jié)