楊璽 雷航 錢偉中 曾一芳 王旭鵬
摘 要:????? 針對三維點云時敏單目標跟蹤問題,提出了一種基于深度霍夫優(yōu)化投票的深度學習算法。首先, 采用PointNet++網(wǎng)絡(luò)分別從模板點云和搜索點云中計算種子點、提取幾何特征,并通過面向目標的特征提取方法將目標模板信息編碼到搜索區(qū)域中。其次,通過種子點投票計算并篩選出具有高置信度的潛在目標中心。最后,通過目標中心點的采樣、聚集產(chǎn)生多個提議,選取具有最高得分的提議生成三維目標框。該算法能夠有效避免耗時的三維全局搜索,且對點云的無序性、不規(guī)則性和稀疏性保持魯棒。為了驗證該網(wǎng)絡(luò)的有效性,在公共數(shù)據(jù)集KITTI上進行測試。實驗結(jié)果表明,該網(wǎng)絡(luò)相較于當前最好的基于三維點云的方法,準確度提高了約10%,并可以在單個NVIDIA2080S圖形處理器上以43.5 FPS運行。
關(guān)鍵詞:???? 時敏目標;? 單目標;?? 目標跟蹤; 點云數(shù)據(jù); 霍夫投票; 深度學習; 人工智能
中圖分類號:???? TJ760; TN911.73
文獻標識碼:??? A
文章編號:???? 1673-5048(2022)02-0045-07
DOI: 10.12132/ISSN.1673-5048.2020.0238
0 引? 言
基于點云數(shù)據(jù)的三維時敏單目標跟蹤是自動駕駛和機器人視覺等相關(guān)領(lǐng)域應(yīng)用的基礎(chǔ)[1-3]?,F(xiàn)有的三維目標跟蹤算法[4-8]大都繼承二維目標跟蹤的經(jīng)驗,對于RGB信息有很強的依賴性。但當環(huán)境因素變化導致RGB信息退化時,這些算法的性能會變得很差甚至失效。三維點云數(shù)據(jù)描述場景的幾何信息,其采集過程不受光照變化的影響,相較于RGB信息更適用于目標跟蹤任務(wù)。然而,三維點云數(shù)據(jù)的不規(guī)則性、無序性和稀疏性,導致傳統(tǒng)二維目標跟蹤算法(如基于孿生神經(jīng)網(wǎng)絡(luò)的算法[9])無法直接應(yīng)用,給三維時敏單目標跟蹤帶來巨大的挑戰(zhàn)。
為了解決上述問題,本文提出了一種基于深度霍夫優(yōu)化投票[10]的端到端時敏單目標跟蹤算法。首先,從模板點云和搜索點云中提取種子點,采用面向目標的特征提取方法編碼目標信息; 然后,通過投票和篩選生成高置信度的潛在目標中心; 最后,執(zhí)行聯(lián)合提議和驗證生成預(yù)測結(jié)果。通過在KITTI跟蹤數(shù)據(jù)集[11]上進行實驗驗證,本文提出的算法在成功率和精準度上都顯著優(yōu)于當前最先進的算法[12],且可在單個NVIDIA2080S圖形處理器上以43.5 FPS運行。
1 基礎(chǔ)理論
1.1 三維目標跟蹤
目前常用的目標跟蹤算法[4-8,13]有RGB或RGB-D信息,對基于點云的三維目標跟蹤算法的研究相對較少[10]。主要存在以下問題: (1)過于依賴RGB信息,在光照變化劇烈或極端天氣情況下,RGB視覺信息的質(zhì)量變差甚至無法獲取,會極大地限制算法的性能。(2)除此之外,一些算法[6-8]專注于生成二維目標框,相較于三維目標框,由于缺少一個維度的信息無法精確地表示目標在空間中的位置信息?;谛螤钛a全的三維孿生跟蹤[12]是目前唯一僅使用點云數(shù)據(jù)的三維目標跟蹤算法,該算法通過在點云和三維目標提議上進行深度學習,取得了三維目標跟蹤的最好結(jié)果,但因為其在三維全局進行搜索,存在計算復雜度過高的問題。
1.2 二維目標跟蹤
許多先進的二維目標跟蹤算法[14-25]大都基于孿生神經(jīng)網(wǎng)絡(luò)。如圖1所示,孿生神經(jīng)網(wǎng)絡(luò)通常包含兩個分支,分別用于處理模板區(qū)域和搜索區(qū)域。其通過結(jié)構(gòu)相同且權(quán)重共享的兩個子網(wǎng)絡(luò), 輸出映射到高維度空間的
特征表示,用于比較兩個區(qū)域的相似程度。在此基礎(chǔ)上,
結(jié)合區(qū)域候選網(wǎng)絡(luò)可以實現(xiàn)高性能的二維目標跟蹤[23]。后續(xù)許多研究[17,19-22]都建立在這套框架之上并取得了不錯的性能。但是,上述算法均以二維卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),而點云的不規(guī)則性導致傳統(tǒng)二維的卷積操作無法直接應(yīng)用到點云數(shù)據(jù)。所以,本文的工作是以二維孿生跟蹤框架為基礎(chǔ),將其擴展用于解決三維目標跟蹤。
1.3 點云深度學習
目前,點云深度學習越來越受到大家的關(guān)注[26-27]。但由于點云的無序性、稀疏性和不規(guī)則性,許多在二維視覺中成熟的算法無法應(yīng)用到點云上。為此,許多學者在三維目標識別[28-29]、三維目標檢測[10,30-32]、三維目標姿態(tài)估計[33-35]和三維目標跟蹤[12]方向都進行了相關(guān)研究,以解決在三維點云場景下的各類問題。
基于形狀補全的三維孿生跟蹤算法[12]雖然取得了不錯的結(jié)果,但該算法不能執(zhí)行端到端的訓練,且在三維全局空間進行搜索計算,復雜度較高。為解決這一問題,本文提出了一種端到端的三維目標跟蹤算法。
1.4 霍夫投票
霍夫投票[36]是基于廣義的霍夫變換[37],提出的一種學習物體形狀表示的方法,可以有效地將不同訓練樣本上觀察到的信息結(jié)合在一起?;谶@一思想,霍夫投票與深度學習相結(jié)合,提出了一個可訓練的端到端深度網(wǎng)絡(luò)[10],用于解決點云中的三維目標檢測問題。該網(wǎng)絡(luò)通過聚合目標的局部上下文信息進行聯(lián)合提議和驗證,取得了很好的結(jié)果。如何有效地結(jié)合霍夫投票和深度學習網(wǎng)絡(luò)來實現(xiàn)三維目標跟蹤,同時進一步優(yōu)化投票的選擇,是本文專注解決的問題。
2 時敏單目標跟蹤算法
給定目標模板點云Ptemp={pi=(xi, yi, zi)}N1i=1和搜索空間點云Psea={si=(xi, yi, zi)}N2i=1,目標跟蹤算法預(yù)測目標在搜索空間中的位置信息Φ。其中: N1為模板點云中點的數(shù)量; N2為搜索點云中點的數(shù)量; Φ由目標中心的坐標以及X-Y平面的旋轉(zhuǎn)角度構(gòu)成。
本文提出的基于深度霍夫優(yōu)化投票[10]的時敏單目標跟蹤算法以模板點云和搜索點云作為輸入,由面向目標的特征提取、潛在目標中心的生成、聯(lián)合提議和驗證以及模板點云的更新四部分組成,如圖2所示。
面向目標的特征提?。▓D2(a))使用PointNet++網(wǎng)絡(luò)[27]提取模板點云Ptemp和搜索點云Psea的幾何特征并生成模板種子點集Q和搜索種子點集R,通過計算Q和R的相似度矩陣T將目標信息編碼到搜索空間中,生成編碼了目標信息的搜索種子點集D; 潛在目標中心的生成階段(圖2(b)),每個編碼后的搜索種子點dj通過投票產(chǎn)生對應(yīng)的潛在目標中心點cj,并基于置信度得分B從潛在目標中心C中篩選出具有高置信度的潛在目標中心E; 聯(lián)合的提議和驗證階段(圖2(c)),采樣和聚集高可信度的潛在目標中心E,產(chǎn)生K個提議,具有最高得分的提議作為最終的預(yù)測結(jié)果Φ; 模板點云的更新階段(圖2(d))采用模板點云更新策略γ,基于前一幀目標的預(yù)測結(jié)果更新模板點云Ptemp。該算法充分挖掘模板和搜索空間中目標的相似性,有效應(yīng)對點云的無序性和不規(guī)則性以及目標外觀變化,能夠高效穩(wěn)定地對場景中的時敏單目標進行持續(xù)跟蹤。
單個目標表面的點可以直接生成目標提議,但是由于單個目標表面的點只捕獲了目標的局部信息,無法有效地描述目標的全局信息,所以無法得到目標在三維空間中的精確位置。而本文提出的基于優(yōu)化的深度霍夫投票算法,先把目標表面的每一個點回歸到物體中心,再聚集目標的候選中心點生成提議,可以獲取目標更多的全局信息,從而得到更加準確的檢測結(jié)果。
3 實? 驗
為了驗證本文提出的基于深度霍夫優(yōu)化投票的三維時敏單目標跟蹤算法,在KITTI跟蹤數(shù)據(jù)集[11](使用激光雷達掃描空間獲取點云)上進行了一系列的實驗。采用一次通過評估(OPE)[39]來評估不同方法的成功率和精準率。成功率是目標預(yù)測框和目標真實框之間的IOU。精準率是在0~2 m(目標預(yù)測框中心和目標真實框中心的距離)內(nèi)誤差的AUC。
3.1 實驗配置
3.1.1 數(shù)據(jù)集
因為KITTI測試集[11]的真實值無法獲得,本文僅使用訓練集來訓練和測試本文提出的算法。該數(shù)據(jù)集包含21個室外場景和8種類型的目標。由于KITTI數(shù)據(jù)集中汽車數(shù)據(jù)具有最高的質(zhì)量和多樣性,本文主要考慮汽車為目標的跟蹤,并進行了消融實驗、定量實驗以及定性實驗。除此之外,為了進一步驗證算法的性能,還對其他3種目標(如行人、貨車和自行車)進行了實驗。
本文為所有視頻中的目標實例逐幀生成了軌跡,并將數(shù)據(jù)集分割如下: 場景0~16用于訓練,場景17~18用于驗證,場景19~20用于測試。
3.1.2 實施細節(jié)
對于模板點云和搜索點云,本文通過隨機放棄或復制的方式,把模板點云中的點的數(shù)量歸一化到N1=512,搜索點云中的點的數(shù)量歸一化到N2=512。本文采用PointNet++網(wǎng)絡(luò)[27]提取點云的幾何特征,網(wǎng)絡(luò)由3個下采樣層組成,每層的感知球半徑依次為0.3, 0.5, 0.7, 即每層都從當前點集中采樣一半的點,產(chǎn)生了M1=64個模板種子點和M2=128個搜索種子點,輸出特征的維度為d1=256。本文的多層感知機包含3層,每層的大小均為256,即d2=256。對于采樣和聚集生成提議,采樣K=32個潛在目標中心點并聚集在其R=0.3 m內(nèi)領(lǐng)域的點生成提議。
使用Adam優(yōu)化器[40]優(yōu)化模型參數(shù),batch大小為12,學習率最初為0.001,在訓練集迭代10次后變?yōu)橹暗?.2。
在測試階段,使用訓練后的網(wǎng)絡(luò)逐幀預(yù)測目標位置信息生成三維目標框,前一幀的預(yù)測結(jié)果放大2 m,作為后續(xù)搜索區(qū)域點云。
3.2 消融實驗
3.2.1 特征提取方式
為了驗證本文提出的面向目標特征提取方式的有效性,將提出的算法和其他4種算法進行對比,包括: 在合并相似度矩陣和模板種子點時,分別移除模板種子點和搜索種子點的相似度特征、移除模板種子點的特征、移除模板種子的坐標以及添加搜索種子點的特征。實驗結(jié)果如表1所示。
從表1可看出,在移除相似度特征后,模型的成功率下降了4.6%,精準率下降了3.7%; 在移除模板特征后,成功率下降了1.0%,精準率下降了1.9%。這驗證了這些部分在默認設(shè)置中的作用。而在添加了搜索種子點的特征后并沒有對性能有太大的提升,甚至降低了精準率。這表明,搜索種子點的特征只是捕獲了場景中的上下文信息而非目標的信息,對于目標跟蹤任務(wù)沒有幫助。而本文采用的方法編碼了模板中豐富的目標信息,能夠產(chǎn)生更加可靠的提議,用于后續(xù)目標的精準定位。
3.2.2 對潛在目標進行篩選的有效性
根據(jù)潛在目標中心的置信度得分,進一步篩選出具有高置信度的潛在目標中心,能夠產(chǎn)生更好的提議。本文通過刪除對潛在目標進行篩選,以驗證該算法的有效性。實驗結(jié)果如表2所示。
從表2中可以看出,對潛在目標的篩選將模型的準確率提升了2.2%,成功率增加了3.0%。這表明,對潛在目標進行篩選以提高提議的質(zhì)量,能夠顯著地提高時敏單目標跟蹤的精確度
3.2.3 對不同提議數(shù)量的魯棒性
本文測試提出的算法和基于形狀補全的三維孿生跟蹤算法(SC3D)[12]在不同數(shù)量的提議下的成功率和精準率如圖3所示??梢钥闯?,即使在只生成10個提議的情況下,本文提出的算法也獲得了令人滿意的表現(xiàn),但是SC3D[12]的性能隨著提議數(shù)量的減少急劇下降。這說明本文提出的算法可以高效地生成高質(zhì)量的提議,使得在提議數(shù)量減少時仍然可以保持穩(wěn)定。
3.3 定量分析
SC3D[12]是當前唯一一個基于點云的三維目標跟蹤算法,將本文提出的算法與SC3D[12]在跟蹤汽車、行人、貨車和自行車上的表現(xiàn)進行對比,實驗結(jié)果如表3所示。
從表3中可以看出,本文提出的算法與SC3D[12]相比,在成功率及精準率上均高出了約10%,在數(shù)據(jù)豐富的汽車和行人數(shù)據(jù)集上具有十分明顯的優(yōu)勢。但是,在數(shù)據(jù)量較少的貨車和自行車上性能有所下降。這可能是因為該網(wǎng)絡(luò)依賴于豐富的數(shù)據(jù)來學習更好的網(wǎng)絡(luò),特別是在生成潛在目標中心時。相比之下,SC3D[12]只需要較少的數(shù)據(jù)就可以滿足兩個區(qū)域間的相似度測量。為了進一步驗證這種想法,使用在汽車數(shù)據(jù)上訓練好的模型來測試貨車,因為汽車和貨車具有較高的相似性。如預(yù)期的一樣,模型的性能從原來的成功率/精準率: 40.6%/48.1%變成了成功率/精準率: 52.4%/62.8%,而SC3D從成功率/精準率: 40.4%/47.0%變成了成功率/精準率: 37.2%/45.9%。
3.4 定性分析
圖4展示了本文提出的算法在KITTI數(shù)據(jù)集上對單目標即汽車的跟蹤過程,同時,與當前性能最好的SC3D算法進行了對比。
從圖4中可以看出,本文提出的算法可以很好地對目標進行跟蹤,在連續(xù)多幀中都可以準確地捕獲到目標中心。同時,可以看到,即使在第120幀目標點云已經(jīng)十分稀疏時,該算法仍然能夠得到滿意的結(jié)果。
3.5 復雜度分析
本文在KITTI測試集上跟蹤汽車目標來驗證提出算法的復雜度。具體而言,通過計算測試集所有幀汽車跟蹤的平均時間,來計算模型的運行速度。
在NVIDIA2080S圖形處理器上,本文提出的模型以43.5 FPS運行(包括處理點云的7.2 ms、模型計算14.7 ms以及后處理1.1 ms),相較而言SC3D以1.6 FPS運行,本文提出的算法具有更低的計算復雜度。
4 結(jié)? 論
本文提出了一種基于深度霍夫投票的三維時敏單目標跟蹤算法。主要貢獻如下:
(1) 提出了一個基于三維點云的端到端時敏單目標跟蹤算法,該算法可以高效穩(wěn)定地對場景中的時敏單目標進行持續(xù)跟蹤,得到單目標連續(xù)的運動軌跡。
(2) 提出了一種面向目標的特征提取方法,該方法充分挖掘模板和搜索空間中目標的相似性,將目標模板中的信息有效地編碼到搜索空間中,為目標跟蹤提供高鑒別力的特征信息,同時該方法對點云的無序性和不規(guī)則性保持魯棒。
(3) 提出了一個基于深度霍夫優(yōu)化投票的時敏單目標跟蹤算法,該算法能夠篩選并編碼目標局部信息,有效應(yīng)對點云的稀疏性和目標運動過程中外觀變化。
(4) 提出的三維目標跟蹤算法在KITTI數(shù)據(jù)集上取得當前最好的性能,同時具有較低的計算復雜度。
后續(xù)工作考慮優(yōu)化霍夫投票算法,更加有效地提取目標的局部信息,進一步提高模型的性能,以應(yīng)對更加具有挑戰(zhàn)性的場景。
參考文獻:
[1] Luo W J, Yang B, Urtasun R. Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 3569-3577.
[2] Machida E, Cao M F, Murao T, et al. Human Motion Tracking of Mobile Robot with Kinect 3D Sensor[C]∥SICE Annual Conference (SICE), 2012: 2207-2211.
[3] Comport A I, Marchand E, Chaumette F. Robust Model-Based Tracking for Robot Vision[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2004: 692-697.
[4] Asvadi A, Giro P, Peixoto P, et al. 3D Object Tracking Using RGB and LIDAR Data[C]∥IEEE 19th International Conference on Intelligent Transportation Systems, 2016: 1255-1260.
[5] Bibi A, Zhang T Z, Ghanem B. 3D Part-Based Sparse Tracker with Automatic Synchronization and Registration[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1439-1448.
[6] Liu Y, Jing X Y, Nie J H, et al. Context-Aware Three-Dimensional Mean-Shift with Occlusion Handling for Robust Object Tracking in RGB-D Videos[J]. IEEE Transactions on Multimedia, 2019, 21(3): 664-677.
[7] Kart U, Kmrinen J K,Matas J. How to Make an RGBD Tracker?[C]∥European Conference on Computer Vision (ECCV),2018.
[8] Kart U, Lukeicˇ A, Kristan M, et al. Object Tracking by Reconstruction with View-Specific Discriminative Correlation Filters[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 1339-1348.
[9] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-Convolutional Siamese Networks for Object Tracking[C]∥European Conference on Computer Vision (ECCV), 2016.
[10] Qi C R, Litany O, He K M, et al. Deep Hough Voting for 3D Object Detection in Point Clouds[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2019: 9276-9285.
[11] Geiger A, Lenz P, Urtasun R. Are We Ready for Autonomous Driving? The KITTI Vision Benchmark Suite[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2012: 3354-3361.
[12] Giancola S, Zarzar J, Ghanem B. Leveraging Shape Completion for 3D Siamese Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 1359-1368.
[13] Pieropan A, Bergstrm N, Ishikawa M, et al. Robust 3D Tracking of Unknown Objects[C]∥IEEE International Conference on Robotics and Automation, 2015: 2410-2417.
[14] Tao R, Gavves E, Smeulders A W M. Siamese Instance Search for Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1420-1429.
[15] Wang Q,Gao J,Xing J L,et al. DCFNet: Discriminant Correlation Filters Network for Visual Tracking[J].Computer Science,2017.
[16] Held D, Thrun S, Savarese S. Learning to Track at 100 FPS with Deep Regression Networks[C]∥European Conference on Computer Vision (ECCV), 2016.
[17] Zhu Z, Wang Q, Li B, et al. Distractor-Aware Siamese Networks for Visual Object Tracking[C]∥European Conference on Computer Vision (ECCV),2018.
[18] Wang Q, Teng Z, Xing J L, et al. Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 4854-4863.
[19] Li B, Wu W, Wang Q, et al. SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 4277-4286.
[20] Fan H, Ling H B. Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 7944-7953.
[21] Zhang Z P, Peng H W. Deeper and Wider Siamese Networks for Real-Time Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 4586-4595.
[22] Wang Q, Zhang L, Bertinetto L, et al. Fast Online Object Tracking and Segmentation: A Unifying Approach[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 1328-1338.
[23] Li B, Yan J J, Wu W, et al. High Performance Visual Tracking with Siamese Region Proposal Network[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8971-8980.
[24] 王玲, 王家沛, 王鵬, 等. 融合注意力機制的孿生網(wǎng)絡(luò)目標跟蹤算法研究[J]. 計算機工程與應(yīng)用, 2021, 57(8): 169-174.
Wang Ling, Wang Jiapei, Wang Peng, et al. Siamese Network Tracking Algorithms for Hierarchical Fusion of Attention Mechanism[J]. Computer Engineering and Applications, 2021, 57(8): 169-174.(in Chinese)
[25] 申亞麗. 基于特征融合的RGBT雙模態(tài)孿生跟蹤網(wǎng)絡(luò)[J]. 紅外與激光工程, 2021, 50(3): 236-242.
Shen Yali. RGBT Dual-Modal Siamese Tracking Network with Feature Fusion[J]. Infrared and Laser Engineering, 2021, 50(3): 236-242.(in Chinese)
[26] Charles R Q, Hao S, Mo K C, et al. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2017: 77-85.
[27] Qi C R,Yi L,Su H,et al. PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space[C]∥Advances in Neural Information Processing Systems (NIPS), 2017.
[28] Klokov R, Lempitsky V. Escape from Cells: Deep Kd-Networks for the Recognition of 3D Point Cloud Models[C]∥IEEE International Conference on Computer Vision, 2017: 863-872.
[29] Li Y Y,Bu R,Sun M C,et al. PointCNN: Convolution on X-Transformed Points[C]∥Advances in Neural Information Processing Systems (NIPS), 2018.
[30] Qi C R, Liu W, Wu C X, et al. Frustum PointNets for 3D Object Detection from RGB-D Data[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 918-927.
[31] Shi S S, Wang X G, Li H S. PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 770-779.
[32] Yang Z T, Sun Y N, Liu S, et al. STD: Sparse-to-Dense 3D Object Detector for Point Cloud[C]∥IEEE/CVF International Conference on Computer Vision(ICCV), 2019.
[33] Li S L, Lee D. Point-to-Pose Voting Based Hand Pose Estimation Using Residual Permutation Equivariant Layer[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 11919-11928.
[34] Ge L H, Cai Y J, Weng J W, et al. Hand PointNet: 3D Hand Pose Estimation Using Point Sets[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8417-8426.
[35] Chen X H, Wang G J, Zhang C R, et al. SHPR-Net: Deep Semantic Hand Pose Regression from Point Clouds[J].IEEE Access, 2018, 6: 43425-43439.
[36] Leibe B, Leonardis A, Schiele B. Robust Object Detection with Interleaved Categorization and Segmentation[J].International Journal of Computer Vision, 2008, 77(1/2/3): 259-289.
[37] Ballard D H. Generalizing the Hough Transform to Detect Arbitrary Shapes[J].Pattern Recognition, 1981, 13(2): 111-122.
[38] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]∥IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015: 1137-1149.
[39] Wu Y, Lim J, Yang M H. Online Object Tracking: A Benchmark[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2013: 2411-2418.
[40] Kingma D P, Ba J. Adam: A Method for Stochastic Optimization[C]∥International Conference on Learning Representations (ICLR), 2015.
Time-Sensitive 3D Single Target Tracking
Based on Deep Hough Optimized Voting
Yang Xi,Lei Hang,Qian Weizhong*,Zeng Yifang,Wang Xupeng
(University of Electronic Science and Technology of China,Chengdu 610054,China)
Abstract: Aiming at the problem of time-sensitive single target tracking in 3D point cloud,a deep learning algorithm based on deep Hough optimized voting is proposed. Firstly, the algorithm? uses PointNet++ network to calculate seed points and? extract geometric features from? template point cloud and? search point cloud.? A target-oriented feature extraction method is then used to encode the target information from the template into the search area. Secondly, potential target centers with? high confidence are calculated and screened by seed point voting. Finally,multiple proposals are generated through sampling and aggregation of the target center points,and the proposal with the highest score is selected to generate a 3D target box. The algorithm can effectively avoid the time-consuming 3D global search,? and is robust to the disorder,? irregularity and sparsity of? point cloud. In order to verify the effectiveness of the network,? experiments are conducted on the public KITTI dataset. Experimental results show that the accuracy of? the proposed network is improved by around 10%,compared to the current? method based? on 3D point clouds. At the same time, the method can run at 43.5 FPS on a single NVIDIA2080S graphics processor.
Key words: time-sensitive target; single target;? target tracking; point cloud; Hough voting; deep learning; artificial intelligence