, , , ,
(1.空軍預(yù)警學(xué)院研究生管理大隊, 湖北武漢 430019;2.空軍預(yù)警學(xué)院, 湖北武漢 430019)
隨著超高聲速目標(biāo)的涌現(xiàn),給傳統(tǒng)雷達檢測帶來巨大的挑戰(zhàn)?,F(xiàn)有的相參積累方式,如動目標(biāo)檢測(MTD),是根據(jù)目標(biāo)在相參積累時間內(nèi)運動不超出一個距離單元來進行設(shè)計的,因此相參積累提升效果被限制在一個距離單元內(nèi)。所以,在相參積累時間內(nèi)“跨距離單元”和“多普勒模糊”將嚴(yán)重影響能量積累效果。許稼等[1-2]將Radon-Fourier變換(RFT)引入雷達信號處理當(dāng)中,RFT是一種廣義的MTD,通過提取目標(biāo)速度-距離二維信息,利用離散傅里葉變換(DFT),沿著提取的目標(biāo)運動軌跡進行相參積累。
但是,由于RFT的巨大運算量使得很難滿足實時性要求和工程化實現(xiàn)。為了解決這一問題,文獻[3-4]提出基于Chirp-Z變換的快速RFT算法(CZT-RFT)。雖然快速RFT算法在一定程度上減少了運算復(fù)雜度,但是隨著對模糊數(shù)搜索的增加運算量依然巨大[5],難以滿足實時性要求。文獻[6]提出使用粒子群優(yōu)化算法(PSO)對參數(shù)空間進行搜索,但是PSO對初值設(shè)置敏感,運算速度不穩(wěn)定。近年來,圖形處理單元(Graphic Process Unit, GPU)在并行運算方面顯現(xiàn)出巨大優(yōu)勢,基于GPU的通用計算越來越受到國內(nèi)外學(xué)者的關(guān)注,在雷達信號處理方面相關(guān)運用的文獻也層出不窮。文獻[7-8]分別討論了軟件雷達信號處理的單GPU實現(xiàn)和多GPU實現(xiàn)技術(shù)。文獻[9]詳細(xì)討論了基于GPU平臺的多元靜態(tài)雷達(Parasitic Multistatic Radar)信號處理流程。文獻[10-11]基于GPU平臺加速了合成孔徑雷達(SAR)成像算法。因此,針對RFT算法計算量大的問題,本文研究了基于CPU-GPU異構(gòu)系統(tǒng)下的RFT算法并行化實現(xiàn),以提高RFT的執(zhí)行效率。通過對RFT算法的分析設(shè)計出RFT算法的“線程-線程塊-網(wǎng)格”三級分配策略,通過仿真分析證明了并行化RFT可以得到可觀的加速比,加速比隨基積累時間的增加成線性增加,最大可達到2 200倍的加速比。同時分析了基于GPU的RFT算法(GPU-RFT)與基于CPU的MTD(CPU-MTD)的時間消耗,指出在運算速度上GPU-RFT快于CPU-MTD,但由于從設(shè)備端到主機端的傳輸帶寬限制,使得GPU-RFT整體執(zhí)行時間大于CPU-MTD。
假設(shè)雷達發(fā)射線性調(diào)頻信號(LFM),則目標(biāo)回波經(jīng)過脈壓后為
(1)
根據(jù)式(1)sinc函數(shù)的性質(zhì)可知,由于目標(biāo)的高速運動使得目標(biāo)回波脈壓后的峰值出現(xiàn)距離移動,同時由于速度多普勒大于脈沖重復(fù)周期,出現(xiàn)速度模糊。通過RFT算法可以同時解決這兩個問題,標(biāo)準(zhǔn)RFT算法在時域進行,根據(jù)目標(biāo)的初始位置和速度R0+vrmTr/ρs(ρs=c/2fs為采樣單元),提取目標(biāo)回波脈壓后的二維信息,同時利用DFT對固定頻點fd=2vr/λ進行積分實現(xiàn)相參積累。因此, RFT算法的離散形式可寫為
(2)
為了充分利用GPU的并行性來提高執(zhí)行效率,“線程-線程塊-網(wǎng)格”三級線程并行化策略要充分根據(jù)RFT算法進行設(shè)計。RFT算法整體流程如圖1所示。
圖1 RFT算法流程
目標(biāo)回波數(shù)據(jù)直接由主機端送入設(shè)備端,在GPU內(nèi)實現(xiàn)脈壓和RFT算法,脈壓的GPU實現(xiàn)文獻[7-8]已作了詳細(xì)的分析,本文主要關(guān)注RFT算法的GPU實現(xiàn),如圖2所示。假設(shè)雷達回波數(shù)據(jù)為L×M的雙精度浮點復(fù)數(shù),L為采樣單元個數(shù),M為脈沖積累數(shù)。RFT算法速度搜索數(shù)為N,速度分辨率與MTD相同為Δv=λ/(2MTr)。
根據(jù)圖2,每個線程根據(jù)其所在線程塊內(nèi)和網(wǎng)格內(nèi)的坐標(biāo),分配計算一組(R,v)的RFT結(jié)果,在線程內(nèi)通過DFT實現(xiàn)相參積累。具體計算方式如下:
初始距離單元:
R=tx
(3)
式中,tx為線程塊內(nèi)線程x方向索引值。
搜索速度值:
v=[ty+(bx+by·Dbx)Dty]Δv
(4)
式中,ty為線程塊內(nèi)線程y方向索引值,bx為網(wǎng)格內(nèi)線程塊x方向索引值,by為網(wǎng)格內(nèi)線程塊y方向索引值,Dbx為設(shè)置的網(wǎng)格內(nèi)線程塊x方向最大索引值,Dty為設(shè)置的線程塊內(nèi)線程y方向最大索引值, Δv=λ/(2MTr)為速度搜索步進,將式(3)和式(4)代入式(2)在線程中計算RFT結(jié)果,即
(5)
圖2 GPU-RFT算法并行化策略
在每一線程內(nèi),通過DFT即式(5)計算一組(R,v)的RFT結(jié)果。
由于單個Block中最大線程數(shù)[12]的限制(Max Thread Per Block, MTPB),所以要滿足:
Dty·Dtx≤MTPB
(6)
式中,Dtx為設(shè)置的線程x方向最大索引值。
因此,每個線程塊內(nèi)可搜索的速度個數(shù)為
Dty=MTPB/L=n
(7)
設(shè)置線程塊x方向最大索引值為Dbx,使得Dty和Dbx滿足:
Dty·Dbx=M
(8)
即線程塊的每一行(x方向),搜索與MTD相同的速度個數(shù)。設(shè)置需要搜索補償?shù)淖畲竽:龜?shù)[3]為P,速度搜索數(shù)滿足:
Dty·Dbx·Dby=M·P=N
(9)
式中,N為離散化速度搜索個數(shù)。通過上述并行化策略,可以讓RFT算法在擁有與MTD相同的速度分辨率的情況下,速度的搜索范圍達到MTD的P倍。
本文使用C語言和CUDA來實現(xiàn)RFT算法在GPU上的并行化,算法使用CPU-GPU異構(gòu)平臺,CPU為Intel i7-3770, GPU為Nvidia GeForce GTX 650,MTPB=1 024。雷達系統(tǒng)參數(shù)為:載頻fc=1 GHz,帶寬B=4 MHz,脈沖寬度Tp=128 μs,采樣頻率fs=4 MHz,脈沖重復(fù)頻率fp=500 Hz。動目標(biāo)參數(shù)為:初始距離R01=76 km,R02=74 km,R03=70 km,徑向速度vr1=300 m/s,vr2=1 200 m/s≈3.5 Ma,vr3=-2 000 m/s≈-5.9 Ma。并行化參數(shù)為:線程塊內(nèi)線程x方向最大索引值Dtx=512,線程塊內(nèi)線程y方向最大索引值Dty=n=2,網(wǎng)格內(nèi)線程塊x方向最大索引值Dbx=M/2,網(wǎng)格內(nèi)線程塊y方向最大索引值Dby=P/M/2=MP/2。脈壓結(jié)果如圖3所示,MTD積累結(jié)果如圖4所示,RFT積累結(jié)果如圖5所示。
圖3 脈沖壓縮結(jié)果
圖4 MTD積累結(jié)果
圖5 RFT積累結(jié)果
脈壓和RFT在GPU上的平均執(zhí)行時間,以及與串行的執(zhí)行時間對比如表1所示。
表1 算法并行和串行執(zhí)行時間對比
表1中的RFT執(zhí)行時間包括在GPU上的計算時間和將RFT結(jié)果數(shù)據(jù)由設(shè)備端傳輸?shù)街鳈C端的傳輸時間。通過表1可知,在GPU上執(zhí)行RFT可以獲得巨大的加速比,即使與快速RFT即CZT-RFT相比,GPU-RFT依然有巨大的速度優(yōu)勢。圖6(a)顯示了相參積累時間Tc=0.512 s時,加速比隨速度搜索范圍的變化規(guī)律;圖6(b)顯示了速度搜索范圍為[-2 250 m/s, 2 250 m/s]時,隨相參積累時間(脈沖積累數(shù))加速比的變化規(guī)律。
(a)加速比和速度搜索范圍的關(guān)系
(b)加速比和相參積累時間的關(guān)系圖6RFT在不同條件下的加速比
圖6為基于CPU的RFT及CZT-RFT算法的執(zhí)行時間與基于GPU的RFT算法執(zhí)行時間之比獲得的加速比,在不同條件下基于GPU的RFT算法均可獲得巨大的加速比。事實上,不管是改變速度搜索范圍還是改變相參積累時間,RFT在GPU上的計算耗時基本保持穩(wěn)定,主要的時間消耗在數(shù)據(jù)傳輸上。例如,當(dāng)速度搜索范圍為[-2 250 m/s, 2 250 m/s]共N=15 616個速度搜索值,距離搜索范圍為[64 km, 84 km]共L=512個距離單元,相參積累時間為0.512 s積累脈沖數(shù)M=256,每個搜索參數(shù)下的RFT結(jié)果為雙精度復(fù)數(shù)大小為16 B,所以RFT結(jié)果產(chǎn)生的數(shù)據(jù)量為15 616×512×256×16/1 024/1 024=122 MB總線采用PCI-E 3.0實際傳輸帶寬約為3.2 GB/s,傳輸時間約為37 ms,隨著數(shù)據(jù)量的增加其耗時成線性增加。圖7、圖8分別為固定了速度搜索范圍和距離搜索范圍,隨積累時間增加即處理的回波數(shù)據(jù)量的增加,GPU-RFT結(jié)果傳輸時間,以及GPU-RFT與CPU-MTD計算時間的變化規(guī)律。
圖7 GPU-RFT結(jié)果傳輸時間
圖8 RFT和MTD計算時間
綜合圖7和圖8可知,從計算耗時上分析,GPU-RFT耗時也遠(yuǎn)遠(yuǎn)小于CPU-MTD,且由于并行執(zhí)行,所以回波數(shù)據(jù)量的增加并沒有對GPU計算時間帶來顯著的影響。但由于回波數(shù)據(jù)量的增加導(dǎo)致RFT結(jié)果數(shù)據(jù)量增加,傳輸時間增加,最終導(dǎo)致其執(zhí)行時間大于CPU-MTD。
RFT算法是一種廣義的MTD算法,可以沿著目標(biāo)運動軌跡實現(xiàn)相參積累。但是由于巨大的計算壓力,RFT很難進行工程化。基于GPU的RFT算法讓RFT算法獲得了巨大的加速比,使其工程化成為可能。通過對CPU執(zhí)行的MTD與基于GPU的RFT算法比較發(fā)現(xiàn),RFT在GPU上的計算時間小于CPU上計算MTD的時間,但由于帶寬限制,RFT結(jié)果數(shù)據(jù)從設(shè)備端傳送到主機端的時間過長,使得基于GPU的RFT算法總體執(zhí)行時間長于MTD。
[1] XU Jia, YU Ji, PENG Yingning, et al. Radon-Fourier Transform for Radar Target Detection(I):Generalized Doppler Filter Bank[J]. IEEE Trans on Aerospace and Electronic Systems, 2011, 47(2):1183-1202.
[2] XU Jia, YU Ji, PENG Yingning, et al. Radon-Fourier Transform for Radar Target Detection(II):Blind Speed Sidelobe Suppression[J]. IEEE Trans on Aerospace and Electronic Systems, 2011, 47(4):2473-2489.
[3] 吳兆平,符渭波,鄭紀(jì)彬,等. 基于快速Radon-Fourier變換的雷達高速目標(biāo)檢測[J]. 電子與信息學(xué)報, 2012, 34(8):1866-1871.
[4] YU Ji, XU Jia, PENG Yingning, et al. Radon-Fourier Transform for Radar Target Detection(III):Optimality and Fast Implementations[J]. IEEE Trans on Aerospace and Electronic Systems, 2012, 48(2):991-1004.
[5] 商哲然,譚賢四,曲智國,等. 基于改進的快速RFT算法的高速目標(biāo)檢測[J]. 雷達科學(xué)與技術(shù), 2016, 14(2):184-188.
[6] QIAN Lichang, XU Jia, SUN Wenfeng, et al. Efficient Approach of Generalized RFT Based on PSO[C]∥IEEE 12th International Conference on
Computer and Information Technology, Chengdu:IEEE, 2013:511-516.
[7] 秦華,周沫,察豪,等. 基于GPU加速的雷達信號處理并行技術(shù)[J]. 艦船科學(xué)技術(shù), 2013, 35(7):77-82.
[8] 秦華,周沫,察豪,等. 軟件雷達信號處理的多GPU并行技術(shù)[J]. 西安電子科技大學(xué)學(xué)報(自然科學(xué)版), 2013, 40(3):145-151.
[9] JOHN M. Acceleration of Parasitic Multistatic Radar System Using GPGPU[D]. Cape Town:University of Cape Town, 2011.
[10] 孟大地,胡玉新,丁赤飚. 一種基于GPU的SAR高效成像處理算法[J]. 雷達學(xué)報, 2013,2(2):210-217.
[11] 姜曉龍,王建,宋千,等. 基于GPU的后向投影SAR成像算法[J]. 雷達科學(xué)與技術(shù), 2014, 12(4):350-357.
[12] COOK S. CUDA C Programming Guide[M]. San Francisco, CA:Morgan Kaufmann, 2013.