基于GPU的RFT算法并行化

2016-03-13 02:40:27，，，，

雷達科學(xué)與技術(shù) 2016年5期

，，，，

(1.空軍預(yù)警學(xué)院研究生管理大隊，湖北武漢 430019；2.空軍預(yù)警學(xué)院，湖北武漢 430019)

0 引言

隨著超高聲速目標(biāo)的涌現(xiàn)，給傳統(tǒng)雷達檢測帶來巨大的挑戰(zhàn)?，F(xiàn)有的相參積累方式，如動目標(biāo)檢測(MTD)，是根據(jù)目標(biāo)在相參積累時間內(nèi)運動不超出一個距離單元來進行設(shè)計的，因此相參積累提升效果被限制在一個距離單元內(nèi)。所以，在相參積累時間內(nèi)“跨距離單元”和“多普勒模糊”將嚴(yán)重影響能量積累效果。許稼等[1-2]將Radon-Fourier變換(RFT)引入雷達信號處理當(dāng)中，RFT是一種廣義的MTD，通過提取目標(biāo)速度-距離二維信息，利用離散傅里葉變換(DFT)，沿著提取的目標(biāo)運動軌跡進行相參積累。

但是，由于RFT的巨大運算量使得很難滿足實時性要求和工程化實現(xiàn)。為了解決這一問題，文獻[3-4]提出基于Chirp-Z變換的快速RFT算法(CZT-RFT)。雖然快速RFT算法在一定程度上減少了運算復(fù)雜度，但是隨著對模糊數(shù)搜索的增加運算量依然巨大[5]，難以滿足實時性要求。文獻[6]提出使用粒子群優(yōu)化算法(PSO)對參數(shù)空間進行搜索，但是PSO對初值設(shè)置敏感，運算速度不穩(wěn)定。近年來，圖形處理單元(Graphic Process Unit, GPU)在并行運算方面顯現(xiàn)出巨大優(yōu)勢，基于GPU的通用計算越來越受到國內(nèi)外學(xué)者的關(guān)注，在雷達信號處理方面相關(guān)運用的文獻也層出不窮。文獻[7-8]分別討論了軟件雷達信號處理的單GPU實現(xiàn)和多GPU實現(xiàn)技術(shù)。文獻[9]詳細(xì)討論了基于GPU平臺的多元靜態(tài)雷達(Parasitic Multistatic Radar)信號處理流程。文獻[10-11]基于GPU平臺加速了合成孔徑雷達(SAR)成像算法。因此，針對RFT算法計算量大的問題，本文研究了基于CPU-GPU異構(gòu)系統(tǒng)下的RFT算法并行化實現(xiàn)，以提高RFT的執(zhí)行效率。通過對RFT算法的分析設(shè)計出RFT算法的“線程-線程塊-網(wǎng)格”三級分配策略，通過仿真分析證明了并行化RFT可以得到可觀的加速比，加速比隨基積累時間的增加成線性增加，最大可達到2 200倍的加速比。同時分析了基于GPU的RFT算法(GPU-RFT)與基于CPU的MTD(CPU-MTD)的時間消耗，指出在運算速度上GPU-RFT快于CPU-MTD，但由于從設(shè)備端到主機端的傳輸帶寬限制，使得GPU-RFT整體執(zhí)行時間大于CPU-MTD。

1 RFT算法

假設(shè)雷達發(fā)射線性調(diào)頻信號(LFM)，則目標(biāo)回波經(jīng)過脈壓后為

(1)

根據(jù)式(1)sinc函數(shù)的性質(zhì)可知，由于目標(biāo)的高速運動使得目標(biāo)回波脈壓后的峰值出現(xiàn)距離移動，同時由于速度多普勒大于脈沖重復(fù)周期，出現(xiàn)速度模糊。通過RFT算法可以同時解決這兩個問題，標(biāo)準(zhǔn)RFT算法在時域進行，根據(jù)目標(biāo)的初始位置和速度R0+vrmTr/ρs(ρs=c/2fs為采樣單元)，提取目標(biāo)回波脈壓后的二維信息，同時利用DFT對固定頻點fd=2vr/λ進行積分實現(xiàn)相參積累。因此， RFT算法的離散形式可寫為

(2)

2 RFT算法并行化

為了充分利用GPU的并行性來提高執(zhí)行效率，“線程-線程塊-網(wǎng)格”三級線程并行化策略要充分根據(jù)RFT算法進行設(shè)計。RFT算法整體流程如圖1所示。

圖1 RFT算法流程

目標(biāo)回波數(shù)據(jù)直接由主機端送入設(shè)備端，在GPU內(nèi)實現(xiàn)脈壓和RFT算法，脈壓的GPU實現(xiàn)文獻[7-8]已作了詳細(xì)的分析，本文主要關(guān)注RFT算法的GPU實現(xiàn)，如圖2所示。假設(shè)雷達回波數(shù)據(jù)為L×M的雙精度浮點復(fù)數(shù)，L為采樣單元個數(shù)，M為脈沖積累數(shù)。RFT算法速度搜索數(shù)為N，速度分辨率與MTD相同為Δv=λ/(2MTr)。

根據(jù)圖2，每個線程根據(jù)其所在線程塊內(nèi)和網(wǎng)格內(nèi)的坐標(biāo)，分配計算一組(R,v)的RFT結(jié)果，在線程內(nèi)通過DFT實現(xiàn)相參積累。具體計算方式如下：

初始距離單元：

R=tx

(3)

式中，tx為線程塊內(nèi)線程x方向索引值。

搜索速度值：

v=[ty+(bx+by·Dbx)Dty]Δv

(4)

式中，ty為線程塊內(nèi)線程y方向索引值，bx為網(wǎng)格內(nèi)線程塊x方向索引值，by為網(wǎng)格內(nèi)線程塊y方向索引值，Dbx為設(shè)置的網(wǎng)格內(nèi)線程塊x方向最大索引值，Dty為設(shè)置的線程塊內(nèi)線程y方向最大索引值， Δv=λ/(2MTr)為速度搜索步進，將式(3)和式(4)代入式(2)在線程中計算RFT結(jié)果，即

(5)

圖2 GPU-RFT算法并行化策略

在每一線程內(nèi)，通過DFT即式(5)計算一組(R,v)的RFT結(jié)果。

由于單個Block中最大線程數(shù)[12]的限制(Max Thread Per Block, MTPB)，所以要滿足：

Dty·Dtx≤MTPB

(6)

式中，Dtx為設(shè)置的線程x方向最大索引值。

因此，每個線程塊內(nèi)可搜索的速度個數(shù)為

Dty=MTPB/L=n

(7)

設(shè)置線程塊x方向最大索引值為Dbx，使得Dty和Dbx滿足：

Dty·Dbx=M

(8)

即線程塊的每一行(x方向)，搜索與MTD相同的速度個數(shù)。設(shè)置需要搜索補償?shù)淖畲竽：龜?shù)[3]為P，速度搜索數(shù)滿足：

Dty·Dbx·Dby=M·P=N

(9)

式中，N為離散化速度搜索個數(shù)。通過上述并行化策略，可以讓RFT算法在擁有與MTD相同的速度分辨率的情況下，速度的搜索范圍達到MTD的P倍。

3 仿真分析

本文使用C語言和CUDA來實現(xiàn)RFT算法在GPU上的并行化，算法使用CPU-GPU異構(gòu)平臺，CPU為Intel i7-3770, GPU為Nvidia GeForce GTX 650，MTPB=1 024。雷達系統(tǒng)參數(shù)為：載頻fc=1 GHz，帶寬B=4 MHz，脈沖寬度Tp=128 μs，采樣頻率fs=4 MHz，脈沖重復(fù)頻率fp=500 Hz。動目標(biāo)參數(shù)為：初始距離R01=76 km，R02=74 km，R03=70 km，徑向速度vr1=300 m/s，vr2=1 200 m/s≈3.5 Ma，vr3=-2 000 m/s≈-5.9 Ma。并行化參數(shù)為：線程塊內(nèi)線程x方向最大索引值Dtx=512，線程塊內(nèi)線程y方向最大索引值Dty=n=2，網(wǎng)格內(nèi)線程塊x方向最大索引值Dbx=M/2，網(wǎng)格內(nèi)線程塊y方向最大索引值Dby=P/M/2=MP/2。脈壓結(jié)果如圖3所示，MTD積累結(jié)果如圖4所示，RFT積累結(jié)果如圖5所示。

圖3 脈沖壓縮結(jié)果

圖4 MTD積累結(jié)果

圖5 RFT積累結(jié)果

脈壓和RFT在GPU上的平均執(zhí)行時間，以及與串行的執(zhí)行時間對比如表1所示。

表1 算法并行和串行執(zhí)行時間對比

表1中的RFT執(zhí)行時間包括在GPU上的計算時間和將RFT結(jié)果數(shù)據(jù)由設(shè)備端傳輸?shù)街鳈C端的傳輸時間。通過表1可知，在GPU上執(zhí)行RFT可以獲得巨大的加速比，即使與快速RFT即CZT-RFT相比，GPU-RFT依然有巨大的速度優(yōu)勢。圖6(a)顯示了相參積累時間Tc=0.512 s時，加速比隨速度搜索范圍的變化規(guī)律；圖6(b)顯示了速度搜索范圍為[-2 250 m/s， 2 250 m/s]時，隨相參積累時間(脈沖積累數(shù))加速比的變化規(guī)律。

(a)加速比和速度搜索范圍的關(guān)系

(b)加速比和相參積累時間的關(guān)系圖6RFT在不同條件下的加速比

圖6為基于CPU的RFT及CZT-RFT算法的執(zhí)行時間與基于GPU的RFT算法執(zhí)行時間之比獲得的加速比，在不同條件下基于GPU的RFT算法均可獲得巨大的加速比。事實上，不管是改變速度搜索范圍還是改變相參積累時間，RFT在GPU上的計算耗時基本保持穩(wěn)定，主要的時間消耗在數(shù)據(jù)傳輸上。例如，當(dāng)速度搜索范圍為[-2 250 m/s， 2 250 m/s]共N=15 616個速度搜索值，距離搜索范圍為[64 km， 84 km]共L=512個距離單元，相參積累時間為0.512 s積累脈沖數(shù)M=256，每個搜索參數(shù)下的RFT結(jié)果為雙精度復(fù)數(shù)大小為16 B，所以RFT結(jié)果產(chǎn)生的數(shù)據(jù)量為15 616×512×256×16/1 024/1 024=122 MB總線采用PCI-E 3.0實際傳輸帶寬約為3.2 GB/s，傳輸時間約為37 ms，隨著數(shù)據(jù)量的增加其耗時成線性增加。圖7、圖8分別為固定了速度搜索范圍和距離搜索范圍，隨積累時間增加即處理的回波數(shù)據(jù)量的增加，GPU-RFT結(jié)果傳輸時間，以及GPU-RFT與CPU-MTD計算時間的變化規(guī)律。

圖7 GPU-RFT結(jié)果傳輸時間

圖8 RFT和MTD計算時間

綜合圖7和圖8可知，從計算耗時上分析，GPU-RFT耗時也遠(yuǎn)遠(yuǎn)小于CPU-MTD，且由于并行執(zhí)行，所以回波數(shù)據(jù)量的增加并沒有對GPU計算時間帶來顯著的影響。但由于回波數(shù)據(jù)量的增加導(dǎo)致RFT結(jié)果數(shù)據(jù)量增加，傳輸時間增加，最終導(dǎo)致其執(zhí)行時間大于CPU-MTD。

4 結(jié)束語

RFT算法是一種廣義的MTD算法，可以沿著目標(biāo)運動軌跡實現(xiàn)相參積累。但是由于巨大的計算壓力，RFT很難進行工程化。基于GPU的RFT算法讓RFT算法獲得了巨大的加速比，使其工程化成為可能。通過對CPU執(zhí)行的MTD與基于GPU的RFT算法比較發(fā)現(xiàn)，RFT在GPU上的計算時間小于CPU上計算MTD的時間，但由于帶寬限制，RFT結(jié)果數(shù)據(jù)從設(shè)備端傳送到主機端的時間過長，使得基于GPU的RFT算法總體執(zhí)行時間長于MTD。

[1] XU Jia, YU Ji, PENG Yingning, et al. Radon-Fourier Transform for Radar Target Detection(I):Generalized Doppler Filter Bank[J]. IEEE Trans on Aerospace and Electronic Systems, 2011, 47(2):1183-1202.

[2] XU Jia, YU Ji, PENG Yingning, et al. Radon-Fourier Transform for Radar Target Detection(II):Blind Speed Sidelobe Suppression[J]. IEEE Trans on Aerospace and Electronic Systems, 2011, 47(4):2473-2489.

[3] 吳兆平,符渭波,鄭紀(jì)彬,等. 基于快速Radon-Fourier變換的雷達高速目標(biāo)檢測[J]. 電子與信息學(xué)報, 2012, 34(8):1866-1871.

[4] YU Ji, XU Jia, PENG Yingning, et al. Radon-Fourier Transform for Radar Target Detection(III):Optimality and Fast Implementations[J]. IEEE Trans on Aerospace and Electronic Systems, 2012, 48(2):991-1004.

[5] 商哲然,譚賢四,曲智國,等. 基于改進的快速RFT算法的高速目標(biāo)檢測[J]. 雷達科學(xué)與技術(shù), 2016, 14(2):184-188.

[6] QIAN Lichang, XU Jia, SUN Wenfeng, et al. Efficient Approach of Generalized RFT Based on PSO[C]∥IEEE 12th International Conference on

Computer and Information Technology, Chengdu:IEEE, 2013:511-516.

[7] 秦華,周沫,察豪,等. 基于GPU加速的雷達信號處理并行技術(shù)[J]. 艦船科學(xué)技術(shù), 2013, 35(7):77-82.

[8] 秦華,周沫,察豪,等. 軟件雷達信號處理的多GPU并行技術(shù)[J]. 西安電子科技大學(xué)學(xué)報(自然科學(xué)版), 2013, 40(3):145-151.

[9] JOHN M. Acceleration of Parasitic Multistatic Radar System Using GPGPU[D]. Cape Town:University of Cape Town, 2011.

[10] 孟大地,胡玉新,丁赤飚. 一種基于GPU的SAR高效成像處理算法[J]. 雷達學(xué)報, 2013,2(2):210-217.

[11] 姜曉龍,王建,宋千,等. 基于GPU的后向投影SAR成像算法[J]. 雷達科學(xué)與技術(shù), 2014, 12(4):350-357.