• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于并行計(jì)算的PCAL信號(hào)相位實(shí)時(shí)提取系統(tǒng)設(shè)計(jì)

      2025-03-20 00:00:00李雪健陳永強(qiáng)馬宏劉楊王育欣焦義文
      關(guān)鍵詞:并行計(jì)算

      摘 要:針對(duì)天線組陣設(shè)備鏈路中相位校準(zhǔn)(phase calibration,PCAL)信號(hào)的高效率真實(shí)相位提取這一需求,首先提出一種優(yōu)化快速傅里葉變換(fast Fourier transform, FFT)分辨率的PCAL信號(hào)真實(shí)相位提取方法。為進(jìn)一步提升計(jì)算效率,將該方法與深度計(jì)算單元(deep computing unit,DCU)并行計(jì)算技術(shù)相結(jié)合,提出PCAL信號(hào)真實(shí)相位并行提取方法,并設(shè)計(jì)實(shí)現(xiàn)一種基于并行計(jì)算的PCAL信號(hào)相位實(shí)時(shí)提取系統(tǒng)。針對(duì)上述改進(jìn)方法及實(shí)時(shí)系統(tǒng)進(jìn)行實(shí)驗(yàn)驗(yàn)證,大量實(shí)驗(yàn)結(jié)果表明,優(yōu)化FFT分辨率的方法相比傳統(tǒng)FFT方法可實(shí)現(xiàn)約3倍的加速比;在引入并行計(jì)算后,加速比進(jìn)一步提升近一個(gè)數(shù)量級(jí),基于并行計(jì)算的PCAL信號(hào)相位實(shí)時(shí)提取系統(tǒng)可實(shí)現(xiàn)對(duì)有效帶寬為2.2 GHz及以下、信號(hào)間隔為1 MHz、量化位數(shù)為8 bit的PCAL信號(hào)的相位實(shí)時(shí)提取。此外,設(shè)計(jì)的實(shí)時(shí)系統(tǒng)亦適用于其他變頻設(shè)備的鏈路標(biāo)校。

      關(guān)鍵詞: 相位提取; 相位校準(zhǔn)信號(hào); 天線組陣; 并行計(jì)算; 實(shí)時(shí)系統(tǒng)設(shè)計(jì)

      中圖分類號(hào): TN 911.7

      文獻(xiàn)標(biāo)志碼: ADOI:10.12305/j.issn.1001 506X.2025.02.05

      Design of PCAL signal phase real time extraction system based on

      parallel computing

      LI Xuejian1,2, CHEN Yongqiang3, MA Hong1,2, LIU Yang4, WANG Yuxin1,2, JIAO Yiwen1,2,*

      (1. Department of Electronic and Optical Engineering, Space Engineering University, Beijing 101416, China;

      2. Key Laboratory of Intelligent Space TTCamp;O of Ministry of Education, Space Engineering University,

      Beijing 101416, China; 3. State Key Laboratory of Astronautic Dynamics (China Xi’an Satellite

      Control Center), Xi’an 710000, China; 4. College of Mechanical Engineering, Zhejiang University of Technology, Hangzhou 310012, China)

      Abstract:For the demand of high efficiency real phase extraction of phase calibration (PCAL) signals in antenna array equipment links, a real phase extraction method of PCAL signals using optimized fast Fourier transform (FFT) resolution is firstly proposed. In order to further improve the computational efficiency, the proposed method is combined with the deep computing unit (DCU) parallel computing technology to propose a parallel extraction method for the real phase of PCAL signal, and a real time PCAL signal phase extraction system based on parallel computing is designed and realized. The experimental verification of the above improved method and real time system is carried out, and a large number of experimental results show that the optimized FFT resolution method can achieve about three times of the acceleration ratio compared with the traditional FFT method. After the introduction of parallel computing, the acceleration ratio is further improved by nearly one order of magnitude, and the real time extraction system of the phase of PCAL signals based on parallel computing can realize the real time extraction of the phase of PCAL signals with the effective bandwidths of 2.2 GHz and below, the signal interval of 1 MHz, and the quantization number of 8 bit. In addition, the designed real time system is also applicable to the link calibration of other frequency variation equipment.

      Keywords:phase extraction; phase calibration (PCAL) signal; antenna array; parallel computing; real time system design

      0 引 言

      天線組陣技術(shù)是解決地面接收信號(hào)信噪比低、能量低、大帶寬等問題的一項(xiàng)關(guān)鍵技術(shù)1,天線組陣系統(tǒng)利用多個(gè)小口徑的天線陣列接收設(shè)備對(duì)同一個(gè)目標(biāo)進(jìn)行觀測(cè),但是由于地面接收設(shè)備屬于變頻設(shè)備,會(huì)產(chǎn)生相位偏移和時(shí)延2,從而破壞接收信號(hào)的相位和群時(shí)延估計(jì)值,因此每次必須在信號(hào)接收任務(wù)前對(duì)設(shè)備鏈路進(jìn)行標(biāo)校3?;谙辔恍?zhǔn)(phase calibration,PCAL)信號(hào)4的天線組陣設(shè)備鏈路標(biāo)校是指在天線饋源之后、接收機(jī)鏈路之前注入PCAL信號(hào),多個(gè)天線之間采用高穩(wěn)定度、高精度的原子鐘時(shí)頻信號(hào)進(jìn)行時(shí)頻同步,對(duì)經(jīng)過接收機(jī)鏈路的接收信號(hào)分別進(jìn)行PCAL信號(hào)相位提取5,得到整個(gè)待標(biāo)校鏈頻率范圍的相頻曲線,從中可以估計(jì)出整個(gè)測(cè)試鏈路的附加相位和群時(shí)延分布特性,進(jìn)而對(duì)設(shè)備鏈路進(jìn)行標(biāo)校6。不難發(fā)現(xiàn),在對(duì)天線組陣設(shè)備鏈路進(jìn)行標(biāo)校時(shí),核心是準(zhǔn)確、高效地提取PCAL信號(hào)相位。

      由于經(jīng)過接收機(jī)鏈路的PCAL信號(hào)存在噪聲,在對(duì)信號(hào)進(jìn)行相位提取時(shí),需要對(duì)信號(hào)進(jìn)行相干累加7,提高信噪比。為獲得較高的相位測(cè)量精度,必須對(duì)全頻譜進(jìn)行處理,這導(dǎo)致信號(hào)頻帶寬度大,頻點(diǎn)數(shù)量增加,并且在實(shí)際任務(wù)中,要求在任務(wù)前一段時(shí)間內(nèi)實(shí)時(shí)觀測(cè)設(shè)備鏈路穩(wěn)定性,對(duì)信號(hào)處理效率要求較高。綜上,在天線組陣系統(tǒng)設(shè)備鏈路標(biāo)校中,PCAL相位提取成為一個(gè)計(jì)算密集型的問題。在這種情況下,計(jì)算量隨著記錄頻帶寬度、記錄時(shí)間、頻點(diǎn)個(gè)數(shù)的增大而增大。由于目前已有的PCAL信號(hào)相位的測(cè)量方法在處理信號(hào)時(shí)需要耗費(fèi)相當(dāng)大的計(jì)算資源和時(shí)間,因此需要尋求能夠高效處理大量PCAL信號(hào)數(shù)據(jù)運(yùn)算的方法和平臺(tái)8。

      文獻(xiàn)[9]提出基于相關(guān)法的PCAL信號(hào)單點(diǎn)頻提取方法,但是該方法計(jì)算效率較低。文獻(xiàn)[10]基于相關(guān)法對(duì)相位的提取精度進(jìn)行分析。文獻(xiàn)[11]利用基于相關(guān)技術(shù)的PCAL信號(hào)處理方法提取的幅度和相位對(duì)射電星觀測(cè)延遲進(jìn)行修正,仿真結(jié)果表明基于PCAL信號(hào)進(jìn)行天線組陣設(shè)備鏈路標(biāo)校的方法是有效的。文獻(xiàn)[12]利用PCAL信號(hào)各頻點(diǎn)間的頻率間隔為PCAL基頻整數(shù)倍這一特性,提出一種基于快速傅里葉變換(fast Fourier transform, FFT)算法的PCAL信號(hào)相位多頻點(diǎn)高效并行提取方法,并建立數(shù)學(xué)模型。此方法的優(yōu)點(diǎn)是巧妙利用FFT運(yùn)算求解相位信息,且計(jì)算量不隨PCAL信號(hào)提取頻點(diǎn)個(gè)數(shù)的增加而增加,大大提高了PCAL信號(hào)相位提取的效率。但是,該方法的并行性只是體現(xiàn)在了多個(gè)PCAL信號(hào)頻點(diǎn)的并行相位提取,并不是信號(hào)數(shù)據(jù)段層面上的并行提取,不能實(shí)現(xiàn)對(duì)PCAL信號(hào)的相位實(shí)時(shí)提取,且未針對(duì)提出的方法分析PCAL信號(hào)真實(shí)的相位情況。文獻(xiàn)[13]基于FFT方法,從多方面對(duì)PCAL信號(hào)的相位提取精度進(jìn)行理論分析和公式推導(dǎo),結(jié)果表明PCAL信號(hào)的相位提取精度僅與信號(hào)的積分時(shí)間有關(guān)。文獻(xiàn)[14]設(shè)計(jì)一款輕量化的PCAL提取軟件,可極大提高相位提取的便捷度,但是該相位提取軟件不能實(shí)現(xiàn)PCAL信號(hào)的實(shí)時(shí)相位提取。

      目前的主流計(jì)算平臺(tái)有數(shù)字信號(hào)處理器(digital signal processor, DSP)、現(xiàn)場(chǎng)可編程門陣列(field programmable gate array, FPGA)、多核中央處理器(central processing unit, CPU)以及圖形處理單元(graphics processing unit, GPU)計(jì)算平臺(tái)。DSP平臺(tái)采用類似C語言的程序進(jìn)行開發(fā),易于實(shí)現(xiàn),但是性能較低,不滿足實(shí)時(shí)性15。FPGA在實(shí)現(xiàn)和性能上的表現(xiàn)都較為突出,滿足實(shí)時(shí)性的要求16-18,但是開發(fā)成本較高;多核CPU平臺(tái)靈活性很高且易于實(shí)現(xiàn)19,但是在性能和實(shí)時(shí)性方面較差;基于GPU的計(jì)算平臺(tái)以其開發(fā)簡(jiǎn)單、靈活性較高及高性能并行計(jì)算能力的優(yōu)勢(shì),從幾大平臺(tái)中脫穎而出,被廣泛應(yīng)用于信號(hào)處理領(lǐng)域20。

      目前,國(guó)外的GPU廠商主要有Nvidia、AMD、Intel,其中Nvidia的GPU依靠其強(qiáng)大的性能以及簡(jiǎn)單便捷的統(tǒng)一計(jì)算設(shè)備架構(gòu)(compute unified device architecture, CUDA)語言在高性能計(jì)算領(lǐng)域得到廣泛的應(yīng)用21。國(guó)內(nèi)的GPU技術(shù)起步較晚,目前針對(duì)浮點(diǎn)數(shù)運(yùn)算性能較好的是中科海光的深度計(jì)算單元(deep computing unit, DCU)[22,這是一款面向人工智能和科學(xué)計(jì)算的高性能全功能通用GPU (general purpose GPU,GPGPU)加速卡,其發(fā)布的產(chǎn)品Z100L支持每秒浮點(diǎn)運(yùn)算數(shù)為12.2 T的單精度浮點(diǎn)數(shù)運(yùn)算,該產(chǎn)品以DCU工具包(DCU tool kit,DTK)為基礎(chǔ)軟件層,具有很大的應(yīng)用潛力和發(fā)展前景23-24。

      本文基于國(guó)產(chǎn)自主可控DCU平臺(tái)對(duì)天線組陣設(shè)備鏈路標(biāo)校中的PCAL信號(hào)相位提取技術(shù)進(jìn)行研究,針對(duì)上述問題提出兩個(gè)遞進(jìn)的解決方案,一是從傳統(tǒng)方法本身出發(fā)提高計(jì)算效率并得到PCAL信號(hào)的真實(shí)相位,提出優(yōu)化FFT分辨率的PCAL信號(hào)真實(shí)相位提取方法。與現(xiàn)有方法相比,該方法的特點(diǎn)是:① 利用大量的數(shù)據(jù)驗(yàn)證信息,尋求最佳FFT分辨率參數(shù),以提高計(jì)算效率;② 根據(jù)直線型相位卷繞的特點(diǎn),通過逐點(diǎn)判斷并補(bǔ)償相位,得到最終的真實(shí)相位。二是從方法的并行結(jié)構(gòu)出發(fā)提高計(jì)算效率,將改進(jìn)方法與國(guó)產(chǎn)DCU并行計(jì)算技術(shù)相結(jié)合,提出一種PCAL信號(hào)真實(shí)相位提取方法。與現(xiàn)有方法相比,該方法的特點(diǎn)是:針對(duì)信號(hào)相位提取中耗時(shí)嚴(yán)重的模塊,如相干累加、串并轉(zhuǎn)換、FFT、反正切、解卷繞模塊,進(jìn)行了DCU并行結(jié)構(gòu)設(shè)計(jì)及實(shí)現(xiàn),其中并行解卷繞模塊最為復(fù)雜。實(shí)驗(yàn)結(jié)果表明上述兩種方法均能夠在保證相位提取精度的同時(shí)為計(jì)算效率帶來極大的提升。最后,基于上述并行方法設(shè)計(jì)一種基于并行計(jì)算的PCAL信號(hào)相位實(shí)時(shí)提取系統(tǒng),與現(xiàn)有系統(tǒng)或軟件相比,該系統(tǒng)的特點(diǎn)是:① 通過設(shè)計(jì)數(shù)據(jù)循環(huán)緩沖區(qū)解決由于操作系統(tǒng)的非實(shí)時(shí)性和總線傳輸速度的不穩(wěn)定性而導(dǎo)致的數(shù)據(jù)丟包的問題;② 采用數(shù)據(jù)分發(fā)服務(wù)(data distribution service,DDS)中間件25打通不同服務(wù)器節(jié)點(diǎn)、不同模塊、不同系統(tǒng)之間的通信壁壘;③ 采用通用國(guó)產(chǎn)DCU計(jì)算平臺(tái),具有國(guó)產(chǎn)自主可控、模塊化、可擴(kuò)展的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)可實(shí)現(xiàn)對(duì)一定帶寬條件下的PCAL信號(hào)的實(shí)時(shí)相位提取,在未來的天線組陣設(shè)備鏈路標(biāo)校場(chǎng)景中具有一定的應(yīng)用價(jià)值。

      1 優(yōu)化FFT分辨率的PCAL信號(hào)真實(shí)相位提取方法

      目前,由PCAL信號(hào)相位提取方法12得到的PCAL信號(hào)相位均為卷繞相位,而非信號(hào)的真實(shí)相位,但是在設(shè)備鏈路標(biāo)校時(shí)要用到PCAL信號(hào)的真實(shí)相位描述信號(hào)的相頻特性進(jìn)而計(jì)算時(shí)延以及相位差,且傳統(tǒng)方法中的FFT頻譜分辨率參數(shù)選取一般為PCAL信號(hào)頻率間隔的一半。但是,根據(jù)理論推導(dǎo)發(fā)現(xiàn),F(xiàn)FT分辨率并非在取最大值時(shí)為最佳,較大或較小的FFT分辨率均會(huì)影響信號(hào)數(shù)據(jù)的處理速度,經(jīng)過理論分析發(fā)現(xiàn)存在一個(gè)FFT分辨率的最佳區(qū)間。綜上,本節(jié)提出一種基于最佳FFT分辨率的改進(jìn)PCAL信號(hào)真實(shí)相位提取方法,下面對(duì)該改進(jìn)方法進(jìn)行具體分析。

      1.1 PCAL信號(hào)的頻率特性

      能夠利用PCAL信號(hào)進(jìn)行設(shè)備鏈路標(biāo)校的本質(zhì)原因在于,PCAL信號(hào)的頻率特性具有梳狀頻譜特性和線性相位特性。通過在接收機(jī)鏈路輸出端提取PCAL信號(hào)的相位,可以得到PCAL信號(hào)經(jīng)過整個(gè)傳輸鏈路的附加時(shí)延、相位以及非線性相位失真。圖1所示為PCAL信號(hào)真實(shí)頻譜圖。

      PCAL信號(hào)在時(shí)域和頻域上均為一個(gè)等間隔的脈沖信號(hào),對(duì)于連續(xù)周期的PCAL信號(hào),可以將其展開為傅里葉級(jí)數(shù):

      x(t)=∑+∞k=-∞X(kΩ)ejkΩt(1)

      式中:k表示諧波次數(shù);Ω=2πf0為PCAL信號(hào)的基波角頻率;e為自然常數(shù);j為虛數(shù)單位;t表示時(shí)間。

      1.2 提出方法

      對(duì)于帶寬為B、頻率間隔為G的PCAL復(fù)信號(hào),其信號(hào)頻點(diǎn)個(gè)數(shù)為

      p=BG(2)

      設(shè)置FFT頻率分辨率為ΔF,則FFT點(diǎn)數(shù)N為

      N=BΔF(3)

      由于在后續(xù)的仿真驗(yàn)證中采用的數(shù)據(jù)文件存儲(chǔ)形式為“實(shí)部-虛部”,所以得到一個(gè)完整的復(fù)信號(hào)值需要讀取2個(gè)連續(xù)的數(shù)據(jù),則每次FFT讀取的字節(jié)數(shù)為

      NBytes=2×4N=8N(4)

      累加時(shí)間為t,則累加積分次數(shù)即數(shù)據(jù)分段數(shù)為

      m=B·tN=ΔF·t(5)

      對(duì)于總大小為 D的信號(hào)數(shù)據(jù)文件,需要讀取的次數(shù)為

      M=DNBytes·m(6)

      將式(4)~式(6)聯(lián)立得

      M=D8B·t(7)

      PCAL信號(hào)分段累加平均后的信號(hào)表達(dá)式為

      S(i)=1M∑M-1n=0x(i+nN),i=0,1,…,N-1(8)

      式中:x(i+nN)表示第n段累加的信號(hào)。然后對(duì)累加后的PCAL信號(hào)進(jìn)行FFT運(yùn)算,得

      F(k)=∑N-1i=0S(i)e-j2πNki=∑N-1i=0∑M-1n=0x(i+nN)e-j2πNki(9)

      從而得到PCAL信號(hào)的相位為

      i=angle[F(Gi)](10)

      式中:i=1,2,…,p;G為PCAL信號(hào)頻率間隔。

      由于反正切運(yùn)算的值域?yàn)椋郏?,π],?dāng)相位差超過2π時(shí),該方法會(huì)出現(xiàn)相位卷繞問題26,因此需要對(duì)最后的相位結(jié)果進(jìn)行解卷繞,才能得到正確的相位值27。在本方法中,采用經(jīng)典解卷繞方法進(jìn)行解卷繞,即遍歷所有的相位點(diǎn)。由于PCAL信號(hào)的相位卷繞屬于直線型相位卷繞,所以通過相鄰相位值之間的差來判斷是否發(fā)生相位跳變現(xiàn)象,即卷繞。如果相鄰相位之差(后面的相位值減去前面的相位值)大于π,則從該點(diǎn)開始,將后面的所有相位值均減去2π。如果相鄰相位之差(后面的相位值減去前面的相位值)小于-π,則從該點(diǎn)開始,將后面的所有相位值均加上2π。如果相鄰相位之差(后面的相位值減去前面的相位值)在-π和π之間,則不做任何處理。假設(shè)真實(shí)的相位為θ,則有

      θ=i+2kπ(11)

      其中參數(shù)k滿足:

      k=-1, i-i-1gt;π

      0, -π≤i-i-1≤π

      1, i-i-1lt;-π(12)

      該方法在加入相位解卷繞模塊后,主要包括串并轉(zhuǎn)換、累加平均、FFT、移動(dòng)零頻分量、反正切、解卷繞運(yùn)算。圖2為優(yōu)化FFT分辨率的PCAL信號(hào)真實(shí)相位提取方法實(shí)現(xiàn)流程圖,具體可分為以下5個(gè)步驟。

      步驟 1 將PCAL時(shí)域信號(hào)的實(shí)部和虛部串并轉(zhuǎn)換為復(fù)信號(hào)。

      步驟 2 將多段PCAL時(shí)域復(fù)信號(hào)進(jìn)行累加求平均,提高信號(hào)信噪比。

      步驟 3 對(duì)累加平均后的信號(hào)依據(jù)最佳FFT分辨率進(jìn)行FFT運(yùn)算,得到該信號(hào)的傅里葉變換,并將零頻分量移動(dòng)到頻譜中心。

      步驟 4 對(duì)信號(hào)的傅里葉變換求反正切,得到信號(hào)的卷繞相位值。

      步驟 5 對(duì)信號(hào)的卷繞相位值進(jìn)行解卷繞運(yùn)算,最終得到PCAL信號(hào)真實(shí)的相位值。

      1.3 最佳FFT分辨率參數(shù)選取分析

      由于PCAL信號(hào)中存在噪聲,實(shí)際的PCAL信號(hào)可以寫為

      P(t)=x(k)+z(k)(13)

      式中:x(k)為PCAL信號(hào);z(k)為噪聲信號(hào),兩個(gè)信號(hào)也可以用下面的形式表示

      x(k)=|X(k)|ejθk

      z(k)=|Z(k)|ejzk(14)

      式中:θk和zk分別為兩個(gè)信號(hào)的相位角度。將式(14)代入式(13)中,得

      S(k)=x(k)+z(k)=|X(k)|ejθk+|Z(k)|ejzk=

      |X(k)|ejθk1+|Z(k)||X(k)|ej(zk-θk)=|S(k)|ejφk(15)

      式中:幅度S(k)和在噪聲下估計(jì)的相位角φk分別為

      |S(k)|=|X(k)|1+|Z(k)|2|X(k)|2+2|Z(k)||X(k)|cos(zk-θk)

      φk=θk-arctan|Z(k)||X(k)|sin(zk-θk)1+|Z(k)||X(k)|cos(zk-θk)(16)

      式中:θk為真實(shí)的相位角度。由于累加提高信號(hào)信噪比,所以|Z(k)|/|X(k)|的值為極小值,則|Z(k)|/|X(k)|·cos(zk-θk)1,進(jìn)而可以將相位角φk簡(jiǎn)化為

      φk=θk-|Z(k)||X(k)|sin(zk-θk)(17)

      進(jìn)而可以得到φk的方差12

      var(φk)=12tS1+S+G12G×22b (18)

      式中:b為量化位數(shù);S/為PCAL頻點(diǎn)信號(hào)功率與噪聲功率譜密度的比值。

      從式(18)可以發(fā)現(xiàn),在確定好PCAL信號(hào)后,提取的PCAL信號(hào)相位均方根誤差僅與信號(hào)積分總時(shí)間有關(guān),而與FFT分辨率無關(guān),但是在實(shí)際處理時(shí),較高的FFT分辨率即較大的FFT點(diǎn)數(shù)可以提供更高的頻率分辨率,加快讀取數(shù)據(jù)點(diǎn)數(shù)的速度,但會(huì)增加FFT本身的處理時(shí)間和內(nèi)存需求。較低的FFT分辨率即較小的FFT點(diǎn)數(shù)可以降低FFT本身的計(jì)算負(fù)擔(dān),但可能無法分辨信號(hào)的細(xì)節(jié),讀取數(shù)據(jù)的速度也會(huì)變慢。

      現(xiàn)假設(shè)PCAL信號(hào)帶寬B為32 MHz,PCAL信號(hào)頻率間隔為1 MHz,按照文獻(xiàn)[11]中采取的FFT分辨率,即與PCAL信號(hào)頻率間隔相等,為1 MHz,則根據(jù)式(3)可得FFT點(diǎn)數(shù)N為32,即每次讀取的數(shù)據(jù)點(diǎn)數(shù)為32,這在處理速度上存在明顯不足。雖然在對(duì)信號(hào)進(jìn)行FFT的層面上可以降低FFT的開銷時(shí)間,但是讀取速度變慢,每次只能以讀取32個(gè)點(diǎn)來進(jìn)行處理,體現(xiàn)出該文獻(xiàn)在PCAL信號(hào)處理上的不足。而DTK中包含加速FFT的函數(shù)庫(kù),可以在2 ms內(nèi)計(jì)算出1 GB數(shù)據(jù)的FFT,速度非???,因此可以適當(dāng)提高FFT分辨率,增加每次讀取的數(shù)據(jù)點(diǎn)數(shù)。

      綜上,在進(jìn)行PCAL信號(hào)相位提取時(shí),應(yīng)當(dāng)根據(jù)選取PCAL信號(hào)的信噪比、信號(hào)帶寬、頻率間隔等實(shí)際情況來選擇合適的FFT分辨率,在保證整體計(jì)算速度的同時(shí)增大讀取量,平衡頻譜分辨率、FFT本身處理時(shí)間和數(shù)據(jù)讀取速度之間的矛盾。

      2 PCAL信號(hào)真實(shí)相位并行提取方法

      從描述的改進(jìn)方法流程可以發(fā)現(xiàn),該方法包含大量的累加、FFT、乘法、函數(shù)求解、解卷繞等單精度浮點(diǎn)數(shù)運(yùn)算,而實(shí)際的信號(hào)接收處理設(shè)備采樣率可以達(dá)到每秒數(shù)百至數(shù)千兆個(gè)采樣點(diǎn),CPU串行方法已無法實(shí)時(shí)完成該運(yùn)算。本節(jié)基于第1節(jié)所述方法設(shè)計(jì)并實(shí)現(xiàn)了其在國(guó)產(chǎn)DCU平臺(tái)下的并行優(yōu)化結(jié)構(gòu),結(jié)合DCU線程并行和流并發(fā)特性對(duì)算法結(jié)構(gòu)進(jìn)行優(yōu)化。線程并發(fā)主要針對(duì)PCAL相位提取流程中的各個(gè)模塊研究其并行結(jié)構(gòu),而流并發(fā)主要研究在線程并行的基礎(chǔ)上,使用多個(gè)流同時(shí)對(duì)多段PCAL信號(hào)進(jìn)行相位提取。下面分別對(duì)這兩種優(yōu)化方式進(jìn)行研究。

      2.1 線程并行結(jié)構(gòu)設(shè)計(jì)

      PCAL信號(hào)相位串行提取算法包含串并轉(zhuǎn)換、累加平均、FFT、反正切、解卷繞等模塊,其中串并轉(zhuǎn)換、累加平均、FFT、反正切、解卷繞模塊運(yùn)算耗時(shí)嚴(yán)重。下面對(duì)各模塊的DCU并行結(jié)構(gòu)進(jìn)行設(shè)計(jì)分析。

      圖3為串并轉(zhuǎn)換和累加平均運(yùn)算的DCU實(shí)現(xiàn)框圖,將累加時(shí)間t的PCAL信號(hào)數(shù)據(jù)等分為m段、每段2N個(gè)數(shù)據(jù)進(jìn)行累加平均,進(jìn)行一次累加平均可讀取數(shù)據(jù)點(diǎn)數(shù)為2Nm,共需要讀取M次,具體推導(dǎo)過程詳見第1.1節(jié)。在C語言串行編程下,進(jìn)行一次累加平均需要進(jìn)行2N(m-1)次加法。在累加平均核函數(shù)中,使用的線程數(shù)為N,只需要進(jìn)行2(m-1)次加法所需要的時(shí)間,即可完成累加平均運(yùn)算,理論加速比為N。并行反正切模塊與并行相干累加模塊同理。

      在CPU平臺(tái)下,對(duì)累加平均的信號(hào)進(jìn)行N點(diǎn)FFT運(yùn)算的計(jì)算量為(N/2)×log2N次的復(fù)數(shù)乘法和N·log2N次的復(fù)數(shù)加法運(yùn)算。利用DTK中包含的rocfft函數(shù)庫(kù)對(duì)FFT進(jìn)行并行加速處理,該函數(shù)庫(kù)支持大量高速數(shù)據(jù)的FFT計(jì)算,速度可達(dá)到實(shí)時(shí)FFT運(yùn)算。

      圖4所示為在DCU中進(jìn)行FFT計(jì)算的具體流程。

      步驟 1 首先使用主機(jī)內(nèi)存分配函數(shù)和設(shè)備內(nèi)存分配函數(shù)分別為輸入信號(hào)分配CPU和DCU內(nèi)存。

      步驟 2 使用內(nèi)存拷貝函數(shù)將CPU內(nèi)存數(shù)據(jù)拷貝到DCU內(nèi)存。

      步驟 3 創(chuàng)建一個(gè)FFT計(jì)劃,并使用并行FFT函數(shù)完成計(jì)算。

      步驟 4 使用內(nèi)存拷貝函數(shù)將計(jì)算后的數(shù)據(jù)拷貝回CPU內(nèi)存中。

      步驟 5 銷毀FFT計(jì)劃。

      將信號(hào)進(jìn)行FFT后的零頻點(diǎn)移到頻譜的中間,并進(jìn)行并行反正切運(yùn)算,得到信號(hào)的卷繞相位值。

      定義卷繞相位的卷繞類型:0表示未發(fā)生卷繞,-1表示向下跳變,1表示向上跳變,設(shè)某一卷繞相位序列A為

      A=x11x12…x1L

      x21x22…x2L

      xn1xn2…xnL(19)

      式中:xij代表第i組的第j個(gè)卷繞相位值;n表示卷繞相位序列的組數(shù);L表示每組包含的卷繞相位序列數(shù)。

      定義矩陣A中各相位的卷繞類型構(gòu)成的矩陣為B為

      B=a11 a12 …a1L

      a21 a22 … a2L

      an1 an2 … anL

      (20)

      式中:aij代表第i組第j個(gè)相位序列的卷繞類型。由于每組有且只有第1個(gè)相位為卷繞相位且第1組未發(fā)生卷繞現(xiàn)象。則矩陣B可以簡(jiǎn)化為

      B=a11 0 …0

      a21 0 …0

      aL1 0 …0

      (21)

      式中:a11=0,則第n組的解卷繞補(bǔ)償值valuen為

      valuen=-1×2π·∑n1ai1(22)

      當(dāng)卷繞相位為直線型時(shí),所有分組的補(bǔ)償值相同,解卷繞補(bǔ)償值valuen可進(jìn)一步化簡(jiǎn)為

      valuen=(n-1)·2π, kgt;0

      0, k=0

      -(n-1)·2π, klt;0(23)

      式中:k為直線斜率。當(dāng)卷繞相位為曲線型或任意卷繞類型時(shí),解卷繞補(bǔ)償值可通過式(22)計(jì)算得出。顯然,所有點(diǎn)的補(bǔ)償值序列offset為

      offset=[value1,value2,…,valuen,…](24)

      根據(jù)offset序列對(duì)所有點(diǎn)并行進(jìn)行補(bǔ)償(將現(xiàn)有相位與補(bǔ)償值相加),將解卷繞相位序列記為Aunwrap,如式(25),即可實(shí)現(xiàn)對(duì)所有相位的并行解卷繞

      Aunwrap=A+offset(25)

      圖5所示為并行解卷繞運(yùn)算的實(shí)現(xiàn)流程圖。并行解卷繞算法對(duì)所有數(shù)據(jù)點(diǎn)同時(shí)獲取卷繞信息,在得到所有點(diǎn)的卷繞信息之后,根據(jù)卷繞點(diǎn)的數(shù)量和位置將數(shù)據(jù)進(jìn)行分組。然后,利用多個(gè)線程同時(shí)對(duì)不同的分組賦予不同的補(bǔ)償值,最后并發(fā)多個(gè)線程,對(duì)所有點(diǎn)進(jìn)行相位補(bǔ)償,得到解卷繞相位值。

      如圖6所示為相位解卷繞示意圖,卷繞相頻曲線存在3個(gè)卷繞點(diǎn),通過并行補(bǔ)償可以得到解卷繞后的相頻曲線。

      2.2 異步流并發(fā)結(jié)構(gòu)設(shè)計(jì)

      Stream是DCU中一系列異步的DTK操作,是在線程并行的更高一級(jí)上的并發(fā)操作。如果將線程并行比喻為一個(gè)人在同一時(shí)間內(nèi)做多件事情,那么異步流并發(fā)可以理解為多個(gè)人在同一時(shí)間內(nèi)做多件事情,只不過多個(gè)人做事是異步的,即每個(gè)Stream中的操作互不干擾,即按照主機(jī)代碼指定的順序執(zhí)行28-29。

      如果不進(jìn)行特殊的操作,DTK程序默認(rèn)使用一個(gè)Stream對(duì)信號(hào)數(shù)據(jù)進(jìn)行處理。從理論上講,Stream允許數(shù)據(jù)處理和數(shù)據(jù)傳輸操作在不同的Stream中并發(fā)執(zhí)行,但是由于硬件的限制,并發(fā)執(zhí)行可能并非是嚴(yán)格意義上的并發(fā)執(zhí)行。由于主機(jī)端向設(shè)備端的數(shù)據(jù)傳輸以及設(shè)備端向主機(jī)端的數(shù)據(jù)傳輸均需要通過外設(shè)組件互連擴(kuò)展(peripheral component interconnect express, PCIe)總線這個(gè)共享硬件資源進(jìn)行30。針對(duì)同一時(shí)間內(nèi)單方向的數(shù)據(jù)傳輸,PCIe總線只能對(duì)一個(gè)Stream的數(shù)據(jù)進(jìn)行傳輸,即如果下一個(gè)Stream要傳輸相同方向的數(shù)據(jù),則要等待上一個(gè)Stream數(shù)據(jù)傳輸完畢后才能進(jìn)行該操作31。目前的PCIe總線采用了全雙工的傳輸設(shè)計(jì),即允許不同的Stream在同一時(shí)刻進(jìn)行不同方向的數(shù)據(jù)傳輸,所以要想重疊兩個(gè)數(shù)據(jù)的傳輸,必須保證數(shù)據(jù)在不同的Stream中且數(shù)據(jù)傳輸方向不同32-33。

      圖7所示為異步流并發(fā)與DTK串行操作隊(duì)列耗費(fèi)時(shí)間對(duì)比示意圖??梢园l(fā)現(xiàn),在DTK串行操作隊(duì)列中,所有操作順序執(zhí)行,只有當(dāng)上一步操作執(zhí)行完畢后,下一步操作才能執(zhí)行。而在異步流操作中,每個(gè)Stream獨(dú)立地進(jìn)行數(shù)據(jù)處理操作,運(yùn)算效率可以得到極大程度的提升34。但是,在Stream1、Stream2、Stream3這3個(gè)不同Stream中,主機(jī)端向設(shè)備端的數(shù)據(jù)傳輸不能重疊,而不同方向的數(shù)據(jù)傳輸可以重疊,所以使用3個(gè)Stream后程序的性能提升了2~3倍。如圖8所示,在執(zhí)行內(nèi)核程序比數(shù)據(jù)傳輸耗時(shí)更多的情況下,性能提升效果更為明顯。因此,要設(shè)計(jì)合理的單次數(shù)據(jù)處理量控制內(nèi)存拷貝的時(shí)間,以獲得更為明顯的加速性能。

      針對(duì)該算法,首先將數(shù)據(jù)分為4段,設(shè)置4個(gè)Stream,分別對(duì)4段PCAL信號(hào)數(shù)據(jù)進(jìn)行DTK異步操作處理,則在算法運(yùn)行理想的情況下(資源足夠),在同一時(shí)間內(nèi),最多有4個(gè)Stream和4個(gè)核函數(shù)并發(fā)執(zhí)行。

      圖9所示為基于異步流并發(fā)的PCAL信號(hào)相位并行提取方法時(shí)序圖,可以發(fā)現(xiàn)通過合理設(shè)置單次數(shù)據(jù)處理量,數(shù)據(jù)傳輸時(shí)間(主機(jī)到設(shè)備H2D、設(shè)備到主機(jī)D2H)被隱藏起來。在同一時(shí)刻,最多存在4個(gè)可對(duì)數(shù)據(jù)進(jìn)行處理的核函數(shù),可以極大地提高運(yùn)算效率。圖10為最終確定的基于DCU的改進(jìn)PCAL信號(hào)相位并行提取方法的實(shí)現(xiàn)流程圖,并發(fā)4個(gè)Stream,同時(shí)對(duì)PCAL信號(hào)進(jìn)行加速處理。

      3 PCAL信號(hào)相位實(shí)時(shí)提取系統(tǒng)設(shè)計(jì)

      本節(jié)基于第2節(jié)提出的基于并行計(jì)算的改進(jìn)PCAL信號(hào)真實(shí)相位并行提取方法設(shè)計(jì)搭建基于并行計(jì)算的PCAL信號(hào)相位實(shí)時(shí)提取系統(tǒng)。圖11所示為該系統(tǒng)的信號(hào)從信號(hào)源采集到處理完畢后顯示到顯控界面的全流程。硬件主要包含模擬數(shù)字轉(zhuǎn)換(analog to digital,AD)采集卡、PCAL信號(hào)國(guó)產(chǎn)DCU處理設(shè)備、DDS中間件等。

      如圖12所示,該系統(tǒng)包括硬件平臺(tái)和軟件系統(tǒng),下面對(duì)系統(tǒng)的硬件平臺(tái)和軟件系統(tǒng)的設(shè)計(jì)分別進(jìn)行分析。

      3.1 硬件平臺(tái)設(shè)計(jì)

      系統(tǒng)的硬件儀器名稱及參數(shù)設(shè)置如表1所示,硬件儀器主要包括MAG2000A超寬帶信號(hào)生成平臺(tái)、Ramp;S FSV40 Signal Analyzer頻譜儀、思騰合力CH4D20服務(wù)器和功分器。

      信號(hào)處理平臺(tái)為思騰合力CH4D20服務(wù)器,服務(wù)器配置如表2所示,搭載兩顆Hygon C86 7375 Processor CPU,坤馳QT7136采集卡和3塊Z100L DCU,服務(wù)器搭載Linux Centos 7系統(tǒng),并安裝CUDA 11.1驅(qū)動(dòng),支持遠(yuǎn)程安全外殼(secure shell,SSH)協(xié)議遠(yuǎn)程連接,通過交換機(jī)與遠(yuǎn)端開發(fā)設(shè)備相連。遠(yuǎn)端開發(fā)設(shè)備通過Visual Studio Code中的Remote Connect功能訪問服務(wù)器,并通過C++語言編程實(shí)現(xiàn)寬帶信號(hào)合成的功能。

      DCU型號(hào)為Z100L,顯存大小為32 GB。雖然服務(wù)器中包含3塊DCU,但是在進(jìn)行數(shù)據(jù)處理時(shí)僅用到了第1塊DCU,CPU和DCU的具體性能參數(shù)如表3所示。

      3.2 軟件系統(tǒng)設(shè)計(jì)

      基于并行計(jì)算的PCAL信號(hào)相位實(shí)時(shí)提取系統(tǒng)的軟件總體結(jié)構(gòu)框圖如圖13所示。軟件主要包括3個(gè)程序:① PCAL信號(hào)實(shí)時(shí)采集與傳輸程序,包括多模塊通信程序和數(shù)據(jù)緩沖程序;② 基于并行計(jì)算的改進(jìn)PCAL信號(hào)真實(shí)相位提取程序,主要用于完成對(duì)PCAL信號(hào)的相位并行提取,主要包括并行累加、并行FFT、并行解卷繞等模塊;③ 系統(tǒng)界面顯控程序,主要功能是顯示提取的信號(hào)相位隨時(shí)間和頻率的變化情況,便于對(duì)各時(shí)間點(diǎn)提取的信號(hào)相位的質(zhì)量進(jìn)行監(jiān)視。

      3.2.1 多模塊通信程序設(shè)計(jì)

      由系統(tǒng)軟件總體結(jié)構(gòu)可知,基帶轉(zhuǎn)換設(shè)備模塊與PCAL信號(hào)國(guó)產(chǎn)DCU處理模塊在不同的服務(wù)器節(jié)點(diǎn)上,顯控界面與PCAL信號(hào)國(guó)產(chǎn)DCU處理模塊在不同的操作系統(tǒng)中。基于并行計(jì)算的PCAL信號(hào)相位實(shí)時(shí)提取系統(tǒng)會(huì)進(jìn)行多個(gè)模塊、兩個(gè)系統(tǒng)之間的數(shù)據(jù)交互和傳輸,傳統(tǒng)的數(shù)據(jù)傳輸方式主要包括傳輸控制協(xié)議(transmission control protocol,TCP)、用戶數(shù)據(jù)報(bào)協(xié)議(user datagram protocol, UDP)[35等方式,存在靈活性較差、配置復(fù)雜等缺陷,難以滿足系統(tǒng)對(duì)實(shí)時(shí)性和靈活性的要求。本文在調(diào)研主流的多模塊通信方式后,選定使用基于DDS的通信機(jī)制。

      在本系統(tǒng)中,各個(gè)程序之間均采用基于DDS的通信方式,打通了不同服務(wù)器節(jié)點(diǎn)、不同系統(tǒng)之間的通信壁壘,達(dá)到了低延遲的高速通信。DDS中間件是聯(lián)系各個(gè)模塊的樞紐,在DDS中間件發(fā)布主題之后,相關(guān)的主題根據(jù)不同程序的需要被訂閱,其只需要保證在一個(gè)域內(nèi),即可完成數(shù)據(jù)傳輸。圖14所示為該系統(tǒng)采用DDS中間件發(fā)布與訂閱的主題,循環(huán)緩沖區(qū)1在域7中發(fā)布“信號(hào)處理”的主題,國(guó)產(chǎn)DCU處理模塊通過在域7中訂閱“信號(hào)處理”主題,即可完成從循環(huán)緩沖區(qū)1到國(guó)產(chǎn)DCU處理模塊的數(shù)據(jù)傳輸,循環(huán)緩沖區(qū)2在域9中發(fā)布“時(shí)間”“相位”“頻率”主題,Windows中的顯控界面通過在域9中訂閱“時(shí)間”“相位”“頻率”主題,即可完成從循環(huán)緩沖區(qū)2到顯控界面的數(shù)據(jù)傳輸。

      3.2.2 數(shù)據(jù)循環(huán)緩沖區(qū)設(shè)計(jì)

      當(dāng)基帶轉(zhuǎn)換設(shè)備輸出的PCAL信號(hào)數(shù)據(jù)以及DCU處理模塊處理得到的相位數(shù)據(jù)傳輸至主機(jī)內(nèi)存后,由于操作系統(tǒng)的非實(shí)時(shí)性和總線傳輸速度的不穩(wěn)定性,寫入內(nèi)存緩存區(qū)的數(shù)據(jù)可能不能及時(shí)地完成讀取。為了連續(xù)不斷地接收數(shù)據(jù),提出采用高效的循環(huán)緩存區(qū)管理策略對(duì)數(shù)據(jù)傳輸進(jìn)行優(yōu)化。循環(huán)緩存區(qū)36就是在計(jì)算機(jī)內(nèi)存中申請(qǐng)若干個(gè)容量相等的緩存區(qū),并將這些緩存區(qū)首尾相接,形成一個(gè)環(huán)式的鏈,其作用是防止數(shù)據(jù)丟失,保證數(shù)據(jù)的連續(xù)且充分。

      設(shè)計(jì)的PCAL信號(hào)相位實(shí)時(shí)提取系統(tǒng)包括兩個(gè)循環(huán)緩沖區(qū),各自負(fù)責(zé)不同的功能。圖15所示為第1個(gè)循環(huán)緩沖區(qū),其主要負(fù)責(zé)將基帶轉(zhuǎn)換設(shè)備輸出的大小不等的數(shù)據(jù)塊拼接為大小固定的數(shù)據(jù)塊,然后進(jìn)行數(shù)據(jù)拼包,并將其通過DDS中間件傳輸給PCAL信號(hào)DCU處理模塊。

      圖16所示為第2個(gè)循環(huán)緩沖區(qū):主要負(fù)責(zé)以固定大小的數(shù)據(jù)塊緩存由PCAL信號(hào)DCU處理模塊輸出的相位數(shù)據(jù),然后進(jìn)行數(shù)據(jù)拼包,并將其通過DDS中間件傳輸給Windows界面。

      當(dāng)循環(huán)緩沖區(qū)的大小設(shè)置太小時(shí),后端實(shí)時(shí)處理的壓力過大,沒有足夠的緩沖。當(dāng)循環(huán)緩沖區(qū)設(shè)置太大時(shí),將占用主機(jī)的內(nèi)存,進(jìn)而導(dǎo)致運(yùn)行速度過慢,也會(huì)導(dǎo)致實(shí)時(shí)處理性能降低。因此,循環(huán)緩沖區(qū)的大小需設(shè)置在合理的范圍內(nèi)。在綜合考慮DDS傳輸?shù)淖罴阉俾什⑦M(jìn)行多組測(cè)試后,本系統(tǒng)的循環(huán)緩沖區(qū)設(shè)置如表4所示。首先,設(shè)置20 MB為PCAL信號(hào)DCU并行處理模塊每次處理的數(shù)據(jù)塊的大小,20 MB的PCAL信號(hào)數(shù)據(jù)在經(jīng)過國(guó)產(chǎn)DCU處理模塊后,生成的相位數(shù)據(jù)為20 KB,則設(shè)置第1個(gè)循環(huán)緩沖區(qū)的數(shù)據(jù)緩存塊個(gè)數(shù)為50,每個(gè)數(shù)據(jù)緩存塊的大小為2 MB。因此,該循環(huán)緩沖區(qū)的總大小為100 MB。對(duì)于第2個(gè)循環(huán)緩沖區(qū),數(shù)據(jù)緩存塊個(gè)數(shù)為50,每個(gè)數(shù)據(jù)緩存塊的大小為2 KB,該緩沖區(qū)的總大小為100 KB。

      循環(huán)緩沖區(qū)的運(yùn)行流程為:經(jīng)過AD采集卡采集后的數(shù)據(jù)在進(jìn)入循環(huán)緩沖區(qū)1后開始填充數(shù)據(jù)緩存塊,在累計(jì)10個(gè)2 MB的數(shù)據(jù)塊后將20 MB的數(shù)據(jù)塊進(jìn)行拼包,并將其通過DDS中間件發(fā)布至國(guó)產(chǎn)DCU并行處理模塊進(jìn)行處理,之后循環(huán)緩沖區(qū)1內(nèi)的數(shù)據(jù)緩存塊進(jìn)入等待發(fā)布的狀態(tài),此時(shí)采集的數(shù)據(jù)將被繼續(xù)寫入循環(huán)緩沖區(qū)1,直至累積到20 MB之后,再次進(jìn)行發(fā)布。

      進(jìn)入到國(guó)產(chǎn)DCU并行處理模塊進(jìn)行處理后得到的相位數(shù)據(jù)進(jìn)入到循環(huán)緩沖區(qū)2后,開始填充數(shù)據(jù)緩存塊,在累計(jì)10個(gè)2 KB的數(shù)據(jù)塊后,將20 KB的數(shù)據(jù)塊進(jìn)行拼包,并將其通過DDS中間件發(fā)布至Windows顯控界面,之后循環(huán)緩沖區(qū)2內(nèi)的數(shù)據(jù)緩存塊進(jìn)入等待發(fā)布的狀態(tài),此時(shí)處理后得到的相位數(shù)據(jù)將被繼續(xù)寫入循環(huán)緩沖區(qū)2,直至累積到20 KB之后,再次進(jìn)行發(fā)布。

      4 仿真驗(yàn)證與結(jié)果分析

      本文提出優(yōu)化FFT分辨率的PCAL信號(hào)真實(shí)相位提取方法以及PCAL信號(hào)真實(shí)相位并行提取方法(以下分別簡(jiǎn)稱“改進(jìn)方法”和“并行改進(jìn)方法”),并基于后者設(shè)計(jì)基于數(shù)據(jù)循環(huán)緩沖區(qū)和DDS中間件的PCAL信號(hào)實(shí)時(shí)相位提取系統(tǒng)。為了驗(yàn)證兩個(gè)方法及實(shí)時(shí)系統(tǒng)的性能,與目前最新的基于FFT的PCAL信號(hào)相位提取串行方法11(以下簡(jiǎn)稱“傳統(tǒng)串行方法)做對(duì)比。設(shè)置對(duì)比實(shí)驗(yàn)組PCAL信號(hào)CPU處理設(shè)備的其他條件均相同,CPU和DCU的具體性能參數(shù)設(shè)置如表3所示。CPU處理設(shè)備采用 gettimeofday 函數(shù)進(jìn)行計(jì)時(shí),DCU處理設(shè)備采用 hipEvent 函數(shù)進(jìn)行計(jì)時(shí)。經(jīng)過多次測(cè)試,兩個(gè)函數(shù)測(cè)定的時(shí)間穩(wěn)定且準(zhǔn)確。實(shí)驗(yàn)數(shù)據(jù)來源為信號(hào)發(fā)生器采集的數(shù)據(jù),數(shù)據(jù)經(jīng)過基帶轉(zhuǎn)換設(shè)備29-31拆分為自定義固定帶寬的PCAL信號(hào)。下面分別從相位提取方法有效性、最佳FFT分辨率參數(shù)選取、相位提取方法加速性能以及系統(tǒng)實(shí)時(shí)性4個(gè)實(shí)驗(yàn)進(jìn)行仿真分析。

      4.1 實(shí)驗(yàn)1:相位提取方法有效性驗(yàn)證

      PCAL信號(hào)相位提取精度測(cè)試分析,仿真參數(shù)設(shè)置如表5所示,選用如表3所示的兩個(gè)仿真平臺(tái)進(jìn)行蒙特卡羅仿真,得到基于傳統(tǒng)串行方法、改進(jìn)方法以及并行改進(jìn)方法提取的PCAL信號(hào)的相頻曲線如圖17所示,基于改進(jìn)方法和并行改進(jìn)方法提取的PCAL信號(hào)各頻點(diǎn)原始相位隨時(shí)間的變化情況如圖18所示。

      在圖17中,藍(lán)色曲線代表由傳統(tǒng)串行方法得到的卷繞相頻曲線,可以發(fā)現(xiàn)相位在[-π,π]呈周期性分布,這是因?yàn)榉凑泻瘮?shù)的固有特性導(dǎo)致了信號(hào)的真實(shí)相位信息被隱藏了起來,即發(fā)生了相位卷繞。圖17中的紅色曲線表示采用改進(jìn)的相位提取方法得到的真實(shí)相頻曲線,該方法可以得到信號(hào)的真實(shí)相位信息。圖17中的黃色曲線表示采用并行改進(jìn)相位提取方法得到的真實(shí)相頻曲線,該方法與改進(jìn)方法得到的真實(shí)相頻曲線重合,驗(yàn)證了改進(jìn)方法和并行改進(jìn)方法的有效性。

      圖18中,圓圈代表當(dāng)前時(shí)刻(精確到1 s,因?yàn)槔塾?jì)時(shí)間為1 s)PCAL信號(hào)的一個(gè)頻點(diǎn)對(duì)應(yīng)的相位。在經(jīng)過78 s的相位提取后,形成了多條“彩帶”,每條“彩帶”的水平程度代表了相位提取的穩(wěn)定度,可以發(fā)現(xiàn)各頻點(diǎn)信號(hào)的相位隨著時(shí)間的變化保持穩(wěn)定,且改進(jìn)方法和改進(jìn)并行方法分別提取的相位基本相同,驗(yàn)證了改進(jìn)方法和并行改進(jìn)方法的有效性,表明兩種相位提取方法具有很強(qiáng)的穩(wěn)定性,這為后續(xù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)提供了有力依據(jù)。

      4.2 實(shí)驗(yàn)2:最佳FFT分辨率測(cè)試與分析

      最佳FFT分辨率測(cè)試與分析,改進(jìn)方法中的第2個(gè)改進(jìn)是可以通過設(shè)置最佳FFT分辨率以加速PCAL信號(hào)的相位提取處理流程,下面基于并行改進(jìn)方法進(jìn)行最佳FFT分辨率的測(cè)試與分析。

      為避免柵欄效應(yīng),PCAL信號(hào)頻率間隔必須是FFT分辨率的正整數(shù)倍,所以在1 Hz~10 MHz范圍內(nèi)選取FFT分辨率數(shù)值,其他實(shí)驗(yàn)仿真參數(shù)設(shè)置同實(shí)驗(yàn)1,選用國(guó)產(chǎn)DCU仿真平臺(tái)進(jìn)行蒙特卡羅仿真,得到在不同F(xiàn)FT分辨率下,處理不同信號(hào)數(shù)據(jù)量的PCAL信號(hào)相位提取算法的耗時(shí)情況,如圖19所示。從圖19中可以發(fā)現(xiàn),隨著FFT分辨率的增大,處理不同信號(hào)數(shù)據(jù)量的相位提取算法的耗時(shí)呈現(xiàn)一個(gè)先降低后大幅增高的趨勢(shì),且算法耗時(shí)均在FFT分辨率為1 000 Hz時(shí)達(dá)到最低,此時(shí)既考慮了FFT自身操作的消耗時(shí)間,又兼顧了數(shù)據(jù)讀取速度。仿真結(jié)果表明:針對(duì)信號(hào)間隔為1 MHz的PCAL信號(hào)的相位提取,當(dāng)設(shè)置FFT分辨率約為1 000時(shí),算法耗時(shí)最少,所以后續(xù)實(shí)驗(yàn)的FFT分辨率均采用1 kHz。

      4.3 實(shí)驗(yàn)3:相位提取加速性能測(cè)試與分析

      PCAL信號(hào)相位提取加速性能測(cè)試與分析,實(shí)驗(yàn)的自變量為PCAL信號(hào)數(shù)據(jù)量,取值分別為0.5 GB、1 GB、2 GB、5 GB、10 GB、20 GB、50 GB、100 GB、125 GB、150 GB,其他實(shí)驗(yàn)參數(shù)設(shè)置同實(shí)驗(yàn)1。

      首先,使用NVIDIA Nsight Systems分析軟件對(duì)是否采用異步流并發(fā)結(jié)構(gòu)PCAL相位提取算法運(yùn)行的時(shí)序進(jìn)行分析,得到并行改進(jìn)方法的運(yùn)行時(shí)序圖如圖20和圖21所示。選用如表3所示的兩個(gè)仿真平臺(tái)對(duì)3個(gè)PCAL相位提取方法進(jìn)行蒙特卡羅仿真,分別得到傳統(tǒng)串行相位提取方法、改進(jìn)相位提取方法、并行改進(jìn)相位提取方法的耗時(shí)以及改進(jìn)方法和并行改進(jìn)方法相比傳統(tǒng)串行方法的加速比,如圖22所示。

      圖20為未采用異步流并發(fā)結(jié)構(gòu)的并行改進(jìn)算法的運(yùn)行時(shí)序圖,可以發(fā)現(xiàn)所有的運(yùn)算模塊順序執(zhí)行,在同一時(shí)間只有一個(gè)核函數(shù)駐留。圖21為采用異步流并發(fā)結(jié)構(gòu)的并行改進(jìn)算法的運(yùn)行時(shí)序圖,可以發(fā)現(xiàn)在同一時(shí)間共有4個(gè)Stream對(duì)數(shù)據(jù)進(jìn)行異步處理,僅在數(shù)據(jù)傳輸時(shí)為串行操作,在同一時(shí)間的同一方向的數(shù)據(jù)傳輸只能有一個(gè)Stream進(jìn)行,大大提高了算法運(yùn)行效率,驗(yàn)證了異步流并發(fā)結(jié)構(gòu)設(shè)計(jì)的有效性。

      圖22中,橫軸表示PCAL信號(hào)數(shù)據(jù)量,縱軸1表示信號(hào)相位提取所消耗的時(shí)間,縱軸2表示改進(jìn)方法和并行改進(jìn)方法相比傳統(tǒng)串行方法的加速比。3種方法的相位提取耗時(shí)均隨著PCAL信號(hào)數(shù)據(jù)量的增大而增大,增大速度由快到慢依次為傳統(tǒng)串行方法、改進(jìn)方法、并行改進(jìn)方法。改進(jìn)方法相比傳統(tǒng)串行方法11的整體加速比約為3,且隨著信號(hào)數(shù)據(jù)量的增大基本保持穩(wěn)定,表明了基于最佳FFT分辨率參數(shù)的改進(jìn)信號(hào)真實(shí)相位提取方法的加速比增益與信號(hào)的數(shù)據(jù)量大小無關(guān),且隨著信號(hào)數(shù)據(jù)量的增加,并行改進(jìn)方法相比傳統(tǒng)串行方法11的加速比也在升高,從約35升高到了約43,表明了并行改進(jìn)方法適合大規(guī)模數(shù)據(jù)的實(shí)時(shí)處理,但是受限于實(shí)際系統(tǒng)的吞吐率與DCU并行性能的限制,系統(tǒng)的加速比升高趨勢(shì)有所緩和,最終趨于一個(gè)極限值。

      4.4 實(shí)驗(yàn)4:系統(tǒng)整體實(shí)時(shí)性測(cè)試與分析

      將整個(gè)系統(tǒng)進(jìn)行實(shí)時(shí)性測(cè)試與分析,仿真參數(shù)設(shè)置如表6所示,選用第4節(jié)設(shè)計(jì)的基于并行計(jì)算的PCAL信號(hào)相位實(shí)時(shí)提取系統(tǒng)對(duì)PCAL信號(hào)進(jìn)行處理,系統(tǒng)每處理1 s不同帶寬的信號(hào)數(shù)據(jù)流消耗的時(shí)間如圖23所示。

      在圖23中,X軸表示第N s的數(shù)據(jù)流,Y軸表示信號(hào)的帶寬,Z軸表示系統(tǒng)處理信號(hào)所消耗的時(shí)間,圖中紅色網(wǎng)格平面表示處理1 s原始數(shù)據(jù)消耗1 s時(shí)間的數(shù)據(jù)流實(shí)時(shí)處理臨界平面,消耗時(shí)間在該平面以下表示均能滿足實(shí)時(shí)處理,在該平面以上的帶寬信號(hào)不滿足實(shí)時(shí)處理。

      從圖23可以發(fā)現(xiàn),系統(tǒng)對(duì)32 MHz、64 MHz、128 MHz、256 MHz、512 MHz、1GHz、2 GHz、2.2 GHz有效帶寬的PCAL信號(hào)進(jìn)行處理的耗時(shí)均在1 s以內(nèi),均滿足實(shí)時(shí)處理的要求,且從X軸的維度上看,系統(tǒng)在對(duì)確定帶寬信號(hào)進(jìn)行處理時(shí),每段數(shù)據(jù)流所消耗的時(shí)間基本相同,表明系統(tǒng)在處理連續(xù)的數(shù)據(jù)流時(shí)較為穩(wěn)定。綜上所述,本文設(shè)計(jì)的基于并行計(jì)算的PCAL信號(hào)相位實(shí)時(shí)提取系統(tǒng)可實(shí)現(xiàn)對(duì)有效帶寬為2.2 GHz及以下、信號(hào)間隔為1 MHz、量化位數(shù)為8 bit的PCAL信號(hào)的相位實(shí)時(shí)提取。

      5 結(jié)束語

      為了實(shí)現(xiàn)PCAL信號(hào)的高效率相位提取并直接獲取信號(hào)的真實(shí)相位,對(duì)天線組陣設(shè)備進(jìn)行高效率標(biāo)校。本文最終提出一種PCAL信號(hào)真實(shí)相位并行提取方法,通過對(duì)卷繞相位進(jìn)行解卷繞處理,得到了信號(hào)的真實(shí)相位。對(duì)FFT分辨率參數(shù)進(jìn)行大量實(shí)驗(yàn)優(yōu)化,通過采用最佳FFT分辨率參數(shù)提高了PCAL信號(hào)相位提取的效率。結(jié)合國(guó)產(chǎn)DCU并行運(yùn)算技術(shù),采用線程并行和流并行設(shè)計(jì)并行相干累加、并行FFT、并行反正切、并行解卷繞等模塊,在保證相位提取精度的同時(shí)實(shí)現(xiàn)PCAL信號(hào)相位提取效率的巨大提升。實(shí)驗(yàn)結(jié)果表明,該方法相比傳統(tǒng)方法有一個(gè)數(shù)量級(jí)以上的加速比,且在一定范圍內(nèi)加速比隨著信號(hào)數(shù)據(jù)量的增大而增大。最后,基于該并行方法設(shè)計(jì)并實(shí)現(xiàn)一種基于并行計(jì)算的PCAL信號(hào)相位實(shí)時(shí)提取系統(tǒng),該系統(tǒng)采用高效的數(shù)據(jù)循環(huán)緩沖區(qū)技術(shù)解決了由操作系統(tǒng)的非實(shí)時(shí)性和總線傳輸速度的不穩(wěn)定性而導(dǎo)致的數(shù)據(jù)丟包的問題,采用DDS中間件打通不同服務(wù)器節(jié)點(diǎn)、不同模塊、不同系統(tǒng)之間的通信壁壘。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)在保證相位提取精度的同時(shí),可實(shí)現(xiàn)對(duì)有效帶寬為2.2 GHz及以下、信號(hào)間隔為1 MHz、量化位數(shù)為8 bit 的PCAL信號(hào)的相位實(shí)時(shí)提取,該系統(tǒng)可直接被應(yīng)用到天線組陣任務(wù)前的設(shè)備鏈路標(biāo)校場(chǎng)景中。

      需要指出的是,本文設(shè)計(jì)的實(shí)時(shí)系統(tǒng)實(shí)際上不局限于天線組陣設(shè)備鏈路標(biāo)校這一應(yīng)用場(chǎng)景,對(duì)于甚長(zhǎng)基線干涉測(cè)量終端設(shè)備以及包括射電望遠(yuǎn)鏡在內(nèi)的大部分變頻設(shè)備標(biāo)校均有良好的適用性,可以在未來的天文觀測(cè)、航天數(shù)據(jù)接收下傳等任務(wù)中發(fā)揮重要作用,且該系統(tǒng)具有自主可控、模塊化、可擴(kuò)展的優(yōu)勢(shì),未來可以擴(kuò)展多天線信號(hào)時(shí)延補(bǔ)償、多天線信號(hào)合成等計(jì)算模塊,使得該系統(tǒng)功能更加完備,有望為未來的載人登月等深空探測(cè)任務(wù)提供有力支撐。

      參考文獻(xiàn)

      [1]毛飛龍, 焦義文, 馬宏, 等. 基于GPU的天線組陣信號(hào)時(shí)延補(bǔ)償方法[J]. 系統(tǒng)工程與電子技術(shù), 2023, 45(8): 2383-2394.

      MAO F L, JIAO Y W, MA H, et al. Time delay compensation method of antenna array signal based on GPU[J]. Systems Engineering and Electronics, 2023, 45(8): 2383-2394.

      [2]RASHID M, NANZER J A. Online expectation maximization based frequency and phase consensus in distributed phased arrays[J]. IEEE Trans.on Communications, 2023, 71(6): 3721-3735.

      [3]MA H, WEI S J, LIAN X, et al. Research on delay calibration method of VLBI terminal device[C]∥Proc.of the International Conference on Information and Communications Technologies, 2014.

      [4]JIAO Y W, JIANG K, LIAN X, et al. Study on phase calibration signal processing[C]∥Proc.of the IEEE International Conference on Signal Processing, Communications and Computing, 2014: 94-97.

      [5]NOSOV E V. Methods for measuring the signal of the phase ca libration of the VLBI radio telescopes[J]. Radiophysics and Quantum Electronics, 2019, 62(4): 237-249.

      [6]KONDO T, TAKEFUJI K. An algorithm of wideband bandwidth synthesis for geodetic VLBI[J]. Radio Science, 2016, 51(10): 1686-1702.

      [7]QI B B, LIU D G. DOA estimation of coherent signals based on coherent accumulation vector[J]. Wireless Personal Communications, 2022, 125(3): 2393-2412.

      [8]FISNE A, OZSOY A. design and implementation of real time wideband software defined radio applications with GPGPUs[J]. Concurrency and Computation: Practice and Experience, 2018, 30(21): e4791.

      [9]THOMAS J B. The tone generator and phase calibration in VLBI measurements[R]. U.S. DSN Progress Report, 1978: 42-44.

      [10]JACOBS C S. Phase calibration tone processing with the block II VLBI correlator[R]. U.S. TMO Progress Report, 1998: 42-134.

      [11]劉友永, 郭肅麗, 王彬. VLBI觀測(cè)中相位校準(zhǔn)信號(hào)的處理[J]. 載人航天, 2010, 16(4): 5-8.

      LIU Y Y, GUO S L, WANG B. The processing of phase calibration signal in VLBI observation[J]. Chinese Journal of Astronautics, 2010, 16(4): 5-8.

      [12]姜坤, 侯孝民, 許可, 等. PCAL信號(hào)多頻點(diǎn)高效并行提取方法[J]. 飛行器測(cè)控學(xué)報(bào), 2012, 31(6): 32-36.

      JIANG K, HOU X M, XU K, et al. High efficiency parallel extraction of multi tone PCAL signals[J]. Journal of Aircraft Measurement and Control, 2012, 31(6): 32-36.

      [13]姜坤, 王元?dú)J, 侯孝民, 等. 相位校準(zhǔn)信號(hào)高效提取方法及誤差分析[J]. 信號(hào)處理, 2014, 30(2): 197-204.

      JIANG K, WANF Y Q, HOU X M, et al. High efficient extraction of phase calibration signals and error analysis[J]. Signal Processing, 2014, 30(2): 197-204.

      [14]常捷, 王錦清, 江永琛, 等. 通過相位校準(zhǔn)信號(hào)定標(biāo)絕對(duì)鏈路時(shí)延方法及應(yīng)用[J]. 天文研究與技術(shù), 2022, 19(4): 297-304.

      CHANG J, WANG J Q, JIANG Y C, et al. Method and application of measuring absolute link delay by PCAL[J]. Astronomical Research amp; Technology, 2022, 19(4): 297-304.

      [15]WANG Z. Audio signal acquisition and processing system based on model DSP rapid design[J]. Security and Communication Networks, 2022: 4593339.

      [16]HUANG G X, WANG L. An FPGA based architecture for high speed compressed signal reconstruction[J]. ACM Trans.on Embedded Computing Systems, 2017, 16(3): 1-23.

      [17]DAS K, NATH D, PRADHAN S N. FPGA and ASIC realisation of EMD algorithm for real time signal processing[J]. IET Circuits, Devices amp; Systems, 2020, 14(6): 741-749.

      [18]DIVYA N. Review on FPGA implementation of 16*16 vedic multiplier in VHDL environment[J]. Journal of Trend in Sc ientific Research and Development, 2018, 2(2): 1132-1134.

      [19]WAIDYASOORIYA H M, HARIYAMA M. Temporal and spatial parallel processing of simulated quantum annealing on a multicore CPU[J]. The Journal of Supercomputing, 2022, 78(6): 8733-8750.

      [20]AKARVARDAR K, WONG H S P. Technology prospects for data intensive computing[J]. Proc.of the IEEE, 2023, 111(1): 92-112.

      [21]BURGESS J. RTX on—the NVIDIA turing GPU[J]. IEEE Micro, 2020, 40(2): 36-44.

      [22]JIA J, LIN X Y, LIN F, et al. DCU CHK: checkpointing for large scale CPU DCU heterogeneous computing systems[J]. CCF Trans.on High Performance Computing, 2024, 1(3): 15-21.

      [23]MA K, HAN L, SHANG J D, et al. Optimized realization of quantum Fourier transform for domestic DCU accelerator[J]. Journal of Physics: Conference Series, 2022, 2258(1): 012065.

      [24]ZHOU Q W, LI J N, ZHAO R C, et al. Compilation optimization of DCU oriented openMP thread scheduling[J]. Journal of Physics: Conference Series, 2023, 2558(1): 012003.

      [25]PEEROO K, POPOV P, STANKOVIC V. A survey on experi mental performance evaluation of data distribution service (DDS) implementations[EB/OJ]. [2023-12-22]. https:∥arXiv e Prints, 2023: arXiv: 2310.16630.

      [26]MAO F L, MA H, JIAO Y W. Analysis of the research status of phase interferometer deblurring[C]∥Proc.of the IEEE International Conference on Artificial Intelligence and Industrial Design, 2021: 667-672.

      [27]COBOS M, ANTONACCI F, COMANDUCCI L, et al. Frequency sliding generalized cross correlation: a sub band time delay estimation approach[J]. IEEE/ACM Trans.on Audio, Speech, and Language Processing, 2020, 28: 1270-1281.

      [28]ZHANG X D, TANG Z, ZHANG X T, et al. Coconcurrency mechanism for multi GPUs in distributed heterogeneous environments[J]. IEEE Trans.on Parallel and Distributed Systems, 2022, 33(12): 4935-4947.

      [29]ZHENG X R, JIN J P, WANG Y J, et al. Research on the application and performance optimization of GPU parallel computing in concrete temperature control simulation[J]. Buildings, 2023, 13(10): 2657.

      [30]LIN Y, JENG J Y, LIU Y Y, et al. A review of PCI express protocol based systems in response to 5G application demand[J]. Electronics, 2022, 11(5): 678.

      [31]ROUI M B, SHEKOFTEH S K, NOORI H, et al. Efficient scheduling of streams on GPGPUs[J]. The Journal of Supercomputing, 2020, 76(11): 7270-7302.

      [32]TAN G, SHUI C Y, WANG Y S, et al. Optimizing the LINPACK algorithm for large scale PCIe based CPU GPU heterogeneous systems[J]. IEEE Trans.on Parallel and Distributed Systems, 2021, 32(9): 2367-2380.

      [33]HAN W C, LI H, GONG M G, et al. Multi swarm particle swarm optimization based on CUDA for sparse reconstruction[J]. Swarm and Evolutionary Computation, 2022, 75: 101153.

      [34]PANG W G, LUO X T, CHEN K L, et al. Efficient CUDA stream management for multi DNN real time inference on embedded GPUs[J]. Journal of Systems Architecture, 2023, 139: 102888.

      [35]ZHANG F, WANG N, HU Z, et al. A study of UDP and TCP FPGA implementation for data acquisition system[J]. Journal of Instrumentation, 2021, 16(7): P07044.

      [36]LUO P, ZOU D Q, DU Y J, et al. Static detection of real world buffer overflow induced by loop[J]. Computers amp; Security, 2020, 89: 101616.

      作者簡(jiǎn)介

      李雪?。?000—),男,博士研究生,主要研究方向?yàn)楹教鞙y(cè)控通信、天線組陣、星地高速數(shù)傳。

      陳永強(qiáng)(1988—),男,工程師,碩士,主要研究方向?yàn)楹教鞙y(cè)控通信。

      馬 宏(1976—),男,教授,博士,主要研究方向?yàn)檐浖x測(cè)控、航天測(cè)控通信。

      劉 楊(2001—),女,碩士研究生,主要研究方向?yàn)闄C(jī)械工程、仿生無人機(jī)。

      王育欣(2001—),女,博士研究生,主要研究方向?yàn)橹悄軠y(cè)控輻射源識(shí)別。

      焦義文(1985—),男,副教授,博士,主要研究方向?yàn)檐浖x測(cè)控、航天測(cè)控通信。

      猜你喜歡
      并行計(jì)算
      基于Hadoop的民航日志分析系統(tǒng)及應(yīng)用
      基于自適應(yīng)線程束的GPU并行粒子群優(yōu)化算法
      云計(jì)算中MapReduce分布式并行處理框架的研究與搭建
      矩陣向量相乘的并行算法分析
      并行硬件簡(jiǎn)介
      不可壓NS方程的高效并行直接求解
      基于GPU的超聲場(chǎng)仿真成像平臺(tái)
      基于Matlab的遙感圖像IHS小波融合算法的并行化設(shè)計(jì)
      科技視界(2016年11期)2016-05-23 08:13:35
      大數(shù)據(jù)背景的IT平臺(tái)架構(gòu)探索
      科技視界(2015年30期)2015-10-22 11:44:33
      基于枚舉的并行排序與選擇算法設(shè)計(jì)
      灵武市| 丰都县| 柳林县| 淮安市| 安图县| 虞城县| 曲沃县| 陇南市| 阿坝| 莎车县| 搜索| 杭锦旗| 克什克腾旗| 盱眙县| 鄂州市| 喀喇| 黄龙县| 平武县| 长丰县| 车险| 托克逊县| 泾阳县| 静安区| 库尔勒市| 全州县| 许昌县| 海淀区| 汝阳县| 张掖市| 德安县| 宾川县| 辽中县| 海阳市| 阿坝县| 密云县| 寿宁县| 临朐县| 临湘市| 增城市| 吉首市| 江永县|