用于MIMO檢測(cè)的基于NoC的多核動(dòng)態(tài)可重構(gòu)架構(gòu)

2024-11-02 00:00:00范文杰周牧也朱凌曉李世平陳鎧鄧松峰何國(guó)強(qiáng)馮書誼宋文清李麗傅玉祥

現(xiàn)代電子技術(shù) 2024年21期

摘 "要：隨著無(wú)線通信技術(shù)的發(fā)展，實(shí)現(xiàn)多輸入多輸出（MIMO）系統(tǒng)檢測(cè)性能與復(fù)雜度之間的最優(yōu)權(quán)衡日益困難，深度學(xué)習(xí)DL為此提供了新方向。文中提出基于片上網(wǎng)絡(luò)（NoC）的多核動(dòng)態(tài)可重構(gòu)架構(gòu)MCDBP，以提高基于DL的MIMO檢測(cè)算法的性能，并增強(qiáng)架構(gòu)的可編程性和擴(kuò)展性。MCDBP通過集成輕量級(jí)計(jì)算內(nèi)核及片上網(wǎng)絡(luò)互連，并行處理矢量?矩陣乘法、常數(shù)?矢量乘法、矢量點(diǎn)積、矢量加法等大多數(shù)深度展開網(wǎng)絡(luò)的基本運(yùn)算，有效提高復(fù)雜MIMO檢測(cè)性能。架構(gòu)的創(chuàng)新在于可重構(gòu)的處理元件PE設(shè)計(jì)，可以依據(jù)DL驅(qū)動(dòng)的MIMO檢測(cè)需求動(dòng)態(tài)調(diào)整。該設(shè)計(jì)對(duì)基于DL的MIMO檢測(cè)算法共性進(jìn)行深入分析，支持多種基本運(yùn)算模式，展現(xiàn)極高靈活性。實(shí)驗(yàn)結(jié)果顯示，MCDBP在執(zhí)行基于DL的MIMO檢測(cè)算法時(shí)，與通用CPU相比，可以實(shí)現(xiàn)12.66～22.98的加速比，算法性能有所提高，可以適應(yīng)不同應(yīng)用場(chǎng)景。

關(guān)鍵詞：無(wú)線通信； MIMO檢測(cè)；深度學(xué)習(xí)；數(shù)據(jù)驅(qū)動(dòng)網(wǎng)絡(luò)；模型驅(qū)動(dòng)網(wǎng)絡(luò)； NoC；可重構(gòu)；多核架構(gòu)

中圖分類號(hào)： TN47?34 " " " " " " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼： A " " " " " " " " " " " "文章編號(hào)： 1004?373X（2024）21?0001?06

Dynamically reconfigurable NoC?based multi?core architecture for MIMO detection

FAN Wenjie1， 2， ZHOU Muye1， 2， ZHU Lingxiao1， 2， LI Shiping3， CHEN Kai1， 3， DENG Songfeng4，

HE Guoqiang1， 3， FENG Shuyi4， SONG Wenqing1， 2， LI Li1， FU Yuxiang2

（1. School of Electronic Science and Engineering， Nanjing University， Nanjing 210023， China;

2. School of Integrated Circuits， Nanjing University， Suzhou 215163， China; 3. Jiangsu Huachuang Microsystems Co.， Ltd.， Nanjing 211899， China;

4. Shanghai Aerospace Electronic Technology Research Institute， Shanghai 201100， China）

Abstract： With the advancement of wireless communication technologies， achieving the optimal balance between the detection performance and complexity of multiple?input multiple?output （MIMO） systems is increasingly challenging. Deep learning （DL） offers a new direction for this. This paper presents a multi?core dynamic reconfigurable architecture based on network on chip （NoC）. This architecture， termed MCDBP （multi?core architecture for dynamic baseband processing）， strives to enhance the performance for DL?based MIMO detection algorithms and the architecture′s programmability and scalability. The MCDBP leverages integrated lightweight computing cores and NoC interconnects to process the fundamental operations of deep unfolded networks in parallel， such as vector?matrix multiplication （VMM）， constant?vector multiplication （CVM）， vector dot product （VDP）， and vector addition （VA）， so as to improve the performance of complex MIMO detection significantly. The innovation of the architecture lies in the reconfigurable design of the processing elements （PEs）， and the architecture can be adjusted according to different DL?based MIMO detection algorithms dynamically. This design is grounded in a thorough analysis of the commonalities of DL?based MIMO detection algorithms， showcasing extreme flexibility in supporting multiple fundamental operational modes. Experimental results indicate that， in comparison with the general?purpose CPU， MCDBP can achieve an acceleration ratio of 12.66～22.98 when implementing DL?based MIMO detection algorithms. It can be seen that the performance of the algorithm is improved， so the algorithm can adapt to different application scenarios.

Keywords： wireless communication; MIMO detection; deep learning; data?driven network; model?driven network; NoC; reconfigurable; multi?core architecture

0 "引 "言

多輸入多輸出（Multiple?Input Multiple?Output， MIMO）系統(tǒng)通過利用時(shí)間、頻率資源、多用戶和多天線等多個(gè)維度，在當(dāng)前的無(wú)線通信系統(tǒng)中實(shí)現(xiàn)了更高的性能和能效[1]。由于采用了多輸入多輸出處理技術(shù)，基站可以在蜂窩系統(tǒng)中同時(shí)發(fā)送或接收來(lái)自多個(gè)用戶的數(shù)據(jù)。發(fā)射機(jī)和接收機(jī)配備了數(shù)十或數(shù)百根天線，這也使得MIMO系統(tǒng)的信號(hào)處理成為一項(xiàng)復(fù)雜的任務(wù)。

最佳聯(lián)合MIMO檢測(cè)問題是一個(gè)非確定性多項(xiàng)式時(shí)間難問題（NP?hard）[2]和非凸問題。文獻(xiàn)[3]介紹了幾種流行的多輸入多輸出檢測(cè)算法。其中，最大似然（ML）檢測(cè)器是最優(yōu)檢測(cè)器，但需要進(jìn)行窮舉搜索，計(jì)算時(shí)間隨天線數(shù)量呈指數(shù)增長(zhǎng)，因此在大型多輸入多輸出系統(tǒng)中部署不切實(shí)際。因此，人們更加關(guān)注性能可接受、復(fù)雜度低的近優(yōu)檢測(cè)器[3?7]。線性多輸入多輸出檢測(cè)算法，如迫零（ZF）[3]、最小均方誤差（MMSE）[3]等，復(fù)雜度較低，但通常需要復(fù)雜的矩陣求逆來(lái)確定檢測(cè)器的系數(shù)，其性能受到限制。其他近優(yōu)檢測(cè)算法也存在問題，如當(dāng)用戶數(shù)量和調(diào)制階數(shù)增加時(shí)，近似信息傳遞（AMP）的復(fù)雜性也會(huì)增加[4]。半正定松弛（SDR）算法[5]處理的符號(hào)映射有限，并且在實(shí)際應(yīng)用中速度更慢。

近年來(lái)，深度學(xué)習(xí)（Deep Learning， DL）被應(yīng)用于許多領(lǐng)域，并為多輸入多輸出檢測(cè)帶來(lái)了新方法。深度學(xué)習(xí)在多輸入多輸出檢測(cè)中的應(yīng)用可分為兩類：數(shù)據(jù)驅(qū)動(dòng)法和模型驅(qū)動(dòng)法[8]。數(shù)據(jù)驅(qū)動(dòng)法直接從大量數(shù)據(jù)中學(xué)習(xí)特征并訓(xùn)練網(wǎng)絡(luò)[9?11]，然而，這種方法面臨著需要收集大量數(shù)據(jù)和訓(xùn)練時(shí)間密集等挑戰(zhàn)；模型驅(qū)動(dòng)法利用深度學(xué)習(xí)優(yōu)化現(xiàn)有的未確定參數(shù)，或在現(xiàn)有模型中引入補(bǔ)充參數(shù)[12?15]，在模型驅(qū)動(dòng)法中需要深度學(xué)習(xí)的參數(shù)比數(shù)據(jù)驅(qū)動(dòng)法少得多，從而減少了訓(xùn)練時(shí)間。

如今，為了適應(yīng)無(wú)線通信技術(shù)的快速發(fā)展，不少針對(duì)特定MIMO檢測(cè)算法設(shè)計(jì)的ASIC芯片被提了出來(lái)[16?19]，以滿足更短的執(zhí)行時(shí)間、更低的延遲、更高的帶寬和更低的能耗等需求。對(duì)于本文面向的基于DL的MIMO檢測(cè)算法，由于采用深度學(xué)習(xí)方法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)包含多個(gè)計(jì)算并行度，這使得多核片上互聯(lián)網(wǎng)絡(luò)（Network on Chip， NoC）成為一種合適的架構(gòu)。NoC提供了充足的帶寬，多核架構(gòu)帶來(lái)了遠(yuǎn)高于傳統(tǒng)單核架構(gòu)的計(jì)算能力，可以實(shí)現(xiàn)更低的MIMO檢測(cè)延遲。另外，不同的MIMO檢測(cè)方法有不同的優(yōu)勢(shì)、劣勢(shì)，適合于不同的應(yīng)用場(chǎng)景。為了使提出的架構(gòu)更加靈活，適應(yīng)不同的應(yīng)用場(chǎng)景，本文采用可重構(gòu)的處理單元（Processing Element， PE）設(shè)計(jì)。

本文提出的用于MIMO檢測(cè)的基于NoC的多核動(dòng)態(tài)可重構(gòu)架構(gòu)（Multi?core Architecture for Dynamic Baseband Processing， MCDBP）的主要貢獻(xiàn)如下：

1）采用多核NoC架構(gòu)加速基于深度學(xué)習(xí)的MIMO檢測(cè)網(wǎng)絡(luò)的執(zhí)行，通過利用這些網(wǎng)絡(luò)中存在的并行度，與通用CPU相比，可以實(shí)現(xiàn)12.66～22.98的加速比。

2）分析了不同模型驅(qū)動(dòng)網(wǎng)絡(luò)的共性，基于這些共性，提出一種可重構(gòu)的處理單元設(shè)計(jì)，處理單元可以配置成不同的模式，以適應(yīng)不同的應(yīng)用場(chǎng)景。

1 "多輸入多輸出檢測(cè)

1.1 "問題描述

考慮到一個(gè)有[N]個(gè)發(fā)射天線和[M]個(gè)接收天線的多輸入多輸出系統(tǒng)，發(fā)送符號(hào)向量寫為[x∈CN×1]?？梢缘玫浇邮招盘?hào)[y]如下：

[y=Hx+n] （1）

式中：[H∈CM×N]是信道矩陣；[n∈CM×1]是加性高斯白噪聲（Additive White Gaussian Noise， AWGN）。

在深度學(xué)習(xí)中，運(yùn)算總是在實(shí)值域中進(jìn)行的，因此考慮等效的實(shí)值表示如下：

[y=Hx+n] （2）

在式（2）中，實(shí)部和虛部被分開考慮，有[x=]

[RT（x），IT（x）T]，[y=RT（y），IT（y）T]，[n=RT（n），IT（n）T]，

以及[H=R（H）-I（H）I（H）R（H）]。

為了從接收信號(hào)[y]中恢復(fù)信號(hào)[x]，學(xué)者們提出了許多多輸入多輸出檢測(cè)方法。線性多輸入多輸出檢測(cè)算法，如迫零（ZF）[3]、最小均方誤差（MMSE）[3]，復(fù)雜度較低，但通常需要復(fù)雜的矩陣求逆來(lái)確定檢測(cè)器的系數(shù)。當(dāng)用戶數(shù)量和調(diào)制階數(shù)增加時(shí)，近似信息傳遞（AMP）等近似最優(yōu)檢測(cè)器的復(fù)雜度也會(huì)增加[4]，半正定松弛（SDR）[5]處理的符號(hào)映射有限，而且在實(shí)際應(yīng)用中速度更慢。

1.2 "基于深度學(xué)習(xí)方法

如今，隨著越來(lái)越多的研究關(guān)注深度學(xué)習(xí)在多輸入多輸出檢測(cè)中的應(yīng)用，提出了許多基于深度學(xué)習(xí)的多輸入多輸出檢測(cè)技術(shù)，這些技術(shù)可分為數(shù)據(jù)驅(qū)動(dòng)法和模型驅(qū)動(dòng)法兩類。數(shù)據(jù)驅(qū)動(dòng)法[9?11]直接從大量數(shù)據(jù)中學(xué)習(xí)特征并訓(xùn)練網(wǎng)絡(luò)。根據(jù)通用近似定理，經(jīng)過充分的數(shù)據(jù)訓(xùn)練后，神經(jīng)網(wǎng)絡(luò)有能力近似任何連續(xù)函數(shù)[20]。文獻(xiàn)[9]構(gòu)建了一個(gè)用于多輸入多輸出檢測(cè)的全連接多層網(wǎng)絡(luò)。文獻(xiàn)[10]提出了三種用于多輸入多輸出檢測(cè)的網(wǎng)絡(luò)，分別是基于深度神經(jīng)網(wǎng)絡(luò)（DNN）、卷積神經(jīng)網(wǎng)絡(luò)（CNN）和循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）。文獻(xiàn)[11]利用帶有監(jiān)督訓(xùn)練的DNN解決了聯(lián)合多輸入多輸出檢測(cè)和信道解碼問題。

模型驅(qū)動(dòng)方法[9，12?15，21]使用深度學(xué)習(xí)來(lái)優(yōu)化參數(shù)或在現(xiàn)有模型中添加一些參數(shù)，這些方法利用現(xiàn)有的數(shù)學(xué)模型對(duì)訓(xùn)練時(shí)間和數(shù)據(jù)集提出了更低的要求。通過巧妙地展開現(xiàn)有的迭代算法，模型驅(qū)動(dòng)網(wǎng)絡(luò)由許多相同的層組成，算法的迭代次數(shù)決定了網(wǎng)絡(luò)的層數(shù)。例如，DetNet的結(jié)構(gòu)就是通過將投影梯度下降算法的迭代展開成網(wǎng)絡(luò)而獲得的[9]。文獻(xiàn)[21]將DetNet簡(jiǎn)化為稀疏連接神經(jīng)網(wǎng)絡(luò)，即ScNet。文獻(xiàn)[12]基于文獻(xiàn)[6]中提出的迭代算法構(gòu)建了一個(gè)模型驅(qū)動(dòng)網(wǎng)絡(luò)。文獻(xiàn)[13]基于非精確交替乘法（ADMM）算法[7]，提出了非精確ADMM網(wǎng)絡(luò)。JC?Net結(jié)構(gòu)是通過展開阻尼雅可比檢測(cè)器并為每層添加三個(gè)可訓(xùn)練參數(shù)而設(shè)計(jì)的[14]。GS?Net在現(xiàn)有高斯?賽德爾檢測(cè)模型的基礎(chǔ)上增加了一些可學(xué)習(xí)的參數(shù)，并展開了高斯?賽德爾檢測(cè)方法的迭代過程[15]。

考慮到模型驅(qū)動(dòng)方法結(jié)合了深度學(xué)習(xí)和傳統(tǒng)數(shù)學(xué)模型的優(yōu)點(diǎn)，對(duì)訓(xùn)練時(shí)間和數(shù)據(jù)集的要求較低，本文的工作主要集中在模型驅(qū)動(dòng)方法的實(shí)現(xiàn)上。

2 "用于MIMO檢測(cè)的可重構(gòu)NoC設(shè)計(jì)

本節(jié)將介紹用于多輸入多輸出檢測(cè)的可重構(gòu)NoC架構(gòu)MCDBP。該多核架構(gòu)充分利用了基于深度學(xué)習(xí)的網(wǎng)絡(luò)中的并行性維度，采用可重構(gòu)處理單元設(shè)計(jì)，使所提出的架構(gòu)更加靈活，能夠適應(yīng)不同的應(yīng)用場(chǎng)景。不同的多輸入多輸出檢測(cè)方法有不同的優(yōu)點(diǎn)、缺點(diǎn)和應(yīng)用場(chǎng)景，例如文獻(xiàn)[12]中的網(wǎng)絡(luò)針對(duì)多用戶干擾消除進(jìn)行了優(yōu)化，而文獻(xiàn)[13]中的網(wǎng)絡(luò)可以解調(diào)高階調(diào)制符號(hào)。本文總結(jié)了不同深度展開網(wǎng)絡(luò)所涉及的操作，結(jié)果如表1所示。

從表1可以得出：矢量?矩陣乘法（Vector?Matrix Multiplication， VMM）、常數(shù)?矢量乘法（Constant?Vector Multiplication， CVM）、矢量點(diǎn)積（Vector Dot Product， VDP）、矢量加法（Vector Addition， VA）是大多數(shù)深度展開網(wǎng)絡(luò)的基本運(yùn)算，也就是說，這些網(wǎng)絡(luò)可以分解為這四種基本運(yùn)算。所有這些操作都涉及多個(gè)維度，因此可以并行化，并行化策略將在第2.2節(jié)中介紹。進(jìn)一步細(xì)分，所有這些操作都由乘法和加法組成，這意味著它們都可以由乘累加單元（Multiplier and Accumulation， MAC）完成?；谶@一觀點(diǎn)，設(shè)計(jì)了下文所述的可重構(gòu)處理單元，它可以配置為上述四種基本模式。

2.1 "可重構(gòu)處理單元設(shè)計(jì)

可重構(gòu)處理單元的可重構(gòu)性體現(xiàn)在其內(nèi)部結(jié)構(gòu)和功能的動(dòng)態(tài)可配置性。

1）計(jì)算陣列的多模式配置：計(jì)算陣列由多個(gè)乘累加單元（MAC）構(gòu)成，可根據(jù)需要進(jìn)行控制，完成不同的計(jì)算任務(wù)。

2）配置寄存器：通過配置寄存器，可在運(yùn)行時(shí)調(diào)整處理單元的功能，以匹配特定的處理需求。

3）后處理單元：處理單元完成計(jì)算后，后處理單元可以進(jìn)行激活函數(shù)、量化處理等，其行為也可以根據(jù)需要進(jìn)行配置，以支持不同的網(wǎng)絡(luò)層需求。

4）迭代計(jì)數(shù)器：通過設(shè)置迭代計(jì)數(shù)器的迭代次數(shù)，以適應(yīng)不同深度展開網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)需求。

可重構(gòu)處理單元的基本結(jié)構(gòu)如圖1所示。

可重構(gòu)處理單元的主要組件包括：

1）輸入緩沖區(qū)：用于存儲(chǔ)輸入激活。

2）計(jì)算陣列：完成乘積計(jì)算，并可配置為不同模式，計(jì)算陣列的基本單元是一組MAC。

3）配置寄存器：存儲(chǔ)配置參數(shù)，控制計(jì)算陣列的模式，并完成整體時(shí)序控制。

4）迭代計(jì)數(shù)器：記錄迭代次數(shù)，當(dāng)?shù)?jì)數(shù)器達(dá)到設(shè)定的層數(shù)時(shí)，計(jì)算終止。

5）權(quán)重緩沖區(qū)：用于存儲(chǔ)權(quán)重。

6）后處理單元：負(fù)責(zé)完成每輪計(jì)算的后處理操作，如截?cái)嗪图せ詈瘮?shù)。

7）網(wǎng)絡(luò)接口：完成路由包的打包和解包。

對(duì)于深度展開網(wǎng)絡(luò)，將其分解為基本操作，每個(gè)操作將映射到一組處理單元上。這些處理單元將根據(jù)配置寄存器的設(shè)置配置計(jì)算陣列的模式。映射過程將在第2.2節(jié)中討論。

2.2 "模型驅(qū)動(dòng)網(wǎng)絡(luò)的映射算法

本節(jié)介紹將模型驅(qū)動(dòng)的多輸入多輸出檢測(cè)網(wǎng)絡(luò)映射到NoC平臺(tái)的過程，并介紹本文使用的映射算法。

從第1.2節(jié)的介紹中可以了解到，模型驅(qū)動(dòng)網(wǎng)絡(luò)通常基于現(xiàn)有的迭代算法，這意味著模型驅(qū)動(dòng)網(wǎng)絡(luò)中的不同層具有相同的架構(gòu)。可以將網(wǎng)絡(luò)的不同層映射到相同的處理單元上，以時(shí)分復(fù)用的方式完成整個(gè)網(wǎng)絡(luò)的計(jì)算，即只需將一層映射到NoC平臺(tái)的處理單元上，然后迭代利用這些處理單元完成其他各層的計(jì)算。每個(gè)處理單元將負(fù)責(zé)該層的一個(gè)基本操作。要開始下一層的計(jì)算，產(chǎn)生輸出的處理單元需要將輸出傳送給接收輸入的處理單元，不同操作之間的依賴關(guān)系構(gòu)成了不同處理單元之間的數(shù)據(jù)流。

圖2展示了將文獻(xiàn)[12]中提出的網(wǎng)絡(luò)映射到NoC平臺(tái)的示例，圖2a）展示了文獻(xiàn)[12]中提出的網(wǎng)絡(luò)一層的流程圖。圖2b）將原始模型轉(zhuǎn)換為基本操作，原始模型可細(xì)分為9個(gè)基本操作。在圖2c）中，圖2b）中的基本操作被映射到處理單元上，每個(gè)處理單元下的數(shù)字與圖2b）中的操作相對(duì)應(yīng)。

在并行化策略方面，采用輸出并行策略。不同配置模式下的并行維度如下：

//矢量?矩陣乘法PE級(jí)

parallel_for p1=[0：P1）：

//矢量?矩陣乘法MAC級(jí)

for p2=[0：P2）：

parallel_for p3=[0：P3）：

for k=[0：K）：

p=（p1*P2+p2）*P3+p3;

O[p]+=I[k]*W[k，p];

//矢量點(diǎn)積PE級(jí)

parallel_for p1=[0：P1）：

//矢量點(diǎn)積MAC級(jí)

for p2=[0：P2）：

parallel_for p3=[0：P3）：

p=（p1*P2+p2）*P3+p3;

O[p]=I1[p]*I2[p];

//矢量加法PE級(jí)

parallel_for p1=[0：P1）：

//矢量加法MAC級(jí)

for p2=[0：P2）：

parallel_for p3=[0：P3）：

for k=[0：K）：

p=（p1*P2+p2）*P3+p3;

O[p]+=Ik[p];

//常數(shù)?矢量乘法PE級(jí)

parallel_for p1=[0：P1）：

//常數(shù)?矢量乘法MAC級(jí)

for p2=[0：P2）：

parallel_for p3=[0：P3）：

p=（p1*P2+p2）*P3+p3;

O[p]=C*I[p];

對(duì)于PE級(jí)，不同的輸出將在不同的PE中同時(shí)計(jì)算。對(duì)于MAC級(jí)，在每個(gè)PE中，MAC陣列將以組內(nèi)串行、組間并行的方式計(jì)算輸出。

與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)映射問題相比，模型驅(qū)動(dòng)網(wǎng)絡(luò)映射問題更為復(fù)雜，其產(chǎn)生輸出的處理單元仍需將輸出傳送給接收輸入的處理單元，不同操作之間的依賴關(guān)系會(huì)產(chǎn)生類似ResNet的殘差連接。如何找到一個(gè)能帶來(lái)低通信延遲的良好映射是一個(gè)更大的挑戰(zhàn)。在這項(xiàng)工作中，本文基于文獻(xiàn)[22]中提出的GAMMA算法進(jìn)行映射，這是一種基于遺傳算法（GA）的方法，專門針對(duì)硬件映射問題而設(shè)計(jì)。

3 "實(shí)驗(yàn)結(jié)果

3.1 "實(shí)現(xiàn)細(xì)節(jié)

本節(jié)將提供所提出的可重構(gòu)NoC平臺(tái)在不同模型下的實(shí)驗(yàn)結(jié)果。本文的仿真是基于CNN?Noxim[23]進(jìn)行的，這是一種基于NoC的周期精確卷積神經(jīng)網(wǎng)絡(luò)仿真器。本文修改了CNN?Noxim中的處理單元模塊，以支持模型驅(qū)動(dòng)網(wǎng)絡(luò)中的上述四種基本操作。同時(shí)，采用了2.2節(jié)中介紹的映射策略，以減少NoC中的通信延遲。

不同操作類型的處理單元有不同的計(jì)算時(shí)間。VMM的計(jì)算時(shí)間見式（3）。CVM、VDP和VA的計(jì)算時(shí)間見式（4）。

[TVMM=Nin×Nout+NMAC-1NMAC+Nout+NMAC-1modNMAC+1] （3）

[Tother=Nout+NMAC-1NMAC+Nout+NMAC-1modNMAC+1] （4）

式中：[Nin]代表輸入維度的長(zhǎng)度；[Nout]代表輸出維度的長(zhǎng)度；[NMAC]代表計(jì)算陣列中的MAC數(shù)量。

表2列出了配置參數(shù)。其中，分組規(guī)模決定了[Nout]的最大值。

3.2 "性 "能

將文獻(xiàn)[12]中的網(wǎng)絡(luò)、ADMMNet[13]和DetNet[9]三種模型驅(qū)動(dòng)網(wǎng)絡(luò)映射到NoC平臺(tái)，使用的MIMO規(guī)模為32×32，比較這些網(wǎng)絡(luò)的總執(zhí)行時(shí)間。

將MCDBP與CPU的性能進(jìn)行對(duì)比。CPU的算力為486.4 GFLOPs，多核架構(gòu)MCDBP對(duì)應(yīng)的算力為1 TOPs，表3顯示了三個(gè)神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果。與CPU相比，多核架構(gòu)MCDBP在文獻(xiàn)[12]提出的網(wǎng)絡(luò)中可以實(shí)現(xiàn)12.66的加速比，在ADMM網(wǎng)絡(luò)中可以實(shí)現(xiàn)14.65的加速比，在DetNet中為22.98。從圖中可以得出另一個(gè)結(jié)論，DetNet比其他模型驅(qū)動(dòng)網(wǎng)絡(luò)更耗時(shí)，這是由于DetNet的架構(gòu)更為復(fù)雜。

3.3 "資源開銷

對(duì)可重構(gòu)處理單元進(jìn)行了硬件實(shí)現(xiàn)，使用Synopsys Design Compiler在28 nm工藝下進(jìn)行了綜合，最終得到在1 GHz的頻率下面積為0.047 mm2、功耗為9.95 mW，8×8的MCDBP多核架構(gòu)的面積為3.563 mm2，功耗為0.724 W。

4 "結(jié) "語(yǔ)

本文重點(diǎn)討論了模型驅(qū)動(dòng)多輸入多輸出檢測(cè)網(wǎng)絡(luò)的硬件加速問題，利用這些網(wǎng)絡(luò)中的并行維度將它們配置到多核NoC架構(gòu)MCDBP中。分析了不同模型驅(qū)動(dòng)網(wǎng)絡(luò)的共性，基于這些共性，提出了一種可重新配置的處理單元設(shè)計(jì)，以適應(yīng)不同的應(yīng)用場(chǎng)景。與通用CPU相比，本文提出的架構(gòu)可以實(shí)現(xiàn)12.66～22.98的加速比。

注：本文通訊作者為傅玉祥、李麗、宋文清。

參考文獻(xiàn)

[1] GOLDSMITH A， JAFAR S A， JINDAL N， et al. Capacity limits of MIMO channels [J]. IEEE journal on selected areas in communications， 2003， 21（5）： 684?702.

[2] VERDú S. Computational complexity of optimum multiuser detection [J]. Algorithmica， 1989， 4（3）： 303?312.

[3] ALBREEM M A M， JUNTTI M J， SHAHABUDDIN S. Massive MIMO detection techniques： A survey [J]. IEEE communications surveys amp; tutorials， 2019， 21（4）： 3109?3132.

[4] ZENG J， LIN J， WANG Z F. Low complexity message passing detection algorithm for large?scale MIMO systems [J]. IEEE wireless communications letters， 2018， 7（5）： 708?711.

[5] LUO Z Q， MA W K， SO A M C， et al. Semidefinite relaxation of quadratic optimization problems [J]. IEEE signal processing magazine， 2010， 27（3）： 20?34.

[6] MANDLOI M， BHATIA V. Low?complexity near?optimal iterative sequential detection for uplink massive MIMO systems [J]. IEEE communications letters， 2017， 21（3）： 568?571.

[7] BOYD S P， PARIKH N， CHU E， et al. Distributed optimization and statistical learning via the alternating direction method of multipliers [J]. Foundations and trends in machine learning， 2011， 3（1）： 1?122.

[8] YANG S S， HANZO L. Fifty years of MIMO detection： The road to large?scale MIMOs [J]. IEEE communications surveys amp; tutorials， 2015， 17（4）： 1941?1988.

[9] SAMUEL N， DISKIN T， WIESEL A. Learning to detect [J]. IEEE transactions on signal processing， 2019， 67（10）： 2554?2564.

[10] BAEK M S， KWAK S， JUNG J Y， et al. Implementation metho?dologies of deep learning?based signal detection for conventional MIMO transmitters [J]. IEEE transactions on broadcas?ting， 2019， 65（3）： 636?642.

[11] WANG T T， ZHANG L H， LIEW S C. Deep learning for joint MIMO detection and channel decoding [C]// 30th IEEE Annual International Symposium on Personal， Indoor and Mobile Radio Communications. New York： IEEE， 2019： 1?7.

[12] LIAO J Y， ZHAO J H， GAO F F， et al. A model?driven deep learning method for massive MIMO detection [J]. IEEE communications letters， 2020， 24（8）： 1724?1728.

[13] KIM M， PARK D. Learnable MIMO detection networks based on inexact ADMM [J]. IEEE transactions on wireless communications， 2021， 20（1）： 565?576.

[14] CAO Q， LI F， LI T， et al. Adaptive signal detection method based on model?driven for massive MIMO systems [C]// 2021 13th International Conference on Wireless Communications and Signal Processing （WCSP）. New York： IEEE， 2021： 1?5.

[15] WANG Q， HAI H， PENG K Z， et al. A learnable Gauss?Seidel detector for MIMO detection [C]// 2020 IEEE/CIC International Conference on Communications in China （ICCC）. New York： IEEE， 2020： 107?111.

[16] HAN K N， HU J H， CHEN J N， et al. A high performance massive MIMO detector based on log?domain belief?propagation [C]// 2015 IEEE 11th International Conference on ASIC （ASICON）. New York： IEEE， 2015： 1?4.

[17] LI Z Q， LIN L Y， CHEN Y， et al. Implementation of a pipeline division?free MMSE MIMO detector that support soft?input and soft?output [C]// 2017 23rd Asia?Pacific Conference on Communications （APCC）. New York： IEEE， 2017： 1?5.

[18] SUIKKANEN E， JUNTTI M J. ASIC implementation and performance comparison of adaptive detection for MIMO?OFDM system [C]// 49th Asilomar Conference on Signals， System and Computers. New York： IEEE， 2015： 1632?1636.

[19] ATTARI M， SáNCHEZ J R， LIU L. A floating?point 16 × 16 SVD accelerator for beyond?5G large intelligent surfaces [C]// IEEE 66th International Midwest Symposium on Circuits and Systems （MWSCAS）. New York： IEEE， 2023： 967?971.

[20] CYBENKO G. Approximation by superpositions of a sigmoidal function [J]. Mathematics of Control， Signals， and Systems， 1989， 22（2）： 303?314.

[21] GAO G L， DONG C， NIU K. Sparsely connected neural network for massive MIMO detection [C]// 2018 International Conference on Innovative Computing and Cloud Computing. [S.l.： s.n.]， 2018： 397?402.

[22] KAO S C， KRISHNA T. GAMMA： Automating the HW mapping of DNN models on accelerators via genetic algorithm [C]// Proceedings of the 39th IEEE/ACM International Conference on Computer?aided Design. New York： IEEE， 2020： 1?9.

[23] CHEN K C J， WANG T Y. NN?Noxim： High?level cycle?accurate NoC?based neural networks simulator [C]// 2018 11th International Workshop on Network on Chip Architectures （NoCArc）. New York： IEEE， 2018： 1?5.

作者簡(jiǎn)介：范文杰（2000—），男，江蘇南京人，碩士研究生，研究方向?yàn)榧呻娐吩O(shè)計(jì)。

周牧也（1998—），男，江蘇連云港人，碩士研究生，研究方向?yàn)榧呻娐吩O(shè)計(jì)。

朱凌曉（2000—），男，江蘇南通人，碩士研究生，研究方向?yàn)榧呻娐吩O(shè)計(jì)。

李世平（1987—），男，安徽安慶人，研究員級(jí)高級(jí)工程師，研究方向?yàn)榧呻娐吩O(shè)計(jì)。

陳 "鎧（1979—），男，江蘇南京人，高級(jí)工程師，研究方向?yàn)榧呻娐吩O(shè)計(jì)。

鄧松峰（1979—），男，山東青島人，研究員，研究方向?yàn)樾巧蠑?shù)據(jù)處理。

何國(guó)強(qiáng)（1977—），男，江蘇常州人，研究員級(jí)高級(jí)工程師，研究方向?yàn)榧呻娐吩O(shè)計(jì)。

馮書誼（1984—），男，湖南岳陽(yáng)人，研究員，研究方向?yàn)檫b感圖像處理。

宋文清（2000—），女，山東泰安人，博士研究生，研究方向?yàn)榧呻娐吩O(shè)計(jì)。

李 "麗（1975—），女，黑龍江雙鴨山人，教授，研究方向?yàn)榧呻娐吩O(shè)計(jì)。

傅玉祥（1990—），男，江蘇南京人，博士研究生，副教授，研究方向?yàn)榧呻娐吩O(shè)計(jì)。