基于Vitis AI的可行駛區(qū)域檢測定制計算系統(tǒng)設(shè)計

2022-06-20 05:12:29李慧琳柴志雷

現(xiàn)代信息科技 2022年1期

關(guān)鍵詞：現(xiàn)場可編程門陣列卷積神經(jīng)網(wǎng)絡(luò)

李慧琳柴志雷

摘? 要：針對基于卷積神經(jīng)網(wǎng)絡(luò)的可行駛區(qū)域檢測方法計算耗時長、實時性差等問題，基于Vitis AI為其設(shè)計了一種定制計算系統(tǒng)，并通過采用模型定點化、網(wǎng)絡(luò)剪枝、硬件定制等優(yōu)化方法，實現(xiàn)了對可行駛區(qū)域檢測方法的高效計算。實驗結(jié)果表明，在Xilinx ZCU102異構(gòu)計算平臺上，可編程邏輯部分的工作頻率為200 MHz時，所實現(xiàn)的可行使區(qū)域檢測系統(tǒng)的識別幀率可達到46 FPS，計算性能可達903 GOPS，能效比為50.45 GOPS/W，可以較好地滿足實際系統(tǒng)的需求。

關(guān)鍵詞：現(xiàn)場可編程門陣列;Vitis AI;可行駛區(qū)域檢測;定制計算系統(tǒng);卷積神經(jīng)網(wǎng)絡(luò)

中圖分類號：TP391.4? ? ? ?文獻標識碼：A文章編號：2096-4706（2022）01-0073-06

Abstract： Aiming at the problems of long calculation time and poor real-time performance of the drivable area detection method based on convolutional neural network， a customized computing system is designed based on Vitis AI， and optimization methods such as model fixed-pointization， network pruning， and hardware customization are adopted， which realizes the efficient computing of the drivable area detection method. The experimental results show that on the Xilinx ZCU102 heterogeneous computing platform， when the operating frequency of the programmable logic part is 200 MHz， the recognition frame rate of the realizable area detection system can reach 46 FPS， the computing performance can reach 903 GOPS， and the energy efficiency ratio is 50.45 GOPS/W， which can better meet the needs of the actual system.

Keywords： field programmable gate array; Vitis AI; drivable area detection; customized computing systems; convolutional neural network

0? 引? 言

可行駛區(qū)域檢測，指的是自動駕駛系統(tǒng)通過分析車輛前方拍攝的區(qū)域圖像，來判斷前方是否為沒有車輛行人等障礙物的可行駛區(qū)域。可行駛區(qū)域檢測是自動駕駛系統(tǒng)中環(huán)境感知的核心任務(wù)之一，目前主要有基于傳統(tǒng)計算機視覺和基于深度學習兩種不同的方法。傳統(tǒng)計算機視覺的方法包含基于顏色、紋理、邊緣等直接特征和基于間接特征的可行駛區(qū)域檢測，這些方法受限于人工設(shè)計特征和先驗知識，對環(huán)境的魯棒性不高，通常只能在特定的簡單環(huán)境下使用[1]?；谏疃葘W習的方法是通過語義分割來得到可行駛區(qū)域的，基于語義分割對圖像中的每一個像素點給出一個分類結(jié)果，自動提取出語義特征，可以不受限于先驗知識和特定的場景輸出稠密的預(yù)測圖。這種預(yù)測在很大程度上保留了原始圖像的邊緣信息和語義信息，有助于無人駕駛對場景的理解。因此基于深度學習的可行駛區(qū)域檢測已經(jīng)成為目前環(huán)境感知中的主流方法[2]。與傳統(tǒng)的方法相比，基于深度學習的方法不依賴于手工特征，分割精度大大提升，能夠解決復雜環(huán)境下的圖像處理問題，可以極大提高算法對環(huán)境的魯棒性[3]。

但基于深度學習的可行使區(qū)域檢測方法計算復雜度高、運算量大。如Chen等人[4]提出的道路分割網(wǎng)絡(luò)PLARD，在NVIDIA GTX Titan GPU平臺上依然需要耗時0.16 s;SNE-RoadSeg+網(wǎng)絡(luò)[5]使用Tensor RT加速后，在2.5 GHz工作頻率的GPU平臺上仍然耗時0.08 s。可見上述關(guān)于可行使區(qū)域檢測的工作還難以滿足自動駕駛等對實時性要求較高的應(yīng)用場景的需要，而且上述基于GPU的加速方法還存在計算功耗高、散熱困難，難以用于車載場景等嵌入式環(huán)境的問題。

為了提升可行使區(qū)域檢測的計算性能及能效比，不少工作開始嘗試基于FPGA設(shè)計定制計算系統(tǒng)進行加速。文獻[6]提出了用于可行使區(qū)域檢測的深度卷積神經(jīng)網(wǎng)絡(luò)Q-SegNet，并基于Xilinx ZCU104對其進行加速，達到了501 GOPS/W的能效比;文獻[7]提出二進制SegNet模型，并在Xilinx VCU118上實現(xiàn)了351.7 GOPS/W的能效比?？梢娀贔PGA的方式由于硬件架構(gòu)可定制、能適應(yīng)不同位寬、可更好地支持定點化等優(yōu)勢可以獲得更好地能效比，是嵌入式環(huán)境下實現(xiàn)可行使區(qū)域檢測的一種有效途徑。

但是傳統(tǒng)的基于FPGA的定制計算系統(tǒng)需要通過編寫VHDL/Verilog或者HLS等硬件描述語言實現(xiàn)，要求開發(fā)人員具有底層的硬件和系統(tǒng)知識，且開發(fā)難度大、開發(fā)周期長[8]。為此Xilinx提出了Vitis AI，它提供了一系列完整的工具和API，幫助用戶完成具體的量化、剪枝等優(yōu)化和編譯預(yù)訓練好的模型，不需要編寫HDL和具備底層硬件知識，降低了基于FPGA設(shè)計定制計算系統(tǒng)的難度，可以快速地在Xilinx平臺上部署AI推理模型。但是針對特定模型，如何根據(jù)其計算特點快速確定適合Vitis AI實現(xiàn)的優(yōu)化方法并充分利用Vitis AI優(yōu)化能力及硬件定制能力獲得最佳計算性能？這方面的研究尚不多見。

因此本文以FCN可行使區(qū)域檢測模型為對象，研究了其網(wǎng)絡(luò)模型的計算特性，并針對Vitis AI提出了參數(shù)量化、剪枝、模型壓縮等優(yōu)化方法;同時基于DPU對硬件架構(gòu)進行了定制;完成了一套完整的定制軟硬件系統(tǒng)。該定制系統(tǒng)在ZCU102上達到了46 FPS的處理性能及50.45 GOPS/W的能效比，驗證了本文方法的有效性。說明基于Vitis AI的方式有望成為FPGA定制深度學習計算系統(tǒng)的一種可行手段。

1? 基于CNN的可行駛區(qū)域檢測

1.1? 算法原理

本文采用的基于深度學習的語義分割算法全卷積網(wǎng)絡(luò)（Fully Convolutional Networks， FCN）[9]整體架構(gòu)如圖1所示。FCN被廣泛應(yīng)用于像素級別分類，其輸出是帶有圖像語義信息的類別矩陣。全卷積網(wǎng)絡(luò)模型主要用輸入輸出、卷積池化和反卷積層構(gòu)成，其核心思想是將一個全連接層轉(zhuǎn)換為一個1×1大小的卷積層，使用反卷積或者上采樣操作生成與輸入圖像大小相同的類別矩陣。FCN是語義分割的代表算法，該網(wǎng)絡(luò)主要丟棄了CNN的全連接層并且用卷積層替代，在提高分割效率的同時也降低了計算的復雜度。

1.2? 計算性能分析

本文所用網(wǎng)絡(luò)架構(gòu)FCN-8s共有8層，在功率為65 W的通用計算平臺i56500上對模型進行性能分析，結(jié)果表明該模型處理224×224×3尺寸的圖像需要187 ms，幀率為5.4 FPS。

如表1所示，該網(wǎng)絡(luò)參數(shù)量總計2.80×107個，需占用內(nèi)存約106.81 MB，計算量共3.41×1010即34.1 GFLOPs浮點運算，可見該模型較大的參數(shù)量和巨大的浮點計算量影響了計算的實時性。因此本文擬分別從算法層面降低計算量并通過DPU架構(gòu)優(yōu)化進行硬件加速兩個方面解決上述計算問題。

2? 降低模型的計算量

2.1? 網(wǎng)絡(luò)定點化

由1.2分析可知，模型存在大量的浮點計算，浮點計算耗時明顯高于定點計算。因此將浮點參數(shù)轉(zhuǎn)換為適當位寬的定點參數(shù)是降低深度神經(jīng)網(wǎng)絡(luò)模型計算復雜度的一個行之有效的方法，且可以利用FPGA能靈活地支持不同位寬的定點數(shù)的優(yōu)勢充分提升計算能效，還能夠起到壓縮存儲空間的作用。

本文量化采用8比特對稱均勻量化方案，通過二次冪大小的放縮比例來把原始浮點數(shù)據(jù)映射到特定的對稱整數(shù)區(qū)間中，對硬件加速器較為友好。通過式和式確定縮放比例scale，即定點位置。其中fmin、fmax表示真實浮點數(shù)集合的最大值和最小值，本文中float32的值為-3.4×1038和3.4×1038。INT_MIN、INT_MIX表示給定整數(shù)位寬能表示的最小值和最大值，本文8 bit量化位寬的兩個值分別為-128和127。

式為量化的公式，其中x為原浮點類型參數(shù)，scale為式算出的縮放比例，Xint為量化后的定點數(shù)。

如圖2所示卷積層conv為例，分析硬件對定點數(shù)的計算過程，其中fi、fx、fb、fo是各種數(shù)據(jù)的定點位置。由量化原理結(jié)合式可以得出式，可以看到量化后的運算只有整數(shù)乘加和移位運算，對硬件非常友好，也是這種量化方案的優(yōu)勢所在。

根據(jù)上述量化原理，同時基于vai_q_tensorflow對本文模型進行量化。整體量化流程如圖3所示，Vitis AI量化器使用浮點模型作為輸入并且執(zhí)行預(yù)處理操作，如折疊batchnorm層并且移除無用節(jié)點，然后將權(quán)重、偏差和激活量化為給定的位寬。量化校準激活之后，量化模型轉(zhuǎn)換為可部署到DPU上的模型，最后使用Vitis AI編譯器將該模型編譯部署到DPU上。

2.2? 通過降低通道數(shù)提升計算性能

本文所用通道剪枝方法中通道的選擇是通過LASSO regression來做的，即在損失函數(shù)中添加L1范數(shù)對權(quán)重進行約束。圖4是對卷積層進行通道剪枝的示意圖，其中A為輸入特征圖，B為經(jīng)過通道剪枝后的特征圖，c為B的通道數(shù)，W為卷積核，kh和kw為卷積核尺寸，所以每個卷積核的維度為kh×kw×c。由于特征圖的部分通道被裁剪，所以相應(yīng)卷積核的通道已經(jīng)沒有存在的價值，也要被裁剪掉。C為輸出特征圖，n為輸出特征圖的通道數(shù)，即W卷積核的個數(shù)，可以看出C的維度和卷積核的數(shù)量有關(guān)，且輸出是完整的，故通道剪枝的過程不會對下一層卷積造成影響，僅影響卷積內(nèi)部的運算即參數(shù)量和計算量。

本文的裁剪通道是通過優(yōu)化一個二值決策變量0和1選取的，其中0表示裁剪，1表示保留，即式中的βi，其中c為通道數(shù)量，i為通道數(shù)量的索引，Xi和Wi分別對應(yīng)輸入特征圖和卷積核的每個通道，對應(yīng)圖中的B和W，因此，當βi為0時，即通道無作用被裁減掉，βi為1則保留該通道。Y表示轉(zhuǎn)成矩陣形式的輸出，對應(yīng)于圖中的C，N表示對樣本的采樣數(shù)，雙豎線表示矩陣的二范數(shù)。求解此NP-hard問題需要加入L1正則化項，問題變?yōu)槭剿镜腖asso回歸問題，通過最優(yōu)化該式即可選取出裁剪通道。

在對完整的網(wǎng)絡(luò)結(jié)構(gòu)進行剪枝時，由于后面是池化層的特征圖連接了后面反卷積的特征圖，此時需要考慮前后部分產(chǎn)生的重構(gòu)誤差，實現(xiàn)較難且裁剪的損失概率變大，所以通道剪枝時應(yīng)當選擇前后都是卷積的層。

3? 基于Vitis AI的定制計算架構(gòu)實現(xiàn)

3.1? Vitis AI

如圖5所示，Vitis AI開發(fā)環(huán)境可以在Xilinx硬件平臺上加速AI推斷，包括邊緣器件和Alveo系列數(shù)據(jù)中心加速卡。此環(huán)境由經(jīng)過最優(yōu)化的IP核、工具、庫、模型和設(shè)計示例組成。Vitis AI的開發(fā)流程需要Vitis AI和Vitis IDE，包含3個基本步驟。首先Vitis AI開發(fā)套件用于構(gòu)建模型，輸入是預(yù)先訓練好的浮點模型。再使用Vitis軟件平臺來構(gòu)建定制的硬件平臺，生成包括DPU IP以及其他內(nèi)核在內(nèi)的硬件信息。最后在構(gòu)建的硬件上運行構(gòu)建好的可執(zhí)行軟件，使用C++或者Python調(diào)用Vitis AI運行時環(huán)境來加載并運行編譯后的模型軟件。

3.2? DPU

3.2.1? DPU架構(gòu)

圖6是DPU的硬件架構(gòu)，DPU參數(shù)可以根據(jù)實際應(yīng)用進行配置，以優(yōu)化資源利用率和實現(xiàn)功能定制。DPU編譯器將神經(jīng)網(wǎng)絡(luò)模型轉(zhuǎn)化為一系列DPU指令，DPU啟動后從片外存儲器中獲取這些指令來控制計算引擎可編程邏輯的調(diào)度。計算引擎采用深度流水線設(shè)計并包含一個或者多個處理單元PE，每個處理單元由乘法器、加法器和累加器等構(gòu)成。DPU在片上存儲器BRAM中存儲模型數(shù)據(jù)、緩存輸入、輸出和中間數(shù)據(jù)來減少外部存儲器的帶寬。DPU通過AXI總線直接連接到處理器系統(tǒng)PS端進行數(shù)據(jù)傳輸，其中有一個獲取指令的低帶寬端口和兩個存取數(shù)據(jù)的高帶寬端口。

3.2.2? 通過配置DPU提升計算性能

DPU IP可以配置各種與卷積單元并行度相關(guān)的卷積架構(gòu)，如表2所示，DPU IP的架構(gòu)包括從B4096到B512共八種型號。DPU卷積架構(gòu)的并行度包括了像素并行度、輸入通道并行度和輸出通道并行度，輸入通道并行度等于輸出通道并行度，不同的架構(gòu)所需可編程邏輯資源不等，通常并行度越高的架構(gòu)耗費高資源實現(xiàn)更高的性能。

針對不同的卷積神經(jīng)網(wǎng)絡(luò)可以配置不同的DPU卷積架構(gòu)，如DPU核心數(shù)、RAM利用率、通道增強、深度卷積、最大池化、ReLU類型以及Softmax等皆可配置。本文所設(shè)計DPU的配置如表3，在一個DPU IP中最多可以選擇三個內(nèi)核，每個內(nèi)核都可以根據(jù)需要配置為不同的架構(gòu)，使用多個DPU內(nèi)核會消耗更多的可編程邏輯資源。本文實驗中所用板卡為Xilinx Zynq UltraScale系列板卡，DPU配置了一個B4096架構(gòu)的內(nèi)核。本文DPU設(shè)置為高RAM利用率，這是因為網(wǎng)絡(luò)的權(quán)重、偏差和中間特征都緩沖在片上存儲器中，設(shè)置為高RAM利用率意味著片上存儲更大，DPU能更靈活地處理中間數(shù)據(jù)。本文DPU在硬件中實現(xiàn)了Softmax功能，其硬件實現(xiàn)比軟件實現(xiàn)快160倍，實現(xiàn)硬件Softmax模塊額外需要約10 000個LUT、4個BRAM和14個DSP，配置最大池化即網(wǎng)絡(luò)的池化操作可以在DPU上進行。

通道增強能在網(wǎng)絡(luò)輸入通道數(shù)低于DPU硬件通道并行度時提高DPU的效率，本文中網(wǎng)絡(luò)輸入通道數(shù)為3，B4096型號DPU架構(gòu)的通道并行度為16，故配置通道增強功能。ReLU類型可以決定在DPU上配置哪種激活函數(shù)，默認是ReLU和ReLU6。在深度可分離卷積中，運算分為深度卷積和點卷積兩步進行，配置深度可分離卷積的并行度下降約一半，本設(shè)計中不配置。

3.2.3? 總體設(shè)計

如圖7所示，本文實現(xiàn)的FPGA硬件加速器系統(tǒng)設(shè)計基于ARM+FPGA架構(gòu)，主要包括了雙倍速率的片外存儲DDR、FCN DMA（Direct Memory Access，直接存儲器訪問）、片上緩存BRAM、可編程邏輯FCN加速器等。加速器主要包括處理單元PE模塊、片上緩沖器和可編程網(wǎng)絡(luò)邏輯模塊。PE模塊的設(shè)計有利于減少數(shù)據(jù)移動，減少片外內(nèi)存的訪問次數(shù)，同時提高數(shù)據(jù)的復用率。PE模塊可以完成卷積、最大池化和激活操作[10]。片上和片外通過AXI總線相連，主機PC負責整個系統(tǒng)的任務(wù)調(diào)度，發(fā)布工作和指令并且監(jiān)控系統(tǒng)的工作狀態(tài)。對于不同的圖像輸入，系統(tǒng)讀取初始輸入圖像的輸入和權(quán)重，將其存儲在外部存儲器DDR中，然后加速器從DDR讀取和寫入相應(yīng)的輸入數(shù)據(jù)，硬件加速器通過AXI總線與ARM通信并接受配置信號。

4? 實驗結(jié)果與分析

4.1? 實驗環(huán)境

CNN模型：FCN。

FPGA平臺：Xilinx Zynq? UltraScale+? XCZU9EG-2FFVB1156E MPSoC開發(fā)板。

4.2? 降低通道數(shù)后的實驗結(jié)果分析

為了驗證通道剪枝的有效性，實驗對原模型、剪枝后的模型進行了參數(shù)量和運算量的比較。由表4可以看到，剪枝后模型的參數(shù)量和運算量都下降了近一半，而精度損失了0.023，在犧牲少量精度的情況下實現(xiàn)了參數(shù)量及運算量的大量壓縮，因此說明剪枝是有效的。

4.3? 定點化的實驗結(jié)果分析

量化后的神經(jīng)網(wǎng)絡(luò)模型參數(shù)如表5所示，參數(shù)量下降為原來的1/4左右，與浮點網(wǎng)絡(luò)相比量化后網(wǎng)絡(luò)的準確率只下降了0.1%，精度的下降在可接受的范圍內(nèi)，因而量化是有效的。

4.4? 配置DPU后的實驗結(jié)果分析

表6展示了配置DPU的硬件資源使用情況及資源利用率。通過運行分析DPU的運算性能，經(jīng)過優(yōu)化后進行DPU加速的推理過程總耗時為21.7 ms，系統(tǒng)的識別幀率為46 FPS，達到了實時性的要求。所設(shè)計系統(tǒng)可編程邏輯部分的工作頻率為200 MHz時，性能達到了903 GOPS，功耗為17.9 W，具有50.45 GOPS/W的能效比。

表7是本文方案與其他論文的實驗結(jié)果對比，可以看出與使用相同F(xiàn)PGA平臺的文獻[11]和文獻[12]相比，本文方法的性能分別是其2.9倍和1.8倍，能耗比分別是其3.9倍和1.6倍，性能計算和能耗比指標都更為優(yōu)秀。

5? 結(jié)? 論

本文以FCN圖像分割算法為例，設(shè)計并實現(xiàn)了基于Vitis AI的可行駛區(qū)域檢測的卷積神經(jīng)網(wǎng)絡(luò)加速器架構(gòu)?；赩itis AI工具對分割網(wǎng)絡(luò)進行通道剪枝、數(shù)據(jù)量化、DPU配置等一系列優(yōu)化，解決了可行駛區(qū)域算法網(wǎng)絡(luò)規(guī)模大、無法滿足實時性要求的問題。實驗結(jié)果表明通過定制硬件系統(tǒng)性能獲得了極大的提升。

現(xiàn)有的FPGA定制方式難度大，神經(jīng)網(wǎng)絡(luò)加速中的很多參數(shù)都需要研究人員的實際經(jīng)驗來確定，編寫低層次語言的工作量巨大。基于Vitis AI定制神經(jīng)網(wǎng)絡(luò)系統(tǒng)方便，可以達到很好的性能，有望成為一種很好的優(yōu)化部署方式。

參考文獻：

[1] CHEN T，CHEN B D，ZHANG X，et al. Free Space Detection Using Stereo Confidence Metrics and Obstacle Position Probability Maps [C]//2018 14th IEEE International Conference on Signal Processing（ICSP）.Beijing：IEEE，2018：1071-1075.

[2] FAN R，WANG H L，CAI P D，et al. SNE-RoadSeg：Incorporating Surface Normal Information into Semantic Segmentation for Accurate Freespace Detection [C]//Computer Vision–ECCV 2020.Glasgow：springer，2020：340-356.

[3] 李升波，關(guān)陽，侯廉，等.深度神經(jīng)網(wǎng)絡(luò)的關(guān)鍵技術(shù)及其在自動駕駛領(lǐng)域的應(yīng)用 [J].汽車安全與節(jié)能學報，2019，10（2）：119-145.

[4] CHEN Z，ZHANG J，TAO D C. Progressive LiDAR adaptation for road detection [J].IEEE/CAA Journal of Automatica Sinica，2019，6（3）：693-702.

[5] WANG H L，F(xiàn)AN R，CAI P D，et al. SNE-RoadSeg+：Rethinking Depth-normal Translation and Deep Supervision for Freespace Detection [J/OL].arXiv：2107.14599 [cs.CV].（2021-07-30）.https：//arxiv.org/abs/2107.14599.

[6] AHAMAD A，SUN C C，NGUYEN H M，et al. Q-SegNet： Quantized deep convolutional neural network for image segmentation on FPGA [C]//2021 International Symposium on Intelligent Signal Processing and Communication Systems（ISPACS）.Hualien City：IEEE，2021：1-2.

[7] LYU H R，AN F W，ZHAO S R，et al. A703.4 GOPs/W Binary SegNet Processor with Computing-Near-Memory Architecture for Road Detection [J].IEEE Design & Test，2020，39（2）：74-83.

[8] 陳辰，柴志雷，夏珺.基于Zynq7000 FPGA異構(gòu)平臺的YOLOv2加速器設(shè)計與實現(xiàn) [J].計算機科學與探索，2019，13（10）：1677-1693.

[9] SHELHAMER E，LONG J，DARRELL T. Fully Convolutional Networks for Semantic Segmentation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence， 39（4）：640-651.

[10] ZHANG J L，LI J. Improving the Performance of OpenCL-based FPGA Accelerator for Convolutional Neural Network [C]//The 2017 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays. Monterey：Association for Computing Machinery，2017：25-34.

[11] CHEN Y H，KRISHNA T，EMER J，et al. 14.5 Eyeriss： An energy-efficient reconfigurable accelerator for deep convolutional neural networks [C]//2016 IEEE International Solid-State Circuits Conference（ISSCC）.San Francisco：IEEE，2016：262-263.

[12] BIANCO S，CADENE R，CELONA L，et al. Benchmark Analysis of Representative Deep Neural Network Architectures [J].IEEE Access，2018，6：64270-64277.

作者簡介：李慧琳（1997—），女，漢族，湖南郴州人，碩士研究生在讀，研究方向：嵌入式系統(tǒng);柴志雷（1975—），男，漢族，山西新絳人，教授，博士，研究方向：軟件定義的高效計算機系統(tǒng)、嵌入式系統(tǒng)、軟硬件協(xié)同設(shè)計等。