姜秀波 鐘麗媛 宋曹根
摘 要:針對現(xiàn)有海量數(shù)字圖像信息落后,提出了新型的壓縮算法,設(shè)計出基于FPGA的視頻圖像采集系統(tǒng)。應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化視頻圖像編碼算法和聚類算法實現(xiàn)數(shù)據(jù)特征提取,將圖像與距離信息作為深度卷積神經(jīng)網(wǎng)絡(luò)的輸入與輸出,并利用其特征提取能力學習圖像特征的距離信息,提取深度卷積神經(jīng)網(wǎng)絡(luò)中的全連接層作為編碼,通過迭代調(diào)整確定圖像編碼,完成圖像壓縮。應(yīng)用測試結(jié)果顯示,該算法具有較高效率優(yōu)勢,且圖像壓縮解碼后質(zhì)量較好。
關(guān)鍵詞:FPGA;深度卷積神經(jīng)網(wǎng)絡(luò);優(yōu)化壓縮;圖像采集;編碼加速器
中圖分類號:TP37 ? ? ?文獻標識碼:A
大數(shù)據(jù)與信息化時代的到來使數(shù)字圖像等多媒體形式的信息量暴增[1],海量數(shù)字圖像信息給帶寬存儲等方面帶來巨大壓力[2],對數(shù)字圖像信息的優(yōu)化壓縮提出更高要求,因此數(shù)字圖像的優(yōu)化壓縮算法成為海量數(shù)據(jù)應(yīng)用領(lǐng)域中的研究熱點[3]。
圖像編碼是圖像壓縮的一種主要方式[4],在滿足信噪比等圖像質(zhì)量要求的基礎(chǔ)上,利用圖像編碼技術(shù)可通過較少比特數(shù)描述數(shù)字圖像及其中涵蓋的信息[5]。當前普遍使用的圖像編碼算法主要采用預(yù)測—變換—熵編碼的方式完成[6,7],利用繁復(fù)的變換機制提升圖像壓縮質(zhì)量的同時也提升了圖像編碼算法實現(xiàn)的復(fù)雜度[8]。
為改善這一問題,在圖像編碼過程中引入典型深度學習框架—深度卷積神經(jīng)網(wǎng)絡(luò)[9],利用其學習聚類算法獲取的圖像特征距離信息,基于數(shù)字圖像特性在迭代過程中調(diào)整聚類結(jié)果提升圖像編碼的有效性。同時考慮深度卷積神經(jīng)網(wǎng)絡(luò)執(zhí)行過程中計算效率較差無法滿足圖像編碼實時性需求的缺陷,提出基于FPGA的深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化壓縮算法。作為數(shù)字電路設(shè)計模式,F(xiàn)PGA的并行計算特征可彌補深度卷積神經(jīng)網(wǎng)絡(luò)效率差的缺陷[10],并利用加速器設(shè)計提升效率,優(yōu)化深度卷積神經(jīng)網(wǎng)絡(luò)編碼算法。
1 基于FPGA的深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化壓
縮算法
1.1 基于FPGA的視頻圖像采集系統(tǒng)
圖1所示為基于FPGA的視頻圖像采集系統(tǒng)整體結(jié)構(gòu)框圖,其中主要包含采集、存儲、處理、顯示等模塊[11]。為有效管理、控制各模塊,F(xiàn)PGA在具有并行數(shù)據(jù)處理特性的基礎(chǔ)上,還需要包含大量I/O口與邏輯單元等。選取具有低功耗特性的EP4CE617C8型號FPGA,其中I/O口、邏輯單元與乘法器數(shù)量分別為190個、63903個和403個。
FPGA利用集成電路總線接口連接視頻圖像傳感器,控制其拍攝視頻圖像。采集模塊采集視頻圖像信息后經(jīng)由FIFO緩存器實施存儲,再經(jīng)由FIFO緩存器讀出并傳輸至處理模塊中進行優(yōu)化壓縮處理[12],處理后的視頻圖像信息通過VGA接口呈現(xiàn)在顯示器上。設(shè)ARM處理器是深度卷積神經(jīng)網(wǎng)絡(luò)加速器的主控制器[24],其利用片內(nèi)總線連接PL區(qū)域的控制器,PL區(qū)域的控制器與片上數(shù)據(jù)存儲器相連,
1.2 視頻圖像編碼算法
圖像編碼是當前普遍使用的一種圖像壓縮算法,處理模塊中采用基于深度卷積神經(jīng)網(wǎng)絡(luò)的視頻圖像編碼算法完成視頻圖像壓縮處理。
基于深度卷積神經(jīng)網(wǎng)絡(luò)的視頻圖像編碼算法通過預(yù)訓練模型采集視頻圖像特征[13],選取K均值算法計算不同視頻圖像間特征的距離信息,基于相同來源的視頻圖像屬一類的原則調(diào)整視頻圖像特征的距離信息[14,15],由此獲取視頻圖像聚類標簽zi。利用深度卷積神經(jīng)網(wǎng)絡(luò)學習距離信息[16],多次迭代,依照自編碼位數(shù)實際要求,實施圖像稀疏自編碼。圖2所示為深度卷積神經(jīng)網(wǎng)絡(luò)距離信息學習與編碼生成過程。
表1所示為圖2中深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),整體共18層,卷積層3-x和全連接層y中的3、x和y分別為卷積核大小,特征圖數(shù)量和神經(jīng)元數(shù)量。
(4)循環(huán)上述過程至迭代次數(shù)達到設(shè)定上限,選取降噪自動編碼器,將最終得到的特征編碼為制定的編碼長度,實施稀疏自編碼。
通過上述過程即可獲取優(yōu)質(zhì)的圖像編碼效果,實現(xiàn)圖像壓縮。
1.3 基于FPGA的加速模塊設(shè)計
在基于FPGA的視頻圖像采集系統(tǒng)中,處理模塊利用深度卷積神經(jīng)網(wǎng)絡(luò)編碼算法進行圖像壓縮,F(xiàn)PGA的并行化計算模式與之相結(jié)合,可彌補深度卷積神經(jīng)網(wǎng)絡(luò)效率差的缺陷。同時在處理模塊中設(shè)計深度卷積神經(jīng)網(wǎng)絡(luò)加速器,使圖像壓縮整體過程中僅加載一次輸入圖像與卷積核權(quán)值[23],并存儲于片上存儲器內(nèi),降低片外存儲器讀取次數(shù),優(yōu)化圖像壓縮效率。最終優(yōu)化加速模塊如圖3所示。
如圖3所示,可將輸入圖像傳輸至各卷積模塊內(nèi),各卷積模塊均包含存儲權(quán)值的系數(shù)存儲器,利用輸入圖像和權(quán)值實施卷積運算獲取輸出結(jié)果。在加速模塊優(yōu)化設(shè)計過程中,可滿足任意類型卷積操作的需求[25],不同卷積操作的輸入圖像尺寸、卷積核大小與數(shù)量等采數(shù)均有所不同,所以PL區(qū)域的控制器主要負責配置深度卷積神經(jīng)網(wǎng)絡(luò)編碼算法計算過程中的參數(shù),并確定對應(yīng)地址。
2 應(yīng)用測試
為驗證所提算法的性能,在美國洛杉磯大學數(shù)字圖像實驗數(shù)據(jù)庫中隨機選取1幅1024×1024×16bit標準數(shù)字圖像作為研究對象,在設(shè)定實驗環(huán)境下采用本文算法對其進行優(yōu)化壓縮實驗,將本文算法(研究對象1)研究結(jié)果語言與文獻[7](研究對象2)和文獻[8](研究對象3)方法進行對比測試。表2所示為實驗環(huán)境。
2.1 應(yīng)用時間測試
在設(shè)定實驗環(huán)境中,采用本文算法進行研究對象壓縮與解碼對比測試,所需時間如表3所示。
分析表3得到,采用本文算法對研究對象實施壓縮過程中,各研究對象在相同碼率條件下壓縮所需時間基本一致。隨著碼率由0.075提升至0.6,壓縮過程所需時間也呈現(xiàn)上升趨勢,由0.075碼率時的0.53 s(三幅研究對象壓縮時間均值,以下類推)上升至0.6碼率時的1.41 s。同樣的,研究對象解碼過程所需時間也隨著碼率提升而提升,且相同碼率條件下所需時間基本一致。對比本文算法實驗結(jié)果與文獻[7]和文獻[8]中兩種對比算法的實驗結(jié)果得到,本文算法對研究對象實施壓縮與解碼所需時間顯著降低,由此可知本文算法能夠在有效壓縮實驗對象的基礎(chǔ)上,具有顯著的效率優(yōu)勢,達到本文算法優(yōu)化壓縮的目的。
2.2 壓縮效果測試
圖4所示為本文算法壓縮解碼后得到的研究對象與研究對象2和研究對象3對比效果。
結(jié)構(gòu)相似度指數(shù)與峰值信噪比是圖像壓縮解碼效果客觀評價的主要評價指標,為客觀評價本文算法對研究對象的壓縮效果,基于圖4中本文算法解碼圖像,對比本文算法與其他對比算法在不同碼率下的峰值信噪比和結(jié)構(gòu)相似度指數(shù),結(jié)果如表4所示。
峰值信噪比與結(jié)構(gòu)相似度指數(shù)分別描述研究對象最大可能功率與影響其精度的噪聲功率間的比值和不同研究對象間結(jié)構(gòu)相似程度,兩個指標的值均同研究對象壓縮解碼后清晰度呈正比例關(guān)系,也就是峰值信噪比/結(jié)構(gòu)相似度指數(shù)越高,研究對象壓縮解碼后清晰度越高。由表4得到,在不同碼率下本文算法客觀評價結(jié)果兩指標均顯著優(yōu)于對比算法。當碼率由0.075提升至0.3時,本文算法客觀評價結(jié)果提升幅度均較為明顯。當碼率提升至0.6時,評價結(jié)果提升幅度達到極小狀態(tài)。結(jié)合上一實驗表3中本文算法壓縮解碼過程所需時間得到,碼率由0.3提升至0.6條件下,本文算法壓縮解碼時間與研究對象壓縮解碼效果失衡,由此得到,采用本文算法進行研究對象優(yōu)化壓縮時,最佳碼率約為0.3。
3 結(jié) 論
提出基于FPGA的深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化壓縮算法,將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于數(shù)字圖像壓縮中,利用FPGA優(yōu)化深度神經(jīng)網(wǎng)絡(luò)學習過程,實際應(yīng)用測試結(jié)果驗證了本算法應(yīng)用性能的優(yōu)越性,采用本算法進行研究對象優(yōu)化壓縮時,能夠在有效壓縮實驗對象的基礎(chǔ)上,具有顯著的效率優(yōu)勢,且最佳碼率約為0.3。在后續(xù)研究中可嘗試從其他方面優(yōu)化本文算法的壓縮性能。
參考文獻
[1] 高俊嶺, 陳志飛, 章佩佩. 基于FPGA的實時視頻圖像采集處理系統(tǒng)設(shè)計[J]. 電子技術(shù)應(yīng)用, 2018, 44(2):10-12,19.
[2] JOSCHA M , STEFAN S , MICHAEL K , et al. Deep scatter estimation (DSE): accurate real-time scatter estimation for X-Ray CT using a deep convolutional neural network[J]. Journal of Nondestructive Evaluation, 2018, 37(3):57-59.
[3] 白琮, 黃玲, 陳佳楠,等. 面向大規(guī)模圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化[J]. 軟件學報, 2018, 29(4):137-146.
[4] 周曉波, 何魁華, 周聰. 基于FPGA的圖像高速去霧實時系統(tǒng)設(shè)計實現(xiàn)[J]. 電視技術(shù), 2018, 42(4):67-72.
[5] 翁天陽, 莊宇, 于瑋,等. 基于HPS和FPGA的圖像壓縮感知編解碼系統(tǒng)[J]. 電子技術(shù)應(yīng)用, 2017, 43(5):90-93.
[6] 張格森, 陳東生, 邱海韜,等. 基于FPGA的高速圖像跟蹤系統(tǒng)設(shè)計[J]. 微電子學與計算機, 2017, 34(4):13-16.
[7] 張秀, 周巍, 段哲民,等. 基于卷積稀疏自編碼的圖像超分辨率重建[J]. 紅外與激光工程, 2019, 48(1):324-330.
[8] 王金平. 基于深度卷積稀疏自編碼分層網(wǎng)絡(luò)的人臉識別技術(shù)[J]. 太原理工大學學報, 2018, 49(5):765-770.
[9] NGUYEN T,BUI V,NEHMETALLAH G. Computational optical tomography using 3-D deep convolutional neural networks[J]. Optical engineering, 2018, 57(4):43111.1-43111.11.
[10]范斌, 于起峰. 一種基于FPGA的圖像自動增強算法與實現(xiàn)[J]. 空間科學學報, 2018, 38(2):261-270.
[11]李申, 嚴偉, 夏珺,等. 基于FPGA的HEVC感興趣區(qū)域編碼算法研究與設(shè)計[J]. 電子技術(shù)應(yīng)用, 2018, 44(7):52-55.
[12]劉興旺, 王江晴, 徐科. 一種融合AutoEncoder與CNN的混合算法用于圖像特征提取[J]. 計算機應(yīng)用研究, 2017, 34(12):3839-3842.
[13]WU H , ZHAO J . Deep convolutional neural network model based chemical process fault diagnosis[J]. Computers & Chemical Engineering, 2018, 115(12):185-197.
[14]戴鳳智, 魏寶昌, 歐陽育星,等. 基于深度學習的視頻跟蹤研究進展綜述[J]. 計算機工程與應(yīng)用, 2019, 55(10):16-29.
[15]秦東輝, 周輝, 趙雄波,等. 基于卷積神經(jīng)網(wǎng)絡(luò)圖像識別算法的加速實現(xiàn)方法[J]. 航天控制, 2019, 37(1):22-27.
[16]賈瑞明, 劉圣杰, 李錦濤,等. 基于編解碼雙路卷積神經(jīng)網(wǎng)絡(luò)的視覺自定位方法[J]. 北京航空航天大學學報, 2019, 45(10):1965-1972.
[17]SUN Y,XUE B, ZHANG M,et al. Evolving deep convolutional neural networks for image classification[J]. IEEE Transactions on Evolutionary Computation, 2020, 24(2):394-407.
[18]王杰, 張曦煌. 基于圖卷積網(wǎng)絡(luò)和自編碼器的半監(jiān)督網(wǎng)絡(luò)表示學習模型[J]. 模式識別與人工智能, 2019, 32(4):317-325.
[19]ASTRID M,LEE S I. Deep compression of convolutional neural networks with low-rank approximation[J]. Etri Journal, 2018, 40(4):421-434.
[20]YANAGAWA M,NIIOKA H,HATA A, et al. Application of deep learning (3-dimensional convolutional neural network) for the prediction of pathological invasiveness in lung adenocarcinoma: A preliminary study[J]. Medicine, 2019, 98(25):16119.
[21]ZHANG Z , ZOHREN S , ROBERTS S . DeepLOB: deep convolutional neural networks for limit order books[J]. IEEE Transactions on Signal Processing, 2019, 67(11):3001-3012.
[22]劉芳, 王鑫, 路麗霞,等. 基于稀疏編碼和卷積神經(jīng)網(wǎng)絡(luò)的地貌圖像分類[J]. 光學學報, 2019, 39(4):115-123.
[23]朱喆, 許少華. 降噪自編碼器深度卷積過程神經(jīng)網(wǎng)絡(luò)及在時變信號分類中的應(yīng)用[J]. 計算機應(yīng)用, 2020, 40(3):698-703.
[24]高俊嶺, 陳志飛, 章佩佩. 基于FPGA的實時視頻圖像采集處理系統(tǒng)設(shè)計[J]. 電子技術(shù)應(yīng)用, 2018, 44(2):10-12.
[25]JING J F, MA H, ZHANG H H. Automatic fabric defect detection using a deep convolutional neural network[J]. Coloration Technology, 2019, 135(3):213-223.
[26]白琮, 黃玲, 陳佳楠,等. 面向大規(guī)模圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化[J]. 軟件學報, 2018, 29(4):137-146.