嵌入式GPGPU在多媒體SOC芯片設(shè)計(jì)及超高清智能電視應(yīng)用研究

2021-03-26 22:56:25林川

電子元器件與信息技術(shù) 2021年5期

林川

（廣東博華超高清創(chuàng)新中心有限公司，廣東深圳 518000）

0 引言

大多數(shù)的ASIC設(shè)計(jì)都要用到嵌入式存儲器，并且隨著集成電路工藝水平的提高以及市場的需求越來越高，芯片的規(guī)模也越來越壯大，使用到的存儲器也越來越多，嵌式存儲器在整個(gè)SOC芯片中的可測性設(shè)計(jì)問題越來越突出。由于規(guī)?；纳a(chǎn)要求比較全面的測試覆蓋率，能夠有效的剔除不合格的芯片，另外，增加邏輯、替換單元以及增加引腳等耗費(fèi)以及時(shí)間、面積。功耗等花費(fèi)是否會在合理的范圍內(nèi)。所以通過實(shí)踐，結(jié)合整個(gè)SOC的芯片，選擇了合適的算法，介紹和實(shí)現(xiàn)了在SOC芯片中存入嵌入式GPGPU的設(shè)計(jì)。

1 GPGPU概況

1.1 GPGPU的定義

通用圖形處理器（General-purpose computing on graphics processing units，簡稱GPGPU），是用來計(jì)算原本由中央處理器處理的通用計(jì)算任務(wù)的處理圖形任務(wù)的圖形任務(wù)處理器，一般來說，這些通用計(jì)算和圖形處理沒有關(guān)系[1]。

1.2 對比CPU，GPGPU的優(yōu)勢

對比GPU，CPU的浮點(diǎn)運(yùn)算能力不足是它最大的缺點(diǎn)。像現(xiàn)在流行的CPU產(chǎn)品，或是英特爾，或是AMD，他們的浮點(diǎn)運(yùn)算能力一般都在10Gflops。而Geforce6的系列產(chǎn)品的浮點(diǎn)運(yùn)算能力一般可以達(dá)到40Gflops，GeForce7950GX2的浮點(diǎn)運(yùn)算能力竟是可以達(dá)到384Gflops。由此可見，CPU和GPU的浮點(diǎn)運(yùn)算能力相差巨大。即使內(nèi)部性能再強(qiáng)，但是輸入輸出寬帶有限，那也是無法被系統(tǒng)利用起來的。然而GPU可以很輕松地解決這個(gè)問題，紋理映射功能作為提高場景真實(shí)度的重要方法很早就被加入到GPU中了，用以解決GPU和顯存間的輸入輸出寬帶問題。CPU和內(nèi)存間的寬帶僅僅是GPU和顯存間的十分之一，GPU可以大數(shù)量的輸入輸出，這使得巨大的浮點(diǎn)運(yùn)算能力有了用途。GPU專門為圖形運(yùn)算而設(shè)計(jì)，考慮了圖形運(yùn)算的特殊性。就比如像素著色器來說，同一批的所有待處理像素都會執(zhí)行相同的像素著色程序，換句話說，類似的運(yùn)算會在大量的數(shù)據(jù)上重復(fù)運(yùn)行。這恰好與SIMD的概念不謀而合，使得GPU非常適合單指令多數(shù)據(jù)運(yùn)算，像科學(xué)計(jì)算、數(shù)據(jù)庫分析都是單指令多數(shù)據(jù)運(yùn)算。這也使得許多傷腦筋于CPU的科研人員把目標(biāo)轉(zhuǎn)向了GPU，想要用GPU這種優(yōu)化設(shè)計(jì)去進(jìn)行圖形之外的通用計(jì)算。許多GPU程序員編寫程序時(shí)，發(fā)現(xiàn)高級著色語言會給他們許多幫助。以前編寫著色程序使用匯編語言，難度大效率低，而現(xiàn)在具有C/C++的高級語言可以大大地提高程序員編程效率。高級著色語言，如微軟hlsl、opengl的glls、斯坦福大學(xué)rtsll和nvidiacg可以隱藏底層硬件的技術(shù)細(xì)節(jié)，提高gpu的開發(fā)效率。此時(shí)，雖然CPU編程語言處于前面，但GPU正在迎頭趕上，使得開發(fā)和使用比以前容易得多[2-3]。

2 GPGPU在多媒體SOC芯片設(shè)計(jì)中的應(yīng)用

2.1 SOC的發(fā)展歷程

從1947年在美國貝爾實(shí)驗(yàn)室發(fā)明出第一個(gè)晶體管，到現(xiàn)如今集成幾十億個(gè)晶體管的CPU，今天已有70 多年的歷史。而其中兩個(gè)重要的發(fā)展節(jié)點(diǎn)，一個(gè)是1958-1959年，來自仙童的羅伯特·諾伊斯（Robert Noyce）發(fā)明了硅集成電路。來自德州儀器的杰克·基爾比（Jack Kilby）發(fā)明了鍺集成電路。另外一個(gè)，就是SoC的出現(xiàn)。SOC（System-On-Chip）, 即片上系統(tǒng)?？梢院唵蔚乩斫鉃榘严到y(tǒng)做在一塊芯片上。20世紀(jì)90年代中期，因使用專用集成電路來實(shí)現(xiàn)芯片組受到啟發(fā)，萌生應(yīng)該將完整計(jì)算機(jī)所有不同的功能塊一次直接集成于一顆硅片上的想法。

2.2 國內(nèi)SOC現(xiàn)狀

提起國內(nèi)的SOC，最先想到的是海思的麒麟系列。海思麒麟可以說是華為自主設(shè)計(jì)的一款SOC，其中CPU和GPU應(yīng)用的架構(gòu)是由ARM授權(quán)的。NPU（Neural Network Processing Unit）-- 神經(jīng)網(wǎng)絡(luò)處理器，曾經(jīng)是采用寒武紀(jì)的產(chǎn)品，目前搭載的是自研NPU，代號達(dá)芬奇。麒麟處理器主要應(yīng)用在華為自家的旗艦機(jī)上，對標(biāo)的是蘋果A系列，高通驍龍，以及三星的獵戶座處理器。雖然性能上相比以上幾款稍差，但在這個(gè)性能過剩的時(shí)代，海思足以滿足智能手機(jī)對性能的要求。在臺積電不再為華為代工之后，國產(chǎn)最強(qiáng)SOC也走到了盡頭。近期有新聞傳出華為計(jì)劃在上海建芯片廠，麒麟SOC在不久的將來也許會回歸。紫光展銳作為國內(nèi)第二大芯片設(shè)計(jì)廠商，在5G領(lǐng)域具有全面的產(chǎn)品與技術(shù)解決方案。目前展銳的UNISOC在移動終端，工業(yè)交通，電子電力等行業(yè)具有廣泛的應(yīng)用。國內(nèi)的另外一家老牌SOC是全志科技（Allwinner），其主要的產(chǎn)品是基于ARM架構(gòu)的大型SOC，主要產(chǎn)品有R329，R818等28nm的智能語音芯片，以及A系列的平板處理器[4]。全志科技的SOC主要布局物聯(lián)網(wǎng)，智能家居等領(lǐng)域。

2.3 GPGPU在麒麟SOC芯片設(shè)計(jì)中的應(yīng)用

從以上國內(nèi)SOC芯片公司的發(fā)展現(xiàn)狀來看，產(chǎn)品覆蓋還算廣泛。但從產(chǎn)品的性能來看，麒麟和國際主流移動處理器的差距最小。最新的麒麟芯片麒麟9000芯片CPU方面依舊是基于上代ARM A77核心架構(gòu)，采用的是一顆主頻為3.13GHz的A77高頻核心、三顆主頻為2.54GHz的A77高性能核心以及四顆主頻為2.05GHz的A55效能核心組成；在這顆主頻高達(dá)3.13GHz高頻核心加持下，麒麟9000芯片的CPU性能提升巨大！GPU方面，麒麟9000采用的是“公版”架構(gòu)的Mali-G78，核心數(shù)量高達(dá)24核，是一款性能極為強(qiáng)大的圖形處理器；華為官方數(shù)據(jù)顯示，麒麟9000芯片的GPU性能比驍龍865+的Adreno 650高52%，在實(shí)力方面可以說是“吊打”驍龍865+，基本上達(dá)到了蘋果A14芯片的水平。麒麟9000芯片集成了153億晶體管，作為對比，蘋果公司剛剛推出的iPhone12系列手機(jī)搭載的是蘋果A14芯片，該芯片的晶體管數(shù)量為118億；當(dāng)然，蘋果A14芯片并沒有集成5G基帶，而麒麟9000芯片是集成5G基帶的設(shè)計(jì)，直接從晶體管數(shù)量來比較性能是并不科學(xué)的。麒麟9000系列芯片采用的是臺積電5nm工藝制式，內(nèi)置的是巴龍5000基帶，支持“雙?！?G網(wǎng)絡(luò)；華為消費(fèi)者業(yè)務(wù)CEO余承東表示，蘋果才剛剛推出旗下首款5G手機(jī)，而華為已經(jīng)推出了第三代5G芯片，上行速度比其他5G技術(shù)快五倍，下行速度快兩倍，芯片在能效方面的表現(xiàn)也更加優(yōu)秀[5]。

3 GPGPU在智能電視中的應(yīng)用

隨著社會的發(fā)展，360P、720P這樣的分辨率已經(jīng)淡出了視線。1080P已然成為我們刷劇看電影的“基礎(chǔ)”選項(xiàng)，而對于家用電視來說1080P似乎都已經(jīng)有點(diǎn)不夠看了，更高標(biāo)準(zhǔn)的4K分辨率正在成為家庭數(shù)字電視的新標(biāo)配，這對電視SOC提出了更高的要求。此方面聯(lián)發(fā)科走在了行業(yè)的前沿。

2021年3月3日，聯(lián)發(fā)科發(fā)布了最新的4K智能電視芯片MT9638，再次引發(fā)了人們對電視芯片領(lǐng)域的關(guān)注。全新4K電視芯片MT9638，性能強(qiáng)勁，多項(xiàng)AI技術(shù)加持MediaTek MT9638集成獨(dú)立AI處理器APU，多核CPU及GPU（Arm Mali-G52 MC1），可提供強(qiáng)勁性能,讓電視系統(tǒng)運(yùn)行流暢不卡頓。同時(shí)，充分發(fā)揮AI高能效,支持AI超級分辨率AI-SR，可智能提升畫面的分辨率，讓畫面更清晰，結(jié)合MEMC動態(tài)補(bǔ)償，提供更精彩的4K觀影體驗(yàn)。MT9638還支持AI圖像畫質(zhì)增強(qiáng)（AI-PQ），可以智能識別內(nèi)容場景，優(yōu)化每一幀畫面的色彩飽和度、亮度、銳利度、動態(tài)補(bǔ)償及降噪，提升整體畫質(zhì)。此外，MT9638還支持更多AI語音交互技術(shù)，讓電視制造商可集成語音助手等智慧功能，讓用戶可以通過語音操控電視,或聯(lián)動其他物聯(lián)網(wǎng)終端設(shè)備。與此同時(shí),MT9638還支持多項(xiàng)先進(jìn)技術(shù)，如最高4K分辨率60Hz刷新率、AV1/HEVC/VP9編碼格式，以及HDR10+,和超過2000個(gè)區(qū)域的分區(qū)調(diào)光顯示；同時(shí)支持杜比全景聲、DTS Virtual X虛擬環(huán)繞聲。HDMI 2.1、USB 3.0接口，可擴(kuò)展支持Wi-Fi 6解決方案[6]。

4 結(jié)論

GPGPU的研發(fā)和應(yīng)用對社會經(jīng)濟(jì)，人們的生活有著極大的影響，它極大的優(yōu)化了SOC的性能，帶來了一系列電子產(chǎn)品的更新?lián)Q代?？傊?，它帶來了硬件的極大進(jìn)步，使之我們在使用手機(jī)電腦智能電視這些電子產(chǎn)品時(shí)更加的方便舒適，體感大大提高了。