陳 絲 中國信息通信研究院信息化與工業(yè)化融合研究所助理工程師
以圖像識別、語音識別等為代表的智能化技術(shù)水平大幅提升和應(yīng)用起步,掀起了新一輪人工智能研發(fā)和應(yīng)用熱潮,對底層芯片的計(jì)算能力需求呈現(xiàn)爆發(fā)式增長。據(jù)Tractica預(yù)估,全球人工智能芯片出貨量持續(xù)走高,市場規(guī)模將從2016年的5億美元增長至2025年的122億美元,復(fù)合年均增長率保持超過40%的高速率。與此同時(shí),伴隨人工智能芯片技術(shù)不斷成熟和應(yīng)用落地,人工智能芯片占據(jù)人工智能總體市場規(guī)模的比例逐年遞增,據(jù)CITICS預(yù)計(jì)將從2016年的8%提高至2020年的12%。現(xiàn)階段,人工智能應(yīng)用正處于應(yīng)用起量階段,產(chǎn)業(yè)鏈上下游企業(yè)紛紛結(jié)合自身優(yōu)勢加入芯片領(lǐng)域布局,試圖搶占市場發(fā)展先機(jī),圍繞人工智能芯片領(lǐng)域的競賽已經(jīng)拉開序幕。
本輪人工智能研究的關(guān)鍵詞是基于概率統(tǒng)計(jì)學(xué)的深度學(xué)習(xí),采用日益復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型和更大規(guī)模數(shù)據(jù)樣本實(shí)現(xiàn)識別精度不斷突破,但同時(shí)產(chǎn)生的計(jì)算量也持續(xù)攀升,這種暴力計(jì)算模式對底層芯片的計(jì)算能力提出了更高要求并相應(yīng)產(chǎn)生更多能耗。例如,2012年的ImageNet比賽中,采用8層神經(jīng)網(wǎng)絡(luò)的AlexNet網(wǎng)絡(luò)取得16%的錯(cuò)誤率,迭代一次的計(jì)算量約為1.4GFLOP(10億次浮點(diǎn)計(jì)算);2015年,擁有152層神經(jīng)元的ResNet網(wǎng)絡(luò)錯(cuò)誤率降至3.5%,但計(jì)算量為22.6GFLOP,大約達(dá)到AlexNet的16倍。與此同時(shí),深度學(xué)習(xí)需要處理的數(shù)據(jù)規(guī)模及其龐大,如采用卷積神經(jīng)網(wǎng)絡(luò)基于ImageNet數(shù)據(jù)集訓(xùn)練模型,統(tǒng)計(jì)掃描100遍樣本即達(dá)到E級計(jì)算規(guī)模,即使提供充足的計(jì)算資源,仍需幾天甚至幾周的訓(xùn)練時(shí)長。
深度學(xué)習(xí)算法區(qū)別于傳統(tǒng)算法特征,既是計(jì)算密集型也是存儲密集型運(yùn)算,對芯片的專用計(jì)算能力和內(nèi)存存取能效等提出新的升級需求。一方面,具備復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對卷積、矩陣乘加等線性代數(shù)類運(yùn)算任務(wù)密集又頻繁,因而集成矩陣乘加等專用運(yùn)算單元的計(jì)算芯片能顯著加速深度學(xué)習(xí)處理效率;另一方面,深度學(xué)習(xí)需要處理海量數(shù)據(jù)樣本,強(qiáng)調(diào)芯片高并行計(jì)算能力,同時(shí)大量數(shù)據(jù)搬運(yùn)操作對內(nèi)存存取帶寬等要求更高,而內(nèi)存存取尤其是片外內(nèi)存訪問消耗的功耗要遠(yuǎn)大于計(jì)算功耗,因而高能效的內(nèi)存訪存架構(gòu)設(shè)計(jì)對芯片應(yīng)用尤其是端側(cè)部署至關(guān)重要。
深度學(xué)習(xí)處理任務(wù)應(yīng)用主要分為訓(xùn)練和推理兩個(gè)階段,實(shí)現(xiàn)高精度模型提取的訓(xùn)練階段需快速處理海量數(shù)據(jù),現(xiàn)階段集中在云端執(zhí)行,對芯片計(jì)算能力、通用性、擴(kuò)展性有較高要求;實(shí)現(xiàn)模型最終應(yīng)用部署的推理階段既可以在云端執(zhí)行,也可在智能手機(jī)、智能攝像頭、智能汽車等終端操作,多樣化細(xì)分場景對人工智能芯片性能、功耗、延時(shí)以及成本等標(biāo)準(zhǔn)需求各異。諸多差異化的應(yīng)用階段和細(xì)分場景導(dǎo)致人工智能芯片處于多種技術(shù)方案競爭發(fā)展起步階段。
現(xiàn)階段,常見的人工智能芯片類型包括GPU、FPGA、ASIC等芯片(見表1)。其中,GPU芯片集成大量計(jì)算單元和高速內(nèi)存,通用性較強(qiáng)且適合大規(guī)模并行計(jì)算任務(wù),能顯著縮減數(shù)據(jù)的訓(xùn)練時(shí)長,但高能耗引發(fā)散熱問題以及高售價(jià)限制,使其多應(yīng)用于數(shù)據(jù)中心或自動駕駛場景。FPGA硬件配置靈活,能快速適應(yīng)算法迭代更新,且能效優(yōu)于GPU,但開發(fā)復(fù)雜度較高,開發(fā)者生態(tài)建設(shè)仍需增強(qiáng)。針對特定算法定制的專用ASIC芯片量產(chǎn)后性能、功耗、成本相對于FPGA具備更強(qiáng)優(yōu)勢,但人工智能算法仍處于快速演進(jìn)階段,定制化ASIC開發(fā)周期長、面臨風(fēng)險(xiǎn)高。目前,深度學(xué)習(xí)訓(xùn)練任務(wù)多集中在云端執(zhí)行,以GPU和ASIC芯片居多;推理芯片根據(jù)云端、終端場景區(qū)別,F(xiàn)PGA、ASIC和GPU芯片均有涉及。此外,CPU芯片架構(gòu)絕大部分為控制和緩存單元,更擅長復(fù)雜的邏輯控制和通用類型數(shù)據(jù)運(yùn)算,并行計(jì)算效率低,在人工智能任務(wù)中多用于樣本數(shù)據(jù)預(yù)處理操作。
表1 常見人工智能芯片類型
基于大數(shù)據(jù)量、復(fù)雜算法模型的人工智能模型訓(xùn)練階段多集中在云端處理,需求高并行、高吞吐量的芯片架構(gòu)?,F(xiàn)階段,英偉達(dá)憑借高性能的GPU芯片占據(jù)應(yīng)用規(guī)模優(yōu)勢,快速推出業(yè)內(nèi)高并行計(jì)算能力的Tesla GPU系列產(chǎn)品,其中V100 GPU芯片集成專為人工智能運(yùn)算設(shè)計(jì)的大型矩陣乘加計(jì)算核心和16G的高帶寬內(nèi)存,實(shí)現(xiàn)每秒120萬億次的峰值運(yùn)算能力。AMD也加速追趕,2018年6月初發(fā)布全球首款7nm制程的Radeon Instinct VegaGPU芯片產(chǎn)品,針對云端人工智能市場研發(fā),設(shè)計(jì)引入可編程幾何流水線、混合精度計(jì)算單元等架構(gòu)技術(shù),內(nèi)置32G的高帶寬內(nèi)存,正式產(chǎn)品將于2018年下半年推出。
谷歌面向谷歌云業(yè)務(wù)需求自研人工智能ASIC系列芯片TPU,并于2017年5月正式發(fā)布第二代產(chǎn)品Cloud TPU,采用了脈動陣列架構(gòu),增添了浮點(diǎn)計(jì)算單元和高帶寬內(nèi)存,同時(shí)具備深度訓(xùn)練和推理能力,Cloud TPU于2018年2月初通過谷歌云平臺正式面向客戶服務(wù),但開放數(shù)量有限且按時(shí)收費(fèi),每小時(shí)成本為6.50美元。英特爾收購人工智能芯片初創(chuàng)企業(yè)Nervana后積極整合推廣其訓(xùn)練芯片技術(shù),推出面向人工智能計(jì)算密度優(yōu)化的ASIC訓(xùn)練芯片,最新Spring Crest芯片產(chǎn)品將于2019年下半年向用戶開放,功耗小于210W。
云端推理平臺需求高能效、高吞吐量或低延時(shí)的人工智能芯片,主要包括3類:一是英偉達(dá)針對推理市場需求推出TeslaP系列GPU芯片,可提供低時(shí)延或低功耗的推理性能;二是賽靈思和英特爾主導(dǎo)的FPGA芯片憑借靈活架構(gòu)、高能效、低延時(shí)特性,吸引亞馬遜和微軟等云服務(wù)商進(jìn)行部署。賽靈思推出基于FPGA架構(gòu)的新型多核異構(gòu)計(jì)算平臺ACAP,可針對人工智能任務(wù)需求,實(shí)現(xiàn)硬件層面低至毫秒級別的高效靈活配置。英特爾收購FPGA廠商Altera后推出了基于FPGA的專用深度學(xué)習(xí)加速卡,結(jié)合自有CPU芯片打造可編程、高能效比的推理功能;三是以谷歌為代表的自研ASIC芯片陣營,谷歌于2016年5月最先發(fā)布專為數(shù)據(jù)中心推理任務(wù)定制的ASIC芯片產(chǎn)品TPU,計(jì)算核心是矩陣乘加單元,峰值計(jì)算能力達(dá)到每秒92萬億次計(jì)算操作。
伴隨人工智能市場大幅擴(kuò)張,實(shí)現(xiàn)應(yīng)用部署的終端推理芯片將具備更廣闊的市場前景和應(yīng)用需求,其中智能手機(jī)、安防監(jiān)控、自動駕駛等領(lǐng)域?qū)⒊蔀槭袌鍪纵啽l(fā)焦點(diǎn)。在智能手機(jī)領(lǐng)域,蘋果發(fā)布iPhone X智能手機(jī)內(nèi)置A11bionic芯片,集成雙核神經(jīng)引擎,運(yùn)算速度達(dá)到每秒6000億次,支持快速人臉解鎖、增強(qiáng)現(xiàn)實(shí)等功能。高通推出的驍龍845移動芯片基于CPU+GPU+DSP的移動異構(gòu)計(jì)算平臺,并重點(diǎn)提升DSP單元針對神經(jīng)網(wǎng)絡(luò)處理速度和能效至CPU的8和24倍。在安防監(jiān)控領(lǐng)域,英特爾收購Movidius芯片廠商推出高速低功耗Mybriad系列視覺芯片,最新款Myriad X芯片具備每秒超過1萬億的次運(yùn)算能力。在自動駕駛領(lǐng)域,英偉達(dá)推出高能效、高可靠性的車用Xaiver SoC芯片,性能達(dá)到每秒30萬億的次計(jì)算能力,功耗僅為30W,支持L3~L4級別自動駕駛。
受限于國內(nèi)在GPU和FPGA芯片領(lǐng)域基礎(chǔ)薄弱,企業(yè)多采用ASIC路線布局云端謀求戰(zhàn)略突破,參與企業(yè)包括百度、寒武紀(jì)、比特大陸等。百度面向自身業(yè)務(wù)需求開發(fā)云端人工智能芯片“昆侖”,峰值處理速度達(dá)到每秒260萬億次定點(diǎn)運(yùn)算,可滿足訓(xùn)練和推理的需求。寒武紀(jì)發(fā)布云端智能芯片MLU 100,最高峰值速度可達(dá)166.4萬億次定點(diǎn)運(yùn)算,對應(yīng)功耗110W,可支持各類深度學(xué)習(xí)和常見機(jī)器學(xué)習(xí)算法,滿足計(jì)算機(jī)視覺、語音識別、數(shù)據(jù)挖掘等計(jì)算需求;同時(shí),寒武紀(jì)聯(lián)合聯(lián)想、中科曙光分別推出深度學(xué)習(xí)專用服務(wù)器Think System SR650和PHANERON,可面向多類云處理任務(wù)提供服務(wù)。比特大陸針對云端推理任務(wù)設(shè)計(jì)專用處理器SOPHON,采用類似谷歌的脈動陣列架構(gòu),提供每秒2萬億次的計(jì)算能力,具備60W低功耗優(yōu)勢,支持CNN、RNN、DNN等常見深度神經(jīng)網(wǎng)絡(luò)算法的推理預(yù)測。
國內(nèi)企業(yè)面向智能手機(jī)、安防監(jiān)控、自動駕駛等終端重點(diǎn)細(xì)分領(lǐng)域加速人工智能芯片研發(fā),試圖搶占市場先機(jī)。在智能手機(jī)領(lǐng)域,華為發(fā)布麒麟970芯片集成寒武紀(jì)的深度學(xué)習(xí)IP內(nèi)核,峰值計(jì)算能力達(dá)到每秒1.93萬億次運(yùn)算,重點(diǎn)提升智能手機(jī)的圖像識別、機(jī)器翻譯、語音降噪等功能。紫光展銳針對中端智能手機(jī)開發(fā)SC9863處理器,應(yīng)用ARM Dynam lQ技術(shù)和Cortex-A55CPU內(nèi)核,支持智能場景檢測識別、智能拍照增強(qiáng)、人臉識別等功能。在自動駕駛領(lǐng)域,地平線機(jī)器人開發(fā)嵌入式人工智能視覺芯片——征程處理器,具備每秒一萬次運(yùn)算性能,功耗低至1.5W,支持L2級別ADAS系統(tǒng),可實(shí)時(shí)檢測和識別行人、機(jī)動車、車道線等多類目標(biāo)。在安防監(jiān)控領(lǐng)域,深鑒科技發(fā)布聽濤SoC芯片,基于自研架構(gòu)提供4.1TOPS的峰值性能,功耗1.1W,可面向多類應(yīng)用場景提供人臉檢測識別、視頻結(jié)構(gòu)化處理等解決方案。此外,??狄?guī)劃開發(fā)視覺加速芯片,由智能攝像頭整機(jī)設(shè)備向底層芯片滲透,完善產(chǎn)業(yè)鏈布局。
我國人工智能應(yīng)用市場規(guī)模龐大,數(shù)據(jù)積累形成海量規(guī)模,為國內(nèi)人工智能芯片發(fā)展提供巨大空間。現(xiàn)階段我國企業(yè)緊跟人工智能芯片創(chuàng)新機(jī)遇,積極開展定制ASIC芯片研發(fā),并在部分領(lǐng)域取得一定進(jìn)展,為人工智能產(chǎn)業(yè)持續(xù)升級夯實(shí)基礎(chǔ)。與此同時(shí),我國集成電路產(chǎn)業(yè)基礎(chǔ)薄弱問題再次凸顯。一是國內(nèi)企業(yè)在高性能GPU和FPGA芯片領(lǐng)域研發(fā)滯后,企業(yè)多采用ASIC芯片架構(gòu)進(jìn)行創(chuàng)新,影響國內(nèi)人工智能芯片全產(chǎn)品線布局;二是國內(nèi)布局人工智能芯片研發(fā)多為初創(chuàng)企業(yè),缺乏長期芯片架構(gòu)設(shè)計(jì)和軟件編譯等經(jīng)驗(yàn)累積,應(yīng)用生態(tài)尚未搭建完善,市場關(guān)系仍需持續(xù)開拓;三是現(xiàn)有人工智能芯片研發(fā)人員也遠(yuǎn)遠(yuǎn)不能滿足需求,芯片產(chǎn)品創(chuàng)新發(fā)展源動力不足。
(1)強(qiáng)化核心技術(shù)攻關(guān),優(yōu)化產(chǎn)業(yè)發(fā)展環(huán)境。積極推動產(chǎn)、學(xué)、研、用各主體加強(qiáng)技術(shù)攻關(guān),促進(jìn)深度學(xué)習(xí)指令集、芯片體系架構(gòu)等基礎(chǔ)核心技術(shù)創(chuàng)新升級,鼓勵(lì)技術(shù)新路徑探索。促進(jìn)人才、資金、資源等要素集聚,切實(shí)推進(jìn)人工智能芯片產(chǎn)業(yè)發(fā)展。
(2)加強(qiáng)產(chǎn)業(yè)鏈上下聯(lián)動,實(shí)現(xiàn)芯片、算法、應(yīng)用、生態(tài)協(xié)同發(fā)展。推動人工智能應(yīng)用企業(yè)、終端企業(yè)、平臺企業(yè)、算法企業(yè)與芯片企業(yè)間的深度合作和協(xié)同創(chuàng)新,面向應(yīng)用市場需求加快推動“芯片與算法”、“芯片與整機(jī)”、“芯片與應(yīng)用”等各參與主體間的資源協(xié)調(diào)與協(xié)同設(shè)計(jì)優(yōu)化。
(3)注重應(yīng)用市場導(dǎo)向,推動人工智能芯片產(chǎn)業(yè)規(guī)??焖俜糯?。積極把握人工智能的發(fā)展機(jī)遇,加快推進(jìn)產(chǎn)品研發(fā)布局,發(fā)揮應(yīng)用市場的帶動效應(yīng),鼓勵(lì)國際合作交流,促進(jìn)人工智能芯片在安防、醫(yī)療、交通等多領(lǐng)域的推廣應(yīng)用。