人工智能芯片發(fā)展態(tài)勢分析及對策建議

2018-08-22 02:20:26

信息通信技術(shù)與政策 2018年8期

陳絲中國信息通信研究院信息化與工業(yè)化融合研究所助理工程師

1 人工智能浪潮催生芯片發(fā)展良機(jī)

1.1 人工智能應(yīng)用爆發(fā)催生百億規(guī)模芯片新市場

以圖像識別、語音識別等為代表的智能化技術(shù)水平大幅提升和應(yīng)用起步，掀起了新一輪人工智能研發(fā)和應(yīng)用熱潮，對底層芯片的計(jì)算能力需求呈現(xiàn)爆發(fā)式增長。據(jù)Tractica預(yù)估，全球人工智能芯片出貨量持續(xù)走高，市場規(guī)模將從2016年的5億美元增長至2025年的122億美元，復(fù)合年均增長率保持超過40%的高速率。與此同時(shí)，伴隨人工智能芯片技術(shù)不斷成熟和應(yīng)用落地，人工智能芯片占據(jù)人工智能總體市場規(guī)模的比例逐年遞增，據(jù)CITICS預(yù)計(jì)將從2016年的8%提高至2020年的12%。現(xiàn)階段，人工智能應(yīng)用正處于應(yīng)用起量階段，產(chǎn)業(yè)鏈上下游企業(yè)紛紛結(jié)合自身優(yōu)勢加入芯片領(lǐng)域布局，試圖搶占市場發(fā)展先機(jī)，圍繞人工智能芯片領(lǐng)域的競賽已經(jīng)拉開序幕。

1.2 暴力計(jì)算型人工智能對芯片算力提出新挑戰(zhàn)

本輪人工智能研究的關(guān)鍵詞是基于概率統(tǒng)計(jì)學(xué)的深度學(xué)習(xí)，采用日益復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型和更大規(guī)模數(shù)據(jù)樣本實(shí)現(xiàn)識別精度不斷突破，但同時(shí)產(chǎn)生的計(jì)算量也持續(xù)攀升，這種暴力計(jì)算模式對底層芯片的計(jì)算能力提出了更高要求并相應(yīng)產(chǎn)生更多能耗。例如，2012年的ImageNet比賽中，采用8層神經(jīng)網(wǎng)絡(luò)的AlexNet網(wǎng)絡(luò)取得16%的錯(cuò)誤率，迭代一次的計(jì)算量約為1.4GFLOP（10億次浮點(diǎn)計(jì)算）；2015年，擁有152層神經(jīng)元的ResNet網(wǎng)絡(luò)錯(cuò)誤率降至3.5%，但計(jì)算量為22.6GFLOP，大約達(dá)到AlexNet的16倍。與此同時(shí)，深度學(xué)習(xí)需要處理的數(shù)據(jù)規(guī)模及其龐大，如采用卷積神經(jīng)網(wǎng)絡(luò)基于ImageNet數(shù)據(jù)集訓(xùn)練模型，統(tǒng)計(jì)掃描100遍樣本即達(dá)到E級計(jì)算規(guī)模，即使提供充足的計(jì)算資源，仍需幾天甚至幾周的訓(xùn)練時(shí)長。

1.3 深度學(xué)習(xí)算法對芯片技術(shù)創(chuàng)新提出新需求

深度學(xué)習(xí)算法區(qū)別于傳統(tǒng)算法特征，既是計(jì)算密集型也是存儲密集型運(yùn)算，對芯片的專用計(jì)算能力和內(nèi)存存取能效等提出新的升級需求。一方面，具備復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對卷積、矩陣乘加等線性代數(shù)類運(yùn)算任務(wù)密集又頻繁，因而集成矩陣乘加等專用運(yùn)算單元的計(jì)算芯片能顯著加速深度學(xué)習(xí)處理效率；另一方面，深度學(xué)習(xí)需要處理海量數(shù)據(jù)樣本，強(qiáng)調(diào)芯片高并行計(jì)算能力，同時(shí)大量數(shù)據(jù)搬運(yùn)操作對內(nèi)存存取帶寬等要求更高，而內(nèi)存存取尤其是片外內(nèi)存訪問消耗的功耗要遠(yuǎn)大于計(jì)算功耗，因而高能效的內(nèi)存訪存架構(gòu)設(shè)計(jì)對芯片應(yīng)用尤其是端側(cè)部署至關(guān)重要。

2 人工智能芯片技術(shù)路徑百花齊放

2.1 人工智能芯片處于多技術(shù)路徑競相發(fā)展階段

深度學(xué)習(xí)處理任務(wù)應(yīng)用主要分為訓(xùn)練和推理兩個(gè)階段，實(shí)現(xiàn)高精度模型提取的訓(xùn)練階段需快速處理海量數(shù)據(jù)，現(xiàn)階段集中在云端執(zhí)行，對芯片計(jì)算能力、通用性、擴(kuò)展性有較高要求；實(shí)現(xiàn)模型最終應(yīng)用部署的推理階段既可以在云端執(zhí)行，也可在智能手機(jī)、智能攝像頭、智能汽車等終端操作，多樣化細(xì)分場景對人工智能芯片性能、功耗、延時(shí)以及成本等標(biāo)準(zhǔn)需求各異。諸多差異化的應(yīng)用階段和細(xì)分場景導(dǎo)致人工智能芯片處于多種技術(shù)方案競爭發(fā)展起步階段。

2.2 不同類型人工智能芯片各有所長

現(xiàn)階段，常見的人工智能芯片類型包括GPU、FPGA、ASIC等芯片（見表1）。其中，GPU芯片集成大量計(jì)算單元和高速內(nèi)存，通用性較強(qiáng)且適合大規(guī)模并行計(jì)算任務(wù)，能顯著縮減數(shù)據(jù)的訓(xùn)練時(shí)長，但高能耗引發(fā)散熱問題以及高售價(jià)限制，使其多應(yīng)用于數(shù)據(jù)中心或自動駕駛場景。FPGA硬件配置靈活，能快速適應(yīng)算法迭代更新，且能效優(yōu)于GPU，但開發(fā)復(fù)雜度較高，開發(fā)者生態(tài)建設(shè)仍需增強(qiáng)。針對特定算法定制的專用ASIC芯片量產(chǎn)后性能、功耗、成本相對于FPGA具備更強(qiáng)優(yōu)勢，但人工智能算法仍處于快速演進(jìn)階段，定制化ASIC開發(fā)周期長、面臨風(fēng)險(xiǎn)高。目前，深度學(xué)習(xí)訓(xùn)練任務(wù)多集中在云端執(zhí)行，以GPU和ASIC芯片居多；推理芯片根據(jù)云端、終端場景區(qū)別，F(xiàn)PGA、ASIC和GPU芯片均有涉及。此外，CPU芯片架構(gòu)絕大部分為控制和緩存單元，更擅長復(fù)雜的邏輯控制和通用類型數(shù)據(jù)運(yùn)算，并行計(jì)算效率低，在人工智能任務(wù)中多用于樣本數(shù)據(jù)預(yù)處理操作。

3 人工智能芯片領(lǐng)域競賽群雄逐鹿

表1 常見人工智能芯片類型

3.1 云側(cè)訓(xùn)練市場初步由GPU芯片取得優(yōu)勢

基于大數(shù)據(jù)量、復(fù)雜算法模型的人工智能模型訓(xùn)練階段多集中在云端處理，需求高并行、高吞吐量的芯片架構(gòu)?，F(xiàn)階段，英偉達(dá)憑借高性能的GPU芯片占據(jù)應(yīng)用規(guī)模優(yōu)勢，快速推出業(yè)內(nèi)高并行計(jì)算能力的Tesla GPU系列產(chǎn)品，其中V100 GPU芯片集成專為人工智能運(yùn)算設(shè)計(jì)的大型矩陣乘加計(jì)算核心和16G的高帶寬內(nèi)存，實(shí)現(xiàn)每秒120萬億次的峰值運(yùn)算能力。AMD也加速追趕，2018年6月初發(fā)布全球首款7nm制程的Radeon Instinct VegaGPU芯片產(chǎn)品，針對云端人工智能市場研發(fā)，設(shè)計(jì)引入可編程幾何流水線、混合精度計(jì)算單元等架構(gòu)技術(shù)，內(nèi)置32G的高帶寬內(nèi)存，正式產(chǎn)品將于2018年下半年推出。

3.2 新興力量借助ASIC芯片創(chuàng)新構(gòu)筑競爭實(shí)力

谷歌面向谷歌云業(yè)務(wù)需求自研人工智能ASIC系列芯片TPU，并于2017年5月正式發(fā)布第二代產(chǎn)品Cloud TPU，采用了脈動陣列架構(gòu)，增添了浮點(diǎn)計(jì)算單元和高帶寬內(nèi)存，同時(shí)具備深度訓(xùn)練和推理能力，Cloud TPU于2018年2月初通過谷歌云平臺正式面向客戶服務(wù)，但開放數(shù)量有限且按時(shí)收費(fèi)，每小時(shí)成本為6.50美元。英特爾收購人工智能芯片初創(chuàng)企業(yè)Nervana后積極整合推廣其訓(xùn)練芯片技術(shù)，推出面向人工智能計(jì)算密度優(yōu)化的ASIC訓(xùn)練芯片，最新Spring Crest芯片產(chǎn)品將于2019年下半年向用戶開放，功耗小于210W。

3.3 高能效、低時(shí)延芯片成為云端推理市場角逐焦點(diǎn)

云端推理平臺需求高能效、高吞吐量或低延時(shí)的人工智能芯片，主要包括3類：一是英偉達(dá)針對推理市場需求推出TeslaP系列GPU芯片，可提供低時(shí)延或低功耗的推理性能；二是賽靈思和英特爾主導(dǎo)的FPGA芯片憑借靈活架構(gòu)、高能效、低延時(shí)特性，吸引亞馬遜和微軟等云服務(wù)商進(jìn)行部署。賽靈思推出基于FPGA架構(gòu)的新型多核異構(gòu)計(jì)算平臺ACAP，可針對人工智能任務(wù)需求，實(shí)現(xiàn)硬件層面低至毫秒級別的高效靈活配置。英特爾收購FPGA廠商Altera后推出了基于FPGA的專用深度學(xué)習(xí)加速卡，結(jié)合自有CPU芯片打造可編程、高能效比的推理功能；三是以谷歌為代表的自研ASIC芯片陣營，谷歌于2016年5月最先發(fā)布專為數(shù)據(jù)中心推理任務(wù)定制的ASIC芯片產(chǎn)品TPU，計(jì)算核心是矩陣乘加單元，峰值計(jì)算能力達(dá)到每秒92萬億次計(jì)算操作。

3.4 終端人工智能芯片市場正在起步，涉及芯片類型多樣化

伴隨人工智能市場大幅擴(kuò)張，實(shí)現(xiàn)應(yīng)用部署的終端推理芯片將具備更廣闊的市場前景和應(yīng)用需求，其中智能手機(jī)、安防監(jiān)控、自動駕駛等領(lǐng)域?qū)⒊蔀槭袌鍪纵啽l(fā)焦點(diǎn)。在智能手機(jī)領(lǐng)域，蘋果發(fā)布iPhone X智能手機(jī)內(nèi)置A11bionic芯片，集成雙核神經(jīng)引擎，運(yùn)算速度達(dá)到每秒6000億次，支持快速人臉解鎖、增強(qiáng)現(xiàn)實(shí)等功能。高通推出的驍龍845移動芯片基于CPU+GPU+DSP的移動異構(gòu)計(jì)算平臺，并重點(diǎn)提升DSP單元針對神經(jīng)網(wǎng)絡(luò)處理速度和能效至CPU的8和24倍。在安防監(jiān)控領(lǐng)域，英特爾收購Movidius芯片廠商推出高速低功耗Mybriad系列視覺芯片，最新款Myriad X芯片具備每秒超過1萬億的次運(yùn)算能力。在自動駕駛領(lǐng)域，英偉達(dá)推出高能效、高可靠性的車用Xaiver SoC芯片，性能達(dá)到每秒30萬億的次計(jì)算能力，功耗僅為30W，支持L3～L4級別自動駕駛。

4 我國人工智能芯片產(chǎn)業(yè)創(chuàng)新活躍

4.1 積極突破云端人工智能芯片領(lǐng)域

受限于國內(nèi)在GPU和FPGA芯片領(lǐng)域基礎(chǔ)薄弱，企業(yè)多采用ASIC路線布局云端謀求戰(zhàn)略突破，參與企業(yè)包括百度、寒武紀(jì)、比特大陸等。百度面向自身業(yè)務(wù)需求開發(fā)云端人工智能芯片“昆侖”，峰值處理速度達(dá)到每秒260萬億次定點(diǎn)運(yùn)算，可滿足訓(xùn)練和推理的需求。寒武紀(jì)發(fā)布云端智能芯片MLU 100，最高峰值速度可達(dá)166.4萬億次定點(diǎn)運(yùn)算，對應(yīng)功耗110W，可支持各類深度學(xué)習(xí)和常見機(jī)器學(xué)習(xí)算法，滿足計(jì)算機(jī)視覺、語音識別、數(shù)據(jù)挖掘等計(jì)算需求；同時(shí)，寒武紀(jì)聯(lián)合聯(lián)想、中科曙光分別推出深度學(xué)習(xí)專用服務(wù)器Think System SR650和PHANERON，可面向多類云處理任務(wù)提供服務(wù)。比特大陸針對云端推理任務(wù)設(shè)計(jì)專用處理器SOPHON，采用類似谷歌的脈動陣列架構(gòu)，提供每秒2萬億次的計(jì)算能力，具備60W低功耗優(yōu)勢，支持CNN、RNN、DNN等常見深度神經(jīng)網(wǎng)絡(luò)算法的推理預(yù)測。

4.2 重點(diǎn)聚焦終端細(xì)分市場芯片布局

國內(nèi)企業(yè)面向智能手機(jī)、安防監(jiān)控、自動駕駛等終端重點(diǎn)細(xì)分領(lǐng)域加速人工智能芯片研發(fā)，試圖搶占市場先機(jī)。在智能手機(jī)領(lǐng)域，華為發(fā)布麒麟970芯片集成寒武紀(jì)的深度學(xué)習(xí)IP內(nèi)核，峰值計(jì)算能力達(dá)到每秒1.93萬億次運(yùn)算，重點(diǎn)提升智能手機(jī)的圖像識別、機(jī)器翻譯、語音降噪等功能。紫光展銳針對中端智能手機(jī)開發(fā)SC9863處理器，應(yīng)用ARM Dynam lQ技術(shù)和Cortex-A55CPU內(nèi)核，支持智能場景檢測識別、智能拍照增強(qiáng)、人臉識別等功能。在自動駕駛領(lǐng)域，地平線機(jī)器人開發(fā)嵌入式人工智能視覺芯片——征程處理器，具備每秒一萬次運(yùn)算性能，功耗低至1.5W，支持L2級別ADAS系統(tǒng)，可實(shí)時(shí)檢測和識別行人、機(jī)動車、車道線等多類目標(biāo)。在安防監(jiān)控領(lǐng)域，深鑒科技發(fā)布聽濤SoC芯片，基于自研架構(gòu)提供4.1TOPS的峰值性能，功耗1.1W，可面向多類應(yīng)用場景提供人臉檢測識別、視頻結(jié)構(gòu)化處理等解決方案。此外，?？狄?guī)劃開發(fā)視覺加速芯片，由智能攝像頭整機(jī)設(shè)備向底層芯片滲透，完善產(chǎn)業(yè)鏈布局。

4.3 我國人工智能芯片發(fā)展機(jī)遇與挑戰(zhàn)并存

我國人工智能應(yīng)用市場規(guī)模龐大，數(shù)據(jù)積累形成海量規(guī)模，為國內(nèi)人工智能芯片發(fā)展提供巨大空間。現(xiàn)階段我國企業(yè)緊跟人工智能芯片創(chuàng)新機(jī)遇，積極開展定制ASIC芯片研發(fā)，并在部分領(lǐng)域取得一定進(jìn)展，為人工智能產(chǎn)業(yè)持續(xù)升級夯實(shí)基礎(chǔ)。與此同時(shí)，我國集成電路產(chǎn)業(yè)基礎(chǔ)薄弱問題再次凸顯。一是國內(nèi)企業(yè)在高性能GPU和FPGA芯片領(lǐng)域研發(fā)滯后，企業(yè)多采用ASIC芯片架構(gòu)進(jìn)行創(chuàng)新，影響國內(nèi)人工智能芯片全產(chǎn)品線布局；二是國內(nèi)布局人工智能芯片研發(fā)多為初創(chuàng)企業(yè)，缺乏長期芯片架構(gòu)設(shè)計(jì)和軟件編譯等經(jīng)驗(yàn)累積，應(yīng)用生態(tài)尚未搭建完善，市場關(guān)系仍需持續(xù)開拓；三是現(xiàn)有人工智能芯片研發(fā)人員也遠(yuǎn)遠(yuǎn)不能滿足需求，芯片產(chǎn)品創(chuàng)新發(fā)展源動力不足。

5 結(jié)束語

（1）強(qiáng)化核心技術(shù)攻關(guān)，優(yōu)化產(chǎn)業(yè)發(fā)展環(huán)境。積極推動產(chǎn)、學(xué)、研、用各主體加強(qiáng)技術(shù)攻關(guān)，促進(jìn)深度學(xué)習(xí)指令集、芯片體系架構(gòu)等基礎(chǔ)核心技術(shù)創(chuàng)新升級，鼓勵(lì)技術(shù)新路徑探索。促進(jìn)人才、資金、資源等要素集聚，切實(shí)推進(jìn)人工智能芯片產(chǎn)業(yè)發(fā)展。

（2）加強(qiáng)產(chǎn)業(yè)鏈上下聯(lián)動，實(shí)現(xiàn)芯片、算法、應(yīng)用、生態(tài)協(xié)同發(fā)展。推動人工智能應(yīng)用企業(yè)、終端企業(yè)、平臺企業(yè)、算法企業(yè)與芯片企業(yè)間的深度合作和協(xié)同創(chuàng)新，面向應(yīng)用市場需求加快推動“芯片與算法”、“芯片與整機(jī)”、“芯片與應(yīng)用”等各參與主體間的資源協(xié)調(diào)與協(xié)同設(shè)計(jì)優(yōu)化。

（3）注重應(yīng)用市場導(dǎo)向，推動人工智能芯片產(chǎn)業(yè)規(guī)?？焖俜糯?。積極把握人工智能的發(fā)展機(jī)遇，加快推進(jìn)產(chǎn)品研發(fā)布局，發(fā)揮應(yīng)用市場的帶動效應(yīng)，鼓勵(lì)國際合作交流，促進(jìn)人工智能芯片在安防、醫(yī)療、交通等多領(lǐng)域的推廣應(yīng)用。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看