張心怡
“到2019年10月,經(jīng)過三年多的轉(zhuǎn)型,英特爾‘以數(shù)據(jù)為中心的業(yè)務(wù)營收在上個季度(2019年Q3)已經(jīng)與PC業(yè)務(wù)持平,這是非常大的變化?!痹诮张e辦的英特爾技術(shù)創(chuàng)新媒體溝通會上,英特爾中國研究院院長宋繼強曬出了其數(shù)據(jù)中心業(yè)務(wù)的成績單。
異構(gòu)計算漸成趨勢
與通用計算相對,異構(gòu)計算面向?qū)I(yè)化、客制化的計算需求,在計算任務(wù)中應(yīng)用CPU、GPU、ASIC、FPGA等多種計算架構(gòu),被視為更適合后摩爾時代的計算方式。
產(chǎn)業(yè)界不斷加碼異構(gòu)計算,是因為從20世紀(jì)90年代至今,數(shù)據(jù)的量和質(zhì)都發(fā)生了巨大的變化。2000年之前的Web1.0,計算設(shè)備以PC為主,數(shù)據(jù)類型以結(jié)構(gòu)化數(shù)據(jù)和圖形數(shù)據(jù)為主。到了 Web2.0時代,用戶從被動獲取數(shù)據(jù)走向主動產(chǎn)生數(shù)據(jù),服務(wù)器和PC同等重要,催生了云生態(tài)。到Web3.0,IoT讓更多設(shè)備入網(wǎng),產(chǎn)生的數(shù)據(jù)被AI深度挖掘,轉(zhuǎn)化為業(yè)務(wù)價值。AI在訓(xùn)練、推理過程中產(chǎn)生大量元數(shù)據(jù)。隨著IoT傳感器越來越多,還會產(chǎn)生大量自然描述的數(shù)據(jù)。
來自端、邊、云,對延時、成本、算法有著不同需求的數(shù)據(jù),正在驅(qū)動計算架構(gòu)的演進和擴展,異構(gòu)計算漸成趨勢。CPU適合標(biāo)量運算,GPU可用于矩陣運算或者加速器,ASIC等定制的可編程硬件可作為AI專用的加速器。空間運算,即在矩陣中用最少的路徑計算,可以用FPGA實現(xiàn)流程定制,這些架構(gòu)構(gòu)成了異構(gòu)計算的常用組件。宋繼強表示,在CPU和嵌入式GPU的基礎(chǔ)上,通過對FP-GA廠商 Altera、ASIC 廠商 Nervana、結(jié)構(gòu)化ASIC廠商eASIC等廠商的收購,英特爾已經(jīng)掌握了CPU、GPU、ASIC、FPGA四種不同架構(gòu)。
超異構(gòu)計算面向下一個十年
在異構(gòu)計算的基礎(chǔ)上,英特爾提出了“超異構(gòu)計算”,即采用多功能、多架構(gòu)的芯片處理和加速不同的運算負(fù)載,采用封裝集成技術(shù)將計算單元封裝在一個SoC,并具備統(tǒng)一異構(gòu)計算軟件的計算架構(gòu)。在異構(gòu)計算的基礎(chǔ)上,避開異構(gòu)計算的短板,實現(xiàn)計算最優(yōu)化,是超異構(gòu)計算的意義所在。
除具備多種計算架構(gòu),超計算架構(gòu)還需要封裝和統(tǒng)一的計算軟件。為此,英特爾推出了封裝級別的異構(gòu)整合方案和跨計算架構(gòu)的軟件平臺。
英特爾的異構(gòu)整合方案主要有2.5D封裝EMIB和3D封裝Fovero%EMIB泛用性更好,性價比較高,而Foveros相對昂貴,多用在小尺寸、低功耗、高性能的異構(gòu)芯片中。
統(tǒng)一的異構(gòu)計算軟件平臺,是為了提升編程效率,解決不同架構(gòu)有著不同的匯編語言和調(diào)優(yōu)方式的問題。英特爾的one API平臺隱藏了硬件復(fù)雜性,根據(jù)系統(tǒng)和硬件自動適配功耗最低、性能最佳的加速方式,簡化并優(yōu)化編程過程。
在此基礎(chǔ)上,英特爾推出了 Aumm超級計算機架構(gòu)。Aurora包含one API,采用Foveros3D封裝,配置了 2個英特爾至強可擴展處理器、6個基于CXL標(biāo)準(zhǔn)的GPU,采用7nm制程。宋繼強表示,Aurora是“一個典型的超異構(gòu)計算”,面向百億億次級的計算需求。
神經(jīng)擬態(tài)量子計算驅(qū)動未來計算
在媒體溝通會上,宋繼強拋出了一個問題:如何實現(xiàn)超過1000倍的計算效能提升?從標(biāo)準(zhǔn)計算到深度神經(jīng)網(wǎng)絡(luò),再到神經(jīng)擬態(tài),千倍計算效能的提升需要“另辟蹊徑”。英特爾的探索方向是神經(jīng)擬態(tài)計算和量子計算。
神經(jīng)擬態(tài)計算是真正模擬人腦的計算方式。宋繼強表示,人腦計算有兩個特點,一是事件驅(qū)動,二是輸入多種互相關(guān)聯(lián)的信號?!吧窠?jīng)擬態(tài)想達到的目的是利用人腦事件驅(qū)動的機制達到省電,并利用能運用多種方式去學(xué)習(xí)和訓(xùn)練的機制,達到跨領(lǐng)域的融合和相關(guān)?!彼卫^強說。
2017年,英特爾推出了 Loihi神經(jīng)擬態(tài)芯片,單個芯片有128核,可以模擬13萬邏輯神經(jīng)元,構(gòu)成支持脈沖消息分發(fā)的片上網(wǎng)絡(luò)。宋繼強透露,英特爾已經(jīng)嘗試將200多個Loihi放在一起,構(gòu)成1億個神經(jīng)元的計算和學(xué)習(xí)平臺?!癓oihi是14納米制程,14納米到10納米,再到7納米、5納米,還有三個層級,假設(shè)每級密度提升兩倍,光靠摩爾定律還可以實現(xiàn)8倍的密度,加上3D系統(tǒng)整合、芯片級3D整合技術(shù),從1億神經(jīng)元到800多億神經(jīng)元,就不是一個夢了,只是一個時間和工程的問題。”宋繼強說。
具備芯片、技術(shù)和工具鏈之后,英特爾建立了全球范圍的神經(jīng)擬態(tài)研究社區(qū)INRC,以進行更廣泛的學(xué)術(shù)界、產(chǎn)業(yè)界合作,目前INRC已經(jīng)有75家組織。
量子計算能夠處理經(jīng)典計算機不擅長的大規(guī)模計算問題。量子計算基于量子比特構(gòu)成計算路徑,在算法上,邏輯量子位可以當(dāng)做穩(wěn)定的量子位來使用。但是,量子計算距離商用還有相當(dāng)?shù)木嚯x,不僅要解決量子位的數(shù)量問題,還要解決糾錯、量子位之間的連接和測試問題。英特爾正在嘗試基于硅電子自旋,用硅產(chǎn)業(yè)鏈去做量子計算,為量子計算打下商業(yè)化基礎(chǔ)?!傲孔佑嬎悴粫〈?jīng)典計算,適合在數(shù)據(jù)中心里配合經(jīng)典計算的數(shù)據(jù)中心,處理組合爆炸問題,我們預(yù)計量子計算還需要8到10年來實現(xiàn)商業(yè)化應(yīng)用?!彼卫^強說。