日前,由中國(guó)計(jì)算機(jī)學(xué)會(huì)主辦的“2022中國(guó)計(jì)算機(jī)學(xué)會(huì)芯片大會(huì)”中,英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng)分享許多半導(dǎo)體前沿技術(shù)。談到半導(dǎo)體兩大趨勢(shì):突破算力瓶頸,以及墻算力同時(shí)要能控制功耗,宋繼強(qiáng)分享了英特爾對(duì)異構(gòu)計(jì)算和異構(gòu)集成兩大技術(shù)方向的看法。
是突破算力瓶頸,通過(guò)不同的方式解決多樣化數(shù)據(jù)的計(jì)算有效性; 第二,在提升算力的時(shí)候,還需要考慮到綠色計(jì)算,不能用很耗能的計(jì)算方式去解決問(wèn)題,要想如何以能量?jī)?yōu)化的方式去解決未來(lái)的數(shù)據(jù)處理。
宋繼強(qiáng)指出,如果把數(shù)字經(jīng)濟(jì)的基礎(chǔ)設(shè)施看成一個(gè)底座,如何更好地分配算力,進(jìn)行調(diào)度以應(yīng)對(duì)不同的應(yīng)用,以及對(duì)延時(shí)、計(jì)算量、并發(fā)、不同加速類型、數(shù)據(jù)類型的要求,實(shí)際上是構(gòu)成了一個(gè)很復(fù)雜的算力網(wǎng)絡(luò)。
中國(guó)近年來(lái)提出把計(jì)算和網(wǎng)絡(luò)融合起來(lái),“東數(shù)西算”工程的推進(jìn)是很重要的大方向。從技術(shù)方面來(lái)看,其實(shí)它就是在構(gòu)造一個(gè)以能源、計(jì)算能效性為優(yōu)先綜合布局的新型算力網(wǎng)。
東部的數(shù)據(jù)量很大,包括游戲、智慧城市、智能駕駛、交通等有非常多數(shù)據(jù)產(chǎn)生和使用。還有很多地區(qū)能效比高,很多自然能源可以使用,適合建立建數(shù)據(jù)中心。這個(gè)概念在上面看是一張算力網(wǎng),通過(guò)網(wǎng)絡(luò)把它連接起來(lái),當(dāng)中的底層技術(shù)非常復(fù)雜,因?yàn)榫W(wǎng)絡(luò)有延遲,很多應(yīng)用根據(jù)數(shù)據(jù)處理和應(yīng)用的需求對(duì)延遲的敏感度不太一樣。
對(duì)于數(shù)據(jù)處理,無(wú)論是算力還是網(wǎng)絡(luò)構(gòu)造,都很有獨(dú)特的要求。從數(shù)據(jù)量和質(zhì)來(lái)看,傳統(tǒng)的單一計(jì)算架構(gòu)肯定會(huì)碰到性能和功耗的瓶頸。因此,我們要朝兩方面邁進(jìn):第一,是突破算力瓶頸,通過(guò)不同的方式解決多樣化數(shù)據(jù)的計(jì)算有效性;第二,在提升算力的時(shí)候,還需要考慮到綠色計(jì)算,不能用很耗能的計(jì)算方式去解決問(wèn)題,要想如何以能量?jī)?yōu)化的方式去解決未來(lái)的數(shù)據(jù)處理。
解決上述問(wèn)題,異構(gòu)計(jì)算和異構(gòu)集成是未來(lái)的兩大方向。
何為異構(gòu)計(jì)算?就是用不同的架構(gòu)處理不同類型的數(shù)據(jù),真正做到“用好的工具解決好的問(wèn)題”。
何為異構(gòu)集成?是以更好的集成組合方式,把不同工藝下優(yōu)化好的模塊更好地集成到未來(lái)的解決方案當(dāng)中,從而更加高效地處理復(fù)雜計(jì)算。
XPU,英特爾全面的硬件架構(gòu)
在“解決問(wèn)題”的這個(gè)思路下,首先我們要能夠在硬件的架構(gòu)布局上“全面發(fā)展”,對(duì)不同的數(shù)據(jù)有不同的處理器架構(gòu),比如說(shuō)CPU、GPU、IPU、FPGA、AI加速器,它們各自針對(duì)不同種類的數(shù)據(jù)流,包括數(shù)據(jù)處理的不同特點(diǎn),可以進(jìn)行定制。
再者,把不同架構(gòu)組裝起來(lái)后,就需要有人根據(jù)應(yīng)用的要求進(jìn)行編程,釋放硬件的功能,把它調(diào)度好,這就需要有一個(gè)對(duì)應(yīng)的很好的軟件框架,英特爾的oneAPI就在構(gòu)造一個(gè)完整的異構(gòu)計(jì)算體系,目的是未來(lái)寫一個(gè)軟件,只需要讓應(yīng)用者指定它的功能,而不需要非常明確地指定哪些部分運(yùn)行在CPU上,哪些部分運(yùn)行在GPU上,哪些部分運(yùn)行在人工智能加速器上。通過(guò)底層的軟件功能模塊和工具鏈,就可以把下面具體的實(shí)現(xiàn)分布在不同的硬件上,硬件發(fā)生變化,下面具體的實(shí)現(xiàn)也發(fā)生相應(yīng)變化,但是上面的軟件開(kāi)發(fā)代碼是不用變的。
英特爾在這一領(lǐng)域有非常全面的硬件架構(gòu)布局,包括CPU、GPU、IPU、FPGA、人工智能加速器等領(lǐng)域都有很成熟的產(chǎn)品,在網(wǎng)絡(luò)上可蓋的領(lǐng)域很全面的,從終端側(cè),到邊緣,再到服務(wù)器,都有不同級(jí)別的硬件對(duì)它們進(jìn)行加速。
軟件框架也非常重要,必須具有開(kāi)放性,因?yàn)槲覀儸F(xiàn)在不知道未來(lái)會(huì)有哪些新興硬件種類出現(xiàn),但是我們要去構(gòu)造一個(gè)能讓未來(lái)和現(xiàn)在的硬件都能很好地去工作的統(tǒng)一框架。
首先,最底層是硬件的抽象層,定義一些統(tǒng)一的描述方法,稱之為L(zhǎng)evel Zero,它可以把不同架構(gòu)的硬件,以及來(lái)自不同廠商的硬件,都用統(tǒng)一的方式向上層開(kāi)發(fā)人員給出一種描述,比如硬件如何被調(diào)用,有哪些功能,以及做不同工作的時(shí)候的延時(shí)和性能。
再上面是底層高性能庫(kù),針對(duì)不同常用的計(jì)算內(nèi)核分別做了相應(yīng)的優(yōu)化,這個(gè)優(yōu)化一方面會(huì)針對(duì)這些計(jì)算負(fù)載的種類去做算法級(jí)的優(yōu)化,同時(shí)會(huì)根據(jù)所面向的硬件種類進(jìn)行優(yōu)化,比如說(shuō)oneMKL,它在CPU、GPU和AI加速器上運(yùn)行的庫(kù)是不一樣的。
同時(shí)oneAPI也提供不同的語(yǔ)言,比如說(shuō)DPC++、SYCL語(yǔ)言,都可以支持做并行編程,這兩層是oneAPI主要的工作。
目前oneAPI在全球都開(kāi)始做開(kāi)放式的合作,有很多企業(yè)、初創(chuàng)公司、研究機(jī)構(gòu)加入,在中國(guó),英特爾去年也和中科院計(jì)算所建立了中國(guó)首個(gè)oneAPI卓越中心。
oneAPI,開(kāi)放統(tǒng)一的跨架構(gòu)編程模型
當(dāng)我們有了不同種類架構(gòu)的芯片,有一些架構(gòu)的硬件可以被很好的整合到同一制程下面的SoC里面去,而有一些是會(huì)成為不同的芯片,但是我們?nèi)韵M阉y(tǒng)一在同一個(gè)系統(tǒng)里,因此需要異構(gòu)集成,也就是先進(jìn)的封裝工藝。
先進(jìn)的封裝工藝可以把不同制程節(jié)點(diǎn)的芯片封裝在一個(gè)大的封裝里,同時(shí)利用先進(jìn)封裝帶來(lái)的尺寸、帶寬、功耗的優(yōu)勢(shì),讓它們不會(huì)像原來(lái)板級(jí)封裝一樣有很大的延遲和帶寬降低,還有可能造成面積、成本達(dá)不到要求。
實(shí)現(xiàn)這種異構(gòu)集成,英特爾目前有兩項(xiàng)做的比較好的技術(shù):
第一,嵌入式多芯片互連橋接:這是2.5D封裝技術(shù)。在這個(gè)技術(shù)框架下,把在平面上集成起來(lái)的芯片做很好的連接,可以把它們之間的凸點(diǎn)間距有效降低到50微米以下,未來(lái)有可能繼續(xù)降低到45微米、三十幾微米這個(gè)層面。
第二,F(xiàn)overos:要提高整個(gè)封裝集成的密度,僅靠2.5D封裝是不夠的,需要往3D封裝的方向發(fā)展。Foveros可以把不同計(jì)算的芯粒在垂直層面上進(jìn)行封裝,通過(guò)更高級(jí)的封裝層面的微縮技術(shù),把封裝凸點(diǎn)的間距降到36微米,未來(lái)可繼續(xù)降到二十幾微米和十幾微米以下。這樣一來(lái),封裝層級(jí)的連線密度就已經(jīng)非常高了,并且速度也可以逐步接近在芯片里面連線的速率。
Foveros Omni和Foveros Direct就是英特爾在3 D 封裝上未來(lái)會(huì)使用的兩種技術(shù)。Foveros Omni是比較典型的,在上面是一個(gè)大的芯片,底下是幾個(gè)小芯片的時(shí)候,可以用一種通用的方法把不同芯片之間互連的接觸點(diǎn)間距微縮到25微米,同時(shí)還可以通過(guò)這種在邊上的比較粗的銅柱,直接給上層芯片供電,和EMIB相比有接近4倍的密度提升。
Foveros Direct技術(shù)是通過(guò)一種更高級(jí)的不需要焊料、直接讓銅對(duì)銅鍵合的技術(shù),實(shí)現(xiàn)更低電阻的互連,進(jìn)一步縮小凸點(diǎn)之間的間距,達(dá)到10微米以下。在3D堆疊的時(shí)候就可以把整個(gè)互連的密度直接提升到新的數(shù)量級(jí)。
把異構(gòu)計(jì)算和異構(gòu)集成的技術(shù)整合在一個(gè)產(chǎn)品里面,Ponte Vecchio是一個(gè)很好的例子。
Ponte Vecchio是英特爾目前在高性能計(jì)算GPU領(lǐng)域最復(fù)雜的SoC,當(dāng)中共用了來(lái)自5個(gè)不同制程節(jié)點(diǎn)的47種不同晶片,有來(lái)自英特爾自己的,也有來(lái)自于臺(tái)積電的。
同時(shí),在水平層面上用EMIB技術(shù)封裝,也在垂直方向上用Foveros技術(shù)進(jìn)行封裝集成。通過(guò)這樣的構(gòu)造做出了專門給高性能計(jì)算機(jī)的計(jì)算系統(tǒng),當(dāng)中包括了至強(qiáng)處理器和專門的基于Xe架構(gòu)的Ponte Vecchio GPU,目前用于極光超級(jí)計(jì)算機(jī)。
下一代旗艦級(jí)數(shù)據(jù)中心GPU,則叫Rialto Bridge,它里面小的芯片采用了更新的制程節(jié)點(diǎn),在封裝上也會(huì)采用最新的封裝技術(shù)。不同芯片之間互相合作,通過(guò)oneAPI編程實(shí)現(xiàn)它的計(jì)算功能。
針對(duì)推進(jìn)摩爾定律,如何在制程、器件的級(jí)別上做創(chuàng)新,宋繼強(qiáng)也分享他的觀點(diǎn)。
制程工藝方面,首先工具很重要。英特爾率先使用下一代基于高數(shù)值孔徑的極紫外光刻機(jī),可進(jìn)一步降低整個(gè)制程工藝的復(fù)雜度,提高良率,易于將光刻的特征線寬降低下來(lái)。
在Intel 20A節(jié)點(diǎn)的時(shí)候,會(huì)開(kāi)始產(chǎn)品化地使用RibbonFET這一新的晶體管結(jié)構(gòu)??蛇M(jìn)一步降低在平面上看到的晶體管所占面積,同時(shí)因?yàn)镽ibbonFET是用一個(gè)門去驅(qū)動(dòng)好多個(gè)納米帶,可以有更快的驅(qū)動(dòng)速度,驅(qū)動(dòng)電流的強(qiáng)度也會(huì)較之前更好。
在給晶體管供電的層面,也會(huì)在Intel20A通過(guò)PowerVia技術(shù)實(shí)現(xiàn)底部給所有上層的功能邏輯部件供電,把供電層和邏輯層完全分開(kāi),可以更有效地使用金屬層,對(duì)繞線和能量消耗的減少而言都有很大的提高。
宋繼強(qiáng)也分享,未來(lái)四年英特爾會(huì)有5個(gè)節(jié)點(diǎn)的演進(jìn)。今年英特爾已經(jīng)在大量出貨Intel 7;下半年還會(huì)有Intel 4的產(chǎn)品開(kāi)始使用EUV;Intel 3是明年產(chǎn)品化,在生產(chǎn)過(guò)程當(dāng)中會(huì)更大量的使用EUV;進(jìn)入2024年,上半年是Intel 20A,下半年會(huì)有Intel 18A。
CMOS晶體管3D堆疊層面,英特爾也持續(xù)投入研究,更將成果直接貢獻(xiàn)到GAA的RibbonFET產(chǎn)品技術(shù)當(dāng)中,通過(guò)堆疊CMOS晶體管能夠?qū)崿F(xiàn)30%~50%的微縮。
在晶體管層面上繼續(xù)做微縮有很多方法,像是使用一些新的材料,例如到Intel 20A、Intel 18A之后,選擇新的材料做它的接觸層、構(gòu)造一些溝道可以進(jìn)一步提升晶體管的效能。
同時(shí),基于硅的CMOS基礎(chǔ)上,還可以進(jìn)一步疊加新的晶體管材料和結(jié)構(gòu),給硅晶體管注入新的功能。比如說(shuō)下圖左側(cè),它展現(xiàn)的是增強(qiáng)模式的高K氮化鎵晶體管和硅的FinFET晶體管組合起來(lái)之后,可以提供更好的電源管理技術(shù)。這也是非常重要的一部分技術(shù),把三代半導(dǎo)體和硅基的第二代半導(dǎo)體很好的組合起來(lái),去產(chǎn)生新的晶體管層級(jí)的結(jié)構(gòu)創(chuàng)新。
還有一些全新的利用量子效應(yīng)做的一些器件,下圖左側(cè)采用的是磁電加上電子自旋軌道,把這兩種器件很好地組合在一起,構(gòu)造出了MESO的邏輯器件。此前磁電自旋電子器件比較多的是用在存儲(chǔ)上,而英特爾的研究進(jìn)一步把這種器件應(yīng)用在邏輯計(jì)算上,這是一個(gè)非常重要的突破。
另外,未來(lái)神經(jīng)擬態(tài)計(jì)算也是非常重要的一個(gè)方向,因?yàn)楝F(xiàn)在做人工智能大部分是依靠GPU、CPU或者是帶有非常多矩陣運(yùn)算的加速器,消耗還是非常大的。而神經(jīng)擬態(tài)計(jì)算一個(gè)很大的好處是它可以在算法層級(jí)和硬件結(jié)構(gòu)設(shè)計(jì)層級(jí)上完全突破現(xiàn)在這種靠堆乘加器的方式來(lái)提供算力的模式,而是模擬人類神經(jīng)元的形式去構(gòu)造其中底層的計(jì)算單元,且大部分是存算一體化。
構(gòu)造出這種芯片,再通過(guò)脈沖神經(jīng)網(wǎng)絡(luò)的方式編程,實(shí)現(xiàn)人工智能的算法。通過(guò)這樣的方式,通常可以達(dá)到能效比千倍級(jí)的提升,也就是說(shuō)做同樣一個(gè)人工智能任務(wù),用神經(jīng)擬態(tài)計(jì)算消耗的能量與傳統(tǒng)上用CPU或者GPU相比減少了一千倍以上,所以這是非常值得關(guān)注的。
英特爾的Loihi就是這個(gè)方向上代表性的實(shí)驗(yàn)芯片,現(xiàn)在已經(jīng)發(fā)展到了Loihi 2。Loihi 2是在Intel 4制程工藝上生產(chǎn)出來(lái)的,速度較上一代提升10倍,單個(gè)芯片里的神經(jīng)元數(shù)量也提升了8倍。所以現(xiàn)在單芯片的神經(jīng)元數(shù)量可以達(dá)到100萬(wàn),原來(lái)是13萬(wàn),且面積縮小50%。