李建 阮迪
(1. 北京三快云計(jì)算有限公司,北京 100102;2. 中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所,北京 100191)
隨著云計(jì)算、大數(shù)據(jù)、人工智能(Artificial Intelligence,AI)、自動(dòng)駕駛等技術(shù)的快速發(fā)展,算力需求保持強(qiáng)勁的同時(shí)也出現(xiàn)明顯分化。不同的業(yè)務(wù)需求促成了以通用算力、智算算力、邊緣算力為代表的多樣化算力載體,多樣化算力也推動(dòng)了中央處理器(Center Processing Unit,CPU)、圖形處理器(Graphics Processing Unit,GPU)、神經(jīng)網(wǎng)絡(luò)處理器、現(xiàn)場(chǎng)可編程邏輯門陣列等算力平臺(tái)的快速發(fā)展[1]。在當(dāng)前的算力分布中,通用算力和智算算力占據(jù)主導(dǎo)地位,通用算力以CPU為主要算力平臺(tái),智算算力以GPU為主要算力平臺(tái)。在生成式AI技術(shù)取得突破之前,以CPU和GPU為代表的算力芯片的性能發(fā)展趨勢(shì)一直較為平穩(wěn),CPU約2.5年翻一倍,GPU約2.25年翻一倍[2];生成式AI技術(shù)突破以后,GPU的性能發(fā)展趨勢(shì)明顯加快。
由摩爾定律可知,芯片性能的提升主要來(lái)源于晶體管數(shù)量的增加,參考芯片功耗的主要影響因素公式:P∝C×N×V2×f。其中,P為芯片功耗,C為負(fù)載電容,N為芯片的晶體管數(shù)量,V為晶體管工作電壓,f為晶體管工作頻率。晶體管數(shù)量與芯片的功耗成正比關(guān)系,雖然芯片的晶圓制程一直在迭代優(yōu)化,但是對(duì)于芯片功耗控制的邊際效應(yīng)逐步顯現(xiàn),芯片功耗總體上仍呈明顯上升趨勢(shì)。根據(jù)相關(guān)芯片廠家的數(shù)據(jù),以應(yīng)用最為廣泛的算力平臺(tái)CPU和GPU為例,CPU的功耗將從現(xiàn)在的400 W演進(jìn)至600 W以上,GPU的功耗將從700 W演進(jìn)至1 000 W以上,大功耗芯片散熱成為服務(wù)器散熱設(shè)計(jì)的主要挑戰(zhàn)。
不同算力芯片的功耗差異較大,如CPU比GPU的功耗低很多,同樣存在散熱挑戰(zhàn)的核心原因在于算力芯片所處的熱邊界條件不同。熱邊界條件是指芯片所在的散熱相關(guān)的約束條件,如芯片本身的尺寸、封裝形式、功耗分布、溫度規(guī)格,服務(wù)器的硬件架構(gòu)、空間尺寸、使用環(huán)境,散熱器的選型、風(fēng)量大小、冷板設(shè)計(jì)、液體流量和進(jìn)出溫差等。對(duì)芯片散熱設(shè)計(jì)產(chǎn)生約束的信息均屬于熱邊界條件。
以目前業(yè)界使用最廣泛的2U通用服務(wù)器和AI服務(wù)器為例,分析CPU和GPU芯片散熱邊界的差異。如表1所示,CPU和GPU芯片的熱邊界條件存在較明顯的差異,CPU的散熱主要受限于空間和芯片封裝設(shè)計(jì),而GPU的散熱則主要受限于多卡級(jí)聯(lián)和芯片封裝設(shè)計(jì)。
表1 CPU和GPU芯片熱邊界條件對(duì)比
在服務(wù)器散熱場(chǎng)景下,根據(jù)散熱工質(zhì)是否存在相變,散熱技術(shù)可以分為單相散熱技術(shù)和兩相散熱技術(shù),兩類散熱技術(shù)的差異如表2所示。在實(shí)際使用中,一個(gè)服務(wù)器系統(tǒng)中可能出現(xiàn)多個(gè)技術(shù)混用的情況。例如,目前最常用的風(fēng)冷換熱本身屬于單相傳熱技術(shù),但是芯片使用的熱管散熱器中的熱管部件屬于兩相散熱技術(shù);單相冷板技術(shù)也是在服務(wù)器風(fēng)冷散熱的基礎(chǔ)上針對(duì)芯片單獨(dú)使用的單相冷板散熱技術(shù),也屬于多個(gè)散熱技術(shù)混用的場(chǎng)景。
表2 單相和兩相散熱技術(shù)對(duì)比
單相和兩相散熱技術(shù)各有優(yōu)缺點(diǎn),考慮CPU或GPU這類芯片呈現(xiàn)的高功耗和高熱流密度特點(diǎn),在實(shí)際使用中選擇散熱技術(shù)時(shí),可以通過(guò)對(duì)比傳熱量和單點(diǎn)熱流密度的能力來(lái)查看是否滿足芯片的散熱需求。以2U通用服務(wù)器CPU為例,主要散熱技術(shù)的性能水平如圖1所示。
圖1 2U通用服務(wù)器架構(gòu)不同散熱技術(shù)散熱能力對(duì)比示意圖[3]
從圖1可以得出以下結(jié)論。
(1)2U通用服務(wù)器架構(gòu)下,單純空氣冷卻的傳熱量和熱流密度都是比較小的,所以實(shí)際使用中需要借助燒結(jié)型熱管(兩相散熱技術(shù))來(lái)提升散熱器的熱流密度和傳熱量。
(2)冷板式和浸沒(méi)式為代表的泵驅(qū)液冷技術(shù)在傳熱量和熱流密度方面相比空氣冷卻有大幅度的提升,這也是業(yè)界大力推廣液冷技術(shù)的原因。
(3)單相冷板的熱流密度要高于單相浸沒(méi)式,但是傳熱量指標(biāo)低于單相浸沒(méi)式。
(4)環(huán)路熱管性能與泵驅(qū)液冷技術(shù)性能相當(dāng),是一項(xiàng)非常有潛力的散熱技術(shù)。
由于單相冷板式和浸沒(méi)式液冷技術(shù)的技術(shù)門檻相對(duì)較低,在汽車、電力等領(lǐng)域有著成熟和廣泛的應(yīng)用,因此,業(yè)界希望通過(guò)引入液冷技術(shù)來(lái)解決服務(wù)器芯片散熱挑戰(zhàn),但看似成熟的液冷技術(shù)在服務(wù)器領(lǐng)域推廣面臨各種各樣的問(wèn)題,一直無(wú)法大規(guī)模部署商用,下面進(jìn)行分析闡述。
服務(wù)器冷板式液冷技術(shù)方案的核心是充分利用冷板式液冷高熱流密度的特點(diǎn),針對(duì)性解決芯片散熱問(wèn)題,工質(zhì)通過(guò)管路與安裝在芯片上的冷板內(nèi)部的翅片換熱來(lái)帶走熱量。常見(jiàn)的服務(wù)器冷板式液冷系統(tǒng)分為閉環(huán)式和開(kāi)環(huán)式,其中開(kāi)環(huán)式冷板式液冷系統(tǒng)是當(dāng)前的主流方案(見(jiàn)圖2)。該方案液體工質(zhì)會(huì)經(jīng)過(guò)芯片和主板,所以工質(zhì)泄露有可能導(dǎo)致短路;另外,相比傳統(tǒng)的風(fēng)冷散熱器,液冷系統(tǒng)的復(fù)雜度變高,所以還會(huì)存在標(biāo)準(zhǔn)化和成本問(wèn)題??傮w而言,冷板式液冷技術(shù)的核心限制因素是可靠性和成本。
圖2 服務(wù)器冷板式液冷散熱系統(tǒng)(a)和冷板(b)示意圖
可靠性問(wèn)題的核心是服務(wù)器出現(xiàn)泄露時(shí)的故障半徑和可維修時(shí)間的問(wèn)題。漏液風(fēng)險(xiǎn)的衡量指標(biāo)對(duì)應(yīng)平均無(wú)故障工作時(shí)間(Mean Time Between Failure,MTBF),出現(xiàn)泄露以后維修時(shí)效的衡量指標(biāo)對(duì)應(yīng)平均維修時(shí)間(Mean Time To Repair,MTTR)。本文統(tǒng)計(jì)了目前我國(guó)A級(jí)數(shù)據(jù)中心的機(jī)架式服務(wù)器的可靠性指標(biāo)水平(見(jiàn)表3),可以看出,實(shí)際使用中AI服務(wù)器的故障率約是通用計(jì)算服務(wù)器的3~5倍,AI服務(wù)器的主芯片數(shù)量約是通用計(jì)算服務(wù)器的5~9倍,風(fēng)冷散熱方案下的板卡維修相對(duì)簡(jiǎn)單,冷板式液冷方案下,大規(guī)模上量以后“維修”將成為一個(gè)必須考慮的問(wèn)題。需要注意的是,不同的業(yè)務(wù)類型或者不同的調(diào)度水平對(duì)于可靠性指標(biāo)的約束會(huì)存在比較大的差異,如何應(yīng)對(duì)可靠性帶來(lái)的問(wèn)題需要根據(jù)實(shí)際情況綜合考慮。
表3 服務(wù)器可靠性問(wèn)題分析
冷板式液冷系統(tǒng)的成本分為顯性成本和隱性成本,顯性成本主要是指冷板式液冷散熱方案的硬件成本,包含冷板、管路、快接頭、分水器、冷卻液分配單元、閥門等,這部分成本非常顯性,也是業(yè)界最為關(guān)注的,顯性成本通過(guò)標(biāo)準(zhǔn)化、國(guó)產(chǎn)化等措施有機(jī)會(huì)降低至可接受水平。隱性成本較為隱蔽,主要是為了應(yīng)對(duì)服務(wù)器宕機(jī)和維修時(shí)間拉長(zhǎng)對(duì)業(yè)務(wù)需求造成影響而產(chǎn)生的額外成本支出,主要包含兩部分,一部分是服務(wù)器的備用機(jī)數(shù)量增加產(chǎn)生的采購(gòu)成本,與集群規(guī)模、冗余設(shè)計(jì)有關(guān);另一部分是服務(wù)器生命周期內(nèi)離線和維修帶來(lái)的折舊成本,與集群規(guī)模、MTBF、MTTR、在線率要求等有關(guān)。
總體上來(lái)看,冷板式液冷技術(shù)的規(guī)模商用問(wèn)題,在產(chǎn)業(yè)鏈上的不同環(huán)節(jié)看到的限制因素存在巨大差異,服務(wù)器制造商認(rèn)為服務(wù)器內(nèi)部液冷散熱方案的成本是主要限制原因,數(shù)據(jù)中心側(cè)更關(guān)注兼容性,而用戶側(cè)對(duì)可靠性更為關(guān)注,如何協(xié)同解決冷板式液冷面臨的限制是后續(xù)業(yè)界必須面對(duì)的難題。
如圖3所示,浸沒(méi)式液冷技術(shù)是將服務(wù)器散熱所用的工質(zhì)從空氣更換為絕緣液體。與冷板式的風(fēng)液混合散熱系統(tǒng)相比,浸沒(méi)式液冷系統(tǒng)最大的優(yōu)勢(shì)就是系統(tǒng)簡(jiǎn)單,可靠性問(wèn)題并非重點(diǎn),所以浸沒(méi)式液冷技術(shù)受限的核心問(wèn)題是兼容性和成本。
圖3 單相浸沒(méi)式液冷散熱系統(tǒng)示意圖[4]
兼容性問(wèn)題不是指浸沒(méi)式液冷技術(shù)對(duì)應(yīng)的材料兼容性問(wèn)題,而是指服務(wù)器系統(tǒng)架構(gòu)兼容性問(wèn)題。從整個(gè)產(chǎn)業(yè)鏈來(lái)看,對(duì)于服務(wù)器設(shè)備供應(yīng)商而言,風(fēng)冷和冷板式服務(wù)器因?yàn)榧軜?gòu)兼容,可以實(shí)現(xiàn)平滑演進(jìn),冷板式液冷技術(shù)是服務(wù)器設(shè)備供應(yīng)商的必然選擇;而浸沒(méi)式服務(wù)器要對(duì)服務(wù)器系統(tǒng)架構(gòu)進(jìn)行重構(gòu),很難做到和風(fēng)冷散熱架構(gòu)的服務(wù)器實(shí)現(xiàn)歸一化,從而帶來(lái)服務(wù)器架構(gòu)兼容性問(wèn)題。
浸沒(méi)式液冷技術(shù)的成本主要體現(xiàn)在兩部分。第一部分是資本支出,服務(wù)器因兼容性問(wèn)題需要架構(gòu)重構(gòu)會(huì)導(dǎo)致成本增加,同時(shí)為適應(yīng)浸沒(méi)式液冷架構(gòu),機(jī)房、機(jī)柜需要進(jìn)行重構(gòu)或重新設(shè)計(jì),尤其是絕緣工質(zhì)帶來(lái)的成本,相比傳統(tǒng)風(fēng)冷數(shù)據(jù)中心會(huì)有明顯的增長(zhǎng);第二部分是運(yùn)營(yíng)支出,包含機(jī)械吊臂、運(yùn)維機(jī)器人、氟化液清潔、冷卻工質(zhì)的蒸發(fā)帶來(lái)的補(bǔ)液成本、工質(zhì)回收、環(huán)保問(wèn)題等。
從現(xiàn)有浸沒(méi)式液冷技術(shù)的使用案例來(lái)看,浸沒(méi)式液冷主要用于高性能計(jì)算、超算等對(duì)投入產(chǎn)出比不敏感的使用場(chǎng)景,在明確要求性價(jià)比的使用場(chǎng)景下,成本將是浸沒(méi)式液冷技術(shù)規(guī)模應(yīng)用的最大挑戰(zhàn)。
無(wú)源兩相散熱技術(shù)有兩個(gè)核心技術(shù)點(diǎn):相變傳熱和無(wú)源泵驅(qū)技術(shù)。相變傳熱主要是流體在發(fā)生相變的時(shí)候帶走的相變潛熱,所以對(duì)應(yīng)流體的總換熱量為Q總換熱量=Q潛熱+Q顯熱,相比無(wú)相變過(guò)程,換熱量更大,對(duì)流換熱系數(shù)更高(如圖4所示);無(wú)源泵驅(qū)技術(shù)是相對(duì)有源泵驅(qū)而言的,其最大的優(yōu)點(diǎn)是不需要額外耗能,具有成本低、可靠性高、體積小等優(yōu)點(diǎn)。在兩相散熱技術(shù)中,無(wú)源泵驅(qū)技術(shù)主要以重力、密度差、毛細(xì)力為主,其中毛細(xì)力是最常見(jiàn)的驅(qū)動(dòng)技術(shù)。
圖4 相變傳熱示意圖
目前,無(wú)源兩相傳熱技術(shù)主要包含熱管、均溫板、熱虹吸、環(huán)路熱管、脈動(dòng)熱管等,如表4所示。在目前服務(wù)器領(lǐng)域中,以熱管和均溫板應(yīng)用最為廣泛,熱虹吸技術(shù)和環(huán)路熱管有初步探索,但是沒(méi)有規(guī)模落地使用,脈動(dòng)熱管因?yàn)榧夹g(shù)特點(diǎn),目前成熟度較低,屬于N+2代次技術(shù),短時(shí)間內(nèi)落地的可能性較小,所以本文主要針對(duì)N代次和N+1代次的技術(shù)做介紹,對(duì)脈動(dòng)熱管技術(shù)不做詳述。
表4 服務(wù)器可用無(wú)源兩相散熱技術(shù)匯總表[5]
熱管是當(dāng)前服務(wù)器領(lǐng)域使用最廣泛的兩相傳熱技術(shù),主要分為絲網(wǎng)型、燒結(jié)型、溝槽型和復(fù)合型[4]。目前服務(wù)器領(lǐng)域最常用的熱管為銅水燒結(jié)型和“燒結(jié)+溝槽”組合型熱管,這類熱管技術(shù)成熟,優(yōu)點(diǎn)很多,但缺點(diǎn)也非常顯著,就是軸向傳熱能力有限,即使通過(guò)“燒結(jié)+溝槽”組合式進(jìn)行改善,改進(jìn)幅度也非常有限。
銅水燒結(jié)型熱管的傳熱能力主要受到蒸汽極限和毛細(xì)芯極限的影響,根據(jù)廠家的數(shù)據(jù)統(tǒng)計(jì),當(dāng)熱管管徑達(dá)到8 mm以上(打扁厚度4 mm以上),毛細(xì)芯極限是影響熱管傳熱能力的主要因素。燒結(jié)型熱管的毛細(xì)力來(lái)源于金屬粉末高溫?zé)Y(jié)形成的多孔介質(zhì),毛細(xì)力可以通過(guò)Young-Laplace方程計(jì)算,毛細(xì)芯阻力通過(guò)達(dá)西定律(Darcy’s law)計(jì)算,當(dāng)前燒結(jié)所用的金屬粉末的直徑在毛細(xì)力和回液阻力的影響上是相互制約的,最終限制了燒結(jié)型熱管的傳熱能力[6-7]。
對(duì)于燒結(jié)熱管傳熱量有限的問(wèn)題,理論上具備更高傳熱能力的溝槽熱管技術(shù)也被重新審視,同時(shí)具備易加工、成本低的特點(diǎn),是解決當(dāng)下燒結(jié)型熱管傳熱量不足的一個(gè)極具前景的技術(shù)路徑。
均溫板(Vapor Chambers, VC)的整體原理與熱管基本相同。與熱管不同的是,VC由一維熱傳導(dǎo)升級(jí)為二維平面?zhèn)鳠?具備更高的熱流密度,一般支持的熱流密度高于60 W/cm2,特殊設(shè)計(jì)可以高達(dá)750 W/cm2的水平[2]。實(shí)際場(chǎng)景中均溫板主要分為兩類:第一類是以毛細(xì)力作為動(dòng)力,以銅水燒結(jié)型和絲網(wǎng)型為主;第二類是以重力作為動(dòng)力,以使用制冷劑的吹脹板為主。近年來(lái),隨著對(duì)散熱器高度方向的散熱能力需求的提升,散熱器的相變傳熱技術(shù)從二維升級(jí)為三維,3D均溫板(3D Vapor Chambers,3DVC)技術(shù)也逐步出現(xiàn)工程應(yīng)用,常見(jiàn)的3DVC技術(shù)主要有3個(gè)技術(shù)路徑,對(duì)應(yīng)的技術(shù)方案如表5所示。
表5 3DVC散熱技術(shù)方案對(duì)比
VC技術(shù)本身應(yīng)用范圍廣泛,在CPU和GPU算力場(chǎng)景均可應(yīng)用,但是在Intel和AMD的服務(wù)器芯片應(yīng)用較少,主要受限于VC的最大工作溫度和剛度。
技術(shù)難點(diǎn)一是VC的工作溫度問(wèn)題。燒結(jié)型VC的工作溫度一般低于110 ℃[8],現(xiàn)有VC的設(shè)計(jì)是上下兩個(gè)0.5 mm厚度的銅片,內(nèi)部空腔配合支撐柱和銅粉燒結(jié)而成,溫度超過(guò)110 ℃以后,蒸汽腔內(nèi)的壓力增大至高于大氣壓,導(dǎo)致VC出現(xiàn)變形。當(dāng)前的優(yōu)化技術(shù)主要是擴(kuò)散焊接和一體式VC技術(shù),可以將最大工作溫度提升至140 ℃。
技術(shù)難點(diǎn)二是VC的剛度問(wèn)題。Intel和AMD服務(wù)器芯片為了兼容多個(gè)型號(hào),芯片與主板互聯(lián)采用的是LGA封裝,與常見(jiàn)的球柵陣列(Ball Grid Array,BGA)封裝形式相比,LGA隨著觸點(diǎn)越來(lái)越多,對(duì)芯片的安裝壓力要求也越來(lái)越大。VC想要滿足LGA封裝未來(lái)的剛度要求會(huì)面臨非常大的挑戰(zhàn),目前業(yè)界解決此問(wèn)題的主要路徑有兩個(gè)。路徑1是VC的外殼使用黃銅合金、不銹鋼等更高剛度的材質(zhì);路徑2是在VC外圍增加結(jié)構(gòu)件進(jìn)行強(qiáng)度加強(qiáng),比如增加不銹鋼支撐件等。
熱虹吸熱管一般沒(méi)有毛細(xì)芯,依靠重力實(shí)現(xiàn)循環(huán),比較適合長(zhǎng)距離傳熱場(chǎng)景,在無(wú)逆重力的使用場(chǎng)景中,有一定的技術(shù)優(yōu)勢(shì)。國(guó)內(nèi)的互聯(lián)網(wǎng)廠商曾經(jīng)聯(lián)合相關(guān)散熱器廠家對(duì)此技術(shù)進(jìn)行過(guò)研究,但是因?qū)嶋H使用效果收益有限,所以目前未實(shí)現(xiàn)規(guī)模化應(yīng)用。熱虹吸散熱器實(shí)際使用中主要存在四個(gè)問(wèn)題。問(wèn)題一是散熱器需要有一定的安裝角度,冷凝器在上,熱源在下;問(wèn)題二是溫度范圍要求,存在溫度極限,低溫可能會(huì)出現(xiàn)凍結(jié),高溫可能會(huì)全部氣化,和使用工質(zhì)有關(guān);問(wèn)題三是需要大溫差啟動(dòng)沸騰,容易出現(xiàn)氣液混合導(dǎo)致啟動(dòng)不良,也是限制使用的核心問(wèn)題;問(wèn)題四是熱量導(dǎo)出以后的集中式散熱器的散熱面積要比較大,對(duì)于服務(wù)器的空間和尺寸有要求。
對(duì)于熱虹吸技術(shù)的問(wèn)題,技術(shù)優(yōu)化主要集中在沸騰啟動(dòng)的強(qiáng)化和驅(qū)動(dòng)力的增強(qiáng)等方面。其中毛細(xì)力的輔助增加會(huì)有效改善散熱特性,比如在蒸發(fā)段增加燒結(jié)芯,可以提高散熱性能,同時(shí)降低充液量,減少因凍結(jié)而導(dǎo)致的結(jié)構(gòu)損壞風(fēng)險(xiǎn)等。
環(huán)路熱管技術(shù)(Loop Heat Pipe,LHP)是目前來(lái)看最為均衡的無(wú)源兩相散熱技術(shù),熱性能對(duì)標(biāo)液冷技術(shù),兼顧燒結(jié)型熱管和冷板式液冷技術(shù)的優(yōu)點(diǎn),同時(shí)又解決了燒結(jié)型熱管和冷板式液冷技術(shù)的缺點(diǎn)。環(huán)路熱管有效解決了燒結(jié)型熱管存在的三個(gè)主要問(wèn)題,即傳熱能力有限、傳輸距離有限和受重力影響大的問(wèn)題。環(huán)路熱管相比燒結(jié)型熱管主要對(duì)毛細(xì)泵和管道進(jìn)行了設(shè)計(jì)優(yōu)化,毛細(xì)泵的優(yōu)化措施是將毛細(xì)芯和管道分離,僅在蒸發(fā)器處有毛細(xì)芯,毛細(xì)芯的尺寸不受管道直徑限制,毛細(xì)芯的泵壓比熱管至少高一個(gè)數(shù)量級(jí);管道的優(yōu)化措施是將汽液管道分離,蒸汽和液體各自在光滑管道中流動(dòng),有效降低沿程阻力損失[5]。
環(huán)路熱管可以有效解決液冷技術(shù)面臨的可靠性、兼容性和成本難題。以智算算力為例,采用如圖5所示的技術(shù)方案,可以通過(guò)環(huán)路熱管技術(shù)將多顆GPU芯片的功耗傳遞到專用的集中式水冷散熱器或者集中式風(fēng)冷散熱器,芯片熱量搬運(yùn)路徑由水管更換為環(huán)路熱管,可以有效規(guī)避液體上板帶來(lái)的泄露導(dǎo)電風(fēng)險(xiǎn),同時(shí)通過(guò)集中式散熱器的設(shè)計(jì)實(shí)現(xiàn)服務(wù)器可風(fēng)可液的兼容性設(shè)計(jì),解決液冷技術(shù)面臨的可靠性、兼容性、成本等限制難題。
圖5 GPU服務(wù)器環(huán)路熱管散熱方案示意圖(側(cè)視圖)
環(huán)路熱管的GPU散熱解決方案的優(yōu)點(diǎn)可以概括為“四高一低”。高性能:性能與冷板式液冷相當(dāng);高可靠性:液體不上單板,配合水冷器的無(wú)漏液加工工藝,基本杜絕漏液風(fēng)險(xiǎn),液冷方案的可靠性與風(fēng)冷方案相當(dāng);高通用性:無(wú)微通道的冷板設(shè)計(jì),集中式專用水冷器對(duì)工質(zhì)循環(huán)系統(tǒng)在導(dǎo)電率、過(guò)濾凈化等方面的要求大幅度降低,顯著提高通用性;高兼容性:達(dá)成AI服務(wù)器可風(fēng)可液的兼容設(shè)計(jì),對(duì)于機(jī)房的設(shè)計(jì)更加友好和彈性;低成本:系統(tǒng)散熱成本低,據(jù)合作方的新方案估計(jì),單系統(tǒng)散熱模組成本約為冷板式液冷方案的50%。
環(huán)路熱管技術(shù)不管在學(xué)術(shù)界還是工程界,目前仍屬于散熱領(lǐng)域的前沿技術(shù),呈現(xiàn)“會(huì)做的少,用的更少”的特點(diǎn)?!皶?huì)做的少”主要體現(xiàn)在:目前環(huán)路熱管的工程化能力主要掌握在歐盟、美國(guó)、俄羅斯和中國(guó)手中,其他國(guó)家和地區(qū)主要以學(xué)術(shù)科研為主?!坝玫母佟敝饕w現(xiàn)在:當(dāng)前環(huán)路熱管技術(shù)的使用場(chǎng)景以宇航領(lǐng)域的航天器為主,手機(jī)產(chǎn)品上有少量使用,服務(wù)器產(chǎn)品上規(guī)模應(yīng)用的案例非常少。近年來(lái),隨著我國(guó)對(duì)空間站、探月等空間技術(shù)的持續(xù)投入,我國(guó)的環(huán)路熱管技術(shù)發(fā)展迅速,已達(dá)到國(guó)際先進(jìn)水平。借助環(huán)路熱管在航天領(lǐng)域的多年成熟應(yīng)用,結(jié)合國(guó)內(nèi)服務(wù)器市場(chǎng)規(guī)模和供應(yīng)鏈優(yōu)勢(shì),未來(lái)非常有希望在服務(wù)器領(lǐng)域?qū)崿F(xiàn)規(guī)模商用,有效解決芯片散熱難題。
多樣化算力快速發(fā)展,算力芯片性能迭代速度加快,芯片功耗問(wèn)題成為服務(wù)器散熱的主要挑戰(zhàn),解決方案總體上可分為兩個(gè)路線。路線一是以冷板式和浸沒(méi)式為代表的液冷技術(shù)路線,是目前業(yè)界使用的重點(diǎn),液冷技術(shù)具備性能高、技術(shù)門檻低的特點(diǎn),但是在可靠性、兼容性和成本等方面的難題極大地限制了液冷技術(shù)的大規(guī)模商用;路線二是無(wú)源兩相散熱技術(shù)的深入研究,包含對(duì)熱管、VC等現(xiàn)有兩相散熱技術(shù)的優(yōu)化提升,以及對(duì)環(huán)路熱管為代表的高性能兩相散熱技術(shù)的探索,特別是環(huán)路熱管在解決高功耗芯片方面的獨(dú)特技術(shù)優(yōu)勢(shì),可以有效解決液冷技術(shù)面臨的可靠性、兼容性和成本難題,具備非常良好的技術(shù)應(yīng)用前景??傮w上看,服務(wù)器散熱難題仍然有足夠的應(yīng)對(duì)手段,兩個(gè)技術(shù)路線各有利弊,可根據(jù)實(shí)際使用場(chǎng)景和需求靈活選用。多樣算力下的服務(wù)器散熱問(wèn)題已經(jīng)從單一層級(jí)問(wèn)題演變?yōu)橄到y(tǒng)性問(wèn)題,單獨(dú)依靠服務(wù)器設(shè)備供應(yīng)商已經(jīng)很難解決,需要產(chǎn)業(yè)鏈上下游打破隔閡,開(kāi)展更為廣泛的跨層級(jí)合作和協(xié)同,共同探索出更為均衡的解決方案。