林湧雙,丘文博
(中國移動(dòng)通信集團(tuán)南方基地 廣州510640)
IDC(internet data center,互聯(lián)網(wǎng)數(shù)據(jù)中心)作為互聯(lián)網(wǎng)的信息處理中樞,是信息社會(huì)和大數(shù)據(jù)時(shí)代不可或缺的基礎(chǔ)性公眾設(shè)施。當(dāng)前,隨著移動(dòng)互聯(lián)、電子商務(wù)、云計(jì)算與云存儲(chǔ)等互聯(lián)網(wǎng)業(yè)務(wù)的廣泛興起,IDC需求量激增,全球范圍內(nèi)掀起了大規(guī)模建設(shè)IDC的浪潮,并且新建的IDC也越來越趨于大型化。然而,由于傳統(tǒng)模式的IDC在節(jié)能方面考慮不周,其需要消耗巨量的電力,這嚴(yán)峻地考驗(yàn)著各地區(qū)的能源供給能力。據(jù)估計(jì),到2015年,我國的IDC年均消耗電量將達(dá)到1000億千瓦時(shí),等同于三峽電站的年發(fā)電量[1]。因此,革新IDC設(shè)計(jì)模式、降低IDC能耗和運(yùn)營成本,已經(jīng)成為數(shù)據(jù)中心業(yè)界一個(gè)相當(dāng)現(xiàn)實(shí)和迫切的課題[2,3]。
在傳統(tǒng)模式的IDC中,致冷系統(tǒng)(由冷水機(jī)組、精密空調(diào)、水泵、風(fēng)機(jī)、冷卻塔等組成)(筆者注:此為“致冷”非“制冷”,為表明本文所提新方案中CPU散熱采用自然冷源而非冷水制備,以示差異)消耗了一半左右的能量[4],是最耗費(fèi)能量的輔助系統(tǒng)。為了減少其能耗,業(yè)內(nèi)研究團(tuán)隊(duì)一直嘗試的突破方向有兩種:一種是將供冷的顆粒度不斷細(xì)化,從傳統(tǒng)的“房間級(jí)致冷”轉(zhuǎn)換到“行級(jí)致冷”乃至“機(jī)柜級(jí)致冷”[5],其基本技術(shù)思路均在于如何提升供冷精確度、隔離冷熱通道、減少冷量泄漏進(jìn)而減少浪費(fèi);另一種是引入自然冷源,機(jī)房內(nèi)外的冷熱空氣在轉(zhuǎn)輪或熱管的作用下隔離傳遞冷量,甚至將機(jī)房外的冷空氣清潔后直接對(duì)服務(wù)器進(jìn)行致冷。然而,這兩種方向均屬于“非接觸式”單一通道致冷模式,改變不了空氣換熱能力差、致冷通道熱阻高、致冷系統(tǒng)工作溫度低的缺陷,前者擺脫不了壓縮機(jī),后者適用的區(qū)域及時(shí)間段少,故而節(jié)能效果有限。
本文從傳熱學(xué)的傅里葉定律出發(fā),基于服務(wù)器內(nèi)部的集中式熱源和分散式熱源(具體定義見第3.2節(jié))的不同特性,首次提出了由“接觸式”和“非接觸式”兩個(gè)具有顯著熱阻差異的通道組成的“雙通道”數(shù)據(jù)中心致冷模式。其中,“接觸式”致冷通道針對(duì)CPU建立了“熱管水冷模塊+冷卻塔”的高效直排式致冷通道,全程去除壓縮機(jī),可充分利用自然冷源。同時(shí),通過研制“熱管水冷服務(wù)器”樣機(jī)并開展系統(tǒng)測試工作,初步驗(yàn)證了“雙通道”致冷模式的可行性、可靠性和經(jīng)濟(jì)性,同時(shí)得出了“可利用自然冷源對(duì)服務(wù)器CPU進(jìn)行‘接觸式’致冷”的關(guān)鍵結(jié)論。
對(duì)于傳統(tǒng)的“非接觸式”單一通道致冷模式,其基本原理可以由圖1表示。
這些類型致冷模式的不足之處如下。
(1)服務(wù)器端散熱效率低
由于空氣比熱容小、換熱能力差,所以IDC機(jī)房內(nèi)需要使用大量的空氣來完成服務(wù)器端的散熱;在開放式送風(fēng)的條件下,需要配置大功率風(fēng)機(jī)和風(fēng)扇來驅(qū)動(dòng)空氣快速循環(huán)。
(2)要求較低的環(huán)境溫度
圖1(a)代表的系統(tǒng)中,由于要求機(jī)房內(nèi)的環(huán)境溫度保持在22℃左右(若提高環(huán)境溫度,則風(fēng)機(jī)和風(fēng)扇需要消耗更多能量以輸出足夠風(fēng)量),需要使用7℃的中溫冷凍水來冷卻循環(huán)空氣,所以IDC機(jī)房需配置中溫冷水機(jī)組,其中的壓縮機(jī)處于深度壓縮循環(huán)狀態(tài),從而需要消耗大量的能量。
(3)存在“熱島”現(xiàn)象
服務(wù)器內(nèi)部發(fā)熱不均勻、CPU發(fā)熱密度高,造成局部區(qū)域供冷不足,在高負(fù)載率條件下CPU溫度甚至可能高至引發(fā)系統(tǒng)癱瘓。同時(shí),若長期處于高溫工作狀態(tài),將降低CPU乃至服務(wù)器整機(jī)的性能和壽命(業(yè)內(nèi)經(jīng)驗(yàn)認(rèn)為每提高10℃的溫度將導(dǎo)致服務(wù)器壽命減少一半)。
(4)適用范圍窄和附屬系統(tǒng)體積龐大
圖1(b)代表的系統(tǒng)中,其正常運(yùn)行所需要的條件是大氣溫度為20℃以下,這決定了其只適用較少的區(qū)域和時(shí)間段。同時(shí),由于利用空氣作為機(jī)房內(nèi)外的傳熱介質(zhì),要求IDC配備大體積的管道、轉(zhuǎn)輪、熱管系統(tǒng)和除酸、除塵等附屬設(shè)施,機(jī)房面積利用率低。
數(shù)據(jù)中心的致冷過程遵循傳熱學(xué)基本原理。由傅里葉定律可知[6],一維宏觀條件下熱流與溫差、熱阻的關(guān)系為:
即:若熱通道的熱阻為R(單位為℃/W),為了排走熱流Q(單位為W),則熱通道兩端須加以ΔT(單位為℃)的溫差。在數(shù)據(jù)中心致冷系統(tǒng)中,要么提高致冷通道溫差(一般是降低系統(tǒng)工作溫度),要么降低致冷通道的熱阻,才能高效地排出熱流。
不同換熱方式的熱阻具有數(shù)量級(jí)的差別。在同樣的換熱面積條件下,假設(shè)“空氣—固體”之間的換熱熱阻為歸一量“1”,則“水—固體”之間的換熱熱阻可低至0.01,“固體—固體”之間的接觸換熱熱阻可低至0.001[7],而“水相變—固體”之間的換熱熱阻可更進(jìn)一步低至0.001~0.000 1??梢?,在數(shù)據(jù)中心致冷系統(tǒng)設(shè)計(jì)中,從提高致冷效率的角度考慮,采用傳統(tǒng)的空氣導(dǎo)熱方式進(jìn)行致冷是不經(jīng)濟(jì)的。
圖1 “非接觸式”致冷模式的兩種原理
需要指出的是,上述熱阻R與流體(空氣、水等)的流速有著密切的關(guān)系:流體的流速越高,則流體內(nèi)部就能夠越快地形成均溫,越有利于將熱端的熱流高效地吸收過來,進(jìn)而宏觀表現(xiàn)為熱阻越低。然而,由于驅(qū)動(dòng)流體流動(dòng)需要消耗電機(jī)能量,故數(shù)據(jù)中心也不能無限提高流體的流速。
服務(wù)器是數(shù)據(jù)中心的核心負(fù)載和業(yè)務(wù)樞紐,同時(shí)也是數(shù)據(jù)中心的主要熱量散發(fā)源。在服務(wù)器內(nèi)部,可將所有發(fā)熱源劃分為兩類。
·集中式熱源,指CPU,其特點(diǎn)是熱流密度高,發(fā)熱量大,占服務(wù)器發(fā)熱量的65%左右。
·分布式熱源,指除CPU以外的服務(wù)器組件,其特點(diǎn)是熱流密度低,發(fā)熱量占服務(wù)器發(fā)熱量的35%左右。
對(duì)于這兩類熱源,傳統(tǒng)的“非接觸式”單一通道致冷模式未能區(qū)別對(duì)待,而是統(tǒng)一使用冷空氣來將發(fā)熱量帶走,導(dǎo)致了對(duì)機(jī)房環(huán)境溫度要求苛刻并且效率低下:對(duì)于集中式熱源,由于發(fā)熱量大并且“空氣—芯片”換熱模式熱阻大,空氣與芯片之間需要建立巨大的溫差(溫差為30℃~50℃,一般環(huán)境溫度為22℃左右)以維持服務(wù)器的有效散熱和正常工作。
針對(duì)集中式熱源,建立“接觸式”高效致冷通道,采用“熱管水冷模塊”直接將熱量導(dǎo)出至循環(huán)水流中,其原理如圖2所示。
在圖2中,集中式熱源的發(fā)熱量就在由“芯片→熱管水冷模塊→水流”組成的“接觸式”致冷通道中高效地傳輸。其中,熱管是當(dāng)前廣泛應(yīng)用于導(dǎo)熱、均溫等場景的功能部件,其依靠內(nèi)部液體相變導(dǎo)熱,導(dǎo)熱能力非常高[8]。由于“接觸式”致冷通道全程棄用空氣介質(zhì),僅有“水—固體”、“固體—固體”和“水相變—固體”等換熱方式,整體熱阻比單一“非接觸式”致冷通道可低2個(gè)數(shù)量級(jí),故而芯片與循環(huán)水流之間只需較小溫差即可傳導(dǎo)較大的熱流量。
圖2 利用“熱管水冷模塊”帶走集中式熱源的發(fā)熱量
從原理上講,服務(wù)器的致冷可以采用單一的“接觸式”模式,以實(shí)現(xiàn)完全的低熱阻、高效致冷通道。但由于服務(wù)器的布局限制、元器件的尺寸限制等原因,采用單一的“接觸式”致冷模式工藝復(fù)雜、成本過高,因此本文提出“雙通道”致冷模式。
“雙通道”致冷模式區(qū)別對(duì)待服務(wù)器內(nèi)部的兩類發(fā)熱源,在IDC致冷系統(tǒng)的設(shè)計(jì)中安排了兩個(gè)對(duì)應(yīng)的致冷通道,其邏輯如圖3所示。
圖3 “雙通道”致冷模式邏輯示意
(1)“接觸式”致冷通道
利用“熱管水冷模塊+冷卻塔”的方式直接排出集中式熱源發(fā)熱量,全程只有少量水泵和冷卻塔等能耗設(shè)備。由于集中式熱源一般可承受較高的工作溫度(CPU的安全工作溫度上限為80℃),同時(shí)“接觸式”致冷通道全程熱阻低,故而該通道中的循環(huán)水可以工作在較高溫度,并可采用冷卻塔直排的方式進(jìn)行散熱,可去掉壓縮機(jī)和風(fēng)機(jī)能耗。另外,由于“接觸式”致冷通道處理了服務(wù)器65%的發(fā)熱量,這決定了采用“雙通道”模式的致冷系統(tǒng)整體上具有較高的能效比。
(2)“非接觸式”致冷通道
利用傳統(tǒng)空氣冷卻的方式排出分散式熱源發(fā)熱量。由于集中式熱源的發(fā)熱量被高效導(dǎo)出,服務(wù)器的“CPU熱島問題”被消除,故而服務(wù)器對(duì)入風(fēng)溫度的要求大大放寬,進(jìn)而可以提高機(jī)房的環(huán)境溫度至30℃左右。在這個(gè)條件下,“非接觸式”致冷通道可以采用高溫冷凍水機(jī)組對(duì)機(jī)房循環(huán)空氣進(jìn)行致冷,進(jìn)而達(dá)到更高的能效比(高溫冷水機(jī)組能效比高達(dá)10)。
“雙通道”致冷模式可為數(shù)據(jù)中心的節(jié)能效果、機(jī)房利用率和服務(wù)器性能等方面帶來豐富效益。
3.5.1 節(jié)能效果
傳統(tǒng)方式中,所有的熱量均需要使用冷水機(jī)組來冷卻,并且必須采用能效比為6的中溫冷水機(jī)組,則其功耗為100%/6;采用“雙通道”致冷模式之后,僅有35%的熱量(來自“非接觸式”致冷通道)需要使用冷水機(jī)組來搬運(yùn),且可以采用能效比為10的高溫冷水機(jī)組,則冷水機(jī)組能耗降低占傳統(tǒng)方式的比例為:
至于水泵、風(fēng)機(jī)等設(shè)備,也會(huì)有能耗上的節(jié)省;但由于這部分設(shè)備功耗的占比相對(duì)較小,計(jì)算時(shí)可忽略,不在本文呈現(xiàn)。根據(jù)研究分析,致冷系統(tǒng)整體能耗可降低至傳統(tǒng)方式的1/5左右。
3.5.2 機(jī)房利用率
由于解決了服務(wù)器內(nèi)部的CPU熱島問題,僅剩35%的熱量需要通過“非接觸式”致冷通道帶走,使得高功率密度機(jī)架成為可能,在同等條件下可以將服務(wù)器單機(jī)架功率密度提升至10 kW。
3.5.3 服務(wù)器性能
由于“接觸式”致冷通道的熱阻低、通道溫差小,一般情況下服務(wù)器CPU的溫度可比傳統(tǒng)模式低10℃~20℃(根據(jù)測試結(jié)果,新方案與傳統(tǒng)方案在100%負(fù)載率的條件下的CPU溫度差可達(dá)20℃以上,詳見表1)。由于電子元器件的壽命與工作溫度負(fù)相關(guān)[9],則采用“雙通道”致冷模式可使服務(wù)器整機(jī)性能獲得提升,并能降低故障率、提高可靠性、提高壽命。
通過以上分析可知,要驗(yàn)證“雙通道”致冷模式的可行性和經(jīng)濟(jì)性,其重要前提是在服務(wù)器上進(jìn)行“熱管水冷”定制化改造,即研制“熱管水冷服務(wù)器”。為此,本節(jié)介紹中國移動(dòng)通信集團(tuán)南方基地(以下簡稱中國移動(dòng)南方基地)的相關(guān)研發(fā)、測試工作進(jìn)展。
自2012年10月起,中國移動(dòng)南方基地啟動(dòng)了數(shù)據(jù)中心“雙通道”致冷模式的理論論證工作,并聯(lián)合曙光信息產(chǎn)業(yè)股份有限公司(以下簡稱曙光)、華為技術(shù)有限公司(以下簡稱華為)、廣東新創(chuàng)意科技有限公司、華南理工大學(xué)等國內(nèi)知名企業(yè)和院所組建研發(fā)團(tuán)隊(duì),實(shí)施了“熱管水冷服務(wù)器”的樣機(jī)研制工作,取得了核心技術(shù)突破。
2013年11月,中國移動(dòng)南方基地完成“熱管水冷服務(wù)器”的樣機(jī)研制工作,分為以下兩類。
·曙光x86服務(wù)器:每臺(tái)服務(wù)器雙CPU,每個(gè)CPU的TDP(thermal design power,散熱設(shè)計(jì)功耗)為130 W。
·華為x86服務(wù)器:每臺(tái)服務(wù)器雙CPU,每個(gè)CPU的TDP為135 W。
同時(shí),本項(xiàng)工作建立了完善的配套軟件、硬件測試平臺(tái)系統(tǒng),可對(duì)環(huán)境參數(shù)、服務(wù)器運(yùn)行參數(shù)、循環(huán)水系統(tǒng)參數(shù)等進(jìn)行調(diào)節(jié),實(shí)現(xiàn)全方位的驗(yàn)證性測試。
圖4為“熱管水冷服務(wù)器”實(shí)物。
需要指出的是,為了確保測量準(zhǔn)確性,在本測試平臺(tái)中,對(duì)于溫度的測量均采用外接傳感器的方式,而不是采用服務(wù)器管理口讀數(shù)的方式。
為了驗(yàn)證“雙通道”致冷模式的可行性,本文分別調(diào)整測試平臺(tái)的環(huán)境溫度、入水溫度、水流量等參數(shù),開展了大量的試驗(yàn)。表1為環(huán)境溫度30℃、CPU負(fù)載率100%的條件下,各服務(wù)器的CPU溫度的測試值。
圖4 “熱管水冷服務(wù)器”實(shí)物
表1 水流參數(shù)變化情況下的CPU溫度(環(huán)境溫度30℃)
從表1中可以看出:CPU與冷卻水入水之間的溫差為14℃~18℃。并且,從表1中可看到的一個(gè)重要結(jié)論為:在環(huán)境溫度30℃、水流量0.5 L/min的條件下,即使采用45℃的水流作為冷卻水,仍能保證CPU溫度控制在60℃左右的安全溫度上。由于在全球絕大多數(shù)地區(qū)、絕大多數(shù)時(shí)段均能夠輕易獲取45℃的水流,故而本方案具有高度普適性。
另外,考慮到實(shí)際服務(wù)器在絕大多數(shù)情況下運(yùn)行于部分負(fù)荷狀態(tài),本文組織測試了不同CPU負(fù)載率下“熱管水冷服務(wù)器”的性能表現(xiàn)。實(shí)驗(yàn)中,本文使用SPECpower軟件,由其中兩臺(tái)服務(wù)器為另外兩臺(tái)進(jìn)行負(fù)載加壓,CPU負(fù)載率設(shè)置為5%、33%、50%、75%、100%,每個(gè)負(fù)載率水平上分別運(yùn)行30 min,所得測試曲線如圖5所示(環(huán)境溫度30℃、水溫45℃、水流量0.5 L/min)。
由圖5可見,在部分負(fù)載率條件下,“熱管水冷服務(wù)器”能進(jìn)一步降低CPU的工作溫度。故而,可以根據(jù)業(yè)務(wù)負(fù)載率動(dòng)態(tài)地調(diào)節(jié)各服務(wù)器的供水量,實(shí)現(xiàn)更高精度的按需供冷,以進(jìn)一步減少致冷系統(tǒng)能耗。
由于“雙通道”致冷模式能夠利用自然冷源對(duì)服務(wù)器CPU進(jìn)行“接觸式”致冷,故而其在全球絕大多數(shù)地區(qū)、絕大多數(shù)時(shí)段具有高度普適性,能大幅降低全球IDC的能耗。同時(shí),由于“雙通道”致冷模式的工藝實(shí)現(xiàn)較簡單,再加上“熱管水冷模塊”具有安全可靠、投資少的優(yōu)點(diǎn),可以預(yù)見,“雙通道”致冷模式未來極有可能成為數(shù)據(jù)中心致冷系統(tǒng)節(jié)能設(shè)計(jì)的主流技術(shù)。
本團(tuán)隊(duì)在“雙通道”致冷模式的研究上取得了關(guān)鍵的突破,完成了核心系統(tǒng)環(huán)節(jié)的驗(yàn)證工作。下一步,要推動(dòng)“雙通道”致冷模式的產(chǎn)品化工作,需要解決諸如服務(wù)器內(nèi)部工藝調(diào)整、整機(jī)柜集成、致冷管路設(shè)計(jì)等問題,同時(shí)需要研究致冷管路泄漏防控、運(yùn)行變量監(jiān)控、運(yùn)維管理模式等后期維護(hù)的可管、可控問題;另外,面向大規(guī)模應(yīng)用還需要解決建設(shè)、運(yùn)營的標(biāo)準(zhǔn)問題。故而,“雙通道”致冷模式的研究需要產(chǎn)業(yè)界共同努力去推動(dòng),才能最終成為一個(gè)實(shí)用化的數(shù)據(jù)中心節(jié)能致冷解決方案。
圖5 部分負(fù)載率條件下曙光、華為定制化服務(wù)器的性能表現(xiàn)
1 周伏秋,谷立靜,孟輝.數(shù)據(jù)中心節(jié)能和優(yōu)化布局研究.電力需求管理,2011(13)
2 趙鋒.數(shù)據(jù)中心節(jié)能減排技術(shù).電信網(wǎng)技術(shù),2011(1)
3 成彬,王濤,武紅光等.中國電信數(shù)據(jù)中心節(jié)能減排的策略及其應(yīng)用.節(jié)能,2012(1)
4 錢曉棟,李震.數(shù)據(jù)中心空調(diào)系統(tǒng)節(jié)能研究.暖通空調(diào),2012(3)
5 Dunlap K,Rasmussen N.數(shù)據(jù)中心行級(jí)和機(jī)柜級(jí)致冷架構(gòu)的優(yōu)勢.施耐德電氣白皮書 第130號(hào)
6 楊世銘,陶文銓.傳熱學(xué).北京:高等教育出版社,2006
7 朱德才.固體界面接觸換熱系數(shù)的實(shí)驗(yàn)研究.大連理工大學(xué)碩士學(xué)位論文,2007
8 Dunn P D,Reay D A.熱管.周海云譯.北京:國防工業(yè)出版社,1982
9 劉婧,呂長治,李志國等.電子元器件加速壽命試驗(yàn)方法的比較.半導(dǎo)體技術(shù),2006(9)