劉 清
(中國(guó)移動(dòng)通信集團(tuán)山西分公司,山西 太原045000)
近年來(lái),隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)中心的建設(shè)規(guī)模進(jìn)入了快速增長(zhǎng)期,平均每年保持20%以上的增長(zhǎng)[1]?!霸朴?jì)算”、“云服務(wù)”的提出,更是進(jìn)一步提高了互聯(lián)網(wǎng)企業(yè)對(duì)數(shù)據(jù)中心的投資力度?!霸朴?jì)算”的提出,刀片服務(wù)器的使用,改變了傳統(tǒng)數(shù)據(jù)中心模式,呈現(xiàn)虛擬化、共享化的特征。數(shù)據(jù)中心IT設(shè)備向著小型化、高發(fā)熱密度方向發(fā)展,高密度的設(shè)備(例如刀片服務(wù)器)服務(wù)企業(yè)數(shù)據(jù)中心,在未來(lái)的年復(fù)合增長(zhǎng)率將達(dá)到7.1%[2]。
“云”會(huì)替我們做存儲(chǔ)和計(jì)算的工作,刀片式服務(wù)器與虛擬化的結(jié)合正在迅速發(fā)展。而高功率密度機(jī)架服務(wù)器、刀片服務(wù)器等高熱密度設(shè)備的應(yīng)用,造成機(jī)房的單個(gè)機(jī)柜功耗不斷提高,單位面積熱量急劇上升,高發(fā)熱密度機(jī)房的散熱問(wèn)題日益突出。
高發(fā)熱密度機(jī)房最突出的問(wèn)題是局部熱點(diǎn),目前解決高發(fā)熱密度機(jī)房局部熱點(diǎn)問(wèn)題常用的解決方案有列間空調(diào)、吊頂式空調(diào)、熱管制冷背板等。列間空調(diào)需要改變現(xiàn)有機(jī)柜布局,吊頂式空調(diào)易產(chǎn)生冷凝水。熱管制冷背板既不需要改變現(xiàn)有機(jī)柜的布局情況,也不會(huì)產(chǎn)生冷凝水,是解決局部熱點(diǎn)問(wèn)題的首選解決方案。本文將探討熱管制冷背板系統(tǒng)在數(shù)據(jù)機(jī)房中應(yīng)用的運(yùn)行安全性問(wèn)題。
該項(xiàng)目位于中國(guó)移動(dòng)通信集團(tuán)公司的樞紐樓,機(jī)房現(xiàn)有全部空調(diào)均全負(fù)荷運(yùn)行,沒(méi)有冷量冗余。經(jīng)現(xiàn)場(chǎng)測(cè)定回風(fēng)溫度,IBM的P系列小型機(jī)出風(fēng)溫度明顯高于其他機(jī)組,且超出或接近IBM廠家規(guī)定的溫度,已達(dá)臨界。局部過(guò)熱時(shí)間過(guò)長(zhǎng),服務(wù)器甚至可能會(huì)出現(xiàn)宕機(jī),這將會(huì)導(dǎo)致計(jì)費(fèi)系統(tǒng)的嚴(yán)重事故。
針對(duì)上述問(wèn)題,該項(xiàng)目選取了機(jī)房中局部過(guò)熱較為嚴(yán)重的功率較大的機(jī)架使用熱管制冷背板冷卻系統(tǒng),平均每個(gè)機(jī)架的發(fā)熱量在7 kW左右。熱管制冷背板系統(tǒng)流程圖如圖1所示,熱管制冷背板安裝位置如圖2所示(數(shù)字框)。
圖1 熱管制冷背板系統(tǒng)流程圖
圖2 熱管制冷背板安裝位置平面圖(數(shù)字框)
選取10#機(jī)柜做代表性測(cè)試,模擬風(fēng)機(jī)故障時(shí)機(jī)柜溫度的變化。
使用“溫度自記儀”(如圖3所示)測(cè)量機(jī)柜內(nèi)不同位置的溫度,找出溫度最高點(diǎn),即機(jī)柜內(nèi)散熱效果最惡劣的點(diǎn)或者是發(fā)熱量最大的點(diǎn)。將“溫度自記儀”測(cè)點(diǎn)布置在機(jī)柜內(nèi)溫度最高處。
先后模擬熱管背板上兩個(gè)風(fēng)機(jī)上開(kāi)下關(guān)、上關(guān)下開(kāi)、都關(guān)、重啟四種情況。機(jī)柜內(nèi)溫度最高點(diǎn)的溫度變化情況。
實(shí)驗(yàn)前,10#機(jī)柜兩個(gè)風(fēng)機(jī)正常運(yùn)行下,測(cè)試各測(cè)點(diǎn)溫度如圖4所示,機(jī)柜內(nèi)溫度最高處位于機(jī)柜內(nèi)排風(fēng)機(jī)的風(fēng)口處,該處測(cè)點(diǎn)的溫度為44.8℃。
圖4 各測(cè)點(diǎn)溫度
根據(jù)測(cè)試的溫度分布情況,取機(jī)柜內(nèi)出風(fēng)溫度最高處的實(shí)時(shí)觀察測(cè)點(diǎn),當(dāng)此測(cè)點(diǎn)溫度發(fā)生明顯上升時(shí),表明機(jī)柜的冷卻效果變差。為保障實(shí)驗(yàn)過(guò)程中IT設(shè)備的運(yùn)行不受過(guò)多的影響,避免設(shè)備發(fā)生故障,在實(shí)驗(yàn)過(guò)程中,如果機(jī)柜內(nèi)測(cè)點(diǎn)的溫度達(dá)到48℃,則應(yīng)立即恢復(fù)熱管背板原有的運(yùn)行狀態(tài),或者立即打開(kāi)機(jī)柜的柜門,恢復(fù)機(jī)柜的正常散熱狀態(tài)。
10#機(jī)柜關(guān)閉一個(gè)背板風(fēng)機(jī)時(shí)機(jī)柜的出風(fēng)溫度測(cè)試結(jié)果如表1所示。
表1 10#機(jī)柜關(guān)閉一個(gè)風(fēng)機(jī)時(shí)機(jī)柜的出風(fēng)溫度
可見(jiàn),當(dāng)僅有一個(gè)背板風(fēng)機(jī)故障時(shí),機(jī)柜出風(fēng)溫度最高點(diǎn)的溫度僅上升0.6~0.7℃,對(duì)機(jī)房安全影響不大。
兩臺(tái)風(fēng)機(jī)其中任何一個(gè)發(fā)生故障停轉(zhuǎn)時(shí),對(duì)機(jī)柜內(nèi)溫度的影響程度非常接近,說(shuō)明該熱管背板在設(shè)計(jì)時(shí),兩個(gè)風(fēng)機(jī)是互相備份的冗余設(shè)計(jì)。
同時(shí)關(guān)閉10#機(jī)柜的兩個(gè)風(fēng)機(jī),以測(cè)試當(dāng)熱管背板的電源被切斷時(shí),機(jī)柜內(nèi)部溫度的變化情況。
當(dāng)熱管背板兩個(gè)風(fēng)機(jī)均關(guān)閉時(shí),15 min后測(cè)點(diǎn)處的溫度上升到47.6℃,上升約2.2℃,為避免實(shí)驗(yàn)對(duì)IT設(shè)備的運(yùn)行帶來(lái)影響,此時(shí)迅速開(kāi)啟風(fēng)機(jī),測(cè)點(diǎn)處溫度先上升了約0.5℃,1 h后降低約2.0℃。
也就是說(shuō),當(dāng)兩臺(tái)風(fēng)機(jī)均故障無(wú)法運(yùn)轉(zhuǎn)時(shí),機(jī)柜內(nèi)的溫度不會(huì)突然上升,但呈現(xiàn)緩慢上升的趨勢(shì),因此,運(yùn)維人員在接到熱管背板風(fēng)機(jī)的報(bào)警信號(hào)后,需要盡快到故障現(xiàn)場(chǎng)采取處理措施。
進(jìn)一步將所有機(jī)柜背板的風(fēng)機(jī)關(guān)停,以檢驗(yàn)熱管系統(tǒng)配電柜電源被切斷的情況,觀察其它機(jī)柜出風(fēng)處最高溫度點(diǎn)的溫度變化,如圖5所示,隨著風(fēng)機(jī)關(guān)閉,機(jī)柜出風(fēng)溫度升高,不同機(jī)柜上升幅度不同,但均在18 min內(nèi)上升1~2℃。
圖5 關(guān)閉所有背板風(fēng)機(jī)時(shí)機(jī)柜出風(fēng)溫度變化(以8#、12#、13#為例)
通過(guò)以上測(cè)試,表明本項(xiàng)目的熱管背板系統(tǒng)具有較高的安全性:
(1)熱管背板的風(fēng)機(jī)采用了冗余設(shè)計(jì),當(dāng)其中一個(gè)風(fēng)機(jī)發(fā)生故障停轉(zhuǎn)時(shí),對(duì)機(jī)柜的散熱效果影響很小,僅有0.6~0.7℃,可忽略不計(jì)。
(2)當(dāng)單個(gè)機(jī)柜上的熱管背板的風(fēng)機(jī)全部關(guān)停時(shí)(即單個(gè)熱管背板掉電時(shí)),機(jī)柜的溫度不會(huì)發(fā)生突變,在15 min后,機(jī)柜的最高溫度點(diǎn)的溫度會(huì)逐漸上升1~3℃。
熱管背板的風(fēng)機(jī)都關(guān)停后,機(jī)柜內(nèi)的熱空調(diào)需要在IT設(shè)備自帶風(fēng)機(jī)的推動(dòng)力下,穿越熱管背板,排放至機(jī)房的環(huán)境中,此時(shí),熱管背板的風(fēng)阻越小,機(jī)柜內(nèi)的熱空氣越容易穿過(guò)熱管背板,機(jī)柜內(nèi)的溫度上升就越慢。
(3)當(dāng)整個(gè)熱管背板系統(tǒng)的風(fēng)機(jī)全部關(guān)停時(shí)(即熱管背板系統(tǒng)掉電時(shí)),各機(jī)柜內(nèi)的溫度變化與單個(gè)機(jī)柜的熱管背板風(fēng)機(jī)關(guān)停時(shí)的變化情況相同,在18 min內(nèi)上升1~3℃。
本文以中國(guó)移動(dòng)某典型數(shù)據(jù)機(jī)房應(yīng)用項(xiàng)目為例,討論熱管制冷背板冷卻技術(shù)在數(shù)據(jù)機(jī)房應(yīng)用的安全性。
在實(shí)驗(yàn)中分別模擬了:熱管背板上的一個(gè)風(fēng)機(jī)停轉(zhuǎn)時(shí),對(duì)機(jī)柜柜內(nèi)散熱環(huán)境的影響;熱管背板的兩個(gè)風(fēng)機(jī)都停轉(zhuǎn)時(shí),對(duì)機(jī)柜柜內(nèi)散熱環(huán)境的影響;熱管背板系統(tǒng)的所有風(fēng)機(jī)均停轉(zhuǎn)時(shí),對(duì)機(jī)柜內(nèi)散熱環(huán)境的影響。結(jié)論如下:
(1)當(dāng)一個(gè)熱管背板僅有一個(gè)風(fēng)機(jī)停轉(zhuǎn)(模擬“熱管背板的單個(gè)風(fēng)機(jī)發(fā)生故障”),其他風(fēng)機(jī)均正常運(yùn)行時(shí),機(jī)柜出風(fēng)溫度最高點(diǎn)的溫度僅上升0.6~0.7℃,對(duì)機(jī)柜柜內(nèi)的散熱環(huán)境影響較小。
(2)當(dāng)一個(gè)熱管背板上的所有風(fēng)機(jī)均停轉(zhuǎn)時(shí)(模擬“一個(gè)熱管背板的供電電源被切斷”),15 min后測(cè)點(diǎn)處的溫度上升約2.2℃。雖然在一個(gè)背板上的所有風(fēng)機(jī)停轉(zhuǎn)時(shí),機(jī)柜內(nèi)溫度上升的趨勢(shì)較為緩慢,但為了保證IT設(shè)備的正常運(yùn)行,運(yùn)維人員需要在接到熱管背板系統(tǒng)的報(bào)警信號(hào)后,及時(shí)到故障現(xiàn)場(chǎng)處理。
(3)當(dāng)熱管背板系統(tǒng)的所有風(fēng)機(jī)停轉(zhuǎn)(模擬“熱管背板系統(tǒng)配電單元的供電被切斷”),機(jī)柜內(nèi)溫度升高,在18 min內(nèi)上升1~3℃。
經(jīng)過(guò)試驗(yàn)測(cè)試,本案例中的熱管背板系統(tǒng)的安全性能良好,是數(shù)據(jù)機(jī)房消除局部熱點(diǎn)的較好的解決方案。
數(shù)據(jù)機(jī)房對(duì)設(shè)備的安全性等級(jí)要求較高,每一項(xiàng)應(yīng)用于數(shù)據(jù)機(jī)房的技術(shù)都應(yīng)該經(jīng)過(guò)嚴(yán)格的安全性檢驗(yàn)。
根據(jù)實(shí)驗(yàn)結(jié)果,為使熱管制冷背板系統(tǒng)在數(shù)據(jù)機(jī)房的應(yīng)用中具有良好的安全性,需要對(duì)熱管背板系統(tǒng)的設(shè)計(jì)作如下要求:
(1)對(duì)于7 kW的熱管背板產(chǎn)品需要自帶風(fēng)機(jī);
(2)熱管背板產(chǎn)品的風(fēng)機(jī)需要考慮冗余設(shè)計(jì),至少為N+1冗余,即其中1個(gè)風(fēng)機(jī)停轉(zhuǎn)時(shí),其他風(fēng)機(jī)的風(fēng)量必須能夠滿足機(jī)柜冷卻的循環(huán)風(fēng)量要求;
(3)熱管背板設(shè)計(jì)時(shí),風(fēng)阻應(yīng)該盡量減小,熱管背板的風(fēng)阻越小,在熱管背板風(fēng)機(jī)全部停轉(zhuǎn)時(shí),機(jī)柜內(nèi)部的溫度上升趨勢(shì)越緩慢,熱管背板的安全性越高;
(4)熱管背板系統(tǒng)必須具備高溫報(bào)警、風(fēng)機(jī)故障報(bào)警功能,以便系統(tǒng)發(fā)生故障時(shí),運(yùn)維人員能夠及時(shí)到達(dá)現(xiàn)場(chǎng)進(jìn)行處理。
[1]全球數(shù)據(jù)中心市場(chǎng)現(xiàn)狀與趨勢(shì)[EB/OL].http://www.hyqb.sh.cn/tabid.
[2]中國(guó)數(shù)據(jù)中心建設(shè)市場(chǎng)保持穩(wěn)定增長(zhǎng)——能耗和IT資源管理成為用戶最關(guān)心的問(wèn)題[J].辦公自動(dòng)化,2010,(11):09.