9月,英特爾至強(qiáng)處理器E5 v3產(chǎn)品家族的發(fā)布如約而至。號(hào)稱會(huì)在軟件定義基礎(chǔ)設(shè)施的時(shí)代“發(fā)揮核心作用”的至強(qiáng)E5 v3和上一代產(chǎn)品相比,又創(chuàng)下了27項(xiàng)性能紀(jì)錄。3倍的性能提升,內(nèi)核數(shù)據(jù)與高速緩存容量增長(zhǎng)50%,首開(kāi)先河支持DDR4內(nèi)存,以及更強(qiáng)的能效和安全特性,通過(guò)遙測(cè)技術(shù)進(jìn)行監(jiān)控、管理的新特性等變化,無(wú)一不在驅(qū)動(dòng)各行業(yè)數(shù)據(jù)中心進(jìn)入“轉(zhuǎn)型期”。早已開(kāi)始對(duì)至強(qiáng)E5 v3展開(kāi)測(cè)試的新浪機(jī)房,已經(jīng)率先成為受益者之一。
機(jī)房成本降20%
“和上一代平臺(tái)相比,至強(qiáng)E5 v3的性能提升能讓新浪機(jī)房的成本下降20%?!痹跍y(cè)試階段,新浪網(wǎng)研發(fā)部運(yùn)維支持經(jīng)理劉明生已經(jīng)感受到了這次至強(qiáng)微架構(gòu)更新所帶來(lái)的回報(bào)。
新浪的數(shù)據(jù)中心采用模塊化設(shè)計(jì),每次基礎(chǔ)架構(gòu)的升級(jí)主要是節(jié)點(diǎn)升級(jí),所以每當(dāng)英特爾產(chǎn)品更迭期到來(lái)時(shí),新浪在采購(gòu)前期所關(guān)注的重點(diǎn)很大程度上是TCO和業(yè)務(wù)時(shí)延的改變。在對(duì)至強(qiáng)E5 v3進(jìn)行測(cè)試時(shí),劉明生和他的同事就發(fā)現(xiàn),對(duì)比過(guò)去的產(chǎn)品更迭,這一代產(chǎn)品的更迭成本發(fā)生了很大變化,TCO明顯降低,收益甚至能“直接看得見(jiàn)”。
據(jù)劉明生介紹,新浪的Hadoop平臺(tái)在基礎(chǔ)架構(gòu)上一直采用一核一盤(pán)的配置策略。以前如果采購(gòu)12個(gè)核,用上一代產(chǎn)品至強(qiáng)E5-2620 v2,就需要兩顆CPU。但現(xiàn)在,由于英特爾至強(qiáng) E5-2600 v3每插座多達(dá)18個(gè)內(nèi)核,還擁有45MB末級(jí)高速緩存,在內(nèi)核數(shù)量與高速緩存容量方面實(shí)現(xiàn)了50%的性能提升。雖然單點(diǎn)的采購(gòu)價(jià)稍有上浮,但新浪只需采購(gòu)過(guò)去一半數(shù)量的CPU,就可以完全滿足現(xiàn)有業(yè)務(wù)的要求。經(jīng)預(yù)估,機(jī)房服務(wù)器的采購(gòu)成本至少可以下降20%~30%,而服務(wù)器數(shù)量的減少還會(huì)讓功耗也隨之降低10%~15%。
劉明生告訴記者,這次產(chǎn)品更迭,E5的性能/能耗比與上一代產(chǎn)品相比每瓦特性能提升了20%,超過(guò)了15nm到22nm制程精益演進(jìn)而帶來(lái)的性能提升幅度,這說(shuō)明英特爾的微架構(gòu)創(chuàng)新正在發(fā)揮更大的作用。
隱性收益多
劉明生介紹說(shuō),除了“看得見(jiàn)的收益”, 至強(qiáng)E5 v3還為新浪的數(shù)據(jù)中心帶來(lái)了不少“看不見(jiàn)、算不清的收益”。例如,至強(qiáng)E5 v3新增的高速緩存監(jiān)控特性可反饋數(shù)據(jù),支持協(xié)調(diào)工具智能部署和重新平衡工作負(fù)載,新浪機(jī)房的整體部署速度明顯加快;新增的用于探測(cè)氣流和出口溫度的熱傳感器,正在大幅增強(qiáng)新浪數(shù)據(jù)中心的可見(jiàn)性和可控制性;由于英特爾高級(jí)矢量擴(kuò)展指令集的進(jìn)一步擴(kuò)展(英特爾 AVX2),將整數(shù)敏感型工作負(fù)載的矢量整數(shù)指令每時(shí)鐘周期的帶寬增加了一倍,性能比上一代產(chǎn)品又提升了1.9倍,整機(jī)特性和體驗(yàn)都有了積極的變化。
新浪機(jī)房采用集中供電、集中散熱的模式,這種模式對(duì)能耗監(jiān)控要求很高,必須進(jìn)行精細(xì)化管理。由于CPU過(guò)熱時(shí)會(huì)自動(dòng)啟動(dòng)降頻保護(hù)功能,但運(yùn)算速度下降就會(huì)導(dǎo)致業(yè)務(wù)遲延,所以機(jī)房一旦出現(xiàn)局部過(guò)熱的問(wèn)題,必須立即通過(guò)加風(fēng)扇或調(diào)整空調(diào)制冷能力的方法消除熱點(diǎn),以免造成業(yè)務(wù)影響。劉明生和他的同事用了很多工具和方法,以便及時(shí)發(fā)現(xiàn)這些過(guò)熱區(qū)域、了解運(yùn)算速度下降的情況,及時(shí)做出調(diào)整,保持業(yè)務(wù)的一致性。但現(xiàn)實(shí)中,依然時(shí)常出現(xiàn)因發(fā)現(xiàn)不及時(shí)、數(shù)據(jù)采集有誤而造成的業(yè)務(wù)時(shí)延。測(cè)試時(shí),劉明生就發(fā)現(xiàn)至強(qiáng) E5 v3和上一代產(chǎn)品相比,其內(nèi)嵌的更為強(qiáng)大的監(jiān)控與管理功能竟然可以徹底解決這個(gè)問(wèn)題。現(xiàn)在,通過(guò)英特爾的節(jié)點(diǎn)管理器,他們可以輕松且及時(shí)地發(fā)現(xiàn)熱點(diǎn),并輕松做到功耗的控制和管理,讓機(jī)房的工作溫度達(dá)到合理的水平,實(shí)現(xiàn)精細(xì)化運(yùn)維。沒(méi)有節(jié)點(diǎn)管理器時(shí),是很難做到精準(zhǔn)運(yùn)維的。
劉明生表示,至強(qiáng) E5 v3的這些變化又為新浪數(shù)據(jù)中心的改造、運(yùn)營(yíng)帶來(lái)了很多可能。他們現(xiàn)在就在做一些新嘗試,比如借助節(jié)點(diǎn)管理器提供的API,實(shí)現(xiàn)自動(dòng)化降頻或降低功耗等。還有,將鋰電作為小型UPS,用于機(jī)房和服務(wù)器供電等。精細(xì)化控制、管理機(jī)房的能耗問(wèn)題,以及進(jìn)一步縮短開(kāi)發(fā)周期、減少開(kāi)發(fā)阻力。
中國(guó)計(jì)算機(jī)報(bào)2014年37期