張曉艷 王 歡
中國移動通信集團江蘇有限公司南京分公司
隨著數(shù)字化需求的飛速增長,數(shù)據(jù)中心成為了知名的“能耗大戶”。發(fā)改委、網(wǎng)信辦、工信部、能源局四部門聯(lián)合印發(fā)的《關于加快構建全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導意見》,要引導數(shù)據(jù)中心集約化、規(guī)模化、綠色化發(fā)展。與此同時工信部推出《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023年)》,推動新型數(shù)據(jù)中心數(shù)網(wǎng)、數(shù)云、云邊協(xié)同,圍繞新型數(shù)據(jù)中心高技術、高算力、高能效、高安全的“四高”特征,持續(xù)開展技術創(chuàng)新和標準規(guī)范研究,加快新型數(shù)據(jù)中心建設應用和落地。
數(shù)據(jù)中心成為了以算力為中心,網(wǎng)為根基,網(wǎng)、云、數(shù)、智、安、邊、端、鏈等多要素融合的新型信息基礎設施,超大型數(shù)據(jù)中心運維管理面臨必要的改革。
新型一體化數(shù)據(jù)中心發(fā)展目標變得更加多元化,不僅僅聚焦在基礎設施方面,在利用率、算力、能效、網(wǎng)絡時延方面都有目標要求。
一是算網(wǎng)云邊業(yè)態(tài)轉(zhuǎn)變,數(shù)據(jù)中心已經(jīng)從傳統(tǒng)的基礎設施維護向提供算力服務能力轉(zhuǎn)變。全專業(yè)的需求,要求數(shù)據(jù)中心做為一個獨立核算體,以一體化融合“園長”制來運營管理園區(qū)。不僅要提升基礎設施的安全性,還要從存儲容量、性能效率、安全可靠和經(jīng)濟綠色四個維度全面提高數(shù)據(jù)中心存力和運力。
二是綠色節(jié)能要求提高,數(shù)據(jù)中心要綜合運用電氣、暖通、服務器等多種融合節(jié)能創(chuàng)新方案。從數(shù)據(jù)中心資源、環(huán)境、技術和經(jīng)濟等方面綜合提升,并做好數(shù)據(jù)中心的碳排放管理。
三是業(yè)務連續(xù)性要求提高,數(shù)據(jù)的安全使用涉及到民生工程,跨專業(yè)的融合成為必要條件。數(shù)據(jù)中心要提升物理安全、人員安全、設備安全、消防安全、網(wǎng)絡安全的能力。此外為了給客戶提供優(yōu)質(zhì)服務,還需要增強關鍵基礎設施運營保障能力、運營管理能力、網(wǎng)絡運營能力和服務品質(zhì)提供能力。
四是高效敏捷快速迭代,需要建立一體化智能運維平臺提供算力、能效、網(wǎng)絡等的綜合管理能力。碳排放管理、AI節(jié)能管理、客戶成本分析、客戶服務報告等都需要統(tǒng)一的管理平臺自動呈現(xiàn)。
綜上,數(shù)據(jù)中心在算力服務能力、綠色節(jié)能管控、業(yè)務連續(xù)性保障、高效敏捷迭代等多方面的要求不斷提高,迫切需要建立一套完善的運維管理體系來綜合管理數(shù)據(jù)中心的運行。
數(shù)據(jù)中心的運維體系中,組織架構是人才培養(yǎng)、運維原則、服務管理和支撐平臺的基礎,人才培養(yǎng)是實現(xiàn)高效運維管理的必要條件,運維原則是確保數(shù)據(jù)中心穩(wěn)定、高效運行的準則,服務管理是提供高質(zhì)量、高效率服務的保障,支撐平臺是支撐組織架構、人才培養(yǎng)、運維原則和服務管理的數(shù)字化工具。一體化的組織架構、一體化的人才培養(yǎng)、一體化的運維原則、一體化的服務管理、一體化的支撐平臺相互關聯(lián)、相互促進,共同推動數(shù)據(jù)中心向高效、安全、可靠的方向發(fā)展。
傳統(tǒng)運營商機房樓的組織架構是按專業(yè)分設管理部門,不同部門之間煙囪林立,各自為政,無法閉環(huán)。圖1 展示的是數(shù)據(jù)中心一體化維護組織架構,該架構是推動數(shù)據(jù)中心職能制向項目制轉(zhuǎn)變的總體框架,要求數(shù)據(jù)中心做為一個獨立核算體,以一體化融合“園長”制來運營管理園區(qū)。是將傳統(tǒng)的多樣化的數(shù)據(jù)中心設備、服務、應用和網(wǎng)絡進行整合集成,形成高度一體化的運維管理能力,實現(xiàn)建維融合、運維融合與營維融合。
圖1 數(shù)據(jù)中心一體化維護組織架構
一是建維融合:數(shù)據(jù)中心更傾向于總成本,也就是建設成本+后期運維成本總和。所以維護人員要運維前置,甚至可以先參與建設后轉(zhuǎn)向運維。維護人員深度參與到數(shù)據(jù)中心的規(guī)劃、設計、施工、調(diào)測及驗收工作中,建設真正綠色的數(shù)據(jù)中心。
二是運維融合:園區(qū)內(nèi)資源共享關系運維的質(zhì)量和成本。園區(qū)內(nèi)的物業(yè)、消防、安防、基礎設施、服務器甚至傳輸維護資源可以形成互補及融合。超大型數(shù)據(jù)中心不同于中小型數(shù)據(jù)中心,各專業(yè)間聯(lián)動及協(xié)同的關系更緊密:例如:消防與樓宇門禁、微模塊門禁、空調(diào)的聯(lián)動,需要物業(yè)專業(yè)與基礎設施專業(yè)的協(xié)同;園區(qū)直供水、地下水池、水泵的安全需要物業(yè)專業(yè)與基礎設施專業(yè)的協(xié)同等。
三是營維融合:在客戶初期參觀調(diào)研園區(qū)時,維護人員能否做好營銷甚至隨銷,是客戶選擇進駐的關鍵。在IDC 營銷服務過程中,維護人員需參與到銷售洽談、項目實施、現(xiàn)場運維的各個環(huán)節(jié),營維融合能有效提升客戶滿意度和公司品牌形象。
超大型數(shù)據(jù)中心的人員需涵蓋電氣系統(tǒng)、暖通系統(tǒng)、智能化系統(tǒng)、消防系統(tǒng)等全專業(yè)人才??梢栽O置三級管理崗位:7*24 小時現(xiàn)場運維、7*24 小時現(xiàn)場支撐、5*8 小時技術支持;現(xiàn)場運維負責巡檢及設備切換操作,需持有高壓電工證、低壓電工證、制冷證、消防設施操作證等專業(yè)技能認證證書?,F(xiàn)場支撐負責故障處理及應急調(diào)度,技能要求及綜合能力相較一線值班人員要高,作為專業(yè)工程師。技術支持負責規(guī)劃設計、疑難問題處理、隱患整改等工作,作為系統(tǒng)工程師。表1 列舉了數(shù)據(jù)中心各類型工程師的專業(yè)和技能要求。
表1 數(shù)據(jù)中心工程師專業(yè)知識及技術能力要求
對于合格運維人員的技能評估要通過認證才能上崗,上崗的人員要通過月度績效考核、專項考核、培訓演練考核等多維度評估能力,每年挑選優(yōu)秀人才晉級升崗。通過必要的專業(yè)融合,一人持多證,達到人員精干,效率提升的目標。
傳統(tǒng)將數(shù)據(jù)中心運維事故的責任歸咎于維護人員,但大多數(shù)錯誤都是因為設計妥協(xié)、預算縮減、人員裁減、供應商問題、缺乏流程,導致一線人員沒有準備或者沒有訓練有素的應對事件。在運維過程中一定要秉持持續(xù)運維三大原則去維護管理數(shù)據(jù)中心,不能有絲毫的懈怠。
2.3.1 積極主動的原則
積極主動地發(fā)現(xiàn)問題并持續(xù)改進。每一起嚴重事故的背后必然有29 次輕微事故和300 起未遂事故及1000 起先兆。在日常運維中必須積極主動發(fā)現(xiàn)隱患跟蹤解決,降低事故概率。建立如圖2 所示的運維工單管理流程,將巡檢、事件、維修、風險、變更等管理工單流程在平臺上發(fā)布并閉環(huán)落地,從而建立多級工單管理機制來實現(xiàn)“發(fā)現(xiàn)、跟蹤、升級、督辦、解決”的閉環(huán)管理。分級處理的方案能形成有效的監(jiān)督、考核及督促的作用。
圖2 數(shù)據(jù)中心運維工單管理流程
2.3.2 不斷實踐的原則
維護、應急、操作流程規(guī)范不能束之高閣、紙上談兵,還要通過周/月/年的演練及培訓固化維護人員的行為。為了確保維護人員在突發(fā)故障情況下的切換操作與“肌肉記憶”一樣自然而快捷,需要日復一日的演練及認證。每年年底需要規(guī)劃下一年度的演練工作,綜合考慮季節(jié)特點及維護工作的次序。例如:樓宇雙路市電停電演練前必須完成樓內(nèi)電池核對性放電實驗;盡量將雙路市電停電演練工作放在水冷系統(tǒng)的板換季節(jié)等。
對于分期建設的樓宇因設備種類不同,在制定應急流程、操作流程、維護流程要分樓宇制定,并且分樓宇分專業(yè)的開展演練及認證工作。為了減少運維的復雜性,建議數(shù)據(jù)中心在規(guī)劃、設計及施工時各樓宇盡量使用統(tǒng)一方案。
2.3.3 公告周知的原則
構建數(shù)據(jù)中心運維知識體系,涵蓋建設資料、運維EOP(應急流程)、MOP(維護流程)、SOP(操作流程)、SCP(設備參數(shù))、數(shù)據(jù)中心制度規(guī)范等,實現(xiàn)“運維知識搜索引擎”關聯(lián)告警,精確指導。此外,知識庫的云端存放、共享能抵消維護人員流動帶來的信息損失影響。圖3 展示了數(shù)據(jù)中心知識庫的架構。
圖3 知識庫管理
一體化的服務響應的優(yōu)勢在于:在售前可以強營銷,數(shù)據(jù)中心除了可以提供拎包入住的精品機房,還能提供定制化的機房服務,靈活的方式能實現(xiàn)與客戶間的共贏與合作。在售中可以強支撐,整合的資源可以快速實現(xiàn)調(diào)度,集中高效低成本地提供服務支撐。在售后可以增粘性,實現(xiàn)一點響應、主動輸出服務報告、提供交鑰匙服務、包括增值能力輸出、專家咨詢等實現(xiàn)與客戶資源能力的互補增效。
維護能力也可以作為一種營銷的能力輸出增收。通過客戶的機架空間占用、帶寬流量、設備用電等維度構建客戶模型,結(jié)合電價計費策略,核算用電成本,生成能耗成本核算報告,推出客戶價值分析,超電管理擴容等,助力營銷拓展。
隨著新型數(shù)據(jù)中心高技術、高算力、高能效、高安全的“四高”特征的不斷發(fā)展,數(shù)據(jù)中心內(nèi)部要建立跨專業(yè)的支撐平臺。如圖4 所示,運用三級的一體化智慧運維系統(tǒng),將全專業(yè)融合管理,確?!氨O(jiān)”、“管”、“控”每個環(huán)節(jié)無縫連接,在一二級基礎模塊上需要搭建三級管理模塊:AI 節(jié)能、算力管理、綠電管理、碳排放管理等支撐數(shù)智發(fā)展,實現(xiàn)整體節(jié)能、自動化及安全運行。
圖4 一體化智慧運維系統(tǒng)框架
2.5.1 AI 節(jié)能平臺
通過神經(jīng)網(wǎng)絡算法構建能效因子模型,通過標準普爾分析,演算各因子的節(jié)能策略,綜合考慮基礎設施關聯(lián)設備、服務器之間的能耗的磁性貼合作用,協(xié)調(diào)聯(lián)動。例如:服務器資源與列間空調(diào)溫度動態(tài)調(diào)配。
基于整個數(shù)據(jù)中心幾百萬個測點實時上傳的電力、空調(diào)及服務器能耗數(shù)據(jù),經(jīng)過讀取、歸納、處理,以園區(qū)、機樓、房間、微模塊、機柜、設備等全維度自動分析用電能效數(shù)據(jù),生成不同維度場景下的能效數(shù)據(jù)曲線。通過能耗的管理、超電機架管理支撐營銷價值運營、客戶成本分析。
2.5.2 算力管理平臺
當算力逐步成為數(shù)據(jù)中心關鍵要素時,其價值不僅在“ 量”, 更需要“ 質(zhì)”, 在研究降低能效PUE(PowerUsageEffectiveness)的同時要逐步向提升算效CUE(Computing Usage Effectiveness)方向探索,相同的能耗要能提供更多的算力。2022 年7 月由中國電子技術標準化研究院牽頭多家單位參與編寫的《計算中心有效算力評測體系白皮書》中明確了CUE 的測評方法,不僅要關注所需的算力總量,還得重視相應的能耗和碳排。
通過CUE 分析,可以引導數(shù)據(jù)中心的高質(zhì)量建設及運維,從全棧融合的角度——自機房、能源基礎設施、硬件基礎設施至軟件基礎設施各層的整體設計與建設,提高數(shù)據(jù)中心的資源使用率。例如:在建設初期為資源池的計算機供給的電力基礎設施設計采用更加節(jié)能的一體化方艙電源或者市電直供方案;在后期維護時對于備份資源池的計算機是否可以降頻休眠降低能耗等。以此提升新型一體化數(shù)據(jù)中心的建設及運維的質(zhì)量。
2.5.3 碳排放及綠電管理平臺
隨著數(shù)據(jù)中心綠色節(jié)能要求提高,數(shù)據(jù)中心要綜合運用電氣、暖通、服務器等多種融合節(jié)能創(chuàng)新方案。從數(shù)據(jù)中心資源、環(huán)境、技術和經(jīng)濟等方面綜合提升,做好數(shù)據(jù)中心的碳排放管理。對于兩高企業(yè)政府建立了嚴格的碳排放管理機制,作為一高(高耗能)企業(yè)的數(shù)據(jù)中心也應該應對潮流趨勢,提前做好準備,精準分析數(shù)據(jù)中心內(nèi)風火水電的碳排放情況,為國家未來的碳交易做好數(shù)據(jù)準備。
有預測指出,一體化大數(shù)據(jù)中心的算力核心產(chǎn)業(yè)帶動關聯(lián)產(chǎn)業(yè)規(guī)模在2021 年就超過8 萬億元。很顯然,提供算力生產(chǎn)力的數(shù)據(jù)中心,將成為現(xiàn)代科技與產(chǎn)業(yè)發(fā)展的加速器,數(shù)字化社會必備的基礎設施。為了適應時代的變革,要將技術運維轉(zhuǎn)變?yōu)橐惑w化運營,不僅要完成跨專業(yè)融合,還要從后臺走上前臺營銷,助力大型數(shù)據(jù)中心成為支撐社會數(shù)字轉(zhuǎn)型、智能升級、融合創(chuàng)新的新基建底座,支撐數(shù)字經(jīng)濟等宏觀政策與頂層設計落地。