張子婷 曾宇 任宏丹 孟銳
(1.中國電信股份有限公司研究院,北京102200;2. 北京郵電大學(xué),北京 100876)
隨著5G、云計算、物聯(lián)網(wǎng)、人工智能(Artificial Intelligence,AI)等數(shù)字化技術(shù)的高速發(fā)展,多技術(shù)融合的應(yīng)用場景為數(shù)據(jù)中心產(chǎn)品、技術(shù)乃至理念提供了新的發(fā)展動力,數(shù)據(jù)中心迎來了它躍遷的關(guān)鍵階段[1]。同時,為了實現(xiàn)碳達峰和碳中和目標(biāo),發(fā)展支撐新技術(shù)算力的重要基礎(chǔ)設(shè)施,建設(shè)高技術(shù)、高能效、高算力、高安全特征的新型數(shù)據(jù)中心,工業(yè)和信息化部在2021年7月印發(fā)的《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021—2023年)》明確指出:用3年時間基本形成綠色低碳、算力規(guī)模與數(shù)字經(jīng)濟增長相適應(yīng)的新型數(shù)據(jù)中心發(fā)展格局[2]。
作為數(shù)據(jù)存儲最重要的基礎(chǔ)設(shè)施,新型數(shù)據(jù)中心肩負(fù)著數(shù)據(jù)流的接收、處理、存儲與轉(zhuǎn)發(fā),其穩(wěn)定性、健壯性和可靠性離不開不間斷電源(Uninterruptible Power Supply,UPS)提供的電源保障功能[3]。其中,蓄電池是UPS供電系統(tǒng)的重要組成部分,在斷電等突發(fā)情況時及時為數(shù)據(jù)中心的設(shè)備提供電力。由于數(shù)據(jù)中心蓄電池在正常情況下處于浮充狀態(tài),存在著失效和失控的風(fēng)險,因此對蓄電池的健康監(jiān)測、異常檢測和預(yù)測維護尤為重要。智能的預(yù)維技術(shù)既可以避免龐大的人力、物力和維護費用,又可以及時發(fā)現(xiàn)劣化單體電池。合理的電池性能預(yù)警機制既有利于延長蓄電池組的實際使用壽命,又保障了數(shù)據(jù)中心的供電安全,劣化的電池可以用于修復(fù)和回收。因此,實現(xiàn)數(shù)據(jù)中心UPS蓄電池的智能預(yù)維對于推動綠色高效的數(shù)據(jù)中心的發(fā)展、實現(xiàn)能源行業(yè)的數(shù)字化和智能化起著關(guān)鍵的作用。本文分析了數(shù)據(jù)中心UPS蓄電池預(yù)維技術(shù)的3個發(fā)展階段,提出了一種智能預(yù)維管理系統(tǒng),并進一步總結(jié)了用于UPS蓄電池健康監(jiān)測、異常檢測和性能預(yù)測的機器學(xué)習(xí)方法,具有較高的現(xiàn)實意義和指導(dǎo)意義。
當(dāng)前數(shù)據(jù)中心UPS蓄電池的預(yù)維按照成熟度分為3個發(fā)展階段:被動式、預(yù)防式和預(yù)測式。3個發(fā)展階段的描述和評價如表1所示。
表1 數(shù)據(jù)中心UPS蓄電池預(yù)維管理的發(fā)展階段
被動式蓄電池維護不采用任何技術(shù)和管理手段,直到蓄電池出現(xiàn)故障問題無法滿足供電需求時進行維修和更換。一般而言,蓄電池的維修成本和隱患發(fā)現(xiàn)的時間呈現(xiàn)負(fù)相關(guān),但是一旦發(fā)生市電故障,劣化的蓄電池?zé)o法及時供給電源,給用戶的數(shù)據(jù)帶來嚴(yán)重的威脅,將會造成難以承受的經(jīng)濟損失。
該方式不需要人工巡檢,人力成本低,但是具有盲目性和滯后性,如果運維人員節(jié)約了定期檢查和維護的成本,那么在關(guān)鍵時刻將會帶來嚴(yán)重的損失,不滿足新型數(shù)據(jù)中心“高安全”的需求。
預(yù)防式蓄電池維護是基于計劃的定期巡視、維護和記錄的方式[3],具體包括以下內(nèi)容。
(1)專人記錄:每次巡視和檢查都需做好記錄,以便之后參考。
(2)告警功能:有異常情況發(fā)生時設(shè)備能否正常報警。
(3)元器件:包括散熱功能、內(nèi)部灰塵是否清掃等。
(4)連接功能:機柜和蓄電池之間的連接是否牢固,絕緣是否損壞等。
(5)外部條件:一定要保障合適的通風(fēng)環(huán)境,避免溫度過高。
(6)放電保養(yǎng):定期充放電以便保持電池活性,同時也要避免深度放電。
(7)更換原則:蓄電池的更換應(yīng)符合數(shù)量和型號一致的標(biāo)準(zhǔn)等。
數(shù)據(jù)中心UPS蓄電池的保養(yǎng)關(guān)系著其使用壽命和性能表現(xiàn),因此該方式比被動式維護的方式有著有效的預(yù)維效果,但是該方式也存在如下痛點。
(1)依賴于人工檢查的精細(xì)度。人工采集數(shù)據(jù)的方式包括萬用表測試、電導(dǎo)儀/電阻儀測試等,容易出現(xiàn)操作失誤、測量讀數(shù)錯誤等問題,進而造成誤檢、漏檢和錯檢的情況發(fā)生,導(dǎo)致對蓄電池健康狀況的誤判。
(2)需要制定合理的檢查周期和方式。頻繁的檢查耗費人力成本,間隔太久可能無法及時發(fā)現(xiàn)故障,進而帶來風(fēng)險。因此,需要制定合理的檢查周期和方式,進而在維護成本和維護效果之間作權(quán)衡。
(3)無法預(yù)測蓄電池的性能。該方式只能發(fā)現(xiàn)已發(fā)生故障的蓄電池,無法對蓄電池的故障進行預(yù)測。
因此,該方式無法滿足新型數(shù)據(jù)中心“高技術(shù)”“高能效”的需求。
預(yù)測式蓄電池預(yù)維是一種較為先進的基于數(shù)據(jù)的蓄電池健康監(jiān)測、異常檢測和性能預(yù)測管理的方式。該方式不但將蓄電池的實時參數(shù)集成到資產(chǎn)管理平臺進行可視化管理,而且通過對蓄電池的特征提取和算法分析,提前發(fā)現(xiàn)蓄電池潛在的問題和故障。
數(shù)據(jù)中心蓄電池的健康狀況主要通過如下兩個指標(biāo)來表征:荷電狀態(tài)(State of Charge,SOC)和健康狀態(tài)(State of Health,SOH)[4]。SOC用于科學(xué)準(zhǔn)確地表示數(shù)據(jù)中心蓄電池的剩余容量,物理意義是蓄電池在一段時間未使用后當(dāng)前的剩余容量與其完全充滿電時的實際電量的比值,如下式表示:
SOC=Qr/Qa×100%
(1)
其中,Qr表示數(shù)據(jù)中心蓄電池的當(dāng)前剩余容量,Qa表示數(shù)據(jù)中心蓄電池完全充滿電時的實際電量。
數(shù)據(jù)中心蓄電池的SOC只能通過測得的特性參數(shù)間接估算獲得,而且在實際的SOC估計應(yīng)用中,要充分考慮內(nèi)部因素和外部因素的影響,比如運行因素(放電電流、充放電的截止電壓、循環(huán)充放電次數(shù)等)、自身因素(自放電的影響,單體蓄電池容量的不均衡性,以極板厚度、極板面積、裝配技術(shù)為例的蓄電池本身的結(jié)構(gòu)因素和質(zhì)量問題)和溫度因素(電解液的溫度、蓄電池的環(huán)境溫度),因此數(shù)據(jù)中心蓄電池的SOC估算比公式(1)更復(fù)雜[5]。
SOH的物理意義是蓄電池完全充滿電時的實際電量與其額定容量的比值,如下式表示:
SOH=Qa/Qn×100%
(2)
其中,Qn表示其額定容量。
基于我國頒布的電力蓄電池行業(yè)標(biāo)準(zhǔn),數(shù)據(jù)中心蓄電池在使用過程中的實際容量應(yīng)達到額定容量的80%以上,即:SOH應(yīng)當(dāng)不低于80%,因為此時電池內(nèi)部已經(jīng)出現(xiàn)嚴(yán)重的老化,存在著有熱失控的風(fēng)險[6]。
目前,未有明確的標(biāo)準(zhǔn)對數(shù)據(jù)中心蓄電池的SOC和SOH進行估算[7],當(dāng)前SOC和SOH的估計策略主要包括:傳統(tǒng)計算方法(放電法、安時法、開路電壓法、內(nèi)阻法、負(fù)載電壓法、線性模型法)以及基于機器學(xué)習(xí)的算法。主要的SOC估計算法如表2所示。
表2 主要的SOC估計算法
相比傳統(tǒng)的計算方法,基于機器學(xué)習(xí)的SOC估計算法既快速、方便,又有著較高的精度,是新型數(shù)據(jù)中心實現(xiàn)自動化和數(shù)字化的重要工具。充分發(fā)揮機器學(xué)習(xí)算法的優(yōu)勢,是數(shù)據(jù)中心UPS蓄電池智能運維的關(guān)鍵。
針對數(shù)據(jù)中心UPS預(yù)維現(xiàn)狀和痛點問題,筆者提出了一種基于AI的數(shù)據(jù)中心UPS蓄電池智能預(yù)維管理系統(tǒng),如圖1所示。其主要由3層構(gòu)成:由各種硬件設(shè)施組成的基礎(chǔ)層、由各種蓄電池模型和機器學(xué)習(xí)算法構(gòu)成的算法層以及基于算法層實現(xiàn)管理決策的應(yīng)用層。
(1)基礎(chǔ)層:用于實現(xiàn)電流、電壓、溫度等蓄電池特征參數(shù)的采集、監(jiān)測、數(shù)據(jù)保護、預(yù)處理、通信等功能。通過采集的蓄電池特征參數(shù)可以構(gòu)建特征向量?=(Ut,It,Tt,Up,Ip,Tp),其中,Ut、It、Tt、Up、Ip、Tp分別表示谷底電壓、谷底電流、谷底溫度、峰值電壓、峰值電流和峰值溫度。
(2)算法層:是智能預(yù)維管理系統(tǒng)的關(guān)鍵部分,特征向量?作為算法的輸入,用于實現(xiàn)“細(xì)粒度建模、高準(zhǔn)確度分類、高可靠性預(yù)測”的模型和算法目標(biāo)。
(3)應(yīng)用層:監(jiān)控系統(tǒng)將數(shù)據(jù)采集模塊采集的電池組壓、充放電電流、電池內(nèi)阻、電池溫度、機房溫度等多維數(shù)據(jù)通過統(tǒng)一的可視化系統(tǒng)實時呈現(xiàn)給運維人員,實現(xiàn)對數(shù)據(jù)中心UPS各靜態(tài)參數(shù)和運行參數(shù)的實時可視化監(jiān)控。運維人員可以靈活配置告警策略,提前定位故障位置和時間。數(shù)據(jù)中心UPS蓄電池靈活配置告警策略的案例如圖2所示:數(shù)據(jù)中心的蓄電池在未放電時持續(xù)處于浮充狀態(tài),由于蓄電池內(nèi)部老化機理等電流呈現(xiàn)上升趨勢,觸發(fā)了“浮充轉(zhuǎn)均充”的判據(jù),因此UPS自動切換至均充狀態(tài)。而此時監(jiān)控系統(tǒng)采集到的數(shù)據(jù)在誤差允許范圍內(nèi),因此如果不采用靈活的配置策略,運營人員將不會受到告警提示。劣化的蓄電池持續(xù)地將電能轉(zhuǎn)化為熱能,并出現(xiàn)發(fā)熱、外殼鼓脹等問題,最終觸發(fā)了高溫告警才被發(fā)現(xiàn)。因此,靈活配置的告警策略可以避免類似的案例發(fā)生,通過對充電電壓、均充狀態(tài)、均充電壓及溫度等參數(shù)的持續(xù)判斷,運維人員通過不斷優(yōu)化的復(fù)雜告警策略更好地保障了數(shù)據(jù)中心的UPS蓄電池的健康狀況。標(biāo)準(zhǔn)化的資產(chǎn)管理平臺用于記錄每節(jié)單體電池的品牌、型號、額定電壓、容量、上線時間、位置等各個參數(shù),對電池資產(chǎn)進行細(xì)粒度管理。故障預(yù)測包括基于健康數(shù)據(jù)和故障數(shù)據(jù)實現(xiàn)蓄電池健康監(jiān)測、基于歷史數(shù)據(jù)實現(xiàn)蓄電池數(shù)據(jù)預(yù)測、基于正常數(shù)據(jù)和異常數(shù)據(jù)實現(xiàn)蓄電池異常檢測,其中健康監(jiān)測和異常檢測是基于分類模型的分類任務(wù),數(shù)據(jù)預(yù)測是基于預(yù)測模型的預(yù)測任務(wù)。
總體而言,基礎(chǔ)層是智能運維管理系統(tǒng)的根基,算法層是功能實現(xiàn)的關(guān)鍵,應(yīng)用層是數(shù)據(jù)中心運維管理的目標(biāo),三層相輔相成,實現(xiàn)對數(shù)據(jù)中心UPS蓄電池的數(shù)字化、智能化預(yù)維管理,有利于形成綠色高效、低碳算力、安全可靠的新型數(shù)據(jù)中心發(fā)展格局。
數(shù)據(jù)中心蓄電池健康監(jiān)測和異常檢測可以轉(zhuǎn)化為機器學(xué)習(xí)中的分類問題[17],即通過已經(jīng)訓(xùn)練的健康蓄電池數(shù)據(jù)和故障/異常蓄電池數(shù)據(jù)來對待監(jiān)測的蓄電池數(shù)據(jù)進行分類,分類結(jié)果是健康或故障/異常。表3總結(jié)了基于機器學(xué)習(xí)的數(shù)據(jù)中心蓄電池健康監(jiān)測和異常檢測算法。
表3 基于機器學(xué)習(xí)的數(shù)據(jù)中心蓄電池健康監(jiān)測和異常檢測算法
基于決策樹(Decision Tree,DT)的蓄電池健康監(jiān)測和異常檢測算法是具有多層中間節(jié)點的較復(fù)雜的二分類問題,如圖3所示。最終在葉節(jié)點輸出監(jiān)測結(jié)果:健康或者故障。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是由眾多神經(jīng)元組成的并行互聯(lián)的網(wǎng)絡(luò),其可以模擬生物神經(jīng)系統(tǒng)和現(xiàn)實世界的相互作用[22]?;谏疃壬窠?jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的數(shù)據(jù)中心蓄電池健康監(jiān)測和異常檢測算法如圖4所示,其中W和ξ分別表示權(quán)重和偏置,I表示神經(jīng)網(wǎng)絡(luò)的層數(shù)。max(·)表示線性整流函數(shù)(Linear Rectification Function,ReLU),用于將輸入神經(jīng)元非線性地映射到輸出神經(jīng)元。softmax函數(shù)將邏輯向量轉(zhuǎn)化為對應(yīng)的類別,即蓄電池的健康監(jiān)測和異常檢測結(jié)果。通過反向傳播和梯度下降,DNN可以優(yōu)化其自身的參數(shù)直至達到收斂。
數(shù)據(jù)中心蓄電池性能預(yù)測問題可以轉(zhuǎn)化為機器學(xué)習(xí)中的預(yù)測問題[22],即通過已經(jīng)訓(xùn)練的蓄電池的時序數(shù)據(jù)來對后序時刻的蓄電池性能進行預(yù)測,預(yù)測結(jié)果是指標(biāo)的值。表4總結(jié)了基于機器學(xué)習(xí)的數(shù)據(jù)中心蓄電池性能預(yù)測算法。
表4 基于機器學(xué)習(xí)的數(shù)據(jù)中心蓄電池性能預(yù)測算法
模糊C-均值聚類算法可以用于預(yù)測蓄電池的特征向量,基于對采集到的蓄電池特征向量進行聚類分析,進而生成模糊規(guī)則,并通過模糊推理得到預(yù)測結(jié)果,具體結(jié)構(gòu)如圖5所示。
由于數(shù)據(jù)中心蓄電池指標(biāo)參數(shù)具有一定的時序特征,因此也可以用循環(huán)神經(jīng)網(wǎng)絡(luò)作蓄電池數(shù)據(jù)預(yù)測,具體結(jié)構(gòu)如圖6所示。其中,X表示蓄電池指標(biāo)特征向量,S表示隱藏層,O表示輸出層,U和V分別表示輸入層到隱藏層、隱藏層到輸出層之間的權(quán)重,W表示隱藏層中的權(quán)重。后續(xù)時刻的隱藏層權(quán)重受之前時刻的蓄電池特征影響,因此可以學(xué)習(xí)到其時序信息,執(zhí)行更有效的蓄電池數(shù)據(jù)預(yù)測。
強化學(xué)習(xí)(Reinforcement Learning,RL)可以用于解決數(shù)據(jù)中心運維管理人員在與蓄電池環(huán)境交互的過程中通過某些學(xué)習(xí)策略實現(xiàn)數(shù)據(jù)預(yù)測的問題,如圖7所示。其中,如果運維人員的行為引起環(huán)境正獎賞,則運維人員之后運用該策略的概率將會增大,目標(biāo)函數(shù)是使得期望的綜合獎賞最大化。不同于監(jiān)督學(xué)習(xí),強化學(xué)習(xí)不需要求解梯度信息,通過動態(tài)調(diào)節(jié)參數(shù)以求得最優(yōu)數(shù)據(jù)預(yù)測策略。
數(shù)據(jù)中心UPS蓄電池智能預(yù)維管理系統(tǒng)將向著綠色高效、安全可靠、數(shù)字化、智能化的方向穩(wěn)步發(fā)展,在“雙碳”目標(biāo)下如何實現(xiàn)高精確度地實時可視化監(jiān)控、高靈活性的告警配置策略、高細(xì)粒度的電池資產(chǎn)管理、高可靠性的電池故障預(yù)測是學(xué)術(shù)界和業(yè)界需要持續(xù)研究的重要問題。