舒亮
[摘? ? 要 ]我國數據中心歷經多年的發(fā)展歷程,建設規(guī)模持續(xù)拓展,特別是在大數據、人工智能等高新技術快速發(fā)展的背景下,數據中心新一輪的發(fā)展已經拉開了帷幕。為確保數據中心能安全、高效率運作,就應加大對動力、空調等基礎設施的運維管理。文章首先淺談數據中心基礎設施運維管理的現實狀況,其次解讀加強運維管理的現實意義,最后較為詳細地探究不同階段中運維管理、控制的具體措施,以供同行參考借鑒。
[關鍵詞]數據中心;基礎設施;運維現狀;措施探究
[中圖分類號]TP308 [文獻標志碼]A [文章編號]2095–6487(2020)08–0–03
Some Thoughts on the Operation and Maintenance of Data Center Infrastructure
Shu Liang
[Abstract]My country's data center has experienced many years of development, and the construction scale has a trend of continuous expansion. Especially in the context of the rapid development of high-tech such as big data and artificial intelligence, a new round of development of data centers has begun. In order to ensure the safe and efficient operation of data centers, the operation and maintenance management of infrastructure such as power and air conditioning should be increased. Firstly, talk about the actual situation of data center infrastructure operation and maintenance management, secondly, explain the practical significance of strengthening operation and maintenance management, and finally explore the specific measures of operation and maintenance management and control in different stages in more detail for reference by peers.
[Keywords]data center; infrastructure; operation and maintenance status; investigation of measures
當下,移動互聯網業(yè)務已經普及到社會多個領域中,視頻、電商等在全網內均可洞察到應用蹤跡,數據量有暴增態(tài)勢,數據中心的數目與規(guī)模也相應擴增,有資料記載2016—2019年中國數據中心市場維持著20.0%~30.0%的增長率。且數據中心建設表現出大型化、模塊劃分精細化趨勢,這也預示著成本有所提高且對基礎設施建設、運行、維護管理情況表現出更大的依賴性。
1 數據中心基礎設施運維管理現狀
數據中心基礎關聯到供配電、空調、消防、安防以及弱電監(jiān)控等諸多子系統(tǒng),不同子系統(tǒng)之間構建了緊湊的相關性、互為作用與影響??梢?,復雜性是該系統(tǒng)的典型特征之一,針對其開展的運維管理工作,可以將其看成是一個多目標優(yōu)化的決策流程,只要能保證子系統(tǒng)綜合運行狀態(tài)抵達最優(yōu)化水平,那么數據中心運行階段高可靠性方能得到更大保障。在運維實踐中,可以將風險管理有關理論及技術工具用于其中進行定性分析,主要有依照前期擬定好落實的基礎設施高危設備巡視、檢查清單與有關運維器具功能,按照季度對各機房進行一次和“體格檢查”相似的巡檢活動,針對當場采獲到的設備運轉信息與故障記錄情況作出容量管控等解讀專研,借此方式感知到哪些設備存有“患病”的表征,盡早和設備廠商取得聯系進行調換與養(yǎng)護;針對現場排查出的安全隱患,依照其嚴重性對其進行分級、分類,制定風險登記薄與改進計劃,及時作出閉環(huán)式處置,借此方式增強通信網絡運行過程的安穩(wěn)性。
2 基礎設施運維管理的必要性
(1)進一步量化設備的運維指標,拓展巡視檢查的深度性,整體提升設備運行過程的安穩(wěn)性、可靠性。
(2)盡早探查到安全隱患,降低故障發(fā)生的風險。
(3)提升竣工驗收工作質效,減輕前期工程項目滯留的缺陷對后期運維安全形成的不良影響。
(4)加大對外包運維團隊的監(jiān)管力度,整體提升他們的運維管理能力與工作力度。
(5)形成數據中心運維統(tǒng)一化規(guī)范,為廣大客戶群體提供標準化運維服務,提高他們的滿意度。
(6)采用統(tǒng)計的巡檢清單和運維指標,循序漸進提高運維綜合水平與部署能力。
3 數據中心基礎設施運維管理措施
3.1 規(guī)劃設計
在規(guī)劃設計實施階段,運維管理工作的側重點是嚴把“方案審核”關卡,等同于參照數據中心的所屬等級、國標和行業(yè)規(guī)定、客戶主觀需求、地方政府機關下達政策體制等,整體測評基礎設施運轉過程安穩(wěn)性、低成本性、通用性、可拓展性以及效益產出等,合理調度各類資源,最大限度地提升其有效利用率,力爭做到科技高端、節(jié)能有效、成本科學化。
但是工作實踐中,受多種因素的影響,很可能造成數據中心無法較好地滿足部分業(yè)務運維工作實施時提出的要求,故而需對其作出整改,降低標準要求是最無奈之舉。故而在設計階段應對以下幾點問題予以一定重視。
3.1.1 加大需求管理力度
部分設計人員可能依照主觀臆斷去設定數據中心的功能指標,過度追求指標的高可用性、低能耗性,而在具體操作環(huán)節(jié)并沒有嚴格按照現行規(guī)程作出充分論證,造成設計方案中部分內容和配置實況、項目綜合規(guī)劃存在較大差異。由此滋生出一些負面后果,若屢次整改設計方案,則會導致部分資金浪費、工期延長,降低已投運機房的利用率,削弱了規(guī)劃工作的效能。故而,于需求管理階段應認真落實如下幾點工作:①明確業(yè)務持續(xù)發(fā)展與用戶特殊要求;面對擴容項目時,需明確現網資源的容量狀況及投入狀態(tài);②把控持續(xù)改進的需求,針對一些業(yè)務或者用戶需求模糊化情況,理應留置后期完善整改的空間;③牢牢掌控設備技術改革和發(fā)展需求,密切關注業(yè)內與技術發(fā)展動態(tài),盡早使用可執(zhí)行度較高的新科技、設備及方案等,在具體應用前均要組織專職人員屢次論證并進行試驗檢測,取得確切的結論后再做規(guī)模化應用的決策。
3.1.2 科學規(guī)劃設計的次序
既往部分數據中心的建設方主管未能關注設計先后次序的規(guī)劃情況,很可能是在確定好結構以后,再規(guī)劃、部署機電系統(tǒng)安裝活動,以致數據中心規(guī)劃部署階段遇到諸多阻力。如有結構設計狀態(tài)不符合機電系統(tǒng)場地實際布設要求,這是造成機房空間配置欠缺合理性的主要原因之一,不同機房之間分區(qū)不科學,管路、線纜距離控制力度不全面或者不到位,不僅會增加資金投入量、不利于系統(tǒng)安穩(wěn)運轉,也增加后期運維工作難度系數。
合理的規(guī)劃設計次序可以做出如下表述。
①結合業(yè)務現實運行以及客戶主管需求等,準確設定數據中心規(guī)劃的級別、規(guī)模、容量值等。
②落實各類型機電、制冷系統(tǒng)方案及機架規(guī)劃任務。最后,參照如上方案內容規(guī)劃建筑結構、規(guī)模及管線安裝方案等,使數據中心建筑結構和機電安裝方案兩者契合度得到更大保障。
3.1.3 盡量提升系統(tǒng)架構的設計水平
可以把數據中心基礎設施看成是一個結構樣態(tài)復雜、內部配置的不同構造相互關聯的系統(tǒng),任一方面存在缺陷均可能會降低整個磁通的可靠性[3]。鑒于以上情況,設計人員要主動確立大局觀,特別是在供電、制冷系統(tǒng)方面進行全面規(guī)劃。如針對數據中心配置的備用柴油發(fā)電機系統(tǒng),并且要求機組與并機帶有自動化功能,還要分析從市電斷離后至備用系統(tǒng)完成供電的所有邏輯設計,比如啟停信號產出和傳送、機組并行與輸出油機調換邏輯、測算蓄電池后備時長等。
3.1.4 完善系統(tǒng)的可操作性、修復性水平
任何設備投運階段發(fā)生故障在所難免,運維階段應指派專人落實常規(guī)巡檢維修、故障應急處置、設備檢查與維修、報廢更替等工作事宜。故而,在規(guī)劃設計過程中應重點分析機房建設空間;設備巡檢、維護操作空間,設備選型環(huán)節(jié)其可維護性;設備更換過程中需要投用的備件類型或者搬運渠道,系統(tǒng)智能化抵達的高度,減少手工輔助操作環(huán)節(jié)等。
3.1.5 鼓勵運維人員主動參與規(guī)劃設計工作
該種措施實施的益處如下。
(1)彌補設計人員在運維管理經驗方面存在的疏漏,減少或規(guī)避設計缺陷。
(2)盡量維持規(guī)劃設計和運維目標兩者的統(tǒng)一性。
(3)能較全面地分析運維期間對設計提出的要求。
3.2 工程實施
工程實施等同于把設計預想由圖紙轉變成生產力并予以充分落實,該階段工作的側重點是嚴格把控“入網驗收”關卡。
在工程隨工環(huán)節(jié)推進階段,針對設備類工程項目而言,重點是針對各類到貨設備、輔助性材料逐一進行確認,并加大對管路的施工工藝執(zhí)行階段的監(jiān)管力度。如針對空調銅管焊接,相關人員需要做好、做實氮氣保護工作,在焊接結束后吹洗、保壓試驗檢測活動應及時跟進。針對空調用各類水管,一定要嚴格依照設計要求做好防腐處理、承壓試驗。
在待調試設備施工與測驗工作整體結束后方可進行通電調試,要求各種標識完整、內容精確,以最嚴謹的態(tài)度開展通電調試。落實該項工作后便能測試性能及驗證功能,嚴格依照現行有關國家、行業(yè)、企業(yè)標準及具體設計要求,從設備與系統(tǒng)層面上分別進行測驗。針對調試、檢測階段發(fā)現的問題,盡早形成消缺清單,逐個解除。
入網交維可以被視為由工程建設轉進運維階段的標識。在落實設備交接任務的基礎上,還需做好以下幾方面的交接。
(1)形成完整的調試、檢測報告,缺陷消除工作落實狀況。
(2)全部系統(tǒng)、設備相匹配的說明書、技術性材料。
(3)和項目相關的合同、技術規(guī)范文書。
(4)設備的售后、保修狀況以及具體聯絡人。
3.3 運行維護
從宏觀層面上分析,預防性管理是運維階段的核心工作內容,重點要從以下2個方面:①實施前置式容量管理,加大對用電行為的管理與控制。統(tǒng)一容量預警管理和現實用電需求、上下電管理,力爭整體把供電、供冷系統(tǒng)的容量均控制在理想范疇中。②推行常態(tài)化的隱患排查整治措施。具體是采用日常巡檢、預防性維護、專項檢查等方法去辨識隱患風險,參照隱患對業(yè)務的影響范疇、隱患整治階段滋生出的次生風險狀況,對風險作出綜合性測評,編制最后的隱患整治方案,并規(guī)范化的實施整治措施,力爭將故障問題扼殺于萌芽狀態(tài)中。
3.4 應急保障
應急預案是應急保障目標實現的前提條件,科學預測數據中心基礎設施投用階段可能出現的各種狀況,解讀成因以后,系統(tǒng)化的制定應急保障預案,如果面對的是大型數據中心,還需要對供電保障方案的級別作出規(guī)劃。
4 結束語
數據中心基礎設施運維管理是業(yè)內人員不斷探究的共性課題之一,本文以此為出發(fā)點展開論述,希望能不斷排除故障隱患,將其發(fā)生率降至最低。本文闡述運維管理方法與措施,相關人員在實踐中可以有選擇性的借鑒,并不斷總結方法經驗,在運維與管理方面做出創(chuàng)新,促進運維工作智能化、安全、高效率推進過程。
參考文獻
[1] 于劉.大型數據中心基礎設施智能化及自動化研究[J].數字通信世界,2020,17(9):81-82.
[2] 張雷.黑龍江省副省長程志明調研5G、數據中心新型基礎設施建設[J].通信管理與技術,2020,31(4):1-2.
[3] 王景艷,劉洋.基于鐵路主數據中心云化基礎設施的災備關鍵技術研究[J].鐵路計算機應用,2020,29(7):11-15.
[4] 梁麗雯.數據中心和云需求激增,引爆IT基礎設施萬億級市場[J].金融科技時代,2020,28(6):94.
[5] 全玉榮.數據中心基礎設施施工進度管理的分析和探討[J].科技經濟導刊,2020,28(15):53,52.
[6] 郝峻.數據中心基礎設施智能運維探討[J].電信技術,2019(11):51-55.
[7] 田軍,陳文婷,羅志剛.智能化平臺在數據中心基礎設施運維管理中的應用[J].現代建筑電氣,2015(9):12-17.
[8] 毛文杰.數據中心基礎設施運維風險管理技術[J].電信工程技術與標準化,2017,30(6):67-71.
[9] 郝峻.數據中心基礎設施智能運維探討[J].電信技術,2019(11):51-55.
[10] 肖正煒.智能化平臺在數據中心基礎設施運維管理中的應用[J].今日自動化,2019(2):44-45.