陳其云 中國信息通信研究院產(chǎn)業(yè)與規(guī)劃研究所高級工程師
吳 博 中國信息通信研究院產(chǎn)業(yè)與規(guī)劃研究所工程師
近些年,我國IDC運行安全事件不斷發(fā)生,影響到行業(yè)發(fā)展和經(jīng)濟社會的平穩(wěn)運行,也暴露出IDC企業(yè)在多個環(huán)節(jié)存在的眾多安全隱患,加強監(jiān)管已勢在必行。IDC運行安全十分重要,但是國內(nèi)對運行安全事件的應(yīng)對處置和等級認定方法尚未有統(tǒng)一規(guī)范,理論界對此幾乎未有多少探討和研究。而其他各類公共安全事件的等級劃分通常都是定性評估,缺乏定量標準。因此,本文將提出定量和定性相結(jié)合的IDC運行安全事件等級劃分方法。該方法可供IDC企業(yè)參考,也可為政府部門在IDC運行安全事件的處置提供借鑒。
IDC運行安全事件指由于自然災(zāi)害、停電、火災(zāi)等原因造成的機房環(huán)境、傳輸線路、設(shè)備與系統(tǒng)等基礎(chǔ)網(wǎng)絡(luò)設(shè)施及軟硬件系統(tǒng)的中斷和不穩(wěn)定運行。
2015年5月27日,由于光纜被挖斷,支付寶用戶中約有一半以上(超過1億)用戶在支付過程中出現(xiàn)支付不成功、發(fā)生銀行掉單、無法查詢余額的故障,歷時2小時40分鐘;2016年7月30日,因服務(wù)器故障,微信朋友圈無法打開,微信圖文也無法打開,此故障持續(xù)時間為2h,期間部分微信用戶的微信公眾號文章無法打開;2017年6月17日,新浪微博經(jīng)歷了“黑色一小時”,幾乎全平臺癱瘓,微博CIO王巍在事后回應(yīng)稱,此次故障的原因是“外部機房整層掉電”,這意味著支撐著上億用戶的新浪微博數(shù)據(jù)中心出現(xiàn)因電力保障問題而宕機的運行安全事件。
綜合分析歷年各類IDC運行安全事件可看出,風(fēng)險主要在于以下3個方面:
(1)機房環(huán)境安全隱患
在基礎(chǔ)通信設(shè)施方面,部分數(shù)據(jù)中心機房設(shè)備存在單點單路由的情況,災(zāi)備手段并不健全;部分機房負荷較大,出口帶寬利用率較高,存在安全風(fēng)險。在基礎(chǔ)物理設(shè)施方面,供電系統(tǒng)安全問題居多,在日常應(yīng)用時不接UPS或UPS電池已經(jīng)損壞而不更換的情況經(jīng)常發(fā)生。據(jù)不完全統(tǒng)計,大約40%的數(shù)據(jù)中心機房存在無雙路供電、無UPS供電、無油機供電等電力保障隱患。
(2)一些基礎(chǔ)網(wǎng)絡(luò)設(shè)備和業(yè)務(wù)平臺存在較多安全隱患
在網(wǎng)絡(luò)功能虛擬化的趨勢下,依托云計算數(shù)據(jù)中心聚焦起多種應(yīng)用復(fù)雜系統(tǒng),特別是異構(gòu)的網(wǎng)絡(luò)環(huán)境和多設(shè)備的并行給運維工作帶來了極高的要求,其安全性、自動化、資源統(tǒng)籌等都已經(jīng)成為當(dāng)下運維安全的棘手問題。
(3)傳輸線路安全隱患
首先,傳輸線路自身保護級別不夠。部分互聯(lián)網(wǎng)企業(yè)出于節(jié)約成本的考慮,通過裸光纖連接不同機房的交換機實現(xiàn)組網(wǎng),難以做到電信級的傳輸保護,帶來安全隱患;其次,重要節(jié)點存在單點或單路由故障隱患。存在單點或單路由故障隱患的重要傳輸節(jié)點,一旦發(fā)生安全問題,容易造成網(wǎng)絡(luò)或業(yè)務(wù)平臺癱瘓,引發(fā)業(yè)務(wù)中斷;最后,部分傳輸帶寬資源緊張。隨著業(yè)務(wù)的發(fā)展和用戶規(guī)模的增多,網(wǎng)絡(luò)帶寬需求不斷增長,網(wǎng)絡(luò)資源相對緊張,一些突發(fā)訪問流量疏導(dǎo)不足,可能會導(dǎo)致部分應(yīng)用不能及時響應(yīng)。
運行安全事件等級劃分有較大的現(xiàn)實意義,對事前預(yù)防、事中應(yīng)對和事后處置方面都有重要作用。以下將從運行安全事件的界定因素、劃分標準、劃分方法和改進方向出發(fā),闡述如何劃分運行安全事件等級。
(1)服務(wù)中斷時間。在實際運營中,當(dāng)IDC出現(xiàn)故障時,不管個人用戶還是企業(yè)用戶,最關(guān)心的是服務(wù)中斷時間,而服務(wù)提供者和政府監(jiān)管部門也最關(guān)心什么時候能恢復(fù)。IDC服務(wù)標準里也用可用性來衡量這一指標,例如國際公認的數(shù)據(jù)中心標準ANSI-TIA-942-2005中的最高級別Tier4標準,對數(shù)據(jù)中心的要求是系統(tǒng)的可用性需達到99.995%,轉(zhuǎn)化為時間約是1.6h。因此,服務(wù)中斷時間是界定IDC運行安全事件等級所需要考慮的第一個要素。
(2)影響用戶數(shù)。除了服務(wù)中斷時間,作為服務(wù)提供者和政府監(jiān)管部門也特別關(guān)心受故障影響的用戶數(shù)量。這涉及整個事件的波及范圍,范圍越大給服務(wù)提供者和政府監(jiān)管部門的壓力也越大。因此,影響用戶數(shù)是界定IDC運行安全事件等級所需要考慮的第二個要素。
(3)經(jīng)濟損失。用戶、服務(wù)提供者和政府都關(guān)心IDC運行安全事件所造成的經(jīng)濟損失。用戶關(guān)心事件給自己帶來的經(jīng)濟損失,特別是企業(yè)用戶;服務(wù)提供者需要關(guān)心事件對自身、用戶和社會造成的經(jīng)濟損失;政府部門主要關(guān)心事件對社會造成的經(jīng)濟損失。另外,經(jīng)濟損失分為直接經(jīng)濟損失和間接經(jīng)濟損失。經(jīng)濟損失在實踐中面臨較難準確計算的問題,通常采用估算的方法。
(4)在實際工作中,往往需要考慮一些特殊情況,包括重大會議和活動的IDC服務(wù)支撐和保障工作等。例如,我國的“兩會”、奧運會、G20會議等各類重大會議和活動。這些都是對IDC運行安全保障工作的重要考驗。
本文將基于以上介紹的服務(wù)中斷時間、影響用戶數(shù)、經(jīng)濟損失和重大會議和活動支撐中斷4個界定因素,對IDC運行安全事件等級進行劃分。參考《國家突發(fā)公共事件總體應(yīng)急預(yù)案》和《國家網(wǎng)絡(luò)安全事件應(yīng)急預(yù)案》對突發(fā)公共事件和網(wǎng)絡(luò)安全事件等級的劃分方法,將IDC運行安全事件分為4個等級,分別是特別重大事件、重大事件、較大事件和一般事件。
(1)服務(wù)中斷時間
●特別重大事件。數(shù)據(jù)中心標準ANSI-TIA-942-2005中Tier3標準數(shù)據(jù)中心要求,系統(tǒng)的可用性需達到99.982%,即平均一年中斷時間不超過1.6h。因此,參考Tier3標準,本文將IDC服務(wù)單次中斷超過2h(即一次用完全年額度,屬于Tier2標準及以下)作為特別重大事件起始點。
●重大事件。參考國務(wù)院《特別重大、重大突發(fā)公共事件分級標準》中,從特別重大事件到重大事件界定標準之一是持續(xù)時間減半。例如,鐵路繁忙干線、國家高速公路網(wǎng)線路遭受破壞,造成行車中斷,經(jīng)搶修48h內(nèi)無法恢復(fù)通車的確定為特別重大安全事故;鐵路繁忙干線、國家高速公路網(wǎng)線路遭受破壞,或因嚴重損毀造成通行中斷,經(jīng)搶修24h內(nèi)無法恢復(fù)通車確定為重大安全事故。因此,本文將IDC服務(wù)單次中斷超過1h作為重大事件的起始點。
●較大事件。Tier4標準對數(shù)據(jù)中心的要求是系統(tǒng)的可用性需達到99.995%,即平均一年中斷時間不應(yīng)超過0.44h。而目前國內(nèi)大部分IDC無法達到這一較高要求。因此,本文將IDC服務(wù)單次中斷0.5h作為較大事件的起始點。
●一般事件。本文將IDC服務(wù)單次中斷0.5h以下的作為一般事件。
(2)影響用戶數(shù)
根據(jù)CNNIC調(diào)查數(shù)據(jù)顯示,主要互聯(lián)網(wǎng)企業(yè)用戶規(guī)?;径荚?000萬用戶以上(約占現(xiàn)網(wǎng)民總量6.5%)。本文將影響1000萬用戶(即5000萬戶的20%)作為特別重大事件的起始點。即使是作為我國互聯(lián)網(wǎng)用戶規(guī)模最大的微信,1000萬用戶也達到了其10億月活用戶的1%這一臨界值。本文將影響500萬用戶作為較大事件的起始點,將影響100萬用戶作為較大事件的起始點,將影響100萬用戶以下作為一般事件。
(3)經(jīng)濟損失
參考國務(wù)院出臺的《生產(chǎn)安全事故報告和調(diào)查處理條例》對事故等級的劃分標準,本文將造成1億元以上直接經(jīng)濟損失的IDC運行安全事件定為特別重大事件,將造成5000萬元以上1億元以下直接經(jīng)濟損失的定為重大事件,將造成1000萬元以上5000萬元以下直接經(jīng)濟損失的定為較大事件,將造成1000萬元以下直接經(jīng)濟損失的定為一般事件。
(4)重大會議和活動支撐中斷
在實際運營中,確保重大會議和活動中的服務(wù)不中斷是IDC運行安全保障工作的一個重點。結(jié)合我國實際情況,本文將造成國際或國家級會議和活動支撐中斷的IDC運行安全事件定為特別重大事件,將造成省部級會議和活動支撐中斷的IDC運行安全事件定為重大事件,將造成地市級會議和活動支撐中斷的IDC運行安全事件定為較大事件,將造成地市級以下會議和活動支撐中斷的IDC運行安全事件定為一般事件。
表1中4個界定因素可單獨作為劃分IDC運行安全事件等級的標準,也可以結(jié)合使用。例如,基于經(jīng)濟損失和重要會議活動支撐中斷兩個因素可以分別作為事件等級劃分方法;但單獨關(guān)注服務(wù)中斷時間或影響用戶數(shù)都將有失偏頗。
表1 4個界定因素總結(jié)
結(jié)合考慮服務(wù)中斷時間和影響用戶數(shù)兩個因素,可以得到如圖1所示的IDC運行安全事件等級劃分方法。
圖1表示出不同區(qū)域代表不同的事件等級,這是較常見的一種劃分方法,即同時滿足時間和用戶數(shù)來確定事件等級。但此類方法存在一些問題,例如雖然有的事件中服務(wù)中斷的時間低于2h,但由于其涉及的用戶規(guī)模特別大,甚至達到數(shù)億級別,顯然此類事件應(yīng)屬于特別重大事件,而不是只作為重大事件。因此,提出了方法二。
圖1 基于服務(wù)中斷時間和影響用戶數(shù)的事件等級劃分方法一
為避免出現(xiàn)上述問題,本文將在分析界定因素時所確定的時間軸和用戶數(shù)量軸上關(guān)鍵點的基礎(chǔ)上,通過曲線區(qū)間法對事件等級進行劃分(見圖2)。
曲線區(qū)間法以用戶數(shù)和時間乘積構(gòu)建了xy=k曲線。其中,k基于前述關(guān)鍵點數(shù)值分析分別取0.05、0.5、2,由此構(gòu)成了3條區(qū)間邊界曲線。如圖2中的示例,2℃線的由來分析如下:
2000萬(用戶×小時)=2千萬(用戶)×小時=2kWh=2度=2℃
因此,上述曲線可稱之為IDC運行安全事件的溫度線。特別重大事件區(qū)間范圍是2000萬(用戶×小時)及以上(即2℃線及以上);重大事件區(qū)間范圍是500萬(用戶×小時)到2000萬(用戶×小時)(即0.5℃線到2℃線);較大事件區(qū)間范圍是50萬(用戶×小時)到500萬(用戶×小時)(即0.05℃線到0.5℃線);一般事件區(qū)間范圍是50萬(用戶×小時)以下(即0.05℃線以下)。
在企業(yè)IDC運營中,可參考這一方法,以3條溫度線為界對IDC運行安全事件等級進行劃分。當(dāng)然,除了用于劃分等級,用戶數(shù)和時間乘積(可稱之為事件溫度值)可用于判斷任一運行安全事件的嚴重性。極端情況下,例如10億用戶服務(wù)中斷1h,事件溫度值將達到沸點100℃,顯然社會也將“沸騰”。政府部門在IDC運行安全實際監(jiān)管中也以此溫度線作為判斷事件等級和嚴重性的依據(jù)。
以上提出的基于4個界定因素4種方法,特別是方法二以數(shù)學(xué)曲線定量的方式劃分IDC運行安全事件的等級,該方法論能較好地用于實踐當(dāng)中。但是,也面臨一些問題,例如在事件定級方面,目前門檻較低,較容易出現(xiàn)特別重大事件,可以進一步參照業(yè)界現(xiàn)實案例進行調(diào)整。在影響的用戶數(shù)量確定方面,特別是對局部故障的情況下,要準確計算影響的用戶數(shù)有較大難度。在經(jīng)濟損失的估算方面,也沒有固定標準,對損失的確定,不同企業(yè)不同用戶的認識不一,也就導(dǎo)致估算不一定準確。同時,還可以考慮聲譽損失,當(dāng)然,聲譽損失最終也會反映到經(jīng)濟損失。在重大會議和活動支撐中斷方面,事件等級的劃分方法尚待優(yōu)化和細化,同一活動中不同時間段出現(xiàn)的問題的影響也不相同。另外,除了出現(xiàn)服務(wù)中斷之外,服務(wù)質(zhì)量也會出現(xiàn)問題,例如丟包率高、時延大等也屬于運行安全事件范疇。未來,可在這些方面進行改進。
圖2 基于服務(wù)中斷時間和影響用戶數(shù)的事件等級劃分方法二
當(dāng)前,加強IDC運行安全監(jiān)管十分必要。從宏觀發(fā)展環(huán)境看,我國加快構(gòu)建高速、安全、穩(wěn)定的IDC基礎(chǔ)設(shè)施,對于推動實施“互聯(lián)網(wǎng)+”行動計劃,實施網(wǎng)絡(luò)強國戰(zhàn)略,服務(wù)大眾創(chuàng)業(yè)萬眾創(chuàng)新,激發(fā)形成國家轉(zhuǎn)型升級的新動能,具有極為重要的現(xiàn)實意義和戰(zhàn)略意義。從行業(yè)發(fā)展角度看,IDC的建設(shè)水平良莠不齊,運行安全事件屢屢發(fā)生,嚴重影響著行業(yè)健康發(fā)展,提供優(yōu)質(zhì)IDC服務(wù)、保障IDC網(wǎng)絡(luò)設(shè)施安全已經(jīng)成為社會的廣泛呼聲。目前,監(jiān)管手段缺失和法規(guī)不健全,導(dǎo)致對IDC運行安全管理力度不足,這不利于提升互聯(lián)網(wǎng)設(shè)施建設(shè)質(zhì)量和支撐能力。從企業(yè)發(fā)展角度看,IDC企業(yè)自身也希望政府出臺監(jiān)管政策,制定管理或技術(shù)標準,來防范和規(guī)避運行安全風(fēng)險。從用戶需求角度看,用戶迫切希望政府能對IDC服務(wù)進行規(guī)范和指導(dǎo)。從這個角度講,強有力的監(jiān)管有利于增強用戶信任,推動行業(yè)的健康發(fā)展。
因此,建議我國制定IDC運行安全相關(guān)管理制度及實施細則,制定運行安全事件處理流程,細化政府監(jiān)管部門和互聯(lián)網(wǎng)企業(yè)的職責(zé)分工。制定IDC運行安全技術(shù)標準,明確IDC運行安全事件等級劃分方法,定期評估運行安全,切實提升運行安全保護工作整體效果。
參考文獻
[1]ANSI.Telecom munications Infrastructure Standard for Data Centers.ANSI-TIA-942-2005[S].2005,7.
[2]中華人民共和國國務(wù)院.生產(chǎn)安全事故報告和調(diào)查處理條例[Z].2006,1.
[3]工業(yè)和信息化部.電信網(wǎng)絡(luò)運行監(jiān)督管理辦法[Z].2009,4.