• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)中心故障頻出:都是網(wǎng)絡(luò)惹的禍?

      2019-04-25 05:29AnnBednarz
      計算機世界 2019年14期
      關(guān)鍵詞:宕機中斷數(shù)據(jù)中心

      Ann Bednarz

      隨著企業(yè)計算環(huán)境變得越來越復雜,IT系統(tǒng)故障和網(wǎng)絡(luò)錯誤正導致越來越多的數(shù)據(jù)中心出現(xiàn)運行中斷,造成了大量的意外宕機事件。

      電源故障是導致數(shù)據(jù)中心運行中斷的常見原因,但它們并不是唯一的罪魁禍首。隨著企業(yè)計算環(huán)境變得越來越復雜,IT系統(tǒng)和網(wǎng)絡(luò)故障正在導致越來越多的數(shù)據(jù)中心宕機。

      數(shù)據(jù)中心設(shè)施咨詢機構(gòu)Uptime Institute的主要業(yè)務(wù)為提供彈性服務(wù),為建立和運行數(shù)據(jù)中心提供建議以及認證服務(wù)。該公司一直在研究公開發(fā)表的宕機報道,以追蹤導致意外停機的原因。過去三年中,他們已經(jīng)從傳統(tǒng)媒體或社交媒體上報道出來的162次宕機報告中篩選出了一些信息??捎玫臄?shù)據(jù)在這三年內(nèi)不斷增加,研究人員收集到了2016年27次宕機、2017年57次宕機以及2018年78次宕機的數(shù)據(jù)。

      Uptime Institute的研究執(zhí)行董事Andy Lawrence表示:“曝光出來的宕機事故成為新聞的次數(shù)正變得越來越多?!?/p>

      在研究結(jié)果公布的同時,Lawrence指出,目前他們正記錄著全球每天發(fā)生的幾乎所有的重大運行中斷事件。雖然這并不一定意味著運行中斷的次數(shù)在急劇增加,但是宕機時間正在受到越來越多的關(guān)注?!拔覀兒芮宄\行中斷產(chǎn)生的影響肯定會增加。”

      Uptime Institute的一個重要研究發(fā)現(xiàn)是,電源在整個故障中影響較小,但網(wǎng)絡(luò)和IT系統(tǒng)的影響則較為深遠。導致變化的一個原因是電力系統(tǒng)比過去更加可靠,這減少了本地數(shù)據(jù)中心發(fā)生電力故障的次數(shù)。

      技術(shù)行業(yè)在過去二十年中一直專注于如何設(shè)計電力系統(tǒng),即使電力系統(tǒng)某處出現(xiàn)故障或整個系統(tǒng)發(fā)生故障,IT資產(chǎn)也能繼續(xù)運行。Uptime Institute首席技術(shù)官Chris Brown稱:“供應(yīng)雙線IT設(shè)備的2N配電系統(tǒng)的出現(xiàn)使得IT系統(tǒng)能夠在經(jīng)歷一系列獨立事件和事故后仍能繼續(xù)保持運行?!?/p>

      同時,日益復雜的IT環(huán)境導致了更多的IT和網(wǎng)絡(luò)問題。Uptime Institute負責IT優(yōu)化和戰(zhàn)略的副總裁Todd Traver稱:“數(shù)據(jù)現(xiàn)在分布在多個地方,這些數(shù)據(jù)極為依賴網(wǎng)絡(luò)。應(yīng)用程序的構(gòu)建以及數(shù)據(jù)庫的復制同樣也非常依賴網(wǎng)絡(luò)。這是一個非常復雜的系統(tǒng)?!?/p>

      對數(shù)據(jù)中心運行中斷的嚴重性的評估

      為了區(qū)分可能導致業(yè)務(wù)崩潰的運行中斷和僅僅造成不便的運行中斷,Uptime Institute對此進行了分級。該評級系統(tǒng)可讓研究人員了解運行中斷的整體情況是如何隨時間而變化的。Uptime Institute的評估分為五個等級:

      1級為可忽略不計的中斷。該級別的中斷會被記錄下來,但是對服務(wù)的影響很小或沒有明顯影響,也沒有出現(xiàn)服務(wù)中斷。

      2級的特點為最低程度的服務(wù)中斷。服務(wù)出現(xiàn)中斷,但對用戶、客戶或聲譽的影響微乎其微。

      3級為重要業(yè)務(wù)發(fā)生服務(wù)中斷,涉及客戶或用戶服務(wù),主要特點是范圍、持續(xù)時間或影響有限。對財務(wù)的影響輕微甚至沒有,但是會產(chǎn)生一些聲譽或合規(guī)方面的影響。

      4級為嚴重的業(yè)務(wù)或服務(wù)中斷,涉及服務(wù)和/或操作。波及面包括財務(wù)損失、數(shù)據(jù)泄露、聲譽損害并可能出現(xiàn)安全問題??赡軙е驴蛻魮p失。

      5級為關(guān)鍵業(yè)務(wù)或任務(wù)出現(xiàn)中斷,包括服務(wù)和/或運營出現(xiàn)重大和破壞性中斷。 可能會造成重大財務(wù)損失、安全問題、數(shù)據(jù)泄露、客戶損失和名譽損失。

      在分析了三年內(nèi)所有公開的數(shù)據(jù)中心運行中斷(級別1到5)事件后,Uptime Institute發(fā)現(xiàn)IT系統(tǒng)和網(wǎng)絡(luò)問題已經(jīng)超過了電源成為了主要原因(見圖)。

      在逐年對原因進行比較后,這種趨勢會顯得尤為突出。2017年,電力是28%運行中斷事件的罪魁禍首。次年,僅有11%的運行中斷事件的主因為停電。與IT系統(tǒng)有關(guān)的故障則在這兩年中基本保持一致。其中,2017年32%的運行中斷事件的主因為系統(tǒng)故障,2018年這一比例為35%。網(wǎng)絡(luò)作為運行中斷的主要原因在顯著增長。其中,2017年19%的運行中斷事件被歸咎于網(wǎng)絡(luò),2018年這一比例飆升到了32%。

      Traver在談到2018年運行中斷事件數(shù)量大幅增長時指出,“這些事情之間的確是相互聯(lián)系的。這也就是為什么網(wǎng)絡(luò)中斷的大幅上升會導致運行中斷的原因所在。這些東西不是連接在一個或兩個站點上,而是連接在三個、四個站點,甚至更多的站點上。如今,網(wǎng)絡(luò)在IT彈性方面正發(fā)揮著越來越大的作用。

      此外,隨著更多IT資源被移交給服務(wù)提供商,并且不再受使用它們的企業(yè)的直接控制,管理和操作也變得越來越復雜。Traver稱:“在2018年,三分之二的運行中斷事件與網(wǎng)絡(luò)和IT有關(guān)。這是在過去幾年中出現(xiàn)的一個重大變化。”

      深入研究數(shù)據(jù)中心的宕機時間

      Uptime Institute對導致數(shù)據(jù)中心運行中斷的具體原因進行了深入的研究。在網(wǎng)絡(luò)方面,導致運行中斷的常見原因包括:

      連接數(shù)據(jù)中心的外部光纖被切斷,并且未充分選擇備份路由。

      主要交換機間歇性故障,且未部署次要路由器。

      主要交換機故障且沒有備份。

      維護期間未正確配置流量。

      路由器和軟件定義的網(wǎng)絡(luò)未正確配置。

      無備用的單個組件(如交換機和路由器)發(fā)生斷電。

      Traver指出,“錯誤配置的路由器和軟件定義的網(wǎng)絡(luò)是常見的網(wǎng)絡(luò)問題。這一問題應(yīng)當可通過測試被檢測出來?!?/p>

      當談到光纖被切斷問題時,Traver說,企業(yè)此時往往沒有意識到他們發(fā)生了單點故障?!捌髽I(yè)可能有兩個獨立的服務(wù)提供商,但他們不知道,兩個提供商的光纖埋在同一個溝渠中。同時,企業(yè)也沒有對這一問題展開恰當?shù)谋M職調(diào)查。”

      當IT為罪魁禍首時,造成運行中斷的主要原因如下:

      對升級工作管理不善,對軟件級別測試不充分。

      大型磁盤驅(qū)動器或存儲區(qū)域網(wǎng)絡(luò)發(fā)生故障并出現(xiàn)數(shù)據(jù)損壞。這可能是由硬件故障引起的,配置或編程錯誤讓問題雪上加霜。

      負載平衡或流量管理系統(tǒng)中發(fā)生同步故障或程序錯誤。

      未能對故障/同步或災難恢復系統(tǒng)進行正確的編程。

      無備用的單個組件(如服務(wù)器或大型磁盤驅(qū)動器)發(fā)生斷電。

      談到負載均衡/流量管理問題,Lawrence表示,在企業(yè)嘗試將IT資源部署的更為分散時,可能會出現(xiàn)程序錯誤和同步問題。Lawrence說:“減少對單一站點的依賴性通常是企業(yè)戰(zhàn)略的一部分,但是它們就像擠壓氣球一樣,問題突然出現(xiàn)在其他地方?!?/p>

      Traver補充道,如果企業(yè)沒有認真規(guī)劃他們在所有平臺上的應(yīng)用程序和數(shù)據(jù),或是沒有展開經(jīng)常性測試,那么這些問題就會發(fā)生。

      當電源是罪魁禍首時,導致運行中斷的一些主要原因包括:

      雷擊導致出現(xiàn)電涌和斷電。備份軟件/配置失敗。

      轉(zhuǎn)換開關(guān)出現(xiàn)間歇性故障,導致無法啟動發(fā)電機,或轉(zhuǎn)移到第二個數(shù)據(jù)中心。

      UPS故障和無法轉(zhuǎn)移到輔助系統(tǒng)。

      操作錯誤,關(guān)閉或未正確配置電源。

      公用電力斷電,隨后發(fā)生發(fā)電機或UPS故障。

      電涌導致IT設(shè)備損壞。

      IT設(shè)備未配備兩種互為備份的電源供給方式。

      Brown稱,在以電源問題為主因的運行中斷事件中,所有具體原因大家都非常熟悉?!斑@些都是數(shù)據(jù)中心的工程師們幾十年來一直在努力解決的問題,即如何圍繞這些問題進行設(shè)計,以及如何利用他們的設(shè)計緩解這些問題?!?/p>

      Traver表示,總的來說,企業(yè)需要更加關(guān)注數(shù)據(jù)中心的彈性。他說:“要知道自己的系統(tǒng)是如何設(shè)計的,充分理解各部分之間的關(guān)聯(lián)性。同時還要知道故障是如何發(fā)生的,以及故障發(fā)生后的應(yīng)急預案。而我認為這一塊是缺失的?!?/p>

      Lawrence總結(jié)道,“如今設(shè)備正越來越好,管理越來越出色,經(jīng)驗也越來越豐富。整個行業(yè)正變得越來越成熟。但即便如此,運行中斷仍將是一個非常重要和代價高昂的問題?!?/p>

      本文作者Ann Bednarz,主要負責為《網(wǎng)絡(luò)世界》采訪報道IT職業(yè)、外包和互聯(lián)網(wǎng)文化方面的新聞。

      原文網(wǎng)址

      https://www.networkworld.com/article/3373646/network-problems-responsible-for-more-data-center-outages.html

      猜你喜歡
      宕機中斷數(shù)據(jù)中心
      酒泉云計算大數(shù)據(jù)中心
      島內(nèi)人口普查剛啟動就遇“宕機”
      民航綠色云數(shù)據(jù)中心PUE控制
      跟蹤導練(二)(5)
      千里移防,衛(wèi)勤保障不中斷
      基于集中采購的分布式系統(tǒng)的設(shè)計與實現(xiàn)
      一起民航氣象數(shù)據(jù)庫系統(tǒng)進程頻繁宕機故障分析及處理方法
      基于云計算的交通運輸數(shù)據(jù)中心實現(xiàn)與應(yīng)用
      Overlay Network技術(shù)在云計算數(shù)據(jù)中心中的應(yīng)用
      AT89C51與中斷有關(guān)的寄存器功能表解
      巫溪县| 阜宁县| 天峨县| 萝北县| 长泰县| 庄浪县| 宝丰县| 瑞昌市| 高雄市| 通辽市| 海林市| 客服| 尼木县| 从江县| 龙门县| 德州市| 南雄市| 灌南县| 工布江达县| 万宁市| 汝阳县| 山西省| 钟祥市| 永年县| 陕西省| 家居| 牡丹江市| 盐津县| 四平市| 卫辉市| 陈巴尔虎旗| 雷山县| 昌平区| 望江县| 沅江市| 武宁县| 界首市| 策勒县| 闵行区| 淮阳县| 中山市|