• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      移動網(wǎng)管中群集感知存儲設(shè)計方案研究

      2012-10-08 01:58:38管光明梁宏坤
      電信科學 2012年4期
      關(guān)鍵詞:存儲資源群集備份

      管光明,梁宏坤

      (1.中國移動通信集團上海有限公司 上海200061;2.上海貝爾股份有限公司 上海201206)

      1 引言

      移動通信網(wǎng)絡(luò)管理系統(tǒng)將日常運行維護管理工作信息化后,積累了與網(wǎng)絡(luò)運行有關(guān)的海量數(shù)據(jù),包括告警信息、性能統(tǒng)計信息、網(wǎng)絡(luò)參數(shù)配置信息等。對這些數(shù)據(jù)進行深度挖掘和分析,可以實時感知網(wǎng)絡(luò)的運行質(zhì)量,提出網(wǎng)絡(luò)容量和處理能力方面的擴容要求,及時發(fā)現(xiàn)故障隱患,在客戶察覺前將隱患排除,保持穩(wěn)定的通信質(zhì)量,提高客戶感知度,增強網(wǎng)絡(luò)競爭能力。這些數(shù)據(jù)對運營商極具價值,而保存這些數(shù)據(jù)的存儲系統(tǒng)必須要有較好的可用性和冗余特性。因此,如何設(shè)計網(wǎng)管中的存儲系統(tǒng)是一個重要的課題。

      通過對很多企業(yè)級IT環(huán)境的分析,發(fā)現(xiàn)高性能和高可用性都是通過群集方式實現(xiàn)的,通常是采用多服務(wù)器以實現(xiàn)負載均衡,采用冗余主機以實現(xiàn)高可用性。這些方案主要聚焦于主機的高可用性和IP連通性,而存儲部分則是通過 NAS (network attached storage)/SAN (storage area network)等來實現(xiàn)冗余彈性?,F(xiàn)代企業(yè)級存儲系統(tǒng)是相當復雜的,存儲網(wǎng)絡(luò)端到端整體性能和高可用性、存儲資源的配置和通道(fabric)互聯(lián)等都需要精心設(shè)計和規(guī)劃,采用以往隨機而沒有整體規(guī)劃的配置方法,性能和可用性都不理想,花費也較高。

      本文分析了在群集環(huán)境中提供存儲資源時所面臨的問題和挑戰(zhàn),提出了一種設(shè)計方案,綜合地考慮群集環(huán)境中存儲資源的規(guī)劃原則、優(yōu)化策略、實際部署,并且把存儲流量通過不同數(shù)據(jù)路徑分散到各節(jié)點,從而實現(xiàn)負載均衡并防止單點故障的發(fā)生。

      2 面臨的問題

      在應(yīng)用有高性能和高可用性要求時,要達到同樣的處理能力,單主機方案是相當昂貴的,而群集則要便宜很多。根據(jù)實際應(yīng)用場景,群集一般分為如下3種類型。

      ·高可用性群集:當軟硬件中有一個組件失敗時,群集軟件把應(yīng)用切換到備份節(jié)點,從而減少宕機時間,根據(jù)應(yīng)用程序?qū)B接超時的容忍程度,用戶可能都沒有意識到這個現(xiàn)象的發(fā)生。

      ·負荷均衡群集:服務(wù)器組中的多個實例同時運行以提供共同的業(yè)務(wù)集合,負荷在這些實例間分布,這種方式實際上形成了一臺功能強大的虛擬計算機。

      ·計算群集:主要用于大型的并行應(yīng)用,而不是事務(wù)性應(yīng)用。應(yīng)用和數(shù)據(jù)處理過程被劃分成很多小的組件或數(shù)據(jù)集,將這些任務(wù)分配給多個計算節(jié)點處理,將計算結(jié)果組合后再進行下一步處理。

      不同的應(yīng)用場景有不同的群集要求,因此群集需要精心規(guī)劃、提供和配置,以滿足實際應(yīng)用在性能和可用性兩方面的要求。提供群集資源時通常會面臨如下3個問題。

      ·群集的端到端配置中有多個組件,包括應(yīng)用、服務(wù)器、網(wǎng)絡(luò)和存儲等,而群集的性能依賴于這些組件的整體表現(xiàn)。

      ·即使群集軟件能夠偵測到軟硬組件的錯誤,并采取了正確措施(將業(yè)務(wù)流遷移到備份節(jié)點并重新實現(xiàn)負載均衡),但沒有一個全面的方案進行群集資源完整的端到端配置,完全是管理人員憑經(jīng)驗或粗略的計算來完成,這種做法費時易錯。

      ·目前很多群集應(yīng)用都要求訪問共享存儲,因為它向所有節(jié)點提供的數(shù)據(jù)視圖都是一致的。但是,共享存儲常常要為多個應(yīng)用系統(tǒng)提供服務(wù),這些系統(tǒng)上線時間前后不一,因此共享存儲的規(guī)劃、部署、配置等需要進行全面系統(tǒng)的考慮,這也是本文重點研究的內(nèi)容。

      群集環(huán)境中最常用的存儲技術(shù)是基于文件訪問的網(wǎng)絡(luò)存儲NAS和基于數(shù)據(jù)塊訪問的SAN。NAS和SAN是復雜的分布系統(tǒng),需要大量的人工配置,而配置水平的高低決定了存儲系統(tǒng)整體的性能和可用性。目前有一些商用工具,如IBM的全存儲產(chǎn)品中心(TPC)、EMC的SAN架構(gòu)器,試圖介入這一過程,但往往只考慮某一環(huán)節(jié),并沒有將端到端配置的所有方面加以完整考慮,導致存儲系統(tǒng)冗余彈性不佳。例如,在高可用性群集環(huán)境中,如果設(shè)計不當,主備節(jié)點通過同一條數(shù)據(jù)路徑訪問共享存儲,一旦這條路徑上的鏈路或交換機失敗,將導致主備節(jié)點都不能訪問存儲,從而導致整個業(yè)務(wù)都宕掉。這種設(shè)計還有一個大問題,由于多個群集節(jié)點通過同一路徑訪問存儲,這條路徑很快就會成為I/O瓶頸,發(fā)生擁塞,導致性能惡化。

      因此,有必要對群集訪問存儲的整體解決方案進行研究,主要方向是提高存儲資源的性能和冗余,及時動態(tài)地感知群集運行的變化。

      3 方案設(shè)計

      在NAS和SAN兩種存儲技術(shù)中,SAN幾乎沒有對業(yè)務(wù)環(huán)境中的IP網(wǎng)絡(luò)增加一點負荷,而且具有更高的性能和可用性,因此在高端環(huán)境中得到了最廣泛的使用,移動網(wǎng)管在實際部署時也普遍采用SAN。SAN同時也是最復雜的一種存儲技術(shù),是大規(guī)模共享存儲系統(tǒng)的發(fā)展方向,存儲行業(yè)對SAN的研究要遠遠超過NAS。因此,本文選擇SAN環(huán)境進行存儲設(shè)計方案的研究,并從群集資源組、存儲資源規(guī)劃提供、路徑配置、LUN(邏輯存儲單元)分配、流量切換等方面進行了完整的端到端考慮,同時還探討了相關(guān)的配置策略。

      3.1 群集資源組

      常見的HA群集解決方案包括IBM的HACMP(高可用多處理器群集)、微軟的MSCS(群集服務(wù)器)和Linux HA、賽門鐵克的VCS(veritas cluster system)等。每個服務(wù)器節(jié)點中的群集軟件通過IP網(wǎng)絡(luò)、串行接口或共享磁盤交換心跳信息,監(jiān)視各個節(jié)點狀態(tài)。如果檢測到一個軟件或硬件錯誤,HA軟件在備用節(jié)點上重啟該應(yīng)用,這樣就避免了應(yīng)用宕機或性能下降。具體做法是將該應(yīng)用涉及的各種資源,按先后順序打包集合成一個組,切換時在備用節(jié)點上將組中的資源依次掛接或重啟。這個組就是群集資源組,是群集中應(yīng)用涉及的所有資源的集合,定義了切換時需要進行的各個動作。可以說,資源組有效地界定了一個恢復域。

      為方便地進行故障切換和流量均衡,群集應(yīng)用訪問存儲一般是通過SAN訪問。一個典型的SAN是由一個或多個存儲子系統(tǒng)和它們與主機連接的光纖網(wǎng)絡(luò)組成,存儲子系統(tǒng)通常包括磁盤陣列、磁帶庫或其他存儲媒介,光纖網(wǎng)絡(luò)包括一個或幾個FC交換機(fiber channel switch)組成的級聯(lián)網(wǎng)絡(luò)。這些也是群集環(huán)境中提供存儲資源時需要重點考慮的內(nèi)容。

      3.2 存儲資源規(guī)劃提供

      向應(yīng)用提供存儲資源的過程,包括LUN的創(chuàng)建、LUN到主機的映射,后者包括創(chuàng)建和配置主機訪問LUN的光纖通道路徑。這兩個過程需要精細的規(guī)劃,LUN的創(chuàng)建基于業(yè)務(wù)量空間需求和存儲子系統(tǒng)的特性 (RAID方式);LUN的映射基于物理連接、具體業(yè)務(wù)的流量和性能要求、故障切換要求等。在群集環(huán)境中,一組LUN需要映射給群集中多個節(jié)點,這些節(jié)點中有一些是活動的,另外一些是備份的,它們在不同數(shù)據(jù)路徑上流量不同。

      對方案進行研究時,主要考慮群集環(huán)境中存儲資源規(guī)劃和提供時常見的3種業(yè)務(wù)場景。

      ·已知管理環(huán)境:場景中有潛在可能引入群集的主機,根據(jù)群集類型、主機操作系統(tǒng)、應(yīng)用類型等考慮存儲資源的提供。

      ·已知群集:主機可能引入群集資源組,根據(jù)應(yīng)用類型、失敗幾率、服務(wù)器性能等考慮存儲資源的提供。

      ·已知群集節(jié)點和業(yè)務(wù)量需求:考慮存儲和網(wǎng)絡(luò)資源的最優(yōu)分配,以滿足性能和冗余特性要求。

      3.3 方案目標和策略

      群集感知存儲資源的提供主要考慮兩方面要求:冗余和性能。

      存儲資源冗余是為了保證應(yīng)用即使在幾個組件宕機的情況下仍然可用。從SAN的觀點來看,冗余包括存儲冗余和路徑冗余,前者通過RAID陣列和其他冗余設(shè)備組件實現(xiàn),后者就是存儲LUN與群集節(jié)點之間路徑的冗余,通過主備兩條路徑上不存在單點故障來實現(xiàn)。發(fā)生故障時,群集軟件將應(yīng)用從活動服務(wù)器切換到可用的備份服務(wù)器。完全的端到端冗余必須確保路徑上的任何設(shè)備都不出現(xiàn)單點故障,包括光纖通道網(wǎng)絡(luò)、連接服務(wù)器的交換機、連接存儲控制器的FC交換機、存儲控制器的光纖接口、主機的光纖接口、LUN分配等。

      存儲資源性能是為了保證讀/寫速率、帶寬達到應(yīng)用的要求,決定于底層磁盤子系統(tǒng)和數(shù)據(jù)路徑的性能。磁盤子系統(tǒng)的性能決定于磁盤類型(包括SAS、SATA、SSD等)、RAID配置類型;數(shù)據(jù)路徑的性能決定于路徑的配置:一方面需要在路徑上實現(xiàn)負載均衡,另一方面,為避免業(yè)務(wù)性能下降或故障切換時出現(xiàn)熱點,在路徑選擇上還需要優(yōu)化。

      3.3.1 路徑配置策略

      網(wǎng)管系統(tǒng)中的業(yè)務(wù)不同,對應(yīng)的群集配置也不相同。其中,群集節(jié)點的選擇是基于操作系統(tǒng)、服務(wù)器硬件配置、群集類型、應(yīng)用類型和業(yè)務(wù)量需求,群集資源組的選擇則是基于應(yīng)用需求和故障特性。一旦建立了群集和群集資源組,就需要按照方案來配置節(jié)點到LUN的數(shù)據(jù)路徑。方案中采取了如下策略保證數(shù)據(jù)路徑上沒有單點故障。

      ·活動/備份服務(wù)器通過不同的fabric連接磁盤子系統(tǒng),以防止fabric出現(xiàn)故障。

      ·在不具備多個fabric的條件下,工作/備份服務(wù)器要連接同一個fabric在主機邊界側(cè)的不同光纖交換機,以防止FC交換機出現(xiàn)故障;在具備多個fabric的條件下,工作/備份服務(wù)器訪問數(shù)據(jù)要通過同一個fabric在存儲邊界側(cè)的不同光纖交換機,以防止FC交換機出現(xiàn)故障。

      ·工作/備份服務(wù)器要分配給存儲子系統(tǒng)不同端口。

      ·工作/備份服務(wù)器的端口要在存儲子系統(tǒng)所有可用端口間統(tǒng)一分配。

      ·主備節(jié)點的光纖通道端口要根據(jù)故障切換特性進行分配。

      上述策略是為群集主備節(jié)點創(chuàng)建不同的數(shù)據(jù)路徑,以便在運行中及時感知群集的狀態(tài)。當主用節(jié)點由于數(shù)據(jù)路徑上的組件出現(xiàn)故障而宕機時,備用節(jié)點必須能夠通過不同數(shù)據(jù)路徑訪問LUN,這樣就實現(xiàn)了較高的冗余特性。

      3.3.2 LUN分配

      LUN分配是由<發(fā)起端口、目標端口、LUN>三元組決定的映射。發(fā)起端口即群集節(jié)點的FC端口,目標端口即存儲子系統(tǒng)的FC端口,LUN即根據(jù)應(yīng)用容量需求劃分的空間。根據(jù)存儲子系統(tǒng)的性能和冗余特性,方案中也考慮了分配存儲時采用的策略:如果一個存儲子系統(tǒng)已經(jīng)服務(wù)于一個群集,則該群集在增加新空間時,該子系統(tǒng)具有比其他存儲子系統(tǒng)高的優(yōu)先級,簡化了存儲管理工作,如災(zāi)難恢復、數(shù)據(jù)復制等。

      3.3.3 流量切換

      方案中還有一個關(guān)鍵問題需要考慮:當一個活動的群集節(jié)點失敗,群集軟件將業(yè)務(wù)遷移到備用節(jié)點時,同時切換后端SAN中的流量。可以想象,I/O流量切換會擁塞fabric中的部分組件或存儲子系統(tǒng)的光纖通道接口。為避免此瓶頸現(xiàn)象,在規(guī)劃過程中需要計算這些失敗和切換的流量,方法如下。

      考慮群集節(jié)點的失敗特性,計算存儲子系統(tǒng)中每個光纖通道端口的預(yù)測流量,包括活動節(jié)點產(chǎn)生的正常I/O流量和活動節(jié)點出現(xiàn)故障切換到備份節(jié)點時產(chǎn)生的流量。必須注意的是,多個LUN可能通過相同端口映射給多個主機,也可能一個LUN通過多個端口映射給幾個主機,規(guī)劃LUN到端口的映射,實現(xiàn)預(yù)測流量在光纖通道端口上的均衡。

      3.3.4 存儲方案設(shè)計流程

      存儲方案研究的實際價值是為群集環(huán)境中存儲資源的動態(tài)劃分和配置提供相應(yīng)依據(jù),如根據(jù)業(yè)務(wù)的不同和發(fā)展演進提供存儲、光纖通道分區(qū)和多路徑配置等,以滿足應(yīng)用在容量、性能、冗余等方面的需求。具體實現(xiàn)是通過監(jiān)視和收集環(huán)境中的各種配置和操作信息,包括應(yīng)用、服務(wù)器、FC交換機、fabric、存儲控制器、磁帶庫等。將這些信息綜合在一起,根據(jù)不同場景形成不同模板,實際使用時,通過查詢此模板形成各種動態(tài)任務(wù),從而完成空間配置、性能報告和分析、問題定位、請求退回等存儲資源的提供和變更工作。

      完整的存儲系統(tǒng)方案設(shè)計流程如圖1所示。

      3.4 案例分析

      通過如圖2所示的網(wǎng)管中心案例 (節(jié)選)來解析群集感知存儲規(guī)劃的工作流程。該群集有兩個資源組:CRG-DB和CRGAS。CRG-DB是由S2、S3構(gòu)成的數(shù)據(jù)庫資源組,S2為活動服務(wù)器,S3為備份服務(wù)器;CRG-AS是由S1、S3構(gòu)成的應(yīng)用資源組,S1為活動服務(wù)器,S3為備份服務(wù)器。假設(shè)數(shù)據(jù)庫服務(wù)器和應(yīng)用服務(wù)器不可能同時出現(xiàn)故障,兩個資源組共用一個備份服務(wù)器,S3同時安裝了數(shù)據(jù)庫和應(yīng)用軟件。

      在創(chuàng)建群集和群集資源組時,根據(jù)解決方案分析應(yīng)用的業(yè)務(wù)特征,預(yù)測相關(guān)主機所需要的處理能力。在圖2的案例中,S1、S2是群集中的2臺活動服務(wù)器,屬于不同的資源組。方案要完成以下兩項任務(wù)。

      ·決定要加入群集的服務(wù)器S3,作為資源組CRG-DB、CRG-AS中 S1、S2的備用。

      ·為數(shù)據(jù)庫服務(wù)器S2提供存儲:容量為500 GB;RAID類型為RAID-5;業(yè)務(wù)類型為1 000個事務(wù)/秒的OLTP(聯(lián)機事務(wù)處理)。

      案例中的SAN包括 2個光纖fabric:F1和 F2,高端和中端存儲各1個,高端存儲連接了2個fabric,但中端存儲只連接了1個fabric。因為群集要提供OLTP業(yè)務(wù),相應(yīng)的性能和冗余特性要求較高,存儲子系統(tǒng)必須要有較高的IOPS(每秒I/O字節(jié)數(shù))和較快的響應(yīng)時間。根據(jù)這樣的業(yè)務(wù)需求,案例選擇高端存儲來存放CRG-DB中的數(shù)據(jù),并且把S2、S3配置成分別通過數(shù)據(jù)路徑F1、F2訪問其中的LUN。實際運行時,當活動主機S2或數(shù)據(jù)路徑F1出現(xiàn)故障時,群集軟件切換到備份節(jié)點S3,S3通過正常狀態(tài)的F2訪問高端存儲中同樣的LUN,業(yè)務(wù)沒有中斷。這樣就實現(xiàn)了很好的故障切換冗余特性。相反,如果讓中端存儲來存放CRG-DB中的數(shù)據(jù),則當F2出現(xiàn)故障時,切換后還是沒有能夠訪問存儲的數(shù)據(jù)路徑,S2和S3都會宕機。在配置存儲中的LUN映射時,方案還規(guī)定了存儲子系統(tǒng)的FC前端口通過不同F(xiàn)C交換機向主機映射,這樣一方面均衡了I/O流量,同時也防止了一個fabric中某個交換機出現(xiàn)故障導致整個數(shù)據(jù)路徑中斷。這個案例也說明了數(shù)據(jù)路徑規(guī)劃的重要性,可以切實提高群集的故障冗余特性。

      4 結(jié)束語

      本文通過對網(wǎng)管群集環(huán)境中提供存儲資源時面臨的各種問題的研究,提出了集成解決方案,采用定制策略的方式來實現(xiàn)群集節(jié)點的存儲分配。盡管研究的內(nèi)容是網(wǎng)管HA群集和SAN,但同樣的思路也可以適用于其他群集和存儲環(huán)境。目前,存儲虛擬化、云存儲等技術(shù)已經(jīng)從理論研究走向?qū)嶋H應(yīng)用,而本文討論的相關(guān)底層技術(shù)正是這兩者在生產(chǎn)環(huán)境中實際部署時必須解決的基礎(chǔ)問題,具有很實際的生產(chǎn)指導意義。

      將來的研究方向有如下幾點考慮。

      ·對SAN錯誤類型感知的HA解決方案進行研究。目前很多群集高可用性解決方案不能區(qū)分SAN失敗的不同情況。例如當LUN出現(xiàn)故障(由于磁盤陣列故障),切換到備用節(jié)點時,由于沒有存儲可用,業(yè)務(wù)還是會宕下來;而FC交換機或fabric出現(xiàn)故障,切換到備用節(jié)點后,應(yīng)用和業(yè)務(wù)的可用性仍然能夠保證。因此,將來進行這項研究是有一定價值的。

      ·對群集冗余中fabric分區(qū)的效果進行研究。分區(qū)本是光纖通道fabric一個安全特性,能夠限制fabric不同部件之間的通信。分區(qū)配置錯誤會導致主機無法識別LUN、SAN的連接中斷,從而整個業(yè)務(wù)群集宕機。這項研究旨在探索fabric分區(qū)的原則,以指導實際部署配置工作。

      ·遠期目標是把本文提出的設(shè)計方案通過軟件來實現(xiàn),把與存儲分配相關(guān)的端到端配置的所有任務(wù)、策略等固化成軟件中的模塊。實際使用時可以根據(jù)實際業(yè)務(wù)的性能和冗余要求,選擇與應(yīng)用場景相匹配的策略,軟件自動輸出實施方案。更進一步,在軟件中加入SMI-S(存儲管理主動性協(xié)議)協(xié)議接口,從而自動采集群集環(huán)境中的主機/存儲的FC端口、FC交換機、fabric等信息,自動分配SAN存儲和配置路徑。

      1 IBM TotalStorage:SAN product,design and optimization guide.http://www.redbooks.ibm.com/abstracts/sg246384.html?Open

      2 劉國萍,譚國權(quán),楊明川.基于云存儲的在線備份安全技術(shù)研究.電信科學,2010,26(9)

      3 周可,王燁,李春花.云存儲技術(shù)及其應(yīng)用.中興通訊技術(shù),2010(8)

      猜你喜歡
      存儲資源群集備份
      “備份”25年:鄧清明圓夢
      一種基于區(qū)塊鏈的存儲資源可信分配方法
      Cecilia Chiang, pioneer of Chinese cuisine
      用SSD提升私有云存儲性能
      基于自組織結(jié)對行為的群集機器人分群控制方法
      淺談ODX與動態(tài)群集
      淺析數(shù)據(jù)的備份策略
      科技視界(2015年6期)2015-08-15 00:54:11
      出版原圖數(shù)據(jù)庫遷移與備份恢復
      基于事件的視頻傳輸自適應(yīng)調(diào)節(jié)方法及其應(yīng)用
      在現(xiàn)有存儲上作文章
      无极县| 巴彦县| 洛宁县| 张家界市| 云南省| 肇源县| 大石桥市| 北宁市| 迁西县| 通江县| 宣城市| 玉龙| 安新县| 忻城县| 和龙市| 稷山县| 锦屏县| 金沙县| 和林格尔县| 岑巩县| 华安县| 大关县| 观塘区| 政和县| 赤城县| 浑源县| 内丘县| 东城区| 屏东县| 崇义县| 集贤县| 平顺县| 施甸县| 安徽省| 于田县| 六盘水市| 沅江市| 海林市| 汨罗市| 天全县| 获嘉县|