邱亮
摘 要:云計算技術的中心構成部分是數(shù)據(jù)中心,它是云計算技術發(fā)展和應用的關鍵,強大的數(shù)據(jù)存儲、處理及傳輸能力是云計算技術區(qū)別于傳統(tǒng)計算技術的重要特征。但目前數(shù)據(jù)管理及組織技術水平的限制,使得云計算環(huán)境下的數(shù)據(jù)處理過程出現(xiàn)了大量的數(shù)據(jù)丟失或數(shù)據(jù)錯誤的情況,嚴重阻礙了云計算技術的發(fā)展與應用。鑒于此,對云計算環(huán)境下分布存儲技術的發(fā)展現(xiàn)狀及存在的問題進行分析,并提出相應的改進建議。
關鍵詞:云計算技術;分布存儲技術;數(shù)據(jù)處理
DOIDOI:10.11907/rjdk.161889
中圖分類號:TP319
文獻標識碼:A 文章編號文章編號:16727800(2016)011016104
0 引言
當前,計算機技術、信息技術和通訊技術的發(fā)展成為全球社會、經(jīng)濟、科技發(fā)展的重要推動力,它們已經(jīng)融入到了人們生產(chǎn)生活的各個環(huán)節(jié)。隨著對其應用程度的逐漸深入,各領域需要存儲和處理的數(shù)據(jù)規(guī)模愈來愈大,這給相關技術的可持續(xù)發(fā)展帶來了巨大挑戰(zhàn)。云計算技術是計算機、存儲和通訊技術發(fā)展到一定階段后自然而然形成的一種新的計算模型,其在數(shù)據(jù)的儲存和處理上與個人PC機有非常大的區(qū)別。它通過現(xiàn)代“互聯(lián)網(wǎng)+機器設備”構建了一個龐大的數(shù)據(jù)中心庫,并以此為基礎向各領域提供數(shù)據(jù)存儲、處理、分析以及計算服務。整個云計算系統(tǒng)的中心是數(shù)據(jù)中心,而對數(shù)據(jù)進行管理、存儲以及組織的分布存儲技術又是數(shù)據(jù)中心的關鍵??梢哉f,分布存儲技術水平直接決定了云計算的整體水平。然而,目前分布存儲技術難擴展、高成本、低容錯的特性極大地限制了云計算技術的應用與發(fā)展。因此,分布存儲技術的研究成為當前云計算技術研究的重點和熱點。
1 分布存儲技術產(chǎn)生背景
隨著計算機應用的逐漸深入,海量數(shù)據(jù)隨之產(chǎn)生,單一的PC機或者服務器已難以滿足人們對數(shù)據(jù)處理的需求。因此,解決當前更大規(guī)模數(shù)據(jù)存儲與數(shù)據(jù)計算的云計算技術應時而生[1]。
云計算環(huán)境下的分布存儲技術指用戶為了實現(xiàn)自己存儲數(shù)據(jù)的目標,通過購買或租賃等手段,獲得互聯(lián)網(wǎng)空間,進而滿足自己對數(shù)據(jù)的存儲和計算需求。在云計算環(huán)境下,數(shù)據(jù)中心會對儲存在其內部節(jié)點上的數(shù)據(jù)進行有序編排,通過專用的端口將用戶需要的數(shù)據(jù)傳輸給用戶,同時用戶也能通過該端口將需要存儲和處理的數(shù)據(jù)傳輸?shù)阶约嘿徺I的互聯(lián)網(wǎng)空間中。通俗來講,云計算就是以互聯(lián)網(wǎng)為基礎,能夠使人們分享基礎資源的計算模型。
2 云計算環(huán)境下的分布存儲技術分析
2.1 容錯性技術分析
傳統(tǒng)情況下,采取RAID來提升存儲技術的容錯性,但這樣的技術提升手段要求使用高性能的服務器,同時使用更加專業(yè)的存儲設備。因此,這種提升存儲容錯性的手段會使成本大幅度提升,極大降低了企業(yè)的經(jīng)濟效益。但是,采用這種技術提升數(shù)據(jù)存儲的容錯性時,時常發(fā)生存儲失誤或錯誤的情況,給企業(yè)和用戶造成了巨大損失,嚴重阻礙了云計算技術的進一步發(fā)展和應用。
2.2 可擴展性分析
提高存儲可擴展性的最常用手段是預留冗余磁盤空間,這種提升手段適用于常規(guī)的存儲技術。然而,目前云計算環(huán)境下所需儲存和處理的數(shù)據(jù)達到了EB級別,在這種情況下,采取傳統(tǒng)預留冗余磁盤空間的手段已經(jīng)無法適應當前需要。
2.3 成本控制分析
在傳統(tǒng)的數(shù)據(jù)存儲過程中,小規(guī)模的數(shù)據(jù)交換不會產(chǎn)生很高的熱量,不需要對數(shù)據(jù)存儲設備進行降溫,也不需要考慮節(jié)能問題。因此,傳統(tǒng)的成本控制方式無法為云計算環(huán)境下的成本控制提供有效借鑒。在云計算環(huán)境下,由于涉及海量EB級別的數(shù)據(jù)存儲、交換、計算,因而必須大規(guī)模增加存儲空間和數(shù)據(jù)存儲節(jié)點,也就必然會增加生產(chǎn)成本。另外,大量數(shù)據(jù)的傳輸和運算必然會使設備的散熱量大大增加,在設備制造時必須要考慮散熱問題,這在無形中也增加了實際運營成本[2]。
3 云計算環(huán)境下的分布存儲技術構造
云計算環(huán)境下的數(shù)據(jù)中心主要由兩方面的部件構成:軟件與硬件。其中軟件主要提供數(shù)據(jù)中心傳輸數(shù)據(jù)、計算等服務;硬件主要提供其存在環(huán)境所需要的支撐。通常情況下將其分成3種構造類型。
3.1 交換機構造
交換機結構在云計算技術出現(xiàn)之前就已是一種常用的分布存儲技術手段,它不僅被用作數(shù)據(jù)中心,還是連接數(shù)據(jù)與用戶的紐帶。通常情況下,以交換機為中心的構造會形成一種樹形結構,如圖1所示,它由聚合層、核心層以及邊緣層構成。邊緣層通常由服務器和交換機構成,在數(shù)據(jù)存儲時為了保證均衡的帶寬環(huán)境,邊緣層一定要和聚合層產(chǎn)生連接;在數(shù)據(jù)訪問和傳輸時,聚合層也必須和核心層產(chǎn)生連接。該結構具備如下3個優(yōu)點:①非常易于操作;②連接簡單;③很容易實現(xiàn)擴展。同時其也存在一些不足:①靈活性差、資源利用率低;②帶寬不足;③受聚合層結構影響較大;④發(fā)生故障后會浪費很多資源[3]。
3.2 服務器構造
將服務器結構作為數(shù)據(jù)中心時,為了實現(xiàn)不同服務器之間的連接,需要設置一些網(wǎng)卡。這種結構不必連接路由器和交換機,其本身就能夠實現(xiàn)數(shù)據(jù)的傳輸和存儲功能。由于通過網(wǎng)卡可以實現(xiàn)服務器的聯(lián)網(wǎng)功能,因而構建服務器結構相對而言比較容易,但是應用它作為數(shù)據(jù)中心很容易發(fā)生鏈路冗余。并且在進行數(shù)據(jù)轉發(fā)時,資源使用量較大,極易導致服務器高強度運轉,會對服務器造成不同程度的損害。簡言之,服務器作為數(shù)據(jù)中心易于構造但在運行過程中數(shù)據(jù)冗余現(xiàn)象嚴重。其結構如圖2所示。
3.3 混合型構造
將交換機結構和混合型結構進行適度組合就構成了混合型構造,這種結構集中了交換機與服務器的優(yōu)點,它將交換機作為中心,用網(wǎng)卡連接服務器并傳輸數(shù)據(jù),能夠很好地完成大型數(shù)據(jù)包的存儲和傳輸。例如,DCell混合型構造是一種分層的、遞歸型的網(wǎng)絡構造,上層DCell由多個下層DCell網(wǎng)絡構成,假如把位于第J層的DCell當成一個節(jié)點,那么位于最底層的DCell將由N個服務器共同連接一臺交換機。因此,當N=4時,該結構如圖3所示。
4 當前分布存儲技術容易產(chǎn)生的問題
4.1 容錯問題
存儲技術的容錯性能可運用傳統(tǒng)的技術手段加以提高,比如,傳統(tǒng)的RAID、高性能服務器、更加專業(yè)的存儲裝置都能夠有效地改善存儲技術的容錯性能。但是,隨著社會經(jīng)濟的快速發(fā)展以及計算機應用的逐漸普及,需要存儲和處理的數(shù)據(jù)量快速增長,這就要求數(shù)據(jù)中心的存儲節(jié)點隨之增長。在這種情況下,技術的限制導致數(shù)據(jù)存儲和計算出現(xiàn)諸多問題,比如數(shù)據(jù)缺失、數(shù)據(jù)失效等。類似狀況的發(fā)生使用戶遭受了巨大損失,同時也嚴重限制了云計算技術的發(fā)展和應用[4]。
4.2 可擴展性問題
提升可擴展性能的傳統(tǒng)方式是預留出足夠的冗余磁盤空間。這種方式適用于常規(guī)的儲存技術,但并不能很好地適用于云計算環(huán)境下的分布存儲技術。因為預留冗余磁盤是通過增加磁盤來實現(xiàn),在當前大數(shù)據(jù)庫浪潮的沖擊下,用預留磁盤冗余的手段來解決EB級數(shù)據(jù)的擴展性問題并不科學,而且在未來,數(shù)據(jù)庫的級別可能會更高,這就要求采用新的技術來解決可擴展性問題。
4.3 成本增大問題
在云計算技術出現(xiàn)之前,常規(guī)的分布存儲技術只需要對小規(guī)模數(shù)據(jù)進行存儲和計算,不需要對設備的散熱與降溫加以特殊考慮,因而在傳統(tǒng)的存儲設備制造和應用上并沒有涉及散熱和能耗問題。然而,在云計算環(huán)境下,隨著用戶的迅速增加以及數(shù)據(jù)級別的不斷攀升,如何解決好設備存儲、傳輸問題,以及計算EB級別數(shù)據(jù)時的散熱和能耗問題,有效降低設備制造成本以賺取更多盈利已成為困擾諸多設備廠家的難題。
5 分布存儲關鍵技術分析
5.1 容錯性技術
隨著互聯(lián)網(wǎng)、計算機以及通訊技術的發(fā)展,云計算技術在人們生產(chǎn)和生活中的應用越來越廣泛,云計算環(huán)境下的分布儲存技術也備受關注。數(shù)據(jù)容錯技術的應用意味著即便云計算系統(tǒng)在使用期間由于未知原因產(chǎn)生了錯誤,其依然可以不間斷地、正常地向用戶提供數(shù)據(jù)存儲、計算、傳輸服務。該技術的發(fā)現(xiàn)和使用可以有效提高系統(tǒng)的可靠性能,同時在一定程度上還能夠增強系統(tǒng)應用性,使數(shù)據(jù)訪問率實現(xiàn)一定程度的增長。通常情況下,數(shù)據(jù)容錯是利用添加數(shù)據(jù)冗余來實現(xiàn),即在向用戶傳輸數(shù)據(jù)時即便有一些數(shù)據(jù)失效,但依然可以從冗余數(shù)據(jù)中召回所需數(shù)據(jù),以滿足客戶需求。冗余數(shù)據(jù)在實際工作中的確能夠提升系統(tǒng)的容錯性,但同時也加大了存儲資源的占用。因此,良好的數(shù)據(jù)容錯技術不但要保證系統(tǒng)擁有良好的容錯性,而且也要最大限度地降低對存儲資源的占用,以控制成本、提升效益。
數(shù)據(jù)容錯技術可以分為復制型與糾、刪碼型的容錯技術。復制型數(shù)據(jù)容錯技術能夠實現(xiàn)簡單應用,但由于建立副本的需要,會占用非常多的存儲資源;糾、刪碼型數(shù)據(jù)容錯技術雖然占用空間較少,但在數(shù)據(jù)存儲和輸出過程中需要重復編碼及解碼,對設備的計算性能要求很高。在數(shù)據(jù)缺失時,復制型容錯技術只需將其它副本中的數(shù)據(jù)復制下載修復就可;糾、刪碼型容錯技術修復數(shù)據(jù)時需要查找更大的數(shù)據(jù)量,難度和成本都相應較高。
(1)復制型數(shù)據(jù)容錯技術。復制型容錯技術的原理是將個體數(shù)據(jù)實現(xiàn)多模塊化,將多個模塊放置到不同的節(jié)點中,運用這種方法可以有效避免數(shù)據(jù)丟失、失效對用戶造成的損失,因為某一個模塊缺失時依然能夠利用其它節(jié)點中的相同數(shù)據(jù)。當前,對該技術的研究主要有2個方向:①復制策略;②組織結構。
(2)糾、刪碼型數(shù)據(jù)容錯技術。糾、刪碼型數(shù)據(jù)容錯技術的原理是將存儲數(shù)據(jù)實現(xiàn)編碼化,產(chǎn)生新的占用空間更小的編碼數(shù)據(jù),運用這種方法不但可以進行數(shù)據(jù)的復制存儲,而且可以有效減小存儲占用空間。
上述兩種數(shù)據(jù)容錯技術各有優(yōu)缺點,其對比結果如表1所示。
5.2 節(jié)能技術
據(jù)相關統(tǒng)計機構調查結果可知,云計算環(huán)境下數(shù)據(jù)存儲系統(tǒng)的能耗可達到系統(tǒng)總能耗的44%。因此,對云計算技術節(jié)能的研究重點是對存儲系統(tǒng)節(jié)能的研究。對存儲技術節(jié)能技術的研究可以實現(xiàn)成本的有效控制,降低生產(chǎn)成本,提升企業(yè)利潤,同時節(jié)能技術的研究與應用還能夠有效地保護環(huán)境。數(shù)據(jù)存儲技術是云計算技術的基礎,降低數(shù)據(jù)存儲的能耗能夠有力地促進云計算技術的發(fā)展和應用,對社會發(fā)展也具有一定的積極意義。
5.2.1 節(jié)能技術能耗模型
云計算環(huán)境下的分布存儲通常會運用到數(shù)據(jù)中心,如果想有效降低數(shù)據(jù)存儲、傳輸、計算過程的能量消耗,最簡單有效的手段是減少每一個儲存節(jié)點對能量的消耗。只是在通常情況下,能量消耗的減少也同時意味著設備性能的降低。可通過單一的計算機能耗模型來對其性能與能耗之間的關聯(lián)性進行研究,此模型主要分為比例模型和兩段模型[5]。
在比例模型中,能量的消耗和計算機硬件的使用程度是正比關系,在硬件沒有負載時基本不會有能量消耗,因而該模型無法精準地計算出系統(tǒng)能量的消耗情況。在實際情況中,計算機只要開機就會有能量消耗。動態(tài)頻率、電壓調整以及固態(tài)硬盤技術的運用,使計算機工作時其硬盤可以根據(jù)負載調整轉速,使得性能與能量消耗步調一致,在保證性能的前提下有效減少能量消耗。
在兩端模型中,計算機整體能耗分為固定能耗和可變能耗。固定能耗主要為硬件設備運轉時的能量消耗,可變能耗由磁盤運轉速度決定。雖然上述兩種模型都認為設備高負載運轉時能量的消耗最高,但兩種模型對于空載時的能量消耗認識不同。兩端模型認為空載時的能量消耗是無法被忽略的,所以兩者相比,兩端模型可以更精準地計算出其能量消耗情況。DVFS技術以及VOVO技術的運用,使得通過關閉沒有任務的組件或數(shù)據(jù)節(jié)點的方法來減少能量消耗成為可能,可有效降低整個系統(tǒng)的能量消耗。
5.2.2 節(jié)能技術分類
目前,在減少分布存儲能耗方面出現(xiàn)了很多有用成果,可將最新成果分成兩類:軟件節(jié)能技術、硬件節(jié)能技術。
(1)軟件節(jié)能技術。這種技術是利用相關軟件合理調控和分配存儲資源來降低能耗,其特點是在降低系統(tǒng)能量消耗的同時不會導致性能的改變。軟件直接調控管理數(shù)據(jù)節(jié)點通過對其應用情況進行分析與調控,合理地關閉節(jié)點,降低其能量消耗
(2)硬件節(jié)能技術。這種技術是減少分布存儲硬件構成組件的能量消耗來實現(xiàn)整體的降耗節(jié)能,從硬件的構成層次可以將其分為兩個方面:數(shù)據(jù)中心技術、計算機整體技術。
5.3 可擴展性能技術
隨著數(shù)據(jù)存儲量上升到EB級別,對云計算環(huán)境下分布存儲技術的數(shù)據(jù)存儲、傳輸、計算能力都有著更高要求。在其發(fā)展過程中,必須要對硬件設備的可擴展性能加以提升和完善,以更好地促進云計算技術的發(fā)展和應用。
6 結語
云計算是適應新時代發(fā)展要求的新型計算模式,目前已廣泛運用于人們的生活和工作領域。云計算技術的應用受到數(shù)據(jù)分布存儲技術容錯性、成本、擴展性能等方面的限制,研究數(shù)據(jù)分布存儲的容錯性技術、節(jié)能降耗技術、可擴展性能力有助于提升云計算的整體發(fā)展水平,使云計算技術更好地服務于人類[6]。本文結合云計算技術的實際應用情況,分析了其中存在的問題,對提升分布存儲技術的一些關鍵成果進行了介紹,這些成果的應用可有效提升云計算環(huán)境下分布儲存技術的性能,從而增強其對數(shù)據(jù)的存儲和處理能力,促進云計算技術的廣泛應用。
參考文獻:
[1] 史海疆.數(shù)據(jù)中心節(jié)能降耗技術探討——訪中國科學院計算機技術研究所研究員張廣明[J].電氣應用,2014(2):4546.
[2] 王聰,王翠榮,王興偉,等.面向云計算的數(shù)據(jù)中心網(wǎng)絡體系結構設計[J].計算機研究與發(fā)展,2012(2):2628.
[3] 宋杰,李甜甜,閆振興,等.一種云計算環(huán)境下的能效模型和度量方法[J].軟件學報,2012(2):26.
[4] 譚一鳴,曾國蓀,王偉.隨機任務在云計算平臺中能耗的優(yōu)化管理方法[J].軟件學報,2012(2):1013.
[5] 劉正偉,文中領,張海濤.云計算和云數(shù)據(jù)管理技術[J].計算機研究與發(fā)展,2012(S1):5659.
[6] 林闖,蘇文博,孟坤,等.云計算安全:架構、機制與模型評價[J].計算機學報,2013(9):1618.
(責任編輯:孫 娟)