王晶晶
摘要:隨著大數(shù)據(jù)技術的發(fā)展,新型數(shù)據(jù)中心的建設面臨著投資規(guī)模、數(shù)據(jù)來源、信息安全等方面的挑戰(zhàn),該文提出了分布式存儲建設方案,為基于大數(shù)據(jù)和云計算的新型數(shù)據(jù)中心建設提供新的模型。
關鍵詞:大數(shù)據(jù);數(shù)據(jù)中心建設;分布式存儲
隨著計算機技術和信息技術的飛速發(fā)展,人類已經進入大數(shù)據(jù)時代。什么是大數(shù)據(jù)?大數(shù)據(jù)指的是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。某種程度說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術,其最核心的價值是在于對海量數(shù)據(jù)進行存儲和分析。業(yè)界將其歸納為4個V——Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價值密度低)。隨著信息爆炸的到來,大數(shù)據(jù)時代引發(fā)了重大的社會變革。傳統(tǒng)的數(shù)據(jù)中心已經無法適應大數(shù)據(jù)時代的要求,新型數(shù)據(jù)中心的建設面臨更大挑戰(zhàn)。如何適應新技術的發(fā)展、盡快實現(xiàn)數(shù)據(jù)中心建設對大數(shù)據(jù)應用的環(huán)境支撐,是當前亟待解決的問題。
新型數(shù)據(jù)中心主要實現(xiàn)對大數(shù)據(jù)產品的支撐,包括基礎數(shù)據(jù)匯總、數(shù)據(jù)計算、數(shù)據(jù)產品發(fā)布。其中,數(shù)據(jù)匯總是基礎,數(shù)據(jù)計算是核心,數(shù)據(jù)產品發(fā)布是實現(xiàn)大數(shù)據(jù)成果的轉化。為實現(xiàn)大數(shù)據(jù)的高效利用,數(shù)據(jù)中心應該將投入重點放在數(shù)據(jù)計算上,但基礎數(shù)據(jù)的存儲環(huán)境建設在傳統(tǒng)數(shù)據(jù)中心建設中往往需要很高投人。如何解決這方面的矛盾,是新型大數(shù)據(jù)中心建設的研究主要方面。
1數(shù)據(jù)中心建設面臨的難點
傳統(tǒng)的數(shù)據(jù)中心主要以服務器為主,集中存儲設備主要用于容災備份,隨著互聯(lián)網技術的發(fā)展,網絡產品深度開發(fā),對數(shù)據(jù)分析的需求不斷提高。作為數(shù)據(jù)分析的基礎,數(shù)據(jù)存儲量不斷提高,需要大量的數(shù)據(jù)存儲設備,傳統(tǒng)的數(shù)據(jù)中心環(huán)境配置方案已經不能支撐當前飛速發(fā)展的大數(shù)據(jù)技術應用。由于本地存儲能力不能適應不斷增長的數(shù)據(jù)量,導致大數(shù)據(jù)計算能力無法體現(xiàn),大數(shù)據(jù)的應用無法規(guī)模化。
作為大數(shù)據(jù)建設的基礎,新型大數(shù)據(jù)中心建設面臨新的挑戰(zhàn)。數(shù)據(jù)中心的建設存在以下幾個難點:
1.1數(shù)據(jù)中心的規(guī)模設計
一個要承載政府級數(shù)據(jù)匯總和數(shù)據(jù)產品提供功能的數(shù)據(jù)中心,要將所需數(shù)據(jù)都存儲在本地,規(guī)模要保證在大型數(shù)據(jù)中心的標準以上。而且,當今社會隨著物聯(lián)網、云計算技術的發(fā)展,數(shù)據(jù)量以前所未有的速度發(fā)展,數(shù)據(jù)中心的規(guī)模冗余計算是更大的挑戰(zhàn)。如此大規(guī)模的數(shù)據(jù)中心建設面臨著諸多困難。首先由于占地規(guī)模大,選址方案需要得到政府支持。制冷方案也需要探索,集裝箱式制冷不適合,空氣制冷成本太高,循環(huán)水制冷對于建筑群的統(tǒng)一制冷還沒有標準。大型數(shù)據(jù)中心的運維監(jiān)控系統(tǒng)建設和維護成本都很高。為適應大數(shù)據(jù)應用,新型數(shù)據(jù)中心需要研究新的設備配比方案,數(shù)據(jù)存儲設備的比例需要大幅提高。另外,數(shù)據(jù)中心網絡出口的帶寬要求很高,提高了運維成本。
1.2數(shù)據(jù)中心的數(shù)據(jù)來源
更多的基礎數(shù)據(jù)意味著更精確更高效的數(shù)據(jù)產品。數(shù)據(jù)來源多種多樣,除了已有的傳統(tǒng)數(shù)據(jù),還有不到增加的物聯(lián)網數(shù)據(jù)。數(shù)據(jù)格式也多種多樣,文本、音頻、視頻數(shù)據(jù)等,尤其是視頻數(shù)據(jù)在當今社會生活中使用越來越廣泛。這些就對數(shù)據(jù)的存儲需求提出了更高要求。傳統(tǒng)的數(shù)據(jù)中心將各種數(shù)據(jù)存儲在本地,數(shù)據(jù)的存儲設備數(shù)量和冗余量都是巨大的,數(shù)據(jù)轉移的時間和更新的速度也是影響數(shù)據(jù)質量的關鍵因素。
1.3數(shù)據(jù)信息的安全
環(huán)境破壞,將數(shù)據(jù)存儲在本地,地震、火災等物理破壞會造成無法恢復的數(shù)據(jù)丟失。信息破解,一旦本地數(shù)據(jù)管理員的信息被獲取,所有的數(shù)據(jù)都將面臨泄露的危險。網絡破壞,對集中存儲的數(shù)據(jù)網絡出口進行攻擊也將造成數(shù)據(jù)信息的整體破壞。
2分布式存儲
根據(jù)以上關鍵問題和目前數(shù)據(jù)中心建設的技術現(xiàn)狀,本文提出大數(shù)據(jù)建設的新的解決方案——分布式存儲。
分布式存儲簡單地說就是將數(shù)據(jù)分成若干部分,存儲在不同的位置。分布式存儲分為兩種方式。舉例說明,下面的表格數(shù)據(jù)按照分布式存儲方式存儲。
如表1所示,同一行的每個特征數(shù)據(jù)是直接相關聯(lián)的,而同一列的數(shù)據(jù)是沒有直接關聯(lián)性的。
存儲方式一,將具有直接關聯(lián)性的信息存在相同位置,例如將遼河流域的水質信息存儲在位置甲,形成數(shù)據(jù)表“遼河流域2016年第44周水質狀況表”,如表2所示。
而將海河流域水質信息存儲在位置乙,形成數(shù)據(jù)表“海河流域2016年第44周水質狀況表”,如表3所示。
存儲方式二,將具有直接關聯(lián)性的信息分別存儲。例如:將水系、點位名稱、NH3-N(mg/1)、本周水質、上周水質、主要污染指標數(shù)據(jù)存儲在甲處,將河流名稱、斷面狀況、pH*、D0、c0DMn(mg/1)數(shù)據(jù)存儲在乙處。分別以表4、表5的形式存儲。
3分布式存儲的關鍵技術
第一,異地數(shù)據(jù)傳輸。由于數(shù)據(jù)存儲的位置分散,進行數(shù)據(jù)分析時要調取異地數(shù)據(jù)信息,因此對網絡傳輸速率和可靠性要求較高??梢酝ㄟ^租用專線,并設計冗余路徑實現(xiàn)。
第二,數(shù)據(jù)編碼。由于數(shù)據(jù)是分布存儲的,并存儲在多個位置,在異地調取數(shù)據(jù)時,為實現(xiàn)數(shù)據(jù)快速、準確的定位數(shù)據(jù),需要對數(shù)據(jù)進行編碼。數(shù)據(jù)編碼需要進行統(tǒng)一規(guī)范。編碼規(guī)則需要用盡可能少的字符實現(xiàn)唯一性和可擴展性。
第三,數(shù)據(jù)安全。數(shù)據(jù)中心的安全措施需要合理部署。主要從以下幾方面把握:異地數(shù)據(jù)傳輸通道部署編解碼器等信息加密設備;區(qū)別本地數(shù)據(jù)管理和異地數(shù)據(jù)調用,設置不同級別的管理員權限;數(shù)據(jù)應用配置安全認證系統(tǒng);數(shù)據(jù)中心的對外出口配置安全策略;編碼信息和數(shù)據(jù)發(fā)布方案嚴格保密。
3.1分布式存儲在大數(shù)據(jù)建設方面的優(yōu)點
第一,分布式存儲能有效降低硬件環(huán)境建設成本。目前,大數(shù)據(jù)中心多由政府投資,其中重要原因之一就是投資巨大。大數(shù)據(jù)建設需要大量的存儲設備、高速運算計算機,這些設備的集中放置導致需要投入更多的環(huán)境建設成本,包括制冷系統(tǒng)、供電系統(tǒng)、顯控系統(tǒng)等。分布式存儲可以在已有的傳統(tǒng)大、中型數(shù)據(jù)中心的基礎上進行擴展。根據(jù)數(shù)據(jù)中心存儲容量合理分配數(shù)據(jù)存儲量。數(shù)據(jù)中心的核心區(qū)建設規(guī)??梢钥刂圃谥行⌒停蟠鬁p少了前期硬件建設投入。
第二,分布式存儲有利于數(shù)據(jù)的引接與更新。數(shù)據(jù)中心的數(shù)據(jù)維護主要包括新類型數(shù)據(jù)引接和已有數(shù)據(jù)更新兩方面難點。集中式存儲在新類型數(shù)據(jù)引接時需要增加存儲設備、數(shù)據(jù)導人等工作;分布式存儲引接新類型數(shù)據(jù)時在硬件方面只需要增加數(shù)據(jù)存儲地與數(shù)據(jù)中心核心區(qū)之間的信道,數(shù)據(jù)不需要導入,只有完成數(shù)據(jù)編碼就能實現(xiàn)數(shù)據(jù)利用。分布式數(shù)據(jù)存儲數(shù)據(jù)有本地維護人員隨時更新,而集中式存儲的數(shù)據(jù)要及時更新需要投入更多的人力成本。
第三,分布式存儲的數(shù)據(jù)安全性更高。將數(shù)據(jù)存儲在不同的位置,不同位置數(shù)據(jù)分別部署安全策略,同時設置多級管理權限,這種存儲方式比將數(shù)據(jù)存儲在同一位置更安全。而分布式存儲的第二種方式比第一種方式更安全。第二種存儲方式中,要想得到一條完整數(shù)據(jù)需要從所有數(shù)據(jù)的位置獲取信息,還要取得數(shù)據(jù)編碼信息,這就使人為竊取數(shù)據(jù)的難度非常高。
4結束語
大數(shù)據(jù)時代已經到來,新的機遇伴隨新的挑戰(zhàn),提高數(shù)據(jù)使用效能,,實現(xiàn)數(shù)據(jù)產品的市場化,必須以數(shù)據(jù)中心建設為基礎。新型分布式存儲數(shù)據(jù)中心將投入集中在數(shù)據(jù)計算方面,在降低成本、提高數(shù)據(jù)使用率和數(shù)據(jù)安全方面具有突出優(yōu)點。數(shù)據(jù)中心的建設還需要在實踐中不斷探索,在實際數(shù)據(jù)基礎上形成新的數(shù)據(jù)中心建設標準。