郭鑫鑫 尹來武 王雪 劉洋 吉林農(nóng)業(yè)科技學(xué)院
云計算下的數(shù)據(jù)共享建設(shè)研究
郭鑫鑫 尹來武 王雪 劉洋 吉林農(nóng)業(yè)科技學(xué)院
本文主要對云計算下的數(shù)據(jù)共享建設(shè)技術(shù)進行研究,通過構(gòu)建虛擬化數(shù)據(jù)中心,為云存儲、數(shù)據(jù)交換平臺和數(shù)據(jù)共享建設(shè)提供云計算基礎(chǔ)架構(gòu),結(jié)合數(shù)據(jù)交換工具和ETL技術(shù),實現(xiàn)了異構(gòu)存儲結(jié)構(gòu)間的數(shù)據(jù)交換、數(shù)據(jù)共享,和資源的統(tǒng)一集中式管理。
云計算 數(shù)據(jù)共享 虛擬資源池 ETL
云計算是Internet下的一種超級計算模式,隨著大數(shù)據(jù)時代的到來,海量數(shù)據(jù)處理難題接踵而來,傳統(tǒng)數(shù)據(jù)存儲部署已經(jīng)無法滿足數(shù)據(jù)的囤積。為了滿足存儲需求,提升業(yè)務(wù)信息系統(tǒng)的部署效率,我國開始建設(shè)云計算模式下的虛擬儲存方式云存儲,云存儲能夠解決大數(shù)據(jù)帶來的海量數(shù)據(jù)存儲、數(shù)據(jù)的調(diào)用和訪問共享等問題,通過構(gòu)建云計算虛擬化數(shù)據(jù)中心,為數(shù)據(jù)共享提供平臺。而現(xiàn)數(shù)據(jù)的分散性、資源利用率低、數(shù)據(jù)孤島等問題突出,數(shù)據(jù)共享受限,數(shù)據(jù)冗余嚴重,如何建設(shè)面向用戶滿足云存儲共享服務(wù)成為了研究的難題和重點。
數(shù)據(jù)中心建設(shè)是云計算運行的基礎(chǔ),通過資源池虛擬化技術(shù),將云計算數(shù)據(jù)中心的集成為種資源調(diào)度模式,建設(shè)是為了實現(xiàn)數(shù)據(jù)中心架構(gòu)的統(tǒng)一,建設(shè)一體化的虛擬計算池、虛擬網(wǎng)絡(luò)池、虛擬云存儲池和虛擬安全池,融合資源整合手段,簡化資源管理、調(diào)度的難度,實現(xiàn)云計算的核心運行[1]。
數(shù)據(jù)中心虛擬計算池是利用虛擬化部署計算節(jié)點,虛擬對稱多處理(虛擬SMP),為單臺VM同時提供多個物理核心處理器,保證個處理器同時執(zhí)行多個任務(wù)的能力,整合工作負載,提高CPU利用率、吞吐量和計算速度。
數(shù)據(jù)中心虛擬存儲池是采用網(wǎng)絡(luò)化的存儲架構(gòu),通過動態(tài)配置將物理上的分散存儲資源整合,通過虛擬存儲空間分配給用戶調(diào)用,這種虛擬存儲結(jié)構(gòu)能夠有效的提高存儲利用率,提高業(yè)務(wù)連續(xù)性和容量需求的調(diào)整。
安全虛擬優(yōu)化是在整合系統(tǒng)上部署VDP數(shù)據(jù)備份,為數(shù)據(jù)中心提供存儲應(yīng)用和數(shù)據(jù)的靜態(tài)倉庫,提供快速響應(yīng)、按需提供服務(wù)的應(yīng)用交付,來解決數(shù)據(jù)集中與不斷分散的用戶訪問需求的矛盾。
為了實現(xiàn)虛擬化數(shù)據(jù)中心的統(tǒng)一管理,方案采用云管理平臺,將數(shù)據(jù)中心的計算池、網(wǎng)絡(luò)池、存儲池、安全及優(yōu)化池進行集中化管理,對各系統(tǒng)及設(shè)備進行配置、監(jiān)控和資源調(diào)度。
傳統(tǒng)存儲的實現(xiàn)方式都是通過累積芯片來實現(xiàn)空間擴容,存儲結(jié)構(gòu)固定,數(shù)據(jù)冗余嚴重,整體空間利用率低。
數(shù)據(jù)中心不斷擴展和增加業(yè)務(wù),需要實時的對IT資源做出動態(tài)調(diào)整,業(yè)務(wù)增加和減少需要資源的彈性供應(yīng),構(gòu)建自適應(yīng)架構(gòu)、實現(xiàn)動態(tài)的業(yè)務(wù)部署是云存儲構(gòu)建的重要特征
云存儲是將物理的存儲設(shè)備,統(tǒng)一的整合虛擬成大空間環(huán)境,動態(tài)分配給VM一個模擬的硬件空間,通過云存儲的動態(tài)伸縮性,為各個虛擬提供疊加、共享的分布式存儲資源,通過全局統(tǒng)一空間,規(guī)范化標準接口對接和主控數(shù)據(jù)傳輸,為數(shù)據(jù)資源共享提供基石環(huán)境[2]。
ETL是分布式環(huán)境下,一種能夠在數(shù)據(jù)交換過程中實現(xiàn)數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、加載的工具。ETL適用于云計算下多接口業(yè)務(wù)應(yīng)用對接的數(shù)據(jù)結(jié)構(gòu)共享,它能夠解決在分布式環(huán)境下的異構(gòu)數(shù)據(jù)同步問題,從各應(yīng)用系統(tǒng)中抽取出調(diào)用數(shù)據(jù),按照規(guī)范的信息標準ETL規(guī)則,將抽出的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的格式結(jié)構(gòu),進行加載和傳輸備用。
本文采用數(shù)據(jù)共享交換平臺DataExchange工具,通過DataExchange工具可以建立異構(gòu)應(yīng)用業(yè)務(wù)系統(tǒng)間的數(shù)據(jù)中心,實現(xiàn)應(yīng)用業(yè)務(wù)數(shù)據(jù)遷移、數(shù)據(jù)同步和異構(gòu)數(shù)據(jù)交換,能夠滿足在復(fù)雜的數(shù)據(jù)環(huán)境下構(gòu)建數(shù)據(jù)集成的全面需求,包含ETL過程定義、傳輸消息的任務(wù)與元數(shù)據(jù)監(jiān)控管理、增量數(shù)據(jù)捕獲等功能組件。本文構(gòu)建的數(shù)據(jù)共享交換平臺實現(xiàn)了在單個Web端管理控制臺完成跨域復(fù)雜部署結(jié)構(gòu)下的數(shù)據(jù)遷移、交換任務(wù)的定義、監(jiān)控與調(diào)度,實現(xiàn)對運行環(huán)境系統(tǒng)資源的統(tǒng)一集中式管理。
本文的云計算數(shù)據(jù)集成采用數(shù)據(jù)集成工具Informatica PowerCenter,它承載著完成數(shù)據(jù)源數(shù)據(jù)向數(shù)據(jù)倉庫導(dǎo)入的重要任務(wù),建立、部署、管理倉庫中的數(shù)據(jù),在數(shù)據(jù)倉庫項目中,根據(jù)數(shù)據(jù)提取信息需求分析和模型結(jié)構(gòu),通過ETL規(guī)則技術(shù)將分散的各異構(gòu)業(yè)務(wù)系統(tǒng)間共享的主數(shù)據(jù)抽取上來,根據(jù)自定義的信息標準規(guī)則,將數(shù)據(jù)集成平臺與各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)接口進行數(shù)據(jù)的抽取、加載和轉(zhuǎn)換,完成全過程數(shù)據(jù)交換,通過數(shù)據(jù)的雙向傳遞,進行統(tǒng)一的存儲和對外發(fā)布及共享,使各系統(tǒng)業(yè)務(wù)數(shù)據(jù)實時共享,并保證實時的調(diào)度和監(jiān)控。
本文通過構(gòu)建統(tǒng)一交換網(wǎng)絡(luò)、統(tǒng)一計算平臺、虛擬化存儲、云計算系統(tǒng)的云計算數(shù)據(jù)中心,為云存儲提供了各應(yīng)用平臺的基礎(chǔ)支撐平臺,結(jié)合ETL技術(shù)、數(shù)據(jù)共享交換平臺和數(shù)據(jù)集成工具實現(xiàn)了異構(gòu)數(shù)據(jù)間的共享,解決了數(shù)據(jù)分散冗余、統(tǒng)一備份困難、數(shù)據(jù)抽取和信息孤島等問題,為高校數(shù)據(jù)資源靈活調(diào)度和高效辦公起到重要作用。
[1]周順淦.云計算環(huán)境中數(shù)據(jù)共享與修復(fù)關(guān)鍵技術(shù)研究[M].武漢大學(xué),2016
[2]張丹,孫國偉.基于云計算的數(shù)據(jù)共享平臺建設(shè)[J].中國地球科學(xué)聯(lián)合學(xué)術(shù)年會,2015:681-682
項目來源吉林省教育廳“十三五”科學(xué)技術(shù)研究項目吉教科合字[2016]第202號基于農(nóng)業(yè)物聯(lián)網(wǎng)的人參病蟲害信號識別技術(shù)研究的成果。
郭鑫鑫(1987),女,吉林省吉林市人,碩士,研究實習(xí)員,研究方向:計算機應(yīng)用;農(nóng)業(yè)信息化。通訊作者:尹來武(1965-),男,吉林省鎮(zhèn)賚縣人,博士,教授,研究方向:區(qū)域經(jīng)濟。