劉雪芳 朱玲
摘要:異構(gòu)數(shù)據(jù)的集成及處理一直是學(xué)者們探究的問題,近年來興起的基于云計算構(gòu)建的異構(gòu)數(shù)據(jù)集成模型,能夠獲得統(tǒng)一的數(shù)據(jù)處理方式與管理辦法,以供云計算環(huán)境下各業(yè)務(wù)應(yīng)用,為異構(gòu)數(shù)據(jù)統(tǒng)一查詢、檢索、業(yè)務(wù)應(yīng)用處置的多元異構(gòu)數(shù)據(jù)間的映射和關(guān)聯(lián)創(chuàng)造便捷條件。文章介紹了國內(nèi)外云計算異構(gòu)數(shù)據(jù)集成模型的構(gòu)建基本情況,指出了云計算下異構(gòu)數(shù)據(jù)集成模型的基本構(gòu)成,并就現(xiàn)有的模型構(gòu)建實現(xiàn)的技術(shù)展開了論述,以便為用戶提供優(yōu)質(zhì)的數(shù)據(jù)服務(wù)。
關(guān)鍵詞:異構(gòu)數(shù)據(jù);云計算;構(gòu)建;集成模型
中圖分類號:TP311? 文獻標(biāo)志碼:A
1 國內(nèi)外云計算下異構(gòu)數(shù)據(jù)集成模型的構(gòu)建基本情況
現(xiàn)有國外云計算下的數(shù)據(jù)庫基本上都是由一些實力雄厚的公司單獨研發(fā)設(shè)計的,如database.com數(shù)據(jù)庫出自Salesforge公司之手。微軟以Windows Azure 云操作系統(tǒng)為基礎(chǔ)獨自研發(fā)設(shè)計了SQL Azure 數(shù)據(jù)庫,且可開始提供云計算環(huán)境下的關(guān)系數(shù)據(jù)庫服務(wù)。然而云數(shù)據(jù)庫出自各個公司,且大部分僅對該公司構(gòu)建的數(shù)據(jù)庫體系使用,支持異構(gòu)數(shù)據(jù)庫的表現(xiàn)不盡如人意,且缺少統(tǒng)一的規(guī)范標(biāo)準(zhǔn)。目前,我國研究此種數(shù)據(jù)庫才剛開始,還沒有建立成熟完善的理論體系。
大型云端應(yīng)用注重的對象以存儲海量數(shù)據(jù)與數(shù)據(jù)高并發(fā)讀寫為主,并進一步優(yōu)化數(shù)據(jù)模型與架構(gòu)的結(jié)構(gòu),有效提升了可用性、并發(fā)性以及延展性等[1]。然而,這種系統(tǒng)大部分在管理數(shù)據(jù)方面的表現(xiàn)都比較差,僅有數(shù)據(jù)存儲功能。為使系統(tǒng)具有數(shù)據(jù)管理功能,系統(tǒng)開發(fā)者一般要在“裸”系統(tǒng)的基礎(chǔ)上進行研發(fā)設(shè)計,自底層著眼設(shè)計,從而賦予系統(tǒng)以若干定制的數(shù)據(jù)管理功能。但是,為了適應(yīng)云計算的發(fā)展,此類數(shù)據(jù)管理型應(yīng)用迎來了新挑戰(zhàn),暴露出一些問題?;谠朴嬎愕倪\行數(shù)據(jù)管理型應(yīng)用時,必須確保多數(shù)據(jù)中心與多數(shù)據(jù)源協(xié)作處理,在云計算下集成信息系統(tǒng)內(nèi)數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)與數(shù)據(jù)庫類型。
所以,有必要建立云計算下的異構(gòu)數(shù)據(jù)集成模型。在建立的過程中,必須充分考慮云環(huán)境的特征,為各種云存儲數(shù)據(jù)與主流數(shù)據(jù)庫的集成提供支持。一方面,用戶對數(shù)據(jù)庫有著高并發(fā)量訪問的需求,且有高效訪問并存儲數(shù)據(jù)的需求,而此模型恰巧可以滿足這些需求。另一方面,對于數(shù)據(jù)庫,用戶有數(shù)據(jù)庫事務(wù)一致性、實用價值高、可延展性強的需求,而此模型可以滿足這些需求。
2 云計算下異構(gòu)數(shù)據(jù)集成模型的基本構(gòu)成
2.1 數(shù)據(jù)結(jié)構(gòu)與任務(wù)調(diào)度引擎
此層的任務(wù)是接收來自上層的和用戶查詢?nèi)蝿?wù)相對應(yīng)的一系列邏輯操作,并以虛擬數(shù)據(jù)庫結(jié)構(gòu)為參考,促使邏輯操作變成與之對應(yīng)的任何集合,然后向異構(gòu)數(shù)據(jù)集成接口傳輸子任務(wù)集合,如圖1所示。
進入異構(gòu)數(shù)據(jù)集成接口層進行查詢,傳輸結(jié)果集,完成后對所獲得的數(shù)據(jù)予以歸納匯總與整合,緊接著向上層的云端數(shù)據(jù)查詢獲取分析接口層傳輸結(jié)果。這一層,數(shù)據(jù)獲取分析生成及管理技術(shù)發(fā)揮著最關(guān)鍵的作用。在實施數(shù)據(jù)查詢處理操作的過程中此層基本上會選用生成子任務(wù)集合的途徑,因此,在設(shè)計時此層內(nèi)含的模塊有數(shù)據(jù)獲取分析用戶管理、數(shù)據(jù)獲取分析任務(wù)管理等,以對用戶數(shù)據(jù)獲取分析請求生成的數(shù)據(jù)獲取分析任務(wù)的運行以及狀態(tài)管理進行監(jiān)管與控制。
當(dāng)然,在此層還需用到分布式數(shù)據(jù)獲取分析執(zhí)行引擎相關(guān)技術(shù)。通過使用該項技術(shù),才能順利完成模塊分解的任務(wù),結(jié)合所有數(shù)據(jù)系統(tǒng)與數(shù)據(jù)庫的具體特征,提高對下層的異構(gòu)數(shù)據(jù)集成接口的利用率,結(jié)合所有數(shù)據(jù)系統(tǒng)與數(shù)據(jù)庫的實際特征執(zhí)行與之對應(yīng)的任務(wù)[2]。
2.2 云數(shù)據(jù)存儲和資源管理
在整個系統(tǒng)內(nèi)部,此模塊居于基礎(chǔ)位置。云環(huán)境下,運用資源與數(shù)據(jù)管理技術(shù)可以賦予所有功能層以更多的選擇,從而更好地優(yōu)化配置系統(tǒng)資源,做好數(shù)據(jù)管理以及存儲工作,并達到在云環(huán)境下存儲并查詢海量、高負(fù)載、高并發(fā)的數(shù)據(jù)的目的。
云計算下的元數(shù)據(jù)與服務(wù)管理技術(shù)是本層應(yīng)用的一項關(guān)鍵技術(shù),為了使用戶能夠更方便地進行數(shù)據(jù)管理與數(shù)據(jù)存儲,此技術(shù)必須能為所有數(shù)據(jù)源配置存儲架構(gòu)。對于底層而言,各類存儲結(jié)構(gòu)如傳統(tǒng)關(guān)系數(shù)據(jù)庫、分布式數(shù)據(jù)庫均對其適用,可以將統(tǒng)一的元數(shù)據(jù)提供給上層,為其進行服務(wù)管理等創(chuàng)造條件。
2.3 數(shù)據(jù)的獲取分析應(yīng)用接口
此層主要作為云端數(shù)據(jù)獲取分析應(yīng)用接口所用,將其作為統(tǒng)一的對外調(diào)用接口。在本模型中,為了符合數(shù)據(jù)查詢的相關(guān)要求,本模型可以為傳統(tǒng)關(guān)系數(shù)據(jù)庫、分布式數(shù)據(jù)庫以及NoSQL數(shù)據(jù)系統(tǒng)提供自定義的、統(tǒng)一的查詢語言。用戶可以對shell接口下定義,利用標(biāo)準(zhǔn)SQL將用戶數(shù)據(jù)傳輸進去,從而得到分析調(diào)用語句描述,分析并詮釋命令,再一次進行請求查詢,對下層的異構(gòu)數(shù)據(jù)集成接口進行調(diào)用,然后將用戶所需的數(shù)據(jù)分析結(jié)果返回。此接口的設(shè)置為應(yīng)用開發(fā)商將本公司的服務(wù)無縫遷移至云計算創(chuàng)造了便利條件[3]。
本層的核心技術(shù)為自定義數(shù)據(jù)獲取分析命令解釋模塊,該模塊支持在云計算環(huán)境下使用。該層可以統(tǒng)一地接收用戶發(fā)出的數(shù)據(jù)獲取分析語句的請求,對數(shù)據(jù)獲取分析語句進行解析,從而得到可與不同數(shù)據(jù)源相對應(yīng)的邏輯操作,如圖1所示。
2.4 本體基礎(chǔ)下的異構(gòu)數(shù)據(jù)集成接口
異構(gòu)數(shù)據(jù)集成接口在云計算下異構(gòu)數(shù)據(jù)集成模型內(nèi)起到了十分關(guān)鍵的作用,是建立云計算下異構(gòu)數(shù)據(jù)集成模型的關(guān)鍵要素,主要負(fù)責(zé)建立上層中的數(shù)據(jù)、對引擎任務(wù)實施調(diào)度,并呈現(xiàn)最終結(jié)果。在該接口內(nèi),異構(gòu)數(shù)據(jù)語義映射集成技術(shù)發(fā)揮著十分重要的作用,在研發(fā)此技術(shù)的過程中,必須將相關(guān)工作做到位,促進局部環(huán)境語義向所有環(huán)境語義實現(xiàn)轉(zhuǎn)移。換言之,在不同的數(shù)據(jù)語義環(huán)境下,基于本體之上會完成數(shù)據(jù)語義相似、數(shù)據(jù)集成一致的映射,在分布式環(huán)境下提高對有關(guān)技術(shù)的利用率。此外,在異構(gòu)數(shù)據(jù)集成接口內(nèi)部有異構(gòu)數(shù)據(jù)格式集成技術(shù)這項技術(shù),該技術(shù)效果顯著,可以實現(xiàn)轉(zhuǎn)換數(shù)據(jù)系統(tǒng)類型與內(nèi)容,如可以實現(xiàn)XML文件數(shù)據(jù)與關(guān)系數(shù)據(jù)之間的轉(zhuǎn)變以及映射。
3 模型實現(xiàn)的核心技術(shù)
3.1 數(shù)據(jù)獲取分析語句語義分析方法
通過應(yīng)用此法,可以實現(xiàn)對系統(tǒng)內(nèi)部應(yīng)用的數(shù)據(jù)獲取分析與管理命令的處理,完成執(zhí)行命令、解析命令等諸多操作。此模型基于云存儲訪問操作以及傳統(tǒng)的SQL語法創(chuàng)造了一種語言——CHDI-SQL,以用于在云計算下訪問并管理異構(gòu)數(shù)據(jù)源,并對其進行執(zhí)行與解析,從而讓使用人員能便捷、高效地描述獲取分析請求,得到所需數(shù)據(jù)。同時,可用此模型對CHDI-SQL 語言實施語義擴展接口的定義,便于其新增自定義語義描述。
3.2 云計算下異構(gòu)多數(shù)據(jù)源并發(fā)控制及協(xié)同獲取分析方式
基于云計算環(huán)境獲得異構(gòu)多數(shù)據(jù)源狀況時,因為位于任一節(jié)點的數(shù)據(jù)源或許僅僅涵蓋了需要的一些信息,在獲取并處理相關(guān)數(shù)據(jù)時無可避免地要進行并行計算、網(wǎng)絡(luò)通信、協(xié)同處理以及數(shù)據(jù)源異構(gòu)性等,對進行數(shù)據(jù)獲取分析提出了難題。針對若干異構(gòu)數(shù)據(jù)源,將其打造成虛擬數(shù)據(jù)庫,由其負(fù)責(zé)對特定的數(shù)據(jù)進行分析。
3.3 云計算下的異構(gòu)數(shù)據(jù)集成方式
通過對傳統(tǒng)異構(gòu)數(shù)據(jù)集成進行研究后發(fā)現(xiàn),大部分均運用的是訪問者與DBS服務(wù)接口直接交互的方式,這難免會讓用戶在應(yīng)用中處理數(shù)據(jù)集成以及數(shù)據(jù)訪問等一系列問題時要面臨更高的異構(gòu)數(shù)據(jù)集成難度。通過應(yīng)用云計算下的異構(gòu)數(shù)據(jù)集成技術(shù),可以做到智能化地處理異構(gòu)數(shù)據(jù)集成問題?;诖?,文章建立了聯(lián)合虛擬數(shù)據(jù)庫系統(tǒng),所有虛擬節(jié)點的接口與實際的相同,在實際數(shù)據(jù)源節(jié)點上其主要工作包括:查詢執(zhí)行原子操作任務(wù)的進度、分析并處理異構(gòu)數(shù)據(jù)語義。而聯(lián)合虛擬數(shù)據(jù)庫系統(tǒng)不具備貯藏數(shù)據(jù)的功能,僅支持整合優(yōu)化異構(gòu)數(shù)據(jù)源。服務(wù)聯(lián)合模型支持調(diào)用虛擬DBS服務(wù),并和組成聯(lián)合的所有DBS接口實現(xiàn)交互[4],使用圖中列出的結(jié)構(gòu)進行異構(gòu)數(shù)據(jù)集成。
3.3.1 聯(lián)邦虛擬數(shù)據(jù)庫
在具體應(yīng)用中,結(jié)合系統(tǒng)負(fù)載的實際狀況在云內(nèi)若干臺服務(wù)器上可自動部署該數(shù)據(jù)庫。此數(shù)據(jù)庫在與位于云端的異構(gòu)數(shù)據(jù)集成接口連接的過程中主要依托的是異構(gòu)數(shù)據(jù)結(jié)果集成接口,并對源于異構(gòu)數(shù)據(jù)集成接口的統(tǒng)一語義、數(shù)據(jù)格式實施集成處理,優(yōu)化整合云內(nèi)所有的異構(gòu)數(shù)據(jù)源,從而得到統(tǒng)一的聯(lián)邦虛擬數(shù)據(jù)庫。
3.3.2 異構(gòu)數(shù)據(jù)集成接口
通常在進行設(shè)置時,設(shè)計人員會將該接口設(shè)置在云端,讓其以云端的異構(gòu)數(shù)據(jù)為對象實施異構(gòu)數(shù)據(jù)語義與格式的集成處理。異構(gòu)數(shù)據(jù)格式集成可實現(xiàn)對表沖突與物理沖突的處理,物理沖突指因數(shù)據(jù)源存儲所產(chǎn)生的沖突;而表沖突指命名沖突、表結(jié)構(gòu)沖突以及表關(guān)系沖突等,如在對異構(gòu)數(shù)據(jù)格式進行集成處理的過程中,可以考慮選擇采取基于 XML 的數(shù)據(jù)格式解析中間件的方式重新對數(shù)據(jù)格式予以整理,從而妥善處理沖突問題[2]。異構(gòu)語義集成可用于對數(shù)據(jù)語義沖突進行處理,語義沖突指在對同種現(xiàn)實世界事物進行描繪的過程中,在刻畫結(jié)構(gòu)、方式以及內(nèi)容里兩個對象產(chǎn)生的語義的不一致性。通過預(yù)處理、分析異構(gòu)數(shù)據(jù)源將數(shù)據(jù)的統(tǒng)一性提取出來,得到建立局部本體的語義內(nèi)容,能使數(shù)據(jù)集成過程中出現(xiàn)的物理沖突得到妥善的處理。語義沖突監(jiān)測機制可以發(fā)現(xiàn)數(shù)據(jù)集成時產(chǎn)生的語義沖突,對表沖突進行處置,將異構(gòu)清除、語義沖突解決,達到集成異構(gòu)數(shù)據(jù)的目的。
3.4 云計算下大規(guī)模數(shù)據(jù)存儲與資源管理辦法
Hadoop可用于分布式處理許多數(shù)據(jù),是當(dāng)下被普遍使用的一種用于開發(fā)大規(guī)模數(shù)據(jù)存儲及資源管理的軟件框架。在進行分布式處理時,其采取的方式具有高效、可靠、可伸縮的特點。系統(tǒng)的核心框架為MapReduce、Hadoop 分布式文件系統(tǒng)(HDFS),后者為Nam-eNode/DataNode結(jié)構(gòu),其集群內(nèi)部有1組DataNode節(jié)點、1個 Nam-eNode節(jié)點,是依靠NameNode節(jié)點對DataNode節(jié)點進行一致性地調(diào)度,對其發(fā)布刪除、創(chuàng)建、復(fù)制的命令,而DataNode節(jié)點主要承擔(dān)著處理所有節(jié)點內(nèi)的數(shù)據(jù)等事務(wù)。
MapReduce的主要功能是對大數(shù)據(jù)集進行并行處理,在處理過程中,其先對系統(tǒng)內(nèi)設(shè)置的總?cè)蝿?wù)進行分割處理,然后得到大量子任務(wù),任一子任務(wù)基于集群節(jié)點里均可實施并行處理操作。為了確保所有子任務(wù)節(jié)點安全、可靠、穩(wěn)定,在創(chuàng)建數(shù)據(jù)塊副本時,HDFS往往會創(chuàng)建兩個以上。
云計算下大規(guī)模數(shù)據(jù)存儲與資源管理模塊可用于分布式處理許多數(shù)據(jù);為了保證支持重新分布處理失敗的節(jié)點,每一層都得對若干個工作數(shù)據(jù)副本進行維護;可考慮選取可伸縮數(shù)據(jù)處理和存儲模式,如此便可以實現(xiàn)對PB級的數(shù)據(jù)的高速處理[3]。
4 結(jié)語
目前,在國內(nèi)外的許多大型制造業(yè)領(lǐng)域云計算下異構(gòu)數(shù)據(jù)集成模型已得到了大范圍的運用,且許多分公司均完成了信息化建設(shè),同時建立了大量異構(gòu)信息管理系統(tǒng)。在未創(chuàng)建并執(zhí)行此模型的過程中,企業(yè)必須安排專人負(fù)責(zé)歸納匯總分公司的信息與數(shù)據(jù),以給決策者作出準(zhǔn)確決策提供借鑒,云計算下的異構(gòu)數(shù)據(jù)集成模型大大提高了效率。執(zhí)行此模型以后,分公司的所有數(shù)據(jù)均可以得到及時整理,便于企業(yè)制定準(zhǔn)確決策,強化企業(yè)市場應(yīng)對能力。
參考文獻
[1]周俊暉,趙聰浩,馮振儉,等.多源異構(gòu)數(shù)據(jù)集成的實景三維數(shù)據(jù)模型[J].北京測繪,2022(5):563-570.
[2]王夢林,龔智煌,淵博,等.基于BIM的綠色建筑運維多源異構(gòu)數(shù)據(jù)集成路徑研究[J].土木建筑工程信息技術(shù),2022(4):68-73.
[3]李帥,郭妍彤,周文迪.基于Neo4j的數(shù)據(jù)空間多源異構(gòu)數(shù)據(jù)集成管理研究[J].現(xiàn)代計算機,2021(12):36-42.
[4]溫浩宇,李京京.大數(shù)據(jù)時代的數(shù)字圖書館異構(gòu)數(shù)據(jù)集成研究[J].情報雜志,2013(9):138-141.
(編輯 王雪芬)
Construction of heterogeneous data integration model based on cloud computing
Liu? Xuefang, Zhu? Ling
(Jingdezhen College, Jingdezhen 333000, China)
Abstract:? The integration and processing of heterogeneous data have always been a problem that scholars have explored. In recent years, the heterogeneous data integration model has been constructed under the basis of cloud computing. The following business applications create convenient conditions for the mapping and associations between the unified query, retrieval, and business application disposal of heterogeneous data. To this end, this article first introduces the basic situation of the construction of cloud computing heterogeneous data integrated models at home and abroad, and then specifically pointed out the basic composition of heterogeneous data integration models under cloud computing, and finally develops the technology of the existing model construction implementation. It is discussed to create high-quality services for users in terms of data.
Key words: heterogeneous data; cloud computing; construction; integrated model