◆唐芳 袁敏 孟若琳
基于云計算架構(gòu)的水文大數(shù)據(jù)云平臺建設(shè)策略
◆唐芳 袁敏 孟若琳
(山東省水利勘測設(shè)計院 山東 250013)
在當今的大數(shù)據(jù)時代中,水文工作也實現(xiàn)了信息化的發(fā)展。為有效提升水文工作的信息化效果,本文特對以云計算框架為基礎(chǔ)的水文大數(shù)據(jù)云平臺建設(shè)進行分析。希望通過本次的分析,可以對水文大數(shù)據(jù)儲存、處理、管理與應(yīng)用等工作的信息化提供相應(yīng)參考。
大數(shù)據(jù);云平臺建設(shè);云計算框架;水文大數(shù)據(jù)
隨著當今水文工作的不斷發(fā)展,各種形式的水文數(shù)據(jù)積累量也越來越多。在這樣的情況下,傳統(tǒng)的水文數(shù)據(jù)處理模式越來越難以滿足水文大數(shù)據(jù)的實際處理需求。因此,技術(shù)人員一定要將云計算框架作為基礎(chǔ),對水文大數(shù)據(jù)云平臺進行合理建設(shè),讓水文大數(shù)據(jù)的處理需求得以良好滿足,為水文工作的良好進行與信息化發(fā)展奠定堅實的技術(shù)基礎(chǔ)。
為滿足水文大數(shù)據(jù)的處理需求,在本次云平臺建設(shè)中,將關(guān)系型數(shù)據(jù)庫以及分布式文件系統(tǒng)相結(jié)合的方法作為基本思路。具體建設(shè)中,需要將本地IDC中的私有云作為基礎(chǔ),將Hadoop開源框架作為首選。該開源框架可以為密集型大數(shù)據(jù)的分布式儲存和批量分析處理提供支持,在離線數(shù)據(jù)分析和儲存中十分適用;在關(guān)系型數(shù)據(jù)庫管理系統(tǒng)中,它可以作為補充來使用。但是私有云條件下的Hadoop集群建設(shè)需要很多的內(nèi)部組件聯(lián)動,具有較高的學習門檻,這就會使其部署和運維成本進一步增加。為解決這一問題,可以將分布式框架作為基礎(chǔ),借助于虛擬化技術(shù)來實現(xiàn)彈性服務(wù)的提供,滿足其高度擴展需求。對公有云服務(wù)商所提供出的分布式數(shù)據(jù)儲存和計算服務(wù)加以直接應(yīng)用,這樣便可實現(xiàn)運維成本的有效降低,同時也可以進一步提升平臺的性能效率與擴展能力,為水文大數(shù)據(jù)云平臺建設(shè)架構(gòu)提供更加優(yōu)秀的技術(shù)方案。
本次設(shè)計中,選擇的是阿里云計算平臺,該平臺首先根據(jù)具體功能對集群形式的基礎(chǔ)框架組件進行封裝,使其成為若干種服務(wù),再通過TableStore表格儲存和OSS對象儲存的方式為大數(shù)據(jù)訪問和儲存提供出透明的自動化移動和分布服務(wù)。與Hadoop相同,MaxCompute大數(shù)據(jù)計算引擎也是將SQL標準接口作為基礎(chǔ),按照MapReduce標準范式對整個計算過程進行解析,將整個處理過程劃分成若干個小部分,每一個小部分都可以在集群中的任意一個節(jié)點上進行執(zhí)行,同時也可以重新執(zhí)行。另外,在MaxCompute中,也實現(xiàn)了自動形式的函數(shù)接口開放和數(shù)據(jù)挖掘算法庫的集成。圖1是阿里云服務(wù)框架示意圖。
在水文工作中,各種數(shù)據(jù)處理都具有非常高的時效性需求,這樣才可以對緊急事件及時作出相應(yīng)的預(yù)警和決策。為達到這一目標,在水文大數(shù)據(jù)云平臺的建設(shè)過程中,可以將阿里云服務(wù)中的StreamCompute實時計算框架加入水文數(shù)據(jù)中心框架中,該計算框架可對數(shù)據(jù)源進行不斷更新,對接收到的每一條數(shù)據(jù)都會及時作出處理。因此,將該計算框架應(yīng)用到水文大數(shù)據(jù)云平臺中,便可對水文大數(shù)據(jù)進行實時清洗,同時也可以實時進行專業(yè)模型計算與數(shù)據(jù)流處理。
元數(shù)據(jù)指的是對數(shù)據(jù)進行描述性,它會按照統(tǒng)一標準對數(shù)據(jù)所具有的基礎(chǔ)屬性、操作及其業(yè)務(wù)定義等進行規(guī)范記錄。在大數(shù)據(jù)環(huán)境下,對元數(shù)據(jù)管理及其維護系統(tǒng)進行科學建立,便可讓元數(shù)據(jù)得到良好維護,使其形成分布式文件系統(tǒng)以及關(guān)系型數(shù)據(jù)庫中各種類型信息儲存的數(shù)據(jù)字典。當數(shù)據(jù)發(fā)生變化的情況下,便可借助于元數(shù)據(jù)同步更新來實現(xiàn)多源化水文數(shù)據(jù)信息的一致性與完整性保障,同時也使其具有可追溯性特征。
在本次以云計算框架為基礎(chǔ)所設(shè)計的水文大數(shù)據(jù)云平臺中,在本地機房中進行了水文應(yīng)用的部署,借助于VPN持久連接的形式來實現(xiàn)公有云和私有云平臺的互通。公有云主要對水文大數(shù)據(jù)進行彈性管理,并與私有云部署相配合,對關(guān)鍵的水文數(shù)據(jù)進行備份,并進行相應(yīng)的資源優(yōu)化處理工作。在該云平臺中,主要的子系統(tǒng)有五個,第一是數(shù)據(jù)門戶管理子系統(tǒng),第二是數(shù)據(jù)匯集子系統(tǒng),第三是數(shù)據(jù)存儲子系統(tǒng),第四是數(shù)據(jù)處理分析子系統(tǒng),第五是數(shù)據(jù)分發(fā)子系統(tǒng)。圖2是該水文大數(shù)據(jù)云平臺的總體框架結(jié)構(gòu)示意圖。
在水文大數(shù)據(jù)平臺的具體應(yīng)用中,需要采集來源不同的異構(gòu)數(shù)據(jù),比如遙測數(shù)據(jù)以及來自其他領(lǐng)域的數(shù)據(jù)。其中,遙測數(shù)據(jù)大多為實時監(jiān)測數(shù)據(jù),采集過程中需要借助于標準碼轉(zhuǎn)換器轉(zhuǎn)發(fā)的方式來接入。來自其他領(lǐng)域的相關(guān)數(shù)據(jù)包括氣象數(shù)據(jù)、國土數(shù)據(jù)等,這些數(shù)據(jù)需借助于已定義接口或者是連接的方式來接入。就數(shù)據(jù)格式來看,水文大數(shù)據(jù)主要有非結(jié)構(gòu)化、半結(jié)構(gòu)化以及結(jié)構(gòu)化格式。通過云服務(wù)器上寄存的ETL,可將采集到的異構(gòu)數(shù)據(jù)實時寫入到信息隊列中,再通過實時計算服務(wù)來進行數(shù)據(jù)的質(zhì)量的校驗與清洗,這樣便可實現(xiàn)水文數(shù)據(jù)入庫效率與質(zhì)量的良好保障。
在本次所研究的水文大數(shù)據(jù)云平臺中,關(guān)系數(shù)據(jù)庫與分布式文件系統(tǒng)之間實現(xiàn)了有機結(jié)合,以此來共同儲存水文大數(shù)據(jù)。借助于關(guān)系型數(shù)據(jù)庫服務(wù),對結(jié)構(gòu)化形式的實時遙測數(shù)據(jù)、元數(shù)據(jù)以及質(zhì)量管理控制數(shù)據(jù)進行儲存;借助于分布式文件儲存服務(wù)以及大數(shù)據(jù)表格,對非結(jié)構(gòu)或半結(jié)構(gòu)化的視頻數(shù)據(jù)、圖像數(shù)據(jù)、文檔數(shù)據(jù)和歷史數(shù)據(jù)等進行儲存。
在這兩種數(shù)據(jù)儲存方式中,每一種方式都不是獨立存在,而是借助于相應(yīng)的裝載工具或者是數(shù)據(jù)集成服務(wù)來進行相互補充,以此來達到數(shù)據(jù)庫的彈性擴容效果,讓海量數(shù)據(jù)增長與數(shù)據(jù)結(jié)構(gòu)多樣化發(fā)展需求得以良好滿足,進而為水文大數(shù)據(jù)云平臺的長期應(yīng)用奠定良好基礎(chǔ)。同時,在具體建設(shè)中,通過主題庫以及元數(shù)據(jù)庫的建立,可以讓水文數(shù)據(jù)中的所有數(shù)據(jù)格式得到準確定義與描述,進而為水文系統(tǒng)可用性及其易用性的提升提供足夠便利。
在水文大數(shù)據(jù)云平臺中,水文大數(shù)據(jù)分析主要是將主體化應(yīng)用的實際需求做成依據(jù)來進行相應(yīng)數(shù)據(jù)的分析與處理,因為水文數(shù)據(jù)體量十分龐大,所以需借助于并行計算或者是云計算引擎來進行處理。對于OSS以及TableStore中儲存的海量分布式水文數(shù)據(jù),可在云端通過數(shù)據(jù)集成服務(wù)對其進行高速交換,然后便可借助于MaxAompute中的MapRedute并行計算來進行多節(jié)點高效處理,以此來滿足海量水文數(shù)據(jù)的實際分析與處理需求。在此過程中,云平臺也可將可用性極高的自定義算法和線性、非線性統(tǒng)計法等入口提供給用戶,為其水文數(shù)據(jù)的分析和挖掘提供足夠便利。借助于StreamCompute實時計算服務(wù),可進行消息處理和數(shù)據(jù)庫更新,對水文數(shù)據(jù)的具體計算、處理以及預(yù)報模型套用情況進行實時監(jiān)測,并實現(xiàn)水文數(shù)據(jù)顯示、緊急情況告警和災(zāi)情調(diào)度方案等的實時生成。同時,借助于云平臺中的深度學習、決策樹以及人工神經(jīng)網(wǎng)絡(luò)等的各種技術(shù)方法,可對水文數(shù)據(jù)中所隱含的信息以及數(shù)據(jù)之間的內(nèi)在聯(lián)系進行探索與發(fā)現(xiàn),為跨行業(yè)多源化數(shù)據(jù)的融合與共享、以及水文數(shù)據(jù)中潛在價值的挖掘預(yù)留接口。
對于水文大數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù),具體分析中,可借助于文本分析的形式來實現(xiàn)摘要和關(guān)鍵詞的自動產(chǎn)生,并按照主體對各種數(shù)據(jù)進行分類。這樣便可為后續(xù)的水文數(shù)據(jù)資料快速檢索與瀏覽提供足夠便利。
在該云平臺中,數(shù)據(jù)分發(fā)系統(tǒng)的云計算能力十分強大,通過該系統(tǒng)的應(yīng)用,可讓水文數(shù)據(jù)實現(xiàn)及時的端對端分發(fā),以此來有效確保各個單位與業(yè)務(wù)部門之間的快速聯(lián)動。而在該水文大數(shù)據(jù)云平臺中,其數(shù)據(jù)服務(wù)對象不僅僅包括各個服務(wù)單位、制版系統(tǒng)以及預(yù)報系統(tǒng)等,同時也包括了普通的社會群眾。借助于標準化的API接口,可將水文大數(shù)據(jù)云平臺中的水文數(shù)據(jù)、相關(guān)科普信息以及分析結(jié)果等向社會公眾開放,讓相應(yīng)水文數(shù)據(jù)在社會群眾的生產(chǎn)生活中發(fā)揮出充分的應(yīng)用價值,進而為社會群眾提供出更好的水文服務(wù)工作,盡最大限度降低緊急情況對社會群眾的不良影響。
在水文大數(shù)據(jù)云平臺的設(shè)計與建設(shè)中,統(tǒng)一門戶管理是一項重要內(nèi)容。具體管理中,借助于統(tǒng)一的簡潔界面,將各種歷史水文信息、實時水文信息和水文信息分析預(yù)報結(jié)果等直觀地展示給用戶,為其水文數(shù)據(jù)的應(yīng)用分析與理解提供足夠便利。同時,在該云平臺中,借助于API調(diào)試技術(shù),可實現(xiàn)每一個服務(wù)組件的統(tǒng)一運維和監(jiān)控,而這些功能也都集中在一個統(tǒng)一的界面上。通過這樣的方式,便可實現(xiàn)整體平臺響應(yīng)效率及其易用性的顯著提升。
綜上所述,隨著大數(shù)據(jù)時代的來臨,水文工作中的各種信息數(shù)據(jù)也以海量的形式不斷增加。在這樣的情況下,傳統(tǒng)的數(shù)據(jù)處理技術(shù)便表現(xiàn)出了越來越多的弊端。如果水文數(shù)據(jù)處理技術(shù)得不到及時的更新,海量的水文數(shù)據(jù)處理需求必將無法得到有效滿足。
為解決水文大數(shù)據(jù)處理問題,技術(shù)人員應(yīng)將云計算框架作為基礎(chǔ),對水文大數(shù)據(jù)云平臺進行科學建設(shè),將各種先進的技術(shù)應(yīng)用到云平臺建設(shè)中,做好云平臺總體框架和各個子系統(tǒng)的設(shè)計與開發(fā)。通過這樣的方式,才可以有效確保水文大數(shù)據(jù)云平臺的建設(shè)質(zhì)量,使其在水文大數(shù)據(jù)處理中發(fā)揮出顯著優(yōu)勢。
[1]傅耀威,楊國威,徐泓,等.云計算和大數(shù)據(jù)技術(shù)發(fā)展現(xiàn)狀與趨勢[J].中國基礎(chǔ)科學,2018,20(03):35-37.
[2]雷成茂,郭銀,楊國德,等.利用云計算技術(shù)構(gòu)建水文大數(shù)據(jù)平臺應(yīng)用前景探討[J].山西水利,2016(11):34-35.