陸佳民,馮 鈞,唐志賢,張鵬程
(河海大學,江蘇 南京 210098)
水利大數(shù)據(jù)目錄服務與資源共享關鍵技術研究
陸佳民,馮 鈞,唐志賢,張鵬程
(河海大學,江蘇 南京 210098)
長期以來,各水利單位與業(yè)務部門從自身發(fā)展實際出發(fā),建設了一大批水利信息化業(yè)務應用項目,并積累下豐富的水利數(shù)據(jù)資源,總量已超 2.5 PB。由于這些數(shù)據(jù)的采集與使用一直依賴于不同的業(yè)務系統(tǒng),數(shù)據(jù)不僅分散在水利部、七大流域、31 個省區(qū)(直轄市)和新疆建設兵團的數(shù)據(jù)中心或不同業(yè)務部門,同時形式異構,業(yè)務間交叉冗余、語義沖突,嚴重制約了水利領域大數(shù)據(jù)高效共享與使用。面對跨行業(yè)跨部門的結構化、半結構、非結構化水利數(shù)據(jù)共享需求,提出發(fā)展基于分布式目錄的海量異構水利數(shù)據(jù)共享技術,構建面向水利部/流域/省區(qū)的水利大數(shù)據(jù)共享平臺,從而使全國范圍內(nèi)水利數(shù)據(jù)非重構高效共享成為可能。研究能夠充分利用既有水利信息化建設成果,是“十三五”期間推進“數(shù)字水利”向“智慧水利”積極發(fā)展的重要基礎性工作之一。
智慧水利;大數(shù)據(jù);共享服務;分布式目錄
“十二五”期間,隨著國家多項水利信息化重點工程的落實和實施,全國水利信息化進程不斷加快,流域和地方信息化水平全面提升,信息技術與水利業(yè)務融合程度逐步加深,信息化發(fā)揮效益更加顯著,基本形成了由基礎設施、業(yè)務應用體系及與之相配套的技術標準和保障體系構成的水利信息化綜合體系[1]。截至 2015 年底[2],省級以上水利部門成立網(wǎng)絡安全與信息化領導小組(或信息化工作領導小組)的單位有 38 家,年度省級以上水利部門主持新建信息化項目 200 多項,投資總額超過 36 億元。在信息采集與數(shù)據(jù)管理層面,全國各類水利信息采集點超過 14 萬處,自動采集率達 80%;省級以上水利部門立項建設的數(shù)據(jù)中心從“十一五”時期的 3 家增加到 24 家,當前存儲數(shù)據(jù)資源近 2.5 PB。
伴隨著各類水利數(shù)據(jù)監(jiān)測手段與通信技術的不斷完善,形成了巨大的數(shù)據(jù)富礦,成為推動各類水利信息新技術應用,由“數(shù)字水利”向“智慧水利”積極轉變的重要基礎[3]。然而,由于長期以來,水利信息化建設多與專業(yè)工程應用、局部業(yè)務單位需求綁定,水利數(shù)據(jù)的采集與使用一直依賴于具體的業(yè)務系統(tǒng)和工程項目,導致軟硬件、數(shù)據(jù)資源分散建設在各個單位或不同業(yè)務部門,形成以地域、專業(yè)、部門、系統(tǒng)等為邊界的孤島[4],數(shù)據(jù)形式異構,同時業(yè)務間數(shù)據(jù)交叉冗余、語義沖突、管理主體各異,嚴重制約了水利領域大數(shù)據(jù)高效共享與使用。對于結構化數(shù)據(jù),可通過重構整合構建面向一定應用預期的共享庫,解決特定范圍內(nèi)的共享問題。然而,面對全國范圍內(nèi)的水利數(shù)據(jù)共享,特別是 90% 以上的數(shù)據(jù)以非結構化、半結構化形式存在,迫切需要研究新型共享機制和實現(xiàn)技術。
針對上述問題,圍繞分布式海量異構水利數(shù)據(jù)共享技術,總結多年來水利大數(shù)據(jù)共享實踐經(jīng)驗[5],基于分布式目錄服務,對數(shù)據(jù)共享技術架構進行綜述,提出水利大數(shù)據(jù)多主體共享、異構數(shù)據(jù)語義協(xié)同、數(shù)據(jù)資源智能發(fā)現(xiàn)方法、可信服務監(jiān)控優(yōu)化等多項核心關鍵技術,使得全國范圍內(nèi)水利數(shù)據(jù)非重構高效共享成為可能。
自 2008 年 9 月由《科學》雜志提出大數(shù)據(jù)概念[6]以來,大數(shù)據(jù)理念深入人心,相關技術發(fā)展如火如荼,各類應用已廣泛并深刻地影響著當下社會的方方面面。在商業(yè)零售、物流、醫(yī)藥、文化產(chǎn)業(yè)、交通、銀行、保險、證券等多個行業(yè),各類大數(shù)據(jù)應用層出不窮,形成了比較全面的大數(shù)據(jù)應用生態(tài)環(huán)境。在這一背景下,大數(shù)據(jù)的重要性及其中蘊含巨大價值開始成為廣大群眾的普遍共識。大數(shù)據(jù)管理技術逐漸從如何采集與存儲數(shù)據(jù),轉而向如何共享與利用數(shù)據(jù)價值的方向轉變。
美國奧巴馬于 2009 年 5 月 21 日宣布實施“開放政府計劃”(Open Government Initiative),開通“一站式”政府數(shù)據(jù)下載網(wǎng)站 Data.gov,提供近 20 萬項數(shù)據(jù)文件,涵蓋了社會、民生、經(jīng)濟等領域的近50 個門類,用于整合開放原先分布在 2.4 萬個美國聯(lián)邦政府機構網(wǎng)站上的零散數(shù)據(jù),以提供統(tǒng)一服務。歐盟委員會 2010 年 4 月發(fā)起歐洲數(shù)字化議程,并推出開放數(shù)據(jù)平臺(ODP EU Open Data Portal),提供歐盟統(tǒng)計局的包括地理、大氣、國際貿(mào)易、農(nóng)業(yè)等各類數(shù)據(jù)集。
2017 年 5 月,國務院印發(fā)《政務信息系統(tǒng)整合共享實施方案》(國辦發(fā)〔2017〕39 號),提出建立全國政務信息資源目錄體系,推進建設統(tǒng)一規(guī)范、互聯(lián)互通、安全可控的數(shù)據(jù)開放網(wǎng)站和全國政務信息共享網(wǎng)站,從根本上解決長期以來困擾我國政務信息化建設的“各自為政、條塊分割、煙囪林立、信息孤島”的問題。
早在 2015 年 4 月,水利部印發(fā)《水利信息化資源整合共享頂層設計》[7],明確了水利信息化資源整合共享的技術路線和實施途徑,提出采用云計算大數(shù)據(jù)技術,整合省級以上基礎設施、數(shù)據(jù)資源、業(yè)務應用、網(wǎng)絡安全體系。水利部信息化資源整合共享重點項目的國家水信息基礎平臺建設已全面啟動,相關制度與行業(yè)標準編制工作已經(jīng)部署,水利部資源整合共享工作正在深入推進。
水利大數(shù)據(jù)的共享交換與數(shù)據(jù)服務是實現(xiàn)水利大數(shù)據(jù)資源化的重要途徑[8-9]。通過構建水利大數(shù)據(jù)共享服務平臺,可以在全國范圍內(nèi)實現(xiàn)水利部/流域/省區(qū)三級異構數(shù)據(jù)資源的互聯(lián)互通和高效共享訪問。平臺技術體系架構如圖 1 所示,由數(shù)據(jù)資源層、平臺支撐層、數(shù)據(jù)匯聚層、核心服務層和應用層 5 個層次組成。
圖 1 水利大數(shù)據(jù)共享服務平臺技術架構
首先,在水利部、流域和省級分別構建自治數(shù)據(jù)資源目錄,實現(xiàn)對本級數(shù)據(jù)資源的元數(shù)據(jù)抽取與目錄匯編,利用水利信息網(wǎng)外網(wǎng)進行互訪,形成大數(shù)據(jù)共享服務平臺的數(shù)據(jù)資源層。其次,平臺支撐層利用對等網(wǎng)絡結構和多層次多粒度數(shù)據(jù)緩存等,滿足萬級用戶高并發(fā)訪問需求,實現(xiàn)云平臺對海量數(shù)據(jù)的高效管理。
數(shù)據(jù)匯聚層包括 3 個模塊。數(shù)據(jù)事權匯聚模塊基于水利數(shù)據(jù)目錄分類標準,形成全域數(shù)據(jù)事權關系圖。索引匯聚模塊,形成水利行業(yè)全域的核心目錄索引。業(yè)務視圖匯聚模塊結合業(yè)務應用需求,構建了水文、水資源、水環(huán)境水生態(tài)、水利工程、農(nóng)村水利、水災害(防汛抗旱)、水土保持和移民八大水利應用業(yè)務視圖。核心服務層包括智能發(fā)現(xiàn)、柔性多引擎等,智能發(fā)現(xiàn)服務集包括對搜索關鍵字進行分詞的查詢分詞,進行關鍵字擴展的語義擴展和查詢結果排名等服務;柔性多引擎服務集,包括數(shù)據(jù)總線,面向應用的 Web 服務接口及實現(xiàn)主流數(shù)據(jù)與數(shù)據(jù)總線之間對接的接口適配器。應用層提供關鍵字檢索、時空查詢、導航查詢和發(fā)布訂閱等資源發(fā)現(xiàn)和獲取服務?;谄脚_的數(shù)據(jù)發(fā)現(xiàn)和獲取服務,開發(fā)了水情、工情、水質、遙感等基礎查詢和分析服務。
與傳統(tǒng)互聯(lián)網(wǎng)或金融行業(yè)的大數(shù)據(jù)問題不同,水利信息資源不僅數(shù)量龐大、結構異質,同時數(shù)據(jù)資源分散存儲在水利部/流域/省級節(jié)點,業(yè)務交叉冗余且管理事權復雜,互訪互用需求顯著迫切,從而給全國范圍內(nèi)的水利大數(shù)據(jù)共享帶來巨大挑戰(zhàn)。為此,結合我國近年來水利大數(shù)據(jù)共享實踐經(jīng)驗,從構建基于分布式目錄的新型水利大數(shù)據(jù)共享模型,基于多重映射機制的異構數(shù)據(jù)組織方法,基于語義的水利大數(shù)據(jù)智能發(fā)現(xiàn)技術,以及水利大數(shù)據(jù)可信共享服務方法 4 個角度出發(fā),實現(xiàn)對業(yè)務應用的良好支持,形成穩(wěn)固的水利大數(shù)據(jù)共享技術體系。
3.1 基于分布式目錄的水利大數(shù)據(jù)共享服務模型
針對水利大數(shù)據(jù)事權管理復雜,統(tǒng)一發(fā)現(xiàn)難的問題,需要立足于水利部、流域和省級部門分別建立的具有自治共享能力的數(shù)據(jù)資源目錄,結合部門組織架構和水利信息分類,構建支持數(shù)據(jù)溯源定位的全域數(shù)據(jù)事權關系圖、核心目錄索引和業(yè)務視圖集。
因此,提出索引片區(qū)多層級合并技術,將數(shù)據(jù)資源目錄的核心目錄索引匯聚形成全域語義一致的分布式資源目錄索引[10],以實現(xiàn)全域共享數(shù)據(jù)的統(tǒng)一發(fā)現(xiàn)。同時,針對數(shù)據(jù)溯源定位過程中存在的交叉冗余問題,提出基于模糊優(yōu)先級的二階段實例層數(shù)據(jù)集成方法[11],形成面向動態(tài)業(yè)務的可信數(shù)據(jù)集,解決數(shù)據(jù)不一致問題。
3.2 基于多重映射機制的異構數(shù)據(jù)組織方法
不同水利事權單位所管理的水利信息資源在數(shù)據(jù)內(nèi)容和存儲結構上都存在極大的差異,既包括實時水雨情、水文、水質、氣象和水利普查等數(shù)據(jù)庫,又有遙感影像、矢量空間等半結構或非結構化數(shù)據(jù)。在水利大數(shù)據(jù)共享服務平臺上,需要將這些異構數(shù)據(jù)內(nèi)容映射在相同的語義環(huán)境下,達到統(tǒng)一查詢和互聯(lián)互通的目標。
針對這一問題,采用聚類分析法提取不同類型元數(shù)據(jù)的核心目錄模式,并對水利大數(shù)據(jù)資源特征的元數(shù)據(jù)模式集定義描述,利用可配置方法,以實現(xiàn)不同類型的結構化、非結構化和半結構數(shù)據(jù)資源的元數(shù)據(jù)自動抽取。同時,配置映射不同類型的元數(shù)據(jù)模式到統(tǒng)一的核心目錄模式,以實現(xiàn)對異構數(shù)據(jù)資源的歸一化處理和統(tǒng)一發(fā)現(xiàn),又提出面向可擴展多維分類的多值映射技術,將核心目錄模式映射到業(yè)務視圖集,實現(xiàn)了從多維視角發(fā)現(xiàn)和訪問數(shù)據(jù)資源[12]。
3.3 基于語義的數(shù)據(jù)資源智能發(fā)現(xiàn)方法
水利大數(shù)據(jù)共享服務平臺需要向全社會開放,實現(xiàn)水利信息資源的公開和共享共用。因此,在資源發(fā)現(xiàn)方法上,既需要滿足普通公眾對于水利知識探索需求,也需要滿足從事水利行業(yè)的專業(yè)人員從業(yè)務實際需求出發(fā),對水利數(shù)據(jù)資源進行精準定位和關聯(lián)分析。
因此,提出基于《水利公文詞表》《水利信息化常用術語》,以及實時水雨情等水利數(shù)據(jù)庫,提取水利數(shù)據(jù)常見關鍵字及其關系[13]。以此作為初始訓練樣本集,可以融合水利領域知識的深度置信網(wǎng)絡文本挖掘方法,利用 BP 網(wǎng)絡進行監(jiān)督學習,構建水利知識分類,通過反向傳播優(yōu)化參數(shù),提高從專業(yè)文獻、水利行業(yè)網(wǎng)站、大百科等非結構化文本中提取知識單元及關系的準確率,形成水利知識圖譜。同時,針對水利信息查詢過程中僅限關鍵詞字面匹配的問題,提出基于水利語義的信息檢索方法,結合知識圖譜,利用語義推理機進行搜索擴展,以獲取業(yè)務應用更全面的信息。
3.4 面向水利大數(shù)據(jù)的可信服務方法
作為一個提供水利大數(shù)據(jù)共享應用的公共開放平臺,維護平臺服務的長效性和穩(wěn)定性至關重要。由于平臺數(shù)據(jù)資源匯聚自分散在全國不同的地域和網(wǎng)絡環(huán)境下的水利數(shù)據(jù)資源目錄系統(tǒng),在查詢時間和服務可靠性等方面呈現(xiàn)非線性、動態(tài)多變、難以把握的特性。
針對該問題,提出基于徑向基神經(jīng)網(wǎng)絡的在線服務質量組合預測方法[14],在對候選服務進行服務質量預測的基礎上,為用戶推薦優(yōu)質服務。采用自激勵門限自回歸移動平均模型對非線性數(shù)據(jù)進行預測,通過灰色等維新息模型模擬出整個服務屬性值的發(fā)展趨勢,最后用徑向基神經(jīng)網(wǎng)絡模型進行組合預測,以提高預測精度,均方根誤差降低了30%~50%。
在局部地區(qū)突發(fā)水情的情況下,極易出現(xiàn)短時內(nèi)訪問激增等服務突發(fā)情況,從而造成資源瞬間耗竭等異常問題。因此,提出了基于加權樸素貝葉斯的數(shù)據(jù)服務質量監(jiān)控方法[15],通過組合地理位置、訪問網(wǎng)絡和時間等多種影響因素,對服務質量進行在線監(jiān)控獲取樣本序列,結合滑動窗口及時淘汰過時樣本,利用信息增益理論兼顧最新樣本,避免了監(jiān)控延遲判斷、噪聲抖動等現(xiàn)象,提高了監(jiān)控的靈敏度,能夠平均提前 30 個樣本檢測到服務質量問題,為資源的動態(tài)調(diào)整提供了更多時間。
伴隨著水利部水信息基礎平臺、國家水資源監(jiān)控能力建設(二期)等項目的展開,水利“十三五”信息化建設工作正在實踐過程中不斷深化。如何能夠充分利用“十一五”與“十二五”水利信息化建設成果,構建實施水利大數(shù)據(jù)共享服務平臺,全面整合共享并應用水利大數(shù)據(jù)成果,向公眾提供切實有效的水利信息服務,推動“數(shù)字水利”向“智慧水利”的積極轉變,是當前水利信息化建設工作的重點與難點。
在國務院印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)〔2015〕50 號)中,明確指出“加快政府數(shù)據(jù)開放共享,推動資源整合,提升治理能力”。在“十三五” 水利科技創(chuàng)新規(guī)劃中,多源異構數(shù)據(jù)的融合與共享被列為高新技術應用的三大方向之一?!笆濉彼畔⒒?guī)劃中,“水利大數(shù)據(jù)分析與應用服務示范”作為十三項工程之一列入重大研究專項。
因此,針對水利大數(shù)據(jù)量大面廣、事權復雜、結構異質的特性問題,圍繞水利大數(shù)據(jù)共享與服務過程凸顯出來的具體挑戰(zhàn),從構建基于分布式目錄的新型水利大數(shù)據(jù)共享模型,基于多重映射機制的異構數(shù)據(jù)組織方法,基于語義的水利大數(shù)據(jù)智能發(fā)現(xiàn)技術,以及水利大數(shù)據(jù)可信共享服務方法 4 個角度出發(fā),對關鍵技術方法和應用成果進行總結論述,為實現(xiàn)水利大數(shù)據(jù)的深度應用邁出堅實一步。
[1] 鄧堅. 開拓創(chuàng)新 扎實做好新時期水利網(wǎng)信工作[J]. 水利信息化,2016 (4): 5-9.
[2] 水利部網(wǎng)絡安全與信息化領導小組辦公室. 2015 年度中國水利信息化發(fā)展報告[M]. 北京:中國水利水電出版社,2016: 1-3.
[3] 蔡陽. 水利信息化“十三五”發(fā)展應著力解決的幾個問題[J]. 水利信息化,2016 (1): 1-5.
[4] 蔡陽. 關于水利信息化資源整合共享的思考[J]. 水利信息化,2014 (6): 1-6.
[5] 馮鈞,唐志賢,盛震宇,等. 水利數(shù)據(jù)中心數(shù)據(jù)交換平臺設計探討[J]. 水利信息化,2014 (1): 15-19.
[6] Nature. Big data: Science in the petabyte era[J]. Nature, 2008,455: 1-136.
[7] 中華人民共和國水利部. 水利信息化資源整合共享頂層設計[R]. 北京:水利部信息化工作領導小組辦公室,2015: 3-5.
[8] 馮鈞,許瀟,唐志賢,等. 水利大數(shù)據(jù)及其資源化關鍵技術研究[J]. 水利信息化,2013 (4): 6-9.
[9] 成建國,馮鈞,楊鵬,等. 水利數(shù)據(jù)資源目錄服務關鍵技術研究[J]. 水利信息化,2014 (6): 18-21,35.
[10] FENG J, TANG Z X, WEI M, et al. HQ-Tree: A distributed spatial index based on hadoop[J]. China Communications, 2014, 11 (7): 128-141.
[11] TANG Z, FENG J, XI X U, et al. Research on the modeling and indexing method for river network[J]. Dianzi Keji Daxue Xuebao/Journal of the University of Electronic Science & Technology of China, 2015, 44 (4): 611-616,640.
[12] 朱躍龍,蔡陽,馮鈞,等. 一種面向多數(shù)據(jù)類型信息資源元數(shù)據(jù)的共享方法:中國,ZL201110211643.7[P]. 2013-03-06.
[13] 馮鈞,許瀟,唐志賢. 面向水利信息資源目錄服務的分布式語義檢索方法研究[J]. 計算機與現(xiàn)代化,2015 (2): 122-126.
[14] ZHANG P, LEUNG H, LI W, et al. Web services property sequence chart monitor: a tool chain for monitoring BPEL-based web service composition with scenario-based speci fi cations[J]. IET Software, 2013, 7 (4): 222-248.
[15] ZHANG P, HAN Q, LI W, et al. A novel QoS prediction approach for cloud service based on Bayesian networks model[C]// IEEE International Conference on Mobile Services. New York: IEEE, 2016: 111-118.
Survey on key technologies for catalog service and resource sharing on big water data
LU Jiamin, FENG Jun, TANG Zhixian, ZHANG Pengcheng
(Hohai University, Nanjing 210098, China)
The Water Management Authorities have long been urged to establish different water information management systems, to ful fi ll their own requirements. During this period, massive water data with the overall amount more than 2.5 PB, has been collected but stored dispersedly in different data centers or different business departments located on the Ministry of Water Resources, 7 major basins, 31 provinces and Xinjiang Construction Regiment. Such data is not only various on their structures and storage locations, but is also cross redundant on its semantic expressions and authorization clari fi cation. It severely restricts the sharing and using big data in the fi eld of water conservancy. Facing the water data sharing demand of structured, semi-structured and unstructured and cross-industry and crossdepartment, the article puts forward developing the mass heterogeneous water resources data share technology based on distributed catalog. In order to share such data nationally, over the Ministry of Water Resources, the river basin management agencies and the provincial institutes, it is necessary to establish a national big water data sharing service platform, so that non-refactoring and ef fi cient sharing of water data across the country becomes possible. The research makes full use of existing water conservancy informatization construction achievements. It is one of the important basic works to turn the“digital water conservancy”to“intelligent water conservancy”during the 13th Five Year.
intelligent water conservancy; big data; sharing service; distributed catalog
TP393;TV21
A
1674-9405(2017)04-0017-04
10.19364/j.1674-9405.2017.04.004
2017-05-15
國家科技支撐計劃課題(2015BAB07B01);國家自然科學基金(61370091,61602151);江蘇省重點研發(fā)計劃(BE2015707)
陸佳民(1983-),男,江蘇南京人,博士,講師,主要研究方向:數(shù)據(jù)管理與知識工程,時空數(shù)據(jù)庫管理、分布式數(shù)據(jù)處理和水利信息化等技術。