高露雄,王立海
(長江水利委員會水文局,湖北 武漢 430010)
科學數(shù)據(jù)共享作為科技創(chuàng)新的重驅(qū)動力,是一個國家科技創(chuàng)新實力和成就保持領(lǐng)先水平的基本保障,是推進經(jīng)濟社會快速可持續(xù)發(fā)展的重要步驟[1]。發(fā)達國家的科學數(shù)據(jù)共享工作起步早,共享范圍、能力及政策策略等發(fā)展完備。美國的科學數(shù)據(jù)共享工程始于 20 世紀 80 年代末,1990 年,美國航空航天局著手建設(shè)分布式最活躍數(shù)據(jù)檔案中心群(DAACs),DAACs 由 9 個數(shù)據(jù)中心構(gòu)成,水循環(huán)數(shù)據(jù)中心(MSFC)位列其中。在歐洲,歐洲環(huán)境總署(EEA)負責研究水利科學數(shù)據(jù)共享方面的工作,歐洲水主題中心(ETC WTR)協(xié)助 EEA 的日常工作,發(fā)布相關(guān)水信息[2]。我國科學數(shù)據(jù)共享工作起步較晚,2001 年,我國正式開始實施國家科學數(shù)據(jù)共享工程,并設(shè)立了專項基金項目“氣象資料共享系統(tǒng)建設(shè)”,標志著我國科學數(shù)據(jù)共享邁入試點建設(shè)階段[3]。2002 年,科技部又推動 5 個科學數(shù)據(jù)中心啟動建設(shè),水文水資源信息共享服務(wù)中心是其中之一[4]。
進入大數(shù)據(jù)時代,數(shù)據(jù)為王是對數(shù)據(jù)這一重要戰(zhàn)略資源的完整概述。國家“十三五”規(guī)劃建設(shè)提出“實施國家大數(shù)據(jù)戰(zhàn)略,推進數(shù)據(jù)資源開放共享”。2015 年國務(wù)院發(fā)布的《國務(wù)院關(guān)于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知》(國發(fā)〔2015〕50 號)中明確提出:加快政府數(shù)據(jù)開放共享,推動公共數(shù)據(jù)資源開放,以帶動社會公眾開展大數(shù)據(jù)增值性、公益性開放和創(chuàng)新應(yīng)用,充分釋放數(shù)據(jù)紅利[5]。
水文資料是國家基礎(chǔ)信息資源的重要組成部分,是一切與水相關(guān)的事業(yè)活動乃至整個國民經(jīng)濟和社會發(fā)展所必須的重要基礎(chǔ)信息。水文數(shù)據(jù)作為重要的基礎(chǔ)性、公益性數(shù)據(jù)資源,其開放共享程度將直接影響社會公共和科研院校對水文數(shù)據(jù)的創(chuàng)新應(yīng)用,制約國家經(jīng)濟發(fā)展質(zhì)量的提高和科學創(chuàng)新能力的提升。因此,為進一步強化水文的社會公益屬性,貫徹落實“大水文”發(fā)展理念,推進水文服務(wù)人民生產(chǎn)生活和經(jīng)濟社會發(fā)展,根據(jù)水文數(shù)據(jù)的特點探討水文數(shù)據(jù)開放能力建設(shè)體系,提出大數(shù)據(jù)背景下長江水文數(shù)據(jù)開放平臺(以下簡稱開放平臺)建設(shè)構(gòu)想。
水文是研究自然界水的時空分布、變化規(guī)律的一門學科。水文數(shù)據(jù)是指從實地調(diào)查、觀測及計算研究所得與水文有關(guān)的各項資料,包括降雨量、蒸發(fā)量、水位、流量、含沙量等各種水文要素類型。與一般的科學數(shù)據(jù)相比,水文數(shù)據(jù)具有以下特點[6]:
1)空間分布特性。水文數(shù)據(jù)是對自然界水的運動變化現(xiàn)象的觀測結(jié)果,由于水的分布具有天然的位置特征,水文數(shù)據(jù)自然繼承了其特征。水文數(shù)據(jù)由分布在全國各大流域及省市大、中、小河流流經(jīng)的廣大區(qū)域上部署的水文測站單元監(jiān)測得到,因此,水文數(shù)據(jù)具有地理空間上的分布性。
2)時間序列特性。水文數(shù)據(jù)是對水文要素長系列的觀測所得的資料,一般是水文測站設(shè)立以來所測得的數(shù)據(jù),具有時間序列特性。水文數(shù)據(jù)在時間維度上的序列特性是其不可替代價值的基礎(chǔ)。
3)強關(guān)聯(lián)性。自然界的水循環(huán)是個環(huán)環(huán)相扣的自封閉體系,水文觀測而來的各要素是水循環(huán)的組成部分,相互間存在著內(nèi)在的聯(lián)系。
隨著水文事業(yè)的不斷發(fā)展、監(jiān)測能力的不斷提升,以及信息化建設(shè)的不斷推進,水文行業(yè)積累了大量歷史數(shù)據(jù),與此同時,遙感、GIS、衛(wèi)星拍攝、AI 視頻、移動互聯(lián)網(wǎng)等現(xiàn)代化信息技術(shù)的發(fā)展與應(yīng)用,全面擴展了水文數(shù)據(jù)的要素類型。水文數(shù)據(jù)也逐漸呈現(xiàn)出多源、多維、大量和多態(tài)的大數(shù)據(jù)特性。
為滿足面向社會公眾和科學研究的多層次數(shù)據(jù)開放能力需求,在數(shù)據(jù)基礎(chǔ)條件具備的前提下,圍繞水文數(shù)據(jù)的特性,水文數(shù)據(jù)開放能力應(yīng)具有解決復(fù)雜需求或擴展服務(wù)效能的數(shù)據(jù)開放接口。水文數(shù)據(jù)開放能力定位如下:
1)提供基礎(chǔ)的水文數(shù)據(jù)資源目錄服務(wù)。水文數(shù)據(jù)開放能力建設(shè)的基礎(chǔ)是水文數(shù)據(jù)資源目錄,水文數(shù)據(jù)資源目錄提供對數(shù)據(jù)資源發(fā)現(xiàn)和定位的高效方法。
2)提供基于 GIS 的水文數(shù)據(jù)查詢和獲取服務(wù)。水文數(shù)據(jù)具有地理位置特性,結(jié)合空間相互關(guān)系,如同一條河流的上下游,結(jié)合 GIS 的空間分析能力,提供基于空間位置關(guān)系的水文數(shù)據(jù)查詢服務(wù)[7]。
3)提供標準一致的長序列水文數(shù)據(jù)服務(wù)。長系列的水文資料對于深入研究水文現(xiàn)象的變化規(guī)律具有重要意義。在長期的水文數(shù)據(jù)觀察過程中,水文測站時有斷面遷移、基面變更或是撤銷重新設(shè)站等影響水文數(shù)據(jù)序列連續(xù)性的情況發(fā)生。綜合應(yīng)用歷史沿革信息,基于統(tǒng)一的標準恢復(fù)水文數(shù)據(jù)的完整序列,是提高水文數(shù)據(jù)開放質(zhì)量的重要舉措。
4)提供滿足多層次需求的水文成果數(shù)據(jù)計算能力。水文數(shù)據(jù)各要素間的內(nèi)在復(fù)雜關(guān)系及其意義,社會公眾是不易知曉和理解的,應(yīng)用水文計算成果設(shè)計簡單易懂的大眾概念,如各種水文民生、洪水、內(nèi)澇等指數(shù)[8],可提升水文數(shù)據(jù)開放的實用性;對于科研工作者,水文數(shù)據(jù)開放能力還需引入專業(yè)成熟的水文分析計算能力,如頻率計算等,滿足不同層次的水文數(shù)據(jù)需求。
開放平臺總體采用分層結(jié)構(gòu)設(shè)計,包含基礎(chǔ)設(shè)施層、數(shù)據(jù)層、服務(wù)層、應(yīng)用層、平臺門戶及標準規(guī)范體系和安全保障策略。基礎(chǔ)設(shè)施層為平臺運行提供計算、存儲和網(wǎng)絡(luò)資源,包括機房、服務(wù)器和網(wǎng)絡(luò)等基礎(chǔ)設(shè)施。數(shù)據(jù)層為上層服務(wù)提供數(shù)據(jù)源,包括標準化水文數(shù)據(jù)庫、空間數(shù)據(jù)、元數(shù)據(jù)及數(shù)據(jù)索引等,是數(shù)據(jù)開放平臺的重要基礎(chǔ)。服務(wù)層實現(xiàn)核心的應(yīng)用支撐服務(wù),為開放應(yīng)用層提供各項服務(wù)能力,包括基礎(chǔ)支持和應(yīng)用支撐服務(wù)。應(yīng)用層包含數(shù)據(jù)和能力開放應(yīng)用,數(shù)據(jù)開放應(yīng)用可以提供數(shù)據(jù)產(chǎn)品定義、配置、發(fā)布、審核、獲取等功能,能力開放應(yīng)用可以提供 API(應(yīng)用程序編程接口)功能的在線注冊、測試、發(fā)布、審核、訂閱等功能。開放平臺門戶為用戶提供統(tǒng)一便捷的訪問入口,將應(yīng)用層的開發(fā)能力展示給用戶,并引導用戶完成對開發(fā)能力的申請與使用。標準規(guī)范體系是開放平臺建設(shè)的重要依據(jù)和持續(xù)發(fā)展的重要保障,包括數(shù)據(jù)和運維規(guī)范。安全保障策略是維持開放平臺有序健康發(fā)展的必要手段,包含開放平臺各層次的安全策略與方案。開放平臺總體結(jié)構(gòu)如圖1 所示。
圖1 開放平臺總體結(jié)構(gòu)
數(shù)據(jù)開放應(yīng)用建設(shè)的體系架構(gòu)如圖2 所示。
圖2 數(shù)據(jù)開放應(yīng)用建設(shè)的體系架構(gòu)
數(shù)據(jù)開放應(yīng)用建設(shè)具體包含內(nèi)容分析如下:
1)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換是根據(jù)數(shù)據(jù)應(yīng)用場景的不同,進行的數(shù)據(jù)標準或格式的轉(zhuǎn)換,是對數(shù)據(jù)的再封裝。如基礎(chǔ)水文數(shù)據(jù)可依據(jù)使用場景是分析計算還是輸出打印,而對提供服務(wù)的數(shù)據(jù)產(chǎn)品進行關(guān)系型數(shù)據(jù)庫或整編年鑒的格式的轉(zhuǎn)換封裝。
2)數(shù)據(jù)配置。數(shù)據(jù)配置是指配置數(shù)據(jù)資產(chǎn)的產(chǎn)品描述信息、數(shù)據(jù)加工方式、產(chǎn)品質(zhì)量信息等,是對數(shù)據(jù)產(chǎn)品元數(shù)據(jù)的補充完善,如某河段斷面的流量數(shù)據(jù)產(chǎn)品應(yīng)該配置其測流斷面位置、方式方法、數(shù)據(jù)的時間范圍等。
3)數(shù)據(jù)發(fā)布。數(shù)據(jù)發(fā)布是將數(shù)據(jù)產(chǎn)品發(fā)布到產(chǎn)品目錄中。數(shù)據(jù)發(fā)布時以數(shù)據(jù)產(chǎn)品的元數(shù)據(jù)對象為依托,構(gòu)建產(chǎn)品目錄樹和搜索服務(wù)。數(shù)據(jù)層中的任意表、視圖、接口服務(wù)、文件資料等都可以作為數(shù)據(jù)產(chǎn)品發(fā)布出去。
4)數(shù)據(jù)獲取。通過“數(shù)據(jù)超市”的方式為用戶提供數(shù)據(jù)產(chǎn)品瀏覽檢索、類別篩查、詳細信息查看、數(shù)據(jù)產(chǎn)品獲取及申請使用等。用戶在取得數(shù)據(jù)產(chǎn)品使用權(quán)限后,在數(shù)據(jù)平臺中提取并生成數(shù)據(jù)文件,完成數(shù)據(jù)產(chǎn)品的獲取。
API 是應(yīng)用功能的外部接入點,是應(yīng)用能力的外在表現(xiàn)。能力開放應(yīng)用建設(shè)的體系架構(gòu)如圖3 所示。
圖3 能力開放應(yīng)用建設(shè)體系架構(gòu)
能力開放應(yīng)用建設(shè)具體內(nèi)容分析如下:
1)API 封裝。API 封裝對開放平臺內(nèi)部已有的服務(wù)能力或新建的服務(wù)接口實現(xiàn)封裝,以供外部調(diào)用。使用 URL、參數(shù)列表、返回值等接口信息描述API,API 的調(diào)用及傳輸協(xié)議采用標準簡單通用的輕量級協(xié)議 HTTP,接口設(shè)計風格參考 RESTful。
2)API 注冊。通過提供 API 描述信息完成,包括名稱、用途、版本、URL、參數(shù)、返回值、調(diào)用方式、錯誤處理等。
3)API 發(fā)現(xiàn)。API 發(fā)現(xiàn)是利用 API 的注冊信息提供 API 搜索服務(wù),通過列表瀏覽,以及關(guān)鍵詞、分類、字段限制和可視化的檢索等途徑實現(xiàn)對 API的快速查找。
4)API 管理。完成對已注冊 API 的測試、審核、版本管理、調(diào)用監(jiān)控、權(quán)限控制、安全驗證的管理功能。
開放平臺建設(shè)具有以下重要基礎(chǔ)和條件:
1)數(shù)據(jù)資源基礎(chǔ)。長江水文是我國水文行業(yè)的領(lǐng)軍者,在水文資料采集、數(shù)據(jù)庫建設(shè)、數(shù)據(jù)管理、數(shù)據(jù)資源整合等多個方面取得了顯著的成績,為開放平臺的建設(shè)打下了數(shù)據(jù)基礎(chǔ)。
2)信息化基礎(chǔ)設(shè)施。通過近幾年信息化能力的提升建設(shè),長江水文信息化基礎(chǔ)設(shè)施環(huán)境已大幅革新,相應(yīng)的標準化體系逐步完善,運維管理能力顯著提升,為開放平臺建設(shè)提供了環(huán)境保障。
3)發(fā)展理念及政策條件。全面深化“社會水文、綠色水文、智慧水文、和諧水文”,構(gòu)建覆蓋綜合站網(wǎng)、立體監(jiān)測、專業(yè)支撐、信息服務(wù)、管理保障的“五大體系”,是長江水文在新發(fā)展階段實現(xiàn)高質(zhì)量發(fā)展的重要舉措。其中社會水文強調(diào)水文的社會服務(wù)屬性,積極服務(wù)社會經(jīng)濟建設(shè),為社會公眾提供簡單、合理、實用的水文服務(wù)。建設(shè)長江水文數(shù)據(jù)開放平臺契合這一發(fā)展理念。
4)人才資源基礎(chǔ)。長江水文在多年水文信息化建設(shè)中培養(yǎng)了一批專業(yè)技術(shù)能力強的水文信息化人才隊伍,為長江水文信息化發(fā)展和水文行業(yè)信息化應(yīng)用建設(shè)做出了積極貢獻。
開放平臺建設(shè)整體結(jié)構(gòu)采用本研究提出的開放平臺架構(gòu),主要內(nèi)容包括:
1)數(shù)據(jù)資源層方面。建設(shè)水文大數(shù)據(jù)中心,進一步擴展數(shù)據(jù)資源,加強數(shù)據(jù)資源整合,擴充數(shù)據(jù)資源的范圍,構(gòu)建數(shù)據(jù)資源間的關(guān)聯(lián)關(guān)系,豐富數(shù)據(jù)資源索引,為開放平臺建設(shè)提供數(shù)量更多、范圍更廣、質(zhì)量更優(yōu)的數(shù)據(jù)資源。
2)服務(wù)支撐層方面。完善基礎(chǔ)服務(wù),建成包括數(shù)據(jù)索引、搜索引擎、消息、統(tǒng)一認證、流程、地理信息等服務(wù)在內(nèi)的平臺級基礎(chǔ)服務(wù);開發(fā)核心服務(wù),包括數(shù)據(jù)服務(wù)配置、發(fā)布及獲取,API 服務(wù)注冊、發(fā)布和管理;擴展平臺的專業(yè)應(yīng)用服務(wù),將成熟的水文分析計算算法固化為一套應(yīng)用級產(chǎn)品服務(wù),如統(tǒng)計分析計算、頻率計算、相似性分析、序列延長等標準化應(yīng)用。
3)開放應(yīng)用層方面。結(jié)合長江水文數(shù)據(jù)資源狀況,建設(shè)覆蓋基礎(chǔ)水文、實時水情、水質(zhì)、測驗實況、預(yù)警預(yù)報等的業(yè)務(wù)數(shù)據(jù),以及 OA、人事、財務(wù)、合同等管理數(shù)據(jù)的數(shù)據(jù)開放服務(wù)。其中業(yè)務(wù)數(shù)據(jù)面向社會公眾和科研工作者開放,提供精準數(shù)據(jù)加工服務(wù);管理數(shù)據(jù)面向單位內(nèi)部開放,促進管理信息在單位內(nèi)部的共享,激發(fā)管理數(shù)據(jù)應(yīng)用創(chuàng)新。
4)標準體系建設(shè)方面。完善數(shù)據(jù)資源分類、水文元數(shù)據(jù)、資源索引等標準,以及開放服務(wù)接入、使用和管理流程標準,建立數(shù)據(jù)更新維護保障機制,促進開放平臺規(guī)范可持續(xù)發(fā)展。
5)安全策略建設(shè)方面。按照開放平臺的分層結(jié)構(gòu),對每層分別采取相適應(yīng)的安全保護策略,建立起多層次的安全控制模型[9]。
在建設(shè)開放平臺過程中將面臨諸多挑戰(zhàn),較為突出的包括數(shù)據(jù)開放的范圍與程度、數(shù)據(jù)質(zhì)量與更新保障能力、數(shù)據(jù)的友好性和安全性等,具體如下:
1)水文數(shù)據(jù)開放范圍的確定沒有可依據(jù)的相關(guān)規(guī)范條款,在不涉密和兼顧事業(yè)發(fā)展、信息安全的前提下,如何恰當選擇開放數(shù)據(jù)的范圍滿足社會公眾需求,是十分值得思考的。
2)數(shù)據(jù)的質(zhì)量和時效性對數(shù)據(jù)應(yīng)用至關(guān)重要。水文數(shù)據(jù)的采集、處理、存儲是一個復(fù)雜的過程,控制每個環(huán)節(jié)以保證數(shù)據(jù)的質(zhì)量和時效性是個復(fù)雜工程。如果開放的水文數(shù)據(jù)出現(xiàn)不可靠的數(shù)據(jù),不僅有違數(shù)據(jù)開放初衷,也會對社會公眾的利益造成損害。
3)水文數(shù)據(jù)具有較強的專業(yè)性,如何創(chuàng)新水文數(shù)據(jù)產(chǎn)品形式,讓專業(yè)的水文數(shù)據(jù)更適應(yīng)社會需求,更貼近民生,是水文數(shù)據(jù)開放過程中亟待解決的問題。
4)水文數(shù)據(jù)開放共享后的安全性是阻礙水文數(shù)據(jù)開放進程可持續(xù)發(fā)展的重要障礙之一。由于電子數(shù)據(jù)的可匿名拷貝和重復(fù)使用等特性,如何保護開放數(shù)據(jù)的知識產(chǎn)權(quán),開展數(shù)據(jù)確權(quán)[10],讓開放數(shù)據(jù)使用安全可控,保護數(shù)據(jù)提供方的權(quán)益,促進開放平臺的可持續(xù)發(fā)展,是需要妥善解決的重點問題。
針對上述問題,在參考政府數(shù)據(jù)開放的實踐經(jīng)驗和研究成果的基礎(chǔ)上[11-13],提出相關(guān)對策建議:
1)有選擇、分層次地開放數(shù)據(jù)。在推進水文數(shù)據(jù)開放的過程中,應(yīng)遵循統(tǒng)籌兼顧、重點優(yōu)先的原則進行處理,在保障事業(yè)發(fā)展和維護信息安全的前提下,有良好數(shù)據(jù)資源基礎(chǔ)和廣泛用戶需求的數(shù)據(jù)資源要優(yōu)先實施,在過程中不斷調(diào)整認知,形成規(guī)范,再逐步向更深層的數(shù)據(jù)開放推進。
2)建立數(shù)據(jù)更新發(fā)布審核和使用反饋機制。為優(yōu)化數(shù)據(jù)質(zhì)量,兼顧數(shù)據(jù)的時效性,建立一套數(shù)據(jù)更新發(fā)布審核機制,從源頭把控數(shù)據(jù)質(zhì)量,確保開放數(shù)據(jù)的可靠性和語義完整。建立積極反饋機制,對有問題的開放數(shù)據(jù)不斷改進提升,進一步提高數(shù)據(jù)質(zhì)量。
3)創(chuàng)新數(shù)據(jù)產(chǎn)品形式,滿足多層次數(shù)據(jù)開放需求。除了傳統(tǒng)的各類水文數(shù)據(jù)產(chǎn)品外,在服務(wù)社會公眾領(lǐng)域創(chuàng)新產(chǎn)品形式,讓水文數(shù)據(jù)更貼近民生,形成有溫度的公眾水文指數(shù)數(shù)據(jù);在水文服務(wù)科研領(lǐng)域,除繼續(xù)提供傳統(tǒng)的基礎(chǔ)數(shù)據(jù)服務(wù)外,利用專業(yè)系統(tǒng)生產(chǎn)出成熟數(shù)據(jù)成果產(chǎn)品,為科研工作者提供更有附加值的科學數(shù)據(jù),推進科研創(chuàng)新進程。
4)建立良性的應(yīng)用生態(tài),促進數(shù)據(jù)開放可持續(xù)??蓮囊韵?3 個層次建立良性應(yīng)用生態(tài):a. 面向行業(yè)普遍應(yīng)用需求,構(gòu)建成熟豐富的水文數(shù)據(jù)應(yīng)用服務(wù),為用戶提供深加工成果數(shù)據(jù);b. 面向定制類應(yīng)用需求,建立數(shù)據(jù)可信計算平臺,用戶根據(jù)自身需求設(shè)計并提交算法,算法在可信計算平臺中使用水文數(shù)據(jù)進行計算,完成后將結(jié)果返回給用戶[14],實現(xiàn)開放數(shù)據(jù)“可用不可見”;c. 面向原始數(shù)據(jù)集開放需求,可基于區(qū)塊鏈技術(shù)的內(nèi)生優(yōu)勢[15],應(yīng)用NFT(非同質(zhì)化代幣)[16]對開放水文數(shù)據(jù)集進行版權(quán)登記,標記數(shù)字資產(chǎn)所有權(quán),保護數(shù)據(jù)提供方的權(quán)益。NFT 具有不可分割、替代、復(fù)制,以及獨一無二的特點,具備天然的收藏屬性且便于交易,在數(shù)字音樂、數(shù)字畫作、數(shù)碼影像等數(shù)字藝術(shù)品領(lǐng)域已有廣泛應(yīng)用。
水文科學數(shù)據(jù)開放共享是水文服務(wù)國家科技創(chuàng)新、推動社會經(jīng)濟發(fā)展的重要舉措。本研究結(jié)合水文數(shù)據(jù)特點和開放應(yīng)用能力提出長江水文數(shù)據(jù)開放平臺的總體結(jié)構(gòu)和建設(shè)體系,開放平臺設(shè)計可滿足面向公眾服務(wù)、科學研究的多層次水文數(shù)據(jù)開放共享需求。本研究成果為推動長江水文數(shù)據(jù)開放提供了有效途徑,對深入推進長江水文高質(zhì)量發(fā)展、構(gòu)建水文信息服務(wù)體系具有重要意義。
推動水文科學數(shù)據(jù)開放共享是一項系統(tǒng)性工程,除了需要開放平臺的技術(shù)支撐,相關(guān)管理、評價及監(jiān)督機制亦不可或缺,在如何構(gòu)建完整的數(shù)據(jù)開放生態(tài)和長效機制,強化數(shù)據(jù)開放內(nèi)在驅(qū)動力,形成良性生態(tài)循環(huán)等方面還需要深入研究。只有兩者結(jié)合起來,開放平臺才能實現(xiàn)可持續(xù)健康發(fā)展,最大限度地發(fā)揮水文數(shù)據(jù)的價值。