陳晴,陳曄峰,王俊驕,徐海明,高婷,楊明,洪月英
(1.浙江省氣象信息網(wǎng)絡(luò)中心,杭州310017;2.杭州市氣象局,杭州310000)
隨著氣象數(shù)據(jù)數(shù)量的增大,傳統(tǒng)的氣象數(shù)據(jù)存儲方式在實(shí)時大數(shù)據(jù)存儲、實(shí)時處理、響應(yīng)時間等方面提出了很大的挑戰(zhàn),氣象數(shù)據(jù)要在高并發(fā)情況下高速存儲,同時還需要在毫秒級的時間內(nèi)提供數(shù)據(jù)產(chǎn)品服務(wù),傳統(tǒng)的氣象數(shù)據(jù)存儲處理方式已滿足不了大數(shù)據(jù)的業(yè)務(wù)服務(wù)需求。因此,探討如何提高大數(shù)據(jù)存儲的性能;如何建立靈活、穩(wěn)定、可用的數(shù)據(jù)存儲服務(wù)是亟需解決的問題[1-2]。
風(fēng)廓線雷達(dá)數(shù)據(jù)對氣象預(yù)報(bào)具有很重要的價值,數(shù)據(jù)具有體量巨大,需要錄入數(shù)據(jù)的雷達(dá)包括本省的7部與全國范圍內(nèi)的90部雷達(dá)資料,每部雷達(dá)近6分鐘產(chǎn)生一個文件,一天近一百四五十萬條左右。而且數(shù)據(jù)響應(yīng)速度要求快等特點(diǎn),傳統(tǒng)的數(shù)據(jù)存儲模式難以適應(yīng)氣象大數(shù)據(jù)的需求。
本文旨在結(jié)合風(fēng)廓線雷達(dá)數(shù)據(jù)的特點(diǎn),基于分布式數(shù)據(jù)存儲技術(shù),開展大數(shù)據(jù)環(huán)境下風(fēng)廓線雷達(dá)數(shù)據(jù)的準(zhǔn)確、高效、快速訪問,規(guī)范業(yè)務(wù)流程,實(shí)現(xiàn)風(fēng)廓線雷達(dá)數(shù)據(jù)的分布式存儲,為應(yīng)用提供數(shù)據(jù)支撐。
分廓線雷達(dá)數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)采用分布式關(guān)系型數(shù)據(jù)庫存儲,獲取低延遲與高并發(fā)吞吐能力。分布式關(guān)系型數(shù)據(jù)庫采用傳統(tǒng)的表-字段形式存儲,將數(shù)據(jù)表水平拆分到后端的每個分?jǐn)?shù)據(jù)庫的分表中,分布式關(guān)系型數(shù)據(jù)庫中由每個分庫負(fù)責(zé)每一份數(shù)據(jù)的讀寫操作,從而有效地分散了整體的訪問壓力,提高了大型數(shù)據(jù)的訪問效率[3-5]。數(shù)據(jù)的分布式云存儲采用了分庫分表技術(shù),見圖1。
圖1 分布式云存儲實(shí)現(xiàn)技術(shù)
通過梳理風(fēng)廓線雷達(dá)數(shù)據(jù)資源,以支撐氣象數(shù)據(jù)預(yù)報(bào)、科研應(yīng)用需求為目標(biāo),參照CIMISS系統(tǒng)數(shù)據(jù)存儲規(guī)范的標(biāo)準(zhǔn),建立風(fēng)闊線雷達(dá)數(shù)據(jù)的云數(shù)據(jù)存儲標(biāo)準(zhǔn)規(guī)范,見圖2。
圖2 風(fēng)廓線雷達(dá)數(shù)據(jù)云存儲標(biāo)準(zhǔn)規(guī)范
考慮到氣象數(shù)據(jù)自身的特點(diǎn)以及氣象應(yīng)用程序能夠快速地獲取數(shù)據(jù),氣象云存儲中,實(shí)時與歷史數(shù)據(jù)是一體化的,因此數(shù)據(jù)量極為龐大。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫存儲管理系統(tǒng)可以滿足數(shù)據(jù)的一致性和可用性,在小規(guī)模數(shù)據(jù)量時可以達(dá)到很好的效應(yīng),隨著數(shù)據(jù)量與應(yīng)用范圍的增長導(dǎo)致節(jié)點(diǎn)增加,需要考慮數(shù)據(jù)同步和分區(qū)失敗等開銷,性能會快速下降,因此數(shù)據(jù)分布式存儲是必然選擇[1,6]。
開展分布式云存儲技術(shù)研究,結(jié)合風(fēng)廓線雷達(dá)數(shù)據(jù)的特點(diǎn)制定相關(guān)策略,對分布式云存儲數(shù)據(jù)庫按站號分庫,按資料時間分表。通過將數(shù)據(jù)表水平拆分到后端的每個分?jǐn)?shù)據(jù)庫的分表中,分散了整體的訪問壓力,利用分布式特性,并行訪問,取高并發(fā)吞吐能力,提高數(shù)據(jù)的訪問效率。將數(shù)據(jù)同步到分布式云存儲中。
對大數(shù)據(jù)環(huán)境下數(shù)據(jù)的完整性進(jìn)行檢驗(yàn),提高數(shù)據(jù)的正確性、有效性和一致性。
驗(yàn)證方法:將云存儲數(shù)據(jù)中的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)作對比檢測缺測數(shù)據(jù),根據(jù)數(shù)據(jù)的時間屬性,以行為單位進(jìn)行檢測,缺測數(shù)據(jù)包括兩種情況:①數(shù)據(jù)的時次缺;②數(shù)據(jù)的要素缺。對于缺測數(shù)據(jù),讀取原文件,將數(shù)據(jù)補(bǔ)入。
驗(yàn)證頻率:每小時對云存儲中的數(shù)據(jù)驗(yàn)證一次。
圖3 風(fēng)廓線雷達(dá)數(shù)據(jù)的云存儲表
根據(jù)應(yīng)用場景的不同,對數(shù)據(jù)分別按照時間尺度,空間尺度的不同獲取樣本,在網(wǎng)絡(luò)環(huán)境和存儲數(shù)據(jù)量等測試環(huán)境相同情況下,分別調(diào)用分布式云存儲和SQL Server數(shù)據(jù)庫中的樣本數(shù)據(jù)獲取查詢時間,在剔除異常值后采用多次取樣求平均的方法對兩種數(shù)據(jù)環(huán)境下調(diào)用樣本數(shù)據(jù)的時間進(jìn)行對比。
時間尺度取樣數(shù)據(jù):采用單站的任意高度多個時間的垂直剖面的數(shù)據(jù)進(jìn)行測試。
圖4 云平臺可視化組件及應(yīng)用
圖5 時間尺度樣本統(tǒng)計(jì)分析結(jié)果
空間尺度取樣數(shù)據(jù):采用多個站點(diǎn)一段時間內(nèi)不同高度場的數(shù)據(jù)進(jìn)行測試。
圖6 空間尺度樣本統(tǒng)計(jì)分析結(jié)果
結(jié)論:在網(wǎng)絡(luò)狀態(tài)相同情況下,對分布式云存儲與SQL Server數(shù)據(jù)庫兩種數(shù)據(jù)環(huán)境調(diào)用數(shù)據(jù)所耗的時間進(jìn)行測試對比,結(jié)果顯示分布式云存儲中數(shù)據(jù)讀取性能較SQL Server數(shù)據(jù)庫中數(shù)據(jù)讀取性能有了比較大的提升。
本文設(shè)計(jì)和實(shí)現(xiàn)了風(fēng)廓線雷達(dá)數(shù)據(jù)的分布式云存儲,結(jié)合數(shù)據(jù)的特點(diǎn)制定分布式云存儲策略,對云存儲數(shù)據(jù)庫分庫分表,分散了整體的訪問壓力,利用分布式特性,并行訪問,獲取低延遲與高并發(fā)吞吐能力,提高數(shù)據(jù)的訪問效率。對大數(shù)據(jù)環(huán)境下數(shù)據(jù)的完整性檢驗(yàn),提高數(shù)據(jù)的正確性、有效性和一致性。研究成果通過浙江氣象云大數(shù)據(jù)平臺的數(shù)據(jù)服務(wù)接口為本地化氣象業(yè)務(wù)應(yīng)用提供數(shù)據(jù)支撐。