楊錦坤,徐珊珊,苗慶生
(國家海洋信息中心 天津市 300171)
21 世紀(jì)是海洋世紀(jì)和信息化時(shí)代。進(jìn)入21世紀(jì),海洋已成為人類經(jīng)濟(jì)社會(huì)發(fā)展的重要資源,世界各國均將海洋事業(yè)發(fā)展作為推動(dòng)國民經(jīng)濟(jì)建設(shè)發(fā)展的戰(zhàn)略要事,我國更是提出建設(shè)海洋強(qiáng)國的偉大戰(zhàn)略目標(biāo)。時(shí)空連續(xù)、質(zhì)量可靠的海洋資料是海洋開發(fā)利用的前提和關(guān)鍵。建國以來,我國通過海洋調(diào)查、觀測(cè)、監(jiān)測(cè)活動(dòng)和國際交換與合作等手段,獲取和積累一定數(shù)量的海洋環(huán)境資料,在海洋環(huán)境保障、防災(zāi)減災(zāi)、軍事國防等諸多領(lǐng)域發(fā)揮了應(yīng)有的支撐作用。然而,受歷史條件制約以及作業(yè)環(huán)境、儀器設(shè)備、觀測(cè)手段等因素的影響,相當(dāng)一部分海洋環(huán)境歷史資料以紙質(zhì)、光盤、磁帶等非信息化形式留存,難以滿足信息化時(shí)代對(duì)海洋資料應(yīng)用和服務(wù)的需求,更在資料存儲(chǔ)方面存在巨大的安全隱患,一旦遭受人為或自然損害,將帶來難以彌補(bǔ)的損失[1],亟待開展非信息化海洋環(huán)境資料搶救工作。
目前國內(nèi)針對(duì)非信息化海洋環(huán)境資料搶救的流程和方法,尚少有文獻(xiàn)發(fā)布。研究提出了非信息化海洋環(huán)境資料搶救的工作流程,在此基礎(chǔ)上,以工作流程為主線進(jìn)行了相關(guān)技術(shù)方法研究,以期能夠在總體框架和關(guān)鍵技術(shù)上為非信息化海洋環(huán)境資料搶救工作提供參考。
非信息化海洋環(huán)境資料搶救工作是一項(xiàng)涉及海洋專業(yè)知識(shí)、海洋環(huán)境資料處理經(jīng)驗(yàn)、信息技術(shù)等多因素的系統(tǒng)性工程,總體工作流程應(yīng)包括非信息化海洋環(huán)境資料現(xiàn)狀調(diào)查、非信息化海洋環(huán)境資料數(shù)字化、資料處理和整合等,總體工作流程圖如圖1。
非信息化海洋環(huán)境資料現(xiàn)狀調(diào)查:整理分析現(xiàn)有非信息化海洋環(huán)境資料的內(nèi)容、數(shù)量、存儲(chǔ)介質(zhì)、保存質(zhì)量和是否有價(jià)值搶救、是否已完成搶救等信息,摸清非信息化海洋環(huán)境歷史資料現(xiàn)狀,確定需搶救的非信息化海洋環(huán)境歷史資料清單。
圖1 非信息化海洋環(huán)境資料搶救總體工作流程圖
非信息化海洋環(huán)境資料數(shù)字化:研究資料數(shù)字化錄入格式,研發(fā)相應(yīng)的錄入資料校對(duì)軟件,對(duì)非信息化資料進(jìn)行人工錄入(紙質(zhì))或?qū)iT設(shè)備讀?。ü獗P、磁帶)與格式轉(zhuǎn)換等處理。
數(shù)字化資料的處理和整合:針對(duì)完成數(shù)字化的電子資料,進(jìn)行標(biāo)準(zhǔn)化、質(zhì)量控制、訂正和排重等處理,最終納入同類海洋環(huán)境基礎(chǔ)數(shù)據(jù)集和數(shù)據(jù)庫。
非信息化海洋環(huán)境資料現(xiàn)狀調(diào)查應(yīng)通過調(diào)查內(nèi)容明確搶救資料清單,確定搶救時(shí)間順序。搶救時(shí)間順序的確定應(yīng)堅(jiān)持“搶救優(yōu)先、利用優(yōu)先”的原則。搶救優(yōu)先指在數(shù)字化工作中優(yōu)先考慮因特定時(shí)期、特殊原因造成的那些因資料形成和保管條件限制而導(dǎo)致部分損毀或即將損毀的資料、優(yōu)先進(jìn)行搶救;利用優(yōu)先指優(yōu)先把利用率較高的資料數(shù)字化[2]。
數(shù)字化的目標(biāo)是使紙質(zhì)媒體上的信息進(jìn)入電子媒體,能方便地檢索[3]。按照錄入或讀取快捷方便的原則,研究制定資料錄入的格式。針對(duì)紙質(zhì)資料進(jìn)行單人錄入或雙人同錄,單人錄入資料需開展兩遍人工校對(duì)和質(zhì)量審核,雙人同錄資料需利用校對(duì)軟件進(jìn)行數(shù)據(jù)對(duì)比和查詢修正,之后仍需進(jìn)行一遍人工校對(duì)和質(zhì)量審核。針對(duì)光盤、磁帶等存儲(chǔ)資料,需利用專門設(shè)備進(jìn)行讀取,并轉(zhuǎn)換為錄入格式。資料的錄入錯(cuò)誤率應(yīng)低于1‰。
對(duì)錄入資料進(jìn)行文本可讀性和參數(shù)齊全性等檢查,確保錄入資料內(nèi)容無丟落項(xiàng)且支持后續(xù)的計(jì)算機(jī)讀取與操作。在此基礎(chǔ)上,按照資料管理要求,對(duì)資料進(jìn)行代碼轉(zhuǎn)換、計(jì)量單位轉(zhuǎn)換、參數(shù)計(jì)算等處理,依據(jù)該類資料的標(biāo)準(zhǔn)應(yīng)用記錄格式要求,對(duì)資料進(jìn)行標(biāo)準(zhǔn)格式轉(zhuǎn)換。
資料質(zhì)量是資料的生命,資料質(zhì)量控制是非信息化資料搶救乃至海洋環(huán)境資料處理的關(guān)鍵環(huán)節(jié)。質(zhì)量控制方法一般包括非法碼檢驗(yàn)、常規(guī)范圍檢驗(yàn)、氣候?qū)W檢驗(yàn)、統(tǒng)計(jì)學(xué)檢驗(yàn)、相關(guān)性檢驗(yàn)、梯度檢驗(yàn)、尖峰檢驗(yàn)、著陸檢驗(yàn)等計(jì)算機(jī)自動(dòng)質(zhì)量控制方法和人機(jī)交互審核[4]。必須指出的是,質(zhì)量控制能夠在普遍意義上有效標(biāo)識(shí)或剔除可疑、錯(cuò)誤和缺測(cè)資料,但往往在資料使用過程中會(huì)進(jìn)一步發(fā)現(xiàn)異常資料,需追溯資料進(jìn)行再次質(zhì)量控制,如此反復(fù)方能使資料中的質(zhì)量問題越來越少。
非法碼檢驗(yàn):按照標(biāo)準(zhǔn)應(yīng)用記錄格式規(guī)定的數(shù)據(jù)項(xiàng)屬性(字符型、整型、浮點(diǎn)型等),逐項(xiàng)檢查標(biāo)準(zhǔn)數(shù)據(jù)集各要素的數(shù)據(jù)類型。
常規(guī)范圍檢驗(yàn):對(duì)于有特定編碼或枚舉型、或有取值范圍的數(shù)據(jù),其取值必須在取值范圍之內(nèi)。如站號(hào)、國家代碼、觀測(cè)平臺(tái)代碼和時(shí)間、經(jīng)緯度、水深、矢量速度范圍等。
氣候?qū)W檢驗(yàn):利用各要素季節(jié)性統(tǒng)計(jì)特征值,包括月/季的平均值、最大值、最小值進(jìn)行連續(xù)性和合理性判定。
統(tǒng)計(jì)學(xué)檢驗(yàn):利用觀測(cè)數(shù)據(jù)的統(tǒng)計(jì)學(xué)特征進(jìn)行異常值的檢驗(yàn),方法包括萊因達(dá)準(zhǔn)則、肖維勒準(zhǔn)則檢驗(yàn)等[5]。
相關(guān)性檢驗(yàn):利用不同要素之間的相關(guān)性進(jìn)行數(shù)據(jù)的合理性檢驗(yàn),如氣溫一般略高于露點(diǎn)。
梯度檢驗(yàn):溫鹽剖面或高空探測(cè)的風(fēng)、氣溫、氣壓、濕度等隨深度(高度)變化的梯度應(yīng)具有連續(xù)性和一致性,并在合理的變化范圍之內(nèi)。
尖峰檢驗(yàn):基于海洋要素變化的連續(xù)性和漸變性,判定異常的突變點(diǎn)。
著陸檢驗(yàn):依據(jù)全球數(shù)字化地圖,判斷海洋觀測(cè)資料的位置是否位于海洋內(nèi)。
人機(jī)交互審核:繪制要素的時(shí)空序列變化圖,利用人機(jī)交互模式和可視化手段直觀查找突變值并判斷是異常值還是海洋真實(shí)變化。
針對(duì)完成質(zhì)量控制的標(biāo)準(zhǔn)數(shù)據(jù)集,利用統(tǒng)計(jì)分析或客觀分析方法,結(jié)合相同或臨時(shí)時(shí)空的海洋環(huán)境歷史資料,計(jì)算得到數(shù)據(jù)的變化趨勢(shì)和訂正參數(shù),標(biāo)識(shí)站位漂移、儀器誤差、生物體附著、傳感器滯后和系統(tǒng)誤差等造成的數(shù)據(jù)異常,并對(duì)異常數(shù)據(jù)進(jìn)行訂正。
由于非信息化資料來源較多或者某些資料來源已難考證,有可能前人已完成數(shù)字化,因此需針對(duì)每一批次新近完成搶救的非信息化資料,與現(xiàn)有同類海洋環(huán)境歷史資料進(jìn)行排重處理,否則將會(huì)導(dǎo)致數(shù)據(jù)應(yīng)用過程中的分析結(jié)果失真。數(shù)據(jù)排重主要以觀測(cè)時(shí)間、位置、儀器、測(cè)值等作為復(fù)合排重指標(biāo),首先對(duì)所有資料進(jìn)行排序,排除所有指標(biāo)均相同的數(shù)據(jù)記錄(保留唯一一條);若觀測(cè)時(shí)間、位置和儀器均相同但測(cè)值不同,則保留空間分辨率最為齊全的數(shù)據(jù)記錄;若觀測(cè)位置、儀器、時(shí)間范圍相同但測(cè)值交叉重復(fù)(測(cè)值的時(shí)間分辨率不同),則保留時(shí)間分辨率較高的數(shù)據(jù)記錄[6]。最終經(jīng)過排重,將完成搶救的資料納入海洋環(huán)境基礎(chǔ)資料集和數(shù)據(jù)庫。
系統(tǒng)介紹了非信息化海洋環(huán)境歷史資料搶救的總體工作流程,詳細(xì)闡述了各關(guān)鍵環(huán)節(jié)和技術(shù)方法,研究成果符合我國海洋資料管理工作的實(shí)際需求,對(duì)于進(jìn)一步推進(jìn)我國海洋資料處理、管理和應(yīng)用服務(wù)信息化進(jìn)程,具有現(xiàn)實(shí)的技術(shù)參考價(jià)值。
[1] 肖衛(wèi),時(shí)昶,高軍.歷史水文資料數(shù)字化處理[J].人民長江,2011,42(21):67-69.
[2] 周瑞華.對(duì)地質(zhì)資料數(shù)字化若干問題的探析[J].大陸橋視野,2012,07:84-86.
[3] 龍波,楊麗芳,肖健,梁瑩.大規(guī)模圖文資料數(shù)字化的實(shí)現(xiàn)方法[J].廣西科學(xué)院學(xué)報(bào),2007,23(4):275-276.
[4] 劉小寧,任芝花.地面氣象資料質(zhì)量控制方法研究概述[J].氣象科技,2005,33(3):199-203.
[5] GB/T 14914-2006.海濱觀測(cè)規(guī)范[J].2006,81.
[6] 張學(xué)宏,張緒東,張曉娟.多源溫鹽資料排重處理的一種方法[J].海洋預(yù)報(bào),2012,29(1):48-54.