郭學(xué)兵,張黎,何洪林
1.中國科學(xué)院地理科學(xué)與資源研究所,生態(tài)系統(tǒng)網(wǎng)絡(luò)觀測與模擬重點實驗室,北京 100101
2.國家生態(tài)科學(xué)數(shù)據(jù)中心,北京 100101
3.中國科學(xué)院大學(xué),資源與環(huán)境學(xué)院,北京 100190
森林生物量是森林生態(tài)系統(tǒng)的基本屬性之一,準(zhǔn)確估算森林生物量對于計算森林碳儲量、估測森林生產(chǎn)力及與之關(guān)聯(lián)的其他科學(xué)研究、開展森林資源監(jiān)測及指導(dǎo)林業(yè)生產(chǎn)均具有重要意義[1-2]。生物量觀測數(shù)據(jù)的獲取和處理是森林生態(tài)系統(tǒng)長期觀測研究的重要任務(wù),而估算每木生物量(Tree Biomass Weight,TBW)是調(diào)查森林生物量的基礎(chǔ)[3]。
國內(nèi),針對不同森林、不同物種的生物量模型建模方法的研究成果數(shù)不勝數(shù),這些生物量模型方程是估算每木生物量數(shù)據(jù)的基礎(chǔ)[4-5]。浙江天童森林生態(tài)系統(tǒng)國家野外科學(xué)觀測研究站開展了樣地植物群落生物量調(diào)查和數(shù)據(jù)處理及質(zhì)量控制方法的研究和實踐,發(fā)布了群落基于個體的喬木生物量、胸徑和樹高數(shù)據(jù)集[6]。但是有關(guān)海量TBW 數(shù)據(jù)質(zhì)控方法和技術(shù)研究的文獻尚未查閱到。
中國生態(tài)系統(tǒng)研究網(wǎng)絡(luò)(Chinese Ecosystem Research Network,CERN)現(xiàn)有云南哀牢山、北京東靈山、云南西雙版納、吉林長白山、廣東鼎湖山等11 個森林生態(tài)系統(tǒng)站[7](以下簡稱森林站),這些森林站自2005年以來,按照CERN 統(tǒng)一觀測規(guī)范,長期開展固定樣地的喬木生物量調(diào)查,獲取了大量TBW 數(shù)據(jù),并以出版物形式陸續(xù)發(fā)表并開放共享[8]。以2020年為例,各森林站共調(diào)查了7 萬多株喬木的胸徑、樹高,并計算每木分器官(樹干、樹枝、樹葉、果花、樹皮、地下)生物量,生成TBW 調(diào)查數(shù)據(jù)表,連同異速生長方程一起匯聚到CERN 數(shù)據(jù)中心進行集成存儲和質(zhì)控。
CERN已在2004年建立了規(guī)范化的數(shù)據(jù)記錄表,研制了每木調(diào)查數(shù)據(jù)的質(zhì)量控制和處理方法,然而尚缺少精細化的標(biāo)準(zhǔn)規(guī)范,批量重復(fù)工作仍需較多的人工處理與干預(yù),未形成流程明晰的自動化業(yè)務(wù)流程,導(dǎo)致森林站TBW 數(shù)據(jù)處理工作繁雜且容易出現(xiàn)錯誤。面對眾多森林站的海量TBW 數(shù)據(jù),數(shù)據(jù)質(zhì)控部門壓力較大,迫切需要構(gòu)建自動化的TBW 數(shù)據(jù)質(zhì)量控制和處理軟件,以便提高數(shù)據(jù)質(zhì)控和數(shù)據(jù)處理效率。
CERN 數(shù)據(jù)中心充分借鑒國際國內(nèi)地球觀測不同領(lǐng)域的數(shù)據(jù)質(zhì)控方法,例如美國國家生態(tài)系統(tǒng)觀測網(wǎng)絡(luò)(NEON)針對自動傳感器觀測指標(biāo)(如氣溫等)數(shù)據(jù)的真實性閾值檢驗質(zhì)控方法的統(tǒng)計學(xué)研究[9],國內(nèi)海洋科學(xué)領(lǐng)域開展的海洋監(jiān)測數(shù)據(jù)質(zhì)量控制方面的大量研究工作[10-11],同時針對森林生物量數(shù)據(jù)自身特點,研究發(fā)展了更有效的TBW 數(shù)據(jù)質(zhì)控標(biāo)準(zhǔn)、方法和技術(shù),并形成了快速質(zhì)控工具,為數(shù)據(jù)中心及相關(guān)科研人員快速處理樣地生物量數(shù)據(jù)提供支撐。
本文介紹了森林站TBW 數(shù)據(jù)模式、TBW 數(shù)據(jù)生產(chǎn)流程,TBW 基礎(chǔ)數(shù)據(jù)、實測數(shù)據(jù)和派生數(shù)據(jù)的質(zhì)控標(biāo)準(zhǔn)和質(zhì)控方法,以及OLE(Object Linking and Embedding,對象鏈接和嵌入)編程、Python 編程等信息技術(shù)在開發(fā)TBW 基礎(chǔ)與實測數(shù)據(jù)質(zhì)控預(yù)處理和派生生物量數(shù)據(jù)自動計算軟件工具中的應(yīng)用。
TBW 數(shù)據(jù)模式包括兩張數(shù)據(jù)記錄表,分別是森林植物群落喬木層每木調(diào)查與生物量數(shù)據(jù)表(代碼為FA01)、森林植物群落喬木層生物量模型數(shù)據(jù)表(代碼為FA02),二者以生態(tài)站代碼、生物量模型編號兩項為關(guān)聯(lián)鍵,其數(shù)據(jù)模式及實體相互關(guān)系如圖1所示。
圖1 TBW 數(shù)據(jù)模式及實體相互關(guān)系Fig.1 Entity-Relation diagram of TBWdata schema
CERN 規(guī)定了FA01 表、FA02 表的屬性項的表達方式(含義、量綱、數(shù)值精度等),生態(tài)站代碼、樣地代碼均按照CERN 統(tǒng)一編碼規(guī)范設(shè)定,二級樣方號、樹號、生物量模型編號信息編碼由各森林站自行規(guī)定,但年際之間必須保持一致[12]。數(shù)據(jù)表以Excel 存儲格式傳輸匯交。
CERN 長期觀測規(guī)范規(guī)定,森林站經(jīng)過觀測方案規(guī)劃設(shè)計、每木實測、生物量模型收集整理及規(guī)范化、生物量模型配置、生物量數(shù)據(jù)計算5 個步驟獲取TBW 數(shù)據(jù)。TBW 數(shù)據(jù)生產(chǎn)流程如圖2所示。
圖2 TBW 數(shù)據(jù)生產(chǎn)流程Fig.2 Flow of TBW data production
(1)觀測方案規(guī)劃設(shè)計——森林站規(guī)劃固定個數(shù)的樣地,并為其指定唯一樣地代碼標(biāo)識,各樣地包含固定個數(shù)的二級樣方號,樣方中的每木都有固定樹號,這些基礎(chǔ)數(shù)據(jù)在整個長期觀測階段不會發(fā)生改變,但可能會有新增。
(2)每木實測——森林站按照觀測規(guī)范規(guī)定的時間頻度,對固定樣地的每木胸徑、樹高和物種名進行野外動態(tài)觀測,并按照要求記錄入表FA01。
(3)生物量模型收集整理及規(guī)范化——森林站建立、收集、選取合理的異速生長模型,以便計算生物量。選取的生物量模型需要給予模型編號,且將不同來源的模型方程按照統(tǒng)一規(guī)范方法進行表達,并記錄入表FA02。
(4)生物量模型配置——按照生物量模型匹配原則,為每木匹配生物量模型。各森林站模型選擇原則不一,配置復(fù)雜程度各不相同。絕大多數(shù)森林站按照物種配置生物量模型,而鶴山站、清原站的部分物種同時參考徑級來配置不同模型,西雙版納站則按照觀測樣地和樹木徑級聯(lián)合匹配生物量模型。配置好的模型編號記錄入表FA01。
(5)生物量數(shù)據(jù)計算——把每木測樹因子的實測數(shù)據(jù)與模型方程結(jié)合起來,計算每木各器官部位(樹干、樹枝、樹葉、花果、樹皮、氣生根、地下)的生物量,計算結(jié)果填入表FA01。
森林站層次上,需要做到:按照觀測規(guī)范開展數(shù)據(jù)調(diào)查,保證樣地代碼、二級樣方號、樹號的唯一性及年際之間的一致性,保證觀測過程遵從觀測技術(shù)規(guī)范,最大程度保證每木胸徑、樹高實測數(shù)據(jù)準(zhǔn)確性,選取的異速生長方程的擬合優(yōu)度和準(zhǔn)確度滿足使用需求,分器官生物量計算準(zhǔn)確。數(shù)據(jù)整理過程雙錄入,錄入后復(fù)查,避免電子化過程造成數(shù)據(jù)錯誤。
盡管已制定這些規(guī)范要求,出現(xiàn)數(shù)據(jù)質(zhì)量問題仍在所難免,因此森林站生物量數(shù)據(jù)上報到CERN數(shù)據(jù)中心后,數(shù)據(jù)中心仍需進行數(shù)據(jù)質(zhì)控,發(fā)現(xiàn)問題后需與森林站溝通并進行返修。
根據(jù)GB/T 19000—2016 質(zhì)量管理體系基礎(chǔ)和術(shù)語的規(guī)定,質(zhì)量控制是質(zhì)量管理的一部分,它致力于滿足質(zhì)量要求、實現(xiàn)質(zhì)量目標(biāo)[13]。為此,質(zhì)控部門需要開展質(zhì)控方法研究,建立質(zhì)控標(biāo)準(zhǔn),并采用信息技術(shù)手段提高質(zhì)控效率,持續(xù)不斷改進數(shù)據(jù)質(zhì)量。
CERN 數(shù)據(jù)中心研究并建立了數(shù)據(jù)質(zhì)控標(biāo)準(zhǔn)和質(zhì)控方法,質(zhì)控標(biāo)準(zhǔn)總體框架如圖3所示,其中格式一致性指森林站的Excel 表頭數(shù)據(jù)項須與標(biāo)準(zhǔn)化TBW 數(shù)據(jù)模式結(jié)構(gòu)相一致,這是整個質(zhì)控的第一步,其他內(nèi)容包括2.2 節(jié)介紹的數(shù)據(jù)一致性、準(zhǔn)確性等方面。
圖3 TBW 數(shù)據(jù)質(zhì)控標(biāo)準(zhǔn)總體框架Fig.3 Mainframes of standardsfor TBW data quality control
(1)公共基礎(chǔ)項一致性檢查
公共基礎(chǔ)項包括樣地代碼、物種名稱、二級樣方號、樹號。
其一致性檢查方法是:建立各公共基礎(chǔ)項的標(biāo)準(zhǔn)詞典。如樣地標(biāo)準(zhǔn)詞典包含“生態(tài)站代碼”、“樣地代碼”、“樣地名稱”、“備注”等屬性項,物種名稱標(biāo)準(zhǔn)詞典包括“生態(tài)站代碼”、“物種名”、“物種拉丁名”、“備注”等屬性項。
將森林站FA01 表中的公共基礎(chǔ)項數(shù)值與相應(yīng)標(biāo)準(zhǔn)詞典進行比對,檢查是否超出固定詞表枚舉值范圍,不允許使用不規(guī)范詞匯,并檢查二級樣方號、樹號是否完整。
(2)實測數(shù)據(jù)一致性檢驗
胸徑、樹高是野外觀測人員動態(tài)實測數(shù)據(jù),從數(shù)據(jù)邏輯合理性方面進行檢驗復(fù)核。例如,胸徑、樹高有無離群數(shù)據(jù)(3σ 檢查),胸徑、樹高的閾值范圍是否超出歷史上多年觀測數(shù)據(jù)范圍,從而發(fā)現(xiàn)實測環(huán)節(jié)或數(shù)據(jù)記錄等環(huán)節(jié)的問題。
(3)生物量模型定義的完整性、準(zhǔn)確性、規(guī)范性檢驗
生物量模型是計算TBW 的關(guān)鍵,良好的TBW數(shù)據(jù)以生物量模型的完整性、準(zhǔn)確性、規(guī)范性為基礎(chǔ)。缺失生物量模型將無法計算TBW 數(shù)據(jù),生物量模型的擬合優(yōu)度和精度關(guān)乎TBW 數(shù)據(jù)質(zhì)量,生物量模型方程表達樣式須經(jīng)規(guī)范化才能支持TBW 自動計算。因此,檢查FA02 表各屬性項是否規(guī)范是TBW 數(shù)據(jù)質(zhì)控的重要步驟。
CERN 森林站的FA02 表中共有喬木異速生長模型方程500 多個,模型方程函數(shù)形式共有7 類,分別為式(2.1)至式(2.7):
式中,W代表分器官的生物量,D、H分別代表每木胸徑、每木樹高,a、b、c為可變參數(shù),^代表冪函數(shù),*代表乘積。
(4)生物量模型引用關(guān)聯(lián)一致性檢驗
檢查FA01 表引用的生態(tài)站代碼、生物量模型編號與FA02 表定義的生態(tài)站代碼、生物量模型編號是否匹配,同時FA02 表中的器官部位也作為主鍵參與生物量模型的篩選,因此器官部位必須嚴(yán)格規(guī)范化為“樹干”、“樹枝”、“樹葉”、“果花””、“樹皮”、“地上”、“地下”,不允許存在其他詞匯。
(5)分器官TBW 數(shù)據(jù)準(zhǔn)確性核查
按照FA01 表引用的模型編號所指定的方程帶入測樹因子進行分器官TBW 數(shù)據(jù)的自動核算,并與森林站報送的各器官部位生物量數(shù)據(jù)予以比對,以檢查森林站TBW 數(shù)據(jù)計算結(jié)果是否準(zhǔn)確。
由于CERN 森林站TBW 數(shù)據(jù)量大且計算過程復(fù)雜,使用自動化軟件工具方能快速進行數(shù)據(jù)質(zhì)控。TBW 數(shù)據(jù)質(zhì)控軟件工具分為基礎(chǔ)與實測數(shù)據(jù)預(yù)處理、派生生物量數(shù)據(jù)批量計算兩類,軟件開發(fā)采用了OLE 編程技術(shù)、Python 編程技術(shù)。
3.1.1 軟件開發(fā)環(huán)境
數(shù)據(jù)質(zhì)控軟件不僅要查出TBW 數(shù)據(jù)的不規(guī)范問題,如樣地代碼、物種名稱等各種參數(shù)數(shù)據(jù)的合理性和一致性問題等,而且要支持用戶快速發(fā)現(xiàn)、定位到問題數(shù)據(jù)并進行規(guī)范化處理[11]。
考慮到基礎(chǔ)數(shù)據(jù)預(yù)處理過程需要較頻繁的人工交互來不斷修正不規(guī)范數(shù)據(jù),而且森林站人員普遍使用Excel 進行數(shù)據(jù)處理與質(zhì)控的現(xiàn)狀,軟件開發(fā)環(huán)境采用了OLE 技術(shù)進行Visual Foxpro 與Excel 之間的關(guān)聯(lián)編程[14],將Excel 強大的電子表格計算處理、數(shù)據(jù)分析功能和VFP 的GUI 編程、邏輯控制功能結(jié)合起來,VFP 在前端可以操控后端的Excel 的各類對象及其OLE Automation 服務(wù)器程序,形成基于Excel 的可視化、流程化、標(biāo)準(zhǔn)化的質(zhì)控業(yè)務(wù)流程,實現(xiàn)TBW 數(shù)據(jù)快速質(zhì)控和預(yù)處理。
3.1.2 軟件工具功能
(1)自動添加公共基礎(chǔ)數(shù)據(jù)項的有效性檢驗
VFP 中建立公共基礎(chǔ)數(shù)據(jù)項的標(biāo)準(zhǔn)詞典,并調(diào)用Excel VBA 有效性校驗函數(shù)及無效數(shù)據(jù)圈示的函數(shù),可在FA01 表的相應(yīng)列上增加有效性校驗條件,并直觀圈示出超出標(biāo)準(zhǔn)詞典范圍的數(shù)據(jù);同理,在FA01 表的胸徑、樹高列上添加有效性校驗條件(如設(shè)定胸徑最大值、樹高最大值、胸徑離群點、樹高離群點),并加上無效數(shù)據(jù)圈示功能,可實現(xiàn)胸徑、樹高的異常數(shù)據(jù)的閾值篩選、發(fā)現(xiàn)與定位。
(2)自動制作統(tǒng)計圖表用于支持胸徑、樹高數(shù)據(jù)的檢驗
使用VFP 調(diào)用Excel VBA 函數(shù),自動在FA01表上按照物種名分組制作數(shù)據(jù)透視表,分別生成胸徑統(tǒng)計表(如胸徑的最大值、最小值、平均值、標(biāo)準(zhǔn)差、樣本數(shù)等)和樹高的統(tǒng)計表,基于數(shù)據(jù)透視表可制作可視化統(tǒng)計圖。
以上所述各項功能的函數(shù)使用方法及其參數(shù)引用方式可參閱Excel 的Visual Basic 開發(fā)者幫助,若干語句示例如表1所示。
表1 VFP 調(diào)用VBA 函數(shù)操控Excel 的關(guān)鍵語句示例Table 1 Sample statements of how VFP call VB functions to manipulate Excel
3.1.3 統(tǒng)計結(jié)果分析與研判
統(tǒng)計匯總后的數(shù)據(jù)量已大幅減少,通過對統(tǒng)計匯總表和可視化統(tǒng)計圖進行人工或自動檢視,可發(fā)現(xiàn)是否有3σ 離群數(shù)據(jù)或其他異常數(shù)據(jù),再進一步通過專業(yè)知識或與森林站溝通后進行研判。自動生成的胸徑統(tǒng)計表、統(tǒng)計圖示例如圖4所示。
圖4 鼎湖山森林站物種胸徑統(tǒng)計表與統(tǒng)計圖截選Fig.4 Segment of statistical table and chart for tree species' DBH in Dinghushan forest station (note: DBH means diameter at breast height)
3.1.4 軟件工具的先進性
基于OLE 開發(fā)的軟件工具不僅可提高數(shù)據(jù)中心的質(zhì)控和預(yù)處理的效率,而且非常適配CERN 森林站的應(yīng)用環(huán)境,便于今后將軟件工具推廣到森林站進行應(yīng)用,具有應(yīng)用先進性。具體體現(xiàn)在:(1)實現(xiàn)了基于Excel 的異?;蝈e誤數(shù)據(jù)的快速發(fā)現(xiàn)、直觀定位和快速修正的一體化;(2)基于Excel 的數(shù)據(jù)統(tǒng)計表、統(tǒng)計圖的自動制作生成程序可在多個森林站FA01 表格上重用,實現(xiàn)了快速統(tǒng)計與制圖功能,支持對數(shù)據(jù)進行進一步分析與研判;(3)可針對特定質(zhì)控需求進行基于Excel的多樣化功能的編程,具有很好的靈活性。
3.2.1 分器官生物量數(shù)據(jù)自動計算
為了快速核驗森林站TBW 數(shù)據(jù)計算的正確性,本文選用Python[15]語言快速計算分器官生物量。Python 提供了完善的基礎(chǔ)代碼庫,涵蓋了網(wǎng)絡(luò)、文件、GUI、數(shù)據(jù)庫、文本等模塊,并提供強大的科學(xué)計算擴展庫,開發(fā)的程序能以模塊化的形式進行復(fù)用。
自動計算包含數(shù)據(jù)和計算規(guī)則兩個部分,其中數(shù)據(jù)部分基于2.2 節(jié)中處理后的FA01 表的胸徑、樹高數(shù)據(jù),計算規(guī)則來自FA02 表中的生物量模型方程數(shù)據(jù)。根據(jù)FA01 表中生態(tài)站代碼和生物量模型編號兩個字段聯(lián)合作為索引,從FA02 表中匹配對應(yīng)模型方程的字符串形式,對標(biāo)準(zhǔn)化方程的字符串進行樣式解析并獲得方程的參數(shù),轉(zhuǎn)化為可計算形式,然后調(diào)用7 類樣式之一的規(guī)范化方程計算模塊,帶入胸徑、樹高實測值,計算出每木各器官部位的生物量后自動填入FA01 表相應(yīng)列。
本文選用Python 的pandas 和multiprocessing 技術(shù)實現(xiàn)計算的簡捷性、易讀性和可擴展性。Pandas是分析、清理、檢索和操作數(shù)據(jù)的數(shù)據(jù)處理包,可將Excel 中的數(shù)據(jù)轉(zhuǎn)化到Python 中進行表格類數(shù)據(jù)處理;使用multiprocessing 多進程處理包,將數(shù)據(jù)量很大的FA01 表進行“水平數(shù)據(jù)拆分”后進行多進程并行計算[16-17],從而充分利用多核CPU 的計算能力提高自動計算效率,整體計算流程如圖5所示。
圖5 TBW 數(shù)據(jù)多進程計算流程Fig.5 flow of TBW data multiprocessing calculation
3.2.2 分器官生物量數(shù)據(jù)差異圖示比對
自動計算結(jié)果與森林站報送數(shù)據(jù)進行可視化圖示比對,可直觀顯示TBW 數(shù)據(jù)差異情況,準(zhǔn)確發(fā)現(xiàn)計算有誤的記錄。例如鼎湖山站2020年調(diào)查喬木總株樹為11941 株,樹干、樹枝、地下等生物量數(shù)據(jù)核驗一致率均為100%(樹干生物量差異性比對結(jié)果如圖6所示),而樹葉生物量核驗一致率為99%,存在部分不一致數(shù)據(jù),數(shù)據(jù)中心可生成質(zhì)控報告后發(fā)給森林站進行確認(rèn)修訂。
圖6 Python 自動計算與鼎湖山站計算的樹干生物量差異Fig.6 Illustration of difference between programmatically calculated result with Dinghushan forest station’s calculated result—tree trunk biomass weight (unit of measure: kg,X-axis represent sequence number of tree )
本文研究建立了TBW 數(shù)據(jù)質(zhì)控標(biāo)準(zhǔn)和質(zhì)控方法,并開發(fā)數(shù)據(jù)質(zhì)控軟件工具,實現(xiàn)了CERN 數(shù)據(jù)中心層面快速質(zhì)控目標(biāo),更好保證了TBW 數(shù)據(jù)一致性和準(zhǔn)確性,提高了TBW 數(shù)據(jù)質(zhì)量。
通過數(shù)據(jù)質(zhì)控,發(fā)現(xiàn)以下幾類問題有待改善:(1)森林站需人工或借助質(zhì)控軟件工具,進一步加強基礎(chǔ)數(shù)據(jù)項的一致性檢核,避免出現(xiàn)基礎(chǔ)數(shù)據(jù)不規(guī)范的問題。(2)森林站模型編號及模型表達存在不夠規(guī)范的問題,須嚴(yán)格加強模型表達規(guī)范化,以支持TBW 自動計算。(3)森林站生物量人工計算容易出錯,利用Python 語言編寫的TBW 數(shù)據(jù)多進程計算軟件工具,可支持森林站實現(xiàn)生物量數(shù)據(jù)快速準(zhǔn)確計算,避免人工計算派生數(shù)據(jù)時容易出錯的問題。
發(fā)現(xiàn)數(shù)據(jù)問題不是數(shù)據(jù)質(zhì)控的最終目標(biāo),最終目標(biāo)是進一步改進數(shù)據(jù)質(zhì)控流程。數(shù)據(jù)中心需基于工作流思想和技術(shù)[18],進一步將本文所述方法和工具形成統(tǒng)一標(biāo)準(zhǔn)化的TBW 數(shù)據(jù)質(zhì)控業(yè)務(wù)工作流。數(shù)據(jù)中心為森林站提供實用的質(zhì)控工具,將數(shù)據(jù)質(zhì)控關(guān)卡前移至數(shù)據(jù)源頭(森林站)進行,森林站按照觀測標(biāo)準(zhǔn)約定的規(guī)范方法開展強制性數(shù)據(jù)質(zhì)控,從而顯著提高森林站TBW 數(shù)據(jù)處理和質(zhì)控效率。本文所述方法和技術(shù)也可為其他行業(yè)部門或科研團隊提供借鑒或工具服務(wù),有助于其進一步提高TBW 數(shù)據(jù)處理和質(zhì)控效率。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。