胡為群,祝利莉,葉少挺,彭一輝,鄭可鋒
(浙江省農(nóng)業(yè)科學(xué)院數(shù)字農(nóng)業(yè)研究所,浙江杭州 310021)
省級農(nóng)業(yè)資源信息系統(tǒng)屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案探討
胡為群,祝利莉,葉少挺,彭一輝,鄭可鋒*
(浙江省農(nóng)業(yè)科學(xué)院數(shù)字農(nóng)業(yè)研究所,浙江杭州 310021)
農(nóng)業(yè)資源屬性數(shù)據(jù)來源于諸多部門,在將其輸入存儲到計算機系統(tǒng)之前,需要對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理。根據(jù)浙江省和廣西壯族自治區(qū)農(nóng)業(yè)資源信息系統(tǒng)建設(shè)中遇到的問題,對屬性數(shù)據(jù)標(biāo)準(zhǔn)化過程及數(shù)據(jù)標(biāo)準(zhǔn)化處理中數(shù)據(jù)編碼,行政代碼添加,缺失數(shù)據(jù)、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)的處理,數(shù)據(jù)轉(zhuǎn)換和驗證等關(guān)鍵技術(shù)進行探討。
信息系統(tǒng);農(nóng)業(yè)資源;屬性數(shù)據(jù);標(biāo)準(zhǔn)化
農(nóng)業(yè)資源是農(nóng)業(yè)生產(chǎn)的物質(zhì)基礎(chǔ)。農(nóng)業(yè)資源信息系統(tǒng)的開發(fā)與應(yīng)用是實現(xiàn)資源高效利用、科學(xué)規(guī)劃和可持續(xù)發(fā)展的有效途徑。利用先進的信息技術(shù)和科學(xué)方法,可以為農(nóng)業(yè)資源的合理配置、高效利用和宏觀決策提供依據(jù)[1]。農(nóng)業(yè)資源信息系統(tǒng)通常涉及的屬性數(shù)據(jù)主要包括土地資源、水資源、氣候資源、農(nóng)業(yè)經(jīng)濟資源、人口與勞動力資源等5個方面的數(shù)據(jù)。這些數(shù)據(jù)可能因調(diào)查過程中的工作失誤、地區(qū)間或年度間統(tǒng)計口徑不一致、抽樣方法或者測量方法不同等因素存在誤差或量綱不一致;也可能會在數(shù)據(jù)收集、錄入、轉(zhuǎn)換過程中出現(xiàn)錯誤導(dǎo)致缺失、重復(fù)甚至錯誤。因此,在將采集到的農(nóng)業(yè)資源信息屬性數(shù)據(jù)輸入存儲到計算機系統(tǒng)之前,必須對其進行標(biāo)準(zhǔn)化處理,本文擬對此進行方案探討。
概括來講,屬性數(shù)據(jù)標(biāo)準(zhǔn)化處理的過程包括:數(shù)據(jù)生成、數(shù)據(jù)審查、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)驗證等5大步驟[2-3]。
1.1 數(shù)據(jù)生成
將采集的數(shù)據(jù)統(tǒng)一采用格式化文本的數(shù)據(jù)存儲方法,統(tǒng)一數(shù)據(jù)字段,將所有相同意義字段的字段名稱、數(shù)據(jù)格式(包括數(shù)據(jù)類型,字段長度)統(tǒng)一處理。使用統(tǒng)一的數(shù)據(jù)字典將數(shù)據(jù)表字段意義進行統(tǒng)一定義。
1.2 數(shù)據(jù)審查
檢查數(shù)據(jù)的數(shù)量(記錄數(shù))是否滿足分析的最低要求,字段值的內(nèi)容與調(diào)查要求是否一致,是否全面。此外,利用描述性統(tǒng)計分析,檢查各個字段的字段類型、字段值的最大值、最小值、平均數(shù)、中位數(shù)等,記錄個數(shù)、缺失值或空值個數(shù)等。
1.3 數(shù)據(jù)清理
針對數(shù)據(jù)審查過程中發(fā)現(xiàn)的明顯錯誤值、缺失值、異常值、可疑數(shù)據(jù),選用適當(dāng)?shù)姆椒ㄟM行“清理”,使“臟”數(shù)據(jù)變?yōu)椤案蓛簟睌?shù)據(jù),以便后續(xù)的統(tǒng)計分析及預(yù)測分析能夠得出可靠的結(jié)果。當(dāng)然,數(shù)據(jù)清理還包括對重復(fù)記錄進行的鑒別與刪除。
1.4 數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)分析強調(diào)分析對象的可比性,但不同字段值由于統(tǒng)計口徑、計量單位等不同,往往會造成數(shù)據(jù)不可比。對一些統(tǒng)計指標(biāo)進行綜合評價時,如果統(tǒng)計指標(biāo)的性質(zhì)、計量單位不同,也容易引起評價結(jié)果出現(xiàn)較大誤差,再加上分析過程中的其他一些要求,因此需要在分析前對數(shù)據(jù)進行相應(yīng)轉(zhuǎn)換。
1.5 數(shù)據(jù)驗證
該步驟的目的是初步評估和判斷數(shù)據(jù)是否能夠滿足統(tǒng)計分析的需要,決定是否需要增加或減少數(shù)據(jù)量。一般可利用簡單的線性模型,以及散點圖、直方圖、折線圖等圖形進行探索性分析,或利用相關(guān)分析、一致性檢驗等方法對數(shù)據(jù)的準(zhǔn)確性進行驗證,確保不把錯誤和偏差的數(shù)據(jù)帶入到數(shù)據(jù)分析中去。
上述5個步驟是一個逐步深入、由表及里的過程。先是將采集的數(shù)據(jù)統(tǒng)一生成格式化的文本,然后從表面上查找容易發(fā)現(xiàn)的問題(如數(shù)據(jù)記錄個數(shù)、最大值、最小值、缺失值或空值個數(shù)等),接著對發(fā)現(xiàn)的問題進行處理,即數(shù)據(jù)清理,再就是提高數(shù)據(jù)的可比性,對數(shù)據(jù)進行一些變換,使數(shù)據(jù)在形式上滿足分析的需要,最后則是進一步檢測數(shù)據(jù)內(nèi)容是否能夠滿足分析需要,診斷數(shù)據(jù)的真實性及數(shù)據(jù)之間的協(xié)調(diào)性等,確保優(yōu)質(zhì)的數(shù)據(jù)進入信息系統(tǒng)。
2.1 數(shù)據(jù)編碼
數(shù)據(jù)的分類編碼是對數(shù)據(jù)資料進行有效管理的重要依據(jù)。數(shù)據(jù)輸入計算機前,必須先按使用要求進行分類。數(shù)據(jù)分類應(yīng)遵循唯一性、可擴充性、易識別性、簡單性、完整性的原則。通常省域農(nóng)業(yè)資源信息數(shù)據(jù)可分為5大類、8個一級庫,見表1。大分類代碼多采用1~2位字母編碼,小分類采用1位數(shù)字編碼,一級代碼和二級代碼均采用2位數(shù)字編碼。標(biāo)識碼一般為空,如果出現(xiàn)歷年統(tǒng)計口徑不一致的情況,為了區(qū)分也可以采用。以對某地開展的人口調(diào)查為例,其數(shù)據(jù)編碼如表2所示,其中,P代表大分類“人口資源”,1為小類“人口”,后面為分級代碼。表中字段名由“表名-首字中文拼音全拼+其余拼音首字母”構(gòu)成,數(shù)字保持不變。
表1 農(nóng)業(yè)資源信息數(shù)據(jù)分類
表2 某地人口調(diào)查數(shù)據(jù)的編碼
2.2 行政代碼添加
由于數(shù)據(jù)服務(wù)層的數(shù)據(jù)表較多,多個數(shù)據(jù)表之前常具有主從關(guān)系,為了避免出錯,使它們保持關(guān)聯(lián)的一致性,在省域系統(tǒng)的所有數(shù)據(jù)表中都增加“行政代碼”字段,作為關(guān)聯(lián)的主鍵,當(dāng)數(shù)據(jù)在錄入和修改時,使各表數(shù)據(jù)始終保持一致性。行政代碼分類采用現(xiàn)有的行政體系劃分方法,用6位數(shù)字表示,例如330122表示桐廬縣。
作為數(shù)據(jù)表的主鍵,不同表中的行政單位名稱常會存在排列順序不一致,行政單位名稱叫法不一致,如“杭州市”“杭州地區(qū)”“杭州”,或者隨著行政地區(qū)區(qū)域的變化,不同年份的行政代碼可能不一樣的問題。為了解決這些問題,建議在多個表之間共享一套代碼地區(qū)對照表。在本研究中,我們采用了Excel中“宏”的方法來實現(xiàn)。下面以W 20101水產(chǎn)品產(chǎn)量為例來說明整個過程。
打開表W 20101,選擇工具→宏→Visual Basic編輯器。選擇文件→導(dǎo)入文件,選擇編寫好的代碼,如圖1所示,選擇2000年的數(shù)據(jù),代碼如下:
Attribute VB-Name=“模塊1”
Public Function code2000(ByVal str As String)
Select Case str
Case“浙江省”
code2000=“330000”
Case“杭州”
code2000=“330100”
Case“杭州地區(qū)”
code2000=“330100”
Case“杭州市”
code2000=“330100”
Case“余杭”
code2000=“330184”
Case“余杭縣”
code2000=“330184”
Case“余杭市”
code2000=“330184”
……
Case Else
code2000=“”
End Select
End Function
圖1 代碼選擇界面
選中導(dǎo)入的模塊,工具→宏,輸入宏名字,如a2000,點擊創(chuàng)建,再選擇工具→宏→選擇a2000,運行,點擊保存,退出。
返回到表W 20101,使用trim函數(shù)把行政單位名稱前后空格刪除,插入一空列,找到2000年的數(shù)據(jù),從第一個行政單位“浙江省”開始,在空白單元格中輸入“=code2000(C898)”,其中“C898”為第一個行政單位所在的位置,下拉,直到2000年的數(shù)據(jù)結(jié)束。選中生成的行政地區(qū)代碼,選擇性粘貼為數(shù)值型,其他年份做法相同。
2.3 缺失數(shù)據(jù)、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)的處理
2.3.1 缺失數(shù)據(jù)處理
對于缺失數(shù)據(jù),通常由人工填寫,采用默認值、平均值或者同類別平均值填補的方法完成。另有些數(shù)據(jù)可以通過數(shù)據(jù)轉(zhuǎn)換獲得,例如總?cè)丝跀?shù)可以通過農(nóng)業(yè)人口與非農(nóng)人口求和來完成。對于一些要求更精確的數(shù)據(jù),則可通過回歸分析、貝葉斯方法或決策樹推斷該記錄特定屬性的最可能取值,這類方法可以最大限度地利用現(xiàn)有的數(shù)據(jù)信息來推測遺漏數(shù)據(jù)值,因而效果最好。
2.3.2 噪聲數(shù)據(jù)處理
噪聲是指被測變量的隨機錯誤或偏差,包括錯誤的值或偏離期望的孤立點。可以用以下技術(shù)來平滑噪聲數(shù)據(jù),識別和刪除孤立點。
分箱方法:將存儲的值分布到一些箱中,通過考查“鄰居”來局部平滑存儲數(shù)據(jù)的值。如可以采用暗箱的平均值、中值或箱邊界值進行平滑。
聚類:將類似的值組織成群或“聚類”,落在聚類集合之外的值視為異常數(shù)據(jù)。對于異常數(shù)據(jù),如果是垃圾數(shù)據(jù),則予以清除,否則保留作為重要數(shù)據(jù)進行孤立點分析。
回歸方法:利用擬合函數(shù),如線性回歸、多元回歸等來平滑數(shù)據(jù)、幫助除去噪聲。
人機結(jié)合檢查方法:首先由計算機識別并輸出那些差異程度大于某個閾值的數(shù)據(jù),然后人工審核這些數(shù)據(jù),確定孤立點。這種方法比單純的人工檢查要快。
2.3.3 重復(fù)數(shù)據(jù)的處理
通過對行政地區(qū)代碼+年份進行篩選,能夠發(fā)現(xiàn)重復(fù)的記錄,然后進行刪除。
2.4 數(shù)據(jù)轉(zhuǎn)換和驗證
數(shù)據(jù)轉(zhuǎn)換主要是為了實現(xiàn)數(shù)據(jù)分析的可比性,而對數(shù)據(jù)進行的規(guī)格化處理,主要針對計量單位的差異,采用歸一化處理,例如農(nóng)作物播種面積單位用“公頃”,總產(chǎn)量單位用“噸”,單位面積產(chǎn)量單位用“千克”,日照時數(shù)用“小時”等。針對數(shù)據(jù)層級不同可采用數(shù)據(jù)匯總、泛化等方法實現(xiàn)數(shù)據(jù)轉(zhuǎn)換,例如通過各月降水量可以匯總得到年降水量,通過各月日照時數(shù)可以匯總得到全年日照時數(shù)等。
數(shù)據(jù)驗證階段的任務(wù)是確認數(shù)據(jù)的正確性與有效性,檢查數(shù)據(jù)的邏輯轉(zhuǎn)換是否對數(shù)據(jù)造成扭曲或偏差。根據(jù)不同的需要可供選擇的方法較多,比如可以通過極值來檢查數(shù)據(jù)是否超出范圍,通過求和來檢查合計值是否為各分項之和,還可以利用時間序列的預(yù)測值與實際值的比較來進行檢驗。即以現(xiàn)有數(shù)據(jù)為基礎(chǔ),利用各個變量自身發(fā)展情況的走勢進行最優(yōu)化模擬,建立相應(yīng)的時間序列模型,對相應(yīng)指標(biāo)進行預(yù)測,得到該指標(biāo)在理論上應(yīng)該達到的數(shù)值,然后與實際數(shù)據(jù)相對比,以此評價實際數(shù)據(jù)與理論值的接近程度。
屬性數(shù)據(jù)的標(biāo)準(zhǔn)化處理能有效地提高統(tǒng)計數(shù)據(jù)的質(zhì)量。標(biāo)準(zhǔn)化處理的方法多種多樣,筆者從實踐經(jīng)驗出發(fā),形成了上述的省級農(nóng)業(yè)資源信息系統(tǒng)資源屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案,并在多個項目中得到了驗證和應(yīng)用。由于屬性數(shù)據(jù)的準(zhǔn)確性、完整性直接影響著農(nóng)業(yè)資源信息系統(tǒng)的可靠性和可用性,而當(dāng)前統(tǒng)計工作中又存在諸多新的不確定因素和問題,都可能影響屬性數(shù)據(jù)的質(zhì)量,因此,本文涉及的標(biāo)準(zhǔn)化處理方法也應(yīng)隨著實踐的發(fā)展不斷充實、完善。
[1] 陳旭,畢軍芳,仇天月,等.基于共享服務(wù)模式的農(nóng)業(yè)資源管理W ebGIS系統(tǒng)構(gòu)建[J].中國農(nóng)學(xué)通報,2013,29(11):115-120.
[2] 王勝.關(guān)于統(tǒng)計數(shù)據(jù)質(zhì)量存在的問題及其對策研究[J].現(xiàn)代經(jīng)濟信息,2010(24):206-208.
[3] 張新茹.論統(tǒng)計數(shù)據(jù)的質(zhì)量問題[J].科技情報開發(fā)與經(jīng)濟,2005,15(17):124-125.
(責(zé)任編輯:高 峻)
S 126
A
0528-9017(2015)03-0425-03
10.16178/j.issn.0528-9017.20150344
2014-12-04
浙江省其他廳局項目(2011R28A60C01)
胡為群(1977-),女,助理研究員,碩士,從事農(nóng)業(yè)信息化工作。E-mail:hwq6629@sina.com。
鄭可鋒(1963-),男,研究員,碩士,主要從事農(nóng)業(yè)信息化工作。
文獻著錄格式:胡為群,祝利莉,葉少挺,等.省級農(nóng)業(yè)資源信息系統(tǒng)屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案探討[J].浙江農(nóng)業(yè)科學(xué),2015,56(3): 425-428.