柴 旭
(福建省地質(zhì)測繪院,福建 廈門 361012)
在農(nóng)村土地承包經(jīng)營權(quán)外業(yè)確權(quán)登記活動中,受到調(diào)查對象遺漏、調(diào)查對象認知能力約束以及調(diào)查員自身思維縝密性的限制,往往造成外業(yè)調(diào)查表中數(shù)據(jù)的缺省,對于這一部分數(shù)據(jù)不彌補又通常耗費大量的人力、物力、財力進行補充調(diào)查,耗時長,效率較低,對于這一問題的優(yōu)化處理往往采用技術(shù)彌補與社會性補充調(diào)查相結(jié)合的方法。當(dāng)前對于數(shù)據(jù)缺省重構(gòu)普遍采用均值法或最大頻率法,然而這些方法往往造成彌補數(shù)據(jù)失真的問題。鄂旭等(2005)基于斷點屬性值加以探索;趙飛等(2011)基于最小計數(shù)概要提出最小頻率概要而實現(xiàn)缺省數(shù)據(jù)的填補;張其文等(2006)基于粗集理論思想,以相似關(guān)系替代粗集理論中的不可分辨關(guān)系,從而提出基于相似關(guān)系的填充算法,以實現(xiàn)數(shù)據(jù)重構(gòu)精度;武森等(2012)則基于不完備數(shù)據(jù)聚類的缺失數(shù)據(jù)填補方法來針對非類變量不完備數(shù)據(jù)集定義約束容差機和差異度,從而直接計算研究對象的總體相異程度以實現(xiàn)數(shù)據(jù)填補;谷峪等(2010)通過動態(tài)概率路徑實踐模擬,基于挖掘已知的區(qū)域之間的順序相關(guān)性來對后續(xù)發(fā)生的時間進行判斷和填補;張偉(2003)則基于Rough集理論加以探究,其不需要附加信息,具有計算簡單、直觀等優(yōu)勢;郭景峰等(2002),文碩頻等(2003)從數(shù)據(jù)間的關(guān)系入手,引入相似性概念,基于決策樹來實現(xiàn)遺失數(shù)據(jù)的填補;盧娟等(2012)基于規(guī)范變量分析以實現(xiàn)數(shù)據(jù)的重構(gòu)。通過對前人研究的梳理,本文將詳述三種適宜彌補農(nóng)村土地承包經(jīng)營權(quán)確權(quán)頒證中的數(shù)據(jù)缺省方法,再通過社會性緩解機制來緩解因數(shù)據(jù)缺省而引發(fā)的農(nóng)戶與政府及技術(shù)施工方的矛盾,從而促進項目高效、高質(zhì)推進,服務(wù)于農(nóng)村社會經(jīng)濟發(fā)展。
研究區(qū)域為福建省廈門市某標(biāo)段位于福建省東南部沿海地區(qū),亞熱帶海洋性氣候,全年氣候溫潤,地形較平坦,區(qū)內(nèi)工業(yè)、文教發(fā)達,有新建高鐵車站一座,常住人口3.8萬人,流動人口4.5萬人,農(nóng)業(yè)現(xiàn)代化水平高,新型農(nóng)業(yè)經(jīng)營主體發(fā)育較為完善,農(nóng)地利用效率高。
研究區(qū)域數(shù)據(jù)整體完整性在96%以上,主要數(shù)據(jù)缺省在身份證號碼、地塊合同面積等兩方面。身份證號碼數(shù)據(jù)缺省存在兩個方面,其一是身份證號碼數(shù)據(jù)缺失,其二是身份證號碼錯誤,前者必須通過二次調(diào)查獲取,后者可通過身份證驗證程序加以修正。而地塊合同面積缺省直接指數(shù)據(jù)缺失,該數(shù)據(jù)能夠經(jīng)由數(shù)據(jù)重構(gòu)獲取。
本文中著重于對基于遺失數(shù)據(jù)重構(gòu)的軟測量方法、基于決策樹的不完全決策表的數(shù)據(jù)補充方法以及一種身份證信息驗證與補遺算法實現(xiàn)數(shù)據(jù)重構(gòu)。
…,yl]T+[x1,x2,…,xm,y1,…,yl]
U[0,0,…,1,0,…,0]T
=0
(1)
聯(lián)合上述l個等式可得到:
(2)
由此可得遺失數(shù)據(jù)的重構(gòu)值表達式(趙京梅等,2010):
(3)
2.2.1 決策樹構(gòu)建
根據(jù)前文,對象集為X,決策樹生成算法為以下形式(圖1)。
圖1 決策樹生成流程Fig.1 Creative processes of decision trees
基于信息理論,可得到一棵決策樹能對樣本做出不完全正確劃分的期望熵D(X),即
(4)
以y為節(jié)點所需的期望信息E(y),即
(5)
表1 身份證信息驗證與補遺表
2.2.2 遺失數(shù)據(jù)彌補
首先,應(yīng)將該節(jié)點所有ai*在y的取值確定為該節(jié)點其他不含“*”對象在y的取值,再修改ai*為ai且從其他節(jié)點中去掉ai*。
再次,取與ai具有最大相似度的F中的對象aj,y(ai)=y(aj),在含有aj的子節(jié)點修改ai*→ai,且同時從其他節(jié)點中去掉ai*。若節(jié)點中仍存“*”,重復(fù)前述過程直到“*”不存在為止。
最后,停止對屬性值的修正,轉(zhuǎn)到?jīng)Q策樹構(gòu)造中,對新產(chǎn)生的節(jié)點重復(fù)上述操作(郭景峰等,2002;文碩頻等,2003)。
身份證信息驗證與補遺算法基于Excel平臺而開發(fā),具體算法結(jié)構(gòu)如下:
首先,構(gòu)建身份證信息驗證與補遺表,該表分為兩大模塊,即身份證號碼輸入模塊與審核結(jié)果輸出模塊。審核結(jié)果輸出模塊又包含數(shù)位驗證、地址碼驗證、出生日期碼驗證、順序碼驗證、校驗碼驗證、統(tǒng)計驗證值、驗證結(jié)果等七個子模塊構(gòu)成(表1)。
其次,設(shè)計數(shù)位驗證、地址碼驗證、出生日期碼驗證、順序碼驗證、校驗碼驗證、統(tǒng)計驗證值、驗證結(jié)果等七個子模塊的算法。
最后,在“身份證號碼”對應(yīng)的表格中填入身份證號碼即可得到驗證信息與修正信息。
由此可得遺失數(shù)據(jù)的重構(gòu)值:
補遺獲取的31對數(shù)據(jù)異常值為2對(即實測面積與合同面積的絕對值大于等于0.2畝),因此再將上述實驗重復(fù)而獲取得到數(shù)據(jù)重構(gòu)值為:
通過檢驗,此兩組數(shù)據(jù)符合數(shù)據(jù)精度要求(盧娟等,2012;李慶華,2011)。
表2 身份證信息驗證結(jié)果
基于前述算法可以得到表2的計算結(jié)果。1963項數(shù)據(jù)中有24個數(shù)據(jù)身份證信息存在問題,其中存在2個身份號碼錯誤(算法可以識別更正),22個身份證號碼缺失,需要二次調(diào)查。
研究顯示,第1102條數(shù)據(jù)中,身份證號末尾應(yīng)更正為8;第1261條數(shù)據(jù)中,身份證號末尾應(yīng)更正為6。與此同時,修正后數(shù)據(jù)仍需在公示時請農(nóng)戶查驗,以確保數(shù)據(jù)精準(zhǔn)性。而22條缺省數(shù)據(jù)則需要公示后二次調(diào)查。
農(nóng)村土地承包經(jīng)營權(quán)確權(quán)登記頒證是一項關(guān)系國計民生的重要普查性工作,因此其有高度的精度要求,故而通過算法補遺之后需要再次到農(nóng)村進行公示及公示后的再次補充調(diào)查。對于農(nóng)村土地承包經(jīng)營權(quán)確權(quán)登記頒證外業(yè)數(shù)據(jù)完善后的公示及公示后的再次補充調(diào)查,為避免數(shù)據(jù)嚴重缺失和高度失真而引發(fā)農(nóng)戶負面情緒,因此文章前述部分對數(shù)據(jù)缺省問題做了一系列修正處理,而如何在緩和二次調(diào)查所引發(fā)的農(nóng)戶情緒沖突,文章對此做了以下一系列探討。
研究區(qū)域數(shù)據(jù)整體完整性在96%以上,而在補遺之后,數(shù)據(jù)精度達到99%左右,經(jīng)過公示后可根據(jù)農(nóng)戶確認表知曉何者為存在問題的數(shù)據(jù),基于此可以采取有針對性的二次調(diào)查。在公示過程中,不宜出現(xiàn)聚眾現(xiàn)象(農(nóng)民人數(shù)>5人),以規(guī)避農(nóng)戶間相互的負面信息傳遞而產(chǎn)生的數(shù)據(jù)夸大現(xiàn)象。在二次調(diào)查中,應(yīng)采用1對1的調(diào)查模式,規(guī)避其他農(nóng)戶對調(diào)查農(nóng)戶的信息干擾,從而保障數(shù)據(jù)精度。
農(nóng)戶受到教育水平、認知能力等約束而不能夠清晰知曉證件信息、耕地信息,因此在對農(nóng)戶進行訪談法調(diào)查時應(yīng)請農(nóng)戶出示相關(guān)證件,以保障數(shù)據(jù)質(zhì)量。訪談法調(diào)查之后應(yīng)通過地方農(nóng)業(yè)部門、村委會協(xié)助,查閱文件資料以實現(xiàn)調(diào)查信息的驗證,倘若存在差異則應(yīng)與農(nóng)戶再次確認,從而避免數(shù)據(jù)的再次錯誤。
確權(quán)工作人員多非本地人,在語言、行為偏好等方面與農(nóng)戶存在差異,從而在溝通上存在一定障礙。對此,應(yīng)邀請標(biāo)段所在村組知識水平、人際交往能力、語言能力、權(quán)威性高的長者予以協(xié)助,參與調(diào)查,從而實現(xiàn)農(nóng)戶參與,緩解被調(diào)查農(nóng)戶的心理壓力,降低溝通成本,提升數(shù)據(jù)精度質(zhì)量。
本輪農(nóng)村土地承包經(jīng)營權(quán)確權(quán)登記頒證是我國土地制度改革中一項具有里程碑意義的工作,其明確農(nóng)村土地權(quán)屬,將長期以來積壓下來的土地權(quán)屬問題有效解決,為土地流轉(zhuǎn)、土地規(guī)模經(jīng)營、培育新型農(nóng)業(yè)經(jīng)營主體奠定了良好的基礎(chǔ)。當(dāng)前,本輪農(nóng)村土地承包經(jīng)營權(quán)確權(quán)登記頒證工作是在試驗中進行,工程實施標(biāo)準(zhǔn)不斷根據(jù)實際發(fā)生的問題的變化,數(shù)據(jù)精度、農(nóng)戶認可度等方面仍在不斷探索緩解的契合點,因此本文就確權(quán)活動中數(shù)據(jù)缺省問題加以探討,不僅僅支持技術(shù)性彌補,更注意到社會性緩解方案的建立,基于上述研究,本文可凝聚以下兩點主要結(jié)論:
(1)數(shù)據(jù)缺省能夠通過技術(shù)手段加以彌補,這種手段并非簡單的數(shù)據(jù)重構(gòu),而需要經(jīng)過一些列數(shù)理理論加以支撐。本文對地塊信息的彌補采用了基于遺失數(shù)據(jù)重構(gòu)的軟測量方法、基于決策樹的不完全決策表的數(shù)據(jù)補充方法,對身份證信息缺失采用了身份證信息驗證與補遺算法加以實現(xiàn)。
(2)在前人的研究的成果與數(shù)據(jù)運行實踐基礎(chǔ)上表明,基于遺失數(shù)據(jù)重構(gòu)軟測量方法相比傳統(tǒng)方法更為靈活,而基于決策樹的不完全決策表的數(shù)據(jù)補充方法則大大提高了數(shù)據(jù)補遺精度。
(3)確權(quán)數(shù)據(jù)經(jīng)過技術(shù)性補遺之后必須進行公示及公示后的再次補充調(diào)查,同時應(yīng)使農(nóng)戶積極參
與,共同完成數(shù)據(jù)彌補。公示及公示后的再次補充調(diào)查必須是具有針對性的二次調(diào)查,在調(diào)查之后應(yīng)進行權(quán)威文本資料核查,在調(diào)查過程中積極采用農(nóng)戶參與性緩解方法提高調(diào)查效率。
參考文獻
鄂旭, 高學(xué)東, 武森. 2005. 一種新的遺失數(shù)據(jù)填補方法[J]. 計算機工程, 31(20): 6-7.
谷峪, 于戈, 李曉靜, 等. 2010. 基于動態(tài)概率路徑事件模型的 RFID 數(shù)據(jù)填補算法[J]. 軟件學(xué)報, 21(3): 438-451.
郭景峰, 米浦波, 劉國華. 2002. 基于決策樹的數(shù)據(jù)遺失值填充方法的研究[J]. 計算機工程與科學(xué), 24(5): 8-10.
李慶華. 2011. 1 種基于遺失數(shù)據(jù)重構(gòu)的軟測量方法[J]. 計算機與應(yīng)用化學(xué), 28(5): 545-548.
李如平. 2010. 數(shù)據(jù)挖掘中決策樹分類算法的研究[J]. 東華理工大學(xué)學(xué)報:自然科學(xué)版, 33(2): 192-196.
盧娟, 龔晶, 許鳳慧. 2012. 基于規(guī)范變量分析的數(shù)據(jù)重構(gòu)方法及應(yīng)用[J]. 微計算機信息, (9): 71-73.
文碩頻, 喬勝勇, 陳彩云, 等. 2003. 基于決策樹的不完全決策表的數(shù)據(jù)補充及規(guī)則提取[J]. 計算機應(yīng)用, 23(11): 17-19.
武森, 馮小東, 單志廣. 2012. 基于不完備數(shù)據(jù)聚類的缺失數(shù)據(jù)填補方法[J]. 計算機學(xué)報, 35(8): 1726-1738.
張其文, 李明. 2006. 一種缺失數(shù)據(jù)的填補方法[J]. 蘭州理工大學(xué)學(xué)報, 32(2): 102-104.
張偉, 廖曉峰, 吳中福. 2003. 一種基于 Rough 集理論的不完備數(shù)據(jù)分析方法[J]. 模式識別與人工智能, 16(2): 158-163.
趙飛, 劉奇志, 張剡, 等. 2011. 一種大域數(shù)據(jù)流中缺失值的填充方法[J]. 南京大學(xué)學(xué)報: 自然科學(xué)版, 47(1): 32-39.
趙京梅, 楊志輝. 2010. 模糊多屬性群決策在鐵路系統(tǒng)評價中的應(yīng)用[J]. 東華理工大學(xué)學(xué)報:自然科學(xué)版, 33(2): 187-191.