黃海英,熊 芬,張 博,史 乘
(1.湖北省測(cè)繪質(zhì)量監(jiān)督檢驗(yàn)站,湖北 武漢 430074;2.湖北工業(yè)大學(xué) 體育學(xué)院,湖北 武漢 430068;3.湖北省航測(cè)遙感院,湖北 武漢 430074)
湖北省在2017 年和2018 年的基礎(chǔ)性地理國(guó)情監(jiān)測(cè)成果驗(yàn)收工作中,自主創(chuàng)新,設(shè)計(jì)包含了地表覆蓋與國(guó)情要素錯(cuò)誤的“監(jiān)測(cè)成果錯(cuò)誤數(shù)據(jù)集”。兩年的驗(yàn)收工作形成了數(shù)量可觀的成果檢驗(yàn)數(shù)據(jù),成果每年更新,檢驗(yàn)工作每年進(jìn)行,如何利用成果歷史檢驗(yàn)數(shù)據(jù),有針對(duì)性地為后續(xù)開(kāi)展的監(jiān)測(cè)工作進(jìn)行技術(shù)指導(dǎo)和質(zhì)量控制,是值得質(zhì)檢工作者深入分析的問(wèn)題。
成果檢查采用程序自動(dòng)檢查、人機(jī)交互檢查和人工比對(duì)檢查3 種方式。檢查中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問(wèn)題形成“錯(cuò)誤數(shù)據(jù)集.mdb”。湖北省驗(yàn)收總面積為18.59 萬(wàn)km2,包括103 個(gè)縣級(jí)行政區(qū)劃。根據(jù)規(guī)定要求,2017 年、2018 年分別抽取了11 個(gè)縣級(jí)任務(wù)區(qū)作為樣本進(jìn)行驗(yàn)收,其中地表覆蓋分類(lèi)數(shù)據(jù)抽樣采用了多階段抽樣方法,即對(duì)于成果采集精度和分類(lèi)精度兩項(xiàng)質(zhì)量元素的檢查,在縣級(jí)測(cè)區(qū)范圍內(nèi)抽取不低于樣本10% 面積的圖幅進(jìn)行詳查[1]。驗(yàn)收抽樣面積達(dá)3.1 萬(wàn)km2,2017 年和2018 年形成了包含縣級(jí)任務(wù)區(qū)檢查意見(jiàn)和分幅圖檢查意見(jiàn)在內(nèi)的236 個(gè)樣本“錯(cuò)誤數(shù)據(jù)集.mdb”。
本文采用以Access 數(shù)據(jù)庫(kù)為基礎(chǔ)的個(gè)人地理數(shù)據(jù)庫(kù)格式.mdb,設(shè)計(jì)樣本錯(cuò)誤數(shù)據(jù)集。該數(shù)據(jù)集中包括3 個(gè)數(shù)據(jù)層,層名和字段定義如表1 所示。
表1 錯(cuò)誤數(shù)據(jù)集圖層和字段定義
質(zhì)量研究的主要工作包括成果質(zhì)量數(shù)據(jù)庫(kù)建設(shè)、數(shù)據(jù)處理和數(shù)據(jù)分析,主要流程如圖1 所示。
1)數(shù)據(jù)合并。利用Python 腳本語(yǔ)言編寫(xiě)批量處理命令代碼,調(diào)用ArcPy 模塊中的ListFiles 函數(shù)、ListFeatureClasses 函數(shù)、Append_management 函數(shù)[2]可對(duì)236 個(gè)樣本“錯(cuò)誤數(shù)據(jù)集.mdb”進(jìn)行批量同圖層合并,并存儲(chǔ)到新建的個(gè)人地理數(shù)據(jù)庫(kù)中(.mdb),即成果質(zhì)量數(shù)據(jù)庫(kù)。
圖1 監(jiān)測(cè)成果質(zhì)量研究流程圖
2)數(shù)據(jù)疊加。利用ArcMap 疊加分析功能將湖北省任務(wù)區(qū)范圍界線數(shù)據(jù)鏈接到成果質(zhì)量數(shù)據(jù)庫(kù),為成果質(zhì)量數(shù)據(jù)庫(kù)中所有圖層添加樣本名稱(chēng)、生產(chǎn)單位、任務(wù)區(qū)面積、樣本量等字段。
對(duì)成果質(zhì)量數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)處理,利用ArcGIS 轉(zhuǎn)換數(shù)據(jù)格式,輸出地表覆蓋點(diǎn)狀錯(cuò)誤圖層(.xls)、地表覆蓋分類(lèi)精度錯(cuò)誤圖層(.xls)、國(guó)情要素錯(cuò)誤圖層(.xls)3 個(gè)文件。人工編輯提取“質(zhì)量問(wèn)題描述”、“所屬質(zhì)量元素”、“錯(cuò)誤個(gè)數(shù)”、“錯(cuò)誤字段”、“正確CC 值”、“錯(cuò)誤CC 值”、“錯(cuò)誤重要程度”等字段內(nèi)容,并按照一定規(guī)則統(tǒng)一規(guī)范質(zhì)量問(wèn)題描述;再對(duì)各差錯(cuò)類(lèi)別的主要問(wèn)題描述進(jìn)行關(guān)鍵字提取,合并同類(lèi)問(wèn)題,整理形成最終質(zhì)量問(wèn)題匯總表。
最終質(zhì)量問(wèn)題匯總表包括2017 年、2018 年地表覆蓋分類(lèi)數(shù)據(jù)成果與地理國(guó)情要素?cái)?shù)據(jù)成果的質(zhì)量問(wèn)題,分別對(duì)兩類(lèi)數(shù)據(jù)成果進(jìn)行質(zhì)量分析。
2.3.1 地表覆蓋分類(lèi)數(shù)據(jù)成果
地表覆蓋分類(lèi)數(shù)據(jù)成果在進(jìn)行質(zhì)量問(wèn)題記錄時(shí),分類(lèi)精度按照面積記錄[1],其他質(zhì)量元素按照個(gè)數(shù)記錄,因此將地表覆蓋分類(lèi)數(shù)據(jù)分為兩類(lèi)進(jìn)行質(zhì)量透視分析。
1)分類(lèi)精度錯(cuò)誤統(tǒng)計(jì)。①對(duì)一級(jí)類(lèi)分類(lèi)錯(cuò)誤與二三級(jí)類(lèi)分類(lèi)錯(cuò)誤的面積進(jìn)行統(tǒng)計(jì),得到2017 年一級(jí)類(lèi)分類(lèi)錯(cuò)誤的面積占比為91.16%,二三級(jí)類(lèi)分類(lèi)錯(cuò)誤的面積占比為8.84%,2018 年一級(jí)類(lèi)分類(lèi)錯(cuò)誤的面積占比為72.02%,二三級(jí)類(lèi)分類(lèi)錯(cuò)誤的面積占比為27.98%;②對(duì)分類(lèi)錯(cuò)誤所屬地類(lèi)類(lèi)別進(jìn)行統(tǒng)計(jì),按照一級(jí)類(lèi)種植土地(01)、林草覆蓋(03)、房屋建筑(05)、鐵路與道路(06)、構(gòu)筑物(07)、人工堆掘地(08)、荒漠與裸露地表(09)、水域(10)、地理單元(11)、地形(12)[3]共10 類(lèi)統(tǒng)計(jì)錯(cuò)誤面積,占比如圖2所示;③對(duì)分類(lèi)錯(cuò)誤所屬地類(lèi)類(lèi)別進(jìn)行細(xì)分統(tǒng)計(jì),統(tǒng)計(jì)每個(gè)一級(jí)類(lèi)中被錯(cuò)分的地類(lèi)類(lèi)別,結(jié)果如圖3 所示。
2)其他質(zhì)量元素錯(cuò)漏統(tǒng)計(jì)。①對(duì)錯(cuò)漏類(lèi)型所屬質(zhì)量元素進(jìn)行統(tǒng)計(jì),分別統(tǒng)計(jì)表征質(zhì)量、采集精度、拓?fù)湟恢滦浴傩跃鹊腻e(cuò)漏個(gè)數(shù)占比,2017 年分別為3.39%、63.29%、1.13%和32.19%,2018 年分別為4.15%、61.83%、7.88%和26.14%;②對(duì)錯(cuò)漏類(lèi)型所屬檢查項(xiàng)進(jìn)行統(tǒng)計(jì),錯(cuò)漏類(lèi)型包括屬性不接邊、Tag 賦值錯(cuò)誤、ChangeType 賦值錯(cuò)誤、面連續(xù)、圖斑與影像套合超限、幾何不接邊、面折刺、極小面,錯(cuò)漏所屬質(zhì)量元素與個(gè)數(shù)占比如圖4 所示。
圖2 分類(lèi)錯(cuò)誤所屬地類(lèi)類(lèi)別統(tǒng)計(jì)
圖3 地表覆蓋分類(lèi)數(shù)據(jù)分類(lèi)錯(cuò)誤所屬地類(lèi)類(lèi)別細(xì)分統(tǒng)計(jì)
圖4 地表覆蓋分類(lèi)數(shù)據(jù)錯(cuò)漏類(lèi)型所屬檢查項(xiàng)統(tǒng)計(jì)
2.3.2 地理國(guó)情要素?cái)?shù)據(jù)成果
1)錯(cuò)漏所屬質(zhì)量元素統(tǒng)計(jì)。分別統(tǒng)計(jì)表征質(zhì)量、邏輯一致性、屬性精度、完整性、位置精度的錯(cuò)漏個(gè)數(shù)占比:2017 年為0.81%、3.85%、62.01%、9.63%和23.71%;2018 年為1.96%、15.36%、49.35%、19.61%和13.73%。
2)錯(cuò)漏所屬圖層統(tǒng)計(jì)。經(jīng)分析,最終質(zhì)量問(wèn)題匯總表中國(guó)情要素質(zhì)量問(wèn)題出現(xiàn)在社會(huì)經(jīng)濟(jì)區(qū)域單元層的UV_BERA、UV_BERP、UV_BGBA,行政區(qū)劃與管理單元層的UV_BOUA、UV_BOUL、UV_BOUP,城鎮(zhèn)綜合功能單元層的UV_BUCA、UV_BUCP,水域?qū)覷V_HYDA、UV_HYDL,鐵路與道路層的UV_LCTL、UV_LLKL、UV_LRDL、UV_LRRL、UV_LVLL,構(gòu)筑物層的UV_SFCA、UV_SFCL、UV_SFCP共計(jì)18 個(gè)圖層中,各層錯(cuò)誤占比如圖5 所示。
3)UV_LRDL 公路層屬性值錯(cuò)漏統(tǒng)計(jì)。公路層屬性值錯(cuò)漏占比最高,因此單獨(dú)對(duì)公路層錯(cuò)漏進(jìn)行統(tǒng)計(jì)分析。按照屬性值錯(cuò)漏所屬字段分別統(tǒng)計(jì)錯(cuò)誤個(gè)數(shù),占比如圖6 所示。
圖5 地理國(guó)情要素?cái)?shù)據(jù)錯(cuò)漏所屬圖層統(tǒng)計(jì)
圖6 UV_LRDL 公路層屬性值錯(cuò)漏頻次統(tǒng)計(jì)
在兩年的驗(yàn)收工作中,成果未出現(xiàn)空間參考系、概念一致性、時(shí)間精度以及地表覆蓋分類(lèi)數(shù)據(jù)面縫隙、面重疊等屬于“符合/不符合”性質(zhì)的質(zhì)量問(wèn)題。該類(lèi)問(wèn)題通過(guò)質(zhì)檢軟件自動(dòng)檢查[4],生產(chǎn)階段便可進(jìn)行有效控制。
2.4.1 地表覆蓋分類(lèi)數(shù)據(jù)成果質(zhì)量分析
1)分類(lèi)錯(cuò)誤集中在種植土地、林草覆蓋、水域3 大類(lèi),特別是種植土地和林草覆蓋的二三級(jí)類(lèi)的混淆。2017 年種植土地錯(cuò)分為林草覆蓋的比例最高,2018 年水域錯(cuò)分為種植土地的比例最高。
2)地表覆蓋分類(lèi)數(shù)據(jù)中一級(jí)類(lèi)錯(cuò)分的比例較高,2018 年較2017 年同比下降21%;但2018 年技術(shù)規(guī)定進(jìn)行了修改[3],導(dǎo)致2018 年地表覆蓋分類(lèi)數(shù)據(jù)中ChangeType 賦值錯(cuò)誤比例遠(yuǎn)遠(yuǎn)高于2017 年。
3)地表覆蓋分類(lèi)數(shù)據(jù)除分類(lèi)精度外,2017 年的常見(jiàn)錯(cuò)誤為圖斑與影像套合超限、圖斑屬性不接邊、ChangeType 賦值錯(cuò)誤等;2018 年的常見(jiàn)錯(cuò)誤為圖斑與影像套合超限、ChangeType 賦值錯(cuò)誤、幾何不接邊以及面連續(xù)等。出錯(cuò)比例最高的質(zhì)量元素為采集精度,2017 年的錯(cuò)誤占比為63.19%,2018 年的錯(cuò)誤占比為51.87%,同比下降11.32%。
2.4.2 地理國(guó)情要素?cái)?shù)據(jù)成果質(zhì)量分析
1)地理國(guó)情要素?cái)?shù)據(jù)質(zhì)量問(wèn)題主要集中在屬性精度上。2017 年的屬性精度錯(cuò)漏占比約為62%,2018 年的屬性精度錯(cuò)漏占比約為49%。國(guó)情要素屬性填寫(xiě)與地理國(guó)情要素生產(chǎn)流程有關(guān)[5],在生產(chǎn)前需收集民政、國(guó)土、環(huán)保、交通、水利、農(nóng)業(yè)、林業(yè)、旅游、教育、衛(wèi)生等多個(gè)行業(yè)的最新版專(zhuān)題資料數(shù)據(jù),再分析、整理后應(yīng)用到國(guó)情要素的采集和屬性賦值中。從2017 年和2018 年的錯(cuò)漏占比來(lái)看,2018 年與2017 年同比下降20.97%,由于2018 年湖北省基礎(chǔ)性地理國(guó)情生產(chǎn)單位成立技術(shù)專(zhuān)班,對(duì)收集到的專(zhuān)題資料進(jìn)行了統(tǒng)一分析,詳細(xì)規(guī)定了資料利用原則,有效提高了地理國(guó)情要素?cái)?shù)據(jù)屬性填寫(xiě)的正確性。
2)屬性精度錯(cuò)漏最多的圖層UV_LRDL(公路)在2017 年的錯(cuò)漏占比達(dá)52%,在2018 年的錯(cuò)漏占比為23%,同比下降55.77%。該圖層錯(cuò)漏集中在ChangeAtt(更新字段說(shuō)明)、WIDTH(路寬)、MATRL(鋪設(shè)材料)、TYPE(類(lèi)型)4 個(gè)字段。
2017 年、2018 年湖北省監(jiān)測(cè)成果質(zhì)量問(wèn)題數(shù)量逐年減少,質(zhì)量水平總體發(fā)展呈上升趨勢(shì),得益于監(jiān)測(cè)技術(shù)部門(mén)對(duì)質(zhì)量問(wèn)題產(chǎn)生原因的分析,找到了生產(chǎn)作業(yè)中應(yīng)關(guān)注的重點(diǎn)和薄弱點(diǎn),制定了相應(yīng)的改進(jìn)措施,避免了后期生產(chǎn)出現(xiàn)同類(lèi)型的質(zhì)量問(wèn)題,從而保障監(jiān)測(cè)成果質(zhì)量不斷提高。
本文建立統(tǒng)一標(biāo)準(zhǔn)的錯(cuò)誤數(shù)據(jù)集和規(guī)范化的錯(cuò)誤描述庫(kù),收集整理各級(jí)質(zhì)檢形成“錯(cuò)誤數(shù)據(jù)集.mdb”,結(jié)合Python 中的ArcPy 模塊建立年度成果質(zhì)量數(shù)據(jù)庫(kù)。本文通過(guò)對(duì)成果質(zhì)量數(shù)據(jù)庫(kù)構(gòu)建方法的研究以及對(duì)建庫(kù)數(shù)據(jù)的統(tǒng)計(jì)分析,確定了質(zhì)量問(wèn)題產(chǎn)生的原因并提出了科學(xué)有效的建議,為對(duì)持續(xù)性地理國(guó)情監(jiān)測(cè)工作進(jìn)行有效質(zhì)量控制提出了一個(gè)新思路,為建立科學(xué)合理的自然資源質(zhì)量管控體系起到了一定的參考作用。