姜 洋,劉龍威
(1.廣東省國土資源技術(shù)中心,廣州510075;2.廣東省國土資源測繪院,廣州510663;3.自然資源部華南熱帶亞熱帶自然資源監(jiān)測重點實驗室,廣州510663;4.廣東省自然資源科技協(xié)同創(chuàng)新中心,廣州510663)
根據(jù)中國地理信息產(chǎn)業(yè)發(fā)展?fàn)顩r報告顯示,截至2020年末,我國地理信息產(chǎn)業(yè)從業(yè)單位數(shù)量超過13.8 萬家,2020年總產(chǎn)值達(dá)到6 890 億元,產(chǎn)業(yè)展現(xiàn)出蓬勃的發(fā)展活力[1]。作為一項基礎(chǔ)性事業(yè),測繪地理信息行業(yè)在國家安全、社會現(xiàn)代化治理、國民經(jīng)濟建設(shè)乃至疫情防控等諸多領(lǐng)域有著不可或缺的重要作用。在中央“放管服”的政策背景下,廣東省多措并舉優(yōu)化地理信息產(chǎn)業(yè)營商環(huán)境,通過測繪資質(zhì)管理制度改革、下放資質(zhì)審批權(quán)限、推動“多測合一”“聯(lián)合測繪”改革等促進(jìn)產(chǎn)業(yè)發(fā)展;“十四五”期間,廣東省自然資源廳計劃實施系列重大基礎(chǔ)測繪工程,全面提升基礎(chǔ)測繪服務(wù)和保障能力,更好地支撐自然資源管理和各行業(yè)需求,更好地服務(wù)生態(tài)文明建設(shè)和經(jīng)濟社會發(fā)展。面對一系列改革和發(fā)展需要,亟需測繪管理部門從安全、保密、發(fā)展和服務(wù)等多維角度,以現(xiàn)代化管理手段對測繪地理信息行業(yè)進(jìn)行有效監(jiān)管并提供精細(xì)精準(zhǔn)服務(wù)。本文從大數(shù)據(jù)視角出發(fā),以廣東省實踐為例,探討大數(shù)據(jù)技術(shù)在一體化測繪地理信息監(jiān)管和服務(wù)體系建設(shè)中的作用和實現(xiàn)方法,并呈現(xiàn)相關(guān)應(yīng)用案例。
對于管理機構(gòu)而言,一體化測繪地理信息監(jiān)管和服務(wù)的目的是為了提升管理機構(gòu)自身的現(xiàn)代化管理治理能力,高效精準(zhǔn)引導(dǎo)和服務(wù)產(chǎn)業(yè)發(fā)展。當(dāng)前制約監(jiān)管和服務(wù)能力提升,既有測繪行政監(jiān)管力量相對不足,亦有信息化監(jiān)管數(shù)據(jù)不足、技術(shù)手段不足等問題[2]。提升測繪地理信息監(jiān)管和服務(wù)能力可從兩個方面破局:一是如何不斷建設(shè)并持續(xù)完善集成一體、動態(tài)維護(hù)的測繪監(jiān)管與服務(wù)大數(shù)據(jù)本底庫,本底庫不僅要涵蓋各類專題業(yè)務(wù)數(shù)據(jù),更要囊括行政管理過程與結(jié)果數(shù)據(jù),構(gòu)建監(jiān)管和服務(wù)多維大數(shù)據(jù)知識圖譜;二是如何建設(shè)協(xié)同性高、智能性好的一體化監(jiān)管和服務(wù)平臺,通過深挖數(shù)據(jù)、事項、過程等之間的關(guān)系,發(fā)揮大數(shù)據(jù)驅(qū)動效應(yīng),提升監(jiān)管力和服務(wù)力。這兩方面是相輔相成的,其中大數(shù)據(jù)是監(jiān)管和服務(wù)體系的血肉,支撐體系的豐度,是業(yè)務(wù)分析和管理、智能應(yīng)用的基礎(chǔ);平臺是監(jiān)管和服務(wù)體系的骨架,支撐體系的強度,幫助挖掘數(shù)據(jù)背后的業(yè)務(wù)邏輯、知識邏輯,展示數(shù)據(jù)呈現(xiàn)趨勢。探索一種可行的,集采集、處理、維護(hù)、更新和挖掘一體的大數(shù)據(jù)技術(shù)方法,進(jìn)而構(gòu)建基于數(shù)據(jù)驅(qū)動的一體化測繪地理信息監(jiān)管和服務(wù)體系,對于提升監(jiān)管和服務(wù)能力而言至關(guān)重要。
本文從大數(shù)據(jù)收集與處理支流程、維護(hù)更新支流程、挖掘與應(yīng)用支流程三個方面探討測繪地理信息監(jiān)管與服務(wù)建設(shè)流程。利用接口調(diào)用、ETL等技術(shù),對多源異構(gòu)數(shù)據(jù)進(jìn)行抽取、規(guī)范、集成和存儲,并動態(tài)維護(hù)和更新,同時建立知識圖譜,在多元化信息服務(wù)技術(shù)、智能化表單構(gòu)建技術(shù)、基于地理商業(yè)智能技術(shù)的多維統(tǒng)計分析與決策技術(shù)[3]基礎(chǔ)上,開展數(shù)據(jù)深度挖掘與應(yīng)用。主要技術(shù)流程圖如圖1所示。
圖1 大數(shù)據(jù)主要技術(shù)流程圖
從大數(shù)據(jù)角度而言,數(shù)據(jù)來源越廣、類型越多、數(shù)量越多、周期越長,后續(xù)大數(shù)據(jù)挖掘與應(yīng)用效果就越好,但由此帶來的多源異構(gòu)和質(zhì)量不等問題也對數(shù)據(jù)處理提出了挑戰(zhàn)。
以廣東省為例,所采取的數(shù)據(jù)收集方式包括上報式收集、接口式獲取、已有系統(tǒng)數(shù)據(jù)庫抽取、紙質(zhì)資料轉(zhuǎn)換等多種方式,收集結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)(所收集的數(shù)據(jù)類型和關(guān)系圖譜如圖2所示);數(shù)據(jù)來源有各級測繪行政管理部門、檔案管理部門、企事業(yè)單位、信用管理部門等,存在數(shù)據(jù)結(jié)構(gòu)差異較大、屬性精度缺失、數(shù)據(jù)沖突、空間基準(zhǔn)不統(tǒng)一、部分類型數(shù)據(jù)豐度不足、內(nèi)容完整性正確性和邏輯一致性有待檢驗等問題。為此,需對所收集數(shù)據(jù)進(jìn)行結(jié)構(gòu)分析、內(nèi)容梳理和數(shù)據(jù)清洗,統(tǒng)一結(jié)構(gòu)和內(nèi)容范式,從數(shù)據(jù)庫角度構(gòu)建不同類型數(shù)據(jù)的關(guān)聯(lián)關(guān)系,進(jìn)而完成數(shù)據(jù)本底庫建設(shè)。
圖2 數(shù)據(jù)關(guān)系圖(局部)
數(shù)據(jù)維護(hù)與更新是大數(shù)據(jù)技術(shù)體系的重要一環(huán),良好的基礎(chǔ)維護(hù)和動態(tài)更新能賦予數(shù)據(jù)更旺盛的生命力,不斷補足當(dāng)前數(shù)據(jù)體系存在的短板。數(shù)據(jù)維護(hù)更新,一是通過業(yè)務(wù)應(yīng)用新增內(nèi)生數(shù)據(jù),并下沉更新到本底庫;二是通過采集外生數(shù)據(jù),進(jìn)行標(biāo)準(zhǔn)化處理和校驗后,融合更新現(xiàn)有數(shù)據(jù)庫。
采集外生數(shù)據(jù)時,應(yīng)充分利用自動、分布的采集方式,以提高數(shù)據(jù)獲取效率和數(shù)據(jù)豐度。以業(yè)務(wù)和信用數(shù)據(jù)更新為例,若無強制行政命令,企業(yè)未必會自主、如實、完整填報本企業(yè)的業(yè)務(wù)和信用信息,此時利用互聯(lián)網(wǎng)爬蟲技術(shù)通過從信用中國、政府采招網(wǎng)等相關(guān)網(wǎng)站爬取數(shù)據(jù)到統(tǒng)一模板,進(jìn)行數(shù)據(jù)驗核與更新,不斷提升數(shù)據(jù)真實度和豐度,就顯得尤為重要。外生數(shù)據(jù)融合是數(shù)據(jù)更新體系中技術(shù)難度較高的環(huán)節(jié),應(yīng)在對數(shù)據(jù)結(jié)構(gòu)和內(nèi)容含義有深刻理解基礎(chǔ)上,建立清晰的數(shù)據(jù)驗核、匹配、更新與銷毀、訪問控制等更新規(guī)則,并對更新過程實施數(shù)據(jù)庫審計,確保數(shù)據(jù)倉庫安全。
只有對海量復(fù)雜數(shù)據(jù)進(jìn)行挖掘、分析、多維解構(gòu),構(gòu)建數(shù)據(jù)知識圖譜,才能發(fā)揮大數(shù)據(jù)多維連接、感知問題、解決問題、呈現(xiàn)知識以及預(yù)測預(yù)警的應(yīng)用功能。構(gòu)建知識圖譜是數(shù)據(jù)挖掘的關(guān)鍵一環(huán),知識圖譜核心是構(gòu)建大數(shù)據(jù)語義知識網(wǎng)絡(luò)[4],從測繪大數(shù)據(jù)特征出發(fā),通過梳理不同數(shù)據(jù)的語義關(guān)系、空間關(guān)系、時間關(guān)系,以標(biāo)記分類[5][6]等抽取語義關(guān)系,以空間拓?fù)浣Y(jié)合語義抽取方式建立空間關(guān)系,以人工提取結(jié)合語義抽取方式建立時間關(guān)系。測繪地理信息行業(yè)有其特殊管理要求,僅從數(shù)據(jù)提取知識難以構(gòu)建具有足夠豐度的知識圖譜,對此應(yīng)結(jié)合《測繪法》《測繪資質(zhì)管理規(guī)定》《測繪地理信息管理工作國家秘密范圍的規(guī)定》等測繪法律法規(guī)以及廣東省有關(guān)測繪政策、技術(shù)管理辦法,構(gòu)建專家知識庫,進(jìn)而建立融合三大類關(guān)系和專家知識的知識圖譜。知識圖譜構(gòu)建技術(shù)流程見圖3。
圖3 知識圖譜構(gòu)建技術(shù)流程圖
應(yīng)用是對大數(shù)據(jù)以具有規(guī)律性、直觀化的方式呈現(xiàn),讓大數(shù)據(jù)的挖掘結(jié)論更易于感知和傳達(dá)。以數(shù)據(jù)表單的基礎(chǔ)關(guān)聯(lián)關(guān)系為索引,可實現(xiàn)簡單的可視化展示、基礎(chǔ)統(tǒng)計分析和淺層次預(yù)報預(yù)警等基礎(chǔ)應(yīng)用。要實現(xiàn)深層次多維度的可視化展示、智能問答、決策分析、推理預(yù)測、預(yù)報預(yù)警等應(yīng)用,則需要基于知識圖譜,利用基于知識庫問答、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法等大數(shù)據(jù)挖掘方法,實現(xiàn)知識的關(guān)聯(lián)分析、聚類分析等功能[4],進(jìn)而為相關(guān)深層次展示、決策、預(yù)測等應(yīng)用服務(wù)。
廣東省搭建了融合大數(shù)據(jù)和信息系統(tǒng)為一體的省級一體化測繪地理信息監(jiān)管和服務(wù)平臺(以下簡稱平臺),平臺充分利用大數(shù)據(jù)、數(shù)據(jù)自動化采集以及電子證照、廣東省統(tǒng)一身份認(rèn)證、分級權(quán)限控制等多種技術(shù)手段,面向監(jiān)管端(行政管理部門)和服務(wù)端(公眾用戶)提供了基礎(chǔ)管理、預(yù)測分析、智能決策等多種應(yīng)用服務(wù)。
3.2.1 基礎(chǔ)應(yīng)用 圍繞廣東省測繪監(jiān)管和服務(wù)需求,平臺實現(xiàn)了包括基礎(chǔ)統(tǒng)計分析、可視化分析、業(yè)務(wù)管理、公眾服務(wù)等多種基礎(chǔ)應(yīng)用。比如:以測繪監(jiān)管為例,質(zhì)量監(jiān)督檢查在服務(wù)“雙隨機一公開”檢查中起著重要的作用。依托豐富詳實的資質(zhì)單位和業(yè)務(wù)數(shù)據(jù),監(jiān)管人員可通過平臺直觀掌握各規(guī)模以上測繪單位項目實施情況,針對性開展質(zhì)量監(jiān)督檢查、填報檢查結(jié)果信息(見圖4);監(jiān)管部門通過平臺動態(tài)掌握全省規(guī)模以上測繪單位總體質(zhì)量情況、測繪項目實施情況,通過平臺發(fā)現(xiàn)預(yù)警信息,針對性制定相應(yīng)行政管理措施;測繪單位根據(jù)監(jiān)管結(jié)果改問題、補短板,不斷提升企業(yè)綜合能力。
圖4 質(zhì)量監(jiān)督檢查統(tǒng)計
基礎(chǔ)測繪在支撐經(jīng)濟社會發(fā)展、支撐自然資源管理工作中有著不可或缺的重要作用,其成果服務(wù)范圍大、應(yīng)用領(lǐng)域廣。在對相關(guān)數(shù)據(jù)全面梳理整合集成的基礎(chǔ)上,平臺實現(xiàn)了基礎(chǔ)測繪任務(wù)下達(dá)、進(jìn)度管理(見圖5)、質(zhì)量監(jiān)督、歷史任務(wù)檢索,以及成果目錄采集、公開、分發(fā)的全生命周期管理,較好地實現(xiàn)了基礎(chǔ)測繪任務(wù)科學(xué)管理和成果推廣應(yīng)用。
圖5 基礎(chǔ)測繪進(jìn)度統(tǒng)計
聯(lián)合測繪是測繪地理信息行業(yè)深化“放管服”改革的一項重要舉措,自然資源管理部門高度重視聯(lián)合測繪推進(jìn)工作。平臺通過統(tǒng)計分析對各地上報的聯(lián)合測繪業(yè)務(wù)信息(見圖6)與工程建設(shè)項目信息等信息源進(jìn)行動態(tài)比對分析,直觀展示聯(lián)合測繪業(yè)務(wù)實施情況,發(fā)現(xiàn)業(yè)務(wù)異?;驁?zhí)行偏離并進(jìn)行預(yù)警提示,為管理部門加強監(jiān)管提供堅實數(shù)據(jù)支撐和便捷管理手段。
圖6 聯(lián)合測繪業(yè)務(wù)信息統(tǒng)計
3.2.2 進(jìn)階應(yīng)用
對數(shù)據(jù)進(jìn)行聯(lián)動分析,挖掘其關(guān)聯(lián)規(guī)則和隱藏的知識,增強應(yīng)用交互性,實現(xiàn)更深層次應(yīng)用。
(1)在知識檢索方面,利用基于知識圖譜數(shù)據(jù)庫的問答系統(tǒng),解析自然語言問句,提高知識檢索的交互性、智能性和精準(zhǔn)度。
(2)在管理決策方面,廣東省要求同一種數(shù)據(jù)通過共享可以滿足不同部門、不同業(yè)務(wù)的需求,無需重復(fù)采集、采購和生產(chǎn)[7]。通過與省政數(shù)局“項目管理平臺”對接,實現(xiàn)地理空間數(shù)據(jù)項目的協(xié)同管控,通過對同類型項目、同類型測繪成果、相同業(yè)務(wù)申請等進(jìn)行重復(fù)性檢測和預(yù)警,對已有項目成果利用程度進(jìn)行分析,輔助項目立項決策,有助于避免重復(fù)建設(shè)造成財政資金浪費。
(3)在監(jiān)管方面,通過聯(lián)合測繪資質(zhì)單位信息與測繪業(yè)務(wù)信息等多類信息,分析黑名單作業(yè)、無資質(zhì)/超資質(zhì)作業(yè)、低價惡性競爭等情況,對在廣東省進(jìn)行測繪活動的行為進(jìn)行監(jiān)管,構(gòu)建信用名單,評價產(chǎn)業(yè)發(fā)展健康度,促進(jìn)產(chǎn)業(yè)健康發(fā)展。同時相關(guān)信用信息可以作為資質(zhì)復(fù)審換證、業(yè)務(wù)核準(zhǔn)等業(yè)務(wù)的參考憑證。
受多種原因所限,目前數(shù)據(jù)庫建設(shè)、挖掘和應(yīng)用還存在不足。辟如數(shù)據(jù)豐度不夠飽滿、知識圖譜不夠立體全面、挖掘算法不夠全面先進(jìn)、推理和問答功能不夠精準(zhǔn)和完善、平臺交互性不夠強,等等。對此,需要圍繞管理需求和公眾服務(wù)需求,持續(xù)深入解構(gòu)數(shù)據(jù)內(nèi)在關(guān)聯(lián)和豐富含義、完善知識圖譜,不斷開發(fā)或引入大數(shù)據(jù)挖掘算法,進(jìn)而逐步改進(jìn)或?qū)崿F(xiàn)智能問答、智能審批、企業(yè)/項目信息溯源、成果應(yīng)用決策分析、成果使用安全保密預(yù)警、項目重復(fù)建設(shè)預(yù)警、產(chǎn)業(yè)(企業(yè)/項目)風(fēng)險預(yù)測預(yù)警、技術(shù)發(fā)展預(yù)測、產(chǎn)業(yè)發(fā)展趨勢評估等深層次應(yīng)用。
目前,圍繞測繪現(xiàn)代化管理和服務(wù)需求,廣東實踐從數(shù)據(jù)和系統(tǒng)兩個維度出發(fā),建設(shè)形成了一套符合廣東省情的一體化測繪地理信息監(jiān)管和服務(wù)平臺,利用豐富的數(shù)據(jù)、先進(jìn)的系統(tǒng),較好實現(xiàn)了一體化的測繪單位、項目、成果的精準(zhǔn)監(jiān)管,以及面向管理者與公眾用戶的精細(xì)服務(wù)。從大數(shù)據(jù)視角來看,豐富詳實的數(shù)據(jù)是應(yīng)用的根本基礎(chǔ),基于大數(shù)據(jù)驅(qū)動的“數(shù)據(jù)+平臺”模式,能有效提高監(jiān)管和服務(wù)的規(guī)范化、智能化、協(xié)同性、精準(zhǔn)性。受多種因素所限,廣東實踐在大數(shù)據(jù)處理和應(yīng)用方面仍有較大提升空間,特別是在研究數(shù)據(jù)自動驗核和知識判斷方法、構(gòu)建內(nèi)容飽滿和邏輯清晰的知識圖譜、開發(fā)和引入先進(jìn)挖掘算法以進(jìn)一步挖潛應(yīng)用場景、提升智能決策預(yù)測水平,加強公眾服務(wù)方面仍需進(jìn)一步提高。