劉飛飛
摘 要:當(dāng)前,我國(guó)科技迎來(lái)了突飛猛進(jìn)的發(fā)展,取得了一系列重大突破,大數(shù)據(jù)作為代表性技術(shù)之一,成為很多行業(yè)創(chuàng)新的重要驅(qū)動(dòng)力量,這也為我國(guó)國(guó)土資源方面的改革帶來(lái)重大機(jī)遇。傳統(tǒng)的國(guó)土規(guī)劃?rùn)n案資料管理手段較為單一,很容易出現(xiàn)數(shù)據(jù)收集、填寫錯(cuò)誤等情況,信息共享、傳輸也十分不便。在可視化和數(shù)據(jù)挖掘下,通過應(yīng)用自然語(yǔ)言處理光伏識(shí)別以及其他技術(shù),能夠擺脫傳統(tǒng)工作模式中存在的弊端,為該工作的順利開展提供可靠保障?;诖耍疚膶?duì)國(guó)土規(guī)劃數(shù)字檔案資源的數(shù)據(jù)挖掘及可視化進(jìn)行了分析。
關(guān)鍵詞:國(guó)土規(guī)劃;數(shù)字檔案;數(shù)據(jù)挖掘;可視化
大數(shù)據(jù)時(shí)代,信息體量爆炸式增長(zhǎng),加大了國(guó)土規(guī)劃數(shù)字檔案資源管理工作難度。近些年,在我國(guó)經(jīng)濟(jì)發(fā)展進(jìn)入全新階段的背景下,不動(dòng)產(chǎn)業(yè)務(wù)數(shù)量和規(guī)模持續(xù)擴(kuò)增,如果依然采用傳統(tǒng)工作模式,勢(shì)必難以滿足當(dāng)前工作需要,檢索能力不足、數(shù)據(jù)處理效率低下等問題日益凸顯。為了使該工作更順利地開展,提升檔案資源利用率,充分發(fā)揮其價(jià)值,可將先進(jìn)技術(shù)應(yīng)用其中,創(chuàng)新原有工作模式,提升素質(zhì)檔案資源服務(wù)質(zhì)量,為使用者提供更優(yōu)質(zhì)的服務(wù)。因此,對(duì)國(guó)土規(guī)劃素質(zhì)檔案資源的數(shù)據(jù)挖掘及可視化進(jìn)行分析具有重要意義。
一、國(guó)土規(guī)劃數(shù)字檔案管理的形成
當(dāng)前,科學(xué)技術(shù)得到廣泛應(yīng)用,自從國(guó)土規(guī)劃?rùn)n案資料管理朝著信息化、現(xiàn)代化方向發(fā)展以來(lái),為該工作的發(fā)展、創(chuàng)新提供了強(qiáng)有力的保障,也取得了十分理想的效果。
首先,計(jì)算機(jī)在我國(guó)檔案管理中的應(yīng)用最早開始于21世紀(jì)初。利用計(jì)算機(jī)取代傳統(tǒng)的人工操作,大大提升了工作效率,這也是國(guó)土規(guī)劃數(shù)字檔案管理的基本雛形,為后來(lái)技術(shù)創(chuàng)新、檔案資源管理方式方法的優(yōu)化奠定了堅(jiān)實(shí)基礎(chǔ)。
其次,在2007年左右為高速發(fā)展階段。隨著我國(guó)礦產(chǎn)資源、土木工程土地調(diào)查等各行業(yè)的迅猛發(fā)展,加快了紙質(zhì)檔案向數(shù)字化檔案的發(fā)展進(jìn)程,同時(shí)也加大了國(guó)土管理部門的工作量。信息體量的爆炸式增長(zhǎng),讓傳統(tǒng)管理辦法的缺陷越來(lái)越明顯,如果依然沿用人工管理模式,必然無(wú)法滿足工作要求。為此,相關(guān)部門充分發(fā)揮信息技術(shù)的應(yīng)用優(yōu)勢(shì),打造了互聯(lián)網(wǎng)管控平臺(tái),在數(shù)字檔案館、國(guó)土規(guī)劃數(shù)字檔案數(shù)據(jù)庫(kù)等系統(tǒng)的應(yīng)用下,數(shù)據(jù)傳輸更加高效便捷,可顯著提升管理水平。不僅如此,當(dāng)前國(guó)家和政府部門對(duì)國(guó)土資源管理、國(guó)土資源規(guī)劃也越來(lái)越重視,加大了資金、人才等各方面的資源投入,為該工作的順利開展創(chuàng)造了良好條件。
二、國(guó)土規(guī)劃數(shù)字檔案資源的數(shù)據(jù)挖掘與可視化發(fā)展可行性
1.基于技術(shù)角度
在信息體量越來(lái)越大的今天,利用先進(jìn)技術(shù)推動(dòng)其朝著現(xiàn)代化、信息化的方向發(fā)展是必然趨勢(shì),數(shù)據(jù)挖掘和可視化技術(shù),將會(huì)成為其發(fā)展的重要驅(qū)動(dòng)力量。比如,目前應(yīng)用較為普遍的語(yǔ)義技術(shù),就是數(shù)據(jù)挖掘可視化技術(shù)類型的一種,能夠讓數(shù)據(jù)變得更加多樣化、層次更為豐富??稍谌f(wàn)維網(wǎng)、互聯(lián)網(wǎng)的海量信息中,根據(jù)用戶需求來(lái)進(jìn)行深入挖掘。信息可視化能夠挖掘數(shù)據(jù)背后蘊(yùn)含的信息,并對(duì)其進(jìn)行分類和分析,各種類型數(shù)據(jù)都得到妥善處理,包括非數(shù)值型、非空間的等,而且,可以將其轉(zhuǎn)變?yōu)榻换ナ降囊曈X形式,為使用者提供較大便利。隨著我國(guó)科學(xué)技術(shù)的進(jìn)一步發(fā)展,無(wú)論是信息可視化技術(shù)、數(shù)據(jù)挖掘還是語(yǔ)義技術(shù),其理論體系正趨于完善,各項(xiàng)技術(shù)也在實(shí)踐中得到印證和創(chuàng)新,在計(jì)算機(jī)科學(xué)、金融、商業(yè)等領(lǐng)域都取得了一定成效。
2.基于資源角度
國(guó)土規(guī)劃數(shù)字檔案資源體量大、種類多,從另一方面說明了我國(guó)各類資源十分豐富,如果依然沿用傳統(tǒng)的資源管理方式,根本無(wú)法保障工作效率,還容易出現(xiàn)統(tǒng)計(jì)失誤、難以及時(shí)查詢等多方面問題。在新的時(shí)代背景下,國(guó)土規(guī)劃對(duì)地理信息獲取效率、準(zhǔn)確性也提出了更高要求,因此,應(yīng)該聘請(qǐng)專業(yè)技術(shù)人員,有針對(duì)性地對(duì)系統(tǒng)和技術(shù)進(jìn)行研發(fā),根據(jù)檔案資料管理要求,不斷拓寬檔案管理儲(chǔ)存空間以及數(shù)據(jù)的廣度和深度。國(guó)土規(guī)劃數(shù)字檔案是以圖片、文字、照片、視頻、音頻等為載體的歷史記錄,可分為以下幾個(gè)大類,即:專業(yè)檔案、科技檔案、會(huì)計(jì)檔案、電子檔案、聲像檔案、實(shí)物檔案和文書檔案。在數(shù)據(jù)挖掘和可視化技術(shù)應(yīng)用的過程中,在面對(duì)不同類型的檔案時(shí),先進(jìn)技術(shù)的優(yōu)勢(shì)可得到充分發(fā)揮,解決了傳統(tǒng)檔案資料管理中存在的局限性。
3.基于思維角度
從以往國(guó)土規(guī)劃?rùn)n案資源管理工作開展的情況來(lái)看,很多檔案人員都只將資料進(jìn)行整理,難以為使用者提供服務(wù),檔案利用率不高,無(wú)法發(fā)揮檔案資料的真正作用。在大數(shù)據(jù)時(shí)代背景下,國(guó)土規(guī)劃?rùn)n案資源體系要隨著時(shí)代發(fā)展而不進(jìn)行調(diào)整,要本著“用戶至上,體驗(yàn)為王”的原則,化被動(dòng)為主動(dòng),在傳統(tǒng)行為上以雙向互動(dòng)來(lái)代替單向交流,打造信息化數(shù)據(jù)傳輸平臺(tái),加強(qiáng)各部門之間的數(shù)據(jù)共享?!盎ヂ?lián)網(wǎng)+”將會(huì)成為未來(lái)國(guó)土規(guī)劃?rùn)n案資源管理的必然發(fā)展趨勢(shì),有關(guān)人員的思維模式、服務(wù)理念等都要隨之發(fā)生改變,主動(dòng)適應(yīng)經(jīng)濟(jì)發(fā)展新常態(tài)的相關(guān)要求,以用戶為核心來(lái)升級(jí)服務(wù)體系,為國(guó)土規(guī)劃?rùn)n案資源管理工作的順利開展奠定堅(jiān)實(shí)基礎(chǔ)。
三、國(guó)土規(guī)劃數(shù)字檔案資源數(shù)據(jù)挖掘與可視化的挑戰(zhàn)
1.缺失語(yǔ)義數(shù)據(jù),信息讀取難度大
就目前情況來(lái)看,絕大部分國(guó)土規(guī)劃數(shù)字檔案的格式都是以JPEG圖像為基礎(chǔ)轉(zhuǎn)換成的PDF文件,信息的真實(shí)性和完整性得不到保障,檢索起來(lái)難度比較大。想要更快速、更準(zhǔn)確地查找信息,需要利用到光符識(shí)別技術(shù)對(duì)電子文檔、數(shù)字文件進(jìn)行特殊處理,從而獲取文本信息。但實(shí)際情況是,文本結(jié)構(gòu)信息丟失、識(shí)別率不高等問題比較普遍,加大了檔案語(yǔ)義加工和知識(shí)組織難度。當(dāng)前我國(guó)的國(guó)土規(guī)劃數(shù)字檔案系統(tǒng)是基于元數(shù)據(jù)進(jìn)行文獻(xiàn)搜索和加工的,但是深度不夠,并未注重文獻(xiàn)知識(shí)單元之間存在的聯(lián)系,信息讀取難度比較大。
2.領(lǐng)域本體復(fù)雜,人工構(gòu)建困難
語(yǔ)義標(biāo)注、概念、實(shí)例定理、語(yǔ)義梳理等都是不可忽視的重點(diǎn)內(nèi)容。目前,我國(guó)不動(dòng)產(chǎn)登記業(yè)務(wù)規(guī)模不斷擴(kuò)大,國(guó)土規(guī)劃數(shù)字檔案的覆蓋范圍也越來(lái)越廣,房屋征收、土地管理、測(cè)繪管理等都是其主要內(nèi)容。由于國(guó)土規(guī)劃領(lǐng)域的本體較為復(fù)雜,在收集信息或構(gòu)建本體時(shí),會(huì)造成大量資源和資金的消耗。
四、國(guó)土規(guī)劃數(shù)字檔案資源數(shù)據(jù)挖掘與可視化實(shí)現(xiàn)路徑
1.思路與技術(shù)路線
技術(shù)人員應(yīng)重點(diǎn)關(guān)注基礎(chǔ)工作,例如,深入挖掘國(guó)土規(guī)劃中的原始數(shù)據(jù)信息,做好關(guān)聯(lián)工作,充分發(fā)揮空間可視化、信息可視化技術(shù),保證檢索結(jié)果的公開化。相關(guān)人員要準(zhǔn)確把握當(dāng)前國(guó)土規(guī)劃數(shù)字檔案管理現(xiàn)存的問題以及原因,按照其特點(diǎn)進(jìn)行問題分類,建立起基于主題分類的典型問題用地案例的形式化描述模型。深入進(jìn)行數(shù)據(jù)研究與分析,確保性質(zhì)不同、來(lái)源不同的數(shù)據(jù)信息能夠在空間參照系上實(shí)現(xiàn)統(tǒng)一,利用數(shù)字化的方式來(lái)描述用地案例,為信息使用者提供高質(zhì)量服務(wù),加強(qiáng)信息共享和傳輸交流。在系統(tǒng)運(yùn)行的過程中,有可能出現(xiàn)自動(dòng)偵測(cè)技術(shù)使用不當(dāng)?shù)膯栴},要分析該問題出現(xiàn)的原因,加強(qiáng)人員培訓(xùn),讓檔案資料管理人員、技術(shù)人員掌握系統(tǒng)的正確操作方法,并對(duì)自動(dòng)偵測(cè)的異常進(jìn)行合理判斷與修正。在信息技術(shù)、大數(shù)據(jù)技術(shù)的應(yīng)用下,能夠自動(dòng)識(shí)別國(guó)土規(guī)劃數(shù)字檔案中存在的各方面問題,精準(zhǔn)判斷問題類和特征,可對(duì)其進(jìn)行正確分類,便于檔案管理人員及時(shí)解決,為后續(xù)各項(xiàng)工作的順利開展奠定堅(jiān)實(shí)基礎(chǔ)。
從國(guó)土規(guī)劃數(shù)據(jù)挖掘來(lái)看,目前常用的本體檢索、本體構(gòu)建、語(yǔ)義組織等多種方式。國(guó)土規(guī)劃的數(shù)據(jù)挖掘技術(shù)是以上述方式為基礎(chǔ)的,可通過系統(tǒng)中語(yǔ)義抽取模塊等方式來(lái)完善國(guó)土規(guī)劃數(shù)字檔案管理的相關(guān)資源,提升其應(yīng)用價(jià)值。此外,還應(yīng)深入挖掘信息資源中有價(jià)值的數(shù)據(jù),利用可視化基礎(chǔ),充分體現(xiàn)國(guó)土規(guī)劃素質(zhì)的知識(shí)化體系,確保能夠通過檢索平臺(tái)進(jìn)行搜索,為使用者提供完善服務(wù),提升檔案資源獲取效率和速度。
2.平臺(tái)架構(gòu)
在設(shè)計(jì)國(guó)土規(guī)劃數(shù)字檔案資源管理平臺(tái)過程中,要明確平臺(tái)結(jié)構(gòu),以及各模塊的主要功能,確保結(jié)構(gòu)層次的科學(xué)性與合理性。首先是數(shù)據(jù)服務(wù)層。要收集國(guó)土規(guī)劃中各方面的數(shù)據(jù)信息,比如國(guó)土空間數(shù)據(jù)、檔案數(shù)據(jù)、工作流流轉(zhuǎn)數(shù)據(jù)等。檔案數(shù)據(jù)指的是日常工作中形成的資料信息,可細(xì)分為文書類檔案、國(guó)土規(guī)劃專業(yè)類檔案;工作流數(shù)據(jù)涵蓋了流程定義、流程實(shí)例等數(shù)據(jù)信息;空間數(shù)據(jù)比較好理解,主要是各類項(xiàng)目的地理數(shù)據(jù)、工程項(xiàng)目規(guī)劃數(shù)據(jù)、國(guó)土空間利用信息等。其次是數(shù)據(jù)接口層。數(shù)據(jù)接口層主要起到承上啟下的作用,在數(shù)據(jù)服務(wù)層收集到各方面信息之后,由數(shù)據(jù)接口層來(lái)查找、挖掘和主題詞有關(guān)的信息,從而形成完善的信息搜索體系,為下一程序的順利運(yùn)行奠定堅(jiān)實(shí)基礎(chǔ)。再次是系統(tǒng)服務(wù)層,這也是平臺(tái)中最關(guān)鍵的模塊,是應(yīng)用服務(wù)的集成,包括了知識(shí)化管理、檔案數(shù)據(jù)挖掘這兩個(gè)主要系統(tǒng),功能十分多樣,通過關(guān)鍵詞搜索即可得到相應(yīng)的數(shù)據(jù)信息,可對(duì)圖像、文本等各類信息進(jìn)行深入挖掘和補(bǔ)充,并通過可視化技術(shù)將知識(shí)地圖展現(xiàn)出來(lái),在設(shè)計(jì)過程中要尤為重視。國(guó)土規(guī)劃?rùn)n案數(shù)據(jù)挖掘系統(tǒng)和知識(shí)化管理系統(tǒng)并非獨(dú)立的兩個(gè)模塊,而是相輔相成的,只有兩者共同作業(yè),才可構(gòu)建成完整的可視化系統(tǒng)。在該系統(tǒng)中,應(yīng)用了多方面先進(jìn)技術(shù),例如,文檔知識(shí)數(shù)組織,以及將自然語(yǔ)言轉(zhuǎn)化為規(guī)范化語(yǔ)義的自動(dòng)化映射,能夠直觀展現(xiàn)出國(guó)土規(guī)劃數(shù)字檔案管理的具體流程,讓數(shù)據(jù)可視化方式更加多樣。最后就是可視化功能層。可以將可視化功能層理解為展示層,前三道程序運(yùn)行完畢之后,即可將最終得到的檔案文檔、檔案術(shù)語(yǔ)等進(jìn)行可視化展示,為使用者帶來(lái)全新的體驗(yàn)。
3.國(guó)土規(guī)劃數(shù)字檔案資源數(shù)據(jù)挖掘與可視化功能
(1)檔案文件管理。目前,大部分國(guó)土規(guī)劃數(shù)字檔案資源數(shù)據(jù)都是PDF格式,部分系統(tǒng)無(wú)法識(shí)別PDF格式中的相關(guān)內(nèi)容。作為初步的數(shù)據(jù)處理方式,待其工作完成之后,可為后續(xù)文本資源的深入挖掘創(chuàng)造良好條件。檔案文件管理十分重要,具有檔案資料查詢、修改與調(diào)整、信息上傳、共享傳輸?shù)榷喾N功能。使用者可參考查詢粒度,在搜索欄直接輸入關(guān)鍵詞和相關(guān)信息,系統(tǒng)即可自動(dòng)顯示出包含關(guān)鍵詞的所有檔案資料。除了關(guān)鍵詞之外,還可輸入國(guó)土規(guī)劃?rùn)n案編號(hào)、通過OCR技術(shù)處理之后的文本等信息,從而得到檔案的文檔編號(hào)、內(nèi)容、所屬行業(yè)、應(yīng)用范圍、檔案ID等各方面信息。點(diǎn)擊進(jìn)入之后,即可得到所有和檔案相關(guān)的信息,比如關(guān)聯(lián)地址、發(fā)布時(shí)間、實(shí)施時(shí)間、所屬行業(yè)、文檔中文名、其他描述等。
(2)國(guó)土規(guī)劃?rùn)n案術(shù)語(yǔ)管理。術(shù)語(yǔ)管理的主要內(nèi)容為對(duì)術(shù)語(yǔ)進(jìn)行修改、查找、增加和刪除,為使用者提供和術(shù)語(yǔ)有關(guān)的上下位關(guān)系的可視化圖形。例如以“土地初始登記”術(shù)語(yǔ)為例,且可視化展示如圖1所示:
(3)國(guó)土規(guī)劃?rùn)n案流程關(guān)聯(lián)。在了解并掌握了業(yè)務(wù)流程管理之間的邏輯關(guān)系和內(nèi)在聯(lián)系的基礎(chǔ)上,可優(yōu)化管理流程,建立相應(yīng)的流程規(guī)則庫(kù),能夠以更快的速度發(fā)現(xiàn)流程管理中存在的問題,便于第一時(shí)間進(jìn)行處理,最大化發(fā)揮可視化的作用與價(jià)值,可隨時(shí)查找某個(gè)節(jié)點(diǎn)下的國(guó)土規(guī)劃?rùn)n案資料,并通過相應(yīng)的技術(shù)完成資料傳輸。
(4)國(guó)土規(guī)劃?rùn)n案管理工作本身就具有很強(qiáng)的復(fù)雜性、專業(yè)性特點(diǎn),尤其是在先進(jìn)技術(shù)的應(yīng)用下,對(duì)從業(yè)人員專業(yè)素質(zhì)提出了更高要求。技術(shù)人員和檔案工作者要在崗位中不斷提升個(gè)人能力,強(qiáng)化綜合素質(zhì),了解數(shù)據(jù)挖掘和可視化技術(shù)的相關(guān)原理和理論知識(shí),并將其應(yīng)用于實(shí)踐中。有關(guān)部門要定期開展教育培訓(xùn),引進(jìn)先進(jìn)工作理念和技術(shù)方法,保證信息系統(tǒng)功能多樣化的同時(shí),讓從業(yè)人員能夠熟練應(yīng)用,為國(guó)土規(guī)劃?rùn)n案管理的順利開展提供人才保障。
五、結(jié)語(yǔ)
總而言之,國(guó)土規(guī)劃?rùn)n案極具現(xiàn)實(shí)價(jià)值,和城市規(guī)劃、土地開發(fā)、國(guó)土空間利用以及很多行業(yè)發(fā)展都有著密切聯(lián)系。在新時(shí)代背景下,如何深度開發(fā)國(guó)土規(guī)劃?rùn)n案資源,提升資源利用率,充分發(fā)揮數(shù)字檔案的價(jià)值和作用,是需要思考和關(guān)注的重點(diǎn)內(nèi)容。當(dāng)前,網(wǎng)絡(luò)環(huán)境日益開放,數(shù)據(jù)挖掘和可視化技術(shù)的應(yīng)用,將會(huì)成為國(guó)土規(guī)劃數(shù)字檔案資源管理創(chuàng)新與改革的主要方向。尤其是在數(shù)據(jù)體量日益增加、類型越來(lái)越多樣化的情況下,應(yīng)牢牢把握先進(jìn)技術(shù)的應(yīng)用優(yōu)勢(shì)。有關(guān)部門應(yīng)加大資金、人才投入力度,重點(diǎn)關(guān)注技術(shù)和平臺(tái)開發(fā),打造出具有生態(tài)化系統(tǒng)的開放性檔案管理模式,保證信息化管理系統(tǒng)功能的多樣化,推動(dòng)我國(guó)國(guó)土規(guī)劃數(shù)字檔案管理工作的順利開展。
參考文獻(xiàn):
[1]莊淑娜,吳亞玲.國(guó)土規(guī)劃數(shù)字檔案資源的數(shù)據(jù)挖掘與可視化[J].華東紙業(yè),2021
[2]姚詠紅.基于CNKI的“數(shù)字檔案建設(shè)”可視化分析[J].黑龍江檔案,2021
[3]曲春梅,何紫璇.數(shù)字人文環(huán)境下檔案文化價(jià)值釋放特點(diǎn)與實(shí)現(xiàn)方式[J].北京檔案,2021
[4]陳海玉,向 前,萬(wàn)小玥.數(shù)字人文視域下抗戰(zhàn)檔案資源的開發(fā)策略與路徑研究[J].山西檔案,2021
[5]魏 歌,吳志杰.數(shù)字人文視域下的數(shù)字檔案館建設(shè):合理性詮釋與策略探討[J].北京檔案,2021
[6]曾 婷,楊 帆,王 恒.國(guó)土規(guī)劃數(shù)字檔案資源的數(shù)據(jù)挖掘與可視化[J].蘭臺(tái)世界,2019
[7]張 偉,曾 婷.基于用戶需求的國(guó)土規(guī)劃?rùn)n案信息服務(wù)與優(yōu)化[J].蘭臺(tái)世界,2016
(作者單位:臨沂市自然資源和規(guī)劃局)