羅紹輝 黃平友
摘要:該文通過分析、梳理城建檔案信息化現(xiàn)狀,綜合城市人文、歷史、空間地理信息等數(shù)據(jù),以“人-房-地”一體化框架為基礎(chǔ),提出了城建檔案知識圖譜服務(wù)平臺的總體架構(gòu)和功能設(shè)計,通過數(shù)據(jù)挖掘分析,將城建檔案中海量數(shù)據(jù)結(jié)構(gòu)化,構(gòu)建集城市設(shè)計、建設(shè)、規(guī)劃、管理與社會治理、人文服務(wù)于一體的綜合性城建檔案知識圖譜服務(wù)平臺。該平臺通過多維數(shù)據(jù)自動關(guān)聯(lián)、圖譜網(wǎng)格多元聯(lián)系以及空間信息協(xié)同分析,可以實現(xiàn)信息處理、檢索與展示、智能查詢與分析統(tǒng)計等知識圖譜服務(wù)。
關(guān)鍵詞:時空數(shù)據(jù) 知識圖譜 城建檔案 平臺
城建檔案是在城市規(guī)劃、建設(shè)及管理活動中形成的具有保存價值的文字、圖紙、圖像、聲像等,是城市建設(shè)發(fā)展的真實歷史記錄。[1]各檔案館要利用當(dāng)前技術(shù)深入挖掘城建檔案價值,首先應(yīng)建立海量城建檔案信息數(shù)據(jù)庫,編制相應(yīng)標(biāo)準(zhǔn),如重慶市城建檔案館于2017年頒布了《建設(shè)工程檔案信息數(shù)據(jù)采集標(biāo)準(zhǔn)》[2];其次應(yīng)制定電子檔案接收制度,如上海市浦東新區(qū)檔案局2018年開展了“基于BIM技術(shù)的三維城建檔案接收保管和應(yīng)用模式研究”[3];最后應(yīng)引入大數(shù)據(jù)、地理信息、數(shù)據(jù)挖掘等技術(shù),如青島市檔案局于2017年開展了“大數(shù)據(jù)背景下檔案信息資源挖掘策略與方法研究”[4]。
時空地理信息系統(tǒng)使人們能夠更好地實現(xiàn)地理實體時間和空間信息的動態(tài)表達與建模,是地理空間分析、地理知識表達和挖掘的基礎(chǔ)。[5]國內(nèi)開展的基于地理信息技術(shù)(GIS)的城建檔案管理系統(tǒng)研究[6],未將時空數(shù)據(jù)充分與檔案的歷史、現(xiàn)在、未來相結(jié)合形成四位一體的管理模式。知識圖譜(Knowledge Graph)則可以彌補以上不足,它是一種基于圖數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu),使用三元組形式組織數(shù)據(jù),將實體表示為頂點的集合,實體之間的關(guān)系表示為邊的集合,以結(jié)構(gòu)化的形式對知識進行展示。
目前某市城建檔案館在這方面的做法值得借鑒。某市城建檔案館館藏檔案超過140萬卷,均已完成數(shù)字化掃描和電子目錄著錄,并且其已將檔案中的重要信息提取、掛接到城市地理信息數(shù)據(jù),形成關(guān)聯(lián)關(guān)系,構(gòu)建了全市范圍的城建檔案時空大數(shù)據(jù)庫,形成了某市城建檔案知識圖譜服務(wù)平臺。該平臺整合某市城建大數(shù)據(jù)平臺現(xiàn)有城建檔案數(shù)據(jù),融合人員、單位、公共設(shè)施、歷史文化、政策法規(guī)等多種數(shù)據(jù)源,將異構(gòu)、稀疏、多樣和海量的數(shù)據(jù)轉(zhuǎn)化成知識圖譜,利用圖數(shù)據(jù)庫、數(shù)據(jù)挖掘、信息分析等關(guān)鍵技術(shù),形成以圖的形式表現(xiàn)客觀世界中的實體(概念、人、事物)及其之間關(guān)系的知識庫。本文通過梳理城建檔案知識圖譜的實體、屬性和關(guān)系信息,提出建立城建檔案數(shù)據(jù)和各級用戶的交互知識圖譜服務(wù)平臺,以期為城建檔案“知識化”提供新思路。
(一)平臺總體架構(gòu)
以城建檔案可視化服務(wù)為目標(biāo),城建檔案知識圖譜服務(wù)平臺采用分層思想和模塊化結(jié)構(gòu),高內(nèi)聚低耦合,總體設(shè)計上分用戶層、業(yè)務(wù)層、數(shù)據(jù)層和硬件層四層。該平臺充分結(jié)合城建檔案管理特點,以工程建設(shè)全過程檔案歸集為主線,使數(shù)據(jù)自底向上流動,總體架構(gòu)圖如圖1所示。用戶層按不同角色區(qū)分系統(tǒng)設(shè)計的各種用戶;業(yè)務(wù)層是系統(tǒng)建設(shè)的核心,含城建檔案關(guān)聯(lián)分析、城建檔案異常檢測、智能問答以及可視化分析與展現(xiàn)等業(yè)務(wù)模塊以及基礎(chǔ)數(shù)據(jù)管理和系統(tǒng)管理等系統(tǒng)模塊;數(shù)據(jù)層包括源數(shù)據(jù)管理、數(shù)據(jù)清洗、知識圖譜框架管理、知識圖譜構(gòu)建等模塊;硬件層是系統(tǒng)提供各項服務(wù)并實現(xiàn)正常運行的基礎(chǔ),通過相關(guān)的硬件設(shè)施來提供基礎(chǔ)服務(wù)。
(二)平臺體系架構(gòu)
該平臺在功能設(shè)計上采用可擴展的多層體系,共分為五層:表示層、業(yè)務(wù)邏輯層、通用構(gòu)件層、資源訪問層和資源層。表示層提供數(shù)據(jù)展現(xiàn)服務(wù),將業(yè)務(wù)層提取的業(yè)務(wù)數(shù)據(jù)展現(xiàn)給系統(tǒng)用戶;業(yè)務(wù)邏輯層由各業(yè)務(wù)邏輯模塊組成,實現(xiàn)系統(tǒng)的業(yè)務(wù)功能;通用構(gòu)件層將系統(tǒng)公用的功能抽取出來,以構(gòu)件的方式實現(xiàn)模塊的重用,提高系統(tǒng)重用性;資源訪問層提供對系統(tǒng)數(shù)據(jù)資源的訪問接口,通過調(diào)用接口訪問相應(yīng)數(shù)據(jù)資源;資源層由系統(tǒng)涉及的各種數(shù)據(jù)資源構(gòu)成,包括基礎(chǔ)數(shù)據(jù)、字典數(shù)據(jù)、知識圖譜等。
(三)“人-房-地”知識圖譜模型設(shè)計
知識圖譜模型設(shè)計是構(gòu)建知識圖譜的關(guān)鍵,采用實體-聯(lián)系模型(E-R圖模型)構(gòu)建“人-房-地”的知識圖譜基本框架,展示實體集合和聯(lián)系集合。每個En? tity代表一個實體類型,字段則為實體屬性,如果字段為外鍵字段,則代表與其他實體的一種關(guān)系。
圍繞著“人-房-地”知識圖譜基本架構(gòu),我們將其梳理成三個數(shù)據(jù)域的數(shù)據(jù)源:城建檔案數(shù)據(jù)源、城市地理信息數(shù)據(jù)源(包括“點-線-面”地理信息數(shù)據(jù))和住建基礎(chǔ)數(shù)據(jù)源,并基于Power Designer設(shè)計了數(shù)據(jù)源的表結(jié)構(gòu)。之后,我們以城建檔案數(shù)據(jù)源為核心來構(gòu)建城建檔案知識圖譜,形成城建檔案數(shù)據(jù)源物理模型。
城建檔案知識圖譜平臺基于館存城建檔案中房建、用地數(shù)據(jù)標(biāo)準(zhǔn)化處理,使住房用地空間位置與公共服務(wù)、市政、交通設(shè)施匹配,形成以地塊為基本空間單元的“人-房-地”體征數(shù)據(jù)庫。這樣“人-房-地”對應(yīng)后,就可以形成在同一空間單元具有唯一性的人口、建筑和用地相互關(guān)聯(lián)關(guān)系。
該平臺通過將城建檔案中海量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進行結(jié)構(gòu)化,構(gòu)建城建檔案知識圖譜,并且通過基于知識圖譜的信息檢索和推理,提供面向城建檔案業(yè)務(wù)人員的城建檔案流程智能關(guān)聯(lián)、地塊歷史數(shù)據(jù)關(guān)聯(lián)等知識服務(wù)。
該平臺利用知識圖譜技術(shù),將分散在住建、城建檔案、城市地理信息等各領(lǐng)域的數(shù)據(jù)進行匯聚融合,并構(gòu)建以“人-房-地”為核心的城建檔案知識圖譜系統(tǒng),提供智能應(yīng)用服務(wù)。
(一)知識圖譜Schema可視化
該平臺可以實現(xiàn)按需求可視化調(diào)整知識圖譜結(jié)構(gòu),我們可在平臺上通過拖拽的方式自助創(chuàng)建圖數(shù)據(jù)庫集群、創(chuàng)建圖的Schema、導(dǎo)入圖數(shù)據(jù),設(shè)計知識圖譜的實體、屬性和關(guān)系信息,如圖2所示。對于實體,我們可設(shè)計其實體名稱及實體屬性信息,包括屬性名稱、屬性類型(數(shù)值型、字符型、布爾型、時間日期型等)、最大最小值、是否必需、是否為顯示字段等,通過在實體之間連線操作,實現(xiàn)實體間關(guān)系的設(shè)計可視化。
(二)逐級探索及雙實體關(guān)聯(lián)分析
該平臺對知識圖譜中的“項目-地塊-單位”等信息進行關(guān)聯(lián)分析,并可視化展示其分析結(jié)果,實現(xiàn)城建檔案信息逐級探索功能。我們通過輸入檢索條件確定起始節(jié)點,即可獲得該節(jié)點屬性信息。
實體類型包括單位、項目、地塊、小區(qū)、樓棟5類共10種組合,我們通過選擇實體類型并在系統(tǒng)中輸入實體名稱可查詢該實體所有屬性的信息,并了解實體(檔案名稱、屬性等)之間的關(guān)系。
(三)基于地塊的知識圖譜可視化展示
通過將可視化展示功能與南寧市城建大數(shù)據(jù)平臺融合,可以在電子地圖上展示地塊的關(guān)聯(lián)圖譜信息。如圖3所示,查詢結(jié)果關(guān)系圖可列表顯示圖形中所有實體,并且我們選擇某個實體后,可以獲得該實體的所有屬性信息。
(四)異常檢測分析
平臺通過圖譜推理,設(shè)置異常檢測規(guī)則閾值,判斷異常數(shù)據(jù)。該功能可用于項目合規(guī)性檢測、樓棟的安全性檢測(如檢測電梯過保或者幕墻過保的樓棟信息)、危房預(yù)警分析(根據(jù)預(yù)設(shè)的危房判定規(guī)則對所有建筑物進行危房判定,預(yù)警提示符合條件的建筑物)、相似事故預(yù)警分析(通過分析歷史安全事故信息,抽取其特征值,并將特征值在知識圖譜中進行近似匹配,對近似度較高的建筑物或項目進行預(yù)警提示)。
在“存量數(shù)字化,增量電子化”的信息化進程中,檔案“知識化”越來越引起人們重視。[7]基于圖數(shù)據(jù)庫的知識圖譜在處理海量數(shù)據(jù)多對多的復(fù)雜實體聯(lián)系場景中有著高性能、靈活、敏捷的天然優(yōu)勢。城建檔案知識圖譜服務(wù)平臺有別于一般的城建檔案系統(tǒng),具有深度知識推理能力和逐步擴展的認(rèn)知能力,基于知識圖譜服務(wù)平臺提供的信息檢索和推理能力提供城建檔案檢索、智能關(guān)聯(lián)、異常檢測分析等知識服務(wù),可以有效提高服務(wù)效率,擴展城建檔案在各行業(yè)的應(yīng)用,進而可以拓展服務(wù)領(lǐng)域。伴隨“互聯(lián)網(wǎng)+”與城建檔案的深度融合,后續(xù)我們可以基于知識圖譜去探索圖學(xué)習(xí)、圖計算的能力,為平臺用戶提供更多挖掘城建檔案圖數(shù)據(jù)價值的功能,推動城建檔案管理朝著智能化的方向前進。
*本文系2020年國家檔案局科技項目“基于時空數(shù)據(jù)的智慧城市檔案知識圖譜構(gòu)建及應(yīng)用服務(wù)體系研究”(項目編號:2020-X-053)階段性研究成果。
注釋及參考文獻:
[1]王靜巖.淺談關(guān)于海量城建檔案數(shù)據(jù)的深度挖掘和分析[J].土木建筑工程信息技術(shù),2018,10(3):108-111.
[2]徐惦耕,張穎.大數(shù)據(jù)時代城建檔案在城市建設(shè)管理活動中的作用[J].重慶建筑,2019,18(9):41-43.
[3]楊繼東.基于BIM技術(shù)的三維城建檔案接收保管和利用模式研究[J].數(shù)字與縮微影像,2017(3):11-15.
[4]楊來青.大數(shù)據(jù)背景下檔案信息資源挖掘策略與方法研究[J].中國檔案,2018(8):60-61.
[5]鄔群勇,孫梅,崔磊.時空數(shù)據(jù)模型研究綜述[J].地球科學(xué)進展,2016,31(10):1001-1011.
[6]黃歡宏,陳啟文.基于GIS的城建檔案管理系統(tǒng)研究與開發(fā)——以城建檔案空間導(dǎo)視管理系統(tǒng)建設(shè)項目為例[J].城建檔案,2018(11):36-38.
[7]孫沁.“互聯(lián)網(wǎng)+”時代檔案利用服務(wù)工作變革的幾點思考[J].北京檔案,2020(2):32-34.
作者單位:1.南寧市勘測設(shè)計院集團有限公司2.南寧市城市建設(shè)檔案館