高大偉 韓瑞雪
摘? 要:領域知識圖譜構(gòu)建是實現(xiàn)城建檔案資源深度關聯(lián),提升資源建設與服務效能的重要方法。城建檔案領域知識圖譜構(gòu)建應完善實施條件,明確實施原則。在構(gòu)建流程上,城建檔案領域知識圖譜構(gòu)建流程包括數(shù)據(jù)獲取、本體構(gòu)建、知識抽取、知識融合、知識更新與存儲應用。
關鍵詞:知識圖譜;本體;城建檔案;檔案資源建設;檔案服務
Abstract: The construction of domain knowledge graph is an important method to realize the deep correlation of urban construction Archives resources and improve the efficiency of resource construction and service. The construction of knowledge map in the field of urban construction Archives should improve the implementation conditions and clarify the implementation principles. In the construction process, the construction of knowledge map in the field of urban construction Archives includes data acquisition, ontology construction, knowledge extraction, knowledge fusion, knowledge update, storage and utilization.
Keywords: Knowledge graph; Ontology; Urban construction archives; Archives resource construction; Archives service.
1 引言
當前,知識圖譜前沿技術和領域?qū)嵺`快速發(fā)展,網(wǎng)絡本體描述語言(Ontology Web Language,OWL)、資源描述框架(Resource Description Framework,RDF)、圖數(shù)據(jù)庫(Graph Database)等應用基礎不斷豐富,《信息與文獻 文化遺產(chǎn)信息交換的參考本體》(GB/T 37965)和《知識管理 第7部分:知識分類通用要求》(GB/T 23703.7)等相關標準陸續(xù)發(fā)布,在名人檔案、科研檔案和文化遺產(chǎn)檔案等領域的知識圖譜研究逐漸增多。本文圍繞知識圖譜在城建檔案領域的通用應用路徑,探討了城建檔案領域知識圖譜構(gòu)建準備與實施方法,以期為相關研究提供借鑒。
2 城建檔案領域知識圖譜構(gòu)建準備
2.1 完善實施條件。第一,組織保障。完善城建檔案管理協(xié)作機制,促進城建檔案領域知識圖譜構(gòu)建的對象、價值、技術和業(yè)務認同,建立具備“矩陣式協(xié)作聯(lián)盟結(jié)構(gòu)”[1]的組織體系,凝聚共識,健全組織保障。第二,標準規(guī)范。以現(xiàn)有城建檔案采集、描述和存儲規(guī)則為基礎,加強相關數(shù)據(jù)規(guī)則的銜接、定制和城鄉(xiāng)建設標準化術語、編碼引用,形成有包容性的相對統(tǒng)一的標準規(guī)范體系。第三,其他條件。準備必要的資金,做好知識產(chǎn)權(quán)管理和檔案開放鑒定,建立具有相關知識處理經(jīng)驗、技術能力的業(yè)務和專家團隊,并配備相關軟硬件設施設備,加強安全防控等。
2.2 明確實施原則。第一,項目建設原則。一是問題導向、應用牽引。在規(guī)劃階段應聚焦城建檔案資源特色優(yōu)勢和發(fā)展瓶頸,挖掘應用場景,明確技術需求,同時從檔案機構(gòu)技術能力和現(xiàn)有數(shù)字檔案館平臺條件出發(fā),適配應用需求。二是資源整合、集成管控。在實施過程中,既應做好多源異構(gòu)檔案資源的規(guī)范化整合,消弭機構(gòu)內(nèi)外部“信息孤島”,還應注意城建檔案管理與趨勢性知識管理的差異及協(xié)同策略,明確以“卷/件”和以“知識”為單元的組織利用在效率提升、合規(guī)審計、互操作權(quán)限上的優(yōu)勢與風險,建立科學的集成管理模式。三是循序漸進、人機協(xié)同。在實施過程中,既要秉承循序漸進原則,加強成熟度評價,根據(jù)先易后難、由點及面、由粗到細的思路分步建設,又要在機器自動處理、知識計算和人工概念分類、標準設置、樣本標注、反饋控制等方面,加強數(shù)據(jù)驅(qū)動和人為干預的協(xié)同。
第二,本體構(gòu)建原則。形成領域本體是城建檔案領域知識圖譜構(gòu)建的中心工作,根據(jù)學界對本體構(gòu)建原則的一般認識,[2]城建檔案領域知識本體構(gòu)建應遵循以下原則:一是明確性原則,即在構(gòu)建知識本體時,應盡可能使用領域?qū)I(yè)術語,對所獲取檔案數(shù)據(jù)中的概念及概念關系給出明確定義和描述。二是完整性原則,即提升本體構(gòu)建過程中城建檔案資源對象來源、數(shù)量和種類的豐度,提升知識關聯(lián)關系的多樣性。三是一致性原則,指在領域知識本體構(gòu)建過程中要保證其定義與本體推理結(jié)果的一致。四是可擴展性原則,即向領域知識本體中添加通用或?qū)S玫男g語時,可適當豐富和擴展,而不需要修改其已有的內(nèi)容。五是最小編碼偏好原則,即本體的概念體系應建立在知識層面,而不過于依賴符號層面的處理。六是最小本體承諾原則,即本體構(gòu)建過程中盡可能減少約束聲明,允許各方相對自由地根據(jù)需要專門化和實例化本體,方便未來跨領域、跨專業(yè)共享。七是可管理性,即對構(gòu)建的本體應建立知識產(chǎn)權(quán)、使用權(quán)限等必要的管理機制。
3 城建檔案領域知識圖譜構(gòu)建實施
根據(jù)知識圖譜構(gòu)建通用方法,城建檔案領域知識圖譜構(gòu)建流程包括數(shù)據(jù)獲取、本體構(gòu)建、知識抽取、知識融合、知識更新與存儲應用。
3.1 城建檔案領域數(shù)據(jù)獲取。城建檔案領域知識圖譜構(gòu)建包括數(shù)字檔案館系統(tǒng)數(shù)據(jù),工程審批、國土空間規(guī)劃、地理信息、建筑市場監(jiān)管等外部平臺數(shù)據(jù),知識樣本較多的維基百科、百度百科等外部知識庫、網(wǎng)絡動態(tài)數(shù)據(jù),以及城鄉(xiāng)政策法規(guī)、實景信息、口述史料、研究資料等數(shù)據(jù)源。982FCBB3-2C17-4A65-A177-1A1E918B77F0
在具體管理中,一是做好數(shù)據(jù)源調(diào)查研究,摸清資源特色內(nèi)容、利用情況、開放程度和使用權(quán)限,掌握資源結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等數(shù)據(jù)特點及存儲媒介、數(shù)據(jù)格式等;二是應以PDCA循環(huán)思路,邊獲取邊檢查邊調(diào)整,把握數(shù)據(jù)源的數(shù)據(jù)特征和時空分布,不斷調(diào)整來源范圍,提升數(shù)據(jù)獲取質(zhì)量。
在數(shù)據(jù)獲取過程中,應根據(jù)不同數(shù)據(jù)源,選擇針對性數(shù)據(jù)采集方法。一是通過API接口、中間數(shù)據(jù)庫等方式獲取數(shù)字檔案館系統(tǒng)數(shù)據(jù)及外部相關平臺數(shù)據(jù);二是通過python爬蟲等技術工具采集外部知識庫、網(wǎng)絡動態(tài)數(shù)據(jù);三是通過三維掃描、多媒體采集、模型輕量化等方式獲取城市實景信息、口述史料、聲像檔案及BIM、CIM模型數(shù)據(jù)。此外,數(shù)據(jù)采集時還應注重數(shù)據(jù)預設的知識結(jié)構(gòu)、處理規(guī)則等獲取,在真實性、一致性、可靠性、可用性和知識產(chǎn)權(quán)等方面做好交叉驗證和合規(guī)審查,并豐富接下來本體構(gòu)建的思路。
3.2 城建檔案領域本體構(gòu)建。領域本體是指以基本詞匯表對領域現(xiàn)象的形式化表達,是知識圖譜模式層構(gòu)建的主要對象。
城建檔案種類繁多,所涉領域方向和專業(yè)類別較為復雜,城建檔案管理機構(gòu)也有服務工程建設維護、城鄉(xiāng)數(shù)智治理、文化保護傳承等多元任務。因此,在本體構(gòu)建思路上,應按照循序漸進、人機協(xié)同的原則,運用“骨架法”“七步法”等方法,對本體來源和范圍進行分析處理,揭示、定義城建檔案領域?qū)嶓w、實體屬性及相互關系,優(yōu)化知識結(jié)構(gòu),建立側(cè)重檔案憑證價值描述的檔案本體,及偏向檔案情報價值描述的學科本體,并在知識融合階段形成完整的城建檔案領域本體。
在檔案本體設計上,應以城建檔案有關術語和資源描述規(guī)范為基礎,梳理知識要素,建立術語概念和編碼集合,形成城建檔案本體模型。以城建檔案的核心組成建設工程檔案為例,以《城市建設檔案著錄規(guī)范》(GB/T 50323)、《建設工程檔案信息數(shù)據(jù)采集標準》(T/CECS 707)、《建設電子檔案元數(shù)據(jù)標準》(CJJ/T 187)、《建設電子文件與電子檔案管理規(guī)范》(CJJ/T 117)、《建設工程文件歸檔整理規(guī)范》(GB/T 50328)為依據(jù),形成包含文件實體、業(yè)務實體、責任者實體和關系實體的4類檔案實體,擁有聯(lián)合、包含、控制、建立、擁有和前后等實體關系及相關元數(shù)據(jù)項的建設工程檔案本體模型。
在學科本體設計上,應根據(jù)《中國檔案主題詞表》《城建檔案主題詞表》及《建筑和設施管理部門元數(shù)據(jù)的應用》(ISO 82045 -5)和《基礎地理信息本體模型》(GB/T 40765)等城建領域術語編碼和知識規(guī)范,結(jié)合外部知識庫,建立城建學科本體。
在具體建設中,可根據(jù)任務目標,調(diào)整細化學科本體內(nèi)容。以鄭州國棉三廠歷史文化街區(qū)改造項目為例,可根據(jù)項目內(nèi)容和工程特點,借鑒《信息與文獻 文化遺產(chǎn)信息交換的參考本體》(GB/T 37965)和《智慧城市領域知識模型 核心概念模型》(GB/T 36332),通過網(wǎng)絡數(shù)據(jù)檢索和關鍵詞分析,結(jié)合自頂向下和自底向上兩種方式,建立城建項目、地理位置、相關機構(gòu)、相關人員或團體、重大事件等領域?qū)嶓w概念,明確實體屬性和關系,最后使用Protégé編輯器形成該領域?qū)W科本體模型,如圖1和圖2所示。
3.3 城建檔案領域知識抽取。知識抽取指根據(jù)領域本體,抽取數(shù)據(jù)源的實體、關系和屬性,并將其存儲于城建檔案領域知識庫。
實體抽取強調(diào)綜合人工提取和命名實體識別技術,識別數(shù)據(jù)源特定實體。如抽取歷史文化街區(qū)改造項目中的項目、地理、機構(gòu)和人物名稱等。
關系抽取是識別兩個或多個實體之間的語義關系,如“機構(gòu)-參與-項目改造”,針對自然語言的歧義性和模糊性,關系抽取通常先由人工預先設置一定的實體關系類型作為訓練集,再使用監(jiān)督、半監(jiān)督等機器學習方法提升召回率。
屬性抽取指采集特定實體的屬性信息,如人物的性別、職業(yè)等,可采用基于規(guī)則或啟發(fā)式算法等屬性抽取方法實現(xiàn)。[3]
針對城建檔案中大量存在的照片、聲像等非結(jié)構(gòu)化數(shù)據(jù),可應用文字識別、圖像特征提取、音視頻詞匯提取等識別技術,進行格式轉(zhuǎn)換、機器識讀、人工校正及人機協(xié)同標引,將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),再實施知識抽取。此外,還應關注隱性知識抽取,如以結(jié)構(gòu)化知識模板記錄對歷史文化街區(qū)居民的訪談,并提煉RDF三元組元素。
3.4 城建檔案領域知識融合。根據(jù)城建檔案領域本體構(gòu)建思路,本體匹配是兩類方法的結(jié)合,即將從不同數(shù)據(jù)源、興趣點而來的各類檔案本體、學科本體充分集成,并建立映射關系,形成一個更趨完整的城建檔案領域本體模型。實例匹配包括實例鏈接和消歧等任務,如規(guī)范“工程策劃、籌備文件”對多個實例的鏈接,消歧同一個地理坐標對兩個不同工程項目的標識,將相同解釋的“工程文件”“項目文件”進行對齊。實例匹配主要通過基于相似度計算、基于規(guī)則或?qū)W習的匹配方法及人工抽檢實現(xiàn)。
3.5 城建檔案領域知識更新與存儲應用。模式層更新指城建檔案本體更新,通過刪減、增加或重新定義有關概念及概念關系實現(xiàn)。如根據(jù)工程審批制度改革對檔案驗收程序的調(diào)整,重新定義檔案驗收,增加聯(lián)合驗收、容缺驗收定義。數(shù)據(jù)層更新指調(diào)整城建檔案領域本體所存儲的實體、關系和屬性值。如根據(jù)機構(gòu)改革結(jié)果,更新某個城建檔案管理機構(gòu)的隸屬關系;為響應歷史文化街區(qū)改造項目的工業(yè)文化遺產(chǎn)內(nèi)涵,新增某個城建檔案管理機構(gòu)的服務屬性區(qū)間。在知識更新中,應使用準確率、精確率、召回率等指標對已構(gòu)建的知識圖譜進行評價,調(diào)整更新策略。
最后階段是進行存儲和應用,城建檔案領域知識圖譜的可選存儲手段包括面向RDF的三元組數(shù)據(jù)庫,及Neo4j、JanusGraph等圖數(shù)據(jù)庫。在應用上,根據(jù)不同任務目標的構(gòu)建成果,知識圖譜可被用于城建檔案利用服務中的智能搜索、個性化推薦和知識問答,也可借助頁面級、數(shù)據(jù)級的關聯(lián)發(fā)現(xiàn),實現(xiàn)城建檔案質(zhì)量要素的智能合規(guī)檢查,支撐可視化業(yè)務指導和驗收移交。
*本文系國家社科基金青年項目“國家建設工程檔案資源保障體系研究”(編號:17CTQ049)的階段性成果之一。982FCBB3-2C17-4A65-A177-1A1E918B77F0
參考文獻:
[1]趙生輝,胡瑩,黃依涵.打造“時光機器”:城市逆向記憶工程理論與實踐初探[J].檔案學研究,2021(06):120.
[2]GRUBER T.Towards principles for the design of ontologies used for knowledge sharing[J].International Journal of Human-Computer Studies,1995(05):907-928.
[3]劉嶠,李楊,段宏,等.知識圖譜構(gòu)建技術綜述[J].計算機研究與發(fā)展,2016 (03):588-591.
(作者單位:鄭州航空工業(yè)管理學院 來稿日期:2022-02-20)
[15][16][18](后晉)劉昫.舊唐書[M].北京:中華書局,1975:1867,1868,1838.
[17](宋)歐陽修.新唐書[M].北京:商務印書館,1928:939.
[19](元)脫脫.宋史[M].北京:中華書局,1977:3842-3845.
[20](宋)李心傳.建炎以來系年要錄.[M].清文淵閣四庫全書本.
[21](明)宋濂.元史[M].北京:中華書局,1976:2190.
[23][25][26][27](清)張廷玉.明史[M].北京:中華書局,1974:1829,1787,1789,1791.
[24](明)鄭曉.今言[M].刻本.嘉興:項篤壽,1566(明嘉靖四十五年).
[28](清)佚名.欽定大清會典則例[M].刻本.清文淵閣四庫全書本.
[29](清)王闿運.湘軍志[M].長沙:岳麓書社,1983.163.
[30](清)朱彝尊.曝書亭集[M].上海:世界書局,1931:874.
(作者單位:河南省疾病預防控制中心 來稿日期:2021-12-21)
[12]塞繆爾·P·亨廷頓.難以抉擇——發(fā)展中國家的政治參與[M].1989.
[13]格里·斯托克,華夏風.作為理論的治理:五個論點[J].國際社會科學雜志(中文版),1999(01):19-30.
[15]韋忻伶,安小米.開放政府背景下的檔案開放準備度評估體系研究[J].圖書情報知識,2019(03):72-80.
[17]趙靜.在“度”與“量”中尋求平衡——城建檔案開放窘狀分析與建議[J].蘭臺世界,2019(10):77-79.
[18]郝偉斌.機構(gòu)改革背景下城建檔案管理的轉(zhuǎn)型[J].檔案學通訊,2019(05):105-107.
[19]ARNSTEIN S R.A ladder of citizen participation[J].Journal of the American Institute of planners,1969,35 (04):216-224.
[20]CADDY J,GRAMBERGER M,VERGEZ C.Citizens as partners:Information,consultation and public participation in policy-making[M].Organisation for Economic Co-operation and Development PUMA Working Group on Strengthening.
Government-Citizen Connections,2001.
[21]王會粉,劉永,張碩.新基建:建設項目檔案治理研究的新視域[J].檔案管理,2021(04):62-64+66.
[22]郝偉斌,周昊,李璐璐.“互聯(lián)網(wǎng)+”環(huán)境下建設項目檔案新型監(jiān)管機制研究[J].檔案管理,2020(06):48-51.
[23]胡榮.社會資本與城市居民的政治參與[J].社會學研究,2008(05):142-159+245.
[24]曾凡斌.論網(wǎng)絡政治參與的九種方式[J].中州學刊,2013(03):19-22.
[25]肖唐鏢,易申波.當代我國大陸公民政治參與的變遷與類型學特點——基于2002與2011年兩波全國抽樣調(diào)查的分析[J].政治學研究,2016(05):97-111+127-128.
[26]深圳市住房和建設局.深圳市住房和建設局關于公開征求《關于加強我市城建檔案管理工作的通知(征求意見稿)》意見的公告[EB/OL].[2021-6-18]http://zjj.sz.gov.cn/hdjlpt/yjzj/result/12673.
[27]上海市規(guī)劃和自然資源局.上海市城市建設檔案館通過微信公眾號提供檔案利用咨詢服務[EB/OL].[2020-8-5]https://ghzyj.sh.gov.cn/gzdt/20200805/56e7d4779353464682524f160002c9bd.html.
[28]托馬斯·R·戴伊.理解公共政策[M].北京:中國人民大學出版社,2010.
(作者單位:魏楠,鄭州航空工業(yè)管理學院信息管理學院;張笑涵,愛丁堡大學社會與政治科學學院 來稿日期:2022-02-20 )
Sociology,1990,13(01):6-7.
[12]習近平.用好紅色資源,傳承好紅色基因把紅色江山世世代代傳下去[J].當代廣西,2021(10):4-8.
[13][24]劉廷智.河池東蘭:打造黨史學習教育“紅色熔爐”[J].當代廣西,2021(07):41.
[14]徐擁軍,熊文景.用“檔案之制”筑牢“檔案之治”[J].中國檔案,2020(01):72-73.
[15]李穎,魏歌.阿聯(lián)酋國家檔案館檔案資源建設分析及思考[J].檔案學通訊,2020(01):94-100.
[16]王向女,姚婧.長三角地區(qū)紅色檔案資源整合探析[J].浙江檔案,2020(02):30-32.
[17]韋禮富.且看東蘭老區(qū)如何光榮脫貧摘帽[EB/OL].[2021-06-01].http://www.donglan.gov.cn/gddt/t7323076.shtml.
[18]本刊訊.中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[J].中國檔案,2021(06):18-23.
[20][23]周林興,崔云萍.區(qū)域性紅色檔案資源的協(xié)同開發(fā)利用探析——以長三角區(qū)域為分析對象[J].檔案學通訊,2021(05):4-13.
[21]梁文華.左右江革命根據(jù)地紅色歌謠[M].南寧:廣西美術出版社.2009:74.
[22]馮向陽.紅色檔案助力黨史宣傳的內(nèi)在機理與實現(xiàn)路徑研究[J].檔案管理,2021(05):12-13.
[25]王向女,姚婧.“互聯(lián)網(wǎng)+”時代長三角地區(qū)紅色檔案資源開發(fā)與利用的新方向[J].檔案與建設,2020(08):4-8.
[26]王阮,鄧君,鐘楚依等.我國口述歷史建設可持續(xù)發(fā)展保障機制研究[J].圖書情報工作,2020(17):49-57.
[27][19]劉蕓.解讀《國家重點檔案保護與開發(fā)項目管理辦法》[J].中國檔案,2016(09):21-22.
(作者單位:廣西民族大學來稿日期:2021-10-982FCBB3-2C17-4A65-A177-1A1E918B77F0