文/劉靖昌、李楊,廣州地鐵集團有限公司
隨著城市軌道交通行業(yè)快速發(fā)展,檔案館藏量急速增加,在人工智能技術廣泛應用和數(shù)字化轉(zhuǎn)型的大背景下,如何有效挖掘和利用城軌企業(yè)檔案的價值,推動城軌企業(yè)科技創(chuàng)新與發(fā)展逐漸成為檔案學界以及城軌行業(yè)關注的焦點。通過構建知識圖譜模型,借助于NLP自然語言處理、實體抽取與實體融合等人工智能技術,細化檔案數(shù)據(jù)解析顆粒度,提高檔案知識的語義關聯(lián),以此解決檔案利用中存在的現(xiàn)實問題,提高檔案利用的深度,通過有效挖掘檔案知識,實現(xiàn)檔案知識智能搜索和個性化知識推送,提升城軌企業(yè)檔案利用的服務水平。
城軌企業(yè)檔案是城軌企業(yè)的財富,是城軌企業(yè)歷史數(shù)據(jù)的重要載體,在城軌企業(yè)的生產(chǎn)活動、人才培養(yǎng)、科研創(chuàng)新等方面發(fā)揮著重要作用。檔案多以非結構化數(shù)據(jù)為主,是企業(yè)的“暗數(shù)據(jù)”,也是企業(yè)亟待挖掘的一大“數(shù)據(jù)礦產(chǎn)”。隨著城軌線路規(guī)模的飛速擴張,城軌企業(yè)檔案將達到前所未有的體量,對傳統(tǒng)的檔案管理模式提出了新的挑戰(zhàn)。目前,部分國內(nèi)城軌企業(yè)檔案管理具有一定的信息化基礎,依托檔案管理系統(tǒng)開展檔案歸檔和檔案利用等工作。在當前在人工智能技術廣泛應用和數(shù)字化轉(zhuǎn)型的大背景下,如何有效地開展檔案知識開發(fā),充分挖掘檔案的價值,提升檔案利用服務功能,更好地滿足城軌企業(yè)發(fā)展的需求,已經(jīng)成為城軌企業(yè)普遍關注的新課題。
隨著數(shù)字化時代的到來,以及新檔案法的頒布實施,傳統(tǒng)的檔案管理及檔案利用模式已經(jīng)無法滿足城軌企業(yè)檔案管理的要求,更不能滿足用戶對檔案利用越來越高的訴求,簡要來說,主要存在以下問題:
1.檔案全文檢索能力差。經(jīng)過多年的積累,檔案的數(shù)據(jù)量不斷增長,但是,目前檔案管理系統(tǒng)中存儲的大部分歸檔文件以紙質(zhì)掃描件為主,且檔案的元數(shù)據(jù)標注太少,導致無法實現(xiàn)檔案全文檢索功能,甚至有的檔案系統(tǒng)題名檢索功能都不全,檢索命中率低,體驗差,嚴重影響檔案的利用效率和效果。
2.檔案知識語義關聯(lián)不足。目前檔案系統(tǒng)主要以檔案分類進行存儲和管理,沒有對檔案文件中的內(nèi)容根據(jù)實際利用的需要進行打標簽和分類,由于是掃描的文件,知識單元的提取和加工較為困難,無法跨分類與其他檔案知識進行關聯(lián),利用難度大。
3.檔案利用流程復雜。目前檔案利用服務多以檔案系統(tǒng)與檔案室借閱結合開展為主,在用戶利用的過程中需要先查詢到相關的檔案題名,再通過借閱流程進行申請,審批通過后才能到檔案室現(xiàn)場進行借閱,管理和服務的效率低。
知識圖譜的概念最早由Google公司于2012年提出,并將其應用于提高搜索的準確率和提升用戶的搜索體驗。在2012年以后,知識圖譜快速發(fā)展,現(xiàn)在全球知識圖譜的構建案例除了有通用類的知識圖譜如Wikidata、Freebase等,還有專業(yè)類的知識圖譜如生物醫(yī)學領域Linked Life Data、社交領域Facebook等。在國內(nèi),以百度、阿里、騰訊以及一些大數(shù)據(jù)公司均開始探索知識圖譜在搜索引擎、電子商務、教育、醫(yī)療、安防、金融等行業(yè)和領域的應用,例如百度百科知識圖譜、阿里巴巴商品知識圖譜、XLORE多語言百科知識圖譜等。
知識圖譜的構建一般來說分為兩部分,第一部分為概念層構建,即對知識圖譜中的實體、屬性及關系進行明確的界定,構建知識圖譜本體模型;第二部分為數(shù)據(jù)層填充,即開展實體、屬性及關系數(shù)據(jù)的填充工作。在知識圖譜的構建中,數(shù)據(jù)可能包含大量的結構化數(shù)據(jù)、非結構化數(shù)據(jù)、半結構化數(shù)據(jù)等數(shù)據(jù)源,需要通過數(shù)據(jù)整合與知識抽取技術進行處理,通過知識融合技術完成實體對齊和本體對齊,并通過質(zhì)量評估、知識更新、知識推理等過程,不斷修正和補充,最終構造完整的知識圖譜。
目前,知識圖譜已廣泛應用于智能搜索、知識推薦、知識問答等應用領域。以搜索引擎為例,知識圖譜在搜索引擎中的應用如下圖所示。
隨著大數(shù)據(jù)和人工智能技術的不斷創(chuàng)新和突破,知識圖譜的應用實踐越來越廣泛,也為城軌企業(yè)檔案知識的利用提供了新的解決思路。通過構建檔案知識圖譜本體模型,結合知識抽取與知識融合技術,實現(xiàn)檔案知識的細粒度加工、語義關聯(lián)分析,以此提升檔案知識利用效率,深化檔案知識利用層次,充分發(fā)揮城軌企業(yè)檔案的價值。
知識圖譜的構建,首先要進行本體構建,即概念層構建,目前比較具有代表性的構建方法主要有METHONTOLOGY法、TOVE法、骨架法、斯坦福七步法、KACTUS工程法等。我們通過開展城軌企業(yè)檔案業(yè)務調(diào)研和數(shù)據(jù)調(diào)研,對城軌企業(yè)檔案知識體系進行了整理,結合檔案知識的特點,確定核心概念、屬性、關系,完成檔案知識圖譜本體模型構建。構建過程主要分為以下幾步:
第一步,確定本體的構建范圍。本體構建是為了增強檔案知識關聯(lián),提高檔案利用的效率和價值,而城軌企業(yè)檔案中,以工程建設檔案的利用需求更多,利用價值最高,因此,可以以工程建設檔案為切入點,待達到預期的效果后再逐步擴展到其他類別檔案。第二步,確定核心概念和術語。采用自頂向下的方法,與業(yè)務專家一起,進行數(shù)據(jù)收集和分析,初步定義工程建設檔案頂層最抽象的概念,然后再逐層細化。第三步,定義關系。明確概念間的關系,包括關聯(lián)關系、包含關系等。第四步,定義概念的對象屬性,描述概念的內(nèi)部結構。第五步,本體形式化,即本體實例的構建和展示,可以使用專業(yè)的本體構建工具Protégé,也可以使用其他制圖工具,能清晰表示本體之間的關系即可。
在初步構建了本體模型之后,接下來就是數(shù)據(jù)層的工作了,通過知識抽取,需要完成實體、屬性及關系數(shù)據(jù)的填充。由于檔案數(shù)據(jù)量大、時間跨度長,數(shù)據(jù)來源包含以數(shù)據(jù)庫類型為主的結構化數(shù)據(jù)和以文檔、圖紙、照片為主的非結構化數(shù)據(jù)。
對于結構化數(shù)據(jù),可以采用D2R(注釋:D2R是一個能夠?qū)㈥P系數(shù)據(jù)庫中的內(nèi)容轉(zhuǎn)換成RDF三元組的工具,由于知識圖譜中儲存的數(shù)據(jù)要求為三元組格式,而我們的結構化數(shù)據(jù)儲存在關系數(shù)據(jù)庫中,所以需要進行轉(zhuǎn)換)將檔案系統(tǒng)關系數(shù)據(jù)庫中的數(shù)據(jù)映射到RDF中,實現(xiàn)數(shù)據(jù)的解析,抽取題名、案卷、人員、單位、合同、日期等實體,并獲取相關實體的屬性值及實體間的關系。
工程建設檔案知識圖譜本體模型實例
對于非結構化數(shù)據(jù),其文檔為了保留原始記錄,大部分是以掃描的圖片形式存入系統(tǒng)中,另外還存在部分尚未電子化的紙質(zhì)檔案。因此,在數(shù)據(jù)處理過程中,ORC文字識別顯得非常重要。非結構化數(shù)據(jù)的處理過程中,首先要通過引入OCR文字識別算法,提取非結構化數(shù)據(jù)中的文字,再通過自然語言處理技術,對文字識別的檔案內(nèi)容完成元數(shù)據(jù)標注和知識標簽提取,并通過實體抽取、關系抽取、屬性抽取過程,將檔案內(nèi)容進行語義關聯(lián),從知識層面串聯(lián)人員、單位、工程、項目、成果以及合同、圖紙、報告等。
實體抽取主要是從檔案內(nèi)容中辨別和提取已定義實體的實例數(shù)據(jù),如機構、線路、工程、標段、人員、知識標簽、方案、指標等。實體抽取的完整性、準確率、召回率等直接影響知識圖譜構建的質(zhì)量和效率,為了提高實體抽取的效果,可以使用規(guī)則和監(jiān)督學習相結合的方法提取檔案中的實體,規(guī)則和監(jiān)督學習相結合的方法既解決了單純使用監(jiān)督學習算法在準確率和召回率上的不足,又可以解決基于規(guī)則和詞典抽取需要大量的專家參與的難題,且可以較好的適應數(shù)據(jù)變化的新需求。
關系抽取從文本中發(fā)現(xiàn)實體之間的語義關系,并將其映射到實體關系三元組上,關系抽取具體過程比實體抽取更為復雜。由于檔案數(shù)據(jù)量巨大,通過使用特征標注的有監(jiān)督機器學習方法完成關系的抽取,并通過基于規(guī)則的方法完成自動標注,同時人工介入進行校對,確定檔案實體的語義關系類型,這樣可以大大提高關系抽取的效率和質(zhì)量。屬性抽取主要實現(xiàn)對實體的完整描述,可以把實體的屬性也看作是一種關系,即實體與屬性值之間的一種名詞性關系,所以屬性抽取任務就可以轉(zhuǎn)化為關系抽取任務。
在完成檔案知識圖譜模型構建,并抽取實體、屬性、關系等數(shù)據(jù)進行填充之后,一個初步的檔案知識圖譜就完成了。然而,通過知識抽取獲得的數(shù)據(jù)往往都存在歧義性問題,需要引入知識融合的相關技術。知識融合包括概念層和數(shù)據(jù)層兩方面,概念層主要是本體對齊,即確定概念、關系、屬性等本體間關系的過程,通過機器學習算法對本體間的相似度進行計算來完成。知識融合在數(shù)據(jù)層的工作包括共指消解和實體對齊,共指消解是將同一信息源中同一個實體的不同表述實現(xiàn)消歧;實體對齊是將不同信息源中同一實體進行統(tǒng)一,使信息源之間產(chǎn)生聯(lián)結。我們可以通過Dedupe工具(注釋:Dedupe是一個python庫,使用該工具只需用戶標注計算過程選擇的少量數(shù)據(jù),即可有效地對結構化數(shù)據(jù)快速執(zhí)行模糊匹配,相似計算等操作)開展知識融合的工作,將來自于不同來源和不同文件的數(shù)據(jù)中對同一實體的不同表達融合起來,解決冗余數(shù)據(jù)的問題,提高知識圖譜的質(zhì)量。
傳統(tǒng)的搜索引擎是基于關鍵詞或字符串的,并沒有對查詢的目標和用戶的查詢輸入進行理解,因此搜索的準確度較低,體驗差。而智能搜索引擎,除了需要自然語言處理技術之外,更少不了知識圖譜技術,Google和百度等互聯(lián)網(wǎng)搜索引擎就是最早的實踐者。在檔案搜索中加入知識圖譜技術,使得搜索引擎可理解用戶的檢索需求,并向用戶展示檔案知識圖譜的全貌,揭示檔案實體間的關系,甚至將檢索結果顯示為結構化的檔案知識。在查詢具體的項目檔案時,可以結構化匯聚展示該項目過程的各種數(shù)據(jù),如項目可行性分析報告、立項報告、招投標資料、合同文件、項目計劃、項目人員、成果文檔、會議紀要等,也可以通過圖譜獲取與該知識點相關的其他知識或相似的項目,通過這種方式實現(xiàn)整個檔案知識圖譜的關聯(lián)查詢。
知識推薦可以基于用戶屬性、用戶行為、業(yè)務場景進行分析,為用戶主動推薦其感興趣或與當前工作相關的知識內(nèi)容。檔案知識推薦轉(zhuǎn)變傳統(tǒng)的被動式檔案利用服務模式,通過收集和調(diào)查檔案使用部門、用戶的需求,結合系統(tǒng)內(nèi)用戶動態(tài)行為,如其訪問頻率、頁面停留時間以及檢索行為等數(shù)據(jù),實時洞察用戶行為意圖,主動為其推送潛在感興趣和當前需要的檔案知識,進一步精準和高效的開放與共享檔案知識成果。
智能問答嵌入擬人化的語義理解能力,用戶可用自然語言提問,其背后就是通過知識圖譜作為問答系統(tǒng)的知識來源,實現(xiàn)問答智能化,提高問答效率。
通過探索,期望對軌道交通企業(yè)的檔案利用提供一種可行的思路,利用知識圖譜提升檔案服務和利用水平,實現(xiàn)檔案管理數(shù)字化、檔案利用智能化。
1.提升檔案管理數(shù)字化水平。在數(shù)字化的大環(huán)境下,檔案數(shù)據(jù)量不斷增加,由于檔案的內(nèi)容和結構相對于互聯(lián)網(wǎng)數(shù)據(jù)規(guī)范性更高,因此具有更高價值。基于知識圖譜的檔案管理,更重視檔案使用人員的需求,通過檔案數(shù)據(jù)的知識化提取和關聯(lián)分析,細化檔案管理粒度,主動挖掘檔案深層次的價值和知識。
2.提高檔案利用效率和效果。通過計算機可識別、具有較強操作性以及富含語義關系的檔案知識圖譜模型,可以揭示和關聯(lián)檔案知識。通過檔案知識圖譜數(shù)據(jù)層實例的填充和聚合,采用知識抽取與知識融合等技術,實現(xiàn)檔案的精細化加工,實現(xiàn)檔案資源知識語義關聯(lián),提高檔案利用效率和效果。
雖然知識圖譜技術的試點應用看到了一定的效果,但其應用還需要不斷深化和完善,由于檔案知識一個動態(tài)更新的,在完成知識圖譜建設后,為持續(xù)完善檔案的語義關聯(lián),需要對檔案知識之間深層次關系開展推理和挖掘,通過知識推理和知識更新,不斷更新和完善檔案語義關聯(lián)。本文目前沒有進行檔案知識推理的應用探索,因此如何實現(xiàn)檔案知識圖譜的知識推理,進一步完善和填充檔案知識圖譜是非常具有挑戰(zhàn)性的。