王電化,錢 濤,錢立新,盛 琦,夏春梅
(1.湖北科技學院, 湖北 咸寧 437100;2.咸寧市檔案館, 湖北 咸寧 437100)
檔案信息化在近幾年得到了快速發(fā)展,檔案數(shù)據(jù)已呈幾何級增長,形成真正意義上的檔案大數(shù)據(jù)[1]。檔案數(shù)據(jù)資源的利用特別是檔案信息檢索成為日常工作中不可或缺的組成部分。傳統(tǒng)檔案信息檢索系統(tǒng)主要采用關(guān)鍵詞匹配技術(shù),只能進行詞形的機械匹配,導致人們難以檢索到符合自己意愿的檔案信息。然而,檢索語句中的“關(guān)鍵詞”通常存在諸多隱形的邏輯語義關(guān)系,例如對于用戶輸入查詢語句:“張三任職局長”,該語句包含三個關(guān)鍵字“張三、任職、局長”,隱含著張三是公職人員,用戶想查詢是人事任命類檔案,甚至可能想查詢張三是何時在何地擔任局長的。但當前的檔案檢索系統(tǒng)并不能從語義的角度分析用戶的檢索意圖,也缺乏有效的檔案知識推理。
知識圖譜[2~4]技術(shù)在解決知識查詢的精度及知識推理方面展現(xiàn)出了巨大的優(yōu)勢,成為學術(shù)與工業(yè)界研究的熱點問題。已被廣泛應用于智能搜索、智能問答、個性化推薦、內(nèi)容分發(fā)等領(lǐng)域。當前有代表性的知識圖譜產(chǎn)品包括當DBpedia[5],YAGO[6],百度知心[7],搜狗知立方[8]等。以上大部分是通用的知識圖譜,直接運用行業(yè)領(lǐng)域并不能達到較好性能。因此領(lǐng)域知識圖譜也受到越來越多的重視。構(gòu)建基于檔案的知識圖譜能效進行檔案知識推理,是實現(xiàn)檔案智能檢索的關(guān)鍵技術(shù)和主要路徑之一。然而,作為強領(lǐng)域?qū)傩缘臋n案領(lǐng)域,當前缺乏系統(tǒng)的基于檔案知識圖譜的構(gòu)建方法與應用研究。
本文以知識圖譜技術(shù)與檔案知識相結(jié)合,提出基于大規(guī)模檔案領(lǐng)域知識圖譜的構(gòu)建方法,目的是建立大規(guī)模檔案知識圖譜,用于融合語義關(guān)系與知識推理的檔案智能搜索系統(tǒng)。論文首先論述了知識圖譜的研究現(xiàn)狀;然后討論了檔案知識圖譜構(gòu)建的關(guān)鍵技術(shù),最后給出結(jié)論。
知識圖譜技術(shù)由Google于2012提出[9],應用于其搜索引擎,用以提高查詢質(zhì)量。知識圖譜本質(zhì)是一種語義網(wǎng)絡。其由具有屬性的實體通過關(guān)系鏈接而成的網(wǎng)狀知識庫,即具有有向圖結(jié)構(gòu)的一個知識庫,其中圖的節(jié)點代表實體或者本體,而圖的邊代表實體——本體之間的各種語義關(guān)系。
知識圖譜具有規(guī)模大、語義豐富、結(jié)構(gòu)清晰等特點,是人工智能進一步發(fā)展的核心技術(shù)之一。因此其知識圖譜受到了廣泛的關(guān)注,在國外,比較有代表性的知識圖譜產(chǎn)品包括: DBpedia[5], YAGO[6]和Probase[10],這些知識圖譜包括百萬級別的實體及十億級別的關(guān)系邊。當前國內(nèi)針對知識圖譜的研究正快速發(fā)展,在開放域方面有百度知心[7]、搜狗知立方[8]、Zhishi.me[11],CNN-DBpedia[12]等。然而這些產(chǎn)品都是通用知識圖譜,直接用于行業(yè)領(lǐng)域研究不能達到較好效果。
不同于通用知識圖譜,領(lǐng)域知識圖譜能利用領(lǐng)域特有知識快速構(gòu)建知識庫,如醫(yī)療知識圖譜[13]、地理知識圖譜[14]、軍事知識圖譜[15]及農(nóng)業(yè)知識圖譜[16]等。作為強領(lǐng)域特性的檔案領(lǐng)域,當前仍主要集中在檔案本體知識庫的構(gòu)建與應用研究,如:賈永剛[17]提出采用五步來構(gòu)建檔案領(lǐng)域本體。李海軍[18]系統(tǒng)的討論了檔案信息本體在檔案管理信息系統(tǒng)中的使用。張園[19]利用檔案本體來提升檔案檢索系統(tǒng)性能。周義剛和董慧[20]針對電子政務領(lǐng)域的特點,探討電子政務領(lǐng)域數(shù)字檔案本體的構(gòu)建過程。這些本體構(gòu)建通常采用手動構(gòu)建。由于本體模型本質(zhì)上屬性概念級別的知識庫,并不能真正實現(xiàn)語義推理與檢索。本文利用自然語言的處理技術(shù),在人工構(gòu)建知識本體的基礎(chǔ),探討檔案知識圖譜的構(gòu)建關(guān)鍵技術(shù)研究。
知識圖譜是一種結(jié)構(gòu)化的語義知識網(wǎng)絡,用于描述現(xiàn)實世界中的概念、實體、事件及其關(guān)系,其中實體對應于客觀世界中的事物,屬性代表事物的特征,概念是對具有相同屬性事件的概括與抽象,事件可表示為不同時空狀態(tài)下一系列實體及其聯(lián)系。通過概念與概念、概念與實體、實體與實體、實體與屬性等之間的關(guān)系,形成網(wǎng)狀的語義知識圖譜。
知識圖譜通常采用自頂向下和自底向上2種方式構(gòu)建。自頂向下構(gòu)建一般首先頂層關(guān)系本體,然后將抽取到的實體及關(guān)系更新到所構(gòu)建的頂層本體中。自底向上構(gòu)建是指從公開采集的數(shù)據(jù)中采用一定的技術(shù)手段提取出實體關(guān)系模式,然后進行一定的知識加工與處理,選擇其中置信度較高的加入到知識庫中,將具有相似屬性的實體進行抽象歸納,形成相應的概念,再逐層向上匯集,最終構(gòu)建頂層概念本體模式。對于開放領(lǐng)域,由于所涉及知識非常廣泛,通常采用自底向上的方式構(gòu)建知識圖譜;而對于特定領(lǐng)域,由于知識概念相對明確,一般采用自頂向下的方式構(gòu)建。由于檔案領(lǐng)域即具有領(lǐng)域性,又具有開放性,本文采用將二者方式相結(jié)合,其構(gòu)建整體流程如圖1所示。具體步驟如下:
1.檔案本體建模:根據(jù)檔案管理、檔案信息標準化及應用特點,構(gòu)建統(tǒng)一共享的檔案領(lǐng)域概念模型,包括本體、關(guān)系及屬性。該概念模型將對知識發(fā)現(xiàn)起著指導和約束作用。
2.檔案來源:包括從已有檔案業(yè)務管理系統(tǒng)、領(lǐng)域百科及其它外部系統(tǒng)中導入數(shù)據(jù)。其數(shù)據(jù)類型包括:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。它是知識獲取的主要來源。
3.知識發(fā)現(xiàn):從不同類型數(shù)據(jù)源在本體概念模型規(guī)則約束下進行實體識別、關(guān)系抽取與屬性識別。
4.知識融合:對發(fā)現(xiàn)的實體、關(guān)系與屬性進行知識整合,并進行知識更新。
5.知識存儲與訪問:大規(guī)模知識圖譜分布式儲存與訪問。利用圖搜索算法,對存儲知識庫實現(xiàn)高效訪問。
圖1 檔案知識圖譜構(gòu)建流程
1.檔案知識本體建模
知識本體建模是構(gòu)建知識圖譜的首要步驟,是對領(lǐng)域知識結(jié)構(gòu)與概念設(shè)計的過程。主要包括本體設(shè)計、關(guān)系設(shè)計及屬性設(shè)計。檔案本體建模的目標是捕獲檔案領(lǐng)域的知識, 提供對檔案領(lǐng)域知識的共同理解, 確定本領(lǐng)域內(nèi)共同認可的詞匯, 并從不同層次的形式化模式上給出這些詞匯間相互關(guān)系的明確定義。本體作為共享的形式化概念模型,清晰定義概念之間的關(guān)系,使得被刻畫的知識富含語義,具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持。
檔案具有強領(lǐng)域性,檔案通常按主題按單位進行詳細分類,每一檔案都有一明確的目的和主題,表達單一確定事件,例如在文書檔案里,事件通常包括:人事安排、工資提級、機構(gòu)設(shè)置等。事件是動態(tài)的復雜的概念,它通常包含是地點、人物、時間等要素。利用事件概念,能明確的描述檔案事件單一性特點,如關(guān)于人事安排的檔案,通常包括發(fā)文機關(guān)、所涉及人物,時間、地點等相關(guān)要素。本文主要以檔案標準文件《中國檔案分類法》和《中國檔案主題詞表》為依據(jù),結(jié)合檔案自身特點以及系統(tǒng)的業(yè)務需要,提出以事件概念為中心的本體構(gòu)建。以事件為中心概念,然后擴展至其它概念:機構(gòu)、人物、文件,同時事件還包括地點、時間兩個屬性,對每一概念,又分別進行子類分類,如事件按其內(nèi)容可分為:人事、學籍、科研、財政等。文件按其用途可分為:通知、公告、決定等。機構(gòu)劃分為:政府、國企業(yè)、私企、事業(yè)單位等,人物劃分為公職、商界、公眾。圖2顯示了檔案本體的核心架構(gòu)。
圖2 檔案本體建構(gòu)核心架構(gòu)
2.檔案知識抽取模型
檔案領(lǐng)域知識來源主要包括原有業(yè)務系統(tǒng)、領(lǐng)域百科、外部系統(tǒng)等結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)。對結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù),可采用規(guī)則方法把實體映射到知識圖譜中;對于非結(jié)構(gòu)化數(shù)據(jù)主要是檔案文本,需要從中抽取實體及關(guān)系等知識。手動的知識抽取代價太高,因此需要采用自然語言處理及機器學習相關(guān)技術(shù)可實現(xiàn)領(lǐng)域知識的自動識別和抽取。
根據(jù)前節(jié)所述檔案本體知識架構(gòu),從檔案文要識別的本體包括機構(gòu)、人物、地點、時間及事件。本體關(guān)系則包括上下位、子類、近義、反義及所屬事件關(guān)系。圖3給出了本文所提檔案領(lǐng)域?qū)嶓w識別與關(guān)系抽取流程。首先對檔案全文進行預處理如分詞、詞性標注、句法分析,然后把這些語言特征轉(zhuǎn)化為分布式表示,進行實體與關(guān)系抽取。實體識別采用基于深度學習的Bi-LSTM-CRF模型[21],該模型避免了復雜的特征設(shè)計,并且能充分利用全局信息進行優(yōu)化。在實體識別基礎(chǔ)上,關(guān)系抽取采用基于遠程監(jiān)督的關(guān)系抽取模型[22]。該模型能有效減少了模型對人工標注數(shù)據(jù)的依賴。
圖3 檔案領(lǐng)域?qū)嶓w識別與關(guān)系抽取流程圖
3.知識圖譜存儲與檢索
知識圖譜通常采用圖數(shù)據(jù)庫存取,在完成檔案知識圖譜構(gòu)建與存儲之后, 需要利用圖數(shù)據(jù)檢索技術(shù)來提高知識圖譜的查詢效率, 為大規(guī)模實時動態(tài)查詢和推理奠定基礎(chǔ)。
本文檔案系統(tǒng)采用圖數(shù)據(jù)庫Neo4j存儲。領(lǐng)域知識中的概念、實體、關(guān)系分別對應于Neo4j中的標簽、節(jié)點、邊/關(guān)系。Neo4j提供Cypher命令對圖數(shù)據(jù)進行檢索操作。例如對于第1節(jié)所述查詢語句:“張三任職局長”。檢索系統(tǒng)首先利用分詞工具對其進行分詞,然后識別出其中的命名實體??刹捎萌缦虏樵冋Z句:
Match (a:Person)->[:Person_In]->(m)<-[:Organize_In]-(d) where a.name=‘張三’and a.title=’局長’//查詢事件、機構(gòu)及人物結(jié)點
Match(m)-[File_In]->(f) //查詢所屬文件結(jié)點
Return a,m,d,f; //顯示結(jié)果
其查詢結(jié)果顯示如下圖4所示。
可以看出,利用知識圖譜可以進行深度語義理解與知識推理。知識圖譜是一種開放式的知識結(jié)構(gòu),如果不考慮存儲工具的限制,理論上基于現(xiàn)有知識圖譜能無限拓展領(lǐng)域相關(guān)各種類型知識。
圖4 檔案知識圖譜檢索示意圖
知識圖譜的構(gòu)建技術(shù)主要以數(shù)據(jù)挖掘、 機器學習、 自然語言處理、 信息檢索等多學科交叉技術(shù)為支撐?;跈n案領(lǐng)域既具有領(lǐng)域性,又具有開放性,本文提出檔案知識圖譜構(gòu)建框架,并探討了檔案知識本體構(gòu)建架構(gòu),檔案知識抽取模型、知識圖譜存儲與檢索等關(guān)鍵技術(shù)。知識圖譜作為智能檢索的核心技術(shù),具有重要的理論研究和實際應用價值。檔案知識圖譜將在檔案智能化信息管理中發(fā)揮重要作用。