基于本體特征的檔案系統(tǒng)模型構建

2015-11-14 02:15:38周佳明

揚州教育學院學報 2015年2期

周佳明

(揚州職業(yè)大學，江蘇揚州 225009)

本體一詞最早出現(xiàn)在古希臘，表示對客觀存在的事物的說明或解釋。上世紀七十年代被用于人工智能，將其含義引申為構成相關領域的基本屬性和關系。上世紀九十年代，它的概念又被進一步地規(guī)范化。本體是概念模型的形式化說明，且這些模型都是共享的。它具有以下幾個內(nèi)涵:概念模型、形式化的、共享的、明確表達的，這四個內(nèi)涵在計算機人工智能方面具有知識表達的意思。上述定義把本體的概念推向了一個新的階段。

一、檔案管理系統(tǒng)中本體概念的引入

將本體論研究方法和技術運用到檔案管理信息系統(tǒng)的建設中，對其進行建模和分析，將檔案管理中的一部分轉化為抽象概念，可以實現(xiàn)概念同概念間的關系構建。檔案管理當中，本體論可以實現(xiàn)對檔案數(shù)據(jù)和資源的描述，將數(shù)據(jù)的采集模式進行統(tǒng)一，從而統(tǒng)一實現(xiàn)信息共享與數(shù)據(jù)提取。

一般來講，檔案內(nèi)容的揭示形式包括關鍵詞和主題詞等，這樣的標引方案往往是模糊的、浮于表面的，計算機對檔案內(nèi)容的理解程度也是有限的。因此，通過計算機檢索的方式查找所需要的檔案內(nèi)容較難。通過處理元數(shù)據(jù)，并基于元數(shù)據(jù)相關標準，可以實現(xiàn)元數(shù)據(jù)的組織和共享。這種方法有利于檔案的規(guī)范和共享，但是無法有效提示檔案中的具體內(nèi)容以及各檔案間的相互關系，尤其是由于元數(shù)據(jù)體系概念推理能力上的局限性，無法對檔案檢索和共享提供知識支持。而這種缺陷可以通過檔案信息本體進行完善。檔案信息本體與其他方法相比，長處在于可以實現(xiàn)信息的共享，從而建立相關的模型研究;另一方面還可以借助本體的研究防止概念產(chǎn)生;本體信息研究還可以通過建立知識庫實現(xiàn)對檔案管理系統(tǒng)的完善，從而為智能檔案管理提供有效的支持。

檔案信息的檢索應用可以很好地說明檔案信息本體的這些優(yōu)勢及其在檔案信息管理中的作用。

二、檔案管理系統(tǒng)中的建模工具

Protégé作為一種先進的開發(fā)工具，并不是獨立發(fā)展起來的，而是基于面向?qū)ο蟮腏AVA部分內(nèi)容，它支持類、元類以及屬性的OKBC兼容，在公理格式方面，符合PAL和KIF語言的相關標準;在知識獲取方面，支持實例的自動生成和抓取。ProtégéPrompt插件是本地進行合并的重要手段，支持多種輸入、輸出格式，包括 OIL、RDF、XML 和 OWL 等［1］。

Protégé不是一個全新的工具，而是基于Java語言環(huán)境逐步發(fā)展和完善的，它具備以下的優(yōu)點:操作方式更加友好，是利于操作的圖形界面;對字符格式支持較好，尤其是對Unicode的支持，大大擴展了應用領域;系統(tǒng)在實際工作中需要其他軟件和插件，在Protégé是免費被支持的;允許 DAML+OIL的相關技術標準，甚至最新的技術成果OWL在Protégé也是被支持的。另外，Protege還能夠在系統(tǒng)外通過其他編輯工具進行修改操作。

三、檔案系統(tǒng)應用本體建模流程分析

檔案管理系統(tǒng)里所描述的本體是檔案領域里的專有概念，用來表示專門的某個領域范圍內(nèi)的所有知識。領域本體屬于專業(yè)性范疇，它把這個學科中的重要詞條以及這些詞條之間的關系具體地描述出來，描述的內(nèi)容有時還包括學科內(nèi)有影響力的理論成果。

具體來講，檔案領域本體就是針對查詢功能的檔案領域建模的結果，簡單來說，就是通過有效挖掘，實際活動中凡是與檔案相關的查詢操作都抽象為一組概念(或者一組概念的相互關系)。檔案本體對實際活動中檔案的解釋，是從概念結構和抽象空間兩個層面上進行的，是一種系統(tǒng)化的過程。盡管實際的描述過程中，創(chuàng)建本體的手段可能并不唯一，但可以確保本體的建立是正確的、完整的。經(jīng)過對檔案領域查詢功能的調(diào)查，結合已有的理論指導，具體的構建流程有(見圖1):

圖1 檔案領域創(chuàng)建本體的過程

(1)確認需求分析。該過程中，第一要務是把構建本體的原因確定好，還要明確用戶群體和涉及的相關部門，具體到本系統(tǒng)，它的需求就是面向檔案領域。

(2)共享語詞庫創(chuàng)建。在這個步驟中，領域共享語詞庫的表示過程需要運用描述邏輯的手段進行。在本地的領域和范圍內(nèi)，本體建立者的第一要務是把共享語詞庫建立起來，然后把目前有用和將來可能有用的屬性、語義以及實例等進行搜集整理。要想建立一個好的領域共享語詞庫，最重要的就是把領域內(nèi)信息收集齊、把領域內(nèi)知識掌握好，這些信息的來源沒有固定的渠道，可以是有經(jīng)驗的專家、外部本體或者互聯(lián)網(wǎng)等等。

(3)表示本體。該過程中，本體的描述需要使用OWL這個工具，首先要做的是描述邏輯，然后對不同的概念進行劃分，最后是把類的屬性進行定義以及創(chuàng)建實例。

(4)客觀評價本體。在評估的過程中，需要對結果做一個判斷，以此來確定下一步是返回(2)中重新創(chuàng)建，還是就此就結束這個過程。

四、檔案領域本體的表達

對系統(tǒng)的需求進行實地調(diào)研后，結合檔案信息的組織架構，檔案領域概念的主要內(nèi)容為:案卷編號、全宗號、題目、保管期限、記錄好狀態(tài)、負責人、類別、頁碼。

(一)應用在檔案管理的本體模型

檔案檢索的需求是十分明確的，就是把主要的概念以及它們的相互關系構建在本體模型結構圖中，局部如圖2所示。

圖2 檔案領域本體局部結構圖

檔案領域內(nèi)概念的關系類型具體情況為:

(1)part－of:一個概念是另一個的一部分。

例如:檔案是本系統(tǒng)的整體概念，其包含的“內(nèi)容”是概念“檔案”的一部分。

(2)kind－of:表示某一概念是另一概念的下屬、繼承關系，在信息結構中類似的概念如上下位關系、父類－子類關系。

例如:有兩個概念，分別記做概念 A、概念 B。另外有概念C、概念D，分別記做記C={X|X是A的實例}，D={X|X是B的實例};對于所有的的X，如果屬于D，那么一定屬于C，C就是D的父概念，D就是C的子概念。

(3)instance－of:一個概念是另一個的某個實例。這與類和類的對象非常接近。例如:案卷編碼的實例可以為QT－211－C/201308。

(4)attribute－of:一個概念是另一個的某個屬性表示。例如:在檔案的概念中，頁數(shù)就是它的一個屬性。

(二)基于案卷編號擴展的本體模型

查閱檔案時，一般按照檔案的類別、責任人、立卷日期等進行查詢，但由于以上屬性可能不是唯一的，所以準確性相對于按照案卷編號查詢較低。一個檔案必須有自己唯一的標識，即唯一的案卷編號，案卷編號是確定檔案唯一性的重要屬性。為了提高檢索過程中的準確性和效率，本體擴展檢索的基本思想是在檔案的案卷編號基礎上進行的，設計的具體示例如圖3所示。

圖3 基于案卷編號的本體表示結構圖

由上圖可以看到，結構圖共分了五個層次:最上面是根節(jié)點，代表的內(nèi)容是案卷編號;第二層是案卷類目，如前文的論述，按照需求分了6個部分;接下來的層是案卷編號;再接下來代表工程號;最后一層是標識案卷的時間序列。

在檢索過程中，用戶輸入的案卷編號可能不完整，所以，就會查詢到不同的層次節(jié)點上，這可以很容易地找到那些用戶需要的節(jié)點信息，還能找到旁邊、附屬、下屬的節(jié)點，經(jīng)過這個過程，查詢范圍就變得更加寬泛了，這就實現(xiàn)了檢索的擴展。

(三)Protégé中構建檔案領域本體

系統(tǒng)建設要充分考慮目標客戶的實際需求，具體來講，建設檔案系統(tǒng)的目的就是為了強化管理、提高工作效率。與企業(yè)級的信息系統(tǒng)應用相比，檔案系統(tǒng)規(guī)模算是很小的，因此建模可以采取簡單易操作的手動方式。

在Protégé構建本體的過程中，一般有四個過程，即需求分析、確定類和所屬層次、確定屬性(及具體值的范圍)、實際添加實例。在檔案檢索領域的本體設計過程中，運用Protégé工具，利用其生成OWL文件進行實現(xiàn)［2］。圖4是檔案領域本體關系圖，由Protégé工具自動生成導出。

需要輸入實例的時候，首先要明確類和屬性的結構是怎么樣的。例如在已經(jīng)排好序的父類中，把一個有序的子類插入進去，具體的插入算法可以選用數(shù)據(jù)結構算法描述的任何一種，包括折半、直接插入、兩路排序插入、直接插入、希爾插入和表插入等等。

圖4 檔案領域本體關系圖

運用Protégé的過程中，為了添加實例，需要使用Individuals標簽的5個面板，涉及的屬性內(nèi)容包括類的思想、實例具體名稱以及性能的復雜度等，接下來，在描述插入的詳細過程中，運用直接插入的方法，具體內(nèi)容如下:

基本思想:不做任何附加的工作，就可以把各個記錄分別插入到一個有序的序列中去;

Individual:直接插入排序算法;

文字描述:某個有序的序列［1…，i－1］，其共有i－1個元素的記錄，需要插入r［i］，這時序列中所包含的元素數(shù)就變?yōu)榱薸個，新的序列是r［…i］;在插入的過程中必須要考慮的一點是存放序列的數(shù)組不能越界，因此仿照順序查找的算法，在r［0］處設置一個“監(jiān)視哨”，所有的插入都是自“i－1”往前挨個搜索，記錄能夠在查找過程中順序后移一個位置，那么，排序的過程就需要n－1次的插入操作。簡單說來，把序列的第一個元素作為最簡單的有序序列，從第二個記錄開始逐個添加到有序序列當中，直至所有的記錄都被插入到序列當中，這時的序列按照關鍵字排序。

檔案的本體庫的建立過程，需要大量的實例被賦予相應的屬性及屬性值。

(四)性能分析與比較

查準率和查全率是信息檢索評價的主要標準。把需要查詢的一組文檔標為{Relevant}，相應的系統(tǒng)會檢測出標為{Retrieved}的另一組文檔，還有可能檢索出另一組標為{Relevant}∩{Relevant}的文檔。我們對查全率和查準率做出如下定義［3］:查全率是實際檢索到的與信息有關聯(lián)的文檔總數(shù)與信息庫中總相關文檔數(shù)的比值。計算公式為:recall={Relevant}∩{Relevant}/{Relevant}。

查準率是全部檢索結果中相關文檔數(shù)與總數(shù)的比值。計算公式為:Precision={Retrieved}∩{Relevant}/{Retrieved}。

為了檢測模型的效果，筆者在本體模型的基礎上構建了一個簡單的檔案檢索系統(tǒng)，以檢索內(nèi)容DQ、DQ－123、DQ －123－A、DQ －123－B為例，進行了簡單實驗。表1是基于系統(tǒng)檔案查詢模塊的運行結果。

表1 用戶輸入邏輯表達檢索、案卷編號本體擴展檢索效果對比表

五、結語

本文介紹了檔案領域本體的重要概念，運用Protégé工具，對檔案領域本體進行了設計并完成構建，列出了構建的整個過程。檔案信息需要完善存放且穩(wěn)定性較好，因此，案卷編號本體化的方法，其結構是一個倒立的樹型，它有自己的兄弟關系，還有父子關系，這為檔案信息檢索語義的擴展提供了重要的支撐。通過建立及應用本體，提高了檔案信息檢索的查全率和查準率，同時滿足了用戶個性化服務的需求。不過還需繼續(xù)探索研究并改善諸如:實際操作中的系統(tǒng)的全面性、完善性和可維護性等問題。

［1］張本英．戰(zhàn)后西歐國家對私人檔案的政策［J］．檔案與建設，2012(8):12－13．

［2］張大偉．貼近民眾講究實效——美國檔案館利用服務情況紀實．［EB/OL］(2008－03－21)［2013－08－ 02］．http://www．a(chǎn)rch/ves．sh．cn/gilw/201203/t20120312－4542．html．

［3］李景．主要本體構建工具比較研究［J］．情報理論與實踐，2012(29):109－111．

［4］鄧志鴻，唐世謂，張銘，等．Ontology研究綜述［J］．北京大學學報:自然科學版，2002(5):730－738．