孟玲
(徐州市工人文化宮,江蘇 徐州 221000)
基于本體的數字圖書館語義知識庫構建研究
孟玲
(徐州市工人文化宮,江蘇 徐州 221000)
基于本體這種較為完整的知識表示方式,對數字圖書館傳統(tǒng)知識模式的不足進行分析,闡述了本體的概念、實現原理以及建模優(yōu)勢,分析基于本體的數字圖書館語義知識庫構建模式。
數字圖書館本體語義知識知識服務模式
計算機技術不斷發(fā)展以及信息技術的不斷升級,更高層次地提升了數字圖書館。面對圖書館中的知識與對知識的利用特點不同,簡單的排列知識的處理方式不再適用[1]。在檢索過程中,作為知識的組織方式,本體不僅能有效地解決信息檢索的準確率和全面率,還能解決共享和重復利用知識的問題,在數字圖書館中,本體已經成為一種管理的工具。
1.1內涵及原則
數字圖書館知識組織的目的就是序化繁雜的數字化信息為知識庫,信息的數字化過程中要遵循一定的結構,這樣提供給用戶的系統(tǒng)性知識才能具有可操作性強的特點[2]。該知識庫是一個循環(huán)系統(tǒng),組成因素包括知識庫、數字化信息資源以及用戶,其內部機制的完善程度決定了其能否高質量運行系統(tǒng)并提供優(yōu)質知識服務,其組織過程如圖1所示。其內涵具體描述如下:知識組織的前提是篩選;對每個知識片段進行本質含義的分析挖掘出其語義和語用層次;對各知識因子間的關系進行準確的揭示,對知識單元的有機結構進行考察;關聯知識因子的分析結果,組織形成知識庫,供用戶選擇。
圖1 數字圖書館知識組織過程
在對數字圖書館進行知識組織時,要遵循以下幾種原則:網絡化原則、系統(tǒng)性原則、標準化原則、共享性原則以及特色型原則。
1.2組織模式
目前在數字圖書館知識組織時,主要有分類法和主題法兩種組織模式[3]。前者是從本質上把事物之間的區(qū)別與聯系進行提示和把握。經過分類與組織后的知識,其全貌及內在聯系得以揭示,且還有篩選的作用,分類法有一個比較顯著的特點,即在對文獻進行整理時其分類是按照學科和專業(yè)進行的,在揭示文獻內容的區(qū)別和聯系時多從知識分類的角度出發(fā),并且從該角度提供檢索文獻途徑,把事物和學科的概念充分融入知識分類體系中去。主題法則是從知識組織原則來看,在這種組織模式中,主題詞表示知識因子,其組織的基本方式多采用語詞標識系統(tǒng)[4],另外還引入了參照系統(tǒng)進行知識關聯的表達。目前在組織數字圖書館知識時,比較常用的形式有兩種,采用現有的詞表主題和采用關鍵詞法。
1.3存在的問題及不足
首先,知識導航不能實現知識共享。在數字圖書館中,開發(fā)知識系統(tǒng)既費時又費力,但目前在開發(fā)中只注重檢索知識,而忽略了共享知識,或在知識共享時只是在特定的領域進行。因為范圍較小,所以其導航功效體現得并不明顯。一般來說,數字圖書館用戶背景不同,其對術語和概念的理解也有所不同,所以在建立新的數據庫時很難起作用,無法實現知識的共享。其次,在檢索知識時關鍵詞的語義涵義被忽略。圖書館中傳統(tǒng)的知識服務模式在進行知識的檢索時常借助檢索目錄和關鍵詞的方法,關鍵詞的語義被忽略,在知識檢索結果中跟關鍵詞詞義相同的內容無法顯示,會導致檢索結果與用戶需要偏離,出現檢索結果沒有使用意義的現象,知識檢索的正確性和全面性有所降低。最后,無法進行知識資源的完全詮釋。知識組織有主題法和分類法兩種方法,但這兩種方法本身也存在一定不足,比如很難完成知識的自動更新,容易導致各類知識資源的滯后現象,無法充分滿足數字圖書館的需求。而且這兩種方法有非常復雜的結構體系,操作不方便,圖書館資源的動態(tài)很難實現,不能系統(tǒng)地組織全部知識資源。
2.1本體概述
就學科范疇而言,本體最早出現在哲學領域,后來研究學者們從人工智能方面賦予了本體新的含義,并且本體本身的涵義還在不斷變化中發(fā)展。目前而言,本體的代表性涵義比較多,從其多樣化的定義表述中我們可以總結出其基本內涵。從本質上說,本體是一個概念模型,是特定領域知識的抽象化表達,內容包括對概念的定義、概念屬性值及其限制、概念類的層次體系及其邏輯相互關系。不同于本體本身的是,概念體系的定義是明確的,在兩個方面都有所體現:在對概念的內涵和外延進行表述時語言要盡量規(guī)范和明確;在對概念間的邏輯關系進行表述時要盡量規(guī)范化,在對特定公理性知識進行表述時語言要明確。概念體系也可以形式化描述,方便計算機對本體概念及關系的識別和處理,采用的知識表示語言包括OIL、DAML以及OWL等,經過知識表示語言對概念體系進行編碼之后信息就處理成為顯性知識,便于計算機的理解及對知識的語義處理。另外概念體系還可以反映領域知識的共享,其中反映的是概念集,共享是指那部分經過共同認可的知識,即本體針對的是團體的公式,而不是個人的認識,共享性才是本體概念交換和映射的基礎。
2.2實現原理
本體思想實際上就是映射現實世界中的實體為本體中的概念[5],映射實體間的關系為本體中的關系,映射真理性知識為本體中的公理,把整個世界映射為概念世界,也就是本體。本體是依附于現實世界并用概念體系對實體相關知識進行管理。知識組織的基本思想可以利用本體來實現,其原理如圖2所示。
圖2 本體對知識組織的原理[6]
在數字圖書館中,首先要加工各種類別和形式的信息提取出知識,其載體仍是信息。在該知識層上添加本體層可以實現對知識的組織,而且領域公理的存在可以實現基于本體的推理。本體層的引入,解決了查準率和查全率低的問題。
2.3建模優(yōu)勢
利用本體進行數字圖書館語義知識庫的構建有以下優(yōu)勢,首先,可以規(guī)范描述知識間的語義關系。本體方法的運用,有效減少了術語和概念上的歧義,使得在進行概念間關系的描述時可以更加廣泛、詳細和全面,在概念中添加屬性值,添加映射關系到屬性與屬性之間,可以清晰地表述出在正規(guī)詞表中不能描述的語義關系。在數字圖書館中本體描述提供了一個規(guī)范模型,可以保持語義上的一致性,使不同觀點、不同目的、來自不同背景的人們之間都可以理解和交流。其次,可以實現知識重用和分享[7]。本體是共同認可知識的體現,是一種公約,是相關領域公認概念的反映,所以通過本體數字圖書館可以把相關知識領域的知識在描述和識別時盡量規(guī)范化,達成概念、知識以及概念之間關系的共識,實現共享和重用各學科領域本體。第三,可以實現知識檢索,是知識組織的逆過程?;诟拍钫Z義對知識檢索進行研究時,對領域知識的組織必須以本體作為語義模型,語義標注資源,形成語義元數據,才能對領域知識進行標識,最終實現檢索領域知識的目的。最后,可以實現語義的互操作。針對異構系統(tǒng)之間互操作的問題我們采用的是元數據的方法,但是元數據只是基礎,元數據之間互操作的實現還需要高層互操作協(xié)議來支撐,包括相關本體協(xié)議和元數據交換協(xié)議,后者也要采用本體技術才能真正實現異構系統(tǒng)之間的語義互操作。
3.1構建規(guī)則
在構建本體的研究中已經有不少方法,也有一部分學者致力于本體構建的評估研究,但在研究時,其標準還不統(tǒng)一[8]。在進行本體構建時比較有影響力的規(guī)則有以下5種:首先要清晰,在進行術語定義時,本體要對其進行有效的說明,應進行與背景獨立的、客觀的定義。在用邏輯公理進行定義表達時,要以形式化的內容出現并且盡可能完整。在本體構建時要用自然語言對定義進行說明。其次要滿足一致的規(guī)則,也就是說,面對與定義相一致的推理,本體應該支持。用本體對公理進行定義要與自然語言說明的定義有一致性。第三要符合可擴展性的規(guī)則。面對任務,本體不僅要進行概念基礎的提供,為了滿足特殊需求,還要基于原有的概念對新的術語進行定義。值得注意的是,定義新術語時原有的定義是無需修改的。第四,要滿足編碼偏好程度最小的規(guī)則。在構建本體時,在實際的系統(tǒng)中通常采用不同的知識表示方法,所以在對概念進行描述時,不能依賴每一種特殊的符號層。最后,要符合本體約定最小的規(guī)則。也就是說,在對本體進行構建時,只要約束定義最弱公理以及對通訊所需詞匯進行定義,使得特定的知識共享需求得到滿足即可。
3.2本體描述語言
對模型進行概念描述形式化并達到編寫清晰的標準,還要滿足以下要求:要有良好的語法和語義,有效的推理支持,表達的方便性以及充分的表達能力。目前本體的描述有很多仍處在不斷發(fā)展演變過程中,具體包括CML、OWL、RDF、OIL等。其中XML是一種可擴展的標記語言,結合了SGML的靈活性和HTML的簡單性,但缺乏完備的語義表達能力。OWL語言吸收了OIL和DAML語言的經驗,能夠把詞匯表中詞條以及詞條之間的語義關系較為清晰地表達出來。
3.3構建方法
建立本體的方式目前還多依賴于手工,由于共同認可的開發(fā)方法的缺失,對不同的本體開發(fā)組而言,其設計標準和原則等都有所不同,但綜合前期的研究結果來看,本體開發(fā)方法有以下幾種類型:①由Fox和Gruninger等人提出的TOVE法,該構建過程包括5個階段。②“骨架”法,該方法首先確定應用范圍和目的,然后構造本體,最后是本體的評價。③KACTUS工程方法,該方法的描述語言是CML語言,這種語言是非形式化的,不能被程序執(zhí)行。在開發(fā)時首先對應用進行說明,然后初步設計相關本體范疇,最后進行本體的構造。④Methontology方法,該方法與軟件工程開發(fā)方法更為接近。除了以上幾種方法,還有基于SENSUS的方法、IDEF5法以及斯坦福七步法。
3.4構建工具
根據本體描述語言,本體的構建工具可以劃分為兩大類,分別是基于Web和基于AI。其中前者包括OntoEdit、OilEd、WebODE等,這類工具有一個明顯的特點就是獨立于特定的語言,利用這種本體構建工具可以把處理好的本體描述格式自由地導入/導出,而且該種本體構建工具的開發(fā)環(huán)境是經過整合的,對大多數構建活動都提供了支持,新模塊的添加步驟也很容易實現,可擴展性較好,能為本體提供更多的組件功能。后者包括Ontolingua、WebOnto以及OntoSau?rus等工具。這三種工具都是基于某種特定語言的,并且這三種工具都在不同程度上對基于AI的多種本體描述語言有支持作用。
3.5構建流程
筆者吸取本體建模方法的優(yōu)點,充分結合了數字圖書館語義知識庫的要求,對基于本體的數字圖書館語義知識庫進行設計。首先是領域知識模塊的建立,該步驟是構建領域知識本體的基礎。其次要面對領域知識本體,要確定其目的和范圍。在該階段不僅要分析領域知識本體的需求,還要對領域知識本體的計劃進行制定。在建設領域知識本體過程中制定計劃是必不可少的,但其經常被無意地忽略,導致在開發(fā)時難以控制開發(fā)過程。再次要對可用本體進行考察。第四步是設計領域知識本體,包括收集和獲取領域知識、重要概念和術語的羅列、知識的概念化、定義類及其等級、定義類的屬性、創(chuàng)建實例。最后進入本體評價階段,評價指標包括本體的幾大特性,若評價指標符合要求,則最終以文檔形式建立本體,若評價指標不符合規(guī)則,則要重新進行本體的設計,直至構建出符合要求的本體。
在數字圖書館中,作為一種重要的技術和方法,知識組織領域本體的應用前景十分廣闊,基于本體構建知識庫在有效提高人們工作質量的同時,還提高了人們的工作效率。截至目前,在數字圖書館中本體的優(yōu)點還未得到完全的發(fā)揮,還沒能完全地開發(fā)數字圖書館的作用,但我們相信,在科技飛速發(fā)展的今天,通過圖書館工作人員的不懈努力,在本體技術的強有力支撐下,數字圖書館的知識服務模式會愈加完善。
[1]王芹.圖書館傳統(tǒng)知識與現代知識服務模式比較分析[J].農業(yè)圖書情報學刊,2009(4):137-140.
[2]李昕騫,饒若楠.一個基于本體的數據服務平臺[J].微型電腦應用,2010(2):21-22.
[3]劉成山,趙捧未,劉懷亮.基于本體的數字圖書館語義互操作模型[J].現代情報,2009(10):56-60.
[4]莊善潔.基于知識管理的圖書館知識地圖的繪制[J].圖書館學研究,2012(10):5-7.
[5]譚玉紅,吳巖.關于學校知識管理中的“知識地圖”研究[J].電化教育研究,2010(3):17-19.
[6]李星星.館藏資源深度聚合及應用研究[D].武漢:華中師范大學,2013.
[7]劉衛(wèi)寧.語義網環(huán)境下數字圖書館信息資源集成模型研究[J].圖書館理論與實踐,2014(1):84-88.
孟玲女,1963年生,館員。研究方向:圖書館信息化。
G250.73
2015-03-17;責編:楊新寬。)