摘? 要:文章從知識組織體系KOS和元數據標準框架對文獻系統(tǒng)信息組織的不同作用入手,提出了網絡環(huán)境下學科文獻系統(tǒng)的“KOS-元數據”融合知識組織模型,對模型在文獻系統(tǒng)的信息描述、組織與控制功能進行了剖析。針對領域知識的特點和文獻特征,結合文獻需求和利用的規(guī)律,提出了國史文獻集成描述元數據框架,并詳解了基于工具書語料進行國史學科概念模型分析和國史本體知識庫的構建。
關鍵詞:學科文獻系統(tǒng);知識組織;知識組織體系;元數據標準;國史學科本體
中圖分類號:TP39;G254 文獻標識碼:A? 文章編號:2096-4706(2023)09-0133-04
Abstract: Starting from the different roles of knowledge organization system KOS and metadata standard framework on the information organization of subject literature system, this paper puts forward the “KOS-metadata” fusion knowledge organization model of subject literature system in network environment, and analyzes the information description, organization and control functions of “KOS-metadata” model in subject literature system. According to the characteristics of domain knowledge and subject literature, combined with the regular pattern of literature demand and utilization, this paper puts forward the metadata framework of integrated description of national history literature system, and presentation in detail subject conceptual model analysis to national history domain and the construction of national history ontology knowledge base based on reference book corpus?
Keywords: subject literature system; knowledge organization; knowledge organization system; metadata standard; national history domain ontology
0? 引? 言
知識服務型學科文獻系統(tǒng)以知識組織為切入點,借助知識組織工具對學科文獻集進行基于學科知識組織范式的知識描述和基于知識邏輯的組織控制,從而支持系統(tǒng)在“混沌”的文獻環(huán)境下重構資源組織方式,確保文獻知識服務的深度與力度。系統(tǒng)是由文獻資源、領域知識、服務、信息生產者和消費者共同構成的空間,以技術和相關標準為支撐,其體系結構除了資源層、功能層、表現層,還應有一個相對獨立的信息結構層,承擔文獻資源、知識資源與用戶需求的邏輯聚合和控制管理。在知識組織環(huán)境下,如何規(guī)劃和架構信息結構層的學科文獻知識組織模型,是學科文獻系統(tǒng)建設的重要議題。
1? 信息組織工具的發(fā)展
元數據標準規(guī)范提供對文獻資源庫及其環(huán)境進行結構化、有序化、形式化描述和組織的規(guī)范,它定義資源的信息結構和資源庫的組織結構,對文獻資源對象外部屬性和顯性特征實施規(guī)范化描述,是實現對文獻系統(tǒng)中文獻進行一體化組織、融合、管理和控制的最基礎的組織范式。盡管元數據結構層對不同層次、不同領域以及不同粒度的資源按照統(tǒng)一的符號系統(tǒng)進行標注和組織,并通過索引文件中元數據與文獻記錄之間耦合關系管理建立與資源層文獻集的直接映射,但是傳統(tǒng)的元數據信息組織是以每一個文獻單元為切入點,缺少對深藏在文獻內容中的知識因子及其語義關系的深入揭示,所以只能向用戶提供簡單的檢索機制,推送問題解答的物理解。
在知識計算等技術的推動下,從元數據標準體系到分類系統(tǒng)和敘詞表、再到知識本體等多維度知識體系范式,知識組織的方法和工具得到了不斷的繼承和發(fā)展,通過語義關聯技術、本體方法論構建的形式化的多維度的知識體系KOS,為文獻系統(tǒng)中發(fā)現隱性知識和關系提供了概念模型和知識處理規(guī)則,可作為語義化和關聯化知識組織規(guī)范,在多個維度對文獻內容所包含的細粒度的知識元及其關聯關系進行挖掘與描述,支持從知識角度深化學科文獻組織,使得文獻資源成為富語義對象的高度組織化的知識資源,由此,學科文獻系統(tǒng)的信息組織實踐突破文獻單元的局限向精細化發(fā)展,為最終向用戶提供以知識單元為基準的更全面更精準的知識服務奠定基礎。
2? KOS-元數據體系
文獻資源規(guī)范化組織的主要目的是方便共享和利用,元數據體系和KOS在建立信息組織系統(tǒng)與資源實體關聯映射和控制能力、實施文獻精細化描述組織和提升資源利用效能方面各有所長,如果說元數據規(guī)范是符合統(tǒng)一性、表達性、易用性原則的符號組織體系,KOS則建立了對文獻資源內涵知識(包括顯性和隱性知識)進行基于領域知識的規(guī)范化描述解析的知識處理規(guī)則——概念組織系統(tǒng),為全面改善對學科文獻資源的語義理解和組織控制,支持系統(tǒng)對其實施基于學科知識邏輯的組織控制,學科文獻系統(tǒng)應綜合運用元數據體系和形式化的多維度KOS兩類知識組織方法和工具,建立符號組織系統(tǒng)和概念組織系統(tǒng)融合的知識組織模型——“KOS-元數據體系”模型。
文獻系統(tǒng)通過符號組織系統(tǒng)的“通用元數據”對文獻集實體的粗粒度外部屬性和文獻整體結構的顯性特征進行統(tǒng)一規(guī)范化標注,使文獻資源有了基本的微觀結構,并通過索引文件建立與文獻資源倉儲——關系數據表的關系管理和映射,保證對不同層次、不同結構、不同粒度的文獻數據按照統(tǒng)一的符號系統(tǒng)展現并實施統(tǒng)一控制;再采用“概念組織系統(tǒng)KOS+學科知識元數據”作為其語義描述框架,對學科文獻的隱性知識內涵進行挖掘,并在知識元數據框架下實施多維度知識概念及其關系的組配語義標注,建立隱性知識單元與文獻資源實體之間的映射關系和復雜的關聯關系。在這一融合知識組織模型驅動下,所有文獻資源被組織到基于本體的知識網格KOS中,KOS中屬分關系、主題詞及概念語義關系得以通過索引文件建立與文獻資源實體的映射,學科文獻資源集成為以知識本體為中心并結合作者、篇名、關鍵詞、出版者等外在特征單元的極大增值的“KOS-元數據-文獻集”知識資源網絡,為通過知識元網格對文獻實施有效管理控制并按需流動提供手段,如圖1所示。
這種關聯和映射通過RDF/XML等具有較高開放水平的國際通用元數據標準文件格式進行規(guī)范,將文獻的標題、作者、版權等微觀結構信息與知識概念等描述文獻實體對象所需要的全部數據項集合置于統(tǒng)一信息描述框架下,不僅確保能夠更方便地被計算機處理,還通過文件格式層面的可關聯性對數據共享過程進行優(yōu)化,從而解決傳統(tǒng)元數據組織系統(tǒng)并不能完全解決的知識資源組織聚合中結構異構和語義異構問題,提高文獻資源可發(fā)現、可獲取性和互操作性。
3?; 國史學科文獻描述元數據構成
在擁有完備學科知識體系KOS作為知識組織范式的文獻系統(tǒng)中,其描述性元數據標準應確保對文獻實體對象外部顯性特征和文獻屬性、內部知識語義內涵進行全面深層次描述,為系統(tǒng)開展文獻資源組織、管理和共享利用提供必要的輔助工具。參考張曉林描述的元數據技術體系,學科文獻系統(tǒng)描述性元數據框架應包含通用元數據和學科語義元數據,主要采用DC元數據標準中的核心元數據元素并擴展融合學科元數據元素,形成學科文獻系統(tǒng)集成元數據標準。
DC是當前認可度較高的對網絡文獻資源外部屬性特征進行結構化描述的通用元數據標準,為解決標準之間的差異化和基于元數據的資源利用和交換等操作提供規(guī)范。學科通用元數據的制定應結合學科文獻系統(tǒng)特點,結合國史文獻的收集、描述、管理和使用的需求,直接復用選擇標準中通用的核心元數據,并按照擴展原則制定滿足特定需求的擴展方案。由此,經過充分調研,制定了如下認可度高、便于學者更快更好地接納和利用的國史學科核心元數據集合:叢書名、卷期、書名、出版社(出版者)、書號、版本控制、作者(編者)、篇名、摘要、來源出版物、發(fā)布單位、語種、發(fā)表日期、出版日期、內容全文、格式、關鍵詞、資源說明、關聯資源之間的超鏈接、權利控制(密級)、PDF對象等,其中叢書名、卷期、版本等字段反映了在文獻篇目利用時需要參考原始圖書相關版權信息的場景,PDF對象字段便于在引用文獻篇目內容時進行原文核對和提供參考文獻頁碼,對于提供原始圖書目錄導航和順序瀏覽模式的場景,還應提供隱含目錄結構的屬性字段,元數據標準制定充分考慮文獻利用特點可見一斑。
語義元數據是對文獻內容的隱性知識內涵進行學科化描述的知識元數據,根據領域知識特點、結合KOS知識組織模型和學者實際需要制定,既要提供將等級分類體系、知識本體、敘詞表等多維學科語義工具融于一體組配標引的手段,還要呈現出學科研究主題特征和獨特視角。國史學科文獻系統(tǒng)語義級元數據的制定則圍繞學科性質、史料特點以及學者使用文獻的具體場景和目標展開,國史文獻史料包括文件文集、年譜傳記、法規(guī)條約、統(tǒng)計年鑒、紀實回憶和編年大事記、專題解密檔案等一手檔案資料,反映了歷史研究重視考據的治學特點,應根據不同類型文獻的學科特征和文獻利用的規(guī)律特點進行特色語義元數據設計,實現對史料的深層次標引和高質量組織,滿足多樣化的史料利用需求。如“中央文件選集庫”設置“發(fā)文單位”“收文單位”“關聯附件”和“發(fā)布或通過日期”等字段用于實現對文件內容中顯性或隱性特征的抽??;“國史編年庫”則著錄“涉及文獻”“涉及機構”“涉及人物”等字段;對于提供國史知識圖譜檢索和導航服務的系統(tǒng),則應針對國史本體全部核心概念進行著錄;“經濟檔案庫”由于原書按主題進行內容組織,一篇完整的檔案被拆成若干片段匯編在叢書不同卷章中,若特別標引“檔案出處”則給用戶提供了通過檢索“檔案出處”恢復散落在不同卷章的完整檔案的可能。此外如分類和主題特征、文獻史料類型等應用率較高、專指性強的元素都可以納入學科語義元數據方案。這樣的元數據方案為蘊含了豐富知識元和多維語義關聯的文獻知識和信息提供了分解與組合極為便利的標引方案,使得信息組織的控制單元不再局限于文獻層次而深入到內容中的知識單元和史料信息線索,為提供精準高效的學科知識服務提供極大便利。
4? 國史學科知識本體構建初探
學科知識體系KOS是對領域概念及其相互關系進行描述和組織的專業(yè)知識系統(tǒng),是實現基于語義網的知識服務的核心和基礎。學科本體的構建過程涉及識別存在于文獻中的知識模式、挖掘具有潛在效用的學科知識和信息之間知識關聯、建立特定知識本體構建的流程化工作機制,是一種系統(tǒng)化的高級信息處理過程。作者所在國史信息組織實驗室對國史知識的語義揭示和組織方法進行了研究,并利用工具書語料對國史學科的事實(知識)部分進行了本體構建探索,建立了國史學科本體知識庫。
分析領域內概念及其相互關系和統(tǒng)一知識建模是最關鍵的第一步。國史百科和辭典的詞條包含國史人物、事件、會議、文件社論與著作講話、路線方針、名詞術語、團體組織等類型,提示了具有本體雛形的一組核心概念,結合通讀通史稿提取的領域知識主題特征,確定國史知識包含“人物”“事件”“會議”“組織與機構”“歷史文獻”“理念與術語”“時間”“地點”八個核心概念;每一條目內容編寫都遵循一定體例,包含大量高度濃縮的國史知識,其中含有可以大量獲取的模式,對工具書詞條和史料文本進行自然語言分析(句法、詞法)是模式獲取的重要手段。如圖2所示,黨史大辭典中“一屆全國人大一次會議”條目的內容提示“會議”概念的屬性有“會議時間”“會議地點”“參會者”“發(fā)言人”“會議報告”“相關理念”“通過文獻”“任命或選舉職務”等。
依此類推,根據大量文本自然語言模式提煉出國史各類概念的屬性和對象間關系,手工建立國史概念關系模型如圖3所示,每個表格代表一個本體類及其屬性,虛線及線上的文字代表不同類概念間的關系。如事件通過屬性“參與人”與人物發(fā)生關聯,會議通過屬性“會議通過文件”與文件發(fā)生關聯,等等。
概念模型給出了將非結構化文本中發(fā)掘的語義數據進行顯式重構的基本可循的知識描述框架,知識庫構建就是通過對含有豐富語義的非結構化詞條文本進行對象的縱深挖掘和知識抽取,對本體初始框架進行充分實例化、添加事實的過程。知識庫構建過程的數據流圖如圖4所示。編輯實例時,首先以詞典中詞條名稱為基礎實例,遴選其詞條作為基礎實例事實編輯的輔助文本,系統(tǒng)通過基礎實例對詞條素材進行語義標注和人工詞法句法分析,根據文本包含的事實進行關系編輯,對事實中所涉新增主體或客體則轉化為新的實例,與基礎實例一起再用于語義標準。這一過程不斷循環(huán)迭代、不斷采選更多素材、不斷涌現出更多事實和實例,結構化存儲后最終形成機器可讀的知識庫。這一過程就是所謂的以模式為驅動、自底向上的領域本體構建過程。項目設計的“本體構建軟件平臺”,承擔概念關系模型構建、遴選和標注知識素材、事實編輯加工、本體知識庫存儲管理等功能,實現了上述流程化工作機制。
國史學科語義本體本身是一個事實數據庫,以其豐富的術語資源和概念間的復雜學科邏輯語義關聯,繼承了巨大的文本實體知識,反映了學科概貌,能夠提供機器可理解的語義知識網絡,解決知識組織體系形式化問題,同時領域本體完成了統(tǒng)一語詞和詞義消歧、實體共同指代解析等經典問題,使機器對文獻中隱含的知識語義有了共同的認識和理解。作為國史學科文獻系統(tǒng)知識組織范式,可將包含在國史文獻中的知識及其豐富的聯系挖掘出來,實現文獻的概念的規(guī)范控制與多元化表達,建立文獻數據間的深度關聯,并進一步被基于語義的各種應用和服務所共同理解,通過對知識的計算組織和智能處理實現對文獻資源基于本體知識邏輯的語義級知識組織,為文獻的動態(tài)聚合、控制以及知識可視化檢索獲取和關聯導航打下基礎。
5? 結? 論
以語義網技術和標準為支撐,根據知識表現的特點和服務需要構建的學科元數據學科標準體系,結合學科分類體系和語義本體知識庫構成了融合的知識組織模型,通過知識組織工具對學科文獻資源進行全面的隱性知識挖掘和完備的規(guī)范標引加工,文獻資源集成為有豐富鮮明學科知識特征的結構化知識資源形態(tài),推動了對文獻資源組織管理和控制的能力的改進,對領域知識服務模式創(chuàng)新將產生深遠影響。
參考文獻:
[1] 成全,羅棟,鐘晶晶.知識組織的理論緣起及演進路徑探析 [J].圖書館論壇,2014,34(11):26-34.
[2] 孫輝.基于引文分析的當代中國史學科文獻需求與特色資源建設研究 [J].情報探索,2016(9):1-6.
[3] 孔敬.大數據時代專題文獻數據庫系統(tǒng)設計 [M].北京:中國社會科學出版社,2017.
[4] 雷楓.語義互聯國史百科的知識組織研究與實現 [J].科研信息化技術與應用,2015,6(3):24-34.
[5] 李慧佳,王楠.基于語義關聯的智庫資源知識組織研究 [J].圖書與情報,2020(1):120-126.
[6] 張曉琳.元數據研究與應用 [M].北京:北京圖書館出版社,2002.
[7] 孫坦.開放信息環(huán)境:學術圖書館信息資源建設的重定義與再造 [J].中國圖書館學報,2013,39(3):9-17.
[8] 賴璨,陳雅.我國近十年知識組織技術研究進展分析 [J].數字圖書館論壇,2020(12):9-16.
作者簡介:雷楓(1968—),女,漢族,四川資陽人,副研究館員,碩士,研究方向:信息組織和學科知識體系。