任妍 龐宇飛 荊欣
摘 要:本文針對數(shù)據(jù)化時代檔案信息資源深層次組織、管理與服務問題,提出了全媒體檔案信息資源語義組織與服務的一般思路,并針對元數(shù)據(jù)語義轉換、檔案數(shù)據(jù)語義分析與表述、語義組織與存儲、語義檢索與服務以及系統(tǒng)實現(xiàn)等相關問題進行初步探討。
關鍵詞:全媒體;大數(shù)據(jù);檔案資源;語義組織;語義服務
Abstract: This paper proposed the general idea for semantic organization and service of omni media Archives information resources in the case of problems faced to deep organization, management and service of Archive information resources in the period of big data. A preliminary discussion was made on related issues such as semantic transformation of meta data, semantic analysis and representation of Archive data, semantic organization and storage, semantic retrieval and service, system implementation and so on.
Keywords: Omni media; Big data; Archive resources; Semantic organization; Semantic service
1 引言
數(shù)字化與數(shù)據(jù)化的過程中,檔案信息資源的載體形態(tài)和載體類型越來越豐富,各類文本、圖形、圖像、音頻、視頻、動畫以及各種類型的三維建模數(shù)據(jù)不斷涌現(xiàn),大數(shù)據(jù)和人工智能技術在信息化進程中的不斷普及和應用也帶來了檔案工作新的機遇和挑戰(zhàn)。檔案工作僅僅處于科學保管和有效利用檔案信息資源層面上,已經不能滿足人們對信息的個性化、便捷化和人性化等方面的更高需求。人們對檔案信息資源的需求不局限于瀏覽檔案的原件,更多的是檔案信息內容,檔案信息資源的語義組織就顯得極為重要。
傳統(tǒng)的檔案信息資源組織過程,一般是根據(jù)檔案信息資源載體類型的不同分別進行加工和處理。在這種情況下,各類信息資源在語義上的相關度往往是通過鏈接的形式進行描述和處理的,語義上的聚合度不是很高,基于內容的檔案信息資源深層次組織、管理與服務難以開展。對于圖形、圖像等異構的檔案全媒體載體形態(tài),單純使用元數(shù)據(jù)描述方式不能滿足檔案信息資源庫語義組織的要求,需要運用模式識別和語義標注等手段,通過智能代理工具和方法,將這類信息進行語義組織和存儲,共同納入檔案信息資源語義知識庫體系[1]。這需要對全媒體檔案信息資源進行語義組織與服務,本文擬在這方面初步研討。
2 語義組織與服務基本思路
全媒體檔案信息資源語義組織與服務的實現(xiàn),需要在圖形、圖像、動畫、音頻和視頻類數(shù)據(jù)的文本化處理和元數(shù)據(jù)組織基礎上進行。非文本數(shù)據(jù)的文本化處理可通過模式識別技術和深度學習算法實現(xiàn),元數(shù)據(jù)組織通過分詞技術和自動著錄與標引技術實現(xiàn)。
本文重點分析元數(shù)據(jù)語義轉換、語義識別、標注、表示、描述、存儲、檢索和提供利用等方面的內容,即全媒體檔案信息資源語義組織與服務的基本流程包括元數(shù)據(jù)語義轉換、檔案數(shù)據(jù)語義分析與表述、語義組織與存儲、語義檢索與服務等四個方面。
元數(shù)據(jù)語義轉換,即利用語義知識庫組織檔案信息的內容,運用檔案語義詞典進行檔案元數(shù)據(jù)語義轉換。
語義分析與表述,即運用詞法分析技術進行信息內容的分詞、詞性標注、句法標注、語義和語境標注。
語義組織與存儲,即通過存儲節(jié)點控制使檔案信息內容按語義關系進行鏈接,按語義關聯(lián)關系進行組織和存儲,形成規(guī)范化的檔案信息內容語義網絡知識體系。
語義檢索與服務,即按一定的技術方法與手段形成檔案信息語義知識管理服務體系,提供檔案信息資源語義檢索和智能服務。
3 語義組織與服務一般框架
3.1 元數(shù)據(jù)語義轉換策略。元數(shù)據(jù)語義轉換策略是在自動著錄和解析的基礎上通過檔案語義詞典生成檔案信息語義集合的策略。
元數(shù)據(jù)著錄標引。檔案著錄標引是按照檔案著錄規(guī)則、中國檔案主題詞表、中國檔案分類表進行的,其中檔案元數(shù)據(jù)主要包括題名、檔號、檔案館(室)代號、分類號、主題詞、關鍵詞、提要、文件號、責任者、載體類型、載體形態(tài)、保管期限、密級、文種、稿本、形成時間、附件、鏈接地址、正文等。元數(shù)據(jù)著錄標引在現(xiàn)有的檔案管理信息系統(tǒng)中已經具有一定的積累,是生成檔案信息語義集合的數(shù)據(jù)基礎。
檔案語義詞典的建立。檔案語義詞典可參照國家檔案局頒布的關于檔案元數(shù)據(jù)和檔案基本數(shù)據(jù)規(guī)范[2],資源基礎是檔案原生數(shù)據(jù)及其元數(shù)據(jù)集合?!吨袊鴻n案主題詞表》的基本結構分為主表、附表和輔助索引三大部分,包含字順表、范疇索引、詞族索引、主題詞索引等。字順表作為主題詞表的主體,可以通過詞性分析,進行語義關聯(lián)規(guī)范化組織,建立檔案信息語義分析系統(tǒng)的基本詞匯控制數(shù)據(jù)集合,為檔案信息資源的語義組織和分析提供語義結構標準化和系統(tǒng)化控制基礎[3]。
語義集合的生成。在語義詞典確定的基礎上,通過模式識別等技術對全媒體信息源進行文本化處理,利用分詞技術實現(xiàn)詞匯的提取,進而進行語義關聯(lián)分析并生成語義信息集合。
檔案信息內容的文本語義抽取。從檔案的原生數(shù)據(jù)源之中識別和標注相關信息,并按照一定的標準和規(guī)范對這些信息進行語義化描述,形成語義信息集合。在此基礎上,對檔案信息資源的內容、背景、時空環(huán)境、載體形態(tài)等進行內外多維度語義屬性、特征、句法依存等關聯(lián)分析,形成檔案信息資源語義詞表和句法關聯(lián)信息集合[4]。
3.2 語義分析與表述方法。語義分析是運用語義區(qū)分量表對信息內容進行表述的方法。相對于關鍵詞和元數(shù)據(jù),語義分析對于信息內容涉及概念表述更加全面和準確,所產生的歧義更小,詞語和句法的關聯(lián)度更強。一般來講,語義關聯(lián)關系是基于上下文的語義之間的同一性、隸屬性、相關性、間接性、直接性等關系[5]。
通用的語義關聯(lián)分析方法是檔案信息資源語義分析的重要參考。檔案信息資源是各類社會職能活動中所產生的原始記錄,每一份檔案材料內容都與人們所從事的社會實踐活動密切相關,都有其相應的立檔單位特點、組織和活動風格、產生的時代背景、工作性質、社會環(huán)境等,有其特定的語境,以及語義和語境的關聯(lián)關系。檔案信息資源與其他數(shù)字資源一樣可以運用字串語義、文本語義、圖片語義、音頻語義、視頻語義、語義索引、語義匹配等語義關聯(lián)分析方法進行處理。
語義分析與表述的基本方法。首先,通過語義特征分析,進行概念標注與描述,以明確所涉及的信息內容相關概念以及概念的屬性和相互之間的關系,通過對檔案信息資源多種媒體元素的內容屬性分析與標注,揭示相互之間的語義關聯(lián)性;其次,進行語義相關度分析和語義描述,針對各類詞語在檔案信息資源內容上下文之間的關系,通過一定的模型和算法確定相互之間的語義關聯(lián)度和相似度并形成檔案信息內容語義元素關聯(lián)網絡集合[6]。
3.3 語義組織與存儲技術。檔案信息內容的語義組織包括檔案信息資源內容體系和知識體系的語義關系組織、詞匯體系與元數(shù)據(jù)體系的映射關系組織等各個方面[7]。
全媒體檔案信息語義組織可以運用本體工具對檔案信息內容所涉及的概念以及概念之間的關系進行加工處理,據(jù)此完成檔案信息資源的內容、需求的語義組織以及建立兩者之間的語義鏈接。
語義描述和組織一般使用融合自然語言處理的語義網技術進行標注、表示、描述、組織和存儲。目前所使用的語義網技術包括資源描述框架RDF(Resource Description Framework)、網絡本體語言OWL(Web Ontology Language)。RDF使用SPO(Subject Predicate Object)三元組定義語義模型,并通過類、屬性以及關系形成語義網絡模型。OWL使用本體(Ontology)定義的語義模型進行描述。在此基礎上可以實現(xiàn)語義抽取、語義表示、語義融合、語義推理、語義檢索等操作。利用Java工具箱Jana,可以支撐RDF與OWL語義網應用并利用Apache Jena Fuseki服務器完成語義網數(shù)據(jù)的存儲與服務。
3.4 語義檢索與服務系統(tǒng)。全媒體檔案信息資源語義組織與服務系統(tǒng)的基本結構有語義組織層、語義關聯(lián)層、語義應用層等三個層次。
語義組織層,對檔案信息資源的內容進行語義分析并形成檔案信息資源語義本體結合;語義關聯(lián)層,將檔案信息的內容進行語義化組織并進行語義化關聯(lián),形成語義關聯(lián)網絡數(shù)據(jù)集合;語義應用層,按照應用層的服務需求,根據(jù)語義關聯(lián)的檔案信息內容,提供語義檢索服務[8]。
語義檢索與服務系統(tǒng)的三層結構包含檔案信息本體數(shù)據(jù)庫管理機制、語義本體推理機制、語義知識檢索機制、語義應用控制機制等,通過系統(tǒng)集成共同構成人機交互的全媒體檔案信息資源語義組織與服務體系。
參考文獻:
[1]張倩.語義Web技術對高校檔案信息檢索工作的應用價值[J].城建檔案,2018(02):85-87.
[2]張素萍.基于語義的電子健康檔案信息組織模式[J].醫(yī)學信息學雜志,2015,36(09):65-68.
[3]段榮婷.基于簡約知識組織系統(tǒng)的《中國檔案主題詞表》語義網絡化應用研究[J].檔案學通訊,2011(02):72-75.
[4]徐一男,李禾.基于藝術語義特征抽取的藝術檔案信息聚合初探[J].圖書情報導刊,2017,2(04):52-56.
[5]呂元智.數(shù)字檔案資源跨媒體語義關聯(lián)聚合實現(xiàn)策略研究[J].檔案學研究,2015(05):60-65.
[6]石秀春.數(shù)字化檔案信息的語義相似性研究[J].檔案學研究,2013(02):51-53.
[7]林周佳.檔案的語義級檢索技術研究[J].檔案與建設,2007(09):24-25.
[8]譚靜.基于語義關聯(lián)的高校圖書情報檔案數(shù)字資源整合研究[J].圖書館學刊,2016,38(11):38-40+45.
(作者單位:任妍,武漢大學信息管理學院;龐宇飛、荊欣,鄭州航空工業(yè)管理學院 來稿日期:2018-12-20)