賈君枝,薛秋紅(山西大學經(jīng)濟與管理學院,太原 030006)
面向簡單知識組織系統(tǒng)的術語注冊管理平臺構建研究*
賈君枝,薛秋紅
(山西大學經(jīng)濟與管理學院,太原 030006)
SKOS為知識組織系統(tǒng)提供了表達詞表基本結構和內(nèi)容的通用模型,為實現(xiàn)數(shù)據(jù)關聯(lián)化奠定基礎。但是詞表以SKOS描述后還需要對其進行集中存儲和管理,促進詞表的發(fā)現(xiàn)、重用、管理、標準化和互操作。目前國外術語注冊管理系統(tǒng)的技術已經(jīng)非常成熟,而我國尚缺乏比較成熟的受控詞表注冊平臺。文章對詞表注冊過程進行分析,結合我國GB/T18391.4—2009/ISO/IEC 11179-4:2004元數(shù)據(jù)注冊標準,構建了詞表注冊管理平臺的系統(tǒng)架構,設計跨職能的詞表注冊業(yè)務流程并分析詞表狀態(tài)變化,最后概括出術語注冊管理平臺所需的五個基本功能,并對其實現(xiàn)可利用的關鍵工具進行說明。
SKOS;術語注冊;管理平臺
簡單知識組織系統(tǒng)(Simple Knowledge Organization System,SKOS)的出現(xiàn)為知識組織系統(tǒng)(包括敘詞表、分類表、標題表、術語表、大眾分類表和其他類似的受控詞表等)提供了表達詞表的基本結構和內(nèi)容的通用模型[1]。其將詞表的概念、概念之間的關系和知識結構進行語義化描述,采用機器可理解的方式表達出來,以實現(xiàn)數(shù)據(jù)關聯(lián)化,形成龐大的關聯(lián)數(shù)據(jù)網(wǎng)絡,擴展詞表在其他領域的可用性,提高數(shù)據(jù)的重用性和互操作性。目前使用SKOS模型的數(shù)據(jù)集已經(jīng)超過39種[2],如農(nóng)業(yè)敘詞表、杜威十進制分類法、美國國會圖書館標題表等多種受控詞表。但是,詞表以SKOS編碼方式描述后還需要對其注冊,旨在對受控詞表進行集中存儲和控制,實現(xiàn)詞表的更新管理,促進受控詞表的發(fā)現(xiàn)、重用、管理、標準化和互操作,以更好地提供詞表服務[3]。目前具有代表性的術語注冊的系統(tǒng)有聯(lián)合國糧農(nóng)組織FAO[4]的VEST Registry和Voc Bench、開放元數(shù)據(jù)注冊(Open Metadata Registry,OMR)[5]等。國內(nèi)學者歐石燕對國外主流的詞表注冊系統(tǒng)展開詳細討論后認為受控詞表注冊系統(tǒng)中功能較為強大的是OMR[6],不僅提供詞表的注冊、上傳、編輯、維護,還支持詞表校驗、格式轉(zhuǎn)換的功能,在OMR上注冊的受控詞表和數(shù)據(jù)集已經(jīng)有385個,注冊組織和個人達到156個[7]。目前國外術語注冊系統(tǒng)的技術已經(jīng)非常成熟,而我國尚缺乏比較成熟的受控詞表注冊平臺。
基于以上分析,本文將在對國外OMR系統(tǒng)注冊過程以及系統(tǒng)提供的功能詳細分析的基礎上,結合我國GB/T 18391.4—2009/ISO/IEC 11179-4:2004[8]標準,構建詞表注冊平臺的系統(tǒng)架構,設計多職能的詞表注冊業(yè)務流程圖,分析詞表記錄項的狀態(tài)變化,最后對注冊平臺構建的相關功能和關鍵技術進行研究,以期推動我國詞表注冊平臺的開發(fā)進程。
詞表注冊不僅有術語注冊,還有術語服務。術語服務是在術語注冊的基礎上提供的各類受控詞表的成員術語、概念和關系的Web服務,兩者相輔相成,術語注冊是術語服務的前提和保障。
現(xiàn)將詞表注冊流程分為六步,先進行詞表的機構注冊,再對詞表的元數(shù)據(jù)及其內(nèi)容進行注冊,如圖1所示。
圖1 詞表內(nèi)容注冊流程
(1)注冊詞表的維護機構/所有者
需要填寫詞表所屬機構的基本信息,比如機構名、國際代碼分配符、組織標識符、文檔語言、國家、通信地址、電話、E-mail、網(wǎng)址等機構屬性與聯(lián)系方式。
(2)注冊詞表元數(shù)據(jù)
詞表元數(shù)據(jù)即詞表的基本信息,包括詞表所屬機構、詞表名稱、詞表URL、詞表說明、詞表開發(fā)團體、詞表狀態(tài)、基礎定義域、令牌。其中詞表URL即詞表的地址,該URL可以將整個詞表加載進來;詞匯表的基礎定義域為詞匯表及其術語的腳本URIs;令牌即詞表的一個獨特的表示,可以用作RDF容器類;如某詞表的URL:http://cct.nlc.gov.cn/Classfication,基礎定義域為http://cct.nlc.gov.cn,令牌為Classification。
(3)注冊詞表的頂級模式
記錄詞表整體的通用屬性,以便于對詞表進行參考引用。包含以下信息:詞表的標簽,作為詞表的全名,將會應用在詞表列表中;命名空間的名稱,用來區(qū)分具體的模式;命名空間URI,等同于詞表的基礎定義域+令牌;說明文檔URL,如果該模式有附注的說明文檔,可以通過此URL添加進來;說明文檔注釋,指對說明文檔的解釋;語言,標簽名稱、命名空間等使用的語言。
(4)注冊詞表的概念體系
SKOS表示的受控詞表中,定義了概念體系、概念集合、頂層概念及概念,分別用skos:ConceptScheme/ skos:inScheme、skos:Collection(人名表、地名表)、skos:hasTopConcept、skos:Concept表示。此步驟需要明確所使用的SKOS概念詞匯,并添加所選詞表的概念體系,需確定概念體系對應的URI,該概念是否是頂級概念或者在哪個頂級概念之下、概念術語的狀態(tài)(未完成/發(fā)布等)、發(fā)布的語言等。
(5)注冊屬性
受控詞表中,詞間的語義關系表示概念間的屬性關系,通常采用SKOS詞匯skos:prefLabel/skos:altLabel、skos:borader/skos:narrower、skos:related表示等同、等級及相關關系。另外概念的注釋、標記符號分別用skos:definition、skos:example、skos:historyNote、skos:notation表示。需要將SKOS詞匯注冊到平臺的屬性中,提交內(nèi)容包含屬性的標簽(人類可讀的屬性名稱)、SKOS詞匯(計算機可讀的SKOS元素)、URI、與此屬性相關描述。
(6)將屬性值添加到屬性中
選擇概念對象,為此概念添加已經(jīng)注冊好的SKOS屬性,將具體的屬性值賦予屬性中。填寫的內(nèi)容有屬性類別、屬性值、語言、狀態(tài)。
考慮到SOA架構的簡單、精確定義的接口、粗粒度性、松耦合性、位置透明性、協(xié)議無關性等優(yōu)勢,術語注冊平臺采用SOA架構,共分為四層,如圖2所示。第一層是數(shù)據(jù)存儲層,包括詞表元數(shù)據(jù)、詞表內(nèi)容數(shù)據(jù)、用戶權限數(shù)據(jù)、用戶評論等;第二層是組件層,因基于SOA架構的松耦合性,基于SKOS/RDF數(shù)據(jù)的接口,對該格式的數(shù)據(jù)進行轉(zhuǎn)換從而存儲到關系型數(shù)據(jù)庫中,D2R/Drupal可以實現(xiàn)將關系型數(shù)據(jù)庫轉(zhuǎn)換為RDF數(shù)據(jù)[9];第三層為服務層,本層構建了與詞表的四大基礎應用相關的服務:內(nèi)容校驗、詞表管理、用戶管理、詞表發(fā)布;第四層是應用層,在應用層中,提交組織的主業(yè)務是提交詞表,并管理自己的詞表,審核專家的主業(yè)務是審核詞表,注冊機構主要負責詞表管理及用戶管理。總體而言,就是將SKOS描述的詞表經(jīng)內(nèi)容校驗、格式轉(zhuǎn)換后存儲到關系型數(shù)據(jù)庫中,并對其管理,符合一定的標準后,便由注冊機構使用D2R或Drupal將關系型數(shù)據(jù)庫發(fā)布為關聯(lián)數(shù)據(jù)。以D2R為例,主要由三部分構成:D2RQ Mapping的主要功能是定義將關系型數(shù)據(jù)轉(zhuǎn)換成RDF格式的Mapping規(guī)則,D2RQ Engine 功能是使用一個可定制的D2RQ Mapping文件將關系型數(shù)據(jù)庫中的數(shù)據(jù)映射成虛擬的RDF格式。該文件的作用是在訪問關系型數(shù)據(jù)時將RDF數(shù)據(jù)的查詢語言SPARQL轉(zhuǎn)換為RDB數(shù)據(jù)的查詢語言SQL(結構化查詢語言),并將SQL查詢結果轉(zhuǎn)換為RDF三元組或者SPARQL查詢結果;D2R Server是一個HTTP Server,它的主要功能提供對RDF數(shù)據(jù)的查詢訪問接口,以供上層的RDF瀏覽器、SPARQL查詢客戶端以及傳統(tǒng)的HTML瀏覽器調(diào)用。而Drupal除了可實現(xiàn)關聯(lián)數(shù)據(jù)的發(fā)布,在可視化方面表現(xiàn)突出:支持RDF數(shù)據(jù)可視化,以及與數(shù)字地圖、D3.js的結合使用。
圖2 注冊平臺系統(tǒng)架構設計圖
4.1 多職能業(yè)務流程
詞表注冊系統(tǒng)需要不同角色的人員協(xié)調(diào)管理,基于GB/T 18391系列標準和技術報告,將使用注冊平臺的用戶角色分為四種:提交組織、審核專家、注冊機構以及只讀用戶,業(yè)務流程見圖3。
圖3 術語注冊業(yè)務流程圖
(1)提交組織,即詞表的所有人。提交組織首先要注冊,經(jīng)過注冊機構對其身份審核后,便可登錄提交詞表元數(shù)據(jù),即詞表的基本信息,提交完成后便生成詞表元數(shù)據(jù)表和未完成詞表;點擊未完成詞表便可進行詞表內(nèi)容的提交,可以是完整詞表上傳給系統(tǒng),經(jīng)系統(tǒng)進行詞表校驗后生成候選詞表,也可以是單個概念的提交,也會記錄到候選詞表中。
(2)審核專家,即業(yè)內(nèi)相關領域的權威人士,經(jīng)注冊機構對其身份審核后可登錄查看詞表列表,點擊某個詞表便可以對該詞表中處于候選狀態(tài)的詞進行審核,專家審核后詞表的狀態(tài)轉(zhuǎn)變?yōu)楹细裨~表、失效詞表或者被替代詞表。需要注意的是提交組織和審核專家登錄平臺后對相關詞表的操作都會記錄下來,包括生成時間、修改人員等,生成歷史記錄,便于后期對詞表來源進行追蹤。
(3)注冊機構,其擁有注冊平臺的最高權限,需要對提交組織和注冊機構的用戶信息進行身份核實,查看用戶操作記錄,對惡意用戶進行剔除,編輯詞表列表,刪除虛假詞表和惡意信息;查看詞表內(nèi)容,把專家審核通過后生成的詞表(合格詞表、失效詞表或者被替代詞表)連同詞表元數(shù)據(jù)發(fā)布出去,形成已發(fā)布詞表。
(4)只讀用戶,通??梢圆榭匆呀?jīng)發(fā)布的詞表。
4.2 詞表狀態(tài)管理
從圖3中可以看出系統(tǒng)設定了根據(jù)詞表的管理級別來追蹤管理項從一種狀態(tài)轉(zhuǎn)變?yōu)榱硪环N狀態(tài)的進程,將詞表的狀態(tài)分為未完成、候選、合格、失效和被替代五種。
(1)未完成狀態(tài)。提交者在正常工作的過程中,需要定義詞表的概念類、屬性及其屬性值,以完成詞表元數(shù)據(jù)及內(nèi)容的編輯,需確保定義的準確有效。未完成狀態(tài)到候選狀態(tài)的轉(zhuǎn)變由提交者來決定,當提交者認為所附加的屬性足夠完整時,便可將詞表或者概念的狀態(tài)更改為候選。
(2)候選狀態(tài)。提交者確認必選的術語屬性已經(jīng)完善,便進入候選狀態(tài)。候選狀態(tài)術語由業(yè)內(nèi)相關領域的專家來評審,審查術語屬性是否正確,是否符合相關標準。如果提交的元數(shù)據(jù)屬性不符合上述標準,專家需要反饋給提交組織相關信息或者幫助指南。若確認術語屬性符合管理項的質(zhì)量要求,包括標識符的唯一性和定義的準確性,專家就將該管理項升級到合格狀態(tài)。
(3)合格狀態(tài)。處于合格狀態(tài)的管理項意味著主管組織已經(jīng)確認元數(shù)據(jù)必選屬性完整且概念屬性的質(zhì)量是符合要求的。處于合格狀態(tài)的術語項也可能進入到被替代和失效狀態(tài)。
(4)被替代或失效狀態(tài)。專家需要定期對處于合格狀態(tài)的術語進行審核,判斷其是否應該進入被替代或失效狀態(tài),同樣處于被替代狀態(tài)的術語項也可能會進入失效狀態(tài),專家做出這兩個判定時需要給出簡短說明。
(5)發(fā)布狀態(tài)。經(jīng)專家審核通過的詞表由注冊機構檢查其完整后連同詞表元數(shù)據(jù)一起發(fā)布出去,此時詞表的狀態(tài)改變?yōu)橐寻l(fā)布。
5 基本功能分析
術語注冊管理平臺所需的基本功能有用戶管理、詞表上傳、詞表下載、詞表發(fā)布和詞表維護。
(1)用戶管理功能
包括用戶個人資料管理、用戶權限管理、用戶操作記錄管理和用戶意見管理。其中,個人資料管理需存儲四種角色的個人資料;權限管理是指不同角色的用戶權限不同,由注冊機構從安全級別的角度對資源和對象進行劃分,對不同級別的資源進行訪問控制,并將這種權限賦予角色中;操作記錄管理是指不同角色的用戶對詞表進行修改時,需要對其操作進行記錄,以便對詞表的來源以及狀態(tài)的變化情況進行追蹤;意見管理是指不同角色的用戶都可以發(fā)表對平臺、術語改進方面的意見,參與到術語注冊管理的流程中。
(2)詞表上傳功能
提交組織除了提交單個術語,還可以進行整個詞表的上傳,默認支持SKOS/RDF序列化格式的詞表文檔,上傳的詞表最終存儲在關系型數(shù)據(jù)庫中,涉及SKOS數(shù)據(jù)如何存儲到關系型數(shù)據(jù)庫中,便于對其管理。在解析數(shù)據(jù)時,任何依據(jù)特定本體的RDF工具,都可加載SKOS本體,并可創(chuàng)建SKOS概念,然后在屬性中填入適當?shù)脑獢?shù)據(jù)。
(3)詞表下載功能
以詞表列表的方式展示所有詞表,提供某個詞表整體下載,支持詞表中單個概念下載、可視化圖形下載,同時提供XML/SKOS/JSON三種格式的數(shù)據(jù)下載方式。
(4)詞表發(fā)布功能
注冊機構通過使用關聯(lián)數(shù)據(jù)發(fā)布工具將關系型數(shù)據(jù)庫內(nèi)容發(fā)布出去,允許數(shù)據(jù)消費者包括原始數(shù)據(jù)提供者,以不同的數(shù)據(jù)格式訪問、聚合中央存儲庫的數(shù)據(jù),廣泛支持基于數(shù)據(jù)的下游服務,所有完整的數(shù)據(jù)來源對下游用戶是完全透明的。
(5)詞表維護功能
詞表維護包括詞表狀態(tài)管理和詞表綜合管理。其中詞表狀態(tài)管理是指根據(jù)詞表的狀態(tài)去管理詞表。詞表綜合管理是根據(jù)詞表概念的生成事件日志、跟蹤錯誤記錄以及信息反饋系統(tǒng)獲取診斷和幫助支持,編輯已經(jīng)注冊的詞表元數(shù)據(jù),更新詞表文檔的版本,對同一詞表的不同版本進行控制,擴展支持詞表間的自動映射與集成。
6 結論與展望
術語注冊管理可以實現(xiàn)對詞表的集中存儲和控制,促進受控詞表的發(fā)現(xiàn)、重用、管理、標準化和互操作,以更好地提供詞表服務。本文對該平臺的系統(tǒng)架構、注冊流程、狀態(tài)管理以及基本功能做了具體分析,但是對詞表存儲與管理方面國內(nèi)的技術尚不成熟,國外有許多可利用的工具,如iQvoc用于管理詞匯表的開源工具,具有SKOS導入與導出功能[10],此外SKOS是以RDF為模型,所以還可以利用RDF-aware應用程序開發(fā)工具與庫來自己構建SKOS編輯系統(tǒng)。如何將這些工具嵌入到術語注冊管理的平臺中,將是下一步研究的關鍵問題。
[1] SKOS Simple Knowledge Organization System [EB/OL]. [2016-01-01]. http://www.w3.org/2004/02/skos/.
[2] SKOS/Datasets - Semantic Web Standards [EB/OL]. [2016-01-03]. http://www.w3.org/2001/sw/wiki/SKOS/Datasets.
[3] 歐石燕.國外術語注冊與術語服務綜述[J].中國圖書館學報,2014 (5):110-126.
[4] Liang A C, Lauser B, Sini M, et al. From AGROVOC to the Agricultural Ontology Service/Concept Server: An OWL Model for Creating Ontologies in the Agricultural Domain [C]// Proceedings of the International Conference on Dublin Core and Metadata Applications, 2006.
[5] Hillmann D, Sutton S A, Phipps J, et al. A metadata registry from vocabularies up: the NSDL registry project [C]// Proceedings of the International Conference on Dublin Core and Metadata Applications,2006: 65-75.
[6] 歐石燕.基于SOA架構的術語注冊和服務系統(tǒng)設計與應用[J].中國圖書館學報,2011(5):13-25.
[7] The Registry! [EB/OL]. [2016-01-03]. http://metadataregistry.org/.
[8] GB/T 30524-2014科技平臺元數(shù)據(jù)注冊與管理國家標準(GB)[EB/ OL]. [2016-01-06]. http://www.csres.com/detail/240771.html.
[9] 唐艷春.D2R在圖書館書目數(shù)據(jù)關聯(lián)服務中的應用分析[J].圖書情報工作,2014(14):132-138.
[10] 使用W3C SKOS標準提高分類管理效率[EB/OL]. [2016-01-10]. http://www.ibm.com/developerworks/cn/xml/x-skostaxonomy/.
薛秋紅,女,碩士研究生。
Research on the Construction of the Terminology Registry and Management Platform Facing SKOS
JIA JunZhi, XUE QiuHong
(School of Economics and Management of Shanxi University, Taiyuan 030006, China)
SKOS provides the knowledge organization systems a common model of the expression of the basic structure and content of the vocabularies, which lays the foundation for the realization of data association. However,after encoding vocabulary to SKOS description, it needs to be centrally stored and managed, which promotes the discovery, reuse, management, standardization and interoperability of the vocabularies. At present, the technology of foreign terminology registry and management system has been very mature, while China is still lack of relatively mature controlled vocabularies registry platform. It analyzes how vocabularies registration,combined with China GB/T 18391.4-2009/ISO/IEC 11179-4:2004 metadata registry standards. This paper constructs the system architecture of the vocabularies registry and management platform, designs the business processes of the cross-functional vocabularies registered, and analyzes the changing state of vocabularies. Finally, this paper summarizes the five basic functions required for the terminology registry and management platform and describes tools that can be used.
SKOS; Terminology Registration; Management Platform
G250
10.3772/j.issn.1673-2286.2016.2.003
* 本研究得到國家社會科學基金重點項目“基于關聯(lián)數(shù)據(jù)的中文名稱規(guī)范檔語義描述及數(shù)據(jù)聚合研究”(編號:15ATQ004)資助。
賈君枝,女,1972年生,博士,教授,研究方向:信息組織和信息檢索,E-mail:junzhij@163.com。
2016-01-18)