基于關聯數據的藏學文獻資源發(fā)布方法研究

2016-10-31 18:43艾金勇

電腦知識與技術 2016年22期

艾金勇

摘要：為了解決藏學文獻發(fā)布使得語義關聯度低的情況，該文嘗試了利用關聯數據實現藏學書目數據的發(fā)布，在調查分析藏學文獻數據組織現狀并研究了關于關聯數據發(fā)布的技術和方法之后，研究實現了基于D2R的藏學書目數據的發(fā)布，并通過實例驗證了其可行性。研究結果表明使用關聯數據標準發(fā)布藏學書目數據，有助于藏學文獻數據的公開、復用和傳播。

主題詞：關聯數據：藏學文獻：發(fā)布

中圖分類號：G356.7 文獻標識碼：A 文章編號：1009-3044（2016）22-0003-03

1 背景

藏學文獻是記錄有關藏族及藏族地區(qū)的知識的一切載體[1]，其記錄的內容包括了藏族的風俗習慣、生活知識、科學信息、社會事件以及民族文化等，藏學文獻的數量浩繁，種類繁多，除去漢文文獻之外在民族文字文中位于首位。因此展開藏學文獻的收集整理對于傳播藏族文化，對于西藏的社會經濟文化方面的研究發(fā)展都有重要的促進作用，也是藏族生活發(fā)展和與其他民族文化融合的基礎和前提。

在信息化飛速發(fā)展的條件下，藏學專家和藏學文化愛好者也有了日益激增的信息需求，他們希望更多的人關注藏學領域的交流、合作與發(fā)展，以便有機會推動藏學研究者們能夠在廣闊的學術環(huán)境中與其他學術交流，擴大藏學發(fā)展的途徑，開辟更加廣闊的藏學研究領域，推動藏學研究的整體發(fā)展。但是鑒于藏學文獻管理方式的落后，以及藏學文獻收藏機構在觀念、體制、資金等諸多因素的制約，使得藏學文獻資源的共享檢索還未能實現。雖然目前已經有些藏書機構建成了可檢索查詢的藏學資源庫，但是由于數據庫建設缺乏統一的規(guī)范和標準，而且數據庫內容和完成的質量較低，因此在資源的全面性和標準性上都不能滿足標準，既沒有實現共享檢索，也沒有實現數據資源的異地共建，所以對于其他藏學研究者來說藏學文獻的獲取比較困難，更難以說滿足西藏經濟發(fā)展和讀者的實際需求。因此，越來越多的藏學研究者希望能夠通過現代化技術，制定藏學特色資源庫的建設標準，完善藏學特色資源庫的管理開發(fā)系統，利用網絡技術實現資源內容的共建共通，為用戶提供多種模式、多載體的可共享的藏學信息資源的檢索下載方式，從而形成獨具民族特色的藏學文獻資源服務體系。

關聯數據（ Linked Data）根據數據目標的內在聯系實現數據的組織和關聯，它的提出為實現藏學文獻資源的共建共享提供了一種實現方式。當前，在圖書館界已經有了很多關聯數據應用于文獻資源管理服務的方法，并且對于資源的數字化共享有著很好的推動作用。鑒于此，本文在當前研究的基礎上，探索藏學文獻數據的關聯數據創(chuàng)建問題，使得現代資源庫建設的技術更好地服務于藏學資源的管理，從而可以向用戶提供藏學文獻的語義關聯檢索，更好地滿足藏學文獻用戶的需求，提高藏學文獻的利用率。

2 藏學數字化發(fā)展現狀

國外在藏學數字化方面的發(fā)展比較快。目前美國弗吉尼亞大學已經建成了藏文信息庫，包含了基本的檢索功能，其所提供的藏學研究論文庫已經得到了大規(guī)模的使用。美國國會圖書館計劃實現佛教大藏經的全文輸入，并且通過瀏覽器可以實現網上關于佛教大藏經的全文查閱。英國牛津大學也單獨成立了研究藏文文獻的西藏和喜馬拉雅研究中心，研究中心目前主要是對于藏文文獻的收集和數字化工作，目前已經有了一定數量的積累。國外的這些藏學文獻的數字化工作也為我國藏學文獻數據庫的建設提出了新的挑戰(zhàn)，因此國內的藏學收藏機構也加快了藏學資源的現代化建設進程。

但是國內藏學文獻資源建設由于受主觀與客觀條件的限制，藏學文獻的主要收錄地區(qū)--西藏地區(qū)缺乏對藏學資源建設的規(guī)劃，西藏各收藏機構在藏學資源建設的經費和建庫方式上都缺乏交流，而且資源庫建設中沒有成型的建庫規(guī)范和技術標準，使得藏學文獻庫的建設質量和數量都有一定的制約。

國內的藏學文獻資源數據庫建設中主要存在四個問題，一是藏學資源庫的服務范圍受限，基本都是局域網內的使用，所以數據庫建設的方式和檢索模塊隨意性強，互相沒有關聯和溝通；二是藏學文獻本身的分類標準不明晰，不同的藏書機構對于藏學圖書的分類方式上存在多種分類法并存的現象，所以各機構的文獻信息之間也就不能實行有效銜接；三是資源庫的加工標準不一致，且普遍存在數字化過程中重數量，輕質量，導致存在很多的錯誤數據和遺漏情況；四是藏學資源的數字化技術尚不成熟，各藏學文獻資源收藏單位在文獻資源的網絡化、數字化建設進展緩慢[2]。

3 關聯數據及其實現

3.1 關聯數據的概念

關聯數據是國際互聯網協會（W3C）推薦的一種用來發(fā)布和聯接各類數據、信息和知識的標準[3]，主要是為了解決Web網絡中的語義缺失現象，通過各類數據、信息和知識的鏈接發(fā)布構建出互相聯系的語義網絡，改變文件網絡的共享傳播方式，進而通過互聯網構建一個富含語義的、互聯互通的知識海洋。

關聯數據事物、特性和關系的表達通過RDF模型實現。RDF模型實現資源描述是由主語（Subject）、謂詞（Predicate）和對象（Object）三元組來完成的，每組三元組構成一個聲明。其中主語是需要描述的對象資源，RDF模型的主語即可以具有數值型屬性，也能夠為另一資源對象的標識的對象型屬性；謂詞是關聯主語和對象的紐帶，也可以用URI形式表示；關聯數據通過RDF鏈接機制實現數據內部隱藏的客觀實體與抽象概念的隱含關聯，強調數據之間隱含關系的相互關聯、聯系以及幫助理解的語義信息，用戶可以通過語義關聯的RDF鏈接瀏覽整個知識網絡，是實現語義網絡的關鍵，通過關聯數據實現了從文件網絡向數據網絡轉化的一種優(yōu)化策略，利用RDF鏈接機制實現網絡上相關的知識資源的關聯。

3.2 關聯數據的發(fā)布流程

Tim Berners-Lee于 2006 年為關聯數據總結了四個原則，成為“關聯數據”理念的基石。1）使用URI來標識事物；2）使用HTTP URI使人們可以訪問到這些標識；3）當有人訪問到標識時，以RDF形式提供有用信息；4）盡可能提供關聯的URI，以使人們可以發(fā)現更多的資源對象[4-5]。

沈志宏等人基于該原則，根據科研資源的實際，提出了科研資源關聯數據發(fā)布的六大關鍵步驟：數據建模、實體命名、實體RDF化、實體關聯化、實體發(fā)布、實體查詢[6]。游毅則概括性地將關聯數據通過數據轉換和Web 發(fā)布兩步來實現面向網絡用戶的自由訪問、存取和查詢[7]。

就藏學文獻關聯數據的發(fā)布而言，本質上就是改變原有藏學文獻的發(fā)布方式，利用轉換工具將原有的藏學文獻元數據轉換為對應的RDF模型表示，建立資源的URI標識。同時，為了實現藏學文獻在語義層面的相互關聯，還需要在概念層次和實體上進行關聯。最后，對關聯數據進行Web發(fā)布，最終實現面向用戶的數據發(fā)現、瀏覽與查詢功能。

基于上述表述，本文關于藏學文獻關聯數據的發(fā)布過程包括三個步驟：首先需要將藏學文獻的元數據轉化為符合數據模型的RDF三元組形式并賦予元數據中實體與概念以唯一可解析的標識，從而形成適于關聯數據環(huán)境的資源描述文檔。其次，將藏學文獻元數據中原本存在的數據關聯（如關系型數據庫中的主外鍵關聯）轉換為文檔中實體或概念間的語義鏈接同時構建指向外部關聯數據集的語義鏈接，從而體現關聯數據中藏學文獻的語義關聯特性；最后還需要利用內容協商機制中的重定向策略或策略將藏學文獻關聯數據文檔發(fā)布到網絡中，并利用解析或SPARQL查詢機制提供適用于各類應用程序的數據訪問、瀏覽與查詢功能。

4 基于D2R的藏學文獻資料發(fā)布

D2R（Database to RDF）將關聯數據看作數據表的一種視圖，其服務模式是基于數據庫和目標RDF術語間聲明的映射，能夠對關系型數據庫產生一個關聯數據視圖，并支持RDF瀏覽器和SPARQL端點對關系型數據庫的訪問，其核心是正確地實現和配置映射關系?；贒2R的藏學文獻關聯數據發(fā)布流程包括數據集的構建、關系數據庫及其關聯關系的確立、D2RQ（Database to RDF Query）語義映射、使用 D2R發(fā)布關聯數據。

4.1 數據集的構建

目前藏學圖書書目主要參照漢文圖書的編目格式CNMARC進行著錄，CNMARC雖然從各個方面全面的描述了藏學書目的信息，并且都有嚴格的定義格式，對于數據的揭示非常完整，但是由于CNMARC一共有幾百個字段來進行描述，而對于用戶的語義檢索而言，大量的屬性字段是沒有意義的，因此本文選取了能夠反映文獻內容且能區(qū)別于其他書目記錄的字段作為元數據本體的屬性。

本研究中構建的元數據本體主要是用于描述藏學的圖書資源，在圖書領域，基于大部分關于圖書描述的大型機構均采用Dublin Core作為元數據標準，故本研究選擇復用DC元數據構建核心元數據本體，同時由于在圖書中還涉及任務的相關信息，所以還重用了FOAF元數據的部分本體屬性。然后針對藏學書目數據以作品為中心進行描述，通過鏈接形式連接該作品某一屬性的其他描述形式，通過屬性記錄之間的關聯鏈接形成一個關于書目知識描述的網絡。

4.2 關系數據庫及其關聯關系的確立

4.2.1 關系數據庫的創(chuàng)建

啟動SQL Server 2005，建立Tibet 數據庫，在Tibet數據庫中依次建立作品、責任者、出版者和主題詞四個實體類對應的數據表，分別為作品（作品ID，責任者ID，出版者ID，標題，主題，ISBN，分類號，語種）、出版者（出版者ID，出版者名稱，所處城市，郵編，隸屬機構）、責任者（責任者ID，姓名，性別，國籍，出生日期，出生城市，介紹）、主題詞（主題詞ID，主題詞，上位詞，下位詞），并分別為各個表設置相應的主鍵和外鍵。

4.2.2 內部數據的關聯關系的構建

1）不同表之間的關系。數據表即為RDF模型中的實體，不同表之間的關系也就是實體之間的關系，這些關系表現為RDF中的關聯鏈接。在關系數據庫中，不同表之間的關系可以根據關系的不同分別加以處理：a.外鍵引用關聯關系的數據處理，這些數據的關聯數據發(fā)布中需要標識出這種顯性構建的關聯關系。b.屬性關聯關系的數據處理。例如出版者和責任者，都有城市屬性，表明兩者存在一定的關系，則可以d2rq： refersToClassMap map：出版者和d2rq：join"出版者表. 所處城市=>責任者表.出生城市" 來構建這種關聯關系。

2）同一表的內部關系。一個表及其列之間存在的一對多的關系，可通過ClassMap及 PropertyBridge 的描述來實現。例如作品表與其諸多列之間，存在一對多的內在聯系。這些數據的關聯數據發(fā)布也需描述出顯性構建的關聯關系。而對于同一表內所包含的內在實體關系，D2RQ映射語言提供對 SQL語言中的“別名”的支持，即 d2rq：alias區(qū)分不同的邏輯對象，再利用d2rq：join進行關系描述[8]。例如可以用d2rq： join“dbo.Subject.Parent_ID=parentSubject.Subject_ID”和d2rq： alias“ dbo.Subject AS parentSubject”來表明來自于主題詞表 Subject中的每一個主題詞 subject及其上位類 subjectparent之間的等級關系。

4.3 D2RQ語義映射

4.3.1 部署D2RQ平臺

D2RQ平臺包含D2RQ Mapping Language，D2RQ Engine和D2R Server三個主要部分。其中D2RQ Mapping Language是定義映射規(guī)則的聲明模式，設定關系型數據和關聯數據的映射規(guī)則。D2RQ Engine利用可定制的D2RQ 映射文件將關系型數據庫映射成虛擬的 RDF 格式。D2R Server是一個HTTP服務器，它主要面向用戶提供各種應用的關聯數據查詢。圖1呈現了 D2R 的主體架構。

在使用D2RQ平臺之前，需要先對其運行環(huán)境進行下載和安裝部署，D2R Engine模塊在連接數據庫時會需要用到對應數據庫的JAR插件。因此，連接數據庫之前需要根據數據庫的版本和信號系在到對應的連接插件，并將其放置到安裝路徑下的lib目錄。為了后期關聯數據的訪問可以通過HTTP 實現，所以還需要在部署D2RQ平臺是配置好Apache HTTP Server。

4.3.2 使用D2RQ工具生成映射文件

D2R的映射語言D2RQ Mapping是基于RDF詞表和OWL本體進行描述的，它作為一種聲明性語言，通過一系列的映射規(guī)則，指定了資源的標識和描述方式。利用generate.bat腳本生成D2RQ語言編寫的 RDF 文件，D2RQ語言的語義映射實現有URI模式定義和類與屬性的映射兩大核心。

4.3.2.1 URI 模式定義

URI是關聯數據中資源對象的唯一標識方式，可以通過HTTP協議實現與其他資源的鏈接和訪問。D2RQ 映射語言中URI生成的描述模板機制包括 4種方式[9]：絕對 URI 模式（ URI Pattern），相對URI 模式（ Relative URI Pattern）、URI列模式（ URI Columns Pattern）和空節(jié)點模式（ Blank Nodes Pattern）。

本文采用絕對 URI 模式，即使用 d2rq： uriPattern屬性對每個表對象進行配置，形如“Work/@@Work.WorkID@@”，“/”前面的部分為表名，后面@@標記之間表示數據庫表中某一列的值。

4.3.2.2 D2RQ映射語言的基本語法

D2RQ映射語言中最重要的是兩個概念是類映射（d2rq： ClassMap）和屬性映射（d2rq：PropertyBridge）。

類映射d2rq：ClassMap表示 OWL本體或者 RDFS 模式中的一個或一組相似的類，它一般與關系型數據庫中一個表相對應。Work類的部分映射編碼如下：

a d2rq：ClassMap；

d2rq：dataStorage map：database；

d2rq：uriPattern “Work/@ @Work.WorkID@@”；

d2rq： class ；

d2rq： classDefinitionLabel “Work”；

屬性映射d2rq： PropertyBridge 定義了用于表示ClassMap類實例的屬性，一般與關系型數據庫中表的列相對應，Work類的部分映射編碼如下：

map：Work_WorkID a d2rq：PropertyBridge；

d2rq：belongsToClassMap；

d2rq：property vocab：Work_WorkID；

d2rq：propertyDefinitionLabel “Work_WorkID”；

d2rq：column “Work.WorkID”；

d2rq：datatype xsd：int；

map：Work_TITLE a d2rq：PropertyBridge；

d2rq：belongsToClassMap；

d2rq：property vocab： Work_TITLE；

d2rq：propertyDefinitionLabel " Work TITLE" ；

d2rq：column “Work.TITLE”

d2rq：datatype xsd：String；

D2RQ 映射語言可以自己編寫，也可以通過generate-mapping 腳本實現自動編寫，自動編寫功能基于數據表形成一個“默認映射”的框架，同時為數據庫建立一個RDF詞表。一般來說為了知識鏈接的規(guī)范化和可應用，需要根據已經發(fā)布的成熟的RDF詞表修改腳本建立的RDF詞匯項。此外，URI的編碼方式也可以自己定制，定制成功后D2R服務器會自動檢測并重新加載網頁。

4.4 使用D2R發(fā)布關聯數據

啟動腳本d2r.server.bat，執(zhí)行已存在的映射文件，然后在啟動關聯數據的Web發(fā)布服務 D2R Server就可以進行數據的發(fā)布。發(fā)布的命令格式是： D： /d2r-server/d2r-server outfile.n3，數據發(fā)布后，用戶即可以利用瀏覽器通過 http：//localhost：2020地址鏈接D2R Server 的運行入口頁面。

5 結束語

為了解決藏學文獻發(fā)布使得語義關聯度低的情況，本文嘗試了利用關聯數據實現藏學書目數據的發(fā)布，在調查分析藏學文獻數據組織現狀并研究了關于關聯數據發(fā)布的技術和方法之后，設計了基于D2R的藏學書目數據的發(fā)布方法。在后續(xù)研究中，還將對論文、圖片和音視頻等類型的藏學資源進行關聯發(fā)布，其關鍵是如何實現不同類型資源之間的關聯和聚合，最終構建一個數據關聯的語義藏學資源庫原型，實現對藏學各種資源的語義化描述和語義檢索以及全方位的數據關聯，使藏學信息資源的查詢和存儲更加規(guī)范化和科學化。

參考文獻：

[1] 呂桂珍. 藏學文獻及藏學文獻學芻議[J]. 西藏民族學院學報：社會科學版， 1993（2）： 33-39.

[2] 更尕易西. 西藏地區(qū)藏文文獻信息資源共享可行性機制研究[J]. 西藏大學學報：漢文版， 2007（3）： 77-82.

[3] 丁楠，潘有能. 基于關聯數據的圖書館信息聚合研究[J]. 圖書與情報， 2011（6）： 50-53.

[4] Tim Berners-Lee.Linked Data[EB/OL].[2016-03-20]. https：//www.w3.org/DesignIssues/LinkedData.html.

[5] 劉煒，胡小菁，錢國富，等. RDA與關聯數據[J]. 中國圖書館學報， 2012（1）：34-42.

[6] 沈志宏，劉筱敏，郭學兵，等. 關聯數據發(fā)布流程與關鍵問題研究——以科技文獻、科學數據發(fā)布為例[J]. 中國圖書館學報， 2013（2）： 53-62.

[7] 游毅. 面向館藏數據庫的關聯數據發(fā)布研究[J]. 國家圖書館學刊， 2014（5）： 74-81.

[8] 白海燕，梁冰. 利用D2R實現關系數據庫與關聯數據的語義模式映射[J]. 現代圖書情報技術， 2011（Z1）： 1-7.

[9] 張靜，馬春娥. 如何利用 D2R 發(fā)布 Linked Data[EB/OL]. [2016-03-20]. http：//www.ibm.com/developerworks/cn/web/1003_zhangjing_d2r/.