李 婧
(遼寧省圖書館,遼寧 沈陽 110015)
所謂資源集合,是指一個資源分成的每一部分都表現(xiàn)為具體的物理形式,各部分之間相互獨立,并且它們合并之后繼續(xù)組成原來的反映一個中心內(nèi)容的資源整體。這些可劃分的部分是集合的成員,描述為集合──成員關(guān)系;與資源集合不同的不能劃分的相互獨立的資源則稱為資源對象,即為一個整體的資源。除了特定的應(yīng)用需求,資源集合的組織要盡量避免重復(fù)性,因此要對資源內(nèi)容進(jìn)行審定,這也是有效組織信息資源的要求。
國際標(biāo)準(zhǔn)化組織界定的質(zhì)量是指提供的產(chǎn)品或服務(wù)表現(xiàn)在現(xiàn)實和潛在需求所能達(dá)到的整體性狀態(tài)與特性[1]。信息資源的質(zhì)量則是滿足用戶對知識的需求所能達(dá)到的程度和體現(xiàn)出來的價值。元數(shù)據(jù)描述提供的有關(guān)資源的各種信息,其本身不具有制定質(zhì)量評價的功能,但是,元數(shù)據(jù)通過對信息資源特征的揭示,幫助用戶結(jié)合自己的實際利用所產(chǎn)生的效果和影響來判斷信息的質(zhì)量和價值。
信息資源的存在、聚集是多樣化的,應(yīng)該有效地對其進(jìn)行劃分和組織,方便元數(shù)據(jù)描述,揭示信息資源的特點及其相互關(guān)系,并最終有利于信息資源的檢索與利用。借鑒邏輯學(xué)中關(guān)于客觀事物的類與分子關(guān)系和群體與個體關(guān)系的邏輯理論,可以把信息資源按群的概念進(jìn)行組織和按類的概念進(jìn)行劃分,這樣可以在面向?qū)嶋H應(yīng)用時提供靈活的功能服務(wù)。
通過對信息資源集合和資源對象的界定、數(shù)據(jù)質(zhì)量判定,依據(jù)邏輯學(xué)方法對信息資源按分類法進(jìn)行有效劃分和組織,整合建立邏輯結(jié)構(gòu)視圖,讓資源集合按照類和群兩種概念聯(lián)系起來,并按分類法形成規(guī)范的目錄檢索體系,讓信息資源的組織情況一目了然。
元數(shù)據(jù)作為在信息數(shù)據(jù)組織、管理中的概念和基礎(chǔ)工具,正在日益被人們所重視。目前,國際上已分別制定出適用于不同學(xué)科領(lǐng)域的元數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),其中,信息資源集合元數(shù)據(jù)是用來描述物理形式或數(shù)字形式的對象集合的信息特征,在圖書館的信息資源描述和組織中具有極其重要的作用。
元數(shù)據(jù)理論的發(fā)展推動了信息資源的存取和發(fā)現(xiàn)。而元數(shù)據(jù)應(yīng)用的各個領(lǐng)域?qū)ζ潢P(guān)注也轉(zhuǎn)入深層次,需要元數(shù)據(jù)能夠滿足描述資源與資源、資源各組成部分之間的復(fù)雜結(jié)構(gòu)關(guān)系。由此,便誕生了資源描述框架(Resource Description Framework,RDF),其利用明確的表達(dá)語義結(jié)構(gòu),對標(biāo)準(zhǔn)化的元數(shù)據(jù)進(jìn)行編碼、交換和自動加工[2-4]。對于信息資源多種形式的現(xiàn)實,一方面,資源描述按統(tǒng)一元數(shù)據(jù)標(biāo)準(zhǔn)建立元數(shù)據(jù)之間的映射;另一方面,通過元數(shù)據(jù)框架的方式實現(xiàn)不同元數(shù)據(jù)單元的交互操作。
為了適應(yīng)信息資源組織的要求,經(jīng)常把信息資源對象組合成資源集合來描述,即資源集合元數(shù)據(jù),可分為兩種類型:一是純描述型,二是功能型。純描述型元數(shù)據(jù)是以一定結(jié)構(gòu)組合的靜態(tài)元素集為基礎(chǔ)的數(shù)據(jù)描述,便于管理和檢索。功能型元數(shù)據(jù)以一個標(biāo)準(zhǔn)框架支持分布式、異構(gòu)式信息數(shù)據(jù)系統(tǒng)的互操作,以靈活的結(jié)構(gòu)提供封裝、復(fù)用機制,方便系統(tǒng)之間的交互處理。資源描述框架以一個標(biāo)準(zhǔn)的結(jié)構(gòu)描述不同領(lǐng)域的元數(shù)據(jù),便于信息資源數(shù)據(jù)的管理、組織和互操作。
2.2.1 有效管理和組織信息資源
元數(shù)據(jù)能夠解決諸多具有復(fù)雜關(guān)系的信息資源數(shù)據(jù)的描述:如資源樹型結(jié)構(gòu)的集合與成員關(guān)系,以多項指標(biāo)分類的資源集合之間的關(guān)系,整體和部分的關(guān)系以及資源之間的其他關(guān)系等。元數(shù)據(jù)同時也提供關(guān)系本身的描述,利用元數(shù)據(jù)描述資源組織結(jié)構(gòu)信息的優(yōu)勢,有效地管理和組織信息資源。
2.2.2 有利于長期保存信息資源
元數(shù)據(jù)的描述和制定要支持信息資源長期保存的需要。統(tǒng)一制定標(biāo)準(zhǔn)的元數(shù)據(jù)格式隨時間的變遷依然能夠明晰地反映資源數(shù)據(jù)的相關(guān)信息,按規(guī)范化的描述語言及標(biāo)準(zhǔn)方法來描述的元數(shù)據(jù),從根本上保障信息資源長久地保存和利用。
2.2.3 推動信息資源的有效利用
元數(shù)據(jù)所揭示的信息資源集合和資源對象各方面的特征信息,方便用戶以明確的資源特征去檢索和利用所需的資源數(shù)據(jù)。同時,元數(shù)據(jù)也支持分布式、異構(gòu)信息資源之間的數(shù)據(jù)互訪、共享,推動了信息資源被有效利用。
描述元數(shù)據(jù)可以根據(jù)學(xué)科、主題、資源類型及用途來編制不同的描述標(biāo)準(zhǔn)。
2.3.1 描述元數(shù)據(jù)內(nèi)容
描述元數(shù)據(jù)是用來描述或標(biāo)識信息資源數(shù)據(jù)的內(nèi)容、屬性以及外觀特征,并對資源對象進(jìn)行組織管理和發(fā)現(xiàn)、獲取、利用數(shù)據(jù)的中介。其組成包括許多具有不同功能的具體描述的元素項,如題名、責(zé)任者等具體元素項目。而元素的最小術(shù)語單位是修飾詞,包括對元素語義修飾的語義修飾詞和解析某術(shù)語值上下文信息及規(guī)則的編碼體系修飾詞。
2.3.2 描述元數(shù)據(jù)規(guī)范
描述元數(shù)據(jù)規(guī)范也稱為元數(shù)據(jù)標(biāo)準(zhǔn),是指描述信息資源具體對象所采用的準(zhǔn)則,包括完整描述資源對象所需要的具體數(shù)據(jù)元素項、各元素項的語義定義、著錄規(guī)則和應(yīng)用時的語法規(guī)則。
信息資源的多種來源和各種各樣的存在形式,讓用戶在檢索利用時無所適從,元數(shù)據(jù)的描述功能揭示了信息資源各方面特征信息,有利于信息資源的組織與管理,方便了用戶的檢索和獲取。
①建立集合元數(shù)據(jù)描述機制,對信息資源集合的組織結(jié)構(gòu)以及資源之間的相互關(guān)系的描述,有效引導(dǎo)檢索獲取方向,提高文獻(xiàn)信息資源的查準(zhǔn)率。②設(shè)計規(guī)范的信息資源元數(shù)據(jù),以標(biāo)準(zhǔn)規(guī)范的格式描述信息資源的內(nèi)容、特征等各方面信息,保持信息的時效性,促進(jìn)信息資源的長期保存及有效利用。
根據(jù)目前國內(nèi)外已制定的元數(shù)據(jù)標(biāo)準(zhǔn)DC元數(shù)據(jù)元素集1.1版本[5],參考主流元數(shù)據(jù)標(biāo)準(zhǔn)和比較成熟的方案,并結(jié)合用戶需求進(jìn)行復(fù)用和擴(kuò)展,滿足本領(lǐng)域信息資源描述的要求。
元數(shù)據(jù)描述方案是解決信息資源組織與利用問題的有效工具,元數(shù)據(jù)本身需要被長期復(fù)用。元數(shù)據(jù)的規(guī)范標(biāo)準(zhǔn)及其表述的信息資源的特征信息支持它被長期重復(fù)使用;元數(shù)據(jù)規(guī)范描述機制支持其在不同組織或系統(tǒng)之間長期地應(yīng)用于數(shù)據(jù)的互操作。元數(shù)據(jù)的形式化描述主要包括文檔語法及結(jié)構(gòu)的形式化描述和元數(shù)據(jù)詞匯表的形式化描述。①文檔語法及結(jié)構(gòu)的形式化描述,元數(shù)據(jù)可以用不同的語法描述,但需要轉(zhuǎn)換才能實現(xiàn)元數(shù)據(jù)交換。XML以標(biāo)準(zhǔn)化方式表述數(shù)據(jù)結(jié)構(gòu),并讓用戶可自定義標(biāo)記,XML的擴(kuò)展性讓其適應(yīng)不同領(lǐng)域的數(shù)據(jù)描述需求。因此,基于XML語法描述元數(shù)據(jù)是目前的趨勢。W3C于1999年推薦的元數(shù)據(jù)描述標(biāo)準(zhǔn)RDF/XML提供用來描述和交換元數(shù)據(jù)的通用框架[6]。RDF使用多種語法,與XML結(jié)合的RDF/XML對元數(shù)據(jù)進(jìn)行規(guī)范描述,促進(jìn)了元數(shù)據(jù)元素集之間的互操作性。②元數(shù)據(jù)詞匯表的形式化描述,W3C定義的元數(shù)據(jù)詞匯表描述版本RDF Schema是元數(shù)據(jù)詞匯表描述定義的主要工具,使用者可以通過RDF Schema的語義定義元素框架來描述自己的元數(shù)據(jù),從而實現(xiàn)元數(shù)據(jù)之間的互操作[7-8]。
RDF Schema和RDF/XML對上述兩種元數(shù)據(jù)形式化描述都有規(guī)范化的語法和結(jié)構(gòu),筆者以實際工作中的實例加以說明。
下面是RDF Schema格式描述的元數(shù)據(jù)詞匯“文獻(xiàn)”的定義:
元數(shù)據(jù)描述的信息資源特征與RDF Schema的資源、屬性、值的概念相對應(yīng)。本實例用rdf:Property元素定義元數(shù)據(jù)的元素,rdf:Property元素的屬性rdf:about的值為統(tǒng)一資源標(biāo)識符URI;其中的子元素rdf:label定義元素名稱,即實例中的“文獻(xiàn)”;
對于具體的信息資源,需要定義一些詞匯來具體地描述,即定義一些類和特性,比如定義literature類用來描述文獻(xiàn),resources類用來描述資源,定義Book特性用來描述圖書,這些都要通過RDF Schema來實現(xiàn)。
RDF Schema描述類是通過其資源參數(shù)rdfs:Class和rdfs:Resource和特性參數(shù) rdf:type和 rdfs:subClassOf來實現(xiàn)的。例如定義一個資源類ResourcesClass,并且為其指定一個URI-ref,如ex:ResourcesClass,然后把它描述成一個具有rdf:type特性,其值為rdfs:Class的資源,完整描述就是:ex:Resources-Class rdf:type rdfs:Class。
如果把The godfather這本特定圖書描述為圖書類,用rdf:type來完成,就是:extings:The godfather rdf:type ex:Book-Class。
利用rdfs:subClassOf可以定義子類。如,定義經(jīng)濟(jì)economic類為圖書類 BookClass的子類:ex:economic rdf:type rdfs:Class
描述資源的類的特性,是利用RDF類rdf:Property和RDF Schema特性rdfs:domain(定義域)、rdfs:range(值域)和rdfs:subPropertyOf來描述的。定義域指定某個特性的類,值域定義該特性的取值范圍,rdfs:subPropertyOf表示該特性為指定特性的子特性。關(guān)于圖書特性的描述為:ex:Literature rdf:type rdfs:Class。
下面是關(guān)于圖書館自建數(shù)字資源整合及利用的RDF/XML描述,此元數(shù)據(jù)包含“title”元素,元素值為“圖書館自建數(shù)字資源整合及利用”,部分代碼如下:
這個文檔由三部分組成:首先是聲明XML版本及文檔所用字符,然后是RDF/XML文檔根元素rdf:RDF及定義空間名稱。元數(shù)據(jù)的元素被定義在rdf:Descripition包裝內(nèi),它用于描述信息和資源的具體內(nèi)容,這樣可以讓不同的系統(tǒng)很容易地連接和關(guān)聯(lián)不同的信息資源。定義資源需要指定一個包含主語、謂詞和賓語的表達(dá)式。如描述圖書館自建數(shù)字資源整合及利用網(wǎng)站的具體內(nèi)容,主語就是該網(wǎng)站的名稱,即“圖書館自建數(shù)字資源整合及利用”,謂詞是這個網(wǎng)站的“包含信息”,即各個資源的欄目和具體內(nèi)容,賓語就是描述“圖書館自建數(shù)字資源整合及利用”網(wǎng)站資源內(nèi)容的各種類型及特征。如果要建立該網(wǎng)站下各資源欄目指向其資源的具體位置,可通過使用Friend of a Friend(FOAF)標(biāo)記來建立這兩個資源之間的鏈接。這樣,用戶在客戶端就可以點擊并獲得所需要的具體信息資源的詳細(xì)內(nèi)容。此處僅做簡述說明,實際網(wǎng)站的資源建設(shè)需要根據(jù)具體情況和資源的性質(zhì)來采用不同的設(shè)計風(fēng)格進(jìn)行表達(dá)。因此,具體的元數(shù)據(jù)描述是一項比較繁雜的標(biāo)準(zhǔn)性語言表述體系。
RDF描述的目的是把關(guān)于各類信息資源通過自然語言表述的方式轉(zhuǎn)化為機器可以解析的格式。作為描述信息資源通用方法的RDF Schema和RDF/XML描述的元數(shù)據(jù),是以XML規(guī)范語言為基礎(chǔ)的文件,所以很容易地被計算機程序讀取并理解,在不同類型的操作系統(tǒng)和應(yīng)用語言的計算機之間進(jìn)行交換。
元數(shù)據(jù)描述方案能夠有效揭示圖書館信息資源中各層次資源的邏輯特征及組織結(jié)構(gòu),利用規(guī)范格式的元數(shù)據(jù)進(jìn)行組織和描述,使各資源對象或資源集合通過標(biāo)識符而固定其位置,為實現(xiàn)信息資源的有效管理,建立資源體系的邏輯視圖,為實現(xiàn)數(shù)據(jù)資源的長期保存、重復(fù)利用和質(zhì)量評價等提供了規(guī)范化的基礎(chǔ)工具,為圖書館開展知識服務(wù)奠定了業(yè)務(wù)基礎(chǔ),對提高圖書館信息資源組織管理的效能以及不斷提升圖書館信息服務(wù)的能力大有裨益。
[1]International Organization for Standardization[EB/OL].[2013-12-10].http://www.iso.org/iso/home.html.
[2]肖瓏,趙亮.中文元數(shù)據(jù)概論與實例[M].北京:北京圖書館出版社,2007.
[3]劉嘉.元數(shù)據(jù)導(dǎo)論[M].北京:華藝出版社,2002.
[4]宋琳琳,李海濤.大型文獻(xiàn)數(shù)字化項目的元數(shù)據(jù)標(biāo)準(zhǔn)的調(diào)查與構(gòu)建[J].圖書館雜志,2013(11):45-54.
[5]CADAL.CADAL元數(shù)據(jù)規(guī)范草案(Version 2.0)[R/OL].[2013-12-10].http://www.cadal.cn/softdown/CADAL_metadata_2004.pdf.
[6]CDLS.我國數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范專門數(shù)字對象描述元數(shù)據(jù)規(guī)范[DB/OL].[2013-12-11].http://cdls.nstl.gov.cn/2003/SpcMetadata/.
[7]OpenLibrary.OpenLibrary to Dublin Core[DB/OL].[2013-12-11].https://openlibrary.org/about/infogami-dc
[8]數(shù)字圖書館推廣工程[EB/OL].[2013-12-10].http://www.ndlib.cn/gcjs_1/201108/t20110818_47872.htm.