吳玲芳
〔摘 要〕進入21世紀(jì),一種基于開放理念的新型知識組織與傳播形式誕生并迅速發(fā)展,這就是機構(gòu)知識庫?在推動機構(gòu)知識庫的建設(shè)中,元數(shù)據(jù)研究是不可或缺的基礎(chǔ)?本文探討了元數(shù)據(jù)的定義?類型?功能特點,分析了目前國際上在建設(shè)機構(gòu)知識庫時幾種常用開源軟件所使用的元數(shù)據(jù)情況?
〔關(guān)鍵詞〕元數(shù)據(jù);機構(gòu)知識庫;資源描述
〔中圖分類號〕G250.74 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2009)08-0128-03
Study on Metadata Used in Institutional RepositoryWu Lingfang
(Library,Suzhou University,Suzhou 215006,China)
〔Abstract〕In 21st century,new form of knowledge organization and broadcast pattern has been developed rapidly which based on opening a new form of knowledge organization and dissemination of the birth and rapid development,that is institutional repository.Metadata research is essential basement in promoting institutional repository building.This paper discussed the definition,type,function and roleof metadata,and analysed the metadata of several commonly used software in institutional repository in the world.
〔Key words〕metadata;institutional repository;resource description
進入21世紀(jì),在學(xué)術(shù)信息開放獲取運動的推動下,隨著傳統(tǒng)學(xué)術(shù)信息交流體系的變革,一種基于開放理念的新型知識組織與傳播形式誕生并迅速發(fā)展,這就是機構(gòu)知識庫(Institutional Repository,簡稱IR)?
機構(gòu)知識庫是大學(xué)或研究機構(gòu)通過網(wǎng)絡(luò)來收集?保存?管理?檢索和利用本單位員工科研產(chǎn)出的科學(xué)論文?專著?報告(包括演示文件)?試驗數(shù)據(jù)?教學(xué)課件?檔案資料?照片和視頻等數(shù)字化資料的科研信息基礎(chǔ)設(shè)施和服務(wù)機制,主要用于知識產(chǎn)出的開放存貯?交流和利用?
機構(gòu)知識庫利用元數(shù)據(jù)描述?管理數(shù)字信息?機構(gòu)知識庫中的數(shù)據(jù)在來源?載體類型?學(xué)科知識等多方面的復(fù)雜性,如何以安全?高效的方式來管理和訪問變得極為重要,而解決這一問題的關(guān)鍵是對元數(shù)據(jù)進行科學(xué)有效的管理?元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),它包含所描述數(shù)據(jù)的大小?來源?時間?內(nèi)容摘要?派生?用法等多種信息,其主要目的就是對指定數(shù)據(jù)進行有意義的模型化描述,主要目標(biāo)是提供數(shù)據(jù)資源的全面指南?元數(shù)據(jù)不僅定義了機構(gòu)知識庫中數(shù)據(jù)的模式?來源以及抽取和轉(zhuǎn)換規(guī)則等,而且整個知識庫系統(tǒng)的運行都是基于元數(shù)據(jù)的,是元數(shù)據(jù)把知識庫系統(tǒng)中的各個松散的組件聯(lián)系起來,組成了一個有機的整體?在推動機構(gòu)知識庫的建設(shè)中,對元數(shù)據(jù)問題的研究是不可或缺的基礎(chǔ)之一?
1 元數(shù)據(jù)的定義
元數(shù)據(jù)的一般定義是:元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)(data about data)?它是一種廣泛存在的現(xiàn)象,在許多領(lǐng)域有其具體的定義和應(yīng)用?
在哈佛大學(xué)數(shù)字圖書館項目里其定義為:元數(shù)據(jù)是幫助查找?存取?使用和管理信息資源的信息?在這個定義里,元數(shù)據(jù)既適合于電子資源,又適合于非電子資源;不僅包括編目信息,也包括其他存取和管理資源的信息[1]?
真溱指出了在圖書館信息界一種較為正式的定義:元數(shù)據(jù)是結(jié)構(gòu)化的編碼數(shù)據(jù),用于描述載有信息實體的特征,以便標(biāo)識?發(fā)現(xiàn)?評價和管理被描述的這些實體[2]?
劉嘉在其論文中概括了幾種較具代表性的元數(shù)據(jù)定義?其中一種認(rèn)為,“元數(shù)據(jù)是與對象相關(guān)的數(shù)據(jù)”,此數(shù)據(jù)使其潛在的用戶不必預(yù)先具備對這些對象的存在或特征的完整認(rèn)識?另一種認(rèn)為“元數(shù)據(jù)是對信息包(information package)的編碼描述,其目的在于提供一個中間級別的描述,使得人們據(jù)此就可以做出選擇,確定哪些為其想要瀏覽或檢索的信息包,而無須檢索大量的全文文本?[3]”
林海青給元數(shù)據(jù)的定義是:元數(shù)據(jù)是一種用來描述數(shù)字化信息資源,特別是網(wǎng)絡(luò)信息資源的基本特征及其相互關(guān)系,從而確保這些數(shù)字化信息資源能夠被計算機及其網(wǎng)絡(luò)系統(tǒng)自動辨析?分解?提取和分析歸納的一整套編碼體系?
本文給元數(shù)據(jù)的定義采用在圖書館與信息界普遍使用的概念,即:元數(shù)據(jù)是提供關(guān)于信息資源或數(shù)據(jù)的一種結(jié)構(gòu)化的數(shù)據(jù),是對信息資源的結(jié)構(gòu)化的描述?
2 元數(shù)據(jù)的類型
根據(jù)不同標(biāo)準(zhǔn),可以將元數(shù)據(jù)劃分為不同的類型?從元數(shù)據(jù)在組織信息資源的功能上區(qū)分,元數(shù)據(jù)可以分為以下類型:(1) 知識描述型元數(shù)據(jù)?用來描述?發(fā)現(xiàn)和鑒別數(shù)字化信息對象,如MARC?DC,它主要描述信息資源的主題?內(nèi)容特征?(2)結(jié)構(gòu)型元數(shù)據(jù)?用于描述數(shù)字化信息資源的內(nèi)部結(jié)構(gòu)?相對知識描述型元數(shù)據(jù)而言,結(jié)構(gòu)型元數(shù)據(jù)更側(cè)重于數(shù)字化信息資源的內(nèi)在特征如目錄?章節(jié)?段落等特征?(3)存取控制型元數(shù)據(jù)?用來描述數(shù)字化信息資源能夠被利用的基本條件和期限,以及指示這些資源的知識產(chǎn)權(quán)特征和使用權(quán)限?(4)評價型元數(shù)據(jù)?描述和管理數(shù)據(jù)在信息評價體系中的位置[4]?
按結(jié)構(gòu)化程度分為:非結(jié)構(gòu)化元數(shù)據(jù),如Yahoo等搜索引擎;較少字段的結(jié)構(gòu)化元數(shù)據(jù),如Dublin core等;高度結(jié)構(gòu)化元數(shù)據(jù),如MARC等?如果按其功能可分為描述型元數(shù)據(jù)?管理型元數(shù)據(jù)和結(jié)構(gòu)元數(shù)據(jù)[5]?
從完整性和結(jié)構(gòu)性出發(fā),元數(shù)據(jù)可分為三類:第一類是簡單記錄格式的網(wǎng)絡(luò)查詢工具;第二類是結(jié)構(gòu)化格式的以發(fā)現(xiàn)為目的的元數(shù)據(jù);第三類是復(fù)雜格式的以詳細(xì)記錄為目的的元數(shù)據(jù)[6]?
在機構(gòu)知識庫里,我們認(rèn)為元數(shù)據(jù)有3種類型:(1)描述元數(shù)據(jù);(2)管理元數(shù)據(jù);(3)結(jié)構(gòu)元數(shù)據(jù)?
3 元數(shù)據(jù)的功能和作用
元數(shù)據(jù)能夠描述信息資源或數(shù)據(jù)本身的特征和屬性,規(guī)定數(shù)字化信息的組織,具有描述?定位?管理?證明?評估?選擇?交互等功能?龐清社[7]將元數(shù)據(jù)的作用總結(jié)為信息資源的著錄描述功能?組織集合功能?確認(rèn)和檢索功能?管理控制功能?還原功能?動態(tài)跟蹤功能以及信息資源管理系統(tǒng)的開發(fā)利用功能等,體現(xiàn)出經(jīng)濟全球化?社會信息化使元數(shù)據(jù)功能不斷增加?應(yīng)用不斷擴大的趨勢?
4 機構(gòu)知識庫中幾種常用軟件系統(tǒng)所用元數(shù)據(jù)分析
在機構(gòu)知識庫中,元數(shù)據(jù)倉儲實現(xiàn)對提交和采集進來的數(shù)字對象的內(nèi)容?結(jié)構(gòu)以及保藏等方面的元數(shù)據(jù)描述信息的集中存儲和管理功能,知識庫提供對數(shù)字對象的統(tǒng)一存儲和管理,并與元數(shù)據(jù)倉儲共同構(gòu)成支持?jǐn)?shù)字對象的保藏?組織和利用等功能實現(xiàn)的基礎(chǔ)?
元數(shù)據(jù)標(biāo)準(zhǔn)要使用戶能夠檢索或瀏覽項目以及能夠?qū)C構(gòu)庫的內(nèi)容進行網(wǎng)絡(luò)管理;大部分機構(gòu)庫要能夠支持基本的元數(shù)據(jù)標(biāo)準(zhǔn),尤其是DC標(biāo)準(zhǔn),其余的機構(gòu)庫則能夠支持專門領(lǐng)域所元數(shù)據(jù)[8]?
本文對目前國際上應(yīng)用較為廣泛的機構(gòu)知識庫軟件DSpace?Eprints?Greenston?Fedora等中的元數(shù)據(jù)情況進行介紹分析?
4.1 DSpace
DSpace系統(tǒng)的元數(shù)據(jù)默認(rèn)配置是麻省理工學(xué)院圖書館的配置,即一組基于圖書館應(yīng)用協(xié)議(Library Application Profile)的DC元素和限定詞[9]?各圖書館或科研機構(gòu)可以在DSpace管理窗口的“Dublin Core注冊”中根據(jù)實際需要適當(dāng)修改相應(yīng)的元素或限定詞?
DSpace中,把不同的科研院所和研究中心稱為一個社區(qū)(Community),把其要提交的數(shù)字化資料稱為館藏(Collection),把描述館藏屬性的條目稱為項目(Item),這些項目由DC元數(shù)據(jù)來描述,項目再分為數(shù)據(jù)束(Bundle),數(shù)據(jù)束由數(shù)字流(BitStream)組成,數(shù)字流是不可以再劃分的?最小的描述單位?資料描述模型如圖1所示[10]?
DSpace中的存檔內(nèi)容具有3種元數(shù)據(jù):描述性元數(shù)據(jù)?管理元數(shù)據(jù)與結(jié)構(gòu)元數(shù)據(jù)?每個款目都包含一個限定的Dublin核心描述性元數(shù)據(jù),有關(guān)該款目的其他描述性元數(shù)據(jù)以序列化的數(shù)字流形式存在?管理元數(shù)據(jù)包括保存元數(shù)據(jù)?出處與認(rèn)證政策數(shù)據(jù),其大多存于DSpace關(guān)系數(shù)據(jù)庫表中,其中保存元數(shù)據(jù)是存儲在Dublin核心記錄中?結(jié)構(gòu)元數(shù)據(jù)包含的信息有:如何將款目內(nèi)的比特流展現(xiàn)給終端用戶,如何展現(xiàn)款目內(nèi)各要素之間的關(guān)系?
4.2 Eprints
Eprints(http:∥www.eprints.org/)是由英國南安普敦大學(xué)于2000年研發(fā)的通用免費軟件?該軟件采用聯(lián)合信息系統(tǒng)委員會(JISC)資助的開放文獻(xiàn)項目(OAI)制訂的通用元數(shù)據(jù)標(biāo)記標(biāo)準(zhǔn),可兼容各種元數(shù)據(jù)模式[11]?
一個eprint對應(yīng)系統(tǒng)內(nèi)的一條記錄,它由一些文檔和元數(shù)據(jù)組成?通常,同一信息會有多種格式的文檔存在?元數(shù)據(jù)又分為兩類:系統(tǒng)元數(shù)據(jù)字段,如eprint的id和存儲用戶的id,是軟件所必需的字段;存檔元數(shù)據(jù)字段,如題名?作者和年份等,這些字段包含用戶在瀏覽和檢索知識庫時所需的有用信息,這些元數(shù)據(jù)字段可在知識庫建立時自定義建立[12]?
4.3 Greenstone
Greenstone(http:∥www.greenstone.org/)由Waikato大學(xué)的新西蘭數(shù)字圖書館項目制作,與聯(lián)合國教科文組織及人類信息非政府組織(Human Info NGO)合作開發(fā)與發(fā)行?它是在GNU通用公共許可條款下發(fā)布的開源多語種軟件,包括英語?法語?西班牙語?簡體中文?繁體中文等多種版本?
在Greenstone中系統(tǒng)有幾種預(yù)定義的元數(shù)據(jù)集,DC就是其中之一,每個收藏與一個或多個元數(shù)據(jù)集相關(guān)聯(lián),圖書館員界面允許通過添加額外的元素來定義新的元數(shù)據(jù)集?此外,系統(tǒng)還允許從文檔自身自動抽取的元數(shù)據(jù)信息(如HTML Title tags,meta tags,built-in Word author,title metadata)?系統(tǒng)通過名域namespace來區(qū)分不同的元數(shù)據(jù)集,如文檔可以同時擁有DC題名和抽取的題名,它們不必具有相同的值?文檔中的元數(shù)據(jù)和元數(shù)據(jù)集自身是用XML表現(xiàn)的?
4.4 Fedora
Fedora由弗吉尼亞大學(xué)和康奈爾大學(xué)共同開發(fā)并實施,是一個通用的數(shù)字對象管理系統(tǒng)?該系統(tǒng)建立在數(shù)字對象和倉庫結(jié)構(gòu)基礎(chǔ)之上,具有很強的靈活性和擴展性,可用于建立功能全面的機構(gòu)庫?支持互操作的數(shù)字圖書館等?遵循Mozilla協(xié)議的開發(fā)源代碼系統(tǒng),實用對象更傾向于計算機學(xué)科人員?
數(shù)字對象是Fedora知識庫中所存儲的數(shù)字內(nèi)容?數(shù)字對象通過數(shù)據(jù)流將文本?圖像?視頻?元數(shù)據(jù)及其他形式的多媒體數(shù)據(jù)和對這些數(shù)據(jù)的操作封裝起來?數(shù)據(jù)流,是數(shù)字對象所包含的內(nèi)容款目?一個數(shù)字對象可包含有一個或多個數(shù)據(jù)流?數(shù)據(jù)流的內(nèi)容可以是元數(shù)據(jù)或數(shù)據(jù)本身?如果是元數(shù)據(jù),可以是各種格式;如是數(shù)據(jù)本身,可是文本?圖像?音頻或視頻數(shù)據(jù)?每個數(shù)字對象都有一個默認(rèn)的Dublin核心元數(shù)據(jù)數(shù)據(jù)流[12]?
在現(xiàn)有的數(shù)字倉儲中,Fedora是惟一徹底落實了數(shù)字對象的系統(tǒng)?每個Fedora數(shù)字對象有一個原始的DC記錄,符合OAI PMH 2.0協(xié)議標(biāo)準(zhǔn)所定義的Schema規(guī)范,這種元數(shù)據(jù)可以使用OAI PMH 2.0標(biāo)準(zhǔn)訪問?
下表是對以上4種常用開源軟件系統(tǒng)元數(shù)據(jù)情況比較分析匯總?
綜觀以上4種常用軟件系統(tǒng)在以下方面存在異同:
相同點:
(1)都支持長期保存的問題,可以給同一種內(nèi)容提供多種數(shù)字格式,使用技術(shù)元數(shù)據(jù)并保證一個全球惟一的標(biāo)識符來訪問每個數(shù)字對象?
(2)都支持?jǐn)?shù)字對象,可以是原生的或者是數(shù)字化的,不受特定的文件格式或數(shù)字內(nèi)容類型的限制?
(3)都采用METS標(biāo)準(zhǔn)作為數(shù)據(jù)交換的格式?
(4)采用的標(biāo)準(zhǔn)都是DC元數(shù)據(jù)集,實現(xiàn)了OAI協(xié)議,提供元數(shù)據(jù)采集服務(wù),方便系統(tǒng)之間的互操作?
不同點:
(1)數(shù)據(jù)處理方面?DSpace中的數(shù)據(jù)和元數(shù)據(jù)作為獨立的兩個實體,Fedora中的數(shù)據(jù)和元數(shù)據(jù)被封裝在數(shù)字對象內(nèi)部?Greenstone元數(shù)據(jù)處理相對復(fù)雜,批量處理過程(例如建立索引等)影響系統(tǒng)運行?
(2)元數(shù)據(jù)支持的靈活程度不同?DSpace中內(nèi)置的支持允許一些簡單修飾符的DC元數(shù)據(jù),如果要擴展其它的元數(shù)據(jù)方案,需要對數(shù)據(jù)庫結(jié)構(gòu)進行修改?Eprints可以采用任何元數(shù)據(jù)標(biāo)準(zhǔn),可以由管理員選擇元數(shù)據(jù)字段?Fedora中的元數(shù)據(jù) 模型可以是一個本地的元數(shù)據(jù)集合,一個標(biāo)準(zhǔn)的元數(shù)據(jù)集合,或者是DC元數(shù)據(jù)的擴展?Fedo ra只提供對DC元數(shù)據(jù)集中的元素進行索引和檢索的支持,如果對其他的元數(shù)據(jù)字段做索引和 檢索,可以擴展一個外部的應(yīng)用程序來實現(xiàn),比DSpace更為靈活?Greenstone中系統(tǒng)有幾種 預(yù)定義的元數(shù)據(jù)集,DC就是其中之一,每個收藏與一個或多個元數(shù)據(jù)集相關(guān)聯(lián),圖書館員界 面允許通過添加額外的元素來定義新的元數(shù)據(jù)集?
5 結(jié) 語
在機構(gòu)知識庫中,元數(shù)據(jù)通常由資源?屬性?屬性值?操作規(guī)則和聯(lián)合操作規(guī)則五項內(nèi)容組成?其中,資源可以是任何使用URI(統(tǒng)一資源標(biāo)識符)標(biāo)識的內(nèi)容,它可以包含多個屬性和多種操作規(guī)則,每個屬性有一個確定的屬性值?當(dāng)有兩種及以上操作規(guī)則時,就需要聲明它們之間的聯(lián)合操作規(guī)則?若沒有定義任何操作規(guī)則,則元數(shù)據(jù)僅由資源?屬性和屬性值三項內(nèi)容構(gòu)成?通過對元數(shù)據(jù)的管理可以實現(xiàn)對分布存儲的數(shù)據(jù)資源進行分類?聚合和集中控制,能夠?qū)崿F(xiàn)資源共享?
參考文獻(xiàn)
[1]呂瓊芳.元數(shù)據(jù)與網(wǎng)絡(luò)信息資源的組織開發(fā)[J].浙江圖書館,2005,(3):6-8.
[2]真溱.矛盾重重的元數(shù)據(jù)世界[J].中國圖書館學(xué)報,2001,(6):56-59.
[3]劉嘉.元數(shù)據(jù):理念與應(yīng)用[J].中國圖書館學(xué)報,2001,(5):8.
[4]馬珉.元數(shù)據(jù)——組織網(wǎng)上信息資源的基本格式[J].情報科學(xué),2002,(4):377-379.
[5]吳開華,等.數(shù)字圖書館元數(shù)據(jù)研究[J].中國圖書館學(xué)報,2002,(3):43-46.
[6]張曉林,等.管理元數(shù)據(jù)的原理與應(yīng)用[J].圖書情報工作,2003,(10):12-17.
[7]龐清社.元數(shù)據(jù)的具體功能探討[J].湖北檔案,2005,(8):17-19.
[8]姜瑞其.國外機構(gòu)庫發(fā)展概況[J].圖書情報工作,2005,(11):142-145.
[9]http:∥dublincore.org/documents/library-application-profile,2006-07-11.
[10]陳亞寧,陳淑君,鐘豐謙.Dspace跨機構(gòu)虛擬典藏庫之可行性研究[J].教育資料與圖書館學(xué),2004,(12):243-256.
[11]傅蓉.開放存取倉儲[J].農(nóng)業(yè)圖書情報學(xué)刊,2006,(12):136-138.
[12]王穎潔.機構(gòu)知識庫建庫軟件DSpace?Eprints?Fedora的比較分析[J].圖書館學(xué)刊,2008,(4):133-137.
[13]董麗,等.開放源代碼的數(shù)字資源管理系統(tǒng)DSpace和Fedora的分析和比較[J].現(xiàn)代圖書情報技術(shù),2005,(7):1-6.