唐 鳳(1.上海大學(xué)圖書(shū)情報(bào)檔案系;2.上海大學(xué)圖書(shū)館)
機(jī)構(gòu)知識(shí)庫(kù)(Institution repository,IR)是依附某個(gè)特定機(jī)構(gòu)而建立的數(shù)字化學(xué)術(shù)成果存儲(chǔ)庫(kù),用于該機(jī)構(gòu)收集并長(zhǎng)期保存所產(chǎn)生的學(xué)術(shù)成果,按照開(kāi)放標(biāo)準(zhǔn)與相應(yīng)的互操作協(xié)議,支持機(jī)構(gòu)內(nèi)外的成員通過(guò)互聯(lián)網(wǎng)來(lái)免費(fèi)獲取使用。IR建設(shè)的初衷旨在對(duì)學(xué)術(shù)成果的開(kāi)放獲取,并希望以此來(lái)打破學(xué)術(shù)期刊訂閱的高昂費(fèi)用和獲取許可的壁壘,促進(jìn)學(xué)術(shù)信息的免費(fèi)獲取和自由使用。[1]科研信息系統(tǒng)(CurrentresearchInformationSystem,CRIS)又稱科研信息管理系統(tǒng)(Research Information Management System,RIMS),它是針對(duì)項(xiàng)目和基金的整個(gè)科研信息管理的工具。
CRIS/IR之間的“鏈接(Link)”是指允許兩個(gè)系統(tǒng)之間進(jìn)行信息交換和共享,這種信息交流機(jī)制將有助于兩個(gè)系統(tǒng)的有效耦合。[2]CRIS/IR之間的“鏈接”旨在利用兩個(gè)系統(tǒng)的互補(bǔ)功能,增強(qiáng)兩者的功能,更好地滿足科研數(shù)據(jù)管理的需求,通過(guò)互操作技術(shù)確保兩個(gè)平臺(tái)之間實(shí)現(xiàn)一定程度的數(shù)據(jù)交換。[3]雖然CRIS/IR系統(tǒng)的具體要求與管理目標(biāo)不同,但是學(xué)術(shù)科研環(huán)境下的功能互補(bǔ)性促進(jìn)了兩者的互操作。
在美國(guó)、丹麥、英國(guó)、芬蘭等國(guó)家,CRIS/IR系統(tǒng)之間的互操作性是一個(gè)應(yīng)用相當(dāng)廣泛的功能,互操作旨在允許兩個(gè)平臺(tái)有效地交換和共享信息,或進(jìn)一步加強(qiáng)彼此的功能,使得這些平臺(tái)之間的功能邊界越來(lái)越模糊。目前,由于各個(gè)國(guó)家和地區(qū)的CRIS/IR普及程度、技術(shù)發(fā)展、政府政策等存在較大的差異,兩者鏈接的實(shí)踐形式在各個(gè)國(guó)家和地區(qū)也不大相同。其中,丹麥和英國(guó)的大學(xué)機(jī)構(gòu)使用的CRIS/IR系統(tǒng)鏈接平臺(tái)是最多的,也是最豐富的,如,丹麥大學(xué)、劍橋大學(xué)、圣安德魯斯大學(xué)等都在使用CRIS/IR系統(tǒng)的鏈接平臺(tái)。[4]實(shí)際上,IR也可以通過(guò)擴(kuò)展其基礎(chǔ)數(shù)據(jù)模型來(lái)拓展CRIS的功能,以便收集和管理除了科研成果之外的其他有用信息;對(duì)基于都柏林核心集(Dublin Core,DC)的元數(shù)據(jù)模型進(jìn)行擴(kuò)展,以便涵蓋其他科研信息,如科研項(xiàng)目、資金等。2010年,由于南安普敦的EPrints平臺(tái)團(tuán)隊(duì)的技術(shù)支持與實(shí)施,使得在英國(guó)出現(xiàn)了越來(lái)越多的擴(kuò)展版IR或IR-as-CRIS平臺(tái)。[5]
(1)迎合開(kāi)放獲取。歐盟的知識(shí)交流項(xiàng)目(KnowledgeExchange,KE)探索將IR內(nèi)容元數(shù)據(jù)與CRIS內(nèi)容元數(shù)據(jù)有機(jī)結(jié)合,以此來(lái)支持兩者的鏈接。該項(xiàng)目的動(dòng)機(jī)是希望在學(xué)術(shù)出版物的信息管理中實(shí)現(xiàn)CRIS與IR的鏈接。[6]CRIS涉及科研活動(dòng)的諸多方面,包含學(xué)術(shù)出版物的元數(shù)據(jù);IR旨在保存和傳播學(xué)術(shù)出版物,也同樣包含出版物元數(shù)據(jù)。在開(kāi)放學(xué)術(shù)交流的共享趨勢(shì)下,二者都面臨著出版物實(shí)現(xiàn)全面的元數(shù)據(jù)覆蓋的挑戰(zhàn),如果CRIS和IR可以輕松地交換關(guān)于出版物的元數(shù)據(jù),那么它們可以相互支持。但是,CRIS和IR的機(jī)構(gòu)目標(biāo)和需求存在差異,并且發(fā)布了不同的學(xué)術(shù)出版物元數(shù)據(jù)標(biāo)準(zhǔn)。一般來(lái)說(shuō),假如一個(gè)機(jī)構(gòu)同時(shí)有CRIS和IR兩個(gè)系統(tǒng),那么出版物必須經(jīng)過(guò)兩次注冊(cè)才能滿足這兩個(gè)系統(tǒng)的要求;如果CRIS和IR都能實(shí)現(xiàn)學(xué)術(shù)出版物元數(shù)據(jù)的全面覆蓋,這樣這兩個(gè)系統(tǒng)都可以從協(xié)作中獲益,由此減輕科研人員和管理人員的工作負(fù)擔(dān),也可以讓更多的學(xué)者從開(kāi)放獲取中受益。
(2)支持科研數(shù)據(jù)管理。CRIS和IR之間的“鏈接”旨在利用兩個(gè)系統(tǒng)的互補(bǔ)功能,增強(qiáng)兩者的功能,更好地滿足科研數(shù)據(jù)管理的需求,通過(guò)互操作技術(shù)確保兩個(gè)平臺(tái)之間實(shí)現(xiàn)一定程度的信息交換和共享。如,CRIS更關(guān)注于科研的整個(gè)生命周期,IR的目標(biāo)在于開(kāi)放獲取和將學(xué)術(shù)影響力最大化,在管理工作流程和科研工作流程之間也有可能存在顯著的差異,這些差異可以通過(guò)針對(duì)每個(gè)特定需求的系統(tǒng)進(jìn)行更適當(dāng)?shù)墓芾怼#?]2015年4月,EUNIS(歐洲高校信息系統(tǒng)組織)和Euro CRIS(歐洲科研信息組織)經(jīng)過(guò)調(diào)研后也表示,這兩個(gè)系統(tǒng)功能明顯是互補(bǔ)的,CRIS不能代替IR,CRIS和IR都是支持科研機(jī)構(gòu)和科研活動(dòng)的有價(jià)值工具。[6]
(1)IR-DC。Dspace作為全球廣泛使用的開(kāi)放源代碼軟件,是構(gòu)建機(jī)構(gòu)知識(shí)庫(kù)管理和服務(wù)平臺(tái)的有效工具,是目前全世界用戶數(shù)最多、應(yīng)用最廣泛的IR軟件。IR的元數(shù)據(jù)標(biāo)準(zhǔn)大部分是采取都柏林核心集,或稍微更復(fù)雜的模型,如,MODS、METS或PREMIS。大部分IR系統(tǒng)以DC元素為基礎(chǔ)來(lái)描述出版物,免費(fèi)提供給任意學(xué)術(shù)機(jī)構(gòu)使用,是可以自由使用、復(fù)制和修改開(kāi)放源代碼的軟件平臺(tái),因而,IR系統(tǒng)的架構(gòu)相對(duì)比較簡(jiǎn)單,開(kāi)放共享是其發(fā)展的主要驅(qū)動(dòng)力量。[8]IR使用元數(shù)據(jù)標(biāo)準(zhǔn)的特點(diǎn)是能夠比較簡(jiǎn)單、快捷地描述出版物元數(shù)據(jù),但缺乏處理動(dòng)態(tài)信息的能力,因?yàn)樗惶幚砼c特定時(shí)間點(diǎn)相關(guān)的科研出版物。[9]它支持符合互操作OAI-PMH協(xié)議的元數(shù)據(jù)開(kāi)放共享服務(wù),因此十分有利于實(shí)現(xiàn)機(jī)構(gòu)間的資源整合、共享以及與其他異構(gòu)系統(tǒng)間的互通。
(2)CRIS-CERIF。歐洲共享科研信息協(xié)議(Common-European Research Information Format, CERIF) 正在逐漸被CRIS建設(shè)作為元數(shù)據(jù)模型采用。CERIF是歐盟推薦給其成員國(guó)用來(lái)支持科研信息管理的概念模型標(biāo)準(zhǔn),它是以數(shù)據(jù)為中心的模型標(biāo)準(zhǔn),包括實(shí)體、屬性及實(shí)體間關(guān)系。CERIF模型從科研管理流程出發(fā),分析和明確項(xiàng)目、成果、組織、科研人員、資金等各個(gè)環(huán)節(jié)所涉及的主要科研實(shí)體及其科研實(shí)體間的關(guān)系。CERIF是由非營(yíng)利組織Euro CRIS維護(hù)的,基于XML交換格式、同樣遵循OAI-PMH協(xié)議,因此也能夠方便地實(shí)現(xiàn)互操作或異質(zhì)資源的統(tǒng)一訪問(wèn)。[10]CERIF的新穎性在于嚴(yán)謹(jǐn)有條理的數(shù)據(jù)結(jié)構(gòu)、支持n:m關(guān)系的實(shí)體和時(shí)間相關(guān)鏈接、使用多種字符集、支持多語(yǔ)言等。
IR是機(jī)構(gòu)將其所創(chuàng)建的成果進(jìn)行收集、存儲(chǔ)和傳播的數(shù)字化平臺(tái),這些成果主要是指期刊論文、學(xué)位論文、學(xué)習(xí)資源等。IR的優(yōu)勢(shì)在于提供開(kāi)放存取、增加國(guó)際知名度、集中內(nèi)容存儲(chǔ)于單一平臺(tái)、便于長(zhǎng)期數(shù)字化保存。CRIS是用來(lái)存取和傳播科研信息的工具,內(nèi)容包括學(xué)者、項(xiàng)目、機(jī)構(gòu)、成果(出版物、專利、產(chǎn)品)、設(shè)備和器材等。CRIS的優(yōu)勢(shì)在于:學(xué)者易于獲取相關(guān)的科研信息;科研主管易于分析評(píng)估科研活動(dòng);科研委員會(huì)可以優(yōu)化科研基金的分配;企業(yè)和技術(shù)轉(zhuǎn)移組織易于獲取創(chuàng)新科技與構(gòu)想、發(fā)掘競(jìng)爭(zhēng)對(duì)手及類似研究;媒體和公眾易于獲取信息、軟件或技術(shù)等。[11]
由于不同的領(lǐng)域(甚至同一領(lǐng)域)往往存在多個(gè)元數(shù)據(jù)格式,當(dāng)在用不同元數(shù)據(jù)格式描述的資源體系之間進(jìn)行檢索、資源描述和資源利用時(shí),就存在元數(shù)據(jù)的互操作性問(wèn)題。利用特定轉(zhuǎn)換程序?qū)Σ煌獢?shù)據(jù)元格式進(jìn)行轉(zhuǎn)換,稱為元數(shù)據(jù)映射。
(1)元數(shù)據(jù)標(biāo)準(zhǔn)差異。從技術(shù)角度來(lái)看,CRIS和IR依賴于不同的元數(shù)據(jù)標(biāo)準(zhǔn),CERIF是前者使用最頻繁的一個(gè),DC或更高級(jí)的MODS是后者使用最多的,CRIS和IR之間的主要區(qū)別在于它們所使用的元數(shù)據(jù)標(biāo)準(zhǔn),這種差異可能會(huì)阻礙兩者之間的互操作。因?yàn)镃ERIF在其不同的實(shí)體(人、組織、項(xiàng)目)之間描述的語(yǔ)義關(guān)系很難轉(zhuǎn)化為一個(gè)“平坦”的DC或MODS標(biāo)準(zhǔn),因這些標(biāo)準(zhǔn)很難將這些關(guān)系表達(dá)出來(lái)。CRIS需要描述廣泛的科研活動(dòng)信息,而IR描述的數(shù)據(jù)通常太簡(jiǎn)單。CERIF是目前使用最廣泛的CRIS元數(shù)據(jù)標(biāo)準(zhǔn),實(shí)施方式在不同國(guó)家之間有顯著差異,但它正在迅速成為默認(rèn)的元數(shù)據(jù)標(biāo)準(zhǔn),它將確保與其他信息系統(tǒng)之間更高層次的互操作,不僅僅是與IR進(jìn)行互操作?;贒C的元數(shù)據(jù)標(biāo)準(zhǔn)重點(diǎn)在于內(nèi)容可用性和數(shù)字對(duì)象的創(chuàng)建、策劃、保存、重用,因此IR元數(shù)據(jù)標(biāo)準(zhǔn)通常被認(rèn)為“太平坦”,即描述復(fù)雜的科研語(yǔ)義缺乏靈活性,但由于其元數(shù)據(jù)模型的簡(jiǎn)單性使得科研數(shù)據(jù)永久存儲(chǔ)的成功率很高。目前,CRIS和IR元數(shù)據(jù)標(biāo)準(zhǔn)都不斷向更復(fù)雜的數(shù)據(jù)模型發(fā)展,這些數(shù)據(jù)模型通??梢詫?shí)現(xiàn)更深層次的互操作性。大多數(shù)開(kāi)放性的IR都是基于DC元數(shù)據(jù)的,CERIF也提供描述出版物的元數(shù)據(jù),它們具有相似的形式語(yǔ)法和聲明語(yǔ)義,從而促進(jìn)在異構(gòu)源上的互操作或同類訪問(wèn)。[12]因此,兩個(gè)系統(tǒng)平臺(tái)可實(shí)現(xiàn)異質(zhì)資源融合,促進(jìn)科研成果的共享。
(2)案例研究。如,圣安德魯斯大學(xué)支持開(kāi)放存取的IR與CRIS鏈接(見(jiàn)圖1),Pure-CRIS本身并不保留全文出版物,但它可以使用CERIF數(shù)據(jù)模型鏈接到外部系統(tǒng),如,鏈接到人力資源系統(tǒng)、組織單元系統(tǒng)、開(kāi)放IR等。IR提供了保存完整文本的技術(shù),通過(guò)OAI—PMH協(xié)議獲取元數(shù)據(jù)。此外,對(duì)IR的全文獲取是通過(guò)Pure-CRIS接口本身傳遞給用戶的。數(shù)據(jù)架構(gòu)師安娜表示,圣安德魯斯大學(xué)的IR并沒(méi)有包容在CRIS中,而是被放在更廣泛的電子科研管理基礎(chǔ)設(shè)施中使用。CRIS/IR之間所謂的“鏈接器”是一種軟件,可以在兩個(gè)平臺(tái)之間交換元數(shù)據(jù)信息,這種信息交換通常涉及將出版物的元數(shù)據(jù)從CRIS轉(zhuǎn)移到IR中,這種信息交換機(jī)制允許兩個(gè)系統(tǒng)的有效耦合,滿足系統(tǒng)之間不同的需求和目標(biāo)。這種有效的系統(tǒng)互操作最常見(jiàn)的例子是將Pure-CRIS鏈接到EPritins或DSpace機(jī)構(gòu)存儲(chǔ)庫(kù)中。[2]目前,CRIS已經(jīng)提供了與其他內(nèi)部機(jī)構(gòu)系統(tǒng)的互操作性,如財(cái)務(wù)或人力資源模塊,因此CRIS/IR互操作性只是邁向無(wú)縫制度系統(tǒng)集成的一個(gè)趨勢(shì)。最常見(jiàn)的CRIS/IR鏈接通過(guò)映射CRIS到IR的元數(shù)據(jù)標(biāo)準(zhǔn)來(lái)實(shí)現(xiàn)。因此,這些信息可以在兩個(gè)系統(tǒng)之間自動(dòng)傳輸,通常是由CRIS捕獲發(fā)布元數(shù)據(jù)的形式,然后將這些數(shù)據(jù)交付到IR中,在滿足適當(dāng)?shù)陌鏅?quán)要求的情況下,從研究者或圖書(shū)館中添加完整文本文件,這就是所謂的CRIS/IR鏈接。
圖1 Pure-CRIS(圣安德魯斯大學(xué))
傳統(tǒng)IR在內(nèi)容建設(shè)、功能、運(yùn)作方式等方面都比較單一且有一定的局限性。而目前主要的開(kāi)源IR平臺(tái)已經(jīng)開(kāi)發(fā)了擴(kuò)展數(shù)據(jù)模型,從而允許IR提供與CRIS相關(guān)的功能,如,項(xiàng)目和資金管理等。因此,擴(kuò)展數(shù)據(jù)模型成為研究機(jī)構(gòu)合適的解決方案,采購(gòu)或開(kāi)發(fā)高度復(fù)雜的CRIS可能不是科研機(jī)構(gòu)所優(yōu)先考慮的。
(1)DSpace-CRIS。DSpace-CRIS是DSpace的“擴(kuò)展”版本(見(jiàn)圖2),具有強(qiáng)大而靈活的數(shù)據(jù)模型,不僅可以描述出版物,還可以描述所有科研項(xiàng)目中的實(shí)體及實(shí)體間的關(guān)系。
圖2 Dspace-CRIS(香港大學(xué))
DSpace作為一種開(kāi)放源代碼軟件具有非常明顯的優(yōu)勢(shì),因而在當(dāng)今機(jī)構(gòu)知識(shí)庫(kù)的構(gòu)建中有非常廣闊的應(yīng)用前景。越來(lái)越多的用戶使用DSpace作為機(jī)構(gòu)知識(shí)庫(kù)的構(gòu)建工具,因?yàn)樗哂休^多的優(yōu)點(diǎn):支持符合AI-PMH協(xié)議的元數(shù)據(jù)開(kāi)放共享服務(wù),十分有利于實(shí)現(xiàn)機(jī)構(gòu)間的資源整合、共享以及與其他異構(gòu)系統(tǒng)間的互通;遵從IR建設(shè)標(biāo)準(zhǔn),支持任一類型的內(nèi)容存儲(chǔ);用戶界面較友好;免費(fèi)提供給任意學(xué)術(shù)機(jī)構(gòu)使用,可以自由使用、復(fù)制和修改開(kāi)放源代碼的軟件平臺(tái),修改和擴(kuò)展功能比較容易。實(shí)際上,IR可以通過(guò)擴(kuò)展其基礎(chǔ)數(shù)據(jù)模型來(lái)發(fā)揮CRIS作用,升級(jí)為DSpace-CRIS,從而除了科研成果之外還可以收集其他研究信息。
(2)案例研究。這種互操作的最佳實(shí)踐示例是香港大學(xué)(HKU)的學(xué)術(shù)庫(kù)?;贒Space平臺(tái)的港大IR成立于2005年,起初它主要運(yùn)用承載元數(shù)據(jù)的關(guān)系表描述出版物信息,由圖書(shū)館建設(shè)并負(fù)責(zé)管理、搜集、存儲(chǔ)及傳播本校的科研成果。在香港大學(xué)知識(shí)交流項(xiàng)目的推動(dòng)及意大利Cineca開(kāi)發(fā)團(tuán)隊(duì)的技術(shù)支持下,基于DSpace的IR逐漸發(fā)展成為DSpace-CRIS系統(tǒng),將DSpace進(jìn)行了全面的功能拓展,加入了對(duì)其他研究實(shí)體的描述。Cineca構(gòu)建了一個(gè)擴(kuò)展DSpace數(shù)據(jù)模型的解決方案,為其他科研實(shí)體提供了新的關(guān)系表,這樣科研人員和科研成果不僅是以出版物形式被描述,還附帶了新的科研實(shí)體及其屬性,而且對(duì)這些實(shí)體和屬性及其所需的功能和集成編寫(xiě)了規(guī)范,如,學(xué)者資料和機(jī)構(gòu)信息及其相關(guān)的屬性、項(xiàng)目資金、文獻(xiàn)計(jì)量信息等。同時(shí),所有研究實(shí)體及其屬性都可以運(yùn)用Lucene搜索引擎搜索,搜索結(jié)果呈現(xiàn)在用戶界面。香港大學(xué)將只提供開(kāi)放存儲(chǔ)全文索引的傳統(tǒng)IR升級(jí)為CRIS,升級(jí)后的IR不僅可以搜集、存儲(chǔ)、展示、分析香港大學(xué)科研的相關(guān)信息,并以出版物為主導(dǎo),在內(nèi)容上有所擴(kuò)散,對(duì)出版物以外的科研成果加以描述,將項(xiàng)目、基金、專利、成果影響、學(xué)者信息,院系信息等更多方面包括其中,為科研工作者、管理者、公眾等獲取信息提供了便利。通過(guò)這種方式將IR成功轉(zhuǎn)變?yōu)镃RIS,成為香港大學(xué)學(xué)者與外界交流的平臺(tái),同時(shí)也為外界的搜索提供了多元化的科研信息和相關(guān)的服務(wù)。[13]
綜上所述,CRIS/IR鏈接意味著為當(dāng)前研究信息系統(tǒng)和機(jī)構(gòu)存儲(chǔ)庫(kù)之間的信息交換提供一些技術(shù)機(jī)制。這一信息交換通常涉及兩種系統(tǒng)之間某種程度的元數(shù)據(jù)傳輸或擴(kuò)展,從而減輕研究人員或管理人員工作負(fù)擔(dān),他們不需要花費(fèi)大量時(shí)間來(lái)重復(fù)輸入相同的信息,就能快速獲得描述出版物或其他研究活動(dòng)信息。CRIS/IR鏈接符合兩者的應(yīng)用發(fā)展趨勢(shì),兩種系統(tǒng)共存和合作,也可以使系統(tǒng)盡可能地實(shí)現(xiàn)互操作,實(shí)現(xiàn)真正的“一次輸入,多次輸出”。