張建勇 周毅 劉崢
(中國科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190)
現(xiàn)實(shí)世界中,同一事物或個(gè)人經(jīng)常會(huì)因不同的描述角度或經(jīng)歷擁有不同的名稱,如個(gè)人因婚姻、收養(yǎng)、寫作等可能有多個(gè)名稱,作品因版本不同可能有多個(gè)名稱。規(guī)范控制的目的是匯集同一實(shí)體的不同名稱形式,并區(qū)分具有相同名稱的同一實(shí)體。圖書館界對(duì)規(guī)范控制的典型定義是:為確保標(biāo)目在檢索款目及書目系統(tǒng)中的唯一性和穩(wěn)定性而建立、維護(hù)、使用規(guī)范款目和規(guī)范文檔的過程[1]。然而這一定義并沒有抽象出規(guī)范控制的實(shí)質(zhì),局限于描述卡片目錄時(shí)代和機(jī)讀目錄時(shí)代的規(guī)范控制工作過程。規(guī)范控制的本質(zhì)是實(shí)現(xiàn)基于概念的描述和匹配[2]。
在網(wǎng)絡(luò)時(shí)代,網(wǎng)絡(luò)資源迅速增長,體量巨大,事物的名稱種類也越來越多樣化,需要規(guī)范的概念不再只是圖書館書目記錄中的檢索點(diǎn)。傳統(tǒng)規(guī)范控制的效率問題、規(guī)范名稱的一致性問題、規(guī)范數(shù)據(jù)的應(yīng)用領(lǐng)域擴(kuò)展問題等都對(duì)圖書館規(guī)范控制的發(fā)展提出挑戰(zhàn)。在需求的驅(qū)動(dòng)下,國際圖書館界的規(guī)范控制由規(guī)范名稱轉(zhuǎn)向唯一標(biāo)識(shí)符,再走向開放關(guān)聯(lián)。隨著萬維網(wǎng)聯(lián)盟(World Wide Web Consortium,W3C)發(fā)起的關(guān)聯(lián)開放數(shù)據(jù)運(yùn)動(dòng)的推動(dòng),國外圖書館紛紛將書目數(shù)據(jù)或規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),提供關(guān)聯(lián)數(shù)據(jù)服務(wù),如德國國家圖書館、美國國會(huì)圖書館等,圖書館的規(guī)范數(shù)據(jù)正走向開放關(guān)聯(lián)。
NSTL作為一個(gè)基于網(wǎng)絡(luò)環(huán)境的科技文獻(xiàn)信息資源服務(wù)機(jī)構(gòu),其目標(biāo)是建設(shè)成數(shù)字時(shí)代的國家科技文獻(xiàn)信息資源的保障基地、國家科技文獻(xiàn)信息服務(wù)的集成樞紐、國家科技文獻(xiàn)信息服務(wù)發(fā)展的支持中心。NSTL擁有來自于多種數(shù)據(jù)源且數(shù)量龐大的信息資源,其包含的大量科研實(shí)體信息需要規(guī)范控制。在開放關(guān)聯(lián)趨勢(shì)下,NSTL的規(guī)范控制應(yīng)如何進(jìn)一步發(fā)展是需要深入研究的課題。
本文首先分析規(guī)范控制的發(fā)展趨勢(shì),包括規(guī)范內(nèi)容的變化和規(guī)范數(shù)據(jù)模型的演變,在此基礎(chǔ)上回顧并評(píng)估NSTL已經(jīng)開展的規(guī)范控制工作并探討開放關(guān)聯(lián)環(huán)境下NSTL規(guī)范控制可能的發(fā)展方向。
在卡片目錄時(shí)代和機(jī)讀目錄時(shí)代通常采用的做法,是在同一實(shí)體的多個(gè)名稱形式中選定一個(gè)規(guī)范名稱[3]。但一旦有規(guī)范名稱修改,就會(huì)引起規(guī)范記錄的修改,接著引起連接規(guī)范記錄的書目記錄修改,工作量難以估計(jì)。因此,圖書館改為在書目記錄中記錄規(guī)范記錄的控制號(hào)來解決這一問題[4]??刂铺?hào)是MARC規(guī)范記錄的唯一性標(biāo)識(shí)號(hào),由創(chuàng)建、使用或發(fā)行規(guī)范記錄的機(jī)構(gòu)設(shè)置[5]。然而控制號(hào)僅在本地?cái)?shù)據(jù)庫有意義,對(duì)于更大范圍內(nèi)或國際規(guī)范數(shù)據(jù)交換時(shí),需要在世界范圍內(nèi)有意義的唯一標(biāo)識(shí)符。圖書館界開始意識(shí)到標(biāo)識(shí)符的作用,并嘗試建立多種標(biāo)識(shí)符系統(tǒng),包括ISADN、ORCID、ISNI等。標(biāo)識(shí)符系統(tǒng)中不僅包含實(shí)體的名稱信息,還包含實(shí)體的其他信息,對(duì)規(guī)范控制的內(nèi)容開始由名稱轉(zhuǎn)向真實(shí)世界實(shí)體。
20世紀(jì)70年代,國際圖書館協(xié)會(huì)聯(lián)合會(huì)(International Federation of Library Associations and Institutions,I F L A)曾建議使用國際標(biāo)準(zhǔn)權(quán)威機(jī)構(gòu)數(shù)據(jù)編號(hào)(ISADN)用于連接相關(guān)的規(guī)范記錄,但因其昂貴的開銷而擱置[6]。2003年,聯(lián)機(jī)計(jì)算機(jī)圖書館中心(Online Computer Library Center,OCLC)和德國國家圖書館、美國國會(huì)圖書館決定開發(fā)個(gè)人名稱的虛擬規(guī)范文檔VIAF[7]。VIAF現(xiàn)已擁有30多個(gè)國家和地區(qū)的40多個(gè)組織的規(guī)范數(shù)據(jù)[8],其規(guī)范對(duì)象也擴(kuò)展到人員名稱、團(tuán)體名稱、地理名稱、作品、書目名稱等[9]。同時(shí)圖書館界內(nèi)外出現(xiàn)大量的身份管理系統(tǒng),用于管理人員、機(jī)構(gòu)等實(shí)體的信息,除了名稱以外,還包括身份、聯(lián)系地址等其他信息。這些系統(tǒng)同樣可以起到規(guī)范控制的匯集和消歧的作用。其中,管理人員或者機(jī)構(gòu)的唯一標(biāo)識(shí)符有ORCID[10]、iAuthor[11]、ResearcherID[12]、Scopus Author ID[13]、ISNI[14]等。作品方面,數(shù)字對(duì)象唯一標(biāo)識(shí)符(DOI)[15]、國際標(biāo)準(zhǔn)書號(hào)(ISBN)、國際標(biāo)準(zhǔn)連續(xù)出版物號(hào)(ISSN)、國際標(biāo)準(zhǔn)音樂作品碼(ISWC)、國際標(biāo)準(zhǔn)音像號(hào)(ISAN)等也可以唯一識(shí)別作品。
盡管唯一標(biāo)識(shí)符系統(tǒng)在全球范圍內(nèi)提供服務(wù),但其能覆蓋的范圍有限,一個(gè)系統(tǒng)想要識(shí)別所有研究者或組織幾乎是不現(xiàn)實(shí)的。各個(gè)系統(tǒng)唯一識(shí)別的人員或機(jī)構(gòu)存在交叉,一個(gè)作者很可能同時(shí)擁有ORCID、ResearcherID和ISNI。因此,為實(shí)現(xiàn)更大范圍的唯一識(shí)別,有必要建立系統(tǒng)之間的連接。
2006年Bernets-Lee提出了關(guān)聯(lián)數(shù)據(jù)的概念,他認(rèn)為語義網(wǎng)不僅僅是將數(shù)據(jù)發(fā)布到網(wǎng)上,而是要建立它們之間的連接,人或者機(jī)器才能探索數(shù)據(jù)網(wǎng)絡(luò)[16]。他同時(shí)提出關(guān)聯(lián)數(shù)據(jù)的四原則:一是使用URI命名事物;二是使用HTTP URI以便于用戶查找事物名稱;三是當(dāng)用戶查找URI時(shí),通過RDF、SPARQL等標(biāo)準(zhǔn)提供有用的信息;四是包含指向其他URI的鏈接,以便于用戶發(fā)現(xiàn)更多的內(nèi)容[17]。關(guān)聯(lián)數(shù)據(jù)的提出為圖書館規(guī)范數(shù)據(jù)進(jìn)一步統(tǒng)一提供了新途徑。關(guān)聯(lián)數(shù)據(jù)四原則中要求使用URI命名事物,即以URI為唯一標(biāo)識(shí)符識(shí)別事物。包含指向其他URI鏈接的原則體現(xiàn)在不同數(shù)據(jù)集的關(guān)聯(lián)。關(guān)聯(lián)數(shù)據(jù)的優(yōu)點(diǎn)在于支持?jǐn)?shù)據(jù)重用,便于擴(kuò)大數(shù)據(jù)內(nèi)外部聯(lián)接,形成數(shù)據(jù)網(wǎng)絡(luò),從而有利于提高數(shù)據(jù)集的質(zhì)量,提升數(shù)據(jù)價(jià)值。關(guān)聯(lián)數(shù)據(jù)為全球范圍內(nèi)規(guī)范數(shù)據(jù)的關(guān)聯(lián)提供了新路徑。
2007年W3C啟動(dòng)開放關(guān)聯(lián)數(shù)據(jù)運(yùn)動(dòng)(Linking Open Data,LOD),號(hào)召人們將現(xiàn)有數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。截至2020年5月,在LOD上發(fā)布的數(shù)據(jù)集由2007年的12個(gè)增長到1255個(gè)[18]。多個(gè)圖書館或規(guī)范數(shù)據(jù)項(xiàng)目將其規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。VIAF將其數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)[19]。美國國會(huì)圖書館自2009年開始將由其發(fā)布的所有詞表發(fā)布為關(guān)聯(lián)數(shù)據(jù),并提供關(guān)聯(lián)數(shù)據(jù)服務(wù)[20]。2010年德國國家圖書館將其規(guī)范數(shù)據(jù)GND發(fā)布為關(guān)聯(lián)數(shù)據(jù)[21]。日本國會(huì)圖書館[22]、匈牙利國家圖書館[23],以及國內(nèi)的上海圖書館[24]等也將自身的規(guī)范數(shù)據(jù)發(fā)布成關(guān)聯(lián)數(shù)據(jù)。此外,博物館界發(fā)起的“Open Authority”項(xiàng)目,試圖利用社會(huì)性網(wǎng)絡(luò),采用眾包的方式,共同開發(fā)圖書館、博物館、美術(shù)館的規(guī)范控制服務(wù),實(shí)現(xiàn)跨機(jī)構(gòu)類型的規(guī)范數(shù)據(jù)共建共享[25]。
在將規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)后,各關(guān)聯(lián)數(shù)據(jù)集逐步建立了與其他關(guān)聯(lián)數(shù)據(jù)集的關(guān)聯(lián),在提高自身數(shù)據(jù)質(zhì)量的同時(shí),實(shí)現(xiàn)更大范圍的數(shù)據(jù)關(guān)聯(lián)與共享。各數(shù)據(jù)集之間的關(guān)聯(lián)對(duì)象包括與百科類數(shù)據(jù)集的關(guān)聯(lián)、與其他規(guī)范數(shù)據(jù)集的關(guān)聯(lián)以及與其他相關(guān)數(shù)據(jù)集的關(guān)聯(lián)。其中與百科類數(shù)據(jù)集的關(guān)聯(lián)既可以豐富規(guī)范數(shù)據(jù)集的內(nèi)容,也可以借助百科網(wǎng)站的信息實(shí)現(xiàn)規(guī)范對(duì)象的語義消歧,通常關(guān)聯(lián)的百科類數(shù)據(jù)集有Wikidata、DBpedia、百度百科等。與其他同類型的規(guī)范數(shù)據(jù)集或身份識(shí)別系統(tǒng)關(guān)聯(lián),則是通過實(shí)體對(duì)齊與實(shí)體融合,實(shí)現(xiàn)規(guī)范數(shù)據(jù)范圍的擴(kuò)大與內(nèi)容的豐富,同時(shí)通過身份識(shí)別系統(tǒng)的唯一標(biāo)識(shí)符實(shí)現(xiàn)規(guī)范對(duì)象的唯一識(shí)別,如與VIAF、ORCID等的關(guān)聯(lián)。與相關(guān)數(shù)據(jù)集的關(guān)聯(lián)包括與GeoNames等的關(guān)聯(lián),如VIAF建立了與DBpedia、GND等數(shù)據(jù)集的關(guān)聯(lián)[26],德國國家圖書館建立了與DBpedia、VIAF、ORCID、GeoNames等數(shù)據(jù)集關(guān)聯(lián)[21]。
當(dāng)規(guī)范控制不再局限于名稱形式的字符串層面,轉(zhuǎn)而以真實(shí)世界的實(shí)體本身為規(guī)范對(duì)象后,MARC格式用數(shù)字編碼、元素粒度不一等的局限逐漸凸顯,新的數(shù)據(jù)模型被提出。IFLA發(fā)布的“功能需求”系列模型,將文獻(xiàn)信息的描述由外部特征轉(zhuǎn)向真實(shí)實(shí)體。在開放關(guān)聯(lián)環(huán)境下,各國圖書館采取復(fù)用已有數(shù)據(jù)模型或建立自定義本體作為數(shù)據(jù)模型的方式將自身的規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。
1998年IFLA發(fā)布FRBR(書目記錄的功能需求)。1999年4月,IFLA成立規(guī)范記錄的功能需求與編號(hào)(FRANAR)工作組,定義規(guī)范記錄的功能需求,延續(xù)FRBR的工作。FRANAR工作組在2005年公布了FRAD(規(guī)范數(shù)據(jù)的功能需求)。FRAD將一條規(guī)范記錄定義為一個(gè)實(shí)體的信息集合,為規(guī)范記錄的功能需求分析及規(guī)范數(shù)據(jù)的國際共享提供一個(gè)分析框架。FRAD定義了16個(gè)實(shí)體,包括個(gè)人、家族團(tuán)體作品、內(nèi)容表達(dá)、載體表現(xiàn)、單件(FRBR中的四層書目)等。在FRAD中,名稱、標(biāo)識(shí)符分別被獨(dú)立出來作為實(shí)體,其內(nèi)容分別是各種形式的名稱和標(biāo)識(shí)符。名稱實(shí)體通過“稱謂”關(guān)系與規(guī)范對(duì)象實(shí)體相連。標(biāo)識(shí)符實(shí)體通過“被標(biāo)識(shí)”關(guān)系與規(guī)范對(duì)象實(shí)體相連。
2010年6月,IFLA推出FRSAD(主題規(guī)范數(shù)據(jù)的功能需求)。FRSAD中定義THEMA為表示用作作品主題的實(shí)體。NOMEN作為表示名稱、標(biāo)識(shí)符和檢索點(diǎn)的實(shí)體。THEMA與NOMEN之間存在“有稱謂……”“是……的稱謂”的關(guān)系[27]。
FRBR、FRAD、FRSAD雖然是同系列的模型,共同構(gòu)成書目世界完整的模型體系,但3個(gè)模型存在不一致,造成應(yīng)用上的不便,如“個(gè)人的名稱”在FRBR和FRAD中隸屬于不同實(shí)體的屬性[28]。2017年IFLA將FRBR、FRAD、FRSAD整合成為IFLA-LRM模型[29]。IFLA-LRM被設(shè)計(jì)用于關(guān)聯(lián)數(shù)據(jù)環(huán)境,并支持和促進(jìn)關(guān)聯(lián)數(shù)據(jù)環(huán)境中書目數(shù)據(jù)的使用。在IFLA-LRM中最終定義了11個(gè)實(shí)體,并將實(shí)體分為三個(gè)層級(jí)。其中RES是新模型中的頂層,是其他10個(gè)實(shí)體的超類,表示其他任何實(shí)體。NOMEN作為第二級(jí)實(shí)體之一,由FRSAD中的“NOMEN”和FRAD中的“名稱”合并而成。NOMEN與RES之間存在“是……的稱謂”的關(guān)系。
在IFLA“功能需求”系列模型的影響下,2011年,美國國會(huì)圖書館開發(fā)了旨在適應(yīng)未來萬維網(wǎng)和廣義網(wǎng)絡(luò)世界的書目數(shù)據(jù)描述模型BIBFRAME。BIBFRAME簡(jiǎn)化了FR BR的思想,在BIBFR A ME 1.0中提出4個(gè)核心類,即作品(work)、實(shí)例(instance)、規(guī)范(Authority)、注釋(Annotation)。規(guī)范作為核心類是一種資源,代表與BIBFRAME作品、實(shí)例或注釋相關(guān)的個(gè)人、家庭、團(tuán)體、管轄權(quán)、會(huì)議、地點(diǎn)、主題或時(shí)間表達(dá)。在規(guī)范表達(dá)上,BI BFR A M E使用屬性“bf:authorizedAccessPoint”表示規(guī)范檢索點(diǎn),使用屬性“bf:has Authority”指向外部規(guī)范,取值為URI[30]。2016年BIBFRAME更新到2.0版本,BIBFRAME 2.0表示為OWL本體。BIBFRAME 2.0取消了規(guī)范類以及創(chuàng)作者(bf:creator)、規(guī)范檢索點(diǎn)(bf:authorizedAccessPoint)等屬性,將需要規(guī)范的對(duì)象定義為真實(shí)世界的實(shí)體,而不是通過名稱來識(shí)識(shí)別,包括person、organization、place等[31]。
各圖書館機(jī)構(gòu)或項(xiàng)目在將規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)時(shí),根據(jù)自身的數(shù)據(jù)特點(diǎn),通過兩種方式構(gòu)建數(shù)據(jù)模型。一是自定義的本體作為數(shù)據(jù)模型發(fā)布關(guān)聯(lián)數(shù)據(jù),在自定義本體中復(fù)用多種廣泛使用的標(biāo)準(zhǔn)詞表,或者與已有標(biāo)準(zhǔn)詞表對(duì)齊,如德國國家圖書館建立了GND本體[32]、上海圖書館建立了人名規(guī)范庫本體(shlnames)[33]等。二是盡量復(fù)用已有的數(shù)據(jù)模型,以一種現(xiàn)有標(biāo)準(zhǔn)詞表為核心詞表,以其他標(biāo)準(zhǔn)詞表為補(bǔ)充配合使用,以達(dá)到對(duì)數(shù)據(jù)的準(zhǔn)確描述。2014年,OCLC的國際規(guī)范文檔VIAF參考Wikidata的做法,以Schema.org為核心詞表,輔之其他標(biāo)準(zhǔn)詞表作為補(bǔ)充[19]。
開放關(guān)聯(lián)環(huán)境下,國際上規(guī)范數(shù)據(jù)控制工作的變化為國內(nèi)文獻(xiàn)信息資源建設(shè)提供了發(fā)展借鑒,同時(shí)也為規(guī)范控制工作帶來了新的挑戰(zhàn)。在國際上實(shí)體管理標(biāo)準(zhǔn)與技術(shù)越來越成熟的情況下,國內(nèi)的相關(guān)實(shí)踐屈指可數(shù)。NSTL作為國家科技文獻(xiàn)保障體系的核心組成部分,近年在對(duì)科研實(shí)體的規(guī)范控制中取得重大進(jìn)展。
NSTL的文獻(xiàn)數(shù)據(jù)資源來自多種渠道,包括自加工的目錄數(shù)據(jù)、篇章數(shù)據(jù)和引文數(shù)據(jù),也包括來自第三方的數(shù)據(jù),如Web of Science、CUP、Wiley、OUP等來源的數(shù)據(jù)。這些多來源的異構(gòu)數(shù)據(jù)總量已達(dá)到千萬量級(jí)。數(shù)據(jù)中包含大量的科研實(shí)體信息(人員、機(jī)構(gòu)、基金、期刊等),這些科研實(shí)體信息以不同的元數(shù)據(jù)標(biāo)準(zhǔn)描述,分散在各自的數(shù)據(jù)庫中,不能唯一識(shí)別,也不能建立相互之間的關(guān)系。
對(duì)此,NSTL在其“十三五”規(guī)劃中提出要拓展國家科技文獻(xiàn)信息元數(shù)據(jù)資源多渠道采集方式,全面采集、整合集成和轉(zhuǎn)換規(guī)范多類型的資源內(nèi)容,構(gòu)建統(tǒng)一完整的元數(shù)據(jù)框架,構(gòu)建中國科技信息資源的“大”元數(shù)據(jù)體系。同時(shí)提出開展多粒度的科技文獻(xiàn)信息深度組織與知識(shí)揭示[34]。在“十三五”規(guī)劃的指導(dǎo)下,NSTL設(shè)計(jì)了《NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)》(以下簡(jiǎn)稱《統(tǒng)一標(biāo)準(zhǔn)》)[35],以此為元數(shù)據(jù)格式,將不同來源的數(shù)據(jù)解析、清洗、轉(zhuǎn)換、集成,形成統(tǒng)一的元數(shù)據(jù)存儲(chǔ)和管理系統(tǒng),為NSTL的規(guī)范控制工作提供了數(shù)據(jù)基礎(chǔ)。
為滿足名稱規(guī)范數(shù)據(jù)描述和數(shù)據(jù)交互需要,NSTL遵循《統(tǒng)一標(biāo)準(zhǔn)》的規(guī)定,將該標(biāo)準(zhǔn)中名稱規(guī)范描述部分和名稱規(guī)范關(guān)系部分獨(dú)立成單個(gè)標(biāo)準(zhǔn),包括貢獻(xiàn)者、機(jī)構(gòu)、基金等,形成《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》?!督y(tǒng)一標(biāo)準(zhǔn)》的設(shè)計(jì)遵循模塊化設(shè)計(jì)原則。其具體體現(xiàn)是根據(jù)實(shí)體關(guān)聯(lián)方法分析抽象出資源對(duì)象的實(shí)體關(guān)系模型,以實(shí)體為單位形成描述元素集,對(duì)資源的描述就是對(duì)模型中不同實(shí)體描述的集合,描述各類實(shí)體的元素集可以復(fù)用。如機(jī)構(gòu)實(shí)體的描述可以用來描述研究者所在機(jī)構(gòu),也可以用來描述出版機(jī)構(gòu)?!睹Q規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》復(fù)用了《統(tǒng)一標(biāo)準(zhǔn)》中的貢獻(xiàn)者、機(jī)構(gòu)、基金等元素集,沿襲了模塊化原則,這些元素集以實(shí)體為單位匯集了所有描述人員、機(jī)構(gòu)、基金規(guī)范信息的元數(shù)據(jù)。
《統(tǒng)一標(biāo)準(zhǔn)》遵循最小粒度原則,將數(shù)據(jù)描述粒度盡可能細(xì)致到最小層面,如機(jī)構(gòu)名稱可以細(xì)分為一級(jí)機(jī)構(gòu)名稱、二級(jí)機(jī)構(gòu)名稱,地址信息可分為國家、州或省、城市以及綜合的地址信息描述。在《統(tǒng)一標(biāo)準(zhǔn)》中采用元素與屬性相結(jié)合的方式進(jìn)行數(shù)據(jù)描述。其中元素是元數(shù)據(jù)的基本單元,屬性用于描述和限定元素相關(guān)信息。如日期由元素“date”描述,要限定日期的類型,需要同時(shí)采用屬性“日期類型(date-type)”。“出生日期”表示為“”?!睹Q規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》復(fù)用《統(tǒng)一標(biāo)準(zhǔn)》的元素集,同樣沿襲了最小粒度原則,使得規(guī)范對(duì)象的各類信息都可以在元數(shù)據(jù)標(biāo)準(zhǔn)中得到描述。元素與屬性相結(jié)合的方式避免元素?cái)?shù)量過大,又能深入細(xì)致地描述信息資源,具有表達(dá)靈活性。
《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》中還描述了規(guī)范對(duì)象的名稱規(guī)范關(guān)系。規(guī)范關(guān)系的根節(jié)點(diǎn)下包含規(guī)范對(duì)象的唯一標(biāo)識(shí)符和多個(gè)其他形式的標(biāo)識(shí)符,即一條規(guī)范數(shù)據(jù)由該規(guī)范對(duì)象的一組數(shù)據(jù)組成,每個(gè)規(guī)范對(duì)象有一個(gè)唯一標(biāo)識(shí)的規(guī)范ID。因《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》中以實(shí)體為單位建立描述元素集,且每一個(gè)規(guī)范對(duì)象有唯一標(biāo)識(shí)符標(biāo)識(shí),因此可以揭示規(guī)范對(duì)象之間的關(guān)系,如作者與機(jī)構(gòu)的關(guān)系、基金與機(jī)構(gòu)的關(guān)系等。
NSTL以集成融合的數(shù)據(jù)管理系統(tǒng)為數(shù)據(jù)來源,以《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》為元數(shù)據(jù)格式,從中抽取科研實(shí)體信息,構(gòu)建NSTL名稱規(guī)范系統(tǒng)。NSTL名稱規(guī)范系統(tǒng)的建設(shè)首先是數(shù)據(jù)抽取,根據(jù)《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》,從文獻(xiàn)信息中析出人員、機(jī)構(gòu)、基金、期刊信息。其中,人員有姓名、聯(lián)系方式、出生與死亡日期、所屬機(jī)構(gòu)等信息;機(jī)構(gòu)有機(jī)構(gòu)名稱、聯(lián)系方式、地址等信息;基金有基金名稱、日期、主題、介紹等信息。
其次是規(guī)范控制,規(guī)范控制又包含兩方面的工作:一是科研實(shí)體合并消歧,針對(duì)不同類形的規(guī)范對(duì)象,采用不同的消歧算法,在消歧過程中充分利用唯一標(biāo)識(shí)符的唯一識(shí)別作用。如人員消歧算法中,首先采用ORCID、ResearcherID等唯一標(biāo)識(shí)符進(jìn)行識(shí)別,接著采用姓名、郵箱、研究領(lǐng)域、其他名稱、所在機(jī)構(gòu)、合作者信息等進(jìn)行區(qū)分。二是規(guī)范關(guān)系的揭示,規(guī)范關(guān)系描述同一規(guī)范對(duì)象的不同表達(dá)形式的信息,通過揭示規(guī)范關(guān)系,形成規(guī)范數(shù)據(jù)。一條規(guī)范數(shù)據(jù)是關(guān)于單個(gè)實(shí)體的一組記錄,這組記錄可能包含來自多個(gè)不同的數(shù)據(jù)源的多條記錄。NSTL名稱規(guī)范系統(tǒng)為每一條規(guī)范數(shù)據(jù)賦予一個(gè)規(guī)范ID唯一識(shí)別實(shí)體,通過實(shí)體關(guān)聯(lián)識(shí)別與規(guī)范關(guān)系揭示,可以依托原文獻(xiàn)信息挖掘?qū)嶓w與實(shí)體之間的關(guān)系,如人員與機(jī)構(gòu)間的隸屬關(guān)系、機(jī)構(gòu)與基金之間的發(fā)起關(guān)系。
NSTL在“十三五”規(guī)劃中提出推進(jìn)NSTL元數(shù)據(jù)的開放利用,按照通用格式規(guī)范發(fā)布開放元數(shù)據(jù),爭(zhēng)取以關(guān)聯(lián)數(shù)據(jù)方式發(fā)布開放元數(shù)據(jù)。逐步建立跨界數(shù)據(jù)關(guān)聯(lián)利用機(jī)制,逐步建立NSTL文獻(xiàn)資源與國內(nèi)外各類數(shù)據(jù)源的關(guān)聯(lián)[36]。在“十三五”規(guī)劃的指導(dǎo)下,NSTL在規(guī)范控制方面開展了一系列的研究工作,包括各類型規(guī)范數(shù)據(jù)建設(shè)研究,在NSTL名稱規(guī)范庫基礎(chǔ)上的各類規(guī)范數(shù)據(jù)規(guī)范化處理與增強(qiáng),以及面向未來的規(guī)范數(shù)據(jù)語義化研究。
各類規(guī)范數(shù)據(jù)建設(shè)方面,王軍輝等[37]研究了期刊規(guī)范文檔建設(shè)方案與應(yīng)用場(chǎng)景并進(jìn)行了實(shí)踐,借鑒FRBR/FRAD模型的理念將NSTL聯(lián)合目錄中的每條期刊書目視為一個(gè)物理品種實(shí)體。隨后在實(shí)踐中以烏利希期刊資源完善了期刊的沿革關(guān)系,以PubMed期刊資源為例實(shí)現(xiàn)期刊別名整合,并開發(fā)了原型系統(tǒng)[38]。方安等[39]研究了會(huì)議規(guī)范文檔建設(shè)與功能。通過NSTL聯(lián)合目錄系統(tǒng)建設(shè)實(shí)現(xiàn)了會(huì)議規(guī)范文檔的目標(biāo)功能,達(dá)到對(duì)會(huì)議信息進(jìn)行規(guī)范控制和統(tǒng)一管理的建設(shè)目標(biāo)。
NSTL名稱規(guī)范庫基礎(chǔ)上的各類規(guī)范數(shù)據(jù)規(guī)范化處理與增強(qiáng)方面,包括從多來源母體數(shù)據(jù)的人工規(guī)范化處理、機(jī)構(gòu)和人名信息的增強(qiáng)及處理、基金信息的增強(qiáng)和處理等方面,研究如何充分利用已有外部數(shù)據(jù)庫提供的相關(guān)數(shù)據(jù),豐富本地名稱規(guī)范數(shù)據(jù)。
面向未來的語義化研究方面,開展名稱規(guī)范數(shù)據(jù)的語義表示路徑研究。通過調(diào)研現(xiàn)有信息服務(wù)機(jī)構(gòu)和出版商在語義表示方面的研究項(xiàng)目和實(shí)踐,分析關(guān)聯(lián)數(shù)據(jù)發(fā)布項(xiàng)目中的數(shù)據(jù)模型,吸取經(jīng)驗(yàn),構(gòu)建NSTL名稱規(guī)范數(shù)據(jù)的數(shù)據(jù)模型,探索NSTL關(guān)聯(lián)數(shù)據(jù)發(fā)布方案,推動(dòng)NSTL規(guī)范數(shù)據(jù)走向語義化。
NSTL的《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》以模塊化設(shè)計(jì)為原則,每一種規(guī)范對(duì)象為一個(gè)模塊且模塊可復(fù)用,避免了MARC21在一條規(guī)范記錄中描述多種實(shí)體信息的混合描述情況,體現(xiàn)了實(shí)體-關(guān)系思想。最小粒度原則使得規(guī)范對(duì)象的信息能夠被深入細(xì)致地描述。每一規(guī)范對(duì)象賦予唯一標(biāo)識(shí)符,實(shí)現(xiàn)規(guī)范對(duì)象的唯一識(shí)別,方便揭示規(guī)范對(duì)象之間的關(guān)系。NSTL名稱規(guī)范系統(tǒng)利用計(jì)算機(jī)技術(shù),依托自身豐富的資源,實(shí)現(xiàn)了大數(shù)量級(jí)的科研實(shí)體規(guī)范控制??蒲袑?shí)體的規(guī)范控制為NSTL文獻(xiàn)檢索發(fā)現(xiàn)系統(tǒng)提供了支撐,為提高其檢索效果以及開發(fā)科研動(dòng)態(tài)揭示、科研合作網(wǎng)絡(luò)發(fā)現(xiàn)等知識(shí)服務(wù)提供了數(shù)據(jù)基礎(chǔ)。NSTL規(guī)范控制的研究為提高NSTL規(guī)范系統(tǒng)的建立、規(guī)范數(shù)據(jù)的提高以及規(guī)范數(shù)據(jù)的未來發(fā)展進(jìn)行了預(yù)研,積累了理論與方法基礎(chǔ)。
在當(dāng)前規(guī)范控制內(nèi)容從名稱選擇向?qū)嶓w管理轉(zhuǎn)變,規(guī)范數(shù)據(jù)模型由平面化的MARC或元素集轉(zhuǎn)向以實(shí)體關(guān)系為基礎(chǔ)的數(shù)據(jù)模型的趨勢(shì)下,NSTL規(guī)范控制仍然有進(jìn)一步拓展的空間。如《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》以單條記錄為描述單元,沒有完全形成以真實(shí)世界實(shí)體為描述對(duì)象的描述框架或本體,不能支持?jǐn)?shù)據(jù)集的重用和開放關(guān)聯(lián)。另外,NSTL名稱規(guī)范數(shù)據(jù)主要用于支持NSTL文獻(xiàn)檢索發(fā)現(xiàn)系統(tǒng),其規(guī)范ID只能在本地系統(tǒng)中唯一識(shí)別科研實(shí)體,不能為NSTL其他系統(tǒng)或第三方機(jī)構(gòu)重用。NSTL名稱規(guī)范數(shù)據(jù)從文獻(xiàn)數(shù)據(jù)中析出,描述規(guī)范對(duì)象的數(shù)據(jù)有限,需要借助融合其他數(shù)據(jù)集獲得質(zhì)量提升。因此,研究提出下一步NSTL規(guī)范控制的發(fā)展走向。
國內(nèi)外先行者開展的多項(xiàng)關(guān)聯(lián)數(shù)據(jù)發(fā)布實(shí)踐提供了豐富的經(jīng)驗(yàn)。NSTL可依托已經(jīng)開展的語義化研究成果,在研究現(xiàn)有國內(nèi)外信息服務(wù)機(jī)構(gòu)或出版商關(guān)聯(lián)數(shù)據(jù)實(shí)踐的基礎(chǔ)上,探索符合NSTL名稱規(guī)范系統(tǒng)應(yīng)用需要的關(guān)聯(lián)數(shù)據(jù)模型,將NSTL名稱規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。并逐步建立關(guān)聯(lián)規(guī)范數(shù)據(jù)集與外部數(shù)據(jù)集的關(guān)聯(lián),包括與VIAF等規(guī)范關(guān)聯(lián)數(shù)據(jù)集的關(guān)聯(lián),與DBpedia、維基百科、百度百科等百科類知識(shí)的關(guān)聯(lián),以及與ORCID、ISNI等唯一標(biāo)識(shí)符系統(tǒng)的關(guān)聯(lián)。通過開放關(guān)聯(lián)提高數(shù)據(jù)集的質(zhì)量,提高規(guī)范數(shù)據(jù)的應(yīng)用價(jià)值。
德國國家圖書館發(fā)布的《2017—2020優(yōu)先戰(zhàn)略》[40]提出要推進(jìn)規(guī)范文檔向所有類型的文化機(jī)構(gòu)開放,提高公眾對(duì)規(guī)范文檔的認(rèn)識(shí)和使用,實(shí)現(xiàn)規(guī)范文檔GND基礎(chǔ)設(shè)施現(xiàn)代化。德國國家圖書館開發(fā)了基于GND數(shù)據(jù)服務(wù)Entity Facts[41],為規(guī)范文檔中的實(shí)體提供機(jī)器可讀的說明,使得規(guī)范數(shù)據(jù)更加容易集成到其他應(yīng)用程序中。NSTL規(guī)范數(shù)據(jù)在尋求與外部資源關(guān)聯(lián)融合以及提高規(guī)范數(shù)據(jù)質(zhì)量的同時(shí),也可以采取措施推動(dòng)規(guī)范數(shù)據(jù)在更廣范圍內(nèi)的應(yīng)用,開發(fā)基于名稱規(guī)范數(shù)據(jù)的數(shù)據(jù)服務(wù),拓展服務(wù)范圍,創(chuàng)新服務(wù)方式。服務(wù)范圍拓展方面,研究規(guī)范數(shù)據(jù)提供服務(wù)的機(jī)制,使規(guī)范數(shù)據(jù)不僅為NSTL文獻(xiàn)檢索發(fā)現(xiàn)系統(tǒng)提供規(guī)范控制,同時(shí)也能為其他圖書館的系統(tǒng)或其他文化遺產(chǎn)機(jī)構(gòu)的資源系統(tǒng)相融合;數(shù)據(jù)服務(wù)開發(fā)方面,支持語義搜索、科研評(píng)價(jià)、數(shù)據(jù)挖掘等服務(wù)。在關(guān)聯(lián)數(shù)據(jù)支持下,當(dāng)用戶在數(shù)據(jù)庫中查詢規(guī)范數(shù)據(jù)時(shí),可以獲取實(shí)體的屬性信息,還可以通過關(guān)聯(lián)數(shù)據(jù)集中的關(guān)系查詢到與之相關(guān)聯(lián)的實(shí)體。通過對(duì)某一機(jī)構(gòu)或某一作者的出版成果進(jìn)行統(tǒng)計(jì)分析可以用于評(píng)價(jià)作者或機(jī)構(gòu)等實(shí)體的科研水平。此外,關(guān)聯(lián)數(shù)據(jù)化的規(guī)范數(shù)據(jù)可以支持一系列的計(jì)量學(xué)分析,包括作者合作分析、研究趨勢(shì)分析、研究演化分析、區(qū)域分布分析等。
多國國家級(jí)機(jī)構(gòu)建立了文化遺產(chǎn)資源的統(tǒng)一平臺(tái),尋求圖書館、檔案館、博物館等文化遺產(chǎn)機(jī)構(gòu)的聯(lián)合。博物館界發(fā)起的“Open Authority”試圖聯(lián)合圖書館、美術(shù)館、博物館共同進(jìn)行規(guī)范控制。歐盟數(shù)字圖書館(Europeana)與數(shù)千個(gè)歐洲檔案館、圖書館和博物館合作,共享文化遺產(chǎn)。其在2011—2015年的戰(zhàn)略規(guī)劃中將聚合并建立開放可信的歐洲文化遺產(chǎn)資源作為未來5年四大發(fā)展戰(zhàn)略之一[42]。2012年10月,Europeana將2000萬條文字、圖像、視頻和聲音的元數(shù)據(jù)轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù)[43]。美國數(shù)字公共圖書館(Digital Public Library of America,DPLA)旨在將美國的圖書館、檔案館和博物館的資源聚合起來,將18個(gè)成員機(jī)構(gòu),超過200萬條記錄發(fā)布為關(guān)聯(lián)數(shù)據(jù)。在2019—2022年的戰(zhàn)略規(guī)劃中,DPLA表示要不斷擴(kuò)大文化遺產(chǎn)資源匯聚網(wǎng)絡(luò)[44]。這些案例均體現(xiàn)跨領(lǐng)域資源融合的趨勢(shì)。NSTL作為國家級(jí)科技文獻(xiàn)信息的資源保障基地、服務(wù)集成樞紐和服務(wù)發(fā)展支持中心,其下?lián)碛卸鄠€(gè)成員單位。尋求與其他文化遺產(chǎn)機(jī)構(gòu)聯(lián)合,實(shí)現(xiàn)聯(lián)合檔案館、圖書館、博物館等的關(guān)聯(lián)應(yīng)用和服務(wù),將形成合力,將規(guī)范控制工作推上新臺(tái)階。
傳統(tǒng)的規(guī)范控制方式已不適用于當(dāng)前的需求環(huán)境,規(guī)范控制的內(nèi)容與數(shù)據(jù)模型均發(fā)生了變革。開放關(guān)聯(lián)為規(guī)范控制提供了新路徑,在W3C開放關(guān)聯(lián)運(yùn)動(dòng)的推動(dòng)下,規(guī)范數(shù)據(jù)走向開放關(guān)聯(lián)。規(guī)范數(shù)據(jù)的數(shù)據(jù)模型也由MARC走向以實(shí)體-關(guān)系為基礎(chǔ)的描述框架或本體。國外圖書館紛紛將規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)并建立與其他數(shù)據(jù)集的關(guān)聯(lián)。在這樣的趨勢(shì)下,NSTL制定了模塊化、細(xì)粒度化的《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》。以此為數(shù)據(jù)模型建立的NSTL名稱規(guī)范庫系統(tǒng)實(shí)現(xiàn)了大數(shù)量級(jí)的科研實(shí)體規(guī)范控制,NSTL規(guī)范控制取得重要成果。未來NSTL可以將已有研究成果應(yīng)用于實(shí)踐,推進(jìn)規(guī)范數(shù)據(jù)從封閉單一的“記錄”數(shù)據(jù)走向開放關(guān)聯(lián)的實(shí)體關(guān)系數(shù)據(jù),并推動(dòng)規(guī)范數(shù)據(jù)向更廣范圍內(nèi)的第三方開放,開發(fā)基于關(guān)聯(lián)規(guī)范數(shù)據(jù)的數(shù)據(jù)服務(wù)。同時(shí),促進(jìn)跨領(lǐng)域規(guī)范數(shù)據(jù)融合,實(shí)現(xiàn)聯(lián)合檔案館、圖書館、博物館等的關(guān)聯(lián)應(yīng)用和服務(wù)。通過服務(wù)范圍的拓展和服務(wù)方式的創(chuàng)新,以期充分實(shí)現(xiàn)圖書館資源在網(wǎng)絡(luò)時(shí)代應(yīng)有的價(jià)值。