朱 江,李欣怡,姜恩波,劉春江,向 彬(.中國科學(xué)院成都文獻(xiàn)情報(bào)中心;2.中國科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院)
ISLI即國際標(biāo)準(zhǔn)關(guān)聯(lián)標(biāo)識符(International Standard Link Identifier),ISLI國際標(biāo)準(zhǔn)《ISO 17316:2015信息與文獻(xiàn)——國際標(biāo)準(zhǔn)關(guān)聯(lián)標(biāo)識符(ISLI)》[1]于2015年5月15日正式發(fā)布,這是我國新聞出版界主導(dǎo)制定的第一部國際標(biāo)準(zhǔn)。與單一對象標(biāo)識符不同,ISLI不以標(biāo)識和識別單一對象為目的,而是主要用于標(biāo)識兩個(gè)實(shí)體之間的關(guān)聯(lián)關(guān)系,并不改變實(shí)體的各種屬性和標(biāo)識,[2]其表現(xiàn)形式是一個(gè)帶有關(guān)聯(lián)信息(元數(shù)據(jù))的標(biāo)志碼,以創(chuàng)建實(shí)體之間的關(guān)聯(lián),實(shí)現(xiàn)多個(gè)實(shí)體的關(guān)聯(lián)、共同呈現(xiàn)等目的。這些實(shí)體可以是圖文音像、數(shù)據(jù)、知識元等具有不同細(xì)粒度和表現(xiàn)形式的信息與文獻(xiàn)領(lǐng)域內(nèi)的所有具體實(shí)物,也可以是地理位置坐標(biāo)、時(shí)間點(diǎn)等更為抽象的事物。[3]ISLI關(guān)聯(lián)模型包括源、目標(biāo)和兩者之間的關(guān)聯(lián)三個(gè)要素。[4]
關(guān)聯(lián)關(guān)系是文獻(xiàn)與信息領(lǐng)域不同類別、屬性、細(xì)粒度實(shí)體之間尚待進(jìn)一步挖掘與實(shí)現(xiàn)的寶貴資源,有著重要的現(xiàn)實(shí)意義。ISLI的提出、完備與推廣對于定義相關(guān)實(shí)體間的關(guān)聯(lián)關(guān)系有重要作用。①穩(wěn)定可靠。在ISLI標(biāo)準(zhǔn)框架下,各實(shí)體就如同一個(gè)個(gè) “零部件” ,通過ISLI編碼實(shí)現(xiàn)彼此間共性主題的關(guān)聯(lián),同時(shí)各實(shí)體仍可保持其個(gè)體獨(dú)立性,因?yàn)镮SLI標(biāo)準(zhǔn)并不改變實(shí)體的獨(dú)立形態(tài)及其原本功能。也就是說,依托ISLI標(biāo)準(zhǔn)構(gòu)建的關(guān)聯(lián)關(guān)系不會因?yàn)閷?shí)體所處的倉儲系統(tǒng)或其他客觀環(huán)境的變化而失效。②原理簡潔。不同于以識別和標(biāo)識單一對象為目的的標(biāo)識符,ISLI的關(guān)注點(diǎn)在于使用ISLI編碼體系創(chuàng)建兩個(gè)實(shí)體之間的關(guān)聯(lián)關(guān)系,一旦編碼標(biāo)準(zhǔn)的細(xì)節(jié)制定成熟完備,便可快速、低成本地盤活現(xiàn)存資源,以關(guān)聯(lián)推進(jìn)新的資源價(jià)值產(chǎn)生。③拓展靈活。在ISLI標(biāo)準(zhǔn)的編碼方案中,關(guān)聯(lián)字段所包含的數(shù)字編碼的長度和結(jié)構(gòu)均可由注冊機(jī)構(gòu)根據(jù)應(yīng)用對象的分類和需要進(jìn)行自定義,[4]ISLI標(biāo)識符的編碼結(jié)構(gòu)采用了定長但不限長的十進(jìn)制數(shù)字編碼及相對自由的編碼要素語法規(guī)則,因此,ISLI編碼體系中的關(guān)聯(lián)字段具有良好的可擴(kuò)展性。
ISLI標(biāo)準(zhǔn)源自我國的多媒體印刷讀物(Multimedia Print Reader,MPR)標(biāo)準(zhǔn),[5]ISLI/MPR被視為ISLI標(biāo)準(zhǔn)最初的典型應(yīng)用,并成功在國內(nèi)外出版領(lǐng)域得到認(rèn)可與推廣。[6]隨后,ISLI標(biāo)準(zhǔn)積極探索與更多領(lǐng)域的融合模式,并在知識關(guān)聯(lián)服務(wù)(Knowledge Linking Service,KLS)、增強(qiáng)現(xiàn)實(shí)(Augmented Reality,AR)出版、插畫等領(lǐng)域逐步形成ISLI/KLS[7]、ISLI/AR[8]、ISLI/WIS[9]等應(yīng)用。國家新聞出版廣電總局?jǐn)?shù)字出版司于《新聞出版業(yè) “十三五” 科技發(fā)展規(guī)劃總體思路》規(guī)劃中明確表示 “要大力推進(jìn)ISLI標(biāo)準(zhǔn)在國內(nèi)外的產(chǎn)業(yè)應(yīng)用” 。[10]2018年5月,中國ISLI注冊中心與中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心就新聞出版與物聯(lián)網(wǎng)標(biāo)識的元數(shù)據(jù)共享開展合作,[11]這意味著ISLI的推廣落地將在非新聞出版領(lǐng)域有所突破。
科技文獻(xiàn)是學(xué)者向社會展現(xiàn)其科研成果的重要途徑之一,而科研過程中產(chǎn)生的科學(xué)數(shù)據(jù)實(shí)則與科研結(jié)果保持著同等重要的位置,其如同 “證據(jù)” 一般詳實(shí)地記錄著科研結(jié)果的推導(dǎo)過程,一些科學(xué)數(shù)據(jù)也已成為科研成果的重要表現(xiàn)形式之一??萍嘉墨I(xiàn)與科研數(shù)據(jù)間關(guān)系可謂緊密。隨著認(rèn)識的提高和技術(shù)的突破,人類進(jìn)入了大數(shù)據(jù)時(shí)代,科學(xué)研究不可避免地也有了新的延伸方向:數(shù)據(jù)在科研中的地位逐漸重要,數(shù)據(jù)密集型科學(xué)作為科學(xué)探索的新的第四范式隨之產(chǎn)生。[12]加之開放獲取浪潮的不斷推動,人們對于科技文獻(xiàn)中相關(guān)科學(xué)數(shù)據(jù)的可獲取性呼聲日益高漲,諸如GBIF、DataStaR、OTA之類的數(shù)據(jù)倉儲平臺應(yīng)運(yùn)而生。目前,有學(xué)者基于數(shù)字對象唯一標(biāo)識符(DOI)、元數(shù)據(jù)等角度對科學(xué)數(shù)據(jù)和科技文獻(xiàn)的關(guān)聯(lián)展開了研究。[13,14]ISLI標(biāo)準(zhǔn)的出現(xiàn)為實(shí)現(xiàn)科技文獻(xiàn)和科學(xué)數(shù)據(jù)的標(biāo)準(zhǔn)化關(guān)聯(lián)提供了新的解決方案,同時(shí)也有利于提升兩者間關(guān)聯(lián)關(guān)系的穩(wěn)定性和復(fù)用性。
以科學(xué)數(shù)據(jù)原創(chuàng)性和獨(dú)立性為標(biāo)準(zhǔn),可將科學(xué)數(shù)據(jù)分為科技文獻(xiàn)內(nèi)科學(xué)數(shù)據(jù)和科技文獻(xiàn)外科學(xué)數(shù)據(jù)。[15]前者指在某項(xiàng)科研過程中具體產(chǎn)生的原始科研數(shù)據(jù),與科技文獻(xiàn)內(nèi)容完全整合在一起,通常以表格、數(shù)字、圖像等格式呈現(xiàn),此類科研數(shù)據(jù)并未被單獨(dú)存儲,而是依附于科技文獻(xiàn),文獻(xiàn)本身即為此類科研數(shù)據(jù)的天然載體,對這一類科研數(shù)據(jù)通常以文獻(xiàn)引用代替數(shù)據(jù)引用;后者是指與科技文獻(xiàn)分離、獨(dú)立存在的科學(xué)數(shù)據(jù),通常來自于特定數(shù)據(jù)倉儲平臺的科學(xué)數(shù)據(jù)集和數(shù)據(jù)記錄。目前,還出現(xiàn)了以刊載和發(fā)行規(guī)范化科學(xué)數(shù)據(jù)為主要目標(biāo)的數(shù)據(jù)出版物,如數(shù)據(jù)期刊和數(shù)據(jù)論文,這種類型的科學(xué)數(shù)據(jù)可作為直接引用源。
科技文獻(xiàn)、科學(xué)數(shù)據(jù)的關(guān)聯(lián)形式多樣、類型復(fù)雜,主要的關(guān)聯(lián)形式有以下三種。[16]①硬關(guān)聯(lián)。一篇科技文獻(xiàn)與它在特定數(shù)據(jù)倉儲平臺提交的科學(xué)數(shù)據(jù)集之間的關(guān)聯(lián),呈現(xiàn)一對一或一對多的關(guān)系。這種關(guān)聯(lián)是有意識的、人為的關(guān)聯(lián),主要實(shí)現(xiàn)科學(xué)數(shù)據(jù)與其來源科技文獻(xiàn)形式上的關(guān)聯(lián)。②軟關(guān)聯(lián)。一篇科技文獻(xiàn)與它引用的科學(xué)數(shù)據(jù)集或主題、內(nèi)容相關(guān)的科學(xué)數(shù)據(jù)集之間的關(guān)聯(lián),大多數(shù)情況下是一對多的關(guān)系。這種類型的關(guān)聯(lián)是從某一特定內(nèi)容出發(fā),將與該內(nèi)容相關(guān)的多方科技文獻(xiàn)和科學(xué)數(shù)據(jù)進(jìn)行集成,可為用戶參考提供便利。但這種關(guān)聯(lián)尚不成熟,準(zhǔn)確性有待考證。③其他關(guān)聯(lián)。一篇科技文獻(xiàn)與在出版、傳播過程中由編輯或同行科技工作者添加的其他科學(xué)數(shù)據(jù)集或解析工具之間的關(guān)聯(lián)等。上述關(guān)聯(lián)均可利用ISLI模型實(shí)現(xiàn)。
科技文獻(xiàn)和科學(xué)數(shù)據(jù)并非最小的關(guān)聯(lián)單位,可將其解構(gòu)成細(xì)粒度更小的知識單元。如果把獨(dú)立的單篇科技文獻(xiàn)和獨(dú)立的單個(gè)科學(xué)數(shù)據(jù)集看作 “資源” ,把科技文獻(xiàn)和科學(xué)數(shù)據(jù)集中更小的知識單元看作 “知識” ,則可將科技文獻(xiàn)、科學(xué)數(shù)據(jù)集之間的關(guān)聯(lián)劃分為四種類型(見表1)。根據(jù)上述關(guān)聯(lián)類型,可在ISLI標(biāo)準(zhǔn)元數(shù)據(jù)集的基礎(chǔ)上對關(guān)聯(lián)類型元數(shù)據(jù)項(xiàng)、關(guān)聯(lián)對象及取值范圍進(jìn)行擴(kuò)展,同時(shí)對ISLI關(guān)聯(lián)編碼體系進(jìn)行定義。
(1)關(guān)聯(lián)類型的擴(kuò)展。在ISLI標(biāo)準(zhǔn)元數(shù)據(jù)集的基礎(chǔ)上,對科技文獻(xiàn)和科學(xué)數(shù)據(jù)集的關(guān)聯(lián)類型元數(shù)據(jù)項(xiàng)進(jìn)行擴(kuò)展,劃分為上述的四種類型,并預(yù)留進(jìn)一步擴(kuò)展的空間。
(2)關(guān)聯(lián)對象的擴(kuò)展和規(guī)范??萍嘉墨I(xiàn)具有諸如論文、圖書、研究報(bào)告等多樣的表現(xiàn)形式,而科學(xué)數(shù)據(jù)分為原始性基礎(chǔ)數(shù)據(jù)與按照不同需求加工后的數(shù)據(jù)集和相關(guān)信息。不同的科技文獻(xiàn)和科學(xué)數(shù)據(jù)之間的關(guān)聯(lián)位置、層級、程度不可能千篇一律。因而對于關(guān)聯(lián)對象而言,其取值范圍、取值標(biāo)準(zhǔn)和校驗(yàn)方法亟需得以擴(kuò)展與規(guī)范,以便區(qū)分與囊括不同類型和細(xì)粒度的關(guān)聯(lián)對象,打破載體和介質(zhì)的屏障,直接進(jìn)入內(nèi)容資源層建立一套具有統(tǒng)一規(guī)則的、完整的關(guān)聯(lián)關(guān)系。
表1 科技文獻(xiàn)與科學(xué)數(shù)據(jù)集的關(guān)聯(lián)類型
(3)關(guān)聯(lián)行為元數(shù)據(jù)項(xiàng)的擴(kuò)展和作用。實(shí)體間存在目的不同的關(guān)聯(lián)行為,可參照Subject-Action-Object(SAO)的語義表達(dá)結(jié)構(gòu)理念,在ISLI關(guān)聯(lián)的 “源” 和 “目標(biāo)” 中間增加一個(gè)關(guān)聯(lián)行為元數(shù)據(jù)項(xiàng),其作用相當(dāng)于SAO中的 “A” ,以便對龐大的關(guān)聯(lián)編碼進(jìn)行聚類。關(guān)聯(lián)行為元數(shù)據(jù)項(xiàng)的取值可根據(jù)實(shí)際應(yīng)用不斷擴(kuò)展,以適應(yīng)不斷創(chuàng)新、變化的關(guān)聯(lián)行為。
出于對海量實(shí)體及實(shí)體種類 “身份” 管理的需求,需要對 “有意義” 的實(shí)體進(jìn)行唯一性標(biāo)識,并通過識別、抽取命名實(shí)體和創(chuàng)建實(shí)體唯一標(biāo)識符實(shí)現(xiàn)對實(shí)體的準(zhǔn)確性、系統(tǒng)性管理。①明確命名實(shí)體的命名規(guī)則及組織、保存和更新規(guī)則,以便對不同類別的實(shí)體進(jìn)行有效歸類、檢索,明確實(shí)體邊界,便于機(jī)器學(xué)習(xí),實(shí)現(xiàn)對命名實(shí)體的自動抽取、命名、保存和更新。②建立KOI(知識對象標(biāo)識符)標(biāo)識。ISLI關(guān)聯(lián)的是 “源” 和 “目標(biāo)” 兩個(gè)實(shí)體,雖然ISLI標(biāo)準(zhǔn)規(guī)定 “源” 實(shí)體一般是確定的, “目標(biāo)” 實(shí)體可以是確定的也可以事后確定或建立,但 “源” 和 “目標(biāo)” 作為實(shí)體,除了實(shí)體名稱外,一般還應(yīng)建立一個(gè)唯一標(biāo)識符。獨(dú)立的單篇科技文獻(xiàn)和獨(dú)立的單個(gè)科學(xué)數(shù)據(jù)集可被視為粒度較粗的 “資源” 層面,該層面現(xiàn)已存在數(shù)字對象標(biāo)識符(DOI)作為唯一標(biāo)識符。但對于科技文獻(xiàn)和科學(xué)數(shù)據(jù)集中的知識實(shí)體(或知識單元)還尚未建立統(tǒng)一且被廣泛使用的唯一標(biāo)識符體系,在此可借助KOI[7]對系統(tǒng)內(nèi)抽取出來的知識實(shí)體(或知識單元)進(jìn)行標(biāo)識和存儲。由于KOI尚無公認(rèn)的標(biāo)準(zhǔn),因而只能在一定范圍內(nèi)解析使用。
ISLI編碼由十進(jìn)制數(shù)字構(gòu)成,分為服務(wù)字段、關(guān)聯(lián)字段和校驗(yàn)字段。參照相關(guān)文件,[4]一個(gè)ISLI編碼的形式如圖1—圖3所示(連字符 “-” 及 “ISLI” 并不構(gòu)成標(biāo)識符的組成部分,只為便于閱讀)。服務(wù)字段的編碼一般為6位,由ISLI注冊中心(ISLI RA)分配;關(guān)聯(lián)字段的編碼長度可變,具體長度、結(jié)構(gòu)由ISLI RA根據(jù)應(yīng)用需求進(jìn)行定義,如果分段,一般可細(xì)分為前置編碼和后置編碼兩部分;校驗(yàn)字段的數(shù)值(校驗(yàn)碼)由ISLI系統(tǒng)依據(jù)規(guī)則自動計(jì)算。[4]
圖1 圖書、音像制品ISLI編碼字段結(jié)構(gòu)
圖2 連續(xù)出版物ISLI編碼字段結(jié)構(gòu)
圖3 以互聯(lián)網(wǎng)傳播的音頻內(nèi)容產(chǎn)品ISLI編碼字段結(jié)構(gòu)
在科技文獻(xiàn)和科學(xué)數(shù)據(jù)關(guān)聯(lián)服務(wù)中,假設(shè)服務(wù)字段為 “200000” ,關(guān)聯(lián)字段的前置編碼為10位數(shù)字,容有100億個(gè)碼段,可在不擴(kuò)容情況下供100億個(gè)獨(dú)立的科技文獻(xiàn)或科學(xué)數(shù)據(jù)集使用;后置編碼為5位數(shù)字,容有10萬個(gè)無重復(fù)的編碼,除去用于標(biāo)識1個(gè)科學(xué)文獻(xiàn)或科學(xué)數(shù)據(jù)集和它的元數(shù)據(jù)之間關(guān)聯(lián)的 “00000” 這個(gè)特定的ISLI標(biāo)準(zhǔn)標(biāo)志碼外,還有99,999個(gè)ISLI標(biāo)準(zhǔn)編碼可用于標(biāo)記該實(shí)體與該實(shí)體內(nèi)部的知識單元、外部其他實(shí)體(包括外部其他科技文獻(xiàn)、科學(xué)數(shù)據(jù)集及其包含的知識單元)的各種關(guān)聯(lián),并使用經(jīng)過擴(kuò)展的ISLI標(biāo)準(zhǔn)元數(shù)據(jù)集來表示各種復(fù)雜的關(guān)聯(lián)。
如 “10+5” 的關(guān)聯(lián)編碼字段容量不足,還有根據(jù)實(shí)際需要增加關(guān)聯(lián)編碼字段的長度,變成 “10+6” 或 “12+6” 等形式,以容納更多的關(guān)聯(lián)編碼。
為了更加具體地說明科技文獻(xiàn)和科學(xué)數(shù)據(jù)的關(guān)聯(lián)是如何基于ISLI標(biāo)準(zhǔn)來實(shí)現(xiàn)的,特舉例如下。論文A根據(jù) “2018年成都市日降水量觀測記錄表” 匯總了一張 “2018年成都市月降水量統(tǒng)計(jì)表” KOI(a),并與已獲得DOI(B)的論文B中的 “2018年武漢市月降水量統(tǒng)計(jì)表” KOI(b)進(jìn)行了比較。論文A發(fā)表后獲得DOI(A), “2018年成都市日降水量觀測記錄表” 按要求提交到數(shù)據(jù)倉儲平臺,獲得DOI(a);將DOI(A)的ISLI關(guān)聯(lián)編碼的前置編碼定為 “1000000001” ,DOI(a)的ISLI關(guān)聯(lián)編碼的前置編碼定為 “1000000002” ,而后置編碼按一定的編碼段或流水號順序分配的話,則可形成最基本的關(guān)聯(lián)和ISLI關(guān)聯(lián)編碼(見表2)。相應(yīng)地,對于DOI(B)、KOI(b)來說,也可以采取類似的方法,將它與科技文獻(xiàn)及其他科學(xué)數(shù)據(jù)集的關(guān)聯(lián)標(biāo)識出來。
表2 基于ISLI標(biāo)準(zhǔn)的科技文獻(xiàn)與科學(xué)數(shù)據(jù)集的關(guān)聯(lián)
將上述ISLI編碼及其元數(shù)據(jù)存儲到科技文獻(xiàn)和科學(xué)數(shù)據(jù)關(guān)聯(lián)服務(wù)系統(tǒng)中,并提交給ISLI注冊服務(wù)中心,即可在ISLI服務(wù)系統(tǒng)的支持下實(shí)現(xiàn)ISLI編碼的解析和服務(wù)。
對于科技文獻(xiàn)和科學(xué)數(shù)據(jù)關(guān)聯(lián)中存在的 “源” 和 “目標(biāo)” 細(xì)粒度不同、關(guān)聯(lián)類型多樣等問題,ISLI標(biāo)準(zhǔn)以其穩(wěn)定可靠、原理簡潔、可拓展性強(qiáng)等較為獨(dú)特的優(yōu)點(diǎn)提供了一種角度新穎的解決途徑。在科技文獻(xiàn)和科學(xué)數(shù)據(jù)關(guān)聯(lián)的具體實(shí)踐中,以標(biāo)識符定義被關(guān)聯(lián)對象之間的關(guān)聯(lián)關(guān)系,有利于快速發(fā)現(xiàn)并精準(zhǔn)定位到所需的高品質(zhì)內(nèi)容,同時(shí)也使得科技文獻(xiàn)和科學(xué)數(shù)據(jù)之間的引用與考證變得更加容易。應(yīng)全面總結(jié)科技文獻(xiàn)和科學(xué)數(shù)據(jù)關(guān)聯(lián)的類型,并借鑒ISLI標(biāo)準(zhǔn)的其他典型應(yīng)用案例,完善基于ISLI標(biāo)準(zhǔn)的科技文獻(xiàn)和科學(xué)數(shù)據(jù)關(guān)聯(lián)標(biāo)準(zhǔn),以充分展現(xiàn)科技文獻(xiàn)和科學(xué)數(shù)據(jù)的關(guān)聯(lián)。