袁 潤 馬 征
(江蘇大學科技信息研究所 鎮(zhèn)江 212013)
·信息組織·
ONIX for Books與MARC的比較研究
袁 潤 馬 征
(江蘇大學科技信息研究所 鎮(zhèn)江 212013)
為找尋更好的可用于信息交換和文獻著錄的元數(shù)據(jù)標準,就當前應用最為廣泛的MARC標準與ONIX for Books標準進行詳細介紹和深入比較,結果表明ONIX for Books在眾多方面都具有優(yōu)勢,可能成為未來被廣泛采用的標準,最后探討從ONIX for Books到MARC 的映射轉換。
元數(shù)據(jù) 機讀目錄 ONIX 信息交換
隨著網絡技術的迅猛發(fā)展,Internet的普及程度越來越高,用戶數(shù)量急劇增長。網絡用戶需求度的提高使得對數(shù)字信息組織的要求也越來越高,原有的元數(shù)據(jù)標準在未來環(huán)境下的不足已初步顯現(xiàn),嚴重制約了用戶對所需信息的獲取程度。雖然搜索引擎技術飛速發(fā)展,但不能從源頭上解決問題,只有從信息流動的源頭:信息的組織、著錄和標引做起,才有可能徹底解決此問題,而選擇適當?shù)脑獢?shù)據(jù)描述和揭示標準并付諸應用是其核心環(huán)節(jié),甚至決定了信息最終能否被最大限度地利用。此外,館藏編目和數(shù)字出版領域信息描述元數(shù)據(jù)標準繁雜,標準的不統(tǒng)一,給圖書館和出版社之間信息交換造成較大障礙,這從很大程度上阻礙了數(shù)字出版和圖書館相關業(yè)務的深入開展,也嚴重制約了整個書業(yè)產業(yè)鏈的發(fā)展。鑒于新推出的ONIX for Books標準具有的優(yōu)勢,通過其與MARC的比較,對上述問題的解決提供一定的解決之道。
1.1 MARC的歷史沿革
MARC(Machine-Readable Catalogue,機器可讀目錄),是利用計算機識讀和處理的目錄,是用于在計算機條件下描述、存儲、交換、控制和檢索著錄數(shù)據(jù)的標準,已成為描述文獻著錄項目的國際標準格式[1]75。
MARC源于1963年美國G. W. 金等人發(fā)布的關于美國國會圖書館(LC)書目系統(tǒng)自動化的報告。1966年,LC出版了《標準機器可讀目錄款式的建議》,正式發(fā)布了MARC-1格式。1967年推出了MARC-2,并于1969年3月向全國發(fā)行MARC-2格式的英文圖書機讀目錄磁帶,稱為USMARC。隨后,MARC在國際上得到了廣泛關注,1977年,為了便于國與國之間的交流協(xié)調,國際圖書館聯(lián)合會在USMARC基礎上制定了統(tǒng)一的“國際機讀目錄通信格式”,即UNIMARC[2]。我國于20世紀70年代開始對其進行關注和研究,1992年推出《中國機讀目錄通訊格式》,即CNMARC。由于各國MARC標準存在較大差異,1994年12月,美國國會圖書館、加拿大國家圖書館、大英圖書館發(fā)起了整合USMARC、CANMARC、UKMARC的項目,并與1999年成功推出了MARC21,目前MARC21已得到國際上眾多國家的認可和采用。
1.2 ONIX for Books的歷史沿革
ONIX(Online Information eXchange, 在線信息交換),是由國際組織EDItEUR(Electronic Data Interchange to Europe)、美國出版商協(xié)會AAP(Association of American Publishers)、美國的BISG(Book Industry Study Group)、英國的BIC(Book Industry Communication)等聯(lián)合開發(fā)的一種以電子形式獲取、傳輸出版物產品信息的國際標準,是一種描述、傳遞和交換豐富出版物元數(shù)據(jù)、用于圖書、連續(xù)出版物以及各種媒體電子出版物信息的基礎標準和貿易標準[3]。
1999年7月,美國出版者協(xié)會與60多家出版社及線上書商共同討論如何在互聯(lián)網銷售圖書,會中決議成立一項計劃,探討出版社提供產品資訊給互聯(lián)網書店的資料需求,并于2000年1月,推出了ONIX產品信息標準第一版,即ONIX 1.0。在英國,圖書行業(yè)交流委員會于1998年出版了BICBasic標準,旨在滿足所有零售書商的需求。在歐洲,電子數(shù)據(jù)交換組織EDItEUR開發(fā)了EPICS數(shù)據(jù)字典,主要用于保存圖書貿易產品方面的信息。ONIX就是在美國的ONIX、英國的BICBasic以及EDItERU的EPICS等標準的基礎上發(fā)展起來的[4],主要包括ONIX for Books、ONIX for Serials等具體領域標準,本文主要討論的是ONIX for Books標準。
作為一種描述、傳遞和交換出版物元數(shù)據(jù)的國際性標準, ONIX for Books由出版商、發(fā)行商、零售商、圖書館以及在這條供應鏈上其它環(huán)節(jié)的經營者團體共同制定,由設在英國的BICBasic以及EDItERU維護。隨后,ONIX for Books標準在理論研究和實踐應用的推動下深入發(fā)展,隨后發(fā)布了1.2、2.0、2.1等版本,目前的最新版本為2009年4月推出的3.0,并于2012年4月發(fā)布新的代碼表,在這一版本中增加了數(shù)字產品處理和商業(yè)貿易等字段。
2.1 創(chuàng)建目標
早期MARC格式主要用于描述印本文獻、圖像、縮微、視聽、軟件、數(shù)據(jù)庫等。為了解決與書目文獻有關的網絡資源和電子資源的連接機制等問題,1995年美國國會圖書館網絡與MARC標準辦公室頒布了USMARC一體化格式更新版,并增補了307、357、856等27個子字段。MARC的應用主要面向圖書館及其相關機構,具體應用于館藏編目和資源商與圖書館之間交換書目信息,可有效實現(xiàn)數(shù)據(jù)共享、聯(lián)合編目和聯(lián)合目錄應用,為大規(guī)模網絡化編目和目錄數(shù)據(jù)共享提供堅實基礎。[1]76-77
ONIX for Books主要應用于數(shù)字產品的出版、銷售、流通、信息交換等方面,主要是為了解決:(1)對豐富在線圖書信息的需要;(2)普遍需要改變大的圖書批發(fā)商和零售商使用的數(shù)據(jù)接收和交換格式等兩個問題。主要面向書業(yè)組織、書商、出版商和數(shù)據(jù)內容服務商等四個領域的機構。其目標是:
(1)覆蓋電子圖書領域并逐步覆蓋其他類型的媒體(所有知識產品);
(2)滿足電子商務領域的現(xiàn)實的信息需求,特別是(但不僅僅是)出版商和聯(lián)機銷售商的信息需求;
(3)提供結構化的數(shù)據(jù)以反映商品的國內和國際知識產權、銷售情況、價格及可獲得性;
(4)與各國已經定制的國家項目如英國的BIC Basic和美國的APP的ONIX在核心內容上取得一致;
(5)盡可能利用EDItEUR的EPICS和歐盟投資的INDECS(Interoperability of Data in E-Commerce Systems)計劃的成果,構建一個能用于未來電子環(huán)境的元數(shù)據(jù)模型。[1]81-82
2.2 應用實踐
2.2.1 MARC的應用 在國外,20世紀70年代,建立了眾多以MARC標準為范本的大型文獻數(shù)據(jù)庫,歐美國家陸續(xù)在大中型計算機上開發(fā)了一些專用的文獻信息數(shù)據(jù)庫管理系統(tǒng)。20世紀80年代,OCLC建立了自己的大型書目中心,并開發(fā)了專用的大型中央書目數(shù)據(jù)庫系統(tǒng),提供聯(lián)機書目數(shù)據(jù)服務。近幾年來,LC對MARC進行了多次修訂,增補了“307文獻檢索或獲取時間”、“856電子信息位置及提取方式”、“516計算機文檔或數(shù)據(jù)類型解釋”、“538系統(tǒng)細節(jié)附注”等字段。尤其是“856”字段的增加,使MARC具備描述電子資源的特征、連接方式和提取要求的能力,可以對網絡資源進行編目著錄。
在國內,1991年國家圖書館正式發(fā)行中國機讀書目;1997年10月,中國圖書館聯(lián)合編目中心在北京成立,成為第一個全國性跨行業(yè)、跨系統(tǒng)、跨地區(qū)的聯(lián)機編目中心;《中國機讀目錄格式》得到了廣泛的應用,為我國書目數(shù)據(jù)的規(guī)范處理奠定了堅實的基礎。1998年開始建設的CALIS(China Academic Library & Information System)中國高等教育文獻保障體系項目中,對于聯(lián)合目錄西文數(shù)據(jù)的加工,通過對所提供數(shù)據(jù)圖書館的機讀目錄的數(shù)據(jù)格式進行標準化和規(guī)范化的處理,保證了準確識讀和實現(xiàn)統(tǒng)一著錄;在專題特色數(shù)據(jù)庫建設中元數(shù)據(jù)模板中元數(shù)據(jù)集的選擇則采用復用MARC的元數(shù)據(jù)集和復用DC的元數(shù)據(jù)集兩種格式為主[5]。
2.2.2 ONIX for Books的應用 到目前為止,ONIX for Books成員遍布于20個國家和地區(qū)的93個機構和國際組織,主要有書業(yè)組織、書商、出版商和數(shù)據(jù)內容服務商四大類,按具體的用戶類型統(tǒng)計分析的ONIX for Books用戶如表 1 所示。
表1 ONIX for Books用戶類型分析[6]
其中使用2.1版本的用戶為64個,占72.7%,使用3.0版本的用戶為24個,占27.3%,以數(shù)字出版公司和應用開發(fā)/咨詢居多。從用戶成員分布的國別來看,美國有18個機構,英國則多達22個,成員分布遍布于五大洲。從出版、銷售和消費整個產業(yè)鏈上來看,其應用俱已遍及。在澳大利亞出版者聯(lián)盟的領導和組織下,澳大利亞國內60%的圖書銷售商、80%的分銷商以及75%的出版社積極運用ONIX for Books標準來推動本國書業(yè)的發(fā)展以及國際化進程;LC和OCLC等對ONIX for Books在圖情領域對其進行了深入研究,并取得了一定的成果;Spinger Science等教育出版機構也積極參與和探索ONIX for Books在其業(yè)務領域內的應用。
MARC與ONIX for Books從本質上都是用來描述和揭示信息資源的主題、內容特征,并通過所著錄的信息來提供檢索的依據(jù)。兩者的區(qū)別主要表現(xiàn)在以下一些方面:
3.1 記錄結構不同
MARC記錄遵循ISO2709標準,由頭標區(qū)、目次區(qū)、數(shù)據(jù)區(qū)、分隔符等四部分組成。記錄結構如表2所示。
表2 MARC記錄結構
(1)頭標區(qū)。主要是為了滿足記錄處理的需要,間接標識書目實體本身。根據(jù)ISO2709規(guī)定,每條記錄以24位字符長的記錄頭標區(qū)開始,每一個位數(shù)代表一定的記錄信息,并有對應的可選值項目,詳細信息可參照MARC頭標區(qū)數(shù)據(jù)元素表。
(2)目次區(qū)。是記錄數(shù)據(jù)字段區(qū)記錄情況的有關數(shù)據(jù),有若干個目次項和末尾一個字段分隔符組成,總長為12N+1(N為目次項的個數(shù))。
(3)數(shù)據(jù)區(qū)。有一些可變長的數(shù)據(jù)來實際記載著錄數(shù)據(jù),數(shù)據(jù)字段可包含指示符和若干子字段,有的數(shù)據(jù)字段允許可選或重復,詳細可參考MARC數(shù)據(jù)區(qū)功能塊表。
(4)記錄分隔符。在CNMARC中由“%”代替ISO646中的分隔符IS2,以表示書目記錄中的記錄分隔符[7]。
而格式規(guī)范的ONIX for Books數(shù)據(jù)信息表的技術架構,從不同規(guī)模的數(shù)據(jù)單元劃分為:
(1)單元組層面:分為消息頭單元和產品記錄單元。
(2)信息塊層面:分為消息頭塊、產品記錄和數(shù)據(jù)塊。
(3)數(shù)據(jù)組層面:分為記錄描述和產品描述。
(4)數(shù)據(jù)元層面:分為復合元素、元素和復用元素。
從最小的數(shù)據(jù)元單元層面來看,一份完整的ONIX for Books數(shù)據(jù)主要包含概述、關鍵說明、消息頭和6個關鍵數(shù)據(jù)細節(jié)描述塊共9個部分,用XML代碼以功能模塊化方式生成數(shù)據(jù)表,涵蓋的信息全面而詳細,不論是對出版商、銷售商、團體和個體消費者均能提供足夠豐富的產品信息。如表3中所示9個部分[8]。
表3 ONIX for Books數(shù)據(jù)元目錄結構
XML結構代碼示例
3.2 兩者的特點不同
MARC是用于描述、存儲、交換、控制和檢索著錄數(shù)據(jù)的一套書目數(shù)據(jù)標準,具有如下特點:嚴格的語義規(guī)則和完整的信息描述手段,是目前系統(tǒng)最完善、結構最復雜、標準最嚴謹?shù)脑獢?shù)據(jù)格式[8];采用純文本格式,數(shù)據(jù)的存儲不依賴于特定的軟硬件,便于計算機識讀和天然的長期保存;書目信息的交換隨著技術的進步越來越便捷,網絡的發(fā)展致使許多圖書館可從網上獲取到國內外最新的MARC標識的書目。
ONIX for Books具有以下特點:
(1)以國際標準技術為基礎,信息豐富全面。采用國際標準ISO/ IEC11179 定義數(shù)據(jù)元素。截止到3.0版本,定義了807個元素,包括出版物形態(tài)特征信息、內容特征信息、出版物在出版發(fā)行過程中所發(fā)生的信息。還對相關數(shù)據(jù)元素配有代碼表,對這些元素特征進行了細化,描述不同品種出版物差異化信息特征,具體實現(xiàn)采用最適合描述信息資源的易擴展和傳遞處理的XML語言來實現(xiàn)。
(2)能反映出版物的動態(tài)流動性,對知識信息活動各環(huán)節(jié)的無縫銜接起到了巨大作用。采用這一標準,對各環(huán)節(jié)的信息記錄全面,能準確反映出知識信息流動變化規(guī)律。此外,格式的統(tǒng)一,避免了各環(huán)節(jié)標準不統(tǒng)一帶來的各種轉化成本和交易障礙[9]。
(3)維護開發(fā)的國際化和開放性。由EDItEUR 、英國 BIC 和美國 BISG 聯(lián)合開發(fā),共同維護。到目前已有包括中國在內的10余個國家建立了 ONIX (包括各種標準)工作組,這些國家大多是 WTO 成員國,承諾對外開放出版業(yè)。
3.3 編碼與顯示方式的不同
MARC采用ES022709 作為編碼標準,結構嚴謹,也因此本身很不容易理解,必須首先用相關的軟件進行翻譯,輸出著錄結果,再將著錄結果使用HTML 語言加以標識,與其它元數(shù)據(jù)進行轉換時,還要克服編碼相異的問題,往往要借助于軟件進行轉換,比較復雜,LC提供了一套在MARC21記錄與XML格式間轉換的工具,此后丹麥圖書館致力于開發(fā)MARCXchange,以XML格式來適用于各種MARC。ONIX for Books則遵循ISO/ IEC11179標準,著錄結果采用XML文檔的格式,ONIX for Books在信息活動的全過程均用XML實現(xiàn),無需轉換,就能用最常用的瀏覽器或者常見的設備可讀取的方式呈現(xiàn)給用戶,無需借助專門的軟件即可識讀,編碼方式也在很大程度上影響檢索效果。
3.4 著錄的主體不同
MARC的實現(xiàn)需要特定的計算機軟件,一般由經過專門培訓的研究人員或圖情專業(yè)人員,根據(jù)一定的著錄標準,如使用USMARC格式時要遵循MARC21,要按照《英美編目條例》的規(guī)定,才能加工出合格數(shù)據(jù),費時費力。ONIX for Books雖然元素字段眾多,但都淺顯易懂,稍加培訓即可上手,參照相關的實例很快就能編輯出書目,相對簡便易操作,對人員的要求較低,此外OCLC開發(fā)的ONIXEDIT可以供用戶以圖形用戶界面來完成ONIX for Books信息表的操作,既有對應于業(yè)界數(shù)字出版巨頭如亞馬遜等六家的專有格式,又提供通用的標準格式。
3.5 資源描述詳盡程度不同
MARC的編目規(guī)則追求詳盡、細致的著錄,定義了不到200個字段,并預留出700多個字段,不同的著錄單位可根據(jù)情況進行擴展,每個字段又細分出多個子字段,使其含義更為明晰,使著錄人員和使用者都能清楚地知道每一部分信息的具體含義。ONIX for Books到目前為止有807個元素,主體部分分為六個數(shù)據(jù)塊,每個數(shù)據(jù)塊下又有眾多可用的字段對描述、營銷、內容、出版、相關資料、供應等細節(jié)進行詳盡的描述,元素和代碼表均可按需要增加,真正做到了提供最為豐富和詳細的信息,并隨著應用的深入不斷改進。
3.6 字段或元素間關系揭示不同
MARC不具備等級分類結構體系,而且最大容量不能超過10萬字符,僅能支持目錄級次信息的處理而不能支持大規(guī)模全文的處理。ONIX for Books則可借助于字段本身的定義來明確字段間的關系,另外XML語言代碼本身的可層級顯示性為揭示元素間層級關系提供了極大的便利。
盡管ONIX for Books具有諸多優(yōu)勢,比如能提供來自于出版社豐富的元數(shù)據(jù)信息和提升在線圖書書目內容的可讀性,對消費者獲取書目信息和決定購買何種圖書提供支持,并引起了眾多圖書館組織的興趣,但其應用廣度和規(guī)模遠不能和MARC相比,過往幾十年的書目信息大多用MARC格式傳遞和揭示的,大部分的圖情工作者和專業(yè)標目人員已經習慣于用MARC來完成編目和交換書目信息的任務,MARC仍具有頑強的生命力,ONIX for Books最終能否取代MARC,亦或是二者融合在一起,目前尚無明晰跡象。
為了使ONIX for Books能與MARC銜接起來,幾個組織已經開發(fā)了從ONIX for Books到目前圖書館間最為廣泛的數(shù)據(jù)交換格式——MARC21的映射。這方面開展工作較為全面的有OCLC和LC兩個機構。OCLC的研究員Carol Jean Godby已經在EDItEUR網站上發(fā)布了兩個描述如何實現(xiàn)從ONIX for Books到MARC映射轉換,用Excel表格詳細列出了對應的映射表[9]。LC則以在線網頁的形式提供了從ONIX2.1到MARC21元素對應字段的映射表。
OCLC最新版的從ONIX3.0到MARC21的映射轉換標準包含了ONIX、產品表單、產品內容形態(tài)、產品表單細節(jié)、版本類型、主題等16張表,詳細列舉了從ONIX for Books到MARC映射的項目,并給出了七個轉換示例XML代碼,并用不同顏色區(qū)分轉換的類型[10]。例如在描述(Description)表中,列出了多達34種文本類型處理方式,對部分可對應的MARC字段進行了映射,示例如表4所示:
通過上述提供的映射可以把ONIX for Books數(shù)據(jù)信息轉換相應的MARC字段,不同的信息主體通過MARC與MARC數(shù)據(jù)在Z39.50協(xié)議的統(tǒng)一下實現(xiàn)數(shù)據(jù)信息的交換傳遞,再轉換為ONIX for Books數(shù)據(jù)信息形式,這樣既考慮了當前眾多信息著錄編目人員對MARC依賴性的習慣,又運用ONIX for Books標準達到了最優(yōu)的效益,從另外的層面上來說也實現(xiàn)了新舊標準之間的互操作。
表4 ONIX for Books部分Description與MARC字段的映射對照
LC的映射標準包括簡介、映射、MARC21的生成和ONIX for Books到MARCXML樣式表示例四個部分。轉換表的左邊為ONIX for Books元素,右邊部分則對應轉換后的MARC標識,此映射僅展示建議使用的,并不是所有的ONIX for Books元素,例如ONIX for Books的供應和銷售數(shù)據(jù)元素在MARC21中就沒有對應的字段[11]。下面以網絡資源映射轉換為例展示這一映射過程,見表5。
表5 從ONIX for Books到MARC網絡資源描述的映射
“856”字段是MARC為增強對網絡資源描述而增加的字段,ONIX for Books數(shù)據(jù)元素中有豐富的用于描述網絡資源的數(shù)據(jù)元素,通過以上的映射轉換,在一定意義上實現(xiàn)了不同標準之間的互操作和資源描述的一致性。
MARC目前應用廣泛,在未來相當長的時間內將繼續(xù)被用于信息交換和館藏編目。ONIX for Books的推出僅有十多年的時間,對其理論和實踐的探索還處于起步階段,很多方面有待改進,但其可靈活運用于整個知識信息產業(yè)鏈的全過程的優(yōu)勢,已經明顯顯現(xiàn)出來。在語義網絡呼聲日益高漲的當下,ONIX for Books無論是在信息描述的深度和豐富性、操作簡便性、易讀性、操作成本以及經濟社會效益等方面都有巨大優(yōu)勢,極有可能成為未來信息交換和館藏編目的廣泛被認可的標準。
[1] 張曉林. 元數(shù)據(jù)研究與應用[M]. 北京:北京圖書館出版社, 2002.
[2] 王立清. 信息檢索教程[M]. 第二版. 北京:中國人民大學出版社, 2008:82-83.
[3] ONIX for Books. Maintenance and support[EB/OL]. [2012-11-07].http://www.editeur.org/16/Maintenance-and-support/.
[4] 喻乒乒. ONIX元數(shù)據(jù)標準2.1版與2.0版對比研究[J]. 現(xiàn)代情報, 2006(1):88-91.
[5] 王會麗. CALIS專題特色數(shù)據(jù)庫建設中的元數(shù)據(jù)研究[J]. 情報雜志, 2009(2):73-74.
[6] ONIX for Books . Users and services director[EB/OL].[2012-11-07].http://www.editeur.org/111/Users-and-services-directory/.
[7] 王蘭成. 數(shù)字圖書館技術[M]. 北京:國防工業(yè)出版社, 2007:27,33-35.
[8] ONIX for Books. Release3.0 Downloads. ONIX for Books 3.0.1 Specification + Codelists Issue 19.zip[EB/OL]. [2012-11-07]. http://www.editeur.org/93/Release-3.0-Downloads/.
[9] 馬 蕾, 張曉林. 數(shù)字文獻元數(shù)據(jù)標準比較分析[J]. 信息系統(tǒng), 2003, 26(1):72-74.
[10] ONIX for Books .ONIX and MARC21.Mapping ONIX3.0 to MARC[EB/OL]. [2012-04-07].http://www.oclc.org/resources/research/publications/library/2012/2012-04.pdf.
[11] ONIX to MARC 21 Mapping[EB/OL]. [2005-05-03]. http://www.loc.gov/marc/onix2marc.html.
(責任編校 田麗麗)
AComparisonbetweenONIXforBooksandMARC
Yuan Run, Ma Zheng
Institute of Science and Technology Information, Jiangsu University, Zhenjiang 212013, China
To look for a better metadata standard which can be used for information exchange and bibliographic work,this article gives a detailed introduction to most widely used MARC and ONIX for Books, and carries on a thorough comparison of these two standards. The results show that ONIX for Books has advantages in many respects and it may be used widely in the future. Finally, the authors discuss how to realize the mapping conversion from ONIX for Books to MARC.
metadata; MARC; ONIX; information exchange
G254.36
袁 潤,男,1965 年生,教授,江蘇大學圖書館副館長,碩士生導師,研究方向為情報技術、數(shù)字圖書館,發(fā)表論文40 余篇,出版教材2 部;馬 征,男,1986 年生,2011級情報學碩士研究生,研究方向為數(shù)字圖書館。