• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      國外名稱規(guī)范項目及發(fā)展趨勢研究

      2016-09-28 11:11郝嘉樹
      圖書與情報 2016年2期

      郝嘉樹

      摘要:文章梳理了國外近些年開展的名稱規(guī)范項目,對各項目和相關研究進行介紹和評價:認為項目中使用的方法有傳統(tǒng)的人工維護、基于著者交互的自規(guī)范和自動名稱消歧等3種維護模式,各模式各有優(yōu)劣;同時,認為規(guī)范數(shù)據(jù)的語義化、開放化和關聯(lián)化、多種維護模式相結合的大資源規(guī)范控制、越來越方便用戶使用和從標目向唯一標識符方向發(fā)展,是未來名稱規(guī)范發(fā)展走向和趨勢。

      關鍵詞:名稱規(guī)范項目;名稱規(guī)范維護模式;開放關聯(lián)數(shù)據(jù);大資源規(guī)范控制;用戶便利性;唯一標識符

      中圖分類號:G254 文獻標識碼:A DOI:10.11968/tsyqb.1003-6938.2016042

      1.引言

      我國名稱規(guī)范控制工作存在一些突出的問題,如依賴于自上而下、由領域內少數(shù)權威機構維護的模式使得名稱規(guī)范控制能力跟不上資源增長的速度,面對海量數(shù)據(jù)完全由編目員承擔的方式耗費人力財力而又效率偏低,MARC格式和交換協(xié)議使我國名稱規(guī)范封閉在圖書館環(huán)境內,限制了數(shù)據(jù)的開放、交換和使用,等等。與此同時,近幾年計算機技術和互聯(lián)網(wǎng)的發(fā)展使規(guī)范控制的環(huán)境和對象悄然發(fā)生著變化,展現(xiàn)出一些新的走向,如面對越來越以人為中心組織資源的趨勢,名稱規(guī)范急需尋找擺脫困境的出口。

      了解國外開展的項目與借鑒他國名稱規(guī)范控制工作的模式與經(jīng)驗,并掌握和跟隨最新的發(fā)展趨勢,從而引領我國名稱規(guī)范控制工作走出困境是解決問題的一大出路。但目前我國對他國名稱規(guī)范相關項目尚無系統(tǒng)的介紹,相關研究也只是散落于個別文獻中。針對該情況,本文對國外近些年開展的名稱規(guī)范項目進行了梳理和評價:對項目中使用的方法進行了總結,歸納出名稱規(guī)范維護模式的類型,并分析各類型的優(yōu)劣,給出使用建議:在此基礎上,對名稱規(guī)范發(fā)展趨勢進行歸納和分析。

      2.國外名稱規(guī)范項目

      2.1NACo與VIAF

      NAC0(Name Authority Cooperative Program,名稱規(guī)范合作項目)和VIAF(virtual International Autllority File,虛擬國際規(guī)范文檔)分別由LC PCC(Library of Congress Program for Cooperative Cataloging,美國國會圖書館編目合作項目)和OCLC(OnlineComputer Library Center,聯(lián)機圖書館中心)牽頭于1976年和2003年開始實行。兩個項目都聯(lián)合了若干國家、地區(qū)圖書館和相關機構參與合作,目的同為構建大規(guī)模的名稱規(guī)范檔并可用于共建共享,但在成員管理、數(shù)據(jù)制作與提交和服務理念方面NACO和VIAF存在以下差異。

      (1)在成員管理方面,NACO會給成員提供完整的培訓課程,并且授權后才能開始工作以保證數(shù)據(jù)質量,VIAF則不提供培訓,主要讓成員配合解決數(shù)據(jù)分歧和沖突方面的問題;NACO成員主要參加業(yè)務交流和名稱規(guī)范相關政策及標準的制定等,VIAF除讓成員制定VIAF政策外,還需提供運營方面的建議并幫組推廣VIAF的使用。

      (2)在數(shù)據(jù)制作與提交方面,NACO對成員提交的數(shù)據(jù)質量要求較高,需按照一系列的標準和規(guī)則建立和維護規(guī)范記錄,對有維護能力的機構規(guī)定每年提交的數(shù)量,其他的則參與NACO的數(shù)據(jù)質量監(jiān)控;OCLC也規(guī)定成員數(shù)據(jù)要符合VIAF政策和范例,并且要求成員能提供大量的能明顯提升VIAF數(shù)量的規(guī)范文檔,同時還得提交書目數(shù)據(jù)。

      (3)在提供服務方面,NACO專注于成員數(shù)據(jù)之間的共編和共享,而VIAF更加強調服務理念,提供世界上主要名稱規(guī)范文檔的便捷獲取服務,并于2012年由項目轉變成為OCLC服務,將各國名稱規(guī)范檔進行映射,可提供名稱的多種形式和變體,并附有著者的著述、合著者等內容信息,另外與Wikipedia(維基百科)、ISNI(Imernntional StandardName Identifier,國際標準名稱標識符)等合作將應用范圍拓展到圖書館以外的領域。

      (4)LC與OCLC都較早開始對開放關聯(lián)數(shù)據(jù)進行研究及應用。LC主要采用MODS對LCNAF(Li brary of Congress Name Authority File,國會圖書館名稱規(guī)范檔)進行語義化描述,并開發(fā)了基于關聯(lián)數(shù)據(jù)技術的BIBFRAME(書目框架),規(guī)范數(shù)據(jù)是其中四種數(shù)據(jù)類型之一。OCLC主要采用Schema.org和SKOS對VIAF進行語義化描述,并研發(fā)了VIAF的關聯(lián)數(shù)據(jù)服務。

      2.2NameProject

      由于機構知識庫在英國大量增長導致文獻的著者名稱需要規(guī)范控制,JISC(Joint Inform~ion SystemCommittee,聯(lián)合信息系統(tǒng)委員會1于2008年聯(lián)合87家機構倉庫開展了Names Proiect項目,以尋找唯一辨識英國科研產(chǎn)出者的方法。為進一步推進項目發(fā)展,JISC要求各機構提交執(zhí)行規(guī)范控制的調查文檔,并于2009年發(fā)布最終報告,報告內容包括名稱規(guī)范控制現(xiàn)狀、界定用于名稱規(guī)范服務所需要的數(shù)據(jù)元素集和試驗性系統(tǒng)的需求分析。并最終于2013年從Zetoc、EthOS、Je-S等機構知識庫抽取數(shù)據(jù)構建了試驗原型系統(tǒng),該系統(tǒng)包含5萬個人和機構數(shù)據(jù),提供簡單查詢功能,可返回作者的文獻列表。

      Name Project為解決文獻類資源的名稱規(guī)范控制提供了可行方案,其從已有數(shù)據(jù)源中搜集名稱方面數(shù)據(jù)的做法可用來自動產(chǎn)生相當規(guī)模的名稱規(guī)范數(shù)據(jù)用于更廣范圍的共享。該項目的特點是沒有為著者建立規(guī)范標目,而是為每個作者分配ID,可連接作者名稱的不同形式,并通過ID聚合發(fā)布文獻。該做法更像是檢索控制而不是規(guī)范控制,由于資源類型的差異,該項目建立的規(guī)范數(shù)據(jù)與LCNAF重復率很低。

      2.3ULAN

      Getty公司構建的ULAN(Union List of Artist Names,藝術家名稱聯(lián)合列表)于1984年開始籌建,起初為自身項目提供受控的藝術家名稱,后將服務對象擴展到博物館、圖書館、檔案館和藝術類書目項目,為搜索藝術家提供檢索點、編目提供標準名稱和作為研究工具。ULAN于90年代改變列表形式采用敘詞表結構表示數(shù)據(jù),出版形式為印刷本,目前因數(shù)據(jù)量大改為網(wǎng)絡版,并提供數(shù)據(jù)下載。

      ULAN的數(shù)據(jù)維護方法與圖書館傳統(tǒng)方式一樣由專職人員負責,無法滿足大量新增資源規(guī)范控制的需要。ULAN秉承Gettv制作敘詞表的做法和經(jīng)驗,目前完全根據(jù)用戶的需要和反饋新建規(guī)范記錄,并且采用敘詞表結構表示數(shù)據(jù),揭示的內容增加了等級結構和擴展了相關關系種類,并描述了名稱類型、語種、新舊程度和是否與LC重復等。

      2.4Stylometry

      S州ometry(文體學)起初用于經(jīng)典文學作品中匿名作品的身份識別,后來隨機器學習技術的發(fā)展,有學者將其用于當代著述中同名著者的區(qū)分。著者無意識和根深蒂固的寫作風格會在著述中通過各種特征表現(xiàn)出來,因此可以通過計算機統(tǒng)計特征來分析著者寫作風格,幫助區(qū)分同名著者作品。利用Stylometry開展同名著者作品的區(qū)分要根據(jù)文獻類型提取能體現(xiàn)文體風格的識別特征指標,設計各識別指標的統(tǒng)計方法和公式,并采用N-gram、支持向量機等計算同名著者作品的相似程度。

      2.5IDs

      文獻數(shù)據(jù)庫文章數(shù)量巨大,重名、別稱、翻譯問題、名字變動和西方名字縮寫現(xiàn)象嚴重,導致系統(tǒng)無法辨析著者的唯一性。從2005年開始資源出版商和服務商相繼推出Research ID、Scopus Author ID、Pubmed author ID和arXiv Author ID等,即為文章著者分配能唯一標識其學術身份的標識符,旨在消除姓名混淆和重名問題。這些著者唯一標識解決方案有各自的目標和應用邊界,削弱了著者標識符的辨識度,阻礙了與外界的共享。

      針對以上情況,近幾年出現(xiàn)了ORCID(Open Researcher and Contributor Identifier,開放研究者和貢獻者標識符),目的是解決各系統(tǒng)間著者姓名混淆和識別問題。ORCID在兼容性方面建立與各系統(tǒng)著者標識符的關聯(lián),并將著者相關信息和科研情況聚合起來;在共享性方面不限語言、機構和地理限制,免費向全球學術界開放并提供服務,這種擴大數(shù)據(jù)和服務范圍的做法才能真正起到不同著者唯一身份辨識的作用。有學者對用戶參與維護自身信息的積極性提出質疑,但有研究表明從事學術研究的人員希望自己的文獻和相關信息被傳播和得到認同,并有動力參與此類活動。

      2.6AND

      AND(Automatic Name Disambiguation,自動名稱消歧)是利用機器學習方法對著者文獻信息特征進行自動分類及聚類,從而將同一人的作品聚合在一起,而將不同人的作品分開的過程。國內外有較多開展AND技術的研究,主要分為基于監(jiān)督和非監(jiān)督兩類方法,其中以Han H等人的最具代表性,兩類方法都實現(xiàn)了人名自動消歧?;诒O(jiān)督的方法中,Han H等人在標注訓練集的基礎上利用文獻信息的題目、出版物名稱和合著者,分別采用Naive Bayesian(樸素貝葉斯)和SVM(支持向量機)對文獻作者進行排歧,同時解決了同名和名稱變體兩個問題:后來為彌補監(jiān)督學習方法的不足,Han H等人提出Kway聚類算法,該算法將每個文獻看作一個特征向量,仍采用題目、出版物名稱和合著者作為特征,并用TF-IDF(逆文檔頻率)和NTF(標準詞項頻率)計算權重,文獻之間采用余弦函數(shù)形成相似度矩陣,最終將同一人的作品聚合在一起。兩種方法對來自網(wǎng)絡資源的消歧準確率分別為90%以上和58%。

      2.7FOAF

      FOAF(Friend-of-a-Friend,朋友的朋友)是用定義好的RDF詞匯表形式化描述個人信息和其相關的社會網(wǎng)絡,其本質為描述個人的簡單本體。它由Dan Brickley和Libby Miller于2000年創(chuàng)建,遵循W3C體系,最初只描述個人,后擴展到各類群體,如機構、公司和地點,F(xiàn)OAF描述詞匯歷經(jīng)10次更新于2014最終確定下來不再更改。

      FOAF在名稱與主題規(guī)范數(shù)據(jù)中得到廣泛應用。名稱規(guī)范檔中的VIAF和LCNAF、主題詞表LCSH、Agrovoc和AAT等都用FOAF進行語義化描述。FOAF包含姓名、出生日期、興趣、職業(yè)、項目、發(fā)表的著作以及和其他人之間的關系等內容,可用來完善名稱規(guī)范數(shù)據(jù)附加成分和單純參照,提高名稱規(guī)范數(shù)據(jù)質量,另外FOAF可通過URI(Uniform Resource Identifier,統(tǒng)一資源標識符)和詞匯集的關聯(lián)自動發(fā)現(xiàn)和整合開放數(shù)據(jù)集合中特定人的相關信息,用于名稱規(guī)范數(shù)據(jù)的資源發(fā)現(xiàn)和共享。

      2.8ISNI

      ISNI作為ISO標準始于2007年,目的是為創(chuàng)作和發(fā)布內容產(chǎn)品的責任人(包括研究人員、出版機構、發(fā)明家、程序員和表演者等)分配一個永久的唯一標識符,同時讓ISNI在全球范圍的知識庫使用從而使作品可以無歧義的歸屬其作者。ISNI數(shù)據(jù)庫目前由30家機構和數(shù)據(jù)庫、40家國家和研究類型的圖書館組成,有近9百萬ISNI標識符,提供檢索工具用于查詢ISNI號,并可作為關聯(lián)數(shù)據(jù)重要部分應用于語義網(wǎng)。

      ISNI機制將對圖書館名稱規(guī)范產(chǎn)生重大影響。ISNI對于唯一標示符的分配把控嚴格,多樣查重后才賦予新ISNI號以保障著者名稱標識的權威性和全球唯一性:還開發(fā)映射算法與其他機構數(shù)據(jù)庫匹配用于搜集、補充和完善著者信息,并與來源數(shù)據(jù)庫保持同步實現(xiàn)ISNI的實時更新。以上機制保證ISNI在全球范圍的通用性和唯一性,如同ISBN的實施措施,隨著ISNI的普及圖書館OPAC、機構知識庫、文獻數(shù)據(jù)庫和網(wǎng)絡資源等的人名識別將迎刃而解,不再需要大量人員維護規(guī)范數(shù)據(jù)和掛接文獻,工作重點也轉移到用戶注冊、查重與質量認證。

      2.9FRAD和BIBFRAME Authority

      FRAD(Functional Reqmrements for Authority Data,名稱規(guī)范數(shù)據(jù)的功能需求)是IFLA FRBR家族中的一部分,于2009年被IFLA編目組和分類標引組常務委員會批準,它擴充了FRBR第二組實體(相關責任者)的概念模型,為名稱規(guī)范提供了一個明確定義的結構化參考框架。該框架中,用更接近真實情況的E-R模型(實體關系模型)描述責任者及其屬性,還有與其他實體的關系,改變了MARC格式扁平、線性和單一的表示形式。

      FRAD模型除包含名稱規(guī)范數(shù)據(jù)中承載的信息外,為迎合用戶需求具體定義了16個實體和各實體包含的屬性以及四大類關系,并提供明確的定義及結構。FRAD用實體(Entity)描述責任者,用屬性揭示責任者特征幫助用戶進行查找和辨識,用關系反映責任者之間的立體、網(wǎng)狀關系,以便用戶在書目世界“航行”。

      BIBFRAME作為表達書目數(shù)據(jù)的新方法用于取代世界各國沿用至今的MARC,使得書目數(shù)據(jù)在整個互聯(lián)網(wǎng)能得到便捷的交換、發(fā)現(xiàn)和共享,其中的BIBFRAME Authority(比圖書館傳統(tǒng)的Authority含義更加廣泛,囊括主題規(guī)范等方面的內容)既實現(xiàn)了傳統(tǒng)的規(guī)范控制功能,又有網(wǎng)絡資源規(guī)范控制的特點,如對數(shù)據(jù)的結構化描述以及與外部RDF數(shù)據(jù)的關聯(lián)。

      BIBFRAME Authority中發(fā)布的與名稱規(guī)范相關的類為代理,包含人、機構和會議等5個子類,包括的詞匯有name、alternative name、authority link、data、control code和description等。BIBFRAME Authority與其它規(guī)范控制方法并非競爭關系,而是作為一個輕量級的抽象層定義規(guī)范數(shù)據(jù)如何與作品和實例關聯(lián),以及如何指向已有的規(guī)范數(shù)據(jù),使得規(guī)范控制在互聯(lián)網(wǎng)環(huán)境下更加有效的發(fā)揮作用。

      2.10UTL

      UTL(University of Tennessee Library,田納西大學圖書館)針對小型圖書館沒有充足的人力、時間等資源構建名稱規(guī)范檔制定了相應的策略。UTL首先將圖書館書目中所有著者羅列為一張表,并記錄著者頻次及出處,再根據(jù)制定的標準篩選出需要規(guī)范的著者,該標準規(guī)定著者頻率大于3或者是有名的人物才建立名稱規(guī)范記錄:其次到LCNAF和VIAF中尋找該著者的名稱規(guī)范形式,在沒有匹配情況下才新建記錄:最后通過列表中出處到書目庫搜集著者相關信息。并通過網(wǎng)絡、各種工具書和數(shù)據(jù)庫進行完善。

      該策略對少產(chǎn)或無名著者不建立規(guī)范記錄,將精力集中于真正需要消除歧義的著者名稱上,并利用已有的規(guī)范檔減少工作量,節(jié)省了人力和時間,適合資源有限的圖書館,也是快速構建本地名稱規(guī)范檔從無到有的有效模式。

      2.11BibApp

      BiBApp是由伊利諾伊大學香檳分校和威斯康星大學麥迪遜分校圖書館聯(lián)合開發(fā)的用于搜索校園專家的一款軟件,最新版本為2011年發(fā)布的BibAppl.1。該軟件可方便的管理研究人員的科研成果、瀏覽他人相關信息及成果,并能輕松的找到項目合作人。圖書館對名稱規(guī)范的維護和應用可借鑒BibApp軟件,通過用戶參與幫助消除同名作者歧義,并開發(fā)相關功能供用戶使用,同時又注重友好性體驗。另外圖書館可以從BibApp這類的應用中收割信息幫助識別和完善名稱規(guī)范數(shù)據(jù)。

      3.名稱規(guī)范維護的模式及分析

      從國外開展的名稱規(guī)范項目和研究之中可以得出當前名稱規(guī)范維護模式主要有三種類型,本文對它們的優(yōu)勢和劣勢進行分析并提供使用建議,以幫助相關機構選擇開展名稱規(guī)范維護的方法和模式。

      3.1三種維護模式

      (1)傳統(tǒng)的人工維護模式。傳統(tǒng)的人工維護模式采用自上而下、由領域內少數(shù)權威機構的專業(yè)編目人員維護名稱規(guī)范以及掛接書目數(shù)據(jù),各國家圖書館名稱規(guī)范檔、ULAN和UTL都采用該種維護模式;另外也有像網(wǎng)絡社區(qū)、社交軟件等自發(fā)、小規(guī)模的通過人工維護進行身份辨識和消除重名問題的應用。

      傳統(tǒng)人工維護模式主要依據(jù)相關標準和管理系統(tǒng)進行名稱規(guī)范控制。目前國際上主要有兩套名稱規(guī)范格式和著錄體系,分別為IFLA的《UNIMARC/規(guī)范格式》、《規(guī)范和參照款目指南》和LC的《MARC21規(guī)范數(shù)據(jù)格式》,各機構基于此開展名稱規(guī)范數(shù)據(jù)的維護:另外利用帶有相關功能的系統(tǒng)管理規(guī)范數(shù)據(jù),進行存取、增刪改操作和實施規(guī)范控制。

      由于傳統(tǒng)維護模式效率低下催生了聯(lián)合規(guī)范項目,由圖書館及相關機構聯(lián)合起來參與名稱規(guī)范的共建共享,擴大名稱規(guī)范控制的范圍,如VIAF和NACO。但該方式仍無法彌補傳統(tǒng)模式的缺陷,規(guī)范控制能力跟不上資源增長的速度。

      (2)基于著者交互的自規(guī)范模式。自規(guī)范模式發(fā)起于機構知識庫和文獻數(shù)據(jù)庫,典型項目有NameProiect和各IDs,這些系統(tǒng)大都由著者填寫自身及相關學術信息或是進行身份識別認證,系統(tǒng)會為著者分配一個唯一標識符以解決姓名混淆和重名問題。多次注冊、多入口操作和多個標識符問題又促使了ISNI和ORCID的發(fā)展,使得唯一標識符擴大到世界范圍并且擴展為標準。

      基于著者交互的自規(guī)范是一種自下而上、去中心化的由著者主導的聯(lián)合共建模式,著者了解自身相關信息和著述,通過UGC(User Generated Content,用戶創(chuàng)造內容)形式整合存在頭腦里有關人、機構等的事實信息,并通過系統(tǒng)自發(fā)、協(xié)同的實現(xiàn)名稱規(guī)范信息的生成、完善以及不同實體的辨識,可作為名稱規(guī)范數(shù)據(jù)維護的另一方法和模式。

      基于著者交互的自規(guī)范需要以交互網(wǎng)絡平臺為渠道,通過著者的參與在平臺中新增或修改信息項從而實現(xiàn)規(guī)范數(shù)據(jù)的維護。在搭建交互平臺中,要規(guī)避專業(yè)的MARC格式,通過技術手段和友好性設計降低用戶參與的復雜度:另外只維護數(shù)據(jù)難以提高著者的參與度,要設計能幫助個人管理、統(tǒng)計、方便生成科研成果的相關功能來增強著者參與的積極性。

      (3)自動名稱消歧模式。自動名稱消歧模式主要應用在文獻數(shù)據(jù)庫和學術機構庫中的數(shù)字(化)文獻,Stylometrv和AND都屬于該模式。stvlometrv是從著作內容的角度區(qū)分同名著者作品,AND則是通過著作外部特征來幫助區(qū)分同名著者作品。該類數(shù)據(jù)數(shù)量巨大且重名現(xiàn)象嚴重,將易于抽取的著者文獻信息項,如主題、合著者、研究方向、出版物名稱及類型、引文和分類號等作為辨識特征,利用自然語言學和機器學習技術自動區(qū)分重名著者和聚合別名著者的作品,從而實現(xiàn)名稱規(guī)范控制,可作為名稱規(guī)范維護的又一重要途徑和模式。

      Stvlometry中,可有效區(qū)分著者文體的識別指標有四方面:詞匯特征方面包括基于字和詞的特征,句法特征方面有功能詞、詞性和標點符號,結構特征分為文本總行數(shù)、總句數(shù)、總段落數(shù)、平均每段句數(shù)、詞數(shù)和字數(shù)等,內容特征方面是抽取文獻表達的主題。stvlometry方法比較適合單一作者的文獻,不適用于有多個作者的情況。AND中,基于監(jiān)督的分類方法有較高的準確度,但需人工構建訓練集,面對海量數(shù)據(jù)進行人工標注工作量巨大,限制了該方法在著者消歧中的應用?;诜潜O(jiān)督的聚類方法不需要訓練數(shù)據(jù),適用性較高,是當前人名消歧的主流方法,但判斷數(shù)據(jù)分布、設定聚類個數(shù)等因素影響準確性,可使用EM算法和Gibbs抽樣彌補一般聚類算法的不足。

      3.2各模式優(yōu)劣分析

      傳統(tǒng)模式制作的規(guī)范數(shù)據(jù)質量高但維護效率低下。傳統(tǒng)維護模式由專門的編目員根據(jù)著錄格式和規(guī)則對數(shù)據(jù)進行辨識、新建和完善,客觀性和準確性強,但受有效信息源獲取的影響,存在不完整、甚至是白板數(shù)據(jù)。另外面對日益增長的書目和各類型資源,采用由領域內少數(shù)權威機構維護的模式使規(guī)范數(shù)據(jù)的規(guī)模和范圍受到影響和限制,規(guī)范控制能力遠跟不上資源增長的速度。

      著者交互的自規(guī)范可以緩解傳統(tǒng)維護模式的突出問題,但目前還很難完成規(guī)范數(shù)據(jù)的快速擴張。著者能較容易的辨識規(guī)范庫中同名數(shù)據(jù),發(fā)現(xiàn)由更名、別名構建的重復記錄;通過添加、修改相關信息項可完善名稱規(guī)范數(shù)據(jù),提高數(shù)據(jù)質量:除此之外,廣泛的著者參與能消除傳統(tǒng)維護的局限,擴大名稱規(guī)范數(shù)據(jù)的規(guī)模和范圍。但自規(guī)范也存在局限性,仍由人承擔維護工作再加上著者參與驅動力的問題,目前還很難快速完成規(guī)模擴張,另外著者參與存在信息真實性問題,還需要進行申明和認證。

      自動名稱消歧效率高但準確性較差。自動名稱消歧能根據(jù)文獻內、外部特征對海量數(shù)據(jù)快速區(qū)分重名著者和聚合別名著者作品,從而實現(xiàn)名稱規(guī)范維護及控制,但準確性受選取的特征項、特征項信息完整程度和算法影響大。

      究竟采用何種方式維護名稱規(guī)范數(shù)據(jù),首先要了解各維護模式的優(yōu)勢和劣勢(見表1)。三種維護模式中客觀性和完整性之間、準確性和效率之間成反比關系,并且有各自適合的資源類型:其次要結合自身情況,如項目目的、人力和時間、規(guī)范對象的類型和規(guī)模等因素選擇合適的開展方式。對于專業(yè)領域、小規(guī)模而且人力有限的情況可采用傳統(tǒng)維護模式,對于多來源、大規(guī)模數(shù)字資源宜選用自動消歧方式;另外三種維護方式并不相互排斥,可結合起來使用,前期可選擇自動名稱消歧并對結果進行檢驗,區(qū)分效果差的資源類型再采用傳統(tǒng)和自規(guī)范模式維護完成,在提高效率的同時保證準確性,同時也擴大了規(guī)范控制能力和范圍。

      4.名稱規(guī)范的發(fā)展趨勢

      4.1規(guī)范數(shù)據(jù)的語義化、開放化和關聯(lián)化

      名稱規(guī)范的MARC格式和交換協(xié)議使其封閉在圖書館內,限制了數(shù)據(jù)開放、交換和使用。隨著技術的發(fā)展和信息環(huán)境的改變,讀者利用圖書館資源的對象和方式發(fā)生巨大變化,MARC的種種局限,如揭示粒度粗、扁平化和可擴展性差等,在網(wǎng)絡時代越來越成為絆腳石:另外只有Z39.50接口和IS02709用于互操作,MARC格式的數(shù)據(jù)被牢牢圈養(yǎng)在各個圖書館OPAC范圍內。

      發(fā)布開放關聯(lián)數(shù)據(jù)可彌補圖書館規(guī)范數(shù)據(jù)的封閉性、無語義、粗粒度、關系揭示少和擴展性差的不足,打破規(guī)范數(shù)據(jù)維護與利用的困境,也為轉變資源組織的模式提供了全新的思路,隨著BIBFRAME、Schema.org等的推行,規(guī)范數(shù)據(jù)的開放關聯(lián)必然成為一個重要趨勢。事實上一些國家和機構已邁出了一步,大英圖書館和德國國家圖書館等一批國家圖書館已將自己的名稱規(guī)范發(fā)布成了關聯(lián)數(shù)據(jù),OCLC還研發(fā)了VIAF的關聯(lián)數(shù)據(jù)服務.LC也開發(fā)了符合關聯(lián)數(shù)據(jù)規(guī)范的BIBFRAME書目數(shù)據(jù)格式,規(guī)范數(shù)據(jù)是其中的數(shù)據(jù)類型之一。新的數(shù)據(jù)規(guī)范一方面充分考慮與過去MARC的兼容,保證規(guī)范數(shù)據(jù)的語義內容能夠遷移到新的系統(tǒng)中:另一方面也為未來的規(guī)范控制探索了可行的技術方案。將名稱規(guī)范發(fā)布為開放關聯(lián)數(shù)據(jù),要經(jīng)過語義化、開放化和關聯(lián)化的過程:

      (1)語義化就是將名稱規(guī)范數(shù)據(jù)的MARC格式轉換為RDF表達形式,即使用“主體一謂詞一客體”三元組(Triple)對規(guī)范數(shù)據(jù)中各項內容進行結構化描述。RDF的三元組描述方式及URI技術可以容易的關聯(lián)和發(fā)現(xiàn)資源而不需任何人工干預,RDF Schema實現(xiàn)理解從而可自動定向獲取資源和相關信息。數(shù)據(jù)語義化后可以被機器理解和處理,為擴展本地名稱規(guī)范數(shù)據(jù)種類、范圍和規(guī)模提供技術保障。轉化過程中,為保證共享和重用,要盡量利用已標準化和成熟的詞匯集描述數(shù)據(jù),避免自造新詞匯。同時建立規(guī)范數(shù)據(jù)MARC格式字段及子字段對應的RDF詞匯映射表,方便計算機自動批量實現(xiàn)名稱規(guī)范數(shù)據(jù)的語義化描述。

      (2)開放化通過URI表示和HrITP URI訪問實現(xiàn)數(shù)據(jù)的參引(Dereference),以確保圖書館高質量的規(guī)范數(shù)據(jù)和資源被外部檢索使用,并能發(fā)揮對網(wǎng)絡信息的規(guī)范控制作用。根據(jù)數(shù)據(jù)存儲方式、數(shù)量大小、更新頻率和訪問方式的不同,一般可考慮采用以下幾種方式開放數(shù)據(jù):①發(fā)布靜態(tài)的RDF文件,適用于數(shù)據(jù)量很小的情況:②將RDF文件存儲在RDF數(shù)據(jù)庫中,并采用Pubby等服務器作為關聯(lián)數(shù)據(jù)服務的前端,適用于數(shù)據(jù)量大的情況;③在請求數(shù)據(jù)時根據(jù)原始數(shù)據(jù)在線生成RDF數(shù)據(jù),適用于更新頻率多的情況;④D2R方式,即從關系數(shù)據(jù)庫到RDF數(shù)據(jù)轉換,適用于關系數(shù)據(jù)庫存儲的數(shù)據(jù)發(fā)布成關聯(lián)數(shù)據(jù)。

      (3)關聯(lián)化通過語義詞匯將不同數(shù)據(jù)集合以各種關系形式連接起來,通過從一個數(shù)據(jù)集跳轉到另一個數(shù)據(jù)集,從而能極大程度的發(fā)現(xiàn)資源,擴大本地名稱規(guī)范數(shù)據(jù)規(guī)模,完善自身名稱規(guī)范數(shù)據(jù)。OCLC已經(jīng)開始將VIAF的URIs添加到LC規(guī)范數(shù)據(jù)和Wikipedia當中,從而使LC數(shù)據(jù)可以被VIAF服務發(fā)現(xiàn),同時獲取Wikipedia中的信息。關聯(lián)其他數(shù)據(jù)源雖然可通過匹配算法實現(xiàn),但仍需要人工修正,因此要根據(jù)一定的標準來選擇關聯(lián)的來源數(shù)據(jù):一是該資源被廣泛參考引用,二是該資源可用于豐富、完善本地數(shù)據(jù)。

      4.2多種維護模式相結合實現(xiàn)大資源規(guī)范控制

      名稱規(guī)范維護工作一直局限于專著,網(wǎng)絡資源、機構知識庫和文獻數(shù)據(jù)庫等對規(guī)范控制的需要促進了大資源規(guī)范控制。網(wǎng)絡上充斥的錯誤、冗余和虛假信息需要規(guī)范控制發(fā)揮作用,該需求促進了語義網(wǎng)技術的發(fā)展和各規(guī)范數(shù)據(jù)的發(fā)布:機構知識倉庫和文獻數(shù)據(jù)庫重名、別名和翻譯規(guī)則等現(xiàn)象嚴重,急需進行名稱規(guī)范以提高檢準率,IDs和ISNI都是該需求下的產(chǎn)物。各類型資源對規(guī)范控制的需要日趨顯著促進了大資源規(guī)范控制觀念的產(chǎn)生,即對各類型的海量資源開展全面的名稱規(guī)范控制,伴隨相關技術的成熟,實現(xiàn)大資源規(guī)范控制是名稱規(guī)范的另一重要趨勢。

      未來的名稱規(guī)范控制不應只局限于一種維護模式,而是要根據(jù)資源的類型和規(guī)模、自身情況和項目要求等采用多種模式相結合的方式進行名稱規(guī)范維護,從而應對海量資源的快速增長,實現(xiàn)大資源規(guī)范控制。面對各類型海量資源規(guī)范控制的需要再采用傳統(tǒng)的維護模式顯然不現(xiàn)實,需借鑒Web2,0環(huán)境下的自規(guī)范和機器學習領域的自動名稱消歧方法。自規(guī)范是一種自下而上、去中心化的維護模式,有作者自發(fā)、協(xié)同的實現(xiàn)個人信息生成、完善以及不同人辨識,能有效彌補著者信息難以獲取的問題:自動名稱消歧方法非常適用于不斷擴大的網(wǎng)絡和數(shù)字化環(huán)境的趨勢,有快速區(qū)分海量資源中重名著者及其作品的能力,解決名稱控制范圍和能力低下等問題。

      同時,也不必要求對各種類型的資源都規(guī)范的越嚴格越好(如文學作品),所有的規(guī)范數(shù)據(jù)都做到信息項和參照關系完備,如此一定是以犧牲效率為代價。不同的應用領域有不同的需求,如網(wǎng)絡環(huán)境下的規(guī)范控制只能追求合適,無法追求完美。而評價是否合適主要以能否滿足需求為標準,如IFLA在FRAD中總結的查找、辨識、提供情境、證明、選擇和探索等。借鑒ULAN、UTL等的做法,可只對著名、出現(xiàn)頻率高和用戶需要的作者進行高質量的維護,而對于一般的人名規(guī)范更多的從人名區(qū)分和消歧的角度完成規(guī)范控制即可。

      4.3越來越方便用戶使用

      《國際編目原則聲明》中的最高原則為用戶的便利性,對應到名稱規(guī)范中即在抉擇著錄及檢索用的名稱規(guī)范數(shù)據(jù)時應該考慮到用戶的需求。目前大部分圖書館名稱規(guī)范標目(首選檢索點)選取的原則為唯一性和一致性,如用生卒年保證標目的唯一性,但從用戶的角度來講,生卒年信息并不能幫助他們有效選擇名稱和區(qū)分相似、同名著者。具體表現(xiàn)在使用OPAC檢索著者名稱,返回內容或混亂或沒有能容易辨識、區(qū)分著者名稱的信息項,導致用戶難以選擇所需的名稱規(guī)范數(shù)據(jù)。

      近些年名稱規(guī)范逐漸從用戶的角度考慮格式和規(guī)則的制定,方便用戶使用在今后的名稱規(guī)范制作中會越來越得到重視和體現(xiàn)。1961年的“巴黎原則”只描述了選擇單一形式的名稱作為規(guī)范標目,卻沒有考慮、解決如何區(qū)分相似名稱;1984年在IFLAUBC(Universal BibliograDhic Control,世界書目控制)國際會議中,允許以非編目形式記錄能區(qū)分著者的信息,即以注釋的形式將幫助區(qū)分著者的信息和來源放在690字段,但只提供給編目員使用,而不包括用戶:1999年成立的FRANAR(Functional Requirements and Numbering of Authority Records,規(guī)范記錄的功能需求與編號工作組)意識到只通過名稱不足以判定其代表的實體,在規(guī)定用戶任務時有兩條都與相似著者的名稱識別相關,但并沒有說明提供給編目員還是用戶使用;2009年發(fā)布的FRAD增加了描述用戶任務的信息,但沒有解決以何種形式和用哪些信息為用戶提供區(qū)分不同著者的服務:隨后一年發(fā)布的RDA(Resource Descrmdon&Access;,資源描述與檢索)中規(guī)定了對于無法區(qū)分的名稱規(guī)范使用描述性短語進行識別:西華盛頓大學經(jīng)過研究認為從事的領域容易區(qū)分著者,并建議在FRAD中增加該方面的屬性。

      另外在名稱規(guī)范的應用方面將越來越注重用戶的友好性體驗。隨著數(shù)字資源越來越以人為中心進行組織,名稱規(guī)范的應用價值將得到進一步彰顯,相應的要設立友好性體驗才能充分發(fā)揮名稱規(guī)范控制作用。目前已有一些機構在有意識地增強名稱規(guī)范區(qū)分度以提高用戶體驗,如香港中文大學圖書館利用DSpace開發(fā)的機構知識庫對作者加入部門、中文名等屬性幫助用戶選擇正確的著者:Eprints作為世界上第一個數(shù)字知識倉庫軟件開發(fā)了自動填詞功能,用戶輸入著者檢索詞時,系統(tǒng)會自動列出相似詞條,供用戶區(qū)分和選取特定的責任者名稱。

      隨著RDA、BIBFRAME等的提出和推行,其規(guī)范數(shù)據(jù)要充分考慮用戶的需求,在屬性中擴展消歧短語幫助辨識、區(qū)分和選擇名稱規(guī)范,并制定生成消歧短語的相關規(guī)則等。在開發(fā)基于名稱規(guī)范的應用時,還需要挖掘方便用戶使用的界面和功能,如為用戶提供容易識別著者的信息項,制定合適長度的消歧短語在充分揭示信息的同時又不引起噪音,對相似著者的辨識使用瀏覽、鼠標懸浮和機器提問等顯示形式方便用戶選擇等,從而滿足未來普遍存在的以作者為中心的資源組織方式。

      4.4從標目向唯一標識符方向發(fā)展

      基于MARC格式的標目及統(tǒng)一標目形式實際是一種較淺層次的名稱規(guī)范。名稱規(guī)范為實現(xiàn)區(qū)分和聚集功能,采用MARC格式承載標目和統(tǒng)一標目的方法實現(xiàn)對著者的唯一標識,其實質是對著者的名稱形式進行統(tǒng)一,而不是對人的唯一標識,因此會遇到名稱變更、重名和翻譯等諸多問題。另外不同機構之間對首選標目原則、姓名著錄次序、縮寫方式等存在不同的規(guī)則和標準,人為造成再次的不統(tǒng)一。

      基于E-R模型的唯一標識符其實質是對人的唯一認證,可解決標目的諸多問題。FRBR家族的出現(xiàn)促進了名稱規(guī)范的發(fā)展,采用E-R模型對名稱規(guī)范的揭示更加細粒度、立體化和滿足用戶需要,也更接近現(xiàn)實中的真實情況,其實質是對人的唯一認證。其中的唯一標識符對著者的揭示是一種獨立于名稱形式的表達模型,它唯一標示著者、標識符公開和有明確的界定,并且不會隨著名稱的變更發(fā)生改變,能使統(tǒng)一標目的問題得到有效解決,即不需要選擇任何一種優(yōu)先形式作為標目,從而繞開標目由名稱及其變動帶來的重名、別稱、翻譯問題、名字變動和西方名字縮寫等諸多問題。隨著關聯(lián)數(shù)據(jù)的普及和大批量數(shù)據(jù)的發(fā)布,會更加促使名稱規(guī)范向著者唯一標識符方向發(fā)展,最終取代標目的形式,完成從名稱到人的本質性認證(見圖1)。

      5.結語

      當前我國名稱規(guī)范的諸多問題要求改革現(xiàn)有的維護方法,采用多種模式相結合的方式進行名稱規(guī)范維護,同時要緊隨國際上的發(fā)展動向,幫助我國名稱規(guī)范控制工作走出困境。其實,傳統(tǒng)的圖書館名稱規(guī)范控制和整序工作,在新趨勢下并沒有失去其價值,圖書館數(shù)百年積累起來的規(guī)范控制經(jīng)驗,如果能積極的迎合時代和環(huán)境的發(fā)展趨勢,不僅能實現(xiàn)過去沒有實現(xiàn)的理想,而且能在更大范圍內發(fā)揚光大。

      平原县| 沂南县| 大兴区| 昂仁县| 南部县| 搜索| 新宾| 祥云县| 中西区| 平利县| 江永县| 汕尾市| 娄底市| 苍山县| 湾仔区| 伊金霍洛旗| 龙州县| 瓦房店市| 宁晋县| 新津县| 九江县| 望城县| 馆陶县| 盘山县| 苏州市| 宝应县| 榆树市| 昔阳县| 玛曲县| 措美县| 蒙城县| 宁河县| 普兰县| 辽阳县| 茂名市| 长沙县| 安陆市| 侯马市| 天气| 神农架林区| 阿荣旗|