徐 雷(武漢大學(xué)信息管理學(xué)院,武漢,430072)
語義出版應(yīng)用與研究進(jìn)展
徐雷
(武漢大學(xué)信息管理學(xué)院,武漢,430072)
對目前語義出版相關(guān)的標(biāo)準(zhǔn)與規(guī)范、出版物關(guān)聯(lián)數(shù)據(jù)集現(xiàn)狀、語義出版流程與技術(shù)需求,以及語義出版的應(yīng)用場景等進(jìn)展情況進(jìn)行全面梳理,說明語義出版物相對于傳統(tǒng)出版物具有的優(yōu)勢,也指出目前語義出版面臨的諸多問題及挑戰(zhàn),如數(shù)據(jù)集利用率低、缺乏成熟的語義出版流程和平臺、自動化程度和用戶體驗仍有待提升等。因此,需要有針對性地解決語義網(wǎng)和出版等領(lǐng)域各自現(xiàn)有的問題,才能更好地促進(jìn)語義出版發(fā)展。
語義出版 數(shù)字出版 關(guān)聯(lián)數(shù)據(jù) 研究進(jìn)展
語義出版(Semantic Publishing)是借助信息技術(shù)對傳統(tǒng)數(shù)字出版物進(jìn)行語義標(biāo)注、語義關(guān)聯(lián)等富語義化操作并形成語義出版物的一系列過程。相對于傳統(tǒng)出版物,語義出版物的互聯(lián)與交互性更強(qiáng),具有精確查詢、閱讀便利等諸多優(yōu)勢,近年來已引起學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注。語義出版的概念最早由肖頓Shotton)[1]在2009年正式提出,他認(rèn)為語義出版是指那些增強(qiáng)已出版的期刊文獻(xiàn)的內(nèi)涵意義的過程,以便利科學(xué)文獻(xiàn)的自動發(fā)現(xiàn)、使文獻(xiàn)之間產(chǎn)生語義關(guān)聯(lián)、提供對文獻(xiàn)內(nèi)部數(shù)據(jù)的動態(tài)訪問接口,同時也便利文獻(xiàn)之間的數(shù)據(jù)集成。目前學(xué)術(shù)出版是語義出版技術(shù)應(yīng)用最廣泛的領(lǐng)域之一,肖頓最初也將語義出版的定義定位在學(xué)術(shù)出版領(lǐng)域,不過從目前的發(fā)展形勢來看,語義出版已經(jīng)引起諸多領(lǐng)域越來越多的重視。語義出版相關(guān)的技術(shù)(簡稱語義出版技術(shù))相對于傳統(tǒng)的數(shù)字出版技術(shù)而言,具有更強(qiáng)的資源組織能力,能夠?qū)Τ霭嫖镔Y源進(jìn)行更細(xì)粒度的標(biāo)注與結(jié)構(gòu)化,同時將與出版物有關(guān)的事物,如出版社、作者、相關(guān)出版物、內(nèi)容中提及的實體信息等與該出版物互聯(lián),極大地減輕讀者閱讀過程中對外部信息獲取的負(fù)擔(dān),帶給讀者更強(qiáng)的閱讀交互體驗。從長遠(yuǎn)來看,語義出版技術(shù)的應(yīng)用也減輕了編輯人員、出版機(jī)構(gòu)、讀者、作者之間在各個出版流程中對出版物元數(shù)據(jù)的交互需求。本文主要從語義出版的相關(guān)標(biāo)準(zhǔn)與規(guī)范、出版物關(guān)聯(lián)數(shù)據(jù)集的利用、語義出版流程及參與者角色定位、語義出版的應(yīng)用現(xiàn)狀等幾個方面對語義出版目前的發(fā)展?fàn)顩r進(jìn)行梳理,總結(jié)存在的問題,并提出解決對策及發(fā)展方向。
語義出版物的制作過程,需要對數(shù)字資源內(nèi)容進(jìn)行不同程度的標(biāo)注、分割、重組、關(guān)聯(lián)等結(jié)構(gòu)化操作,為了便于不同出版物之間的語義互操作,一般需要相應(yīng)的標(biāo)準(zhǔn)或元數(shù)據(jù)等來規(guī)范語義出版物的制作過程。由于語義出版技術(shù)主要來自互聯(lián)網(wǎng)與語義網(wǎng)領(lǐng)域,有大量的標(biāo)準(zhǔn)、元數(shù)據(jù)、詞匯、語言框架可利用,如XML、RDF、OWL等表達(dá)語言,這些語言作為頂層框架有助于資源共享與互操作的規(guī)范化。如RDF是W3C制定的專門用于資源描述的標(biāo)準(zhǔn)語言,也是目前關(guān)聯(lián)數(shù)據(jù)(linked data)采用的主要格式之一,在數(shù)字出版及其他眾多領(lǐng)域中被廣泛使用。其他在數(shù)字出版領(lǐng)域應(yīng)用比較多的語言,還有如Schema.org、Microdata、Microformat、RDFa、JSON-LD等微語義表達(dá)方式[2],它們大都通過在網(wǎng)頁等文檔中嵌入結(jié)構(gòu)化標(biāo)簽的方式在一定程度上實現(xiàn)文檔的語義和語義化。
語義出版作在為數(shù)字出版的一個子集,在廣義上,數(shù)字出版標(biāo)準(zhǔn)和語義出版標(biāo)準(zhǔn)的區(qū)別有時并不明顯,一般認(rèn)為凡是涉及出版物結(jié)構(gòu)化與關(guān)聯(lián)操作,以及更深層次的實體標(biāo)注等相關(guān)詞匯集合都是語義出版標(biāo)準(zhǔn)及規(guī)范的范疇。W3C早在2013年6月25日就啟動了數(shù)字出版計劃,支持面向數(shù)字出版產(chǎn)業(yè)的Web平臺,在開放Web平臺的開發(fā)者和出版產(chǎn)業(yè)之間搭建橋梁。目前,(X)HTML、CSS、SVG、SMIL、MathML等語言及其他各種Web APIs等已經(jīng)廣泛服務(wù)于電子書讀者、電子書的閱讀設(shè)備、電子期刊與在線教育資源。
另外,數(shù)字出版興趣組(Digital Publishing Interest Group)[3]作為W3C面向數(shù)字出版生態(tài)系統(tǒng)專家的論壇,是數(shù)字出版相關(guān)標(biāo)準(zhǔn)的主要制定者。2014年12月4日,該興趣組發(fā)布了數(shù)字出版注釋用例(Digital Publishing Annotation Use Cases)[4]的工作組備忘,簡稱Web注釋,希望在不同的Web信息片段之間建立聯(lián)系。現(xiàn)在,用戶可以通過各種Web站點內(nèi)置的工具、外部的Web服務(wù),或特定Web注釋客戶端的特定功能來對在線資源進(jìn)行評價互動。當(dāng)讀者閱讀電子圖書時,可以通過這些工具和服務(wù)來增加批注,分享閱讀體會,或在一段文字上圈點來標(biāo)出重點。同樣,在線圖片、視頻、音頻、地圖、社會媒體等各種不同應(yīng)用形式都可以使用該注釋。
另一個語義出版相關(guān)規(guī)范的制定工作是2015 年7月由W3C發(fā)布的WAI-ARIA模塊首個公開工作草案[5]。該規(guī)范擴(kuò)展了無障礙Web應(yīng)用技術(shù)并針對數(shù)字出版定義了一個角色、狀態(tài)及屬性的本體(Ontology)。通過提供不包含在基礎(chǔ)語言(如HTML)中的語義,該規(guī)范使得自動化處理與無障礙訪問支持變得更為容易。該標(biāo)準(zhǔn)草案和Web注釋是W3C近期制定的語義出版的技術(shù)規(guī)范,其處理技術(shù)已經(jīng)深入文檔中的知識片段、知識點之間的關(guān)聯(lián),甚至已經(jīng)用到本體這一核心的語義技術(shù),可見W3C對語義出版的支持力度之大。
除了上述介紹的一些語義出版的規(guī)范外,表1給出了其他被廣泛使用的語義出版技術(shù)相關(guān)的領(lǐng)域詞匯、元數(shù)據(jù)和本體,并簡要說明其內(nèi)容及局限。
表1 語義出版相關(guān)詞匯及本體
SPAR全稱是Semantic Publishing and Referencing,一個出版領(lǐng)域的本體,幾乎包含了出版過程的所有方面,如文檔描述、書目數(shù)據(jù)標(biāo)識、文獻(xiàn)引用類型及統(tǒng)計(CiTO/C4O)、書目參考(BiRO)、文檔區(qū)塊及狀態(tài)(DoCO/PSO)、作者角色及貢獻(xiàn)(PRO)、文獻(xiàn)發(fā)布工作流(PWO)等。該本體的構(gòu)建過程參考了其他已有本體,如FRBR、DC、SKOS等,并以本體模塊的形式集成,目前提供OWL 2 DL語言實現(xiàn)。
在語義網(wǎng)領(lǐng)域有大量的語義數(shù)據(jù)集合,稱為關(guān)聯(lián)數(shù)據(jù),有時也稱為關(guān)聯(lián)數(shù)據(jù)云圖[6],這些數(shù)據(jù)集合一般采用RDF或OWL的語言表示,并通過一定的規(guī)則在網(wǎng)絡(luò)上發(fā)布以供用戶研究和使用。關(guān)聯(lián)數(shù)據(jù)將所有的資源對象,包括術(shù)語、概念等抽象事物,都進(jìn)行統(tǒng)一編碼,以保證資源的可定位性,同時將資源進(jìn)行廣泛互聯(lián),使得資源的獲取與發(fā)現(xiàn)更為便利精確。關(guān)聯(lián)數(shù)據(jù)云圖中,有大量各個領(lǐng)域的數(shù)據(jù)集,目前國際上已公布的關(guān)聯(lián)數(shù)據(jù)約860億三元組[7],并仍在快速增長。關(guān)聯(lián)數(shù)據(jù)云圖涵蓋領(lǐng)域主要包括生命科學(xué)、出版物、社會網(wǎng)絡(luò)、地理數(shù)據(jù)、政府?dāng)?shù)據(jù)、媒體數(shù)據(jù)、語言、用戶產(chǎn)生數(shù)據(jù)(UGC)以及跨領(lǐng)域等,其中出版物在整個關(guān)聯(lián)數(shù)據(jù)云圖中也占有很大比例。
3.1出版物關(guān)聯(lián)數(shù)據(jù)概況
關(guān)聯(lián)數(shù)據(jù)云圖中的出版物數(shù)據(jù)集主要來自圖書館的書目數(shù)據(jù)、期刊文獻(xiàn)的題錄數(shù)據(jù)、檔案館的資料數(shù)據(jù)等。其中一部分由數(shù)據(jù)提供者提供以及來自Billion Triple Challenge 2012 dataset數(shù)據(jù)集,還有一部分則源于由上一部分?jǐn)?shù)據(jù)作為種子在網(wǎng)絡(luò)上抓取的關(guān)聯(lián)數(shù)據(jù)集。以2014年8月30日的關(guān)聯(lián)數(shù)據(jù)集為例,整個云圖中共有約1000個數(shù)據(jù)集,其中出版物數(shù)據(jù)集占整個數(shù)據(jù)集總數(shù)的10%左右,是排在政府?dāng)?shù)據(jù)集之后第二大關(guān)聯(lián)數(shù)據(jù)集合。由于出版物關(guān)聯(lián)數(shù)據(jù)比較多,本文選取幾個有代表性的數(shù)據(jù)集予以介紹,如表2所示。
表2 出版物關(guān)聯(lián)數(shù)據(jù)集合
3.2出版物關(guān)聯(lián)數(shù)據(jù)集分析
仍以2014年8月30日的關(guān)聯(lián)數(shù)據(jù)集為例,本文從數(shù)據(jù)集的詞匯使用、數(shù)據(jù)的內(nèi)容與關(guān)聯(lián)、數(shù)據(jù)描述、數(shù)據(jù)獲取、數(shù)據(jù)的來源信息等幾個角度對出版物關(guān)聯(lián)數(shù)據(jù)集合作了簡單分析,以了解該數(shù)據(jù)集目前的狀況。
在數(shù)據(jù)集的詞匯使用方面,整個出版物數(shù)據(jù)集中,使用最多的三個謂詞是owl:sameAs、dct:language、rdfs:seeAlso ,其中dct:language是該領(lǐng)域比較特有的謂詞詞匯,全球不同國家的出版物所使用的語言是有差異的,dct:language在出版物數(shù)據(jù)集中比較常見,用于標(biāo)注出版物內(nèi)容所使用的語言。owl:sameAs、rdfs:seeAlso謂詞在數(shù)據(jù)集中主要用來關(guān)聯(lián)不同的數(shù)據(jù)集合。在使用術(shù)語詞匯方面,除了rdf, rdfs和owl等在所有數(shù)據(jù)集中較為常見外,出版物數(shù)據(jù)集中較常見的術(shù)語有dcterm(http://purl.org/dc/terms/)、foaf(http:// xmlns.com/foaf/0.1/)、bibo(http://purl.org/ontology/ bibo/)。其中,dcterm 是Dubolin Core元數(shù)據(jù)詞匯,foaf是一個關(guān)于人、網(wǎng)絡(luò)信息之間關(guān)系的語言詞匯,bibo是一個書目數(shù)據(jù)本體詞匯,這也正符合出版物數(shù)據(jù)的領(lǐng)域特點。
從關(guān)聯(lián)數(shù)據(jù)集的內(nèi)容與關(guān)聯(lián)程度看,對出版物領(lǐng)域而言,數(shù)據(jù)集的內(nèi)容主要是關(guān)于出版物的基本信息,內(nèi)容包括圖書的書名、作者、出版社、ISBN、價格、期刊刊號、期刊名、編委、發(fā)行機(jī)構(gòu)、論文的作者、題目、摘要、關(guān)鍵詞、發(fā)表時間、發(fā)表期刊等。數(shù)據(jù)集的關(guān)聯(lián)信息很少有深入到出版物的內(nèi)容層面或詞匯層面。由于這些關(guān)聯(lián)數(shù)據(jù)集一部分是由傳統(tǒng)的出版物元數(shù)據(jù)、數(shù)據(jù)庫等轉(zhuǎn)換而來的,導(dǎo)致這些關(guān)聯(lián)數(shù)據(jù)中有效實體鏈接并不多,實際的關(guān)聯(lián)程度并不高。雖然在整個數(shù)據(jù)集中,出版物數(shù)據(jù)集的個數(shù)較多,但其包含的三元組個數(shù)卻不是最多的。這意味著出版物數(shù)據(jù)集的平均三元組包含量比較少。
從數(shù)據(jù)集的描述上看,由于關(guān)聯(lián)數(shù)據(jù)很多,為了便于用戶獲取,關(guān)聯(lián)數(shù)據(jù)一般要求在提交數(shù)據(jù)時提供關(guān)于數(shù)據(jù)集的概要描述,如數(shù)據(jù)集的提交時間、作者、三元組數(shù)量、數(shù)據(jù)樣本以及數(shù)據(jù)訪問或獲取方式等,用戶通過該描述可以獲知該數(shù)據(jù)集的基本信息,進(jìn)而決定是否需要使用以及如何獲取這些數(shù)據(jù)。W3C還推薦使用VoID[8]標(biāo)準(zhǔn)來對關(guān)聯(lián)數(shù)據(jù)集進(jìn)行規(guī)范描述。出版物數(shù)據(jù)集在數(shù)據(jù)描述上整體表現(xiàn)較好,基本對所有數(shù)據(jù)都進(jìn)行了簡要描述,但提供標(biāo)準(zhǔn)的VoID的描述方式較少。
從數(shù)據(jù)獲取的角度看,這些關(guān)聯(lián)數(shù)據(jù)集合可通過直接下載的方式獲取,或者通過一種類似于SQL的SPARQL查詢服務(wù)來按需獲取,這也是語義技術(shù)的標(biāo)準(zhǔn)實現(xiàn)。通過實際測試發(fā)現(xiàn),提供SPARQL查詢服務(wù)的數(shù)據(jù)集并不多,或者這些查詢服務(wù)并不可用,這是整個關(guān)聯(lián)數(shù)據(jù)云圖中都存在的問題。
從數(shù)據(jù)的來源與許可信息看,在關(guān)聯(lián)數(shù)據(jù)中有相應(yīng)的數(shù)據(jù)來源(Provenance)和使用許可(Licensing)信息。從目前整個關(guān)聯(lián)數(shù)據(jù)的情況來看,這些信息在數(shù)據(jù)集中的使用較少,數(shù)據(jù)提供者并不重視數(shù)據(jù)的來源和許可,雖然目前關(guān)聯(lián)數(shù)據(jù)都向用戶開放查詢和下載,但對用戶而言,他們不知道這些數(shù)據(jù)是由哪個人或哪個機(jī)構(gòu)提供,進(jìn)而不能確認(rèn)這些數(shù)據(jù)集的質(zhì)量,同時由于不含有許可信息,對于數(shù)據(jù)的使用是否會侵犯知識產(chǎn)權(quán)也無從可知。
傳統(tǒng)出版過程是由選題、組稿、編輯、校對、裝幀設(shè)計、出版發(fā)行等一系列環(huán)節(jié)組成的完整流程。語義出版屬于數(shù)字出版的范疇,數(shù)字出版過程顛覆了傳統(tǒng)的單一介質(zhì)的線性出版流程,它以內(nèi)容管理為核心,形成以內(nèi)容為核心的業(yè)務(wù)管理模式。由于數(shù)字出版當(dāng)前正處于探索發(fā)展的高峰期,還沒有一套業(yè)界比較認(rèn)可和成熟的數(shù)字出版流程體系,但一個總的原則是該流程體系要圍繞數(shù)字內(nèi)容的策劃、創(chuàng)作、結(jié)構(gòu)化處理、發(fā)布、營銷進(jìn)行。圖1是數(shù)字出版中的語義出版流程示意圖。
圖1 語義出版流程圖
在數(shù)字資源的收集加工階段,除了傳統(tǒng)的各種文檔、圖片、視頻、電子書等素材收集、數(shù)字化、格式轉(zhuǎn)換、分類與結(jié)構(gòu)化處理操作外,語義出版過程還需要采用語義技術(shù)標(biāo)準(zhǔn)對數(shù)字資源進(jìn)行組織、語義描述,甚至直接利用語義知識庫。比如構(gòu)建、收集本體數(shù)據(jù),并對數(shù)字資源進(jìn)行粗略標(biāo)注,如果沒有相應(yīng)的標(biāo)注詞匯集合,可能還會涉及數(shù)字資源的碎片化、結(jié)構(gòu)化操作,以有效進(jìn)行資源片段、知識元的重組。
在數(shù)字內(nèi)容制作階段,一般采用協(xié)同編輯、自動排版技術(shù)或平臺,同時語義出版過程需要專業(yè)編輯參與資源的語義化加工過程,當(dāng)然也需要界面設(shè)計與排版等技術(shù)人員的參與。由于語義出版物的語義化過程也是一種創(chuàng)作過程,同樣需要進(jìn)行內(nèi)容審核,以檢查語義內(nèi)容是否正確或處理得當(dāng)。內(nèi)容的語義加工包括語義標(biāo)注、語義關(guān)聯(lián)等諸多細(xì)節(jié),標(biāo)注的內(nèi)容可以是出版物元數(shù)據(jù)、內(nèi)容標(biāo)簽、關(guān)鍵詞、實體信息等。這一過程需要解決標(biāo)注詞匯的歧義、標(biāo)注深度等實際問題。
語義出版物的最終形式可以是電子書、網(wǎng)頁、App等形式,因此可以使用目前數(shù)字出版的一套網(wǎng)絡(luò)營銷方案,如出版物網(wǎng)絡(luò)購買、閱讀權(quán)限設(shè)置、提供用戶交互功能等。另外,在目前的語義出版應(yīng)用中,將數(shù)字出版物進(jìn)行自動語義處理也比較常見,如在一些瀏覽器上安裝自動化插件,當(dāng)瀏覽出版物內(nèi)容時,插件將自動對內(nèi)容進(jìn)行語義化處理等操作,或者在瀏覽平臺上提供可語義操作的功能選項,由用戶決定是否對瀏覽的內(nèi)容進(jìn)行語義化處理。該類型的語義出版物的形成是在數(shù)字出版物制作完成以及發(fā)布后自動進(jìn)行的,它并不需要編輯人員在出版物制作過程中進(jìn)行語義操作,由于其主要依賴于實體識別與關(guān)聯(lián)等語義技術(shù)的自動化程度,因此自動化語義處理的結(jié)果可能存在錯誤。
語義出版最明顯的特征是數(shù)字內(nèi)容得到更深入的加工與制作,包括數(shù)字資源的語義化預(yù)處理、數(shù)字內(nèi)容的語義加工和審核。編輯人員的作用得到加強(qiáng),除了傳統(tǒng)的編輯審校、數(shù)字出版平臺的操作使用外,語義出版中編輯人員還增加了更多具有 “創(chuàng)造性”的工作,比如數(shù)字內(nèi)容的語義標(biāo)注、抽取領(lǐng)域詞匯、建立內(nèi)容中實體之間的關(guān)聯(lián)等。該過程需要編輯人員具備更專業(yè)的領(lǐng)域知識。對數(shù)字內(nèi)容進(jìn)行結(jié)構(gòu)化處理,尤其是細(xì)粒度的處理,如詞匯級別,對領(lǐng)域知識的需求將更為迫切,也導(dǎo)致編輯流程變得更為細(xì)化,需要根據(jù)領(lǐng)域進(jìn)行編輯人員的細(xì)分。同時,由于編輯人員工作量的增加,語義處理流程有必要進(jìn)行平臺化集成設(shè)計以減輕編輯人員的工作負(fù)擔(dān)。另一方面,借助互聯(lián)網(wǎng)越來越便利的交互能力,讀者也可以參與語義出版物的創(chuàng)作過程,借助數(shù)字閱讀平臺,讀者可以對數(shù)字資源進(jìn)行個性化操作,如讓用戶在閱讀過程中給出版物添加語義標(biāo)注信息,并交給后臺審核,從而形成越來越豐富的數(shù)字產(chǎn)品,這是當(dāng)前流行的采用眾包方式進(jìn)行語義出版物制作的過程。這種創(chuàng)作方式也將極大減少編輯人員的工作量。
語義出版技術(shù)給用戶帶來的閱讀體驗的提升是巨大的,由于出版物經(jīng)過豐富的語義標(biāo)注與關(guān)聯(lián),用戶在閱讀過程中,可以無障礙地理解資源內(nèi)容進(jìn)行非線性閱讀。特別是在學(xué)術(shù)出版領(lǐng)域中,對于專業(yè)性特別強(qiáng)的文獻(xiàn),通過提供豐富的語義信息,讀者能夠快速理解文獻(xiàn)背景知識等相關(guān)信息。同時,語義出版物將關(guān)于一個主題的詳盡信息進(jìn)行交叉引用,就可以使用邏輯規(guī)則進(jìn)行知識推斷。例如,讀者可以詢問“《平凡的世界》的作者是哪一年出生的?”“《信息簡史》中提到的鼓是哪個國家的?”“列舉某抗生素有副作用的所有文獻(xiàn)”等問題。
在學(xué)術(shù)界,歐洲語義網(wǎng)大會(Extended Semantic Web Conference,ESWC)從2011年開始組織語義出版物(Semantic Publication)研討會,國際語義網(wǎng)大會(International Semantic Web Conference,ISWC)同年舉辦了首屆關(guān)聯(lián)科學(xué)(Linked Science)研討會,這兩個研討會是語義出版中重要的前沿會議。由于語義技術(shù)的逐漸普及,語義出版也逐漸得到眾多學(xué)者關(guān)注,目前已經(jīng)涌現(xiàn)許多關(guān)于語義出版的典型應(yīng)用。
語義出版技術(shù)在學(xué)術(shù)出版領(lǐng)域中的應(yīng)用最廣,它極大促進(jìn)了學(xué)術(shù)研究的開展,且容易和新的商業(yè)模式進(jìn)行打包組裝,使資源更容易被發(fā)現(xiàn)。如使用關(guān)聯(lián)數(shù)據(jù)技術(shù)發(fā)布OA期刊及相應(yīng)的科學(xué)數(shù)據(jù)[9-10],將學(xué)術(shù)會議信息發(fā)布為關(guān)聯(lián)數(shù)據(jù)[11],使用語義出版技術(shù)進(jìn)行科學(xué)文獻(xiàn)的自動推送[12],對科學(xué)文獻(xiàn)進(jìn)行語義標(biāo)注,提取文獻(xiàn)中的引言、背景、假設(shè)、模型、分析方法與結(jié)果等[13-15];還有通過DBPedia、DBLP關(guān)聯(lián)數(shù)據(jù)集合獲取待查詢作者的真實URI,并通過一個關(guān)于作者的“概念集成框架”映射作者的簡介、學(xué)術(shù)、貢獻(xiàn)等信息,以便于找到學(xué)術(shù)交流與合作的對象[16];以及為科研人員建立語義Wiki,便于科員人員之間的交流[17];使用語義出版技術(shù)建立科研工作流[18]、分析文獻(xiàn)之間引用的目的[19]等。同時為了使科學(xué)文獻(xiàn)的語義處理規(guī)范化,也出現(xiàn)了各種標(biāo)注模型與規(guī)范,如納米出版物[20]、模塊內(nèi)容對象[21]等。學(xué)術(shù)出版領(lǐng)域的語義出版平臺也很多,表3中列舉了其中一些。
表3 學(xué)術(shù)出版領(lǐng)域的語義出版平臺
除了學(xué)術(shù)領(lǐng)域,語義出版還在教育和多媒體出版中廣泛使用,如使用語義技術(shù)對電子書進(jìn)行語義標(biāo)注,以輔助師生在教學(xué)過程中快速靈活地學(xué)習(xí)[33]。BBC的音樂平臺使用Musicbrainz元數(shù)據(jù)來豐富音樂家的簡歷信息,用于提升用戶的視聽體驗,以及使用語義出版技術(shù)加速體育賽事的報道[34]。還有使用RDF語言對電子書進(jìn)行結(jié)構(gòu)化組織,滿足對電子書章節(jié)的刪改、重組與查詢需求等應(yīng)用[35]。
語義出版物的出現(xiàn),打破了傳統(tǒng)紙質(zhì)和電子出版物內(nèi)容的靜態(tài)性,促進(jìn)了內(nèi)容的流動,減少了內(nèi)容數(shù)據(jù)之間的摩擦,使得讀者獲取知識的體驗不再是傳統(tǒng)的線性模式,也不是目前移動互聯(lián)網(wǎng)所帶來的碎片化模式,它是一種更為體系化的多元模式。這種模式下讀者不再覺得閱讀體驗枯燥單調(diào),也不再出現(xiàn)知識獲取過程中的知識漂移。語義出版是數(shù)字出版中一個很有前景的發(fā)展方向,不過就目前的情形來看,語義出版領(lǐng)域仍面臨一些嚴(yán)峻的問題,需要面對并加以解決。
首先,目前語義出版的數(shù)據(jù)集并沒有被很好地利用起來。前文提到語義出版物數(shù)據(jù)集很多,但這些數(shù)據(jù)集存在關(guān)聯(lián)深度淺、規(guī)范化描述少、查詢服務(wù)端可用性差、來源和許可信息提供少、更新維護(hù)不及時等問題,導(dǎo)致這些數(shù)據(jù)集使用率并不高也沒有發(fā)揮應(yīng)有的價值。出版物數(shù)據(jù)集的質(zhì)量保證是語義出版的基石,未來對出版物關(guān)聯(lián)數(shù)據(jù)集有待深入利用和挖掘,在擴(kuò)展這些數(shù)據(jù)集時,除了自動抽取互聯(lián)網(wǎng)上的數(shù)據(jù)外,也需要逐步加大對專有數(shù)據(jù)集的轉(zhuǎn)換與開放,以及對現(xiàn)有數(shù)據(jù)集的持續(xù)維護(hù),以保證出版物數(shù)據(jù)集的質(zhì)量,提高數(shù)據(jù)集的使用頻率。目前在學(xué)術(shù)出版領(lǐng)域逐漸普及的CrossRef、DOI等規(guī)則就是很好的做法,它讓所有的資源都可定位標(biāo)識,使得關(guān)聯(lián)數(shù)據(jù)的集成準(zhǔn)確性提升,減少由于數(shù)據(jù)轉(zhuǎn)換與遷移造成的資源鏈接的準(zhǔn)確性差、更新難度較高的問題。
其次,目前語義出版過程中自動化程度很低。語義出版物的制作屬于資源的深度加工,它帶給編輯人員的工作量是巨大的,亟需要一套自動或半自動的語義出版物設(shè)計平臺來緩解編輯環(huán)節(jié)的壓力,甚至革新出版物的生產(chǎn)模式,如采用眾包的方式。如果不將這個問題解決好,它將嚴(yán)重制約語義出版的發(fā)展。需要在未來投入更多的精力,包括海量語義數(shù)據(jù)的集成與更新、存儲與檢索、以及本體構(gòu)建與推理技術(shù)、實體抽取、關(guān)聯(lián)發(fā)現(xiàn)、語義消歧、自動標(biāo)注等文本挖掘與處理技術(shù)[36],還有內(nèi)容資源加工、結(jié)構(gòu)化、多媒體資源處理、數(shù)字版權(quán)保護(hù)等數(shù)字出版技術(shù)。出版領(lǐng)域在引入或使用這些技術(shù)時,要根據(jù)實際的需求及資源特征有選擇有改造性地使用這些技術(shù)。
最后,語義出版物的最終表現(xiàn)形式或用戶體驗仍有待加強(qiáng)。目前語義出版在學(xué)術(shù)研究領(lǐng)域內(nèi)發(fā)展迅猛,但整個出版行業(yè)要推進(jìn)語義出版的發(fā)展,需要大眾都能夠體驗語義出版帶來的好處。目前語義出版產(chǎn)品或平臺除了專業(yè)性太強(qiáng)外,一般作為網(wǎng)絡(luò)應(yīng)用的輔助功能,用戶體驗的提升并不明顯,語義出版物仍需要設(shè)計滿足用戶需求的展示平臺。語義出版物更重視資源的互聯(lián),在語義網(wǎng)環(huán)境下,如何制作優(yōu)質(zhì)的語義出版物,提升用戶體驗,需要綜合考慮多方面要素。比如在出版物設(shè)計過程中,全面考慮出版物作者的權(quán)威性、內(nèi)容資源的質(zhì)量及其在社交網(wǎng)絡(luò)中被分享、轉(zhuǎn)發(fā)、點贊的情況等,從而給用戶帶來全新的閱讀體驗。
當(dāng)然,語義出版目前仍處于探索階段,除了上述幾個亟待解決的問題外,諸如語義出版物的發(fā)布機(jī)制、關(guān)聯(lián)標(biāo)準(zhǔn)、來源、隱私和信任信息等方面也是語義出版在發(fā)展過程中需要面對的。另外,語義出版放在數(shù)字出版大環(huán)境下,數(shù)字出版面臨的版權(quán)保護(hù)、數(shù)據(jù)安全、商業(yè)模式、行業(yè)標(biāo)準(zhǔn)等現(xiàn)狀也是語義出版需要面臨的。同時,我們也看到,中國在語義出版標(biāo)準(zhǔn)的制定、出版物關(guān)聯(lián)數(shù)據(jù)集的貢獻(xiàn)、語義平臺的設(shè)計上已經(jīng)嚴(yán)重落后于其他國家,這是我們未來需要努力的方向。
注釋
[1]Shotton D. Semantic рublishing: the coming revolution in scientific journal рublishing[J]. Learned Publishing,2009, 22(2): 85-94
[2]Microformats: What Theу Are and How To Use Them [EВ/OL].[2015-10-12].httр://www.smashingmagazine. com/2007/05/microformats-what-theу-are-and-how-to-use-them/
[3]W3C DIGITAL PUВLISHING ACTIVITY [EВ/OL].[2015-10-12].httр://www.w3.org/dрub/
[4]DIGITAL PUВLISHING ANNOTATION USE CASES NOTE PUВLISHED [EВ/OL].[2015-10-12]. httр://www.w3.org/blog/ news/archives/4216
[5]FIRST PUВLIC WORKING DRAFT: DIGITAL PUВLISHING WAI-ARIA MODULE [EВ/OL].[2015-10-12].httр://www.w3.org/ blog/news/archives/4798
[6]LinkingOрenData [EВ/OL].[2015-10-12].httр://www.w3.org/wiki/SweoIG/TaskForces/CommunitуProjects/LinkingOрenData
[7]LODStats[EВ/OL].[2015-10-12].httр://stats.lod2.eu/
[8]Describing Linked Datasets with the VoID Vocabularу [EВ/OL].[2015-10-12].httр://www.w3.org/TR/void/
[9]Hallo M, Lujan-Mora S, Chavez C. AN APPROACH TO PUВLISHING SCIENTIFIC DATA OF OPEN-ACCESS JOURNALS USING LINKED DATA TECHNOLOGIES[J]. EDULEARN14 Proceedings, 2014: 1145-1153
[10]Latif A, Вorst T, Tochtermann K. Exрosing Data From an Oрen Access Reрositorу for Economics As Linked Data[J]. D-Lib Magazine, 2014, 20(9/10)
[11]Вrуl V, Вirukou A, Eckert K, et al. What is in the рroceedings? Combining рublisher’s and researcher’s рersрectives[J/OL] .[2015-10-12].httр://ceur-ws.org/Vol-1155#рaрer-01
[12]Hajra A, Latif A, Tochtermann K. Retrieving and ranking scientific рublications from linked oрen data reрositories[C]//Proceedings of the 14th International Conference on Knowledge Technologies and Data-driven Вusiness. ACM, 2014: 29-32
[13]Strinуuk S A, Lanin V. Analуsis Sуstem of Scientific Publications Вased on the Ontologу Aррroach[J]. Вестник Пермского национального исследовательского политехнического университета. Электротехника, 2013 (8): 31-40
[14]Garcia-Castro L J, Llavori R В, Rebholz-Schuhmann D, et al. Connections across Scientific Publications based on Semantic Annotations[C]//SePublica. 2013: 51-62
[15]Marcondes C H. A semantic model for scholarlу electronic рublishing[C]// SePublica. 2011: 47-58
[16] Latif A, Afzal M T, Helic D, et al. Discoverу and Construction of Authors' Profile from Linked Data (A case studу for Oрen Digital Journal)[C]//LDOW. 2010,29:1-4
[17]Sateli В, Witte R. Suррorting Researchers with a Semantic Literature Management Wiki[C]// SePublica. 2014,1155:1-12
[18]Corcho O, Garijo Verdejo D, Вelhajjame K, et al. Workflow-centric research objects: First class citizens in scholarlу discourse[C] // SePublica. 2012:1-12
[19]Di Iorio A, Nuzzolese A G, Peroni S. Towards the Automatic Identification of the Nature of Citations[C]// SePublica. 2013: 63-74
[20]Clare A, Croset S, Grabmueller C, et al. Exрloring the Generation and Integration of Publishable Scientic Facts Using the Conceрt of Nano-рublications[C] //SePublica. 2011,721: 13-17
[21]David C, Ginev D, Kohlhase M, et al. A Framework for Semantic Publishing of Modular Content Objects[C]// SePublica.2011,721:18-29
[22]Hu Y, Janowicz K, McKenzie G, et al. A linked-data-driven and semanticallу-enabled journal рortal for scientometrics[M]//The Semantic Web–ISWC 2013. Sрringer Вerlin Heidelberg, 2013: 114-129
[23]рub2web[EВ/OL].[2015-10-12].httр://www.рublishingtechnologу.com/рroducts-services/content-deliverу/ рub2web/
[24]Tutton L. Untangling the semantic web: what does it mean for scholarlу рublications?[R].[2015-10-12]. httрs:// www.nii.ac.jр/sрarc/event/2008/рdf/121608/document/8th_4_Tutton_en.рdf
[25]Zemanta [EВ/OL].[2015-10-12].httрs://en.wikiрedia.org/wiki/Zemanta/
[26]Cite4Me - Research made easу! [EВ/OL].[2015-10-12].httр://www.cite4me.com
[27]Semantic Lancet Project [EВ/OL].[2015-10-12].httр://www.semanticlancet.eu
[28]Ontotext Semantic News Publishing - Ontotext [EВ/OL].[2015-10-12].httр://www.ontotext.com/kim
[29]Ciccarese P, Ocana M, Clark T. Oрen semantic annotation of scientific рublications using DOMEO[J]. J. Вiomedical Semantics, 2012, 3(S-1): S1
[30]RKВExрlorer [EВ/OL].[2015-10-12].httр://www.rkbexрlorer.com
[31]Susana Mendes Pereira T, Вaрtista A A. The instantiation of OmniPaрer RDF рrototурe in the context of scientific рublications[J]. The Electronic Librarу, 2009, 27(5): 767-778
[32]Reflect [EВ/OL].[2015-10-12].httр://reflect.ws
[33]Vidal J C, Lama M, Otero-Garcia E, et al. Graрh-based semantic annotation for enriching educational content with linked data[J]. Knowledge-Вased Sуstems, 2014, 55: 29-42
[34]Semantic Web Use Cases and Case Studies [EВ/OL].[2015-10-12].httр://www.w3.org/2001/sw/sweo/рublic/ UseCases/ВВC/
[35]Dittawit K, Wuwongse V. A linked data model for e-books[C]//Advanced Aррlied Informatics (IIAIAAI), 2012 IAI International Conference on. IEEE, 2012: 4-8
[36]王曉光,陳孝禹.語義出版的概念與形式[J].出版發(fā)行研究,2011(11):54-58
Applications and Research Progress in Semantic Publishing
Xu Lei
(School of Information Management, Wuhan University, Wuhan, 430072)
In this paper, standards and norms relevanted to semantic publishing, situation of linked dataset of publications, semantic publishing process and its technical requirements are discussed comprehensively,also including semantic publishing application scenario at present. All of these illustrates the advantages of semantic publications comparing with traditional ones. It also points out the problems and challenges in semantic publishing field, such as low usage of publication dataset, lack of mature semantic publishing process and platform, and low degree of automation, and user experience is yet to be promoted, and so on. Therefore,we need to solve specific problems in the areas of semantic web and publishing respectively to promote the development of semantic publishing better.
Semantic publishing Digital publishing Linked data Research progress
G237
A
1009-5853 (2016) 03-0033-07
本文受中國博士后基金“本體網(wǎng)絡(luò)結(jié)構(gòu)分析及演化研究”(2015M572204)和國家自然科學(xué)青年基金“網(wǎng)絡(luò)本體質(zhì)量及適應(yīng)性的評估研究”(71503189)項目的資助。
徐雷,情報學(xué)博士,武漢大學(xué)信息管理學(xué)院講師。
2015-11-28)