李楠 孫濟(jì)慶 馬卓
[摘 要] 指出語義出版以其對(duì)文獻(xiàn)知識(shí)內(nèi)容的結(jié)構(gòu)化發(fā)布與呈現(xiàn)成為備受關(guān)注的新興出版模式,通過梳理學(xué)術(shù)期刊的語義出版實(shí)踐,總結(jié)語義出版應(yīng)用的發(fā)展現(xiàn)狀,并在分析語義出版主要技術(shù)路線的基礎(chǔ)上建立語義出版的技術(shù)框架;重點(diǎn)關(guān)注學(xué)術(shù)文獻(xiàn)的語義建模問題,歸納代表性的應(yīng)用模型,并對(duì)文獻(xiàn)語義模型的未來發(fā)展趨勢進(jìn)行展望。
[關(guān)鍵詞] 語義出版 語義增強(qiáng) 技術(shù)框架 文獻(xiàn)語義模型
[中圖分類號(hào)] G237 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1009-5853 (2015) 06-0085-08
Study on the Techniques Used in Academic Literature-Oriented Semantic Publishing
Li Nan Sun Jiqing Ma Zhuo
(Institute of Science and Technology information of East China University of Science and Technology,Shanghai, 200237)(Institute of Scientific and Technical Information of Ji-Lin Provence,Changchun,130033)
[Abstract] Semantic publishing becomes the newly an emerging mode which is renowned for its structured knowledge distribution and presentation for academic literature. The paper summarizes the state of the art development of semantic publishing through analyzing the cases of academic periodicals press,and builds a technical frame based on the main application implementation routes.Moreover,the semantic modeling issue on academic literature is focused on the disscussion, which mainly sums up all the typical application models so far as well as proposes a prospect towards the semantic modeling development tendency.
[Key words] Semantic publishing Semantic enrichment Technical frame Literature semantic model
1 引 言
隨著信息技術(shù)和大數(shù)據(jù)環(huán)境的發(fā)展,數(shù)字出版成為融合并超越傳統(tǒng)出版的重要出版模式,尤其在科學(xué)、技術(shù)和醫(yī)學(xué)領(lǐng)域(Science,Technology and Medicine,STM),數(shù)字出版進(jìn)程正逐步加速,數(shù)字出版物市場占比不斷增大,無論從出版內(nèi)容、載體形態(tài)到呈現(xiàn)方式都日益豐富。然而,在數(shù)字出版蓬勃發(fā)展的同時(shí),海量學(xué)術(shù)文獻(xiàn)資源在滿足科研人員信息需求的同時(shí),也帶來了嚴(yán)重的信息過載壓力。在這種情況下,用戶只能借助文獻(xiàn)檢索技巧、戰(zhàn)略性閱讀等方式改善科學(xué)探索與知識(shí)獲取的效率。而作為知識(shí)傳播的主要媒介機(jī)構(gòu),信息服務(wù)商和出版商則致力于尋求優(yōu)化科學(xué)知識(shí)發(fā)布和共享的新途徑。其中,語義出版憑借其對(duì)文獻(xiàn)知識(shí)內(nèi)容的結(jié)構(gòu)化發(fā)布與呈現(xiàn)成為備受關(guān)注的新興出版形式。
早在21世紀(jì)初,語義網(wǎng)概念的興起就使得語義技術(shù)成為焦點(diǎn),其核心在于為網(wǎng)絡(luò)資源嵌入機(jī)器可讀的語義標(biāo)簽以實(shí)現(xiàn)網(wǎng)絡(luò)信息的智能化處理。隨著知識(shí)本體、自然語言處理等相關(guān)技術(shù)的發(fā)展,在語義檢索、個(gè)性化推薦等智能化的信息應(yīng)用服務(wù)中語義技術(shù)發(fā)揮著越來越重要的作用。受其影響,出版機(jī)構(gòu)也開始嘗試應(yīng)用語義技術(shù)改進(jìn)出版流程。2009年,肖頓·戴維(Shotton D.)首次系統(tǒng)地提出語義出版概念,并將其界定為一種語義增強(qiáng)的期刊出版形式[1],通過語義標(biāo)記豐富出版物的表現(xiàn)形式和知識(shí)內(nèi)容,提高出版物信息的可操作性、交互性和關(guān)聯(lián)性,最終實(shí)現(xiàn)智能化出版。語義出版一方面通過增強(qiáng)的出版功能改進(jìn)傳統(tǒng)的知識(shí)發(fā)布形式,為科研用戶提供更加高效、精確的閱讀體驗(yàn),有助于提升科研人員的知識(shí)發(fā)現(xiàn)與創(chuàng)新效率,因此成為學(xué)術(shù)出版青睞的新型模式。另一方面,它也為圖書館、信息服務(wù)商等機(jī)構(gòu)的服務(wù)流程帶來沖擊。傳統(tǒng)信息資源開發(fā)與管理模式勢必需要適應(yīng)基于語義出版的信息環(huán)境,并在知識(shí)組織方法與策略上做出相應(yīng)調(diào)整。因此,語義出版的相關(guān)研究已成為近年來國際學(xué)術(shù)界在學(xué)術(shù)出版與信息資源管理領(lǐng)域普遍關(guān)心的熱點(diǎn)問題。
目前國內(nèi)尚未形成對(duì)語義出版技術(shù)的系統(tǒng)性研究,本文擬通過梳理和分析國外語義出版的應(yīng)用實(shí)踐和研究文獻(xiàn),明確語義出版的基本技術(shù)路線,建立語義出版技術(shù)體系的基本框架,以期為我國語義出版的研究和實(shí)踐提供借鑒。
2 學(xué)術(shù)期刊的語義出版實(shí)踐
語義出版的價(jià)值在于通過出版物內(nèi)容的語義揭示以及外部資源的知識(shí)關(guān)聯(lián)實(shí)現(xiàn)學(xué)術(shù)出版功能的提升。這種通過結(jié)構(gòu)化描述實(shí)現(xiàn)計(jì)算機(jī)理解的方式,使得出版物內(nèi)容更易于直觀呈現(xiàn),能夠顯著提高讀者的閱讀效率。近年來,在英國皇家化學(xué)學(xué)會(huì)(RSC)、愛思唯爾(Elsevier)、自然出版集團(tuán)(Nature)、美國科學(xué)公共圖書館(PLoS)等眾多知名學(xué)術(shù)組織及出版機(jī)構(gòu)的參與和共同推進(jìn)下,語義出版已經(jīng)初步實(shí)現(xiàn)了從理念構(gòu)想向?qū)嵺`應(yīng)用的過渡,研究成果不斷涌現(xiàn)。愛斯唯爾開展的“未來的論文”計(jì)劃(Article of Future)從呈現(xiàn)(Presentation)、內(nèi)容(Content)、上下文(Context)三方面創(chuàng)新傳統(tǒng)的學(xué)術(shù)文獻(xiàn)服務(wù)。目前旗下的ScienceDirect平臺(tái)已經(jīng)在7個(gè)學(xué)科領(lǐng)域?qū)崿F(xiàn)了語義出版原型[2];皇家化學(xué)學(xué)會(huì)RSC最早推出Rich HTML形式的語義出版服務(wù),為平臺(tái)的部分期刊全文進(jìn)行語義標(biāo)注,并通過與多種類型化學(xué)及相關(guān)領(lǐng)域本體資源的關(guān)聯(lián)真正實(shí)現(xiàn)了語義層面的論文知識(shí)內(nèi)容擴(kuò)充[3];PLoS系列期刊則通過與多種外部信息源及數(shù)據(jù)集建立鏈接的方式豐富文獻(xiàn)的有機(jī)內(nèi)容,并在此基礎(chǔ)上提供了論文級(jí)計(jì)量分析服務(wù)[4]。
2012年,肖頓歸納了語義出版實(shí)踐的基本形式與功能,認(rèn)為學(xué)術(shù)期刊的語義增強(qiáng)主要體現(xiàn)為以下幾個(gè)方面[5]:① 增強(qiáng)對(duì)論文有機(jī)內(nèi)容的描述,如圖片、表格、參考文獻(xiàn)列表等包含有價(jià)值內(nèi)容的多模態(tài)信息的描述;② 增強(qiáng)對(duì)論文內(nèi)容描述的語義標(biāo)注,如依據(jù)領(lǐng)域術(shù)語、概念等本體資源識(shí)別的命名實(shí)體;③ 提供與相關(guān)文獻(xiàn)等其他信息源的關(guān)聯(lián),如該文獻(xiàn)作者主頁、相關(guān)學(xué)術(shù)機(jī)構(gòu)網(wǎng)站等;④ 提供所有參考文獻(xiàn)的鏈接;⑤ 以XLS、CSV等可操作方式提供對(duì)文獻(xiàn)相關(guān)實(shí)驗(yàn)數(shù)據(jù)的訪問;⑥ 提供對(duì)支持該文獻(xiàn)研究的全數(shù)據(jù)集的訪問;⑦ 實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)上語義相關(guān)文獻(xiàn)的信息集成;⑧ 采用通用的數(shù)據(jù)描述規(guī)范發(fā)布文獻(xiàn)信息,實(shí)現(xiàn)開放訪問,包括文獻(xiàn)題錄信息、內(nèi)容摘要、參考文獻(xiàn)題錄信息等。
按照處理對(duì)象的不同,肖頓的語義增強(qiáng)功能可以分為兩種類型:一是對(duì)出版物外部特征的揭示,例如③④⑧提供了對(duì)基本題錄信息、參考文獻(xiàn)信息等的規(guī)范化描述,并依據(jù)這些外部特征建立起與外部資源的鏈接,豐富出版物的信息內(nèi)容;二是對(duì)出版物內(nèi)容特征的描述,指對(duì)出版物內(nèi)容和邏輯結(jié)構(gòu)的揭示,例如①實(shí)現(xiàn)論文章節(jié)、圖表等的結(jié)構(gòu)化,②對(duì)術(shù)語、概念等實(shí)體進(jìn)行語義標(biāo)注,⑦建立與語義相關(guān)文獻(xiàn)的關(guān)聯(lián)。第二種類型的功能應(yīng)用真正體現(xiàn)了從語義層面對(duì)出版形式的改變,即語義特征的形式化出版。
針對(duì)部分已開展語義出版嘗試的期刊或機(jī)構(gòu),調(diào)查上述8種語義增強(qiáng)功能的實(shí)現(xiàn)情況,部分結(jié)果如表1所示。
調(diào)查結(jié)果顯示:首先,語義出版的學(xué)術(shù)期刊基本以Rich HTML形式發(fā)布,這里借用了網(wǎng)絡(luò)開發(fā)術(shù)語“超文本鏈接標(biāo)識(shí)語言”的概念,用于表示文獻(xiàn)內(nèi)容的發(fā)布已不再是簡單的文本形式,而是通過超鏈接方式實(shí)現(xiàn)了語義知識(shí)的擴(kuò)展,增強(qiáng)了文獻(xiàn)的知識(shí)價(jià)值;其次,語義出版應(yīng)用多分布在生物、醫(yī)藥、化學(xué)等語義技術(shù)應(yīng)用廣泛且實(shí)踐成果豐富的領(lǐng)域,究其原因,語義出版的實(shí)現(xiàn)離不開語義技術(shù)以及領(lǐng)域本體等基礎(chǔ)知識(shí)資源的支持,而上述領(lǐng)域正是學(xué)術(shù)界語義技術(shù)應(yīng)用研究的高地,因而語義出版起步較早;值得注意的是,調(diào)查結(jié)果中幾乎所有的期刊都實(shí)現(xiàn)了①④⑧三項(xiàng)功能,而其他功能則出現(xiàn)明顯的發(fā)展不平衡現(xiàn)象,也就是說,針對(duì)文獻(xiàn)的基本題錄信息、章節(jié)圖表等內(nèi)容結(jié)構(gòu)與模塊信息的規(guī)范化、結(jié)構(gòu)化描述已成為業(yè)界認(rèn)可的語義出版基本形式,而這些功能僅涉及了部分語義特征的描述,諸如命名實(shí)體標(biāo)注、相關(guān)資源的語義集成等深層次的語義化功能則有待于進(jìn)一步加強(qiáng)。
因此,如果將語義出版應(yīng)用的發(fā)展劃分為三個(gè)層次(如圖1所示):關(guān)注外部特征的初級(jí)階段、關(guān)注部分顯性或半隱性語義特征描述的過渡階段(淺層語義特征描述)以及全面實(shí)現(xiàn)語義特征標(biāo)引的高級(jí)階段(深度語義特征標(biāo)引),目前,相關(guān)實(shí)踐尚處于語義出版應(yīng)用的過渡階段。當(dāng)然,在語義增強(qiáng)應(yīng)用需求的推動(dòng)下,關(guān)于語義出版的應(yīng)用技術(shù)研究也不斷深入并取得一定的進(jìn)展,相信隨著知識(shí)本體和自然語言處理等語義技術(shù)的發(fā)展,更多隱性的文獻(xiàn)特征將被挖掘出來并實(shí)現(xiàn)規(guī)范化描述,基礎(chǔ)數(shù)據(jù)、網(wǎng)絡(luò)資源等更多類型的信息源也將實(shí)現(xiàn)語義層面的有效集成。深度語義標(biāo)引的高級(jí)階段是語義出版應(yīng)用發(fā)展的必然趨勢。
圖1 語義出版應(yīng)用的發(fā)展階段
3 語義出版的技術(shù)體系
語義出版模式對(duì)語義網(wǎng)技術(shù)提出了更高的應(yīng)用需求,相關(guān)研究也在不斷深入。目前,以本體和關(guān)聯(lián)數(shù)據(jù)技術(shù)為代表形成了兩條主要的技術(shù)路線。大量研究圍繞這兩條主線展開,為語義出版技術(shù)的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。而圍繞語義出版的功能目標(biāo),在傳統(tǒng)出版流程的基礎(chǔ)上實(shí)現(xiàn)對(duì)出版物語義特征的深層揭示,語義出版的技術(shù)體系則融合了對(duì)文獻(xiàn)語義特征的知識(shí)挖掘以及關(guān)聯(lián),形成了以“特征描述、特征抽取和知識(shí)關(guān)聯(lián)”為主要內(nèi)容的語義出版技術(shù)框架。
3.1 主要技術(shù)路線
總體來看,有關(guān)語義出版的研究文獻(xiàn)總量較為豐富,其中以語義出版應(yīng)用的實(shí)現(xiàn)技術(shù)研究為主要方向,形成了兩條基本的技術(shù)路線。
(1)借助本體技術(shù)實(shí)現(xiàn)文獻(xiàn)對(duì)象及其知識(shí)內(nèi)容的語義描述。本體是一種形式化的,對(duì)于共享概念體系明確而又詳細(xì)的說明。因此,在計(jì)算機(jī)與信息科學(xué)領(lǐng)域,本體作為一種重要的用于描述特定領(lǐng)域中的對(duì)象,或者描述概念及其屬性、關(guān)系的工具,成為語義網(wǎng)應(yīng)用的基礎(chǔ)。根據(jù)應(yīng)用目標(biāo)不同,可以把本體在語義出版中的應(yīng)用分為文獻(xiàn)本體和領(lǐng)域本體兩種類型。①文獻(xiàn)本體用于描述文獻(xiàn)題錄、內(nèi)容、結(jié)構(gòu)、論述等出版對(duì)象及其屬性,即出版對(duì)象的元數(shù)據(jù),包括用于描述書目及引用信息的本體(FRBR-aligned Bibliographic Ontology,F(xiàn)aBio;Citation Typing OntologymCito)[6]、應(yīng)用于出版內(nèi)容的納米語義模型Nano-Publication等。目前文獻(xiàn)本體的應(yīng)用能夠更為規(guī)范、清晰地描述文獻(xiàn)的內(nèi)容及外部特征,已被廣泛應(yīng)用于不同的語義出版實(shí)踐。例如,2011年歐洲創(chuàng)新藥物計(jì)劃(IMI)資助了為期3年的開放藥物學(xué)概念三元組倉儲(chǔ)(OpenPharmacological Concept Triple Store,Open PHACTS)項(xiàng)目,基于納米語義出版模型嘗試建立試驗(yàn)數(shù)據(jù)和科學(xué)結(jié)論的規(guī)范語義描述本體,并在大規(guī)模生物醫(yī)藥文獻(xiàn)集上實(shí)現(xiàn)了開放的藥物學(xué)知識(shí)空間[7]。②領(lǐng)域本體是對(duì)領(lǐng)域知識(shí)中的概念及其屬性進(jìn)行描述,即領(lǐng)域知識(shí)的元數(shù)據(jù)或?qū)I(yè)術(shù)語集,例如生物學(xué)基因本體(Gene Ontology,GO)、一體化醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,UMLS)等,主要應(yīng)用于人工智能與機(jī)器理解,因此在語義出版領(lǐng)域的應(yīng)用也相當(dāng)普遍。例如,奎拉爾(Queral-Rosinach N)等采用語義科學(xué)集成本體(Semantic Science Integrated Ontology,SIO)、美國國家癌癥中心術(shù)語資源系統(tǒng)(NCI Thesaurus)等進(jìn)行基因疾病文獻(xiàn)的語義標(biāo)注,并發(fā)布了94萬個(gè)描述規(guī)范的人類DNA科學(xué)陳述[8-9]。RSC數(shù)據(jù)庫為旗下眾多化學(xué)期刊論文進(jìn)行全文語義標(biāo)注,建立了與生物化學(xué)實(shí)體本體(Chemical Entities of Biological Interest,ChEBI)、化學(xué)方法本體(Chemical Methods Ontology,CMO)等的術(shù)語鏈接[10]。可以說,本體技術(shù)在語義出版過程中起著非常重要的作用,因而目前在本體資源較為豐富的化學(xué)、生物、醫(yī)學(xué)等領(lǐng)域,語義出版發(fā)展更為迅速,而在其他領(lǐng)域則需要著力推進(jìn)知識(shí)資源建設(shè)的基礎(chǔ)工作。另外,基于本體的自動(dòng)語義標(biāo)注問題也是當(dāng)前研究關(guān)注的重點(diǎn),語義網(wǎng)技術(shù)強(qiáng)調(diào)對(duì)于語義的機(jī)器理解,但在已有較為成熟的應(yīng)用中仍是以人工處理方式為主,全自動(dòng)的處理方法與實(shí)際應(yīng)用仍然存在差距,也是未來研究的發(fā)展方向。
(2)采用關(guān)聯(lián)數(shù)據(jù)為出版物連接更多外部開放的數(shù)據(jù)資源提供技術(shù)框架,使出版物知識(shí)內(nèi)容的豐富成為可能。傳統(tǒng)出版僅體現(xiàn)了文獻(xiàn)本身的基本內(nèi)容,對(duì)于語義相關(guān)的文獻(xiàn)、數(shù)據(jù)等資源并未涉及,而語義出版技術(shù)框架中明確了知識(shí)關(guān)聯(lián)的應(yīng)用需求,關(guān)聯(lián)數(shù)據(jù)則為這種知識(shí)關(guān)聯(lián)的建立提供了一種統(tǒng)一的資源描述框架。語義出版內(nèi)容的組織、關(guān)聯(lián)和共享都可以通過關(guān)聯(lián)數(shù)據(jù)得以實(shí)現(xiàn),后者因此成為語義出版應(yīng)用的熱點(diǎn)。米特拉切(Dumitrache A.)通過關(guān)聯(lián)數(shù)據(jù)建立DBpedia、機(jī)構(gòu)數(shù)據(jù)以及本體資源與出版物管理系統(tǒng)的鏈接[11];科羅塞特(Croset A.)提出利用維基百科、DBpedia、科學(xué)博客等資源進(jìn)行集成語義分析[12];奇切斯特(Chichester C.)則為蛋白質(zhì)知識(shí)平臺(tái)neXtPro的文獻(xiàn)數(shù)據(jù)添加語義注釋,描述關(guān)于特定蛋白質(zhì)異形體轉(zhuǎn)錄后修飾的結(jié)論及其屬性,并表示成RDF/XML格式,其發(fā)布的neXtPro關(guān)聯(lián)數(shù)據(jù)集包含了圖結(jié)構(gòu)的語義出版單元[13]。事實(shí)上,對(duì)于語義出版而言,盡管外部數(shù)據(jù)資源的訪問、獲取等關(guān)聯(lián)數(shù)據(jù)消費(fèi)行為對(duì)出版物知識(shí)內(nèi)容的豐裕程度有重要影響,但出版物知識(shí)內(nèi)容的組織和發(fā)布才是語義出版質(zhì)量的根基,知識(shí)單元的標(biāo)引粒度、準(zhǔn)確性、完備程度、有效性等則與關(guān)聯(lián)數(shù)據(jù)的建設(shè)有著密不可分的聯(lián)系。
3.2 語義出版技術(shù)框架
上述技術(shù)路線僅涉及面向語義出版應(yīng)用的兩個(gè)關(guān)鍵支撐技術(shù),反映了近年來相關(guān)研究密切關(guān)注的熱點(diǎn)主題。事實(shí)上,根據(jù)對(duì)語義出版實(shí)踐的梳理和總結(jié),語義出版的技術(shù)體系融匯了知識(shí)組織范疇下對(duì)文獻(xiàn)內(nèi)、外部特征的挖掘和知識(shí)關(guān)聯(lián)的構(gòu)建等更為廣泛的技術(shù)內(nèi)容,其基本技術(shù)框架如圖2所示,包含特征描述、特征抽取和知識(shí)關(guān)聯(lián)三個(gè)部分。
為了充分體現(xiàn)學(xué)術(shù)文獻(xiàn)的知識(shí)價(jià)值,學(xué)術(shù)出版必須盡可能完備地揭示文獻(xiàn)的主題內(nèi)容。因此,科學(xué)、全面地定義學(xué)術(shù)文獻(xiàn)的基本特征是語義出版中的基礎(chǔ)問題。而學(xué)術(shù)文獻(xiàn)的基本特征包括外部特征和語義特征兩部分:外部特征即文獻(xiàn)基本題錄項(xiàng)的描述,包括篇名、作者、機(jī)構(gòu)、作者關(guān)鍵詞、來源出版物、參考文獻(xiàn)等信息;語義特征則需要通過表達(dá)文獻(xiàn)知識(shí)內(nèi)涵、組成文獻(xiàn)主體的語義元素來刻畫。這些語義元素的有序組合形成了符合科學(xué)規(guī)律并具有邏輯關(guān)聯(lián)的知識(shí)單元,進(jìn)而構(gòu)成文獻(xiàn)內(nèi)容的有機(jī)整體。按照表現(xiàn)形式,可以將語義元素分為以觀點(diǎn)、假設(shè)、事實(shí)、結(jié)論等科學(xué)陳述為基本形式的陳述型語義元素和以圖片、表格、實(shí)驗(yàn)結(jié)果、基礎(chǔ)數(shù)據(jù)等為代表的多模態(tài)數(shù)據(jù)型語義元素兩種。上述文獻(xiàn)外部特征和語義特征共同構(gòu)成學(xué)術(shù)文獻(xiàn)出版模型,而在清楚定義文獻(xiàn)出版模型的基礎(chǔ)上,則可以利用本體、關(guān)聯(lián)數(shù)據(jù)等元數(shù)據(jù)解決方案實(shí)現(xiàn)文獻(xiàn)特征的規(guī)范化描述,為語義出版提供標(biāo)準(zhǔn)化的依據(jù)。由此形成的學(xué)術(shù)文獻(xiàn)出版模型及其資源描述方案成為語義出版技術(shù)體系的基礎(chǔ)與核心。
在明確出版目標(biāo)學(xué)術(shù)文獻(xiàn)出版模型之后,語義出版的內(nèi)容基本確定。繼而需要思考的問題則是如何獲取出版內(nèi)容,即文獻(xiàn)特征的抽取問題,這也是語義出版的技術(shù)關(guān)鍵。根據(jù)文獻(xiàn)出版模型的定義,外部特征的抽取可通過對(duì)文獻(xiàn)題錄項(xiàng)信息的抽取獲得,一般為結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),處理難度較低。但是,近年來對(duì)于文獻(xiàn)題錄信息的抽取研究在新的應(yīng)用需求下有了新的發(fā)展方向,例如:對(duì)于參考文獻(xiàn)的標(biāo)引從基本的參考文獻(xiàn)題錄信息的獲取,進(jìn)而發(fā)展到對(duì)參考文獻(xiàn)的文內(nèi)位置等上下文信息的自動(dòng)獲取[14];語義特征的抽取即實(shí)現(xiàn)文獻(xiàn)內(nèi)部語義元素的識(shí)別,針對(duì)不同類型的語義元素采用的處理技術(shù)也各不相同:對(duì)于陳述型語義元素,在文獻(xiàn)中多以自然語言論述的方式表達(dá),因此在抽取時(shí)必須首先對(duì)文獻(xiàn)的內(nèi)容文本進(jìn)行處理,包括語句切分、句法分析、語義分析等,這往往需要借助文本挖掘、自然語言理解等技術(shù)實(shí)現(xiàn)對(duì)語句特征的抽取,然后進(jìn)行語義元素類別標(biāo)注。目前相關(guān)研究集中在本體領(lǐng)域,根據(jù)對(duì)科學(xué)論述過程中邏輯組件的特征,人工識(shí)別假設(shè)、觀點(diǎn)、事實(shí)、結(jié)論等語義元素,尚未完全解決語義元素的自動(dòng)標(biāo)引問題;對(duì)于數(shù)據(jù)型語義元素,涉及圖片、表格、公式等多模態(tài)數(shù)據(jù)以及文獻(xiàn)相關(guān)的實(shí)驗(yàn)數(shù)據(jù)集,其處理過程不僅需要考慮文獻(xiàn)內(nèi)容中各類數(shù)據(jù)的識(shí)別和抽取,還要考慮對(duì)圖片主題、表格信息、公式內(nèi)容等語義特征的描述,以及這些數(shù)據(jù)的語義特征與文本內(nèi)容的語義映射關(guān)系,因此多模態(tài)信息抽取技術(shù)是近年來相關(guān)領(lǐng)域關(guān)注的前沿?zé)狳c(diǎn)問題[15]。
關(guān)聯(lián)是知識(shí)組織的核心。語義出版將原本處于傳統(tǒng)出版之后的知識(shí)組織過程前移并融入出版流程,知識(shí)關(guān)聯(lián)因此也成為語義出版的重要內(nèi)容,進(jìn)一步強(qiáng)化了出版過程中的知識(shí)多元化關(guān)聯(lián)和集成效應(yīng)。特征的描述和抽取過程實(shí)現(xiàn)了知識(shí)內(nèi)容的結(jié)構(gòu)化,為知識(shí)關(guān)聯(lián)從外部特征顯性相關(guān)向內(nèi)部語義特征相關(guān)的轉(zhuǎn)化提供了條件。因此,在語義出版環(huán)境下知識(shí)關(guān)聯(lián)突破作者、機(jī)構(gòu)、關(guān)鍵詞、引證文獻(xiàn)等傳統(tǒng)題錄項(xiàng)之間的顯性關(guān)系構(gòu)建,綜合了題錄、內(nèi)容、數(shù)據(jù)等多種類型外部特征和語義元素之間的語義連通路徑,實(shí)現(xiàn)動(dòng)態(tài)、多維的知識(shí)關(guān)聯(lián)。知識(shí)關(guān)聯(lián)可以分為顯性和隱性兩種,其中對(duì)主題相關(guān)度、觀點(diǎn)相似性、事實(shí)相符度、數(shù)據(jù)一致性等不同層面知識(shí)范式的判定與度量成為語義出版中更為重要的關(guān)聯(lián)形式,而通過語義消歧、關(guān)系約簡及重構(gòu)等方式對(duì)顯性和隱性關(guān)聯(lián)進(jìn)行融合則成為文獻(xiàn)層面語義關(guān)聯(lián)的未來發(fā)展方向。
4 學(xué)術(shù)文獻(xiàn)的語義模型研究
學(xué)術(shù)資源的價(jià)值體現(xiàn)于文獻(xiàn)中蘊(yùn)含的豐富的知識(shí)單元。語義出版實(shí)質(zhì)上是通過語義描述及標(biāo)引實(shí)現(xiàn)文獻(xiàn)知識(shí)的結(jié)構(gòu)化、豐富化,以促進(jìn)資源的知識(shí)價(jià)值最大化。因此,文獻(xiàn)知識(shí)內(nèi)容的語義構(gòu)建是語義出版技術(shù)體系的核心問題,也是學(xué)界長期關(guān)注的基礎(chǔ)理論問題。2014年,魯伊斯-伊涅斯塔(Ruiz-Iniesta A.)曾撰文對(duì)當(dāng)前可以用于描述學(xué)術(shù)文獻(xiàn)的本體模型進(jìn)行了系統(tǒng)梳理,將文獻(xiàn)本體劃分為文檔本體、題錄和參考文獻(xiàn)本體以及科學(xué)論述本體三類[16]。本文結(jié)合目前領(lǐng)域研究現(xiàn)狀,將基于本體的文獻(xiàn)語義模型劃分為兩種:一是面向文獻(xiàn)結(jié)構(gòu)的語義模型,包含了對(duì)章節(jié)等文獻(xiàn)結(jié)構(gòu)部件、文獻(xiàn)題錄信息以及參考文獻(xiàn)信息的描述;二是面向文獻(xiàn)內(nèi)容的語義模型,專門用于對(duì)學(xué)術(shù)文獻(xiàn)中的研究目標(biāo)、假設(shè)、論據(jù)、方法、試驗(yàn)及結(jié)論等知識(shí)內(nèi)容進(jìn)行描述,即描述科學(xué)論述信息的本體(Scientific discourse Ontology)。
4.1 面向文獻(xiàn)結(jié)構(gòu)的語義模型
在圖書情報(bào)領(lǐng)域,文獻(xiàn)元數(shù)據(jù)建設(shè)一直是研究的重點(diǎn)內(nèi)容。因此,以傳統(tǒng)的元數(shù)據(jù)模型為代表,相關(guān)研究開始較早并且已形成較為成熟的行業(yè)規(guī)范。近年來在語義網(wǎng)技術(shù)的推動(dòng)下,基于本體的元數(shù)據(jù)方案不斷出現(xiàn),可應(yīng)用的本體實(shí)例相對(duì)較多,其中面向語義出版應(yīng)用最具代表性的是語義出版及引用本體(Semantic Publishing and Referencing Ontologies,SPAR),該模型為文獻(xiàn)標(biāo)引提供了基本的語義框架。
如圖3所示,SPAR是由核心本體、相關(guān)本體、神經(jīng)醫(yī)學(xué)語義應(yīng)用本體(Semantic Web Applications in Neuromedicine,SWAN)本體[18]、本體設(shè)計(jì)模式、外部本體5種類型的本體構(gòu)成的本體集合。其中核心本體包括8個(gè)用于描述文獻(xiàn)題錄和參考文獻(xiàn)不同屬性特征的本體,如:面向FRBR的書目本體FaBiO;描述章、節(jié)、圖、表等文檔結(jié)構(gòu)部件的本體(Document Components Ontology,DoCO);包含不同引用關(guān)系以及類型定義的引用本體CiTO;反映參考文獻(xiàn)題錄及文內(nèi)引用特征的本體(Bibliographic Reference Ontology,BiRO;Citation Counting and Context Characterisation Ontology,C4O);以及與出版功能相關(guān)的出版角色本體(Publishing Roles Ontology,PRO)、出版狀態(tài)本體(Publishing Status Ontology,PSO)、出版流程本體(Publishing Workflow Ontology,PWO)。SWAN源自生物醫(yī)學(xué)領(lǐng)域的科學(xué)論述過程本體,可用于描述科研過程中的數(shù)據(jù)組織、提出假設(shè)、解釋推理及得出結(jié)論的整個(gè)知識(shí)生態(tài)。SPAR主要引用了其科學(xué)論述元素本體(Discourse Elements)部分。另外,SPAR還引入了書目模型(Functional Requirements for Bibliographic Records,F(xiàn)RBR)和作者及其關(guān)系描述本體(Friend-of-a-Friend,F(xiàn)OAF))等作為核心本體的補(bǔ)充。
如上所述,從基本書目題錄到參考文獻(xiàn),再到參考文獻(xiàn)的題錄、引用位置、頻次等相關(guān)屬性,SPAR基本覆蓋了科學(xué)文獻(xiàn)的全部結(jié)構(gòu)性特征,同時(shí)SPAR本體集還引入了包括SWAN本體等在內(nèi)的科學(xué)論述過程本體,由此可以反映文獻(xiàn)語義建模從外部結(jié)構(gòu)逐步向內(nèi)容語義發(fā)展的趨勢。目前各領(lǐng)域正在致力于相關(guān)語義模型的完善,并且不斷加快SPAR本體的實(shí)例化進(jìn)程,以促進(jìn)多學(xué)科知識(shí)資源的共同繁榮。
4.2 面向文獻(xiàn)內(nèi)容的語義模型
本文整理了幾種代表性的面向文獻(xiàn)內(nèi)容的科學(xué)論述本體構(gòu)建實(shí)例,按照發(fā)展歷程科學(xué)論述本體的研究進(jìn)展如圖4所示,相關(guān)研究正逐漸從科學(xué)論述的知識(shí)單元描述向具有邏輯關(guān)聯(lián)的科學(xué)論述過程描述過渡。早期的科學(xué)論述本體構(gòu)建關(guān)注對(duì)科學(xué)陳述中的基本知識(shí)單元的描述,例如科學(xué)論述本體(Scholarly Interpretation and Discourse,ScholOnto)[19]、科學(xué)文獻(xiàn)關(guān)鍵信息本體(Core Information about Scientific Papers,CISP)[20]、科學(xué)實(shí)驗(yàn)本體(Common Ontology of Scientific Experiments,EXPO)[21]等,主要針對(duì)科學(xué)主張、假設(shè)、目標(biāo)、背景、研究方法、實(shí)驗(yàn)、模型、結(jié)論等科學(xué)論證過程的不同組成部分進(jìn)行類和屬性定義,并應(yīng)用于領(lǐng)域文獻(xiàn)的自動(dòng)標(biāo)引。近年來研究則更加關(guān)注知識(shí)單元之間的邏輯關(guān)系即邏輯論證過程。例如科學(xué)論據(jù)描述本體(Argument Model Ontology,AMO)[22]根據(jù)圖爾敏(Toulmin)的科學(xué)論述理論提出,文獻(xiàn)闡述中包含科學(xué)主張、背景、依據(jù)等相互聯(lián)系的論述單元,單元之間又存在支持、包含、證實(shí)等邏輯屬性,由此進(jìn)行了本體類及其屬性的定義??逅梗–arlos H.Marcondes)的文獻(xiàn)知識(shí)模型[23]則是在識(shí)別作者推理模式的基礎(chǔ)上,定位文獻(xiàn)中所有重要的結(jié)論并采用知識(shí)表達(dá)規(guī)范描述這些結(jié)論及其關(guān)系。在文獻(xiàn)本體構(gòu)建研究的發(fā)展過程中,出現(xiàn)了面向語義出版的語義應(yīng)用模型,增強(qiáng)了對(duì)文獻(xiàn)論述單元的規(guī)范化描述及其真實(shí)性的考證,例如,納米語義出版模型(NanoPublication)強(qiáng)調(diào)基本科學(xué)結(jié)論的描述必須包括出處、支持信息、完整性密鑰及唯一標(biāo)識(shí)ID等信息,以反映核心內(nèi)容及其背景、語境信息,方便知識(shí)的集成、推理和發(fā)現(xiàn)[24-25]。微語義出版模型(Mircro Publication)則在此基礎(chǔ)上更加注重科學(xué)主張及其論據(jù)的關(guān)聯(lián)特征,通過自然語言陳述、數(shù)據(jù)、方法、材料支撐、分析、評(píng)論等多方面內(nèi)容形成文獻(xiàn)的科學(xué)論證鏈[26]。實(shí)際上,國內(nèi)早在2003年就由溫有奎等學(xué)者提出了知識(shí)元鏈接理論[27],將科學(xué)研究中的知識(shí)創(chuàng)新點(diǎn)視為知識(shí)元,認(rèn)為文獻(xiàn)是由知識(shí)元構(gòu)成,并在后續(xù)研究中系統(tǒng)地論述了知識(shí)元的類型、標(biāo)引方法、本體描述等[28-29]。但由于缺乏成熟的應(yīng)用環(huán)境,中文文獻(xiàn)本體構(gòu)建的應(yīng)用研究目前更多地停留在理論層面的描述,很少有簡單、清晰、規(guī)范的應(yīng)用實(shí)例開發(fā),因此相關(guān)研究仍有待進(jìn)一步深入。
上述研究反映學(xué)術(shù)界早已開始關(guān)注學(xué)術(shù)文獻(xiàn)知識(shí)解構(gòu)問題。其中,結(jié)構(gòu)化知識(shí)部件的定義和描述一直是研究的重點(diǎn),近年來也產(chǎn)生了大量從不同視角對(duì)文獻(xiàn)知識(shí)內(nèi)容進(jìn)行本體建模的研究成果。然而,學(xué)術(shù)文獻(xiàn)是一個(gè)內(nèi)涵豐富的有機(jī)體。一方面文獻(xiàn)內(nèi)容(content)包含了表達(dá)科學(xué)知識(shí)的語義元素及邏輯關(guān)系,如文本的觀點(diǎn)闡述、論證過程信息等。另一方面,文獻(xiàn)也與科研的上下文環(huán)境(context)密切相關(guān),如研究環(huán)境、貢獻(xiàn)與角色、出版環(huán)境等。顯然已有研究成果并未能完全覆蓋上述內(nèi)容??梢哉f,目前學(xué)界對(duì)于文獻(xiàn)的這種富語義形態(tài)尚未形成系統(tǒng)、一致的認(rèn)識(shí)與定義,構(gòu)建一種多元化的文獻(xiàn)富語義模型成為亟待解決的基礎(chǔ)研究問題。
5 總結(jié)與展望
傳統(tǒng)數(shù)字出版流程包括內(nèi)容制作、資源加工、內(nèi)容資源管理等環(huán)節(jié)。在資源加工過程中關(guān)注對(duì)作者、機(jī)構(gòu)、來源出版物以及參考文獻(xiàn)等外部文獻(xiàn)特征的揭示和報(bào)道。而語義出版則是在此基礎(chǔ)上將出版物的加工深度進(jìn)一步提升到內(nèi)容層面,借助語義技術(shù)實(shí)現(xiàn)科學(xué)觀點(diǎn)、事實(shí)等真正有價(jià)值的知識(shí)單元的生產(chǎn)過程,并致力于在語義層面建立文獻(xiàn)之間、知識(shí)單元之間的知識(shí)關(guān)聯(lián)。通過對(duì)語義出版技術(shù)的研究,可以得出以下結(jié)論:①目前語義出版應(yīng)用實(shí)踐正處于淺層語義特征描述的過渡階段,隨著語義技術(shù)的發(fā)展必將向全面的深度語義化的知識(shí)關(guān)聯(lián)與集成邁進(jìn)。②語義出版應(yīng)用技術(shù)融匯了對(duì)文獻(xiàn)內(nèi)、外部特征的挖掘以及多元化知識(shí)關(guān)聯(lián)的構(gòu)建,因此形成了“特征描述—特征抽取—知識(shí)關(guān)聯(lián)”三層技術(shù)框架,其中文獻(xiàn)特征的定義和描述是基礎(chǔ),文獻(xiàn)特征的抽取方法是技術(shù)關(guān)鍵,知識(shí)關(guān)聯(lián)則是語義出版知識(shí)增值的體現(xiàn)。③借助本體技術(shù)實(shí)現(xiàn)文獻(xiàn)對(duì)象及其知識(shí)內(nèi)容的語義描述是語義出版的主要技術(shù)路線,本體工程在語義出版應(yīng)用中的重要地位不會(huì)改變,在未來一段時(shí)期內(nèi)各學(xué)科領(lǐng)域的本體基礎(chǔ)建設(shè)將成為語義出版發(fā)展的重要推動(dòng)力。④面向文獻(xiàn)結(jié)構(gòu)的語義模型已日趨成熟,未來將以其在各專業(yè)領(lǐng)域的實(shí)例化應(yīng)用研究為主,而面向文獻(xiàn)內(nèi)容的語義模型則有待完善,相關(guān)研究正從科學(xué)論述的知識(shí)單元描述向具有邏輯關(guān)聯(lián)的科學(xué)論述過程描述過渡。
總而言之,語義出版應(yīng)用研究在語義技術(shù)、信息科學(xué)等領(lǐng)域發(fā)展的推動(dòng)下,正穩(wěn)步向成熟化和實(shí)例化邁進(jìn)。未來語義出版技術(shù)的相關(guān)研究將繼續(xù)以“特征描述—特征抽取—知識(shí)關(guān)聯(lián)”技術(shù)框架為基礎(chǔ)不斷豐富和發(fā)展。其中,文獻(xiàn)的富語義建模研究仍有進(jìn)一步發(fā)展空間,如何實(shí)現(xiàn)文獻(xiàn)語義特征的自動(dòng)抽取等問題仍是未來各界關(guān)注的重點(diǎn)技術(shù)內(nèi)容。
注 釋
[1]Shotton D.Semantic Publishing:the coming revolution in scientific journal publishing[J].Learned Publishing,2009 (22):85-94
[2]The Article of the Future is now live[EB/OL]. [2015-04-24]. http://www.articleofthefuture.com/
[3]翁彥琴,李苑,彭希珺,等.英國皇家化學(xué)會(huì)(RSC)-科技期刊語義出版模式的研究[J].中國科技期刊研究,2013,24(5):825-829
[4]Shotton D, Portwin K, Klyne G, et al. Adventures in semantic publishing: exemplar semantic enhancements of a research article[J]. PLoS Computational Biology, 2009, 5(4): e1000361
[5]Shotton D . The Five Stars of Online Journal Articles - a Framework for Article Evaluation[EB/OL]. [2015-05-05]. http://www.dlib.org/dlib/january12/shotton/01shotton.html
[6]Peroni, S., Shotton, D. FaBiO and CiTO: ontologies for describing bibliographicresources and citations. Web Semantics: Science, Services and Agents on the WorldWide Web, 2012(17): 33-43
[7]Ratnam, Joseline; Zdrazil, Barbara; Digles, Daniela; et al. The Application of the Open Pharmacological Concepts Triple Store (Open PHACTS) to Support Drug Discovery Research[J].PLOS ONE, 2014,9(12): e115460
[8]Queralt-Rosinach N, Furlong L I. DisGeNET: from MySQL to Nanopublication, Modelling Gene-Disease Associations for the Semantic Web[C]. International School on Semantic Web Applications and Tools for Life Sciences , SWAT4LS. Aveiro, Portugal. 2012:1-4
[9]Queralt-Rosinacha N,Kuhnb T,Chichesterc C,et al.Publishing DisGeNET as Nanopublications[EB/OL]. [2015-05-05].
http://biorxiv.org/content/biorxiv/early/2014/10/16/010397.full.pdf
[10]RSC Publishing (Royal Society of Chemistry 2015). [2015-3-9]. http://pubs.rsc.org/
[11]Dumitrache A, Lange C. BauDenkMalNetz-Creating a Semantically Annotated Web Resource of Historical Buildings[C]. First Workshop on Semantic Publication (SePublica 2011) 8th Extended Semantic Web Conference Hersonissos, Crete, Greece, 2011: 30-41
[12]Croset A C S, Kafkas S, Liakata M, et al. Exploring the generation and integration of publishable scientific facts using the concept of nano-publications[C]. First Workshop on Semantic Publication (SePublica 2011) 8th Extended Semantic Web Conference Hersonissos, Crete, Greece, 2011: 13-17
[13]Chichester C, Karch O, Gaudeta P, et al. Converting neXtProt into Linked Data and nanopublications[EB/OL]. [2015-05-04]. http://www.semantic-web-journal.net/system/files/swj461.pdf
[14]Villegas N M, Tamura G, M€黮ler H A, et al. DYNAMICO: A reference model for governing control objectives and context relevance in self-adaptive software systems[M]. Software Engineering for Self-Adaptive Systems II. Springer Berlin Heidelberg, 2013: 265-293
[15]王睿佳,劉耀.面向科技文獻(xiàn)的多模態(tài)語義關(guān)聯(lián)特征提取與表達(dá)體系研究[J].大學(xué)圖書館學(xué)報(bào),2012,30(5):71-76
[16]Ruiz-Iniesta, A., Corcho, O. A review of ontologies for describing scholarly and scientific documents[C]. CEUR Workshop Proceedings 2014(1155). 4th Workshop on Semantic Publishing, SePublica 2014. Co-located with the 11th Extended Semantic Web Conference, ESWC 2014; Anissaras; Greece, 2014: 1-12
[17]SPAR-semantic publishing and referencing [EB/OL]. [2015-4-24]. http://sempublishing.sourceforge.net/
[18]Semantic Web Applications in Neuromedicine (SWAN) Ontology[EB/OL]. [2015-04-24]. http://www.w3.org/TR/hcls-swan/
[19]Shum S B, Motta E, Domingue J. ScholOnto: an ontology-based digital library server for research documents and discourse[J]. International Journal on Digital Libraries, 2000, 3(3): 237-248
[20]Soldatova, L., Liakata, M. An ontology methodology and CISP - the proposed core information about scientific papers, JISC Project Report,2007 [EB/OL]. [2015-05-05]. http://ie-repository.jisc.ac.uk/137/
[21]Soldatova, L.N., King, R.D. An ontology of scientific experiments. Journal of The Royal Society Interface, 2006, 3(11):795-803
[22]The Argument Model Ontology (AMO)[EB/OL]. [2015-05-04]. http://www.essepuntato.it/2011/02/argument model
[23]Marcondes C H. A semantic model for scholarly electronic publishing[C]. First Workshop on Semantic Publication (SePublica 2011) 8th Extended Semantic Web Conference Hersonissos, Crete, Greece, 2011: 47-58
[24]Groth P, Gibson A, Velterop J. The anatomy of a nanopublication[J]. Information Services and Use, 2010, 30(1): 51-56
[25]Patrinos G P, Cooper D N, van Mulligen E, et al. Microattribution and nanopublication as means to incentivize the placement of human genome variation data into the public domain[J]. Human mutation, 2012, 33(11): 1503-1512
[26]Clark T, Ciccarese P, Goble C. Micropublications: a semantic model for claims, evidence, arguments and annotations in biomedical communications[J]. Journal of Biomedical Semantics, 2014, 5(1): 28
[27]溫有奎, 徐國華. 知識(shí)元鏈接理論[J]. 情報(bào)學(xué)報(bào), 2003,22(6):665-670
[28]溫有奎, 溫浩, 徐端頤,等. 基于知識(shí)元的文本知識(shí)標(biāo)引[J]. 情報(bào)學(xué)報(bào), 2006,25(3):282-288
[29]溫浩, 溫有奎. 主題成因的知識(shí)元本體轉(zhuǎn)換模型研究[J]. 情報(bào)學(xué)報(bào), 2011,30(11):1123-1128
(收稿日期:2015-07-19)