司遠 肖毅
摘要:隨著信息技術(shù)的發(fā)展,出版行業(yè)逐漸將采集、編輯等流程轉(zhuǎn)移到計算機上進行,實現(xiàn)從傳統(tǒng)出版到數(shù)字出版的轉(zhuǎn)型。圖書出版物中參考文獻具有重要意義。現(xiàn)有參考文獻管理工具在運行時,大多要求在圖書編撰的起始階段介入,并需要用戶自行從外部獲取結(jié)構(gòu)化的參考文獻信息。在數(shù)字出版系統(tǒng)中,圖書內(nèi)容由投約稿作者提供,具有大量非結(jié)構(gòu)化文本,難以進行管理。針對這一問題,研究了GB/T 7714-2005文后參考文獻著錄規(guī)則,運用正則表達式匹配等技術(shù)手段,提供了一種非結(jié)構(gòu)化文本中參考文獻的提取和管理方案。
關(guān)鍵詞:數(shù)字出版;非結(jié)構(gòu)化;GB/T 7714-2005;正則表達式;參考文獻
DOIDOI:10.11907/rjdk.161079
中圖分類號:TP319
文獻標(biāo)識碼:A 文章編號:1672-7800(2016)005-0137-03
1 數(shù)字出版概述
隨著激光照排技術(shù)的普及和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,出版行業(yè)產(chǎn)生了深刻變革,數(shù)字出版受到行業(yè)和學(xué)術(shù)界的廣泛關(guān)注。
20世紀(jì)70年代以來,王選院士主持的方正激光照排系統(tǒng)迅速產(chǎn)業(yè)化并被市場廣泛接受,出版行業(yè)中錄入、排版、校對、印刷等主要流程開始向數(shù)字化轉(zhuǎn)變。隨著互聯(lián)網(wǎng)時代的到來,出版行業(yè)在數(shù)字技術(shù)的應(yīng)用上不斷嘗試,出現(xiàn)了電子出版、互聯(lián)網(wǎng)出版、泛媒體出版、跨媒體出版、全媒體出版、復(fù)合出版等多種出版形式。然而,上述概念局限于數(shù)字技術(shù)在特定出版流程或介質(zhì)上的應(yīng)用,不能在全局層面上描述層出不窮的數(shù)字媒體。自2005年起,我國出版界提出了數(shù)字出版概念,涵蓋了近年來新出現(xiàn)的數(shù)字媒體,受到業(yè)內(nèi)的廣泛認(rèn)同。這一概念的提出,體現(xiàn)出業(yè)界對應(yīng)用數(shù)字技術(shù)后出現(xiàn)的一系列新型出版形態(tài)的認(rèn)識越來越深入,在技術(shù)層面概括了新出版形態(tài)的本質(zhì)特征。與傳統(tǒng)出版相比,數(shù)字出版技術(shù)的優(yōu)勢體現(xiàn)在:傳播速度快、范圍廣、形式多樣;出版內(nèi)容時效性強;信息交流更加具有互動性;提供個性化服務(wù);支持海量存儲;內(nèi)容便于檢索和二次加工;制作和發(fā)行成本較低。
近年來,我國的數(shù)字出版產(chǎn)業(yè)所占比重越來越高,數(shù)字出版高速增長。在數(shù)字出版快速發(fā)展的同時,我們還要清醒認(rèn)識到其中存在的問題:大多數(shù)數(shù)字出版產(chǎn)業(yè)的數(shù)字化仍處于較低水平,單純將紙質(zhì)內(nèi)容通過技術(shù)手段轉(zhuǎn)化為數(shù)字內(nèi)容,產(chǎn)品內(nèi)容結(jié)構(gòu)仍然沿用傳統(tǒng)出版模式,沒有對數(shù)字內(nèi)容資源進行結(jié)構(gòu)化、知識化處理,無法使產(chǎn)品增值,受限于出版類型和投資規(guī)模的約束,還沒有出現(xiàn)類似Elsevier和Springer的大型國際化數(shù)字出版企業(yè)。據(jù)統(tǒng)計,全國584家出版社中,256家推出了數(shù)字出版的相關(guān)產(chǎn)品,但只有102家建立了專業(yè)的數(shù)字出版機構(gòu)[1]。
2 內(nèi)容結(jié)構(gòu)化與數(shù)字出版
結(jié)構(gòu)化是出版行業(yè)數(shù)字化的核心,數(shù)字化標(biāo)準(zhǔn)通過語義標(biāo)簽,以標(biāo)題、目錄、正文等文章結(jié)構(gòu)和詞語為基本單元,對出版內(nèi)容進行結(jié)構(gòu)化處理,內(nèi)容結(jié)構(gòu)化的程度直接影響數(shù)字化水平。出版行業(yè)的數(shù)字化,不只是內(nèi)容的數(shù)字化,更重要的是實現(xiàn)編輯出版體系的數(shù)字化。數(shù)字編輯出版系統(tǒng)打破了傳統(tǒng)出版模式中時間和空間的限制,投稿、審稿和編輯可以隨時隨地進行,提高了審稿效率,簡化了編輯環(huán)節(jié),提升了編輯工作的價值,在工作效率和質(zhì)量上遠超傳統(tǒng)出版模式[2]。結(jié)構(gòu)化是建立數(shù)字化編輯系統(tǒng)的基礎(chǔ)和前提,在出版行業(yè)的數(shù)字化過程中具有重要地位,美國物理學(xué)會、BMC出版社和PLOS ONE期刊等行業(yè)先行者已開始構(gòu)建出版內(nèi)容存儲的XML結(jié)構(gòu)化規(guī)范。
我國出版行業(yè)應(yīng)用的結(jié)構(gòu)化數(shù)字編輯系統(tǒng)包括:北大方正書暢系統(tǒng)、瑪格泰克稿件處理系統(tǒng)和查爾斯沃思XML排版軟件等。北大方正書暢系統(tǒng)將科技期刊的采編系統(tǒng)與排版、發(fā)布系統(tǒng)集成,提供面向科技期刊的數(shù)字化生產(chǎn)流程,編、排、發(fā)一體化的同步出版解決方案。該方案通過流程化系統(tǒng),貫穿期刊稿件的采編與排版環(huán)節(jié),在滿足傳統(tǒng)紙質(zhì)出版的要求下,可以同步產(chǎn)生包含稿件元數(shù)據(jù)標(biāo)引信息的XML結(jié)構(gòu)化數(shù)據(jù),為網(wǎng)刊發(fā)布提供數(shù)據(jù)支撐,給科技期刊用戶帶來更大的附加價值。瑪格泰克稿件處理系統(tǒng)為出版行業(yè)提供了整體的數(shù)字出版解決方案,可自動提取出版內(nèi)容中的元數(shù)據(jù)和擴展數(shù)據(jù),支持方正書版文件、Word文件和Latex文件等。查爾斯沃斯將出版內(nèi)容統(tǒng)一轉(zhuǎn)化為XML格式文件并進行結(jié)構(gòu)化排版,生成XML、HTML、PDF和圖片等形式的排版結(jié)果文件,能適應(yīng)多種傳播媒介。
上述幾種數(shù)字編輯系統(tǒng)均包含業(yè)務(wù)流程再造[3]環(huán)節(jié):在出版流程中,為滿足互聯(lián)網(wǎng)和移動設(shè)備用戶的需要,內(nèi)容生產(chǎn)、加工、發(fā)布等環(huán)節(jié)需要進行再造,從生產(chǎn)源頭對出版內(nèi)容進行結(jié)構(gòu)化和元數(shù)據(jù)標(biāo)引,實現(xiàn)動態(tài)出版。只有結(jié)構(gòu)化的內(nèi)容,才能被數(shù)字出版系統(tǒng)導(dǎo)入并提取知識。受益于良好的設(shè)計,方正書版文件和Latex文件本身已具有較高的結(jié)構(gòu)化程度,然而在數(shù)字出版領(lǐng)域中,Word仍然是作者投稿時使用的主流文件格式。在2003及之前的版本中,Word文件實質(zhì)上是一種二進制文件,通過文件首部偏移地址為0x00的文件信息塊對全文進行索引。在2007和更高的版本中,微軟采用了OOXML(Office Open XML)標(biāo)準(zhǔn),這是一種基于XML的文件格式。OOXML標(biāo)準(zhǔn)Word文檔包含一簇互相關(guān)聯(lián)的XML文件,使用XML元素存儲文件內(nèi)容、樣式、應(yīng)用程序數(shù)據(jù)和元數(shù)據(jù)等文檔組成部件。
如表1所示,OOXML標(biāo)準(zhǔn)Word文檔主要組成部件包括注釋、文檔設(shè)置、腳注尾注、字體、頁眉頁腳、正文、編號和樣式等。文本內(nèi)容全部存儲在正文部件中,其它部件主要用于樣式控制。
OOXML標(biāo)準(zhǔn)Word文檔正文部分XML文件的典型結(jié)構(gòu)如下:從正文-章節(jié)-段落-句子-文本逐漸細化,
為滿足業(yè)務(wù)流程再造環(huán)節(jié)中的結(jié)構(gòu)化需求,本文提出了一種針對Word非結(jié)構(gòu)化文本的參考文獻提取和管理方案,運用正則表達式技術(shù),自動識別文獻中的參考文獻管理條目并提供管理功能。
3 非結(jié)構(gòu)化參考文獻提取與管理方案
3.1 GB/T 7714參考文獻標(biāo)準(zhǔn)
GB/T 7714《文后參考文獻著錄規(guī)則》是一項國家標(biāo)準(zhǔn),用于指導(dǎo)著者和編輯編撰文后參考文獻。GB/T 7714采用ISO 690《文獻工作文后參考文獻 內(nèi)容、形式與結(jié)構(gòu)》和ISO 690-2《信息與文獻 參考文獻 第2部分:電子文獻部分》兩項國際標(biāo)準(zhǔn)[4]。
常見參考文獻格式包括期刊、圖書、會議論文和專利等:
(1) 期刊:[序號]作者.題名[J].刊名,出版年,卷(期):頁碼。
(2)圖書:[序號]作者.書名[M].其他責(zé)任者(選擇項).版本(第1 版不著錄).出版地:出版者,出版年:頁碼(選擇項)。
(3)會議論文:[序號]作者.題名[C].會議名稱,會址,會議年份。
(4)專利:[序號]專利申請者或所有者.專利題名:專利國別,專利號[P].公告或公開日期。
文獻類型和標(biāo)志代碼位于方括號中,為各類參考文獻共有,用于表明參考文獻類型,如表2所示。在方正智能非結(jié)構(gòu)化參考文獻提取與管理方案中,考慮到標(biāo)志代碼的普遍性和唯一性,將標(biāo)志代碼作為提取文獻條目時的正則匹配條件。
3.2 方案核心類視圖
方正智能非結(jié)構(gòu)化參考文獻提取與管理方案采用Word插件機制開發(fā),可按需安裝或卸載。方案由5個核心類組成:①Plugin,包含Word插件所需的通用組件;②ReferenceManagementPaneCtrl,用于顯示參考文獻并提供文獻管理功能,屬于核心交互界面;③ReferenceSetting,允許用戶自行設(shè)置提取解析參考文獻時的規(guī)則;④ReferenceManagement,參考文獻提取、解析和管理功能的底層實現(xiàn)類,被ReferenceManagementPaneCtrl調(diào)用;⑤ReferenceExtension,存儲設(shè)置參數(shù)和用于解析參考文獻的正則表達式。如圖1所示。
3.3 參考文獻提取與解析流程
底層實現(xiàn)類ReferenceManagement工作流程如圖2所示:①以段落為單位遍歷當(dāng)前文檔,使用正則匹配技術(shù)獲取參考文獻文本;②進行文本預(yù)處理,去除空格并修正全半角格式,提高文獻解析準(zhǔn)確率;③通過文獻類型和標(biāo)志代碼進行文獻分類;④通用解析流程,用于識別各種類型參考文獻中的公共部分,如作者、出版時間、標(biāo)題等;⑤專用解析流程,根據(jù)文獻分類執(zhí)行專用解析操作,例如GB/T 7715標(biāo)準(zhǔn)中,只有連續(xù)出版物具有年-卷-期屬性。
3.4 獨有功能
方正智能非結(jié)構(gòu)化參考文獻提取與管理方案從數(shù)字編輯系統(tǒng)實際環(huán)境出發(fā),結(jié)合編輯人員需求進行設(shè)計與開發(fā)。相對于Endnote、NoteExpress、cnki E-learning等同類型參考文獻管理工具,提供以下獨有功能:
(1)全文文獻提取和列表顯示。方案允許用戶在當(dāng)前文檔動態(tài)添加文獻,通過圖3所示的刷新按鈕實時獲取全文中包含的所有參考文獻條目,并將文獻的編號、作者、標(biāo)題等重要屬性直觀顯示在列表中。
(2)引用遍歷。選中列表中的參考文獻條目后,通過上一個、下一個按鈕可遍歷查看正文中的參考文獻引用,結(jié)合設(shè)置還可規(guī)定只遍歷正文或上標(biāo)格式的引用。引用遍歷功能允許用戶根據(jù)語義環(huán)境判斷參考文獻引用是否正確,發(fā)現(xiàn)因編號混亂等人為因素導(dǎo)致的文獻引用異常。
(3)引用檢查。我國出版物通常約定,參考文獻應(yīng)按照文中引用最早出現(xiàn)的順序編號。圖書等出版物內(nèi)容繁多,參考文獻的編號難以確定,引用檢查功能將參考文獻按照首次出現(xiàn)的地點排序,通過對比編號與順序的對應(yīng)關(guān)系,更容易檢查出文獻編號問題。
方案還提供了互聯(lián)網(wǎng)查詢接口,可自動將提取到的信息在百度學(xué)術(shù)等專業(yè)網(wǎng)站檢索,為用戶提供可靠依據(jù)。樣式檢查功能可自動糾正標(biāo)點、全半角等格式問題,使參考文獻更加美觀準(zhǔn)確。通過設(shè)置,還支持MLA、APA等多種參考文獻格式。
4 結(jié)語
方正智能非結(jié)構(gòu)化參考文獻提取與管理方案在出版物撰寫完成后介入,在非結(jié)構(gòu)化的Word文檔中提取參考文獻信息,并解析為作者、標(biāo)題、出版時間等結(jié)構(gòu)化數(shù)據(jù)。有利于出版行業(yè)海量存量數(shù)據(jù)的結(jié)構(gòu)化,為數(shù)字編輯系統(tǒng)的推廣和出版行業(yè)的數(shù)字化轉(zhuǎn)型提供了良好基礎(chǔ)。方案所特有的動態(tài)文獻提取、實時顯示、引用遍歷和引用檢查功能,可有效降低編輯人員的工作量,節(jié)省時間成本,提高工作效率。
參考文獻:
[1]白杰,楊愛臣.XML結(jié)構(gòu)化數(shù)字出版的特點與流程[J].出版廣角,2015(5):152-156.
[2]陸晟.數(shù)字出版技術(shù)與編輯出版工作的數(shù)字化[J].出版廣角,2014(2):137-137.
[3]吟春.新技術(shù)助力出版創(chuàng)新———訪北京北大方正電子有限公司數(shù)字出版業(yè)務(wù)部總經(jīng)理劉長明[J].中國編輯,2011(4):13-18.
[4]中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局,中國國家標(biāo)準(zhǔn)化管理委員會.GB/ T 7714—2005 文后參考文獻著錄規(guī)則[M].北京:中國標(biāo)準(zhǔn)出版社,2005.
(責(zé)任編輯:杜能鋼)