• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      非結(jié)構(gòu)化參考文獻提取與管理方案研究

      2016-05-14 21:31:20司遠肖毅
      軟件導(dǎo)刊 2016年5期
      關(guān)鍵詞:結(jié)構(gòu)化參考文獻數(shù)字化

      司遠 肖毅

      摘要:隨著信息技術(shù)的發(fā)展,出版行業(yè)逐漸將采集、編輯等流程轉(zhuǎn)移到計算機上進行,實現(xiàn)從傳統(tǒng)出版到數(shù)字出版的轉(zhuǎn)型。圖書出版物中參考文獻具有重要意義。現(xiàn)有參考文獻管理工具在運行時,大多要求在圖書編撰的起始階段介入,并需要用戶自行從外部獲取結(jié)構(gòu)化的參考文獻信息。在數(shù)字出版系統(tǒng)中,圖書內(nèi)容由投約稿作者提供,具有大量非結(jié)構(gòu)化文本,難以進行管理。針對這一問題,研究了GB/T 7714-2005文后參考文獻著錄規(guī)則,運用正則表達式匹配等技術(shù)手段,提供了一種非結(jié)構(gòu)化文本中參考文獻的提取和管理方案。

      關(guān)鍵詞:數(shù)字出版;非結(jié)構(gòu)化;GB/T 7714-2005;正則表達式;參考文獻

      DOIDOI:10.11907/rjdk.161079

      中圖分類號:TP319

      文獻標(biāo)識碼:A 文章編號:1672-7800(2016)005-0137-03

      1 數(shù)字出版概述

      隨著激光照排技術(shù)的普及和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,出版行業(yè)產(chǎn)生了深刻變革,數(shù)字出版受到行業(yè)和學(xué)術(shù)界的廣泛關(guān)注。

      20世紀(jì)70年代以來,王選院士主持的方正激光照排系統(tǒng)迅速產(chǎn)業(yè)化并被市場廣泛接受,出版行業(yè)中錄入、排版、校對、印刷等主要流程開始向數(shù)字化轉(zhuǎn)變。隨著互聯(lián)網(wǎng)時代的到來,出版行業(yè)在數(shù)字技術(shù)的應(yīng)用上不斷嘗試,出現(xiàn)了電子出版、互聯(lián)網(wǎng)出版、泛媒體出版、跨媒體出版、全媒體出版、復(fù)合出版等多種出版形式。然而,上述概念局限于數(shù)字技術(shù)在特定出版流程或介質(zhì)上的應(yīng)用,不能在全局層面上描述層出不窮的數(shù)字媒體。自2005年起,我國出版界提出了數(shù)字出版概念,涵蓋了近年來新出現(xiàn)的數(shù)字媒體,受到業(yè)內(nèi)的廣泛認(rèn)同。這一概念的提出,體現(xiàn)出業(yè)界對應(yīng)用數(shù)字技術(shù)后出現(xiàn)的一系列新型出版形態(tài)的認(rèn)識越來越深入,在技術(shù)層面概括了新出版形態(tài)的本質(zhì)特征。與傳統(tǒng)出版相比,數(shù)字出版技術(shù)的優(yōu)勢體現(xiàn)在:傳播速度快、范圍廣、形式多樣;出版內(nèi)容時效性強;信息交流更加具有互動性;提供個性化服務(wù);支持海量存儲;內(nèi)容便于檢索和二次加工;制作和發(fā)行成本較低。

      近年來,我國的數(shù)字出版產(chǎn)業(yè)所占比重越來越高,數(shù)字出版高速增長。在數(shù)字出版快速發(fā)展的同時,我們還要清醒認(rèn)識到其中存在的問題:大多數(shù)數(shù)字出版產(chǎn)業(yè)的數(shù)字化仍處于較低水平,單純將紙質(zhì)內(nèi)容通過技術(shù)手段轉(zhuǎn)化為數(shù)字內(nèi)容,產(chǎn)品內(nèi)容結(jié)構(gòu)仍然沿用傳統(tǒng)出版模式,沒有對數(shù)字內(nèi)容資源進行結(jié)構(gòu)化、知識化處理,無法使產(chǎn)品增值,受限于出版類型和投資規(guī)模的約束,還沒有出現(xiàn)類似Elsevier和Springer的大型國際化數(shù)字出版企業(yè)。據(jù)統(tǒng)計,全國584家出版社中,256家推出了數(shù)字出版的相關(guān)產(chǎn)品,但只有102家建立了專業(yè)的數(shù)字出版機構(gòu)[1]。

      2 內(nèi)容結(jié)構(gòu)化與數(shù)字出版

      結(jié)構(gòu)化是出版行業(yè)數(shù)字化的核心,數(shù)字化標(biāo)準(zhǔn)通過語義標(biāo)簽,以標(biāo)題、目錄、正文等文章結(jié)構(gòu)和詞語為基本單元,對出版內(nèi)容進行結(jié)構(gòu)化處理,內(nèi)容結(jié)構(gòu)化的程度直接影響數(shù)字化水平。出版行業(yè)的數(shù)字化,不只是內(nèi)容的數(shù)字化,更重要的是實現(xiàn)編輯出版體系的數(shù)字化。數(shù)字編輯出版系統(tǒng)打破了傳統(tǒng)出版模式中時間和空間的限制,投稿、審稿和編輯可以隨時隨地進行,提高了審稿效率,簡化了編輯環(huán)節(jié),提升了編輯工作的價值,在工作效率和質(zhì)量上遠超傳統(tǒng)出版模式[2]。結(jié)構(gòu)化是建立數(shù)字化編輯系統(tǒng)的基礎(chǔ)和前提,在出版行業(yè)的數(shù)字化過程中具有重要地位,美國物理學(xué)會、BMC出版社和PLOS ONE期刊等行業(yè)先行者已開始構(gòu)建出版內(nèi)容存儲的XML結(jié)構(gòu)化規(guī)范。

      我國出版行業(yè)應(yīng)用的結(jié)構(gòu)化數(shù)字編輯系統(tǒng)包括:北大方正書暢系統(tǒng)、瑪格泰克稿件處理系統(tǒng)和查爾斯沃思XML排版軟件等。北大方正書暢系統(tǒng)將科技期刊的采編系統(tǒng)與排版、發(fā)布系統(tǒng)集成,提供面向科技期刊的數(shù)字化生產(chǎn)流程,編、排、發(fā)一體化的同步出版解決方案。該方案通過流程化系統(tǒng),貫穿期刊稿件的采編與排版環(huán)節(jié),在滿足傳統(tǒng)紙質(zhì)出版的要求下,可以同步產(chǎn)生包含稿件元數(shù)據(jù)標(biāo)引信息的XML結(jié)構(gòu)化數(shù)據(jù),為網(wǎng)刊發(fā)布提供數(shù)據(jù)支撐,給科技期刊用戶帶來更大的附加價值。瑪格泰克稿件處理系統(tǒng)為出版行業(yè)提供了整體的數(shù)字出版解決方案,可自動提取出版內(nèi)容中的元數(shù)據(jù)和擴展數(shù)據(jù),支持方正書版文件、Word文件和Latex文件等。查爾斯沃斯將出版內(nèi)容統(tǒng)一轉(zhuǎn)化為XML格式文件并進行結(jié)構(gòu)化排版,生成XML、HTML、PDF和圖片等形式的排版結(jié)果文件,能適應(yīng)多種傳播媒介。

      上述幾種數(shù)字編輯系統(tǒng)均包含業(yè)務(wù)流程再造[3]環(huán)節(jié):在出版流程中,為滿足互聯(lián)網(wǎng)和移動設(shè)備用戶的需要,內(nèi)容生產(chǎn)、加工、發(fā)布等環(huán)節(jié)需要進行再造,從生產(chǎn)源頭對出版內(nèi)容進行結(jié)構(gòu)化和元數(shù)據(jù)標(biāo)引,實現(xiàn)動態(tài)出版。只有結(jié)構(gòu)化的內(nèi)容,才能被數(shù)字出版系統(tǒng)導(dǎo)入并提取知識。受益于良好的設(shè)計,方正書版文件和Latex文件本身已具有較高的結(jié)構(gòu)化程度,然而在數(shù)字出版領(lǐng)域中,Word仍然是作者投稿時使用的主流文件格式。在2003及之前的版本中,Word文件實質(zhì)上是一種二進制文件,通過文件首部偏移地址為0x00的文件信息塊對全文進行索引。在2007和更高的版本中,微軟采用了OOXML(Office Open XML)標(biāo)準(zhǔn),這是一種基于XML的文件格式。OOXML標(biāo)準(zhǔn)Word文檔包含一簇互相關(guān)聯(lián)的XML文件,使用XML元素存儲文件內(nèi)容、樣式、應(yīng)用程序數(shù)據(jù)和元數(shù)據(jù)等文檔組成部件。

      如表1所示,OOXML標(biāo)準(zhǔn)Word文檔主要組成部件包括注釋、文檔設(shè)置、腳注尾注、字體、頁眉頁腳、正文、編號和樣式等。文本內(nèi)容全部存儲在正文部件中,其它部件主要用于樣式控制。

      OOXML標(biāo)準(zhǔn)Word文檔正文部分XML文件的典型結(jié)構(gòu)如下:從正文-章節(jié)-段落-句子-文本逐漸細化,元素代表正文部分全文,被元素劃分為兩個章節(jié),元素表示段落,第一章節(jié)只包含一個段落,元素是段落的組成部分,可近似理解為句子,存儲文本內(nèi)容,一個元素可包含多個元素。OOXML標(biāo)準(zhǔn)定義的正文部分,注重在語法方面的結(jié)構(gòu)化,在語義層次上可視為非結(jié)構(gòu)化文本。例如,論文中包含中英文標(biāo)題、關(guān)鍵詞、摘要、參考文獻等具有重要價值的元數(shù)據(jù),Word文檔不能直觀表示。

      為滿足業(yè)務(wù)流程再造環(huán)節(jié)中的結(jié)構(gòu)化需求,本文提出了一種針對Word非結(jié)構(gòu)化文本的參考文獻提取和管理方案,運用正則表達式技術(shù),自動識別文獻中的參考文獻管理條目并提供管理功能。

      3 非結(jié)構(gòu)化參考文獻提取與管理方案

      3.1 GB/T 7714參考文獻標(biāo)準(zhǔn)

      GB/T 7714《文后參考文獻著錄規(guī)則》是一項國家標(biāo)準(zhǔn),用于指導(dǎo)著者和編輯編撰文后參考文獻。GB/T 7714采用ISO 690《文獻工作文后參考文獻 內(nèi)容、形式與結(jié)構(gòu)》和ISO 690-2《信息與文獻 參考文獻 第2部分:電子文獻部分》兩項國際標(biāo)準(zhǔn)[4]。

      常見參考文獻格式包括期刊、圖書、會議論文和專利等:

      (1) 期刊:[序號]作者.題名[J].刊名,出版年,卷(期):頁碼。

      (2)圖書:[序號]作者.書名[M].其他責(zé)任者(選擇項).版本(第1 版不著錄).出版地:出版者,出版年:頁碼(選擇項)。

      (3)會議論文:[序號]作者.題名[C].會議名稱,會址,會議年份。

      (4)專利:[序號]專利申請者或所有者.專利題名:專利國別,專利號[P].公告或公開日期。

      文獻類型和標(biāo)志代碼位于方括號中,為各類參考文獻共有,用于表明參考文獻類型,如表2所示。在方正智能非結(jié)構(gòu)化參考文獻提取與管理方案中,考慮到標(biāo)志代碼的普遍性和唯一性,將標(biāo)志代碼作為提取文獻條目時的正則匹配條件。

      3.2 方案核心類視圖

      方正智能非結(jié)構(gòu)化參考文獻提取與管理方案采用Word插件機制開發(fā),可按需安裝或卸載。方案由5個核心類組成:①Plugin,包含Word插件所需的通用組件;②ReferenceManagementPaneCtrl,用于顯示參考文獻并提供文獻管理功能,屬于核心交互界面;③ReferenceSetting,允許用戶自行設(shè)置提取解析參考文獻時的規(guī)則;④ReferenceManagement,參考文獻提取、解析和管理功能的底層實現(xiàn)類,被ReferenceManagementPaneCtrl調(diào)用;⑤ReferenceExtension,存儲設(shè)置參數(shù)和用于解析參考文獻的正則表達式。如圖1所示。

      3.3 參考文獻提取與解析流程

      底層實現(xiàn)類ReferenceManagement工作流程如圖2所示:①以段落為單位遍歷當(dāng)前文檔,使用正則匹配技術(shù)獲取參考文獻文本;②進行文本預(yù)處理,去除空格并修正全半角格式,提高文獻解析準(zhǔn)確率;③通過文獻類型和標(biāo)志代碼進行文獻分類;④通用解析流程,用于識別各種類型參考文獻中的公共部分,如作者、出版時間、標(biāo)題等;⑤專用解析流程,根據(jù)文獻分類執(zhí)行專用解析操作,例如GB/T 7715標(biāo)準(zhǔn)中,只有連續(xù)出版物具有年-卷-期屬性。

      3.4 獨有功能

      方正智能非結(jié)構(gòu)化參考文獻提取與管理方案從數(shù)字編輯系統(tǒng)實際環(huán)境出發(fā),結(jié)合編輯人員需求進行設(shè)計與開發(fā)。相對于Endnote、NoteExpress、cnki E-learning等同類型參考文獻管理工具,提供以下獨有功能:

      (1)全文文獻提取和列表顯示。方案允許用戶在當(dāng)前文檔動態(tài)添加文獻,通過圖3所示的刷新按鈕實時獲取全文中包含的所有參考文獻條目,并將文獻的編號、作者、標(biāo)題等重要屬性直觀顯示在列表中。

      (2)引用遍歷。選中列表中的參考文獻條目后,通過上一個、下一個按鈕可遍歷查看正文中的參考文獻引用,結(jié)合設(shè)置還可規(guī)定只遍歷正文或上標(biāo)格式的引用。引用遍歷功能允許用戶根據(jù)語義環(huán)境判斷參考文獻引用是否正確,發(fā)現(xiàn)因編號混亂等人為因素導(dǎo)致的文獻引用異常。

      (3)引用檢查。我國出版物通常約定,參考文獻應(yīng)按照文中引用最早出現(xiàn)的順序編號。圖書等出版物內(nèi)容繁多,參考文獻的編號難以確定,引用檢查功能將參考文獻按照首次出現(xiàn)的地點排序,通過對比編號與順序的對應(yīng)關(guān)系,更容易檢查出文獻編號問題。

      方案還提供了互聯(lián)網(wǎng)查詢接口,可自動將提取到的信息在百度學(xué)術(shù)等專業(yè)網(wǎng)站檢索,為用戶提供可靠依據(jù)。樣式檢查功能可自動糾正標(biāo)點、全半角等格式問題,使參考文獻更加美觀準(zhǔn)確。通過設(shè)置,還支持MLA、APA等多種參考文獻格式。

      4 結(jié)語

      方正智能非結(jié)構(gòu)化參考文獻提取與管理方案在出版物撰寫完成后介入,在非結(jié)構(gòu)化的Word文檔中提取參考文獻信息,并解析為作者、標(biāo)題、出版時間等結(jié)構(gòu)化數(shù)據(jù)。有利于出版行業(yè)海量存量數(shù)據(jù)的結(jié)構(gòu)化,為數(shù)字編輯系統(tǒng)的推廣和出版行業(yè)的數(shù)字化轉(zhuǎn)型提供了良好基礎(chǔ)。方案所特有的動態(tài)文獻提取、實時顯示、引用遍歷和引用檢查功能,可有效降低編輯人員的工作量,節(jié)省時間成本,提高工作效率。

      參考文獻:

      [1]白杰,楊愛臣.XML結(jié)構(gòu)化數(shù)字出版的特點與流程[J].出版廣角,2015(5):152-156.

      [2]陸晟.數(shù)字出版技術(shù)與編輯出版工作的數(shù)字化[J].出版廣角,2014(2):137-137.

      [3]吟春.新技術(shù)助力出版創(chuàng)新———訪北京北大方正電子有限公司數(shù)字出版業(yè)務(wù)部總經(jīng)理劉長明[J].中國編輯,2011(4):13-18.

      [4]中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局,中國國家標(biāo)準(zhǔn)化管理委員會.GB/ T 7714—2005 文后參考文獻著錄規(guī)則[M].北京:中國標(biāo)準(zhǔn)出版社,2005.

      (責(zé)任編輯:杜能鋼)

      猜你喜歡
      結(jié)構(gòu)化參考文獻數(shù)字化
      家紡業(yè)亟待數(shù)字化賦能
      促進知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      The Dual Emerson: Poetical Writing and Philosophical Thinking*
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      計算機教育(2020年5期)2020-07-24 08:53:00
      高中數(shù)學(xué)“一對一”數(shù)字化學(xué)習(xí)實踐探索
      高中數(shù)學(xué)“一對一”數(shù)字化學(xué)習(xí)實踐探索
      Study on the physiological function and application of γ—aminobutyric acid and its receptors
      東方教育(2016年4期)2016-12-14 13:52:48
      數(shù)字化制勝
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      The Review of the Studies of Trilingual Education in inghai
      慈利县| 上饶市| 永修县| 南华县| 尖扎县| 岑巩县| 明溪县| 措勤县| 高雄市| 宽甸| 云霄县| 新余市| 百色市| 视频| 积石山| 贡嘎县| 合江县| 江西省| 海门市| 鹰潭市| 岚皋县| 海门市| 白沙| 灵山县| 桦甸市| 双峰县| 太康县| 乌拉特前旗| 富民县| 五原县| 鄂尔多斯市| 舞钢市| 高邑县| 河北区| 府谷县| 乐山市| 旬邑县| 遵义县| 特克斯县| 开封市| 扶绥县|