• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      標(biāo)文通文檔格式到電子書格式的分析與轉(zhuǎn)換

      2013-08-04 02:23:56數(shù)字出版技術(shù)國家重點實驗室北京100871
      計算機工程與應(yīng)用 2013年11期
      關(guān)鍵詞:式樣電子書文檔

      1.數(shù)字出版技術(shù)國家重點實驗室(籌),北京 100871

      2.北京信息科技大學(xué) 計算機學(xué)院,北京 100101

      1.數(shù)字出版技術(shù)國家重點實驗室(籌),北京 100871

      2.北京信息科技大學(xué) 計算機學(xué)院,北京 100101

      1 引言

      隨著網(wǎng)絡(luò)出版和移動技術(shù)的發(fā)展,通過便攜的手持移動設(shè)備閱讀電子圖書或文檔已成為一種普遍的需求。然而,現(xiàn)存大量的流式文檔,大多數(shù)都是由電腦辦公軟件直接保存生成的,不便甚至不能在手持設(shè)備上使用,導(dǎo)致手持設(shè)備無法讀取以前保存的信息,給使用者帶來諸多的不便。目前以EPUB[1]為代表的電子書格式標(biāo)準(zhǔn)已經(jīng)相對成熟,能夠很好地被大多數(shù)手持設(shè)備理解和使用。因此將流式辦公文檔格式(如UOF)轉(zhuǎn)換為手持設(shè)備支持的電子書格式(如EPUB)已成為迫切的需求。

      作為流式文檔標(biāo)準(zhǔn)之一的UOF[2]是我國自主知識產(chǎn)權(quán)的中文辦公文檔格式標(biāo)準(zhǔn),采用W3CXML Schema作為文檔格式標(biāo)準(zhǔn)定義語言,形成獨立、完整、開放及可擴展的文檔描述體系結(jié)構(gòu),方便用戶擴展;文檔標(biāo)準(zhǔn)體系架構(gòu)支持模塊的可重用性,減少文檔描述的冗余,保證文檔簡潔易用;UOF于2007年作為國家推薦性標(biāo)準(zhǔn)正式發(fā)布實施,UOF格式文檔以其諸多的優(yōu)勢,得到越來越廣泛的應(yīng)用[3]。如今各類常用的辦公軟件,如永中Office、WPS、Microsoft Office及Open Office等均已支持UOF文檔格式[4]。目前ODF_UOF_Converter轉(zhuǎn)換器可以實現(xiàn)UOF格式與ODF[5]格式的雙向轉(zhuǎn)換,UOF Translator轉(zhuǎn)換器則可以實現(xiàn)UOF格式和Open XML[6]格式之間的雙向轉(zhuǎn)換[7]。

      作為電子書標(biāo)準(zhǔn)之一的EPUB是一個開放的電子書標(biāo)準(zhǔn),內(nèi)部使用了XHTML[8]來展現(xiàn)文字,并以ZIP壓縮格式來打包文件內(nèi)容。EPUB于2007年9月成為國際數(shù)字出版論壇(International Digital Publishing Forum,IDPF)的正式標(biāo)準(zhǔn)[9]。盡管一些辦公文檔格式(如PDF)已經(jīng)可以實現(xiàn)到EPUB格式的轉(zhuǎn)換,如:EpubBuilder和PDF to EPUB轉(zhuǎn)換器等,但遺憾的是目前尚未有相關(guān)文獻(xiàn)提出UOF格式與EPUB格式的轉(zhuǎn)換。

      本文在研究分析上述轉(zhuǎn)換器的基礎(chǔ)上,首次提出一種UOF格式與EPUB格式的轉(zhuǎn)換方法,該方法針對UOF和EPUB格式的結(jié)構(gòu)差異問題,采用預(yù)處理同主轉(zhuǎn)換相結(jié)合的轉(zhuǎn)換思路,能夠?qū)τ赨OF中的大部分常用功能點,實現(xiàn)有效的轉(zhuǎn)換。

      為了實現(xiàn)該轉(zhuǎn)換,便于手持設(shè)備用戶瀏覽UOF文檔,本文將重點分析UOF格式和EPUB格式的結(jié)構(gòu)以及兩種結(jié)構(gòu)之間的映射關(guān)系,并設(shè)計轉(zhuǎn)換式樣單(stylesheet)[10],構(gòu)建轉(zhuǎn)換器,為方便用戶操作還開發(fā)了圖形界面,從而實現(xiàn)UOF文檔格式到EPUB電子書格式的轉(zhuǎn)換,同時也為其他流式文檔到電子書的轉(zhuǎn)換提供了思路。這不僅對于UOF的推廣實施有積極的促進(jìn)作用,而且對于文檔信息共享與交換以及流式文檔到電子書的轉(zhuǎn)換都具有重要意義。

      2UOF和EPUB格式分析與比較

      2.1 UOF文檔格式

      UOF1.0/1.1采用單一XML文件描述,根據(jù)描述內(nèi)容的不同分塊表述。本文在UOF的基礎(chǔ)上提煉了一種文字處理文檔模型,并用類形式化Z語言[11]進(jìn)行了描述??梢詫OF文字處理文檔看作一個樹形結(jié)構(gòu)的模型,由元數(shù)據(jù)metadata、書簽 集 bookmarks、鏈 接集 hyperlinks、式 樣 集styles、對象集objects、文字處理wordprocessing組成的一個集合。表示為:

      文字處理中包含針對整個文檔屬性的描述部分“公用處理規(guī)則commonRule”和主體body。即

      主體部分可以看成由分節(jié)section、邏輯章節(jié)logicSection、段落p,文字表tbl等元素組合的集合。表示為:

      圖1展示了UOF文字處理文檔主體的層次結(jié)構(gòu)。

      圖1 文字處理主體層次結(jié)構(gòu)圖

      段落p可以看作有相同段落屬性的句子的集合。這些句子可以通過pref從式樣集中繼承相同的段落式樣,又可以通過段落屬性PROP(P)描述引用式樣之外的段落屬性。即

      句的集合Runs是句元素Run的序列,Run包括句式樣引用rref,句屬性PROP(R)和句內(nèi)容rContent。句內(nèi)容是RunContent的包類型。即

      句內(nèi)容由文本內(nèi)容text組成。即

      2.2 EPUB電子書文檔格式

      由于目前EPUB2.0應(yīng)用最為廣泛,且大多數(shù)電子書閱讀器支持EPUB2.0,為適應(yīng)需求,本文選擇標(biāo)文通文檔格式到EPUB2.0標(biāo)準(zhǔn)的電子書格式的轉(zhuǎn)換。

      EPUB2.0包括以下三項規(guī)范:

      (1)開放出版結(jié)構(gòu)(Open Publication Structure,OPS)[12],定義內(nèi)容版面,規(guī)定了開放式電子書的內(nèi)容結(jié)構(gòu)。

      (2)開放打包格式(Open Packaging Format,OPF)[13],定義文件結(jié)構(gòu),主要用于組織OPS文檔和提供相應(yīng)的導(dǎo)航機制。

      (3)容器格式(Open Container Format,OCF)[14],將電子書相關(guān)的所有OPS、OPF文檔按規(guī)范要求置入該容器中,最終形成一個EPUB文檔。

      EPUB格式遵循IDPF推出的OCF規(guī)范,OCF規(guī)范遵循ZIP壓縮技術(shù),即EPUB電子書本身就是一個ZIP文件,由多個部件組成,包含電子書相關(guān)的所有OPS和OPF文檔。除了少數(shù)圖片文件外,大多數(shù)元數(shù)據(jù)部件采用XML文件形式,并采用XHTML顯示內(nèi)容。下面以一個最簡單的未經(jīng)加密處理的EPUB電子書為例進(jìn)行分析,EPUB文檔樹形結(jié)構(gòu)模型由頭文件minetype,信息文件container,元數(shù)據(jù)文件opf、邏輯目錄文件ncx和文檔內(nèi)容OEBPS組成,文檔內(nèi)容是內(nèi)容Content的包類型。表示為:

      內(nèi)容Content包括文本信息集XHTML,式樣信息css和對象集IMAGE。表示為:

      文本信息集是由若干html和xhtml組成。表示為:

      對象集表示為:

      IMAGE={jpg,png,bmp等}

      EPUB電子書內(nèi)部組織結(jié)構(gòu),如圖2所示。

      圖2中帶有陰影部分目錄或文件是EPUB文檔中必不可少的組成部分。mimetype文件,說明了EPUB的文件格式,必須確保在EPUB項目的根目錄中且內(nèi)容不能更改。EPUB根目錄下必須包含META-INF目錄,EPUB閱讀器首先會查看該目錄下的container.xml文件,該文件包含電子書的元數(shù)據(jù)文件位置和打開方式,雖然文件非常小,但是對結(jié)構(gòu)要求很嚴(yán)格。元數(shù)據(jù)文件opf,文件名沒有特殊要求,它指定了電子書中所有內(nèi)容的位置。ncx為電子書的邏輯目錄,定義了電子書的目錄表。圖2中的其他文件名可以根據(jù)需要自行命名。

      圖2 一個簡單EPUB電子書內(nèi)部結(jié)構(gòu)

      2.3 兩種文檔格式的差異

      通過上述兩種文檔格式的分析可以看出兩者在具體格式的結(jié)構(gòu)上存在一些不同之處。

      在文檔結(jié)構(gòu)方面,UOF文檔采用了單一文件形式存儲,在文檔內(nèi)部根據(jù)描述內(nèi)容的不同分塊表述。UOF主體部分描述文檔的主體內(nèi)容,通過分節(jié)描述了文檔的頁面排版格式,段落和表格則描述了節(jié)所包含的內(nèi)容和格式信息。UOF除了描述主體內(nèi)容外,還描述了與主體相關(guān)的其他附屬文檔信息,如用于定位的書簽,用于鏈接到外部位置的超級鏈接等。這些與主體相關(guān)的附屬信息并沒有直接嵌入到主體內(nèi)部,而是根據(jù)信息的用途分類,獨立于主體外分別描述。這些信息通過本身的標(biāo)志符和主體內(nèi)對其標(biāo)志符的引用建立起直接的聯(lián)系。這種方式既清晰地描述了主體以及其必要的附屬信息,又有效地將附屬信息與主體分離,同時便于附屬信息內(nèi)容的更改和統(tǒng)一管理[15]。

      EPUB基于壓縮ZIP文件格式規(guī)范。ZIP文件被看作一個容器,每個容器由多個部件組成,每個部件描述了文檔的不同部分,除了少數(shù)代表圖片外,大多數(shù)部件采用XML文件形式,包含了文檔內(nèi)容信息和文檔格式信息;另外,容器中還包含了描述部件之間聯(lián)系的關(guān)系部件,當(dāng)部件組成EPUB格式文檔時,關(guān)系將描述這些部件如何協(xié)同工作。

      2.4 UOF到EPUB的結(jié)構(gòu)對應(yīng)

      雖然兩種文檔格式在具體結(jié)構(gòu)上存在一些差異,但通過對UOF與EPUB格式的分析可以看到二者在整體上還是存在很大相似性的。首先,兩者都是基于XML規(guī)范描述的,僅有部分多媒體數(shù)據(jù)存在一些差異;其次,兩種格式的主要部件存在對應(yīng)關(guān)系,如圖3所示。

      圖3 UOF與EPUB主要部件對應(yīng)關(guān)系

      如圖3所示,UOF中的元數(shù)據(jù)部分對應(yīng)EPUB中的元數(shù)據(jù)文件(content.opf)。UOF中的文件鏈接集、主體部分對應(yīng)EPUB中的內(nèi)容部分(content.xhtml)。UOF中的式樣集和EPUB中的層疊式樣單(main.css)都描述了文檔的樣式信息。UOF對象集內(nèi)描述的圖形信息對應(yīng)于EPUB的多媒體文件(這里主要是指一些圖片文件)部分。

      3 UOF到EPUB的文檔格式轉(zhuǎn)換方法

      3.1 轉(zhuǎn)換思路

      由上述二者的分析可得,UOF字處理格式到EPUB格式之間的轉(zhuǎn)換大體上是可行的。

      UOF自身基于XML文檔格式,其包含的內(nèi)容豐富,涉及到文檔的格式、內(nèi)容等諸方面,需要進(jìn)行轉(zhuǎn)換的元素和屬性很多,且轉(zhuǎn)換后的EPUB文件中的大部分部件也是基于XML描述的,因此本文采用XSLT(可擴展式樣單轉(zhuǎn)換語言)技術(shù)實現(xiàn)UOF文檔格式到EPUB文檔格式的主轉(zhuǎn)換[16]。思路如圖4所示。

      圖4 EPUB到UOF轉(zhuǎn)換思路

      首先需要分析兩種格式中各元素的映射關(guān)系,然后基于該映射關(guān)系,設(shè)計轉(zhuǎn)換式樣單,通過預(yù)處理和主轉(zhuǎn)換相結(jié)合的方法,實現(xiàn)UOF文檔格式到EPUB文檔格式的轉(zhuǎn)換。下面從元素映射關(guān)系分析、式樣單設(shè)計和文檔格式轉(zhuǎn)換流程三個方面來闡述。

      3.2 元素映射關(guān)系分析

      本文主要是面向UOF文字處理主體部分的轉(zhuǎn)換,同時也對元數(shù)據(jù)、鏈接集、對象集和式樣集做了相關(guān)的轉(zhuǎn)換。如圖5所示,UOF主體部分到EPUB各元素的映射關(guān)系。

      UOF中的“段落”可以在EPUB中用<div>來描述,“段落屬性”可寫到CSS文件中,具體使用時可直接引用CSS中的式樣。UOF中的“自動編號集”可以用EPUB中的<o(jì)l>和<ul>來分別表示“有序列表”和“無序列表”。UOF中的文字表和EPUB中的<table>都是用來描述表格的,UOF文字表又可以細(xì)分為行,在EPUB中<tr>與之對應(yīng);UOF的行由單元格組成,對應(yīng)于EPUB中的<td>,單元格內(nèi)都由段落或者嵌套文字表構(gòu)成。關(guān)于UOF中的分節(jié)可以在EPUB中的<navPoint>找到對應(yīng)的描述。

      由于UOF文檔格式與EPUB文檔格式結(jié)構(gòu)的差異,在分析查找映射關(guān)系時,不可能將兩種格式中所有元素都對應(yīng)起來,因此不得不舍棄一些在EPUB中無法對應(yīng)的元素,比如UOF中“公用處理規(guī)則”、“修訂”、“擴展區(qū)”等。

      圖5 UOF主體到EPUB各元素的對應(yīng)關(guān)系

      3.3 式樣單設(shè)計

      基于上述元素映射關(guān)系的分析,為實現(xiàn)UOF文檔格式到EPUB文檔格式的轉(zhuǎn)換,根據(jù)轉(zhuǎn)換思路編寫主轉(zhuǎn)換式樣單,該式樣單包括文檔格式中所有功能點的轉(zhuǎn)換入口,具體轉(zhuǎn)換則交由每個功能點的轉(zhuǎn)換模板實現(xiàn)。將這些模板單獨存放在各自的轉(zhuǎn)換式樣單中,由主轉(zhuǎn)換式樣單進(jìn)行調(diào)用。這種模塊化設(shè)計使得轉(zhuǎn)換式樣單結(jié)構(gòu)清晰且易于調(diào)試和維護(hù)。本文共設(shè)計了三個主式樣單和四個子式樣單,通過“import”方法聲明對子式樣單的引用,主式樣單中的模板調(diào)用子式樣單中的模板實現(xiàn)轉(zhuǎn)換[17]。式樣單的功能如表1所示。

      表1 式樣單功能表

      表1中的content_opf.xsl實現(xiàn)UOF文檔中元數(shù)據(jù)部分到EPUB內(nèi)部content.opf文檔的轉(zhuǎn)換;main_css.xsl實現(xiàn)UOF文檔中式樣集部分到EPUB內(nèi)部main.css文檔的轉(zhuǎn)換;uof2xhtml.xsl通過調(diào)用4個子式樣單,實現(xiàn)UOF文字處理部分主要內(nèi)容的轉(zhuǎn)換,具體調(diào)用關(guān)系如圖6所示。

      圖6 各式樣單調(diào)用關(guān)系

      主轉(zhuǎn)換首先調(diào)用content_opf.xsl式樣單生成EPUB文檔必須文件之一content.opf,之后調(diào)用main_css.xsl式樣單,完成UOF式樣集部分的轉(zhuǎn)換,最后通過調(diào)用主式樣單uof2xhtml.xsl,并且uof2xhtml.xsl會自動調(diào)用其他四個子式樣 單(paragraph.xsl、image.xsl、table.xsl和 list.xsl),完 成UOF文檔中段落、圖片、表格以及列表的轉(zhuǎn)換。

      3.4 文檔格式轉(zhuǎn)換流程

      由于UOF文檔采用了單一文件形式存儲,而EPUB采用多文件壓縮形式存儲,因此UOF到EPUB文檔格式轉(zhuǎn)換過程中必定會出現(xiàn)一些中間格式的臨時文檔,具體轉(zhuǎn)換流程如圖7所示。

      圖7 UOF格式文檔到EPUB格式文檔轉(zhuǎn)換流程圖

      首先對待轉(zhuǎn)換的UOF文檔進(jìn)行預(yù)處理,之后調(diào)用XSLT式樣單進(jìn)行轉(zhuǎn)換生成中間文檔,最后將生成的中間文檔進(jìn)行打包,生成符合標(biāo)準(zhǔn)的EPUB格式文檔。

      3.4.1 中間文檔格式生成

      由于圖片在UOF文檔中以Base64編碼形式存放,用XSLT技術(shù)無法提取Base64編碼,因此需要對UOF文檔進(jìn)行預(yù)處理。預(yù)處理程序首先從UOF文檔中提取出存儲圖片信息的Base64編碼字符串,然后調(diào)用Base64解碼器將提取出來的Base64編碼字符串解碼生成EPUB文檔所需的圖片文件,即圖7中的中間文檔A。預(yù)處理程序完成之后主程序?qū)来握{(diào)用三個主xsl式樣單生成opf、css以及xhtml文件。這里通過三個主式樣單轉(zhuǎn)換生成的文件即為圖7中的中間文件B。

      3.4.2 EPUB文檔格式生成

      從圖2 EPUB結(jié)構(gòu)分析可知,僅僅有中間文檔無法生成合法的EPUB格式文檔。本文在充分研究EPUB文檔結(jié)構(gòu)的基礎(chǔ)上,在轉(zhuǎn)換開始前就準(zhǔn)備好了生成EPUB所需目錄結(jié)構(gòu)以及一些必備的核心文件。最后采用zip壓縮方法,將中間文檔以及一些必備的核心文件進(jìn)行打包,最終實現(xiàn)EPUB格式文檔的生成。

      圖8 系統(tǒng)結(jié)構(gòu)層次圖

      4 實現(xiàn)

      基于上述方法,給出UOF到EPUB的文檔格式轉(zhuǎn)換器。本章首先給出系統(tǒng)架構(gòu),然后對實驗結(jié)果進(jìn)行了詳細(xì)的分析。

      4.1 系統(tǒng)架構(gòu)

      UOF到EPUB的文檔格式轉(zhuǎn)換系統(tǒng)的總體架構(gòu)如圖8所示。

      (1)打開、解析文檔模塊,該模塊的功能是讀取UOF和XSLT文件。

      (2)預(yù)處理模塊,該模塊的功能是對UOF進(jìn)行預(yù)處理,若UOF文檔中包含圖片,將會把圖片提取出來。

      (3)中間文件生成模塊,該模塊主要是調(diào)用三個主式樣單對UOF關(guān)鍵部分進(jìn)行轉(zhuǎn)換。

      (4)EPUP格式文件生成模塊,負(fù)責(zé)對中間文檔的打包以及EPUB格式文檔的生成。

      (5)系統(tǒng)還有一個install模塊,功能是將主程序UOF2EPUB封裝成一個可執(zhí)行的安裝程序,方便用戶在不同的電腦上安裝使用。

      4.2 結(jié)果分析

      圖9展示了文檔轉(zhuǎn)換效果。圖9(a)是在永中Office 2010中打開UOF文檔的效果,其中包括了字體樣式、列表、超鏈接、圖片表格等多種內(nèi)容。圖9(b)是經(jīng)過轉(zhuǎn)換器轉(zhuǎn)換得到的EPUB格式文檔在ebook-viewer的顯示效果??梢钥吹絻烧叩男Ч疽恢?。

      圖9 轉(zhuǎn)換效果

      在UOF到EPUB轉(zhuǎn)換器的實現(xiàn)過程中,根據(jù)《“中文辦公軟件文檔格式規(guī)范”功能分級與測試規(guī)范》(內(nèi)部資料)中所列的80多個常用功能點進(jìn)行了統(tǒng)計,其中約63%的功能點可進(jìn)行對應(yīng)轉(zhuǎn)換??梢酝耆D(zhuǎn)換的有字體樣式、單元格合并、列表和圖片等。但部分功能點,如著重號、上下標(biāo)等,由于軟件的實現(xiàn)方法不同在顯示效果上存在一些差異,該部分約占全部的功能點的15%,具體如表2所示。

      表2 UOF功能點到EPUB轉(zhuǎn)換比例1)

      5 結(jié)束語

      通過對UOF和EPUB文檔格式進(jìn)行深入的分析,建立UOF格式到EPUB格式的結(jié)構(gòu)對應(yīng)關(guān)系,并詳細(xì)分析兩種格式中的元素映射關(guān)系;針對UOF格式和EPUB格式結(jié)構(gòu),采用XSLT轉(zhuǎn)換技術(shù)進(jìn)行核心功能的轉(zhuǎn)換,設(shè)計轉(zhuǎn)換式樣單并給出了轉(zhuǎn)換流程;最后實現(xiàn)了UOF到EPUB文檔格式的轉(zhuǎn)換器,并且針對文字處理的各主要功能點編寫了UOF測試案例,測試文檔格式轉(zhuǎn)換的正確性。由于EPUB電子書格式以及電子書閱讀器的一些限制,本文未能對UOF的全部功能點進(jìn)行轉(zhuǎn)換。但通過轉(zhuǎn)換生成的EPUB文檔能夠顯示UOF文字處理文檔的基本內(nèi)容,如字體樣式、列表、表格、圖片等,滿足了用戶基本需求。將來還可以進(jìn)一步對式樣單進(jìn)行優(yōu)化,以減少轉(zhuǎn)換差異,提高轉(zhuǎn)換效率。

      [1]International digital publishing forum.EPUB[EB/OL].[2012-08-09]. http://idpf.org/epub.

      [2]中文辦公軟件基礎(chǔ)標(biāo)準(zhǔn)工作組.GB/T 20916-2007中華人民共和國國家標(biāo)準(zhǔn)中文辦公軟件文檔格式規(guī)范[S].北京:中國標(biāo)準(zhǔn)出版社,2007.

      [3]李寧.中文辦公軟件文檔格式規(guī)范(1.0、1.1版)使用指南[M].長沙:湖南師范大學(xué)出版社,2010.

      [4]方春燕.“標(biāo)文通”(UOF)標(biāo)準(zhǔn)研制概況[J].北京信息科技大學(xué)學(xué)報,2010(25):6-10.

      [5]ISO/IEC 26300:2006 Open document format for office applications(OpenDocument) v1.1[S].2007.

      [6]ISO/IEC29500:2008 Office open XML file formats[S].2008.

      [7]羅文甜,李寧,侯霞.基于XML的主流辦公文檔格式間的轉(zhuǎn)換器研制情況概述[J].北京信息科技大學(xué)學(xué)報,2010(25):109-116.

      [8]W3C recommendation XHTML 1.1-module-based XHTML-second edition[S].2010.

      [9]Wikipedia.EPUB[EB/OL].[2012-08-09].http://en.wikipedia.org/ wiki/EPUB.

      [10]XML使用指南.GB/Z 21025-2007中華人民共和國國家標(biāo)準(zhǔn)化指導(dǎo)性技術(shù)文件[S].北京:中國標(biāo)準(zhǔn)出版社,2007.

      [11]ISO/IEC JTC1 SC22,ISO/IEC ISO/IEC 13568:2002 Information technology-Z formalspecification notation-syntax,type system and semantics[S].Geneva:ISO/IEC,2002.

      [12]IDPF.Open Publication Structure(OPS) 2.0.1 v1.0.1[EB/OL]. [2012-08-09].http://idpf.org/epub/20/spec/OPS_2.0.1_draft.htm.

      [13]IDPF.Open Packaging Format(OPF) 2.0.1 v1.0.1[EB/OL]. [2012-08-09].http://idpf.org/epub/20/spec/OPF_2.0.1_draft.htm.

      [14]IDPF.Open Container Format(OCF) 2.0.1 v1.0.1[EB/OL]. [2012-08-09].http://idpf.org/epub/20/spec/OCF_2.0.1_draft.doc.

      [15]董慧.基于XML的文檔格式轉(zhuǎn)換技術(shù)研究——UOF XSL-FO轉(zhuǎn)換[D].北京:北京機械工業(yè)學(xué)院,2007.

      [16]Fitzgerald M.Learning XSLT[M].[S.l.]:O’Reilly Media,2003.

      [17]張曉敏.“標(biāo)文通”與HTML文檔格式的轉(zhuǎn)換技術(shù)研究[D].北京:北京信息科技大學(xué),2008.

      標(biāo)文通文檔格式到電子書格式的分析與轉(zhuǎn)換

      劉 寅1,2,馮 雪2,李 寧2,田英愛2

      LIU Yin1,2,FENG Xue2,LI Ning2,TIAN Ying’ai2

      1.State Key Laboratory of Digital Publishing Technology,Beijing 100871,China
      2.School of Computer,Beijing Information Science&Technology University,Beijing 100101,China

      For the realization of the document formats conversion from UOF to EPUB eBook,this paper focuses on analysing the structures of UOF and EPUB format and the relationship between the two formats,then designs the style sheets in detail and suggests a 2-phase conversion process for format transformation,including the pre-processing and major converting.As the result, a convertor is implemented and can handle the conversion correctly and conveniently for using handheld devices to read the UOF documents.This research is beneficial to document information exchange and transformation form flow documents to eBook as well as to the widely use of UOF.

      Uniform Office Format(UOF);eBook;EPUB;XSLT;document format transformation

      為實現(xiàn)“標(biāo)文通”(Uniform Office Format,UOF)文檔格式到EPUB電子書格式的轉(zhuǎn)換,重點分析了UOF格式和EPUB格式的結(jié)構(gòu)以及兩種結(jié)構(gòu)之間的映射關(guān)系,并詳細(xì)設(shè)計了轉(zhuǎn)換式樣單,提出了預(yù)處理與主轉(zhuǎn)換相結(jié)合的轉(zhuǎn)換思路。通過構(gòu)建轉(zhuǎn)換器,首次實現(xiàn)兩種文檔格式之間的轉(zhuǎn)換,方便手持設(shè)備用戶瀏覽UOF文檔。該項研究對于文檔信息共享,流式文檔到電子書的轉(zhuǎn)換和“標(biāo)文通”國家標(biāo)準(zhǔn)的推廣實施具有重要意義。

      標(biāo)文通;電子書;EPUB;式樣單;文檔格式轉(zhuǎn)換

      A

      TP317

      10.3778/j.issn.1002-8331.1210-0124

      LIU Yin,FENG Xue,LI Ning,et al.Analysis and transform from UOF document format to EPUB format.Computer Engineering and Applications,2013,49(11):130-134.

      核高基重大專項網(wǎng)絡(luò)集成辦公軟件研發(fā)及產(chǎn)業(yè)化(No.2010ZX01044-001-001);北大方正集團(tuán)有限公司數(shù)字出版技術(shù)國家重點實驗室開放課題資助;北京市教委科技面上項目(No.SQKM201211232011)。

      劉寅(1986—),男,碩士研究生,研究領(lǐng)域為置標(biāo)語言與多媒體技術(shù);馮雪(1984—),女,博士,講師,研究方向為數(shù)字版權(quán)保護(hù)技術(shù);李寧(1964—),男,博士,研究員,研究方向為XML應(yīng)用、文檔處理、多媒體;田英愛(1975—),女,講師,研究方向為文檔處理。E-mail:liuyin861107@qq.com

      2012-10-15

      2013-01-09

      1002-8331(2013)11-0130-05

      CNKI出版日期:2013-01-11 http://www.cnki.net/kcms/detail/11.2127.TP.20130111.0953.013.html

      猜你喜歡
      式樣電子書文檔
      有人一聲不吭向你扔了個文檔
      新版新聞記者證式樣
      淺談宜賓漢代酒器造型式樣
      東方藏品(2018年9期)2018-09-10 02:59:51
      城市管理執(zhí)法制式服裝和標(biāo)志標(biāo)識式樣標(biāo)準(zhǔn)
      打造自己的電子書架
      學(xué)與玩(2017年5期)2017-02-16 07:06:30
      基于RI碼計算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      基于電子書包的學(xué)習(xí)分析探究
      電子書 等
      豐富作業(yè)種類,注重式樣整合
      托里县| 吴堡县| 儋州市| 石台县| 长子县| 通化县| 海晏县| 舒城县| 唐河县| 罗源县| 昂仁县| 乌拉特后旗| 梁山县| 奎屯市| 安泽县| 台东县| 淳化县| 拜泉县| 建湖县| 辛集市| 田阳县| 闻喜县| 杭锦后旗| 邳州市| 平邑县| 邯郸县| 重庆市| 临安市| 岫岩| 英山县| 昭苏县| 汉阴县| 北流市| 银川市| 宜兰县| 布尔津县| 南和县| 同江市| 儋州市| 额尔古纳市| 策勒县|