• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      電子文檔長(zhǎng)期保存格式分析

      2009-08-17 05:25
      檔案管理 2009年4期
      關(guān)鍵詞:標(biāo)準(zhǔn)

      趙 芳

      摘要:文章從分析目前文檔格式現(xiàn)狀入手,在綜合國(guó)內(nèi)外研究成果的基礎(chǔ)上提出長(zhǎng)期保存文檔格式選擇的標(biāo)準(zhǔn),并對(duì)PDF格式與基于XML的格式進(jìn)行了比較,認(rèn)為基于XML的格式更適合作為長(zhǎng)期保存文檔的格式,

      關(guān)鍵詞:長(zhǎng)期保存;文檔格式:標(biāo)準(zhǔn)

      1文檔格式現(xiàn)狀

      長(zhǎng)期以來(lái),文檔格式因微軟公司最早占領(lǐng)辦公軟件領(lǐng)域而被“.doc”、“.xls”和“.plat”等事實(shí)標(biāo)準(zhǔn)所壟斷,目前全球大概90%以上的文檔都是采用微軟Office的格式存儲(chǔ),微軟的Word成為最為常見(jiàn)的電子文檔格式。但由于該格式屬微軟公司私有,其隱患是該格式文檔擁有者有可能因版本升級(jí)或其他原因,喪失對(duì)自己文檔的處理能力,這對(duì)文檔擁有者甚至政府部門(mén)都存在著喪失讀取和修改的安全隱患。為此,國(guó)際上改變前辦公軟件相互封閉、文檔格式互不兼容的努力如火如荼開(kāi)展起來(lái),由Sun、IBM等36個(gè)成員創(chuàng)建的ODF fOpen Document Format)聯(lián)盟在全球推廣ODF文檔格式。2006年5月初,ODFJE式被國(guó)際標(biāo)準(zhǔn)化組織(簡(jiǎn)稱(chēng)ISO)認(rèn)可為文檔格式的國(guó)際標(biāo)準(zhǔn)。Word因其應(yīng)用的廣泛性,ODF因其的開(kāi)放性,這兩種文檔格式目前成為電子文檔的主要格式。然而,這兩種格式并不適于長(zhǎng)期保存。

      Word格式不適于長(zhǎng)期保存主要原因有二:其一,Word是二進(jìn)制的,即人不可讀的形式。沒(méi)有匹配的讀取軟件不能把文件內(nèi)容從Word文檔中提取出來(lái)。其二,Word是私有格式,前邊已經(jīng)談過(guò)私有格式的危害。盡管后來(lái)的ODF格式克服了Word格式的上述兩個(gè)缺點(diǎn),但作為文檔處理軟件生成格式的固有弱點(diǎn),它仍不適于長(zhǎng)期保存。究其原因,也主要有二:其一。該格式主要是描述文件外觀而不是結(jié)構(gòu)。對(duì)于長(zhǎng)期保存來(lái)說(shuō),文件的紙張大小、頁(yè)面、字體等外觀問(wèn)題不甚重要,而對(duì)于文件被劃分為幾個(gè)部分、各部分之間的關(guān)系等結(jié)構(gòu)問(wèn)題對(duì)理解文件內(nèi)容來(lái)說(shuō)很重要:其二,該格式是扁平式的,即文件由標(biāo)題和段落按順序構(gòu)成。而長(zhǎng)期保存需要保存每個(gè)章節(jié)段落的深層次結(jié)構(gòu)以及內(nèi)部嵌入的內(nèi)容。因?yàn)檫@種深層次的結(jié)構(gòu)有助于結(jié)構(gòu)檢索和查詢(xún)及文檔格式轉(zhuǎn)換。

      鑒于此,為了長(zhǎng)期保存這些電子文檔,我們需要把它們轉(zhuǎn)換成適于長(zhǎng)期保存的格式。

      2選擇文檔長(zhǎng)期保存格式的標(biāo)準(zhǔn)

      長(zhǎng)期保存文件不管是因其情報(bào)價(jià)值還是因其憑證價(jià)值,總而言之是為了利用。所以,要從利用的角度來(lái)分析保存文件的要求。另外,我們要利用的是真實(shí)可讀的文件。這里的利用不僅是單純的使用文件,它還應(yīng)該包括文件的真實(shí)性、可讀性的維護(hù)。所以我們?cè)谟懻摫4娓袷絾?wèn)題要以保護(hù)文件的真實(shí)性和可讀性人手。

      Jacqueline Slats在“辦公格式數(shù)字保存實(shí)踐”中提到了保存文檔的五個(gè)基本需求:其一,在背景方面,要求記錄組織背景,如名稱(chēng)、活動(dòng)過(guò)程、日期、與其他文檔的關(guān)系、保存日志、原始文檔與現(xiàn)存文檔的關(guān)系、版本及名稱(chēng)、保護(hù)過(guò)程:其二,在內(nèi)容方面,所有文檔內(nèi)容都要保存下來(lái),純文本內(nèi)容要保持永久可讀:其三,在結(jié)構(gòu)方面,為重現(xiàn)文件內(nèi)容間的邏輯聯(lián)系必須保存文檔的結(jié)構(gòu),如章、節(jié)、段落的次序,包括評(píng)論和腳注及插圖的正確位置:其四。在外觀方面,在不影響表達(dá)原始文檔意思的前提下,保存的外觀可以不必與原始外觀完全相同:其五,在效用方面,對(duì)有效連接的著錄必須要保存下來(lái),現(xiàn)行效用和內(nèi)容的更新部分不必保存但致使內(nèi)容變化的效用的證明必須要保存下來(lái)。

      Frank Moehle對(duì)數(shù)字保存提出下列五項(xiàng)要求:一是整體性(無(wú)損壞、安全存儲(chǔ));二是可理解性(能理解文件背景和內(nèi)容);三是原始性(數(shù)據(jù)結(jié)構(gòu)和外觀);四是真實(shí)性(作者、來(lái)源和證據(jù)的真實(shí));五是可利用性(可讀、可利用)。

      除了上述保護(hù)文件本身特點(diǎn)的需求外,還需要考慮為了應(yīng)對(duì)技術(shù)挑戰(zhàn)帶來(lái)的軟硬件升級(jí)更新文檔格式需要進(jìn)行不斷地轉(zhuǎn)換問(wèn)題。所以,長(zhǎng)期保存格式必須選擇能夠而且易于轉(zhuǎn)換的文檔格式。

      面對(duì)紛繁復(fù)雜的文檔格式,到底應(yīng)該如何選擇長(zhǎng)期保存的文檔格式呢?Frank Moehle在“文檔格式在數(shù)字保存的角色”中對(duì)文檔格式提出的八項(xiàng)要求是:(1)格式所用的語(yǔ)言及語(yǔ)法規(guī)范是公用的:(2)得到類(lèi)似ISO這樣標(biāo)準(zhǔn)化組織認(rèn)可:(3)已被廣泛地認(rèn)可及使用;(4)免費(fèi)的使用權(quán);(5)無(wú)加密技術(shù);(6)無(wú)壓縮技術(shù);(7)自帶說(shuō)明書(shū);(8)不依賴(lài)任何存儲(chǔ)介質(zhì)。

      Micheal Lesk在“數(shù)字化保存——新的需求及挑戰(zhàn)”一文中也闡述了選擇保存格式的一些標(biāo)準(zhǔn):(1)內(nèi)容層而非顯示層的描述,這會(huì)簡(jiǎn)化轉(zhuǎn)換工作:(2)足夠的解釋空間,提供檢索和分類(lèi)所需的信息;(3)開(kāi)放的,任何人都可以免費(fèi)使用;(4)可解釋性,任何時(shí)候人都可讀。

      劉家真教授也曾論述過(guò)文件保存格式的選擇問(wèn)題,她提出了9條原則:(1)該格式能在不同的環(huán)境下使用;(2)該格式應(yīng)是通用的、非專(zhuān)用的格式;(3)支持?jǐn)?shù)據(jù)從專(zhuān)用格式的環(huán)境中移出;(4)最好選用標(biāo)準(zhǔn)格式;(5)挑選被業(yè)界或用戶(hù)廣泛支持的格式;(6)可擴(kuò)展性:(7)可真實(shí)完整地被用戶(hù)讀出并理解;(8)具有自身的可證明性;(9)具有可評(píng)價(jià)性。

      以上學(xué)者都從不同角度、側(cè)重點(diǎn)提到了或簡(jiǎn)單或詳細(xì)的文檔保存格式選擇的原則。為了正確或是輔助選擇長(zhǎng)期保存的文檔格式,荷蘭國(guó)家圖書(shū)館進(jìn)行了文檔保存格式選擇的標(biāo)準(zhǔn)研究。該研究中提到了7條評(píng)價(jià)文檔長(zhǎng)期保存格式的標(biāo)準(zhǔn),按其權(quán)重排列:(1)開(kāi)放性(24%);(2)依賴(lài)性(24%);(3)采用性(21%);(4)復(fù)雜性(10%);(5)技術(shù)保護(hù)機(jī)制(10%);(6)耐久性(7%);(7)自我記錄性(4%)。

      綜合以上觀點(diǎn),我認(rèn)為長(zhǎng)期保存文檔格式選擇標(biāo)準(zhǔn)可從以下幾個(gè)方面考慮:

      (1)開(kāi)放性。包括公開(kāi)源碼、免費(fèi)使用。只有開(kāi)放的文檔標(biāo)準(zhǔn)才能實(shí)現(xiàn)不同版本間文檔格式的互通,確保文檔在不同系統(tǒng)之間有效、自由地實(shí)現(xiàn)互操作,更適合長(zhǎng)期保存文檔的轉(zhuǎn)換格式需要。

      (2)廣采性。即保存格式應(yīng)是被廣泛采用且得到標(biāo)準(zhǔn)組織認(rèn)可的。這樣的格式有利于推廣,并且為多種軟件開(kāi)發(fā)商所采用,使文檔很容易制作和保存。從長(zhǎng)期保存的觀點(diǎn)來(lái)看,也易于為其編寫(xiě)轉(zhuǎn)換格式,集體轉(zhuǎn)換文檔,這樣一方面減輕長(zhǎng)期保存的經(jīng)濟(jì)壓力,另一方面還能減少文檔格式轉(zhuǎn)換造成丟失數(shù)據(jù)的風(fēng)險(xiǎn)。

      (3)無(wú)依賴(lài)性。即保存格式不依賴(lài)任何軟硬件。這樣可大大減少管理程序與管理費(fèi)用,便于資源共享,更重要的是有利于減少文件長(zhǎng)期保存中數(shù)據(jù)丟失的風(fēng)險(xiǎn),不依賴(lài)任何加密、壓縮等技術(shù)。換句話(huà)說(shuō),格式中不允許有加密和壓縮這樣的設(shè)置,因?yàn)榧用?/p>

      的文檔在長(zhǎng)期保存過(guò)程中不利于轉(zhuǎn)換;壓縮的文檔容易損壞,且一旦損壞無(wú)法彌補(bǔ),因而也不利于長(zhǎng)期保存。

      (4)可解釋性。即保存格式不應(yīng)該是二進(jìn)制的,而是人可讀的純文本形式。這樣即使格式軟件不存在了,原始文件內(nèi)容和標(biāo)記也仍然可被人識(shí)讀。且有足夠的解釋空間,能允許提供大量的元數(shù)據(jù)來(lái)滿(mǎn)足說(shuō)明文檔的需求,也方便以后的格式轉(zhuǎn)換。

      (5)結(jié)構(gòu)化描述性。也可以稱(chēng)作立體式描述。也就是說(shuō),格式要盡量揭示文件內(nèi)容,而不僅是顯示文件的外觀。這樣既可以反映文件內(nèi)容間的邏輯聯(lián)系,又便于格式的轉(zhuǎn)換。

      3長(zhǎng)期保存文檔格式的選擇

      目前各檔案館及圖書(shū)部門(mén)選擇的長(zhǎng)期保存文檔格式主要有兩種:即PDF格式與基于XML的格式。

      PDF(Portable Document For,mat、文檔是Adobe公司開(kāi)發(fā)的一種文檔格式。該格式的最大優(yōu)點(diǎn)在于能如實(shí)地保留原有文件的內(nèi)容與外觀。而且容易生成,既可用Adobe Acrobat軟件,也可用MicrosoK Word和OpenOffice.orgWriter,它們都具有PDF的輸出功能。此外,PDF還具有支持聯(lián)機(jī)、安全、交互式使用等優(yōu)點(diǎn)。這些優(yōu)點(diǎn)足以促使那些文檔保管單位積極采用PDF作為主要的文檔保存格式。

      XML(Xtensible Markup Language)“可擴(kuò)展標(biāo)識(shí)語(yǔ)言”,是一套定義語(yǔ)義標(biāo)記的規(guī)則,這些標(biāo)記將文檔分成許多部件并對(duì)這些部件加以標(biāo)識(shí)。它也是元標(biāo)記語(yǔ)言,即定義了用于定義其他與特定領(lǐng)域有關(guān)的、語(yǔ)義的、結(jié)構(gòu)化的標(biāo)記語(yǔ)言的句法語(yǔ)言。XML最大的優(yōu)勢(shì)在于對(duì)各種數(shù)據(jù)的管理。任何系統(tǒng)都可以通過(guò)XML的解析器來(lái)讀取XML數(shù)據(jù),因此它的數(shù)據(jù)可以通行各處,而不用擔(dān)心系統(tǒng)不支持的問(wèn)題。基于XML的格式也是一種理想的文檔保存格式。首先它是開(kāi)放的標(biāo)準(zhǔn);其次,它使用標(biāo)準(zhǔn)的文字編碼,能描述任何語(yǔ)言、任何事物;再次。它基于純文本。這使它能長(zhǎng)期被識(shí)讀。XML的這些優(yōu)點(diǎn)均有利于真實(shí)可靠地長(zhǎng)期保存文檔。

      到底哪種格式更適合文檔的長(zhǎng)期保存,Jacqueline Slats對(duì)這兩種格式的優(yōu)缺點(diǎn)進(jìn)行了如下比較:

      兩者相比較而言,在長(zhǎng)期保存文檔方面,PDF不如XML適合保存文檔,因?yàn)樗娜?xiàng)缺點(diǎn)對(duì)文檔的長(zhǎng)期保存來(lái)說(shuō)都是致命的。此外,PDF的缺點(diǎn)還包括版本間的不兼容問(wèn)題。

      雖然PDF/A是基于PDF1.4開(kāi)發(fā)的,它試圖通過(guò)一系列規(guī)定限制來(lái)克服PDF的上述缺陷,并已成功地躋身國(guó)際標(biāo)準(zhǔn)成為電子文檔長(zhǎng)期保存格式標(biāo)準(zhǔn)。一方面,這是Adobe公司在開(kāi)放性方面取得的進(jìn)步:但另一方面,從根本上來(lái)說(shuō),PDF的公司所有的私有屬性并不能改變。而且,如果把PDF中的一些特性如禁止加密、批注、禁止植入其他類(lèi)型文件等通過(guò)限制的政策而剔除的話(huà),PDF本身所特有的優(yōu)勢(shì)也就大打折扣了。此外,其版本兼容問(wèn)題仍然成為它繼續(xù)發(fā)展的桎梏。

      可以與PDF/A競(jìng)爭(zhēng)的另一格式是基于XML的XHTML和DocBook。

      熟悉XHTML的人很多,這里只簡(jiǎn)單介紹一下DocBook。它是一個(gè)由SGML或者XML文檔類(lèi)型定義(DTD)的標(biāo)記語(yǔ)言。簡(jiǎn)單地說(shuō),DocBook是一套描述文檔結(jié)構(gòu)的標(biāo)簽,它能將文件內(nèi)容與文件樣式信息分開(kāi)處理(如字體,顏色)。DocBook從1991年開(kāi)始創(chuàng)建,目前經(jīng)歷了四個(gè)主要的版本,已成為OASIS采納的標(biāo)準(zhǔn)。除了擁有XML所有的優(yōu)點(diǎn)外,DoeBook的可移植性非常值得稱(chēng)道,而且是一次輸入、多種輸出。一個(gè)用DocBook標(biāo)記語(yǔ)言寫(xiě)的文檔能夠快速簡(jiǎn)單地轉(zhuǎn)換為HTML、PostScript、PDF、RTF、DVI以及ASCII純文本。DocBook以及所有配套DocBook使用的工具都是在開(kāi)源授權(quán)下供自由使用的。DocBook的另外一個(gè)優(yōu)勢(shì)是能把作者從對(duì)文檔的排版和格式的擔(dān)心中解脫出來(lái)。所以,DocBook不僅適于長(zhǎng)期存儲(chǔ)文檔,也適合編輯文檔。

      綜上,在電子文檔長(zhǎng)期保存格式的選擇時(shí),我們要從保存需求分析人手,根據(jù)保存格式的選擇標(biāo)準(zhǔn),綜合分析各種格式的利弊,最終選擇最適于長(zhǎng)期保存的文檔格式,以保證電子文檔的真實(shí)性和長(zhǎng)期可利用性。

      參考文獻(xiàn):

      [1]BARNES,L.Preservation of wordprocessing documents.

      Australianartnership for Sustainable Reposi-tories,2006.URL:http://www.apsr.e-du.au/publications/preservation ofword_processing_documents.html.

      [2] Jacqueline Slats,Practical expe-riences of the digital preservationtestbed:Office formats in Proceed-ings of the conference "File formatsfor

      preservation" ,Vienna (2004).URL:http://www.erpanet.org/event s/2004/vierma/presentations/erpaTr-ainingVienna_Slats.pdf.

      [3]Frank Moehle, The Role of FileFormats in Digital

      Preservation:Opportunities and Threats,http://www.erpanet.org/events/2004/vien-na/index.php.

      [4]Michael Lesk,Preserving digitalobjects:Recurrent needs and chal-lenges in Proceedings of the 2ndNPO Conference on MultimediaPreservation,Brisbane (1995).URL:http://www.lesk, comJmlesk/auspres/aus.html.

      [5]劉家真,文件保存格式與PDF文檔[J],檔案學(xué)研究,2002(2)。

      [6]Caroline van Wijk Judith Rog,Evaluating file formats for long-term preservation.URL:http://rdd.sub.uni -goettingen.de/conferences/ipres07/.

      [7]ERPANet,ERPA Advisory(2004).URL:http://www.erpanet.org/adviso-ry/list.php.

      [8]宛玲,電子文檔長(zhǎng)期存取的跨媒體開(kāi)放文件格式[J],中國(guó)圖書(shū)館學(xué)報(bào),2007(3)。

      猜你喜歡
      標(biāo)準(zhǔn)
      2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
      忠誠(chéng)的標(biāo)準(zhǔn)
      標(biāo)準(zhǔn)匯編
      美還是丑?
      你可能還在被不靠譜的對(duì)比度標(biāo)準(zhǔn)忽悠
      一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長(zhǎng)中的煩惱”
      2015年9月新到標(biāo)準(zhǔn)清單
      標(biāo)準(zhǔn)觀察
      標(biāo)準(zhǔn)觀察
      標(biāo)準(zhǔn)觀察
      宜宾县| 平潭县| 张家口市| 宽城| 夏邑县| 津市市| 凤阳县| 来安县| 海林市| 成武县| 家居| 桦甸市| 锡林郭勒盟| 基隆市| 惠安县| 新源县| 天长市| 沙田区| 遵义县| 都江堰市| 香河县| 兴业县| 吴堡县| 神农架林区| 乌什县| 竹山县| 天镇县| 大新县| 越西县| 溧阳市| 保亭| 尤溪县| 大石桥市| 汕尾市| 邵阳县| 延寿县| 泸州市| 柏乡县| 利津县| 商南县| 五河县|