謝永憲 王巧玲 閆格
摘要:本文從數(shù)字檔案信息的存儲(chǔ)量、格式類型、長(zhǎng)期保存的責(zé)任認(rèn)識(shí)、標(biāo)準(zhǔn)與指南使用率、數(shù)字檔案信息備份方式、數(shù)字檔案管理系統(tǒng)的長(zhǎng)期保存功能、長(zhǎng)期保存的技術(shù)措施、長(zhǎng)期保存的困難、長(zhǎng)期可讀取性等九個(gè)方面,對(duì)我國(guó)檔案形成機(jī)構(gòu)數(shù)字檔案信息長(zhǎng)期保存情況進(jìn)行了調(diào)查。調(diào)研結(jié)果顯示,我國(guó)檔案形成機(jī)構(gòu)的數(shù)字檔案信息長(zhǎng)期保存工作整體情況比較嚴(yán)峻,還存在很多需要解決的問題。為了更好地解決實(shí)際中的問題,本文提出了七點(diǎn)建議。
關(guān)鍵詞:數(shù)字檔案 信息 長(zhǎng)期保存 格式載體標(biāo)準(zhǔn)
檔案形成機(jī)構(gòu)是在我國(guó)正式登記注冊(cè)的,能夠獨(dú)立行使職權(quán)的各種類型的法人單位,其在履行社會(huì)職責(zé)的過程中形成了大量具有保存價(jià)值的原始記錄,即檔案。隨著信息社會(huì)的到來,數(shù)字檔案信息在電子政務(wù)與電子業(yè)務(wù)系統(tǒng)中、在紙質(zhì)檔案數(shù)字化過程中海量生成。作為社會(huì)的“記憶”、國(guó)家的重要戰(zhàn)略資源,數(shù)字檔案信息必須被長(zhǎng)期保存。數(shù)字檔案信息長(zhǎng)期保存就是要保證數(shù)字檔案信息的真實(shí)性、完整性和長(zhǎng)期可用性,為國(guó)家和社會(huì)的長(zhǎng)遠(yuǎn)發(fā)展提供有利用價(jià)值的數(shù)字信息資源。
本文通過調(diào)研,試圖摸清我國(guó)檔案形成機(jī)構(gòu)中數(shù)字檔案信息的長(zhǎng)期保存現(xiàn)狀,明確我國(guó)數(shù)字檔案信息面臨的風(fēng)險(xiǎn),找到檔案形成機(jī)構(gòu)在數(shù)字檔案信息長(zhǎng)期保存工作中存在的問題、面對(duì)的困難,以期為我國(guó)數(shù)字檔案信息長(zhǎng)期保存研究和實(shí)踐提供現(xiàn)實(shí)依據(jù)。
一、調(diào)查方案設(shè)計(jì)
本課題的調(diào)查研究對(duì)象是檔案形成機(jī)構(gòu),即社會(huì)中的正式組織。在調(diào)查方案設(shè)計(jì)中,從操作化的角度看,檔案形成機(jī)構(gòu)被界定為在我國(guó)正式登記注冊(cè)的且具有專職檔案管理員的法人單位。
(一)調(diào)查內(nèi)容
本課題將調(diào)查研究的核心內(nèi)容“數(shù)字檔案信息長(zhǎng)期保存”,具體化為以下九個(gè)方面:第一,數(shù)字檔案信息的存儲(chǔ)量;第二,保存的數(shù)字檔案信息格式類型:第三,數(shù)字檔案信息長(zhǎng)期保存的責(zé)任認(rèn)識(shí);第四,數(shù)字檔案信息長(zhǎng)期保存的標(biāo)準(zhǔn)與指南使用率;第五,數(shù)字檔案信息的備份方式;第六,數(shù)字檔案管理系統(tǒng)長(zhǎng)期保存功能;第七,數(shù)字檔案信息長(zhǎng)期保存的技術(shù)措施;第八,數(shù)字檔案長(zhǎng)期保存面臨的困難:第九,數(shù)字檔案的長(zhǎng)期可讀取性,并將其作為問卷的基本設(shè)計(jì)思路。
(二)抽樣方案
本次調(diào)查的樣本數(shù)量為320,為使樣本具有典型的代表性,我們采取配額抽樣的方法進(jìn)行抽樣。配額的依據(jù)主要為組織類型,即國(guó)家機(jī)關(guān)、事業(yè)單位和企業(yè)的配額比例為1:2:2,由于企業(yè)又包括國(guó)有企業(yè)和私營(yíng)企業(yè),所以,在企業(yè)這個(gè)大類中,國(guó)有企業(yè)和私營(yíng)企業(yè)也按照1:1實(shí)施配額控制。
(三)調(diào)研數(shù)據(jù)收集方法
本次調(diào)查主要采用“自我管理式問卷調(diào)查法”,即按照抽樣方案,將問卷發(fā)送給作為樣本的單位,由樣本單位的檔案管理人員根據(jù)其單位的實(shí)際情況進(jìn)行填寫。為保證有效問卷的回收率以及所填數(shù)據(jù)的可靠性,課題組成員與所有樣本單位都就有關(guān)調(diào)研事宜的配合問題進(jìn)行了溝通。
二、調(diào)查數(shù)據(jù)分析
2018年7月初至8月底,課題組按照抽樣方案,向被抽樣單位發(fā)放了320份問卷,回收問卷320份,問卷回收率為100%;經(jīng)數(shù)據(jù)核查,其中有效問卷為278份,有效問卷回收率為87%。
(一)樣本基本信息
根據(jù)278個(gè)有效樣本的數(shù)據(jù),樣本的組織結(jié)構(gòu)類型中事業(yè)單位最多,占比36.7%,之后分別是私營(yíng)企業(yè)占比23%,國(guó)有企業(yè)占比20.9%和國(guó)家機(jī)關(guān)占比19.4%。
在樣本單位中,規(guī)模在100人以下的單位最多,占比32%,之后分別是500-1000人的單位占比23.7%,100-500人的單位占比21.9%,1000-2000人及2000人以上的單位較少,各占比11.2%。
在樣本單位中,61.9%的單位產(chǎn)生的檔案沒有對(duì)口接收的國(guó)家綜合檔案館,39.1%的單位產(chǎn)生的檔案有對(duì)口接收的國(guó)家綜合檔案館。
(二)數(shù)字檔案信息長(zhǎng)期保存基本情況
1.數(shù)字檔案信息存儲(chǔ)量差異大。調(diào)研結(jié)果顯示,數(shù)字檔案信息存儲(chǔ)量最少的只有302M,最多的達(dá)到43.7TB。從存儲(chǔ)量規(guī)模來看,1GB(含)以下的樣本單位占比19.8%,1GB-10GB(含)的樣本單位占比52.9%,10GB-100GB(含)的樣本單位占比17.3%,100GB-1TB(含)的樣本單位占比7.6%,1TB以上的樣本單位占比2.5%。
2.數(shù)字檔案信息格式類型多樣。調(diào)研結(jié)果顯示,87.8%的樣本單位保存了文本文件,66.2%的樣本單位保存了圖像文件,55%的樣本單位保存了版式文件,42.1%的樣本單位保存了視頻文件,36%的樣本單位保存了數(shù)據(jù)庫(kù)文件,18.7%的樣本單位保存了音頻文件,11.2%的樣本單位保存了電子郵件。
樣本單位保存的文件格式主要包括:純文本文件、格式化文本文件、版式文件、圖像文件、音頻文件、視頻文件、數(shù)據(jù)庫(kù)文件等,其數(shù)量超過70種,主要有TXT、XML、UOF、RTF、Microsoft Office、WPS Office、OFD、PDF、SEP、CEB、TIFF、GIF、JPEG、JPEG-2000、BMP、DjVu、PNG、MP3、WAV、WMA、OGG Vorbis、AVI、MOV、MPEG、MDB、SQL等。同時(shí),7.6%的樣本單位保存了業(yè)務(wù)環(huán)節(jié)產(chǎn)生的專有格式的電子文件,主要為生產(chǎn)型企業(yè)。
3.數(shù)字檔案信息長(zhǎng)期保存責(zé)任認(rèn)識(shí)不清。針對(duì)長(zhǎng)期保存責(zé)任的調(diào)研結(jié)果顯示,不清楚責(zé)任主體的占比46.4%;認(rèn)為長(zhǎng)期保存的責(zé)任主體是國(guó)家綜合檔案館的樣本單位占比30.9%;認(rèn)為責(zé)任主體是本單位的占比15.8%;認(rèn)為本單位與國(guó)家綜合檔案館各負(fù)其責(zé)的占比6.8%。其中,向國(guó)家綜合檔案館移交了數(shù)字檔案的樣本單位僅占12.9%。
4.數(shù)字檔案信息管理標(biāo)準(zhǔn)、指南使用率低
從樣本單位遵循標(biāo)準(zhǔn)、指南的情況來看,48.6%的樣本單位認(rèn)為自己的數(shù)字檔案信息長(zhǎng)期保存工作遵循了相關(guān)標(biāo)準(zhǔn)、指南,其中45%的樣本單位選擇遵循了國(guó)家、行業(yè)標(biāo)準(zhǔn)或者指南,2.5%的樣本單位選擇遵循了國(guó)際(外)標(biāo)準(zhǔn),7.2%的樣本單位選擇遵循了其他標(biāo)準(zhǔn),如地方標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)等,但只有6.5%的樣本單位能夠說明遵循的具體標(biāo)準(zhǔn)、指南名稱;42.1%的樣本單位直接聲稱沒有遵循任何標(biāo)準(zhǔn)、指南;9.4%的樣本單位不清楚是否遵循了相關(guān)標(biāo)準(zhǔn)、指南。其中,使用最多的國(guó)際(外)標(biāo)準(zhǔn)是《信息與文獻(xiàn)文件管理》(ISO15489),使用最多的國(guó)內(nèi)標(biāo)準(zhǔn)、指南是《企業(yè)數(shù)字檔案館(室)建設(shè)指南》。
5.有效備份方式使用比率低。調(diào)查結(jié)果表明,15.1%的樣本單位以移動(dòng)硬盤作為離線存儲(chǔ)的載體:12.6%的樣本單位將光盤作為離線存儲(chǔ)的載體:5%的樣本單位將磁帶作為離線存儲(chǔ)的載體;2.2%的樣本單位同時(shí)使用移動(dòng)硬盤和光盤作為離線存儲(chǔ)的載體。云存儲(chǔ)作為一種新生的存儲(chǔ)方式,目前還沒有被社會(huì)廣泛應(yīng)用,只有4.7%的樣本單位將數(shù)據(jù)存儲(chǔ)于云平臺(tái)。64.7%的樣本單位沒有選擇有效的長(zhǎng)期保存?zhèn)浞莘绞健?/p>
6.數(shù)字檔案信息管理系統(tǒng)缺乏長(zhǎng)期保存功能。從樣本單位數(shù)字檔案信息管理系統(tǒng)或者模塊的功能看,已經(jīng)使用具有數(shù)字檔案信息管理功能系統(tǒng)或者模塊的單位占75.9%,盡管目前大多數(shù)樣本單位僅僅是在OA中設(shè)置了文件歸檔模塊,但是可以看出,數(shù)字檔案信息管理的理念與實(shí)踐已經(jīng)得到普遍的認(rèn)可。65.8%的樣本單位能夠?qū)崿F(xiàn)元數(shù)據(jù)的自動(dòng)捕獲,但是捕獲的對(duì)象不夠全面,主要包括文件格式、大小、作者、最后形成時(shí)間等幾個(gè)常用的元數(shù)據(jù),并且很少有數(shù)字檔案信息管理系統(tǒng)設(shè)計(jì)了結(jié)構(gòu)合理的元數(shù)據(jù)方案,普遍缺少專門用于實(shí)現(xiàn)數(shù)字檔案信息憑證性與長(zhǎng)期保存的元數(shù)據(jù);電子文件與數(shù)字檔案的鑒定無論是在理論上還是在實(shí)踐中都是一個(gè)難以解決的問題,僅有3.55%的數(shù)字檔案信息管理系統(tǒng)或者模塊具有自動(dòng)鑒定功能。
7.缺少必要的技術(shù)措施。調(diào)查結(jié)果表明,大多數(shù)樣本單位沒有注意到數(shù)字檔案信息長(zhǎng)期可讀性的嚴(yán)重威脅,此項(xiàng)活動(dòng)并沒有得到足夠的重視,只有22.7%的樣本單位采取了主動(dòng)應(yīng)對(duì)技術(shù)措施。主動(dòng)應(yīng)對(duì)的具體情況如下:定期對(duì)光盤、磁帶等數(shù)字介質(zhì)備份進(jìn)行可讀性檢查的樣本單位比例為15.8%,采取遷移方式的樣本單位比例為11.2%,保存主要的數(shù)字檔案信息讀取所需的軟硬件系統(tǒng)的樣本單位比例為5.8%,將特殊格式的數(shù)字檔案轉(zhuǎn)換為通用格式的數(shù)字檔案的比例為4.88%,將此項(xiàng)工作承包給第三方的比例為3.6%,采取XML封裝形式的比例是2.9%,采用仿真方式的比例是0.7%。
8.數(shù)字檔案信息長(zhǎng)期保存的困難多樣。從樣本單位數(shù)字檔案信息長(zhǎng)期保存工作中出現(xiàn)的困難看,領(lǐng)導(dǎo)不重視是數(shù)字檔案信息長(zhǎng)期保存工作中最大的問題,高達(dá)42.8%的樣本單位表示贊同,有36%的樣本單位經(jīng)費(fèi)投入不足,34.9%的樣本單位缺少必要的設(shè)備和技術(shù),30.9%的樣本單位認(rèn)為需要加強(qiáng)人力資源建設(shè),有8.6%的樣本單位認(rèn)為保存政策缺乏或不穩(wěn)定是存在的困難。
9.數(shù)字檔案信息的長(zhǎng)期可讀取性不容樂觀。調(diào)研結(jié)果表明,樣本單位數(shù)字檔案信息長(zhǎng)期可讀取的狀況并不理想,僅42.1%的樣本單位表示數(shù)據(jù)完好無損:有26.3%的樣本單位出現(xiàn)了數(shù)字檔案信息不能讀取的現(xiàn)象,其中,19.1%的樣本單位出現(xiàn)了載體不能讀取的現(xiàn)象,11.2%的樣本單位出現(xiàn)了數(shù)據(jù)格式不能讀取的現(xiàn)象:31.6%的樣本單位表示不清楚是否出現(xiàn)了數(shù)字檔案信息不能讀取的現(xiàn)象。
三、研究結(jié)論
根據(jù)以上調(diào)查數(shù)據(jù)可知,我國(guó)檔案形成機(jī)構(gòu)的數(shù)字檔案信息長(zhǎng)期保存工作整體情況比較嚴(yán)峻,還存在很多需要解決的問題。為了更好地解決實(shí)際中的問題,筆者針對(duì)檔案形成機(jī)構(gòu)如何做好數(shù)字檔案信息長(zhǎng)期保存工作提出以下幾點(diǎn)建議。
(一)加快檔案信息化建設(shè)
按照我國(guó)檔案工作“存量數(shù)字化、增量電子化”的信息化戰(zhàn)略,各機(jī)構(gòu)首先應(yīng)根據(jù)《紙質(zhì)檔案數(shù)字化規(guī)范》(DAT31-2017)的相關(guān)要求,加快紙質(zhì)檔案數(shù)字化;其次應(yīng)根據(jù)《企業(yè)數(shù)字檔案館(室)建設(shè)指南》《數(shù)字檔案室建設(shè)指南》的相關(guān)要求建設(shè)好數(shù)字檔案館(室)、數(shù)字檔案管理系統(tǒng),與機(jī)構(gòu)辦公系統(tǒng)、業(yè)務(wù)系統(tǒng)對(duì)接,實(shí)現(xiàn)原生數(shù)字檔案的全生命周期管理,以解決數(shù)字檔案信息長(zhǎng)期保存前端數(shù)據(jù)質(zhì)量控制問題。
(二)規(guī)范管理,加強(qiáng)宣傳
機(jī)構(gòu)的數(shù)字檔案信息長(zhǎng)期保存工作涉及大量的人、財(cái)、物,需要多個(gè)部門的通力配合,規(guī)范的管理和統(tǒng)一的理念必不可少。為了更好地協(xié)調(diào)長(zhǎng)期保存工作,各機(jī)構(gòu)需要制定專屬的“數(shù)字檔案信息長(zhǎng)期保存規(guī)劃”或者“數(shù)字檔案信息長(zhǎng)期保存管理辦法”,內(nèi)容應(yīng)該包括長(zhǎng)期保存的目的、本機(jī)構(gòu)及內(nèi)部各部門的職責(zé)、標(biāo)準(zhǔn)應(yīng)用、技術(shù)策略、數(shù)據(jù)備份、人員培訓(xùn)、經(jīng)費(fèi)保障、應(yīng)急預(yù)案、定期演練等;同時(shí),積極利用報(bào)告、會(huì)議、展板、微信平臺(tái)、內(nèi)部交流等多種形式向領(lǐng)導(dǎo)層與內(nèi)部員工宣傳數(shù)字檔案信息長(zhǎng)期保存工作,培養(yǎng)長(zhǎng)期保存的理念和意識(shí),以解決責(zé)任不明、意識(shí)不強(qiáng)、管理不善、政策不穩(wěn)定的問題。
(三)提高標(biāo)準(zhǔn)、指南的應(yīng)用程度
根據(jù)實(shí)踐的需要,目前國(guó)內(nèi)外相關(guān)組織已經(jīng)出臺(tái)了一批專門指導(dǎo)長(zhǎng)期保存工作的國(guó)際(外)標(biāo)準(zhǔn)、國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)和指南,初步形成了關(guān)于系統(tǒng)構(gòu)建、元數(shù)據(jù)、專用格式等內(nèi)容可用的標(biāo)準(zhǔn)、指南體系,如《開放檔案信息系統(tǒng)》(ISO14721-2003)、《基于文件的電子信息的長(zhǎng)期保存》(GB/Z 23283-2009)、《版式電子文件長(zhǎng)期保存格式需求》( DAT47-2009)等。各機(jī)構(gòu)應(yīng)積極學(xué)習(xí)、選擇適用的標(biāo)準(zhǔn)、指南,提高長(zhǎng)期保存工作的規(guī)范性、安全性,以解決系統(tǒng)功能缺乏、元數(shù)據(jù)方案不合理、數(shù)據(jù)格式多樣等問題。
(四)主動(dòng)采用專門技術(shù)
各種研究表明,作為數(shù)字檔案的載體,包括光盤、磁盤、磁帶等,其耐久性普遍比紙張相差較遠(yuǎn),同時(shí),技術(shù)過時(shí)被大部分館藏管理者看作對(duì)數(shù)字存儲(chǔ)的最大威脅。應(yīng)對(duì)這些技術(shù)難題的常用方法包括遷移、仿真、標(biāo)準(zhǔn)化、保存軟硬件等。各機(jī)構(gòu)應(yīng)根據(jù)數(shù)字檔案格式類型、存儲(chǔ)量的多少制定本單位專用的技術(shù)策略,包括技術(shù)方案、存儲(chǔ)載體、技術(shù)管理等內(nèi)容,以解決載體老化與技術(shù)過時(shí)問題。
(五)加強(qiáng)人力資源建設(shè)
長(zhǎng)期保存工作內(nèi)容涉及文件檔案管理、硬件工程、軟件設(shè)計(jì)等專業(yè)領(lǐng)域的知識(shí),需要大量應(yīng)用型、復(fù)合型人才,而目前我國(guó)的高等教育并不能成規(guī)模地培育這種專門人才,因此,各機(jī)構(gòu)首先應(yīng)該積極引進(jìn)具有相關(guān)知識(shí)背景的人才,其次應(yīng)該加大對(duì)工作人員的專業(yè)培訓(xùn),更新知識(shí)結(jié)構(gòu),以解決專業(yè)人員缺乏、知識(shí)結(jié)構(gòu)不完整的問題。
(六)增加資金投入
數(shù)字檔案信息長(zhǎng)期保存的標(biāo)準(zhǔn)采用、技術(shù)投入、規(guī)范管理、制度宣傳、人才培養(yǎng)等內(nèi)容都需要資金支持,而且這個(gè)過程是伴隨長(zhǎng)期保存始終的,因此,各機(jī)構(gòu)應(yīng)根據(jù)實(shí)際需求做好資金預(yù)算,做到??顚S谩⒊掷m(xù)支持,以解決資金不足的問題。
(七)需要政府發(fā)揮引領(lǐng)、促進(jìn)作用
數(shù)字檔案信息長(zhǎng)期保存是社會(huì)性問題,需要靠政府引領(lǐng)、促進(jìn),需要依靠全社會(huì)的力量來解決。因此,政府必須整合各種社會(huì)力量,投入到數(shù)字檔案信息長(zhǎng)期保存工作中,解決基礎(chǔ)性、復(fù)雜性、平臺(tái)性問題,營(yíng)造好社會(huì)環(huán)境,具體包括:通過正反面案例大力宣傳長(zhǎng)期保存的作用和危害,提高整體社會(huì)意識(shí);通過相關(guān)法律法規(guī),明確數(shù)字檔案信息全生命周期中各相關(guān)主體的責(zé)任和權(quán)利:制定簡(jiǎn)單實(shí)用的長(zhǎng)期保存標(biāo)準(zhǔn)和指南:引導(dǎo)軟硬件提供商研發(fā)物美價(jià)廉的具備長(zhǎng)期保存功能的系統(tǒng)或者模塊:幫助相關(guān)教學(xué)、研究機(jī)構(gòu)建立具備指導(dǎo)、交流、培訓(xùn)等功能于一體的長(zhǎng)期保存工作平臺(tái)等,以解決檔案形成機(jī)構(gòu)數(shù)字檔案信息長(zhǎng)期保存意識(shí)不足、責(zé)任不明、標(biāo)準(zhǔn)缺失、成本高企、學(xué)習(xí)無門等問題。
*本文為國(guó)家社科基金項(xiàng)目“我國(guó)數(shù)字檔案信息長(zhǎng)期保存的策略體系研究(批準(zhǔn)號(hào):13CTQ051)”的研究成果之一。
作者單位:北京聯(lián)合大學(xué)應(yīng)用文理學(xué)院