□張健
為維護(hù)歸檔電子文件①(以下稱電子文件)的真實(shí)性②,保證電子文件法律憑證價(jià)值的實(shí)現(xiàn),需要行之有效的電子文件真實(shí)性驗(yàn)證手段和糾錯(cuò)方法。目前廣泛采用的電子文件雙套制管理方法可以部分解決這一問(wèn)題,即采用電子文件的紙質(zhì)版本驗(yàn)證其真實(shí)性和糾錯(cuò)。但同時(shí)也應(yīng)當(dāng)注意到,雙套制存在諸多局限,尚無(wú)法從根本上解決電子文件的真實(shí)性保障問(wèn)題。因此必須盡快從電子文件的本質(zhì)特征出發(fā),研究新的技術(shù)和管理方法,徹底解決電子文件真實(shí)性保障問(wèn)題。
電子文件生成、傳輸、存儲(chǔ)的環(huán)境是計(jì)算機(jī)網(wǎng)絡(luò),表現(xiàn)形式是由“0”和“1”構(gòu)成的比特信息流。與紙質(zhì)文件相比,電子文件具有信息與載體的可分離性、信息的易刪改性、信息的流動(dòng)性、信息的不穩(wěn)定性、信息難以維持永久存取等新特點(diǎn)。這些特點(diǎn)從利用角度看很多是優(yōu)點(diǎn),它們能通過(guò)網(wǎng)絡(luò)極大地方便對(duì)電子文件的利用;但從保管的角度看,卻對(duì)維護(hù)電子文件的真實(shí)性相當(dāng)不利。而傳統(tǒng)的紙質(zhì)文件不易刪改的特性卻正好可以彌補(bǔ)電子文件的這些不利因素。因此無(wú)論是檔案理論界還是實(shí)踐工作者都不約而同地想到了電子文件的“雙套制”,即在電子文件形成后的適當(dāng)階段,以某種形式(主要是打印)將電子文件固化到傳統(tǒng)存儲(chǔ)介質(zhì)(主要是紙張)上。當(dāng)前普遍認(rèn)為,雙套制融合了紙質(zhì)文件和電子文件各自的優(yōu)勢(shì),既可發(fā)揮高效存取、傳輸和檢索功能,又可用來(lái)驗(yàn)證電子文件的真實(shí)性,保障電子文件法律憑證價(jià)值作用的實(shí)現(xiàn)。
1、紙質(zhì)版本自身的真實(shí)性無(wú)法保證
雙套制要求對(duì)電子文件制作紙質(zhì)版本。當(dāng)前許多辦公自動(dòng)化系統(tǒng)或者文檔一體化系統(tǒng)提供的功能是在生成電子文件的同時(shí)打印出一份紙質(zhì)版本。依照雙套制一般要求,這份紙質(zhì)版本將用來(lái)存檔,用作將來(lái)的查考、憑證等作用。但這樣的方式卻沒(méi)有考慮到文件在其生命周期中,尤其是在辦理過(guò)程中會(huì)留下各種各樣的痕跡,例如領(lǐng)導(dǎo)的批示、簽字等。這些重要的痕跡內(nèi)容就沒(méi)有在上述紙質(zhì)版本中體現(xiàn)出來(lái),該紙質(zhì)版本的真實(shí)性得不到保證。
另一種方式是在電子文件最終辦理結(jié)束后再打印出紙質(zhì)版本,但也會(huì)因?yàn)殡娮游募谛问缴喜煌诩堎|(zhì)文件,領(lǐng)導(dǎo)的簽批等處理痕跡的表現(xiàn)方式也與紙質(zhì)文件有很大差別。以Word文件為例,當(dāng)領(lǐng)導(dǎo)需要強(qiáng)調(diào)某一段文字時(shí),大多使用顏色筆對(duì)文字進(jìn)行著色處理;當(dāng)需要對(duì)內(nèi)容進(jìn)行評(píng)述時(shí),將會(huì)使用“批注”功能。類似這些電子文件常用的方式,各項(xiàng)信息內(nèi)容間的交叉、引用、注釋、評(píng)閱等內(nèi)在聯(lián)系在紙質(zhì)版本打印時(shí)將難以全面完整地表現(xiàn)出來(lái),從而造成相關(guān)信息的缺失,進(jìn)而影響紙質(zhì)版本的真實(shí)性。
由于無(wú)法完整地復(fù)制電子文件最終形態(tài),上述紙質(zhì)版本在本質(zhì)上并不是電子文件的真正副本,在未來(lái)進(jìn)行查考憑證等工作中實(shí)際能起到的作用將是有限的。
2、多媒體類電子文件無(wú)法制作紙質(zhì)版本
電子文件帶來(lái)的一個(gè)很大的改變就是能夠擺脫過(guò)去紙張文件在記錄信息時(shí)的單調(diào)與枯燥。除了政府或企事業(yè)單位日常工作中使用的普通公文類電子文件,當(dāng)前越來(lái)越多需要處理的是基于照片、聲音、視頻等動(dòng)態(tài)的、多媒體類的電子文件,諸如政府會(huì)議錄音、公務(wù)活動(dòng)現(xiàn)場(chǎng)錄像等等。但目前基于印刷技術(shù)的紙張文件記錄技術(shù)只能在紙張上表現(xiàn)文字或靜態(tài)圖形圖像信息,對(duì)于聲音或者視頻類電子文件還沒(méi)有可行的方法將其完整地記錄和表現(xiàn)在紙張上。就目前技術(shù)的發(fā)展情況看,紙張印刷技術(shù)將很難用來(lái)直接記錄聲音和視頻信息,因此當(dāng)前的雙套制將難以運(yùn)用于對(duì)這些多媒體類型電子文件的保管。如果不采用新的方式方法解決這一問(wèn)題,那么將造成人類社會(huì)活動(dòng)的記錄缺失。
3、電子文件與紙質(zhì)版本的驗(yàn)證比對(duì)極為困難
雙套制中紙質(zhì)版本存在的根本目的是用來(lái)保證電子文件的真實(shí)性,以使其具有查考憑證等法律效力。如果需要用紙質(zhì)版本來(lái)驗(yàn)證電子文件是否被篡改,就需要進(jìn)行兩個(gè)版本間的一致性檢查。檢查的唯一方法是從庫(kù)房中調(diào)出對(duì)應(yīng)的紙質(zhì)版本與電子文件進(jìn)行比對(duì)。這一過(guò)程描述起來(lái)容易,真正做起來(lái)將可能相當(dāng)困難,甚至無(wú)法完成。
如果該電子文件僅僅是少量的文本或者表格數(shù)據(jù),那么憑借人的肉眼就能進(jìn)行逐字逐句的比較核對(duì)。但是當(dāng)電子文件的內(nèi)容很多時(shí),這種比對(duì)將變得困難。由于紙質(zhì)版本一般只有唯一的一份,因此實(shí)際比對(duì)工作很可能不允許普通用戶親自進(jìn)行,而是由工作人員操作。這樣枯燥的屏幕與紙張間的比對(duì)工作將十分困難和低效率。
當(dāng)電子文件的內(nèi)容是圖片時(shí),這種比對(duì)幾乎無(wú)法由人來(lái)完成。首先圖片的內(nèi)容可能相當(dāng)復(fù)雜,人的肉眼難以發(fā)現(xiàn)其間的細(xì)小差別;其次如果是彩色圖片,由于顯示器的成像原理與紙張打印的套色方式的差別,使得紙張版本很難真實(shí)還原電子文件的色彩;另外,不同的顯示器顯示的色溫和色域都有差別,不同的人對(duì)色彩的感知能力也有差別,這些因素將進(jìn)一步加大的圖片的比對(duì)難度。
當(dāng)電子文件的內(nèi)容是聲音和視頻時(shí),由于無(wú)法對(duì)其制作紙質(zhì)版本,因此不存在比對(duì)問(wèn)題。
由上述情況看,使用雙套制來(lái)維護(hù)電子文件的真實(shí)性的實(shí)際意義將值得進(jìn)一步思考。如果僅僅是制作了大量的紙質(zhì)版本,卻又無(wú)法及時(shí)有效地提供驗(yàn)證比對(duì),用以證明電子文件的真實(shí)性,那么這種雙套制在消耗大量的人力、物力和財(cái)力后,實(shí)際能夠起到的作用將是相當(dāng)有限的。
4、電子文件的紙質(zhì)版本制作與保管成本巨大
目前最常見的制作電子文件紙質(zhì)版本的方法是使用激光打印機(jī)或者噴墨打印機(jī)將電子文件打印到紙張上。通過(guò)統(tǒng)計(jì),激光打印機(jī)一般打印一張黑白字跡的A4紙文件的成本約為0.1~0.3元,而彩色噴墨打印機(jī)打印同樣大小的彩色文件成本約為0.8~1.5元。如果使用專用照片打印紙打印彩色照片,則成本約為5.0元以上。
盡管某個(gè)具體部門每天處理的電子文件數(shù)量有限,需要打印的內(nèi)容不多,但全國(guó)各級(jí)政府部門、各企業(yè)事業(yè)單位每年處理的電子文件數(shù)量是一個(gè)天文數(shù)字。全部實(shí)施雙套制每年需要消耗的紙張和其他相關(guān)成本將是一筆巨大的經(jīng)費(fèi)支出。未來(lái)隨著社會(huì)政治經(jīng)濟(jì)文化的發(fā)展,更多的電子文件將會(huì)產(chǎn)生。為實(shí)現(xiàn)雙套制必將消耗更多的優(yōu)質(zhì)紙張,也就意味著大量造紙用木材的砍伐,大量造紙污染的產(chǎn)生,這其中的環(huán)境成本不可計(jì)數(shù)。
雙套制中的電子文件的紙質(zhì)版本,其保管、維護(hù)、利用與傳統(tǒng)文件(檔案)沒(méi)有區(qū)別。同樣需要專用的檔案庫(kù)房、檔案架、檔案袋、檔案盒等裝具,需要保證庫(kù)房的溫度、濕度、光照等條件穩(wěn)定,需要防潮、防霉、防火、防蟲等等。對(duì)其查詢檢索同樣需要一套專用的管理信息系統(tǒng)軟件,同樣需要配備具有專業(yè)知識(shí)和技能的管理人員。這些成本將會(huì)隨著時(shí)間的積累不斷增長(zhǎng)。電子文件帶來(lái)的便利和迅捷等優(yōu)點(diǎn),在雙套制龐大的紙質(zhì)版本保管利用成本面前將會(huì)越發(fā)顯得不那么明顯。
雙套制在帶來(lái)兩種文件形態(tài)相輔相成完成文件的法律憑證的實(shí)現(xiàn)的同時(shí),帶來(lái)的是幾乎雙倍的工作量和相關(guān)財(cái)力、物力成本。必須分別培養(yǎng)和訓(xùn)練熟悉電子文件保管技術(shù)的工作人員,以及熟悉了解傳統(tǒng)紙張文件載體保管技術(shù)的工作人員,造成兩套班子兩批人員。即使未來(lái)的檔案工作人員綜合素質(zhì)不斷提高,成為既熟悉電子文件又了解紙質(zhì)文件的復(fù)合型人才,他們的培養(yǎng)和訓(xùn)練以及工資成本也將大大增加。
電子文件備份就是將電子文件以某種方式另外復(fù)制留存一份或多份,以便在原文件遭受破壞(被篡改、損毀、丟失等)的情況下,能夠利用備份文件繼續(xù)開展工作。對(duì)于一個(gè)相當(dāng)規(guī)模的檔案館電子文件館藏而言,完全自動(dòng)化地進(jìn)行備份工作是保障電子文件安全的基本要求之一。從信息技術(shù)的角度而言,這種自動(dòng)化的計(jì)算機(jī)數(shù)據(jù)(電子文件本質(zhì)上就是計(jì)算機(jī)數(shù)據(jù))備份技術(shù)已經(jīng)相當(dāng)成熟,應(yīng)用在電子文件領(lǐng)域不存在更多的技術(shù)困難。
1、散列函數(shù)
散列函數(shù)是將任意輸入計(jì)算機(jī)的數(shù)據(jù)(例如電子文件)轉(zhuǎn)化成為固定長(zhǎng)度的輸出串(散列值)的數(shù)學(xué)函數(shù)。散列函數(shù)可以做到輸入數(shù)據(jù)的任意變化(哪怕只有1個(gè)字節(jié)的差異)都將導(dǎo)致散列值的明顯不同,因此散列值也被稱為該輸入數(shù)據(jù)的“特征信息”?,F(xiàn)實(shí)應(yīng)用中的散列函數(shù)有很多種,包括 MD5、SHA256、SHA512、MAC等。優(yōu)秀的散列函數(shù)滿足以下條件:①輸入數(shù)據(jù)的長(zhǎng)度是任意的;②輸出數(shù)據(jù)(散列值)的長(zhǎng)度是固定的,根據(jù)具體函數(shù)的不同,現(xiàn)在一般為32~128個(gè)字符長(zhǎng)度;③散列函數(shù)的數(shù)學(xué)運(yùn)算速度極快;④輸入數(shù)據(jù)與輸出數(shù)據(jù)唯一對(duì)應(yīng)。
2、二維碼技術(shù)
二維碼技術(shù)是在紙張等平面媒體上印刷黑白相間大小不同的矩形圖案組合,將信息記錄到長(zhǎng)和寬兩個(gè)維度上(如圖1所示),并可通過(guò)掃描槍方便地讀取并還原所記錄信息。
二維碼具有以下特點(diǎn):首先是信息容量大。在常規(guī)二維碼的印刷面積上可以存儲(chǔ)上千個(gè)的英文字母或數(shù)字。如果需要,還可以進(jìn)一步擴(kuò)大二維碼的印刷面積,則信息容量可以繼續(xù)擴(kuò)大。其次是解碼可靠性高。二維碼解碼時(shí)的誤碼率在千萬(wàn)分之一左右,而且即使二維碼遭到了部分污損,也能正確進(jìn)行解碼。第三是制作成本低。事實(shí)上只需一套二維碼編碼軟件和普通打印機(jī)就可以大批量低成本地制作二維碼。
任何電子文件,無(wú)論是文本、照片、聲音或者視頻,在計(jì)算機(jī)中都統(tǒng)一表現(xiàn)為由“0”和“1”構(gòu)成的計(jì)算機(jī)數(shù)據(jù)。從這個(gè)統(tǒng)一的視角對(duì)所有類型的電子文件進(jìn)行特征信息的提取固化需要如下具體步驟:①將電子文件輸入散列函數(shù)計(jì)算得出一個(gè)固定長(zhǎng)度的特征信息字符串;②將此特征信息輸入二維碼軟件計(jì)算得到二維碼;③將該二維碼打印到紙張上最終固化。以上三步在現(xiàn)有條件下可以由計(jì)算機(jī)系統(tǒng)自動(dòng)進(jìn)行,既可以保證電子文件特征信息的提取與固化速度,也能最大限度地保證最終結(jié)果的準(zhǔn)確性。見圖2。
由于電子文件的特征信息以二維碼形式印刷在紙張上,這種常見載體已經(jīng)在人類社會(huì)中分別使用了千百年。人類對(duì)它的物理、化學(xué)、生物等特性已經(jīng)有了相當(dāng)充分的研究。檔案工作者對(duì)如何有效的保管這類載體擁有豐富的經(jīng)驗(yàn),同時(shí)各級(jí)各類檔案館、檔案室目前也擁有良好的庫(kù)房保管條件,因此對(duì)電子文件特征信息的保管是有保證的。
為驗(yàn)證電子文件的真實(shí)性,現(xiàn)行雙套制需要人工方式用肉眼查看電子文件與紙質(zhì)版本內(nèi)容的異同。而使用經(jīng)固化的電子文件特征信息驗(yàn)證電子文件真實(shí)性時(shí)只需以下步驟:①重新計(jì)算出電子文件的特征信息a;②用掃描槍讀取紙張上的二維碼,解碼得到特征信息b;③如果a=b,則電子文件的真實(shí)性得以確認(rèn);④如果a≠b,則該電子文件真實(shí)性已被破壞,需要使用備份電子文件對(duì)其覆蓋糾錯(cuò)。上述步驟可由計(jì)算機(jī)系統(tǒng)自動(dòng)進(jìn)行,能夠避免在比對(duì)過(guò)程中人為因素的干擾,其比對(duì)效率和準(zhǔn)確性都能得以保證。見圖3。
1、制作成本低
對(duì)于電子文件備份環(huán)節(jié),由于大容量存儲(chǔ)技術(shù)的成熟,電子文件的備份已經(jīng)沒(méi)有存儲(chǔ)載體容量大小的限制。而對(duì)電子文件采用散列算法提取其特征信息,無(wú)論電子文件的長(zhǎng)度是幾十個(gè)字的短篇新聞稿,亦或是數(shù)小時(shí)長(zhǎng)度的視頻文件,得到的特征信息都是固定長(zhǎng)度的字符串。以MD5散列函數(shù)為例,由其計(jì)算出來(lái)的電子文件的特征信息均是類似于“c4ca4238a0b923820dcc509a6f75849b”這樣長(zhǎng)度固定為32的字符串。將此散列值轉(zhuǎn)化為二維碼并打印固化到紙張上,僅需要約10mm×10mm大小的面積。一張普通A4幅面紙張正反兩面可以有效的保存約500個(gè)任意長(zhǎng)度電子文件的二維碼。這將比現(xiàn)行完整打印電子文件的方式平均節(jié)約2500倍的紙張打印量,由此節(jié)省的打印成本、時(shí)間成本和人力成本將相當(dāng)可觀。
2、保管成本低
采用二維碼制作固化電子文件特征信息,如果選用紙張作為印刷材料,則紙張消耗量如上面計(jì)算為現(xiàn)行雙套制的1/2500。由于縮微膠片的存儲(chǔ)密度是紙張存儲(chǔ)密度的約300倍,因此如果選用縮微膠片制作固化電子文件特征信息,庫(kù)房存儲(chǔ)空間的消耗將進(jìn)一步降低,達(dá)到現(xiàn)行雙套制的約1/750000。如此將節(jié)約大量的庫(kù)房建筑空間、水電費(fèi)用、人員費(fèi)用,總體保管成本大大降低。同時(shí)由于總量極大減少,在保管上將更加方便快捷,容易實(shí)現(xiàn)各種功能需求。
3、利用快捷準(zhǔn)確
使用專用掃描槍或者普通計(jì)算機(jī)攝像頭即可快速讀取二維碼,并由軟件程序進(jìn)行識(shí)讀,解碼為電子文件特征信息,同時(shí)計(jì)算機(jī)使用散列函數(shù)快速重新計(jì)算出電子文件的特征信息,并將兩者相比對(duì)即可驗(yàn)證該電子文件的真實(shí)性。如果使用縮微膠片,可以使用專用的縮微膠片掃描儀更加迅速簡(jiǎn)便地取得保存的電子文件特征信息。當(dāng)發(fā)現(xiàn)真實(shí)性遭到破壞,計(jì)算機(jī)系統(tǒng)可以自動(dòng)讀取備份電子文件完成糾錯(cuò)過(guò)程。上述比對(duì)和糾錯(cuò)過(guò)程完全自動(dòng)化進(jìn)行,人為因素微乎其微。整個(gè)過(guò)程可以由電子文件(數(shù)字檔案)的利用者自行操作相關(guān)計(jì)算機(jī)設(shè)備進(jìn)行。
現(xiàn)行電子文件雙套制在解決電子文件真實(shí)性驗(yàn)證和糾錯(cuò)問(wèn)題上存在的較多的缺陷,應(yīng)當(dāng)引起檔案理論界和實(shí)踐工作者的高度重視。本文通過(guò)對(duì)二維碼技術(shù)和散列函數(shù)等技術(shù)整合,提出基于特征信息的電子文件真實(shí)性保障方法構(gòu)想,為維護(hù)電子文件的真實(shí)性以及法律憑證功能的實(shí)現(xiàn)提供了低成本易實(shí)現(xiàn)且具有高可靠性的技術(shù)解決方案。
注釋:
①本文中的電子文件指包含文件內(nèi)容、結(jié)構(gòu)信息和背景信息元數(shù)據(jù)的電子文件。
②國(guó)內(nèi)外學(xué)者對(duì)于電子文件特性有著眾多不同的表述。本文認(rèn)為不完整的電子文件是不完全真實(shí)的,因此電子文件的真實(shí)性包含其完整性。
①王喜鳳:《檔案“雙套制”管理探索》,《四川檔案》,2009年第1期。
②謝俊喜等:《基于數(shù)學(xué)形態(tài)學(xué)的二維條碼識(shí)別》,《計(jì)算機(jī)工程與科學(xué)》,2009年第2期。
③張燕蕾:《二維碼技術(shù)及其在數(shù)字圖書館中的應(yīng)用探析》,《現(xiàn)代情報(bào)》,2007年第10期。
④李鴻強(qiáng)等:《單向散列函數(shù)SHA-512的優(yōu)化設(shè)計(jì)》,《計(jì)算機(jī)工程》,2007年第7期。
⑤唐三平:《基于散列函數(shù)的數(shù)字簽名》,《信息網(wǎng)絡(luò)安全》,2005年第2期。
⑥劉嬌蛟、晉建秀:《基于單向散列函數(shù)的雙向身份鑒別》,《信息技術(shù)》,2004年第7期。