李春偉
摘要:企業(yè)在業(yè)務(wù)系統(tǒng)立項建設(shè)時,大多沒有考慮歸檔需求,面對數(shù)量眾多、部署各異、功能復(fù)雜的各類業(yè)務(wù)系統(tǒng),歸檔接口開發(fā)和運維面臨較大的技術(shù)困難、成本壓力。通過建立規(guī)范、統(tǒng)一的通用歸檔接口方案,統(tǒng)一歸檔接口建設(shè)標(biāo)準(zhǔn),可以有效降低業(yè)務(wù)系統(tǒng)歸檔接口開發(fā)難度與開發(fā)成本,促進企業(yè)數(shù)字檔案館(室)建設(shè)。
關(guān)鍵詞:數(shù)字檔案館(室) 歸檔接口 歸檔信息包
進入數(shù)字經(jīng)濟時代,企業(yè)各類業(yè)務(wù)高度數(shù)字化、智能化,形成和積累的海量電子文件需要歸檔。由于企業(yè)在業(yè)務(wù)系統(tǒng)立項建設(shè)時,大多沒有考慮歸檔需求,面對數(shù)量眾多、部署各異、功能復(fù)雜的各類業(yè)務(wù)系統(tǒng),歸檔接口開發(fā)和運維面臨較大的技術(shù)困難、成本壓力。企業(yè)數(shù)字檔案館(室)亟須建立規(guī)范、統(tǒng)一的通用歸檔接口方案,以滿足當(dāng)前歸檔需求。
自2009年以來,國家先后出臺了一系列電子文件歸檔與電子檔案管理的規(guī)范標(biāo)準(zhǔn),內(nèi)容涵蓋電子文件元數(shù)據(jù)方案、電子文件封裝、電子檔案四性檢測、業(yè)務(wù)系統(tǒng)歸檔接口功能要求等內(nèi)容。由于涉及較多的電子文件、信息技術(shù)等跨學(xué)科專業(yè)知識,缺乏具體、通用、先進的技術(shù)支撐,企業(yè)數(shù)字檔案館(室)在業(yè)務(wù)系統(tǒng)歸檔接口開發(fā)過程中,存在較大的困難和障礙。歸檔接口開發(fā)主要存在以下問題。
(一)歸檔信息不完整
完整的歸檔信息應(yīng)包括電子文件及其元數(shù)據(jù),其中元數(shù)據(jù)應(yīng)包括文件實體塊、機構(gòu)人員實體塊、業(yè)務(wù)實體塊等內(nèi)容。部分單位的歸檔信息不規(guī)范、不完整,主要表現(xiàn)在以下幾個方面。
1.電子文件元數(shù)據(jù)不齊全,業(yè)務(wù)系統(tǒng)僅捕獲文件實體塊的內(nèi)容描述元數(shù)據(jù),沒有捕獲文件實體塊的其他元數(shù)據(jù),以及機構(gòu)人員實體元數(shù)據(jù)、業(yè)務(wù)實體元數(shù)據(jù)等內(nèi)容。
2.在數(shù)據(jù)傳輸過程中,由于網(wǎng)絡(luò)波動、系統(tǒng)運維、計算機資源不足、服務(wù)器重啟等意外事件影響,易出現(xiàn)數(shù)據(jù)丟包、傳輸中斷等情況,導(dǎo)致條目和電子文件原文傳輸不全或傳輸失敗。而且受限于企業(yè)內(nèi)網(wǎng)帶寬,超大電子文件無法在線歸檔。
3.由于綜合檔案管理系統(tǒng)著錄字段數(shù)量限制,檔案條目僅記錄了主要的文件實體元數(shù)據(jù),沒有記錄電子文件在收集、整理和歸檔過程中形成的各類元數(shù)據(jù),造成歸檔信息不完整。
(二)歸檔接口功能不完善
部分單位受限于成本、技術(shù)等原因,業(yè)務(wù)系統(tǒng)歸檔接口功能缺失或存在缺陷,比如歸檔接口沒有四性檢測功能,無法檢測歸檔電子文件及其元數(shù)據(jù)的完整性,歸檔后易出現(xiàn)條目元數(shù)據(jù)和原文不規(guī)范、缺失等情況,人工處理效率很低;歸檔接口沒有自動查重功能,易出現(xiàn)重復(fù)歸檔;歸檔接口沒有格式轉(zhuǎn)換功能,部分歸檔的電子文件格式?jīng)]有轉(zhuǎn)換為通用格式;歸檔接口沒有斷點續(xù)傳功能,無法確保歸檔信息包的完整性;歸檔數(shù)據(jù)為明文傳輸、存儲,沒有加密,存在安全漏洞。
(三)歸檔接口無法靈活擴展
部分單位在開發(fā)歸檔接口時,沒有考慮業(yè)務(wù)系統(tǒng)升級、歸檔范圍變化、檔案管理系統(tǒng)升級、檔案門類模板變化等系統(tǒng)變更因素,或者進行了固化處理,如只支持固定的元數(shù)據(jù)、固定的歸檔范圍、固定的版式文件等。出現(xiàn)系統(tǒng)變更時,歸檔接口的可擴展性差,需要對歸檔接口重新開發(fā),二次開發(fā)成本較高。
對于企業(yè)而言,由于各類業(yè)務(wù)系統(tǒng)數(shù)量眾多、部署各異、功能復(fù)雜,歸檔接口開發(fā)需要考慮規(guī)范化、標(biāo)準(zhǔn)化,制訂規(guī)范、統(tǒng)一的歸檔接口方案,統(tǒng)一歸檔接口建設(shè)標(biāo)準(zhǔn),無疑成為首選。同時,為降低業(yè)務(wù)系統(tǒng)歸檔功能開發(fā)的技術(shù)難度與開發(fā)成本,避免四性檢測不合格的電子文件進入綜合檔案管理系統(tǒng),有必要單獨建設(shè)獨立的歸檔接口平臺,在業(yè)務(wù)系統(tǒng)與綜合檔案管理系統(tǒng)之間搭建一座“橋梁”,專門用于電子文件在線歸檔的預(yù)處理。歸檔接口設(shè)計方案如圖1所示。
(一)歸檔接口平臺主要功能
歸檔接口平臺被定位為電子文件在線歸檔的預(yù)處理平臺,主要包括:元數(shù)據(jù)管理、四性檢測、格式轉(zhuǎn)換、智慧編號、SDK(軟件開發(fā)工具包)管理、中間庫管理等功能。該平臺的主要作用在于:將元數(shù)據(jù)方案動態(tài)封裝到SDK并集成到前端業(yè)務(wù)系統(tǒng)中,簡化業(yè)務(wù)系統(tǒng)歸檔功能開發(fā)工作,實現(xiàn)企業(yè)標(biāo)準(zhǔn)化歸檔信息包結(jié)構(gòu);將電子文件歸檔四性檢測前移到歸檔接口平臺,避免將檢測不合格的數(shù)據(jù)歸檔到綜合檔案管理系統(tǒng)。
1.元數(shù)據(jù)管理。將企業(yè)各門類電子檔案元數(shù)據(jù)方案分別配置到歸檔接口平臺,定義電子文件元數(shù)據(jù)結(jié)構(gòu),配置業(yè)務(wù)系統(tǒng)與綜合檔案管理系統(tǒng)各門類檔案的字段映射關(guān)系,從而實現(xiàn)電子文件元數(shù)據(jù)方案的集中、統(tǒng)一、規(guī)范管理。
2.四性檢測。將歸檔環(huán)節(jié)四性檢測前移到歸檔接口平臺,只有四性檢測通過的電子文件方可被傳輸?shù)骄C合檔案管理系統(tǒng)并創(chuàng)建條目、掛接電子文件,四性檢測不通過的電子文件將被拒絕傳輸?shù)骄C合檔案管理系統(tǒng),從而避免在綜合檔案管理系統(tǒng)人工排查歸檔失敗數(shù)據(jù)。
3.格式轉(zhuǎn)換。由于部分業(yè)務(wù)系統(tǒng)不具備格式轉(zhuǎn)換功能,可以在歸檔接口平臺配置格式轉(zhuǎn)換策略,將業(yè)務(wù)系統(tǒng)歸檔電子文件自動轉(zhuǎn)換為通用格式(比如PDF格式、JPG格式等),并與原始格式電子文件同時保存。
4.智慧編號。歸檔接口平臺可以自動檢測綜合檔案管理系統(tǒng)已編制檔號的各類數(shù)據(jù),為待歸檔的電子文件自動編制檔號,從而減輕電子文件編制檔號工作量,提高工作效率,提高編號準(zhǔn)確性,避免人工編號錯誤。
5.SDK管理。SDK是為特定的軟件包、軟件框架、硬件平臺、操作系統(tǒng)等建立應(yīng)用程序時所使用的開發(fā)工具的集合。由于業(yè)務(wù)系統(tǒng)歸檔功能要求較多,如果由每個業(yè)務(wù)系統(tǒng)單獨開發(fā)元數(shù)據(jù)封裝、四性檢測、格式轉(zhuǎn)換、智慧編號、加密標(biāo)準(zhǔn)、斷點續(xù)傳、時間戳服務(wù)等通用功能和服務(wù),歸檔接口開發(fā)將面臨技術(shù)復(fù)雜、開發(fā)成本高、開發(fā)周期長、后期運維困難等問題,而若將相關(guān)通用功能和服務(wù)集成到SDK并提供給業(yè)務(wù)系統(tǒng)供應(yīng)商,則業(yè)務(wù)系統(tǒng)不需要單獨開發(fā)相關(guān)功能和服務(wù),通過調(diào)用SDK即可具備豐富的歸檔功能,極大地降低歸檔接口開發(fā)難度,降低開發(fā)成本,縮短開發(fā)周期,降低運維難度。
6.中間庫管理。部分業(yè)務(wù)系統(tǒng)受限于技術(shù)、成本等因素,或者供應(yīng)商無法配合,無法直接收集電子文件和提交歸檔信息包,可以通過中間庫方式開發(fā)歸檔接口;通過在歸檔接口平臺配置中間庫,使用ETL工具(數(shù)據(jù)倉庫技術(shù))將業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫遷移到中間庫,并在中間庫進行電子文件封裝和提交歸檔信息包。
(二)數(shù)據(jù)傳輸模式
1.電子文件元數(shù)據(jù)與原文同步傳輸。業(yè)務(wù)系統(tǒng)將電子文件及其元數(shù)據(jù)封裝成一個歸檔信息包,同步傳輸?shù)綒w檔接口平臺。只有傳輸完成并通過四性檢測的歸檔信息包,才會被傳輸?shù)骄C合檔案管理系統(tǒng)創(chuàng)建條目、掛接電子文件,從而避免電子文件元數(shù)據(jù)與原文異步傳輸造成的問題。
2.數(shù)據(jù)傳輸使用斷點續(xù)傳技術(shù)。業(yè)務(wù)系統(tǒng)向歸檔接口平臺傳輸歸檔信息包時,通過調(diào)用歸檔接口的斷點續(xù)傳服務(wù),將歸檔信息包切片分割傳輸,切片大小一般應(yīng)小于斷點續(xù)傳的最高網(wǎng)速,確保歸檔信息包完整、快速地傳輸,避免因意外事件造成電子文件元數(shù)據(jù)與原文的不完整、缺失,同時,超大文檔歸檔不再受限。斷點續(xù)傳服務(wù)應(yīng)配置傳輸限速、傳輸數(shù)量限制等措施,避免過度占用或獨占企業(yè)內(nèi)網(wǎng)專線的帶寬,影響其他業(yè)務(wù)系統(tǒng)正常運行。
3.數(shù)據(jù)傳輸使用加密傳輸。業(yè)務(wù)系統(tǒng)向歸檔接口平臺傳輸歸檔信息包時,先將歸檔信息包采取DES對稱加密,在數(shù)據(jù)傳輸過程中,將文件切片后采取FTPS加密傳輸,保障電子文件傳輸信號難以被截取解析。FTPS的密鑰由企業(yè)掌握,從而避免歸檔信息包明文傳輸、保存造成的安全漏洞。
(三)歸檔信息包封裝策略
根據(jù)《基于XML的電子文件封裝規(guī)范》(DA/T 48—2009)中的定義,電子文件封裝包中包含文件、文件元數(shù)據(jù)、電子簽名、封裝描述信息等,封裝包是一個格式規(guī)范的XML文件,其擴展名為EEP。計算機文件的二進制流因應(yīng)XML技術(shù)特點,在封裝包中用BASE64編碼表示,在實踐過程中發(fā)現(xiàn),較小文檔的二進制流BASE64編碼字符數(shù)較少,寫入后形成的XML文件較小,而企業(yè)各類業(yè)務(wù)系統(tǒng)情況復(fù)雜,普遍存在每份電子文件包含超大文檔等情況,其二進制流 BASE64編碼字符數(shù)很多,寫入后形成的XML文件超大(可能超過數(shù)百兆)。由于歸檔接口平臺在解析XML文件時,需要將XML文件加載到系統(tǒng)內(nèi)存,超大XML文件非常消耗內(nèi)存或無法解析處理。另外,由于XML文件超大,在綜合檔案管理系統(tǒng)查看XML文件中的元數(shù)據(jù)信息亦非常困難。
因此,電子文件封裝結(jié)構(gòu)需要尋找一種新方法,經(jīng)過改進后的電子文件歸檔信息包是由電子文件元數(shù)據(jù)XML、電子文件元數(shù)據(jù)XSD、文檔FILE等多個電子文件構(gòu)成的壓縮包,其擴展名為SIP,歸檔信息包封裝結(jié)構(gòu)如圖2所示。
1.電子文件元數(shù)據(jù)XML是一個格式規(guī)范的XML文件,其擴展名為XML,元數(shù)據(jù)結(jié)構(gòu)參考DA/T 48—2009附錄A進行描述,主要用于記錄電子文件元數(shù)據(jù)、綜合檔案管理系統(tǒng)創(chuàng)建條目等。主要改進點在于:文件編碼數(shù)據(jù)不再記錄二進制流BASE64編碼,改為記錄數(shù)字摘要。數(shù)字摘要是文件通過MD5算法生成的散列值,每份文件的數(shù)字摘要一般不超過50個字符,寫入數(shù)字摘要后形成的XML文件一般不超過100KB,從而確保XML文件被快速解析、快速查看、有效保存。
2.電子文件元數(shù)據(jù)XSD是一個格式規(guī)范的XML文件(XML Schema Definition),其擴展名為XSD,元數(shù)據(jù)結(jié)構(gòu)參考DA/T 48—2009附錄B進行描述,主要用于校驗元數(shù)據(jù)XML文件的完整性、規(guī)范性。業(yè)務(wù)系統(tǒng)每次歸檔前,通過歸檔接口從歸檔接口平臺自動獲取最新的元數(shù)據(jù)XSD文件,在歸檔信息包傳輸?shù)綒w檔接口平臺后,將XSD文件與XML文件結(jié)構(gòu)進行校驗,校驗通過,方可歸檔。
3.文檔FILE是一個文件夾,用于保存業(yè)務(wù)系統(tǒng)形成的多個文檔。公文處理單、正文、附件等歸檔電子文件均被保存在以FILE命名的文件夾中。
(四)數(shù)字簽名策略
綜合檔案管理系統(tǒng)配備專用的時間戳服務(wù)器,時間信號由我國唯一法定時間源——國家授時中心負(fù)責(zé)授時和守時,可以保障時間的權(quán)威和準(zhǔn)確。業(yè)務(wù)系統(tǒng)在封裝元數(shù)據(jù)XML文件時,通過SDK調(diào)用時間戳服務(wù),可使用加密算法(例如:國密算法SM2、SM3等)結(jié)合時間戳對XML文件的被簽名對象進行數(shù)字簽名,并記錄在XML文件的數(shù)字簽名塊,具備防冒充、防篡改、防重放、防抵賴、防泄密等特點,能有效證明被簽名對象產(chǎn)生的時間及內(nèi)容完整性、真實性,確保歸檔信息包的完整性、真實性、保密性,保障電子檔案的來源可靠。
制訂規(guī)范、統(tǒng)一的通用歸檔接口方案,建設(shè)獨立的歸檔接口平臺,對企業(yè)檔案信息化建設(shè)具有積極的推動作用和顯著的經(jīng)濟效益,能夠有效滿足企業(yè)數(shù)字檔案館(室)建設(shè)需求。
1.有效降低業(yè)務(wù)系統(tǒng)歸檔接口開發(fā)成本,切實為企業(yè)降本增效。業(yè)務(wù)系統(tǒng)通過調(diào)用歸檔接口平臺提供的SDK,不需要獨立開發(fā)通用功能和服務(wù),極大地減少了歸檔接口開發(fā)的工作量,降低了開發(fā)成本。以筆者所在單位為例,每個業(yè)務(wù)系統(tǒng)歸檔接口開發(fā)成本平均約100萬元,在歸檔接口平臺上線后,歸檔接口開發(fā)成本平均約30萬元,集團各類業(yè)務(wù)系統(tǒng)約3000個,節(jié)約歸檔接口開發(fā)成本顯著。
2.促進業(yè)務(wù)系統(tǒng)電子文件歸檔,滿足企業(yè)數(shù)字檔案館(室)建設(shè)要求。通過歸檔接口平臺的建設(shè),極大地簡化了業(yè)務(wù)系統(tǒng)歸檔功能開發(fā)工作,降低了業(yè)務(wù)系統(tǒng)改造難度,減少了來自相關(guān)各方的阻力,促進了各單位及時、完整、規(guī)范地完成電子文件歸檔任務(wù),更好地滿足了企業(yè)數(shù)字檔案館(室)建設(shè)對業(yè)務(wù)系統(tǒng)電子文件在線歸檔的要求。
3.驗證了國家電子文件歸檔的標(biāo)準(zhǔn)規(guī)范,形成可推廣復(fù)制的經(jīng)驗做法。在國家相關(guān)標(biāo)準(zhǔn)規(guī)范的指引下,結(jié)合企業(yè)實際,積極探索國家電子文件歸檔標(biāo)準(zhǔn)規(guī)范在企業(yè)具體實踐中的實現(xiàn)路徑,進一步明確和完善了國家電子文件歸檔的通用技術(shù)和功能要求,形成一套完整、規(guī)范、先進的通用歸檔接口方案。
參考文獻:
[1]楊迪.基于OAIS模型的歸檔接口實現(xiàn)[J].中國檔案,2016(5):65-66.
[2]國家檔案局.文書類電子文件元數(shù)據(jù)方案:DA/T 46—2009[S/OL].(2009- 12- 16) [2010- 06-01]. https: //www. saac. gov. cn/daj /hybz /201806/ af2c513b5e284571952d6595fd5383b8/files/ 9b2a46526ddb4b66b5b5bef32d7aa21a.pdf.
[3]國家檔案局.基于XML的電子文件封裝規(guī)范:DA/T 48—2009[S/OL].(2009- 12- 16) [2010- 06-01]. https: //www. saac. gov. cn/ daj/hybz /201806/ af5bf561f75343f69bf2efb78913a284/files/ 08d2e2120d134cf58f927d9766c6e4b9.pdf.
[4]國家檔案局辦公室.企業(yè)電子文件歸檔與電子檔案管理指南(檔辦發(fā)〔2015〕4號)[EB/OL].(2015-12-02)[2023-03-31]. https: // www. saac. gov. cn / daj / fxwj/201910/1d5c7e2b0230445e8acaf0457c8e92a7.shtm.
作者單位:華潤(集團)有限公司