李飛榮 鄧振華
2013年10月,國(guó)家檔案局提出要用15年左右的時(shí)間建成以數(shù)字資源為基礎(chǔ)、安全管理為保障、遠(yuǎn)程利用為目標(biāo)的數(shù)字檔案館(室)體系。目標(biāo)提出后,全國(guó)各地掀起了示范數(shù)字檔案館(室)建設(shè)熱潮,經(jīng)過多年建設(shè),截至2020年12月23日,有55家單位通過國(guó)家檔案局驗(yàn)收被正式認(rèn)定為示范數(shù)字檔案館(室)。
數(shù)字檔案館(室)建設(shè)是一項(xiàng)系統(tǒng)工程,包括基礎(chǔ)設(shè)施建設(shè)、應(yīng)用系統(tǒng)建設(shè)、數(shù)字資源建設(shè)、保障體系建設(shè)等內(nèi)容[1],其中數(shù)據(jù)資源建設(shè)是數(shù)字檔案館(室)建設(shè)的一個(gè)重要方面。檔案數(shù)據(jù)資源建設(shè)主要包含三方面的建設(shè)內(nèi)容:電子文件的歸檔與管理、檔案目錄數(shù)據(jù)庫(kù)建設(shè)、傳統(tǒng)載體檔案數(shù)字化轉(zhuǎn)換。但是,在推進(jìn)檔案數(shù)據(jù)資源建設(shè)實(shí)踐中,由于種種原因會(huì)出現(xiàn)諸多的數(shù)據(jù)質(zhì)量問題,這些問題的存在對(duì)檔案數(shù)據(jù)資源的管理和利用工作帶來不利影響。
在檔案數(shù)據(jù)資源建設(shè)過程中,由于人員、時(shí)間、經(jīng)費(fèi)及檢驗(yàn)標(biāo)準(zhǔn)和驗(yàn)收手段等因素影響,會(huì)導(dǎo)致檔案數(shù)據(jù)質(zhì)量出現(xiàn)各種各樣的問題,問題涉及目錄數(shù)據(jù)、全文數(shù)據(jù)和電子文件等各種類型數(shù)據(jù),不同類型的數(shù)據(jù)涉及的質(zhì)量問題亦各不相同,本文以軍隊(duì)檔案系統(tǒng)為例,經(jīng)梳理歸納發(fā)現(xiàn)主要存在以下幾個(gè)方面的問題。
1.數(shù)據(jù)完整性問題。表現(xiàn)為目錄數(shù)據(jù)必填字段項(xiàng)有缺項(xiàng)、填寫不完整,與目錄數(shù)據(jù)對(duì)應(yīng)的全文數(shù)據(jù)全部或部分缺失(未數(shù)字化轉(zhuǎn)換或轉(zhuǎn)換不全),電子文件內(nèi)容信息、結(jié)構(gòu)信息、背景信息等要素不齊全,元數(shù)據(jù)有缺項(xiàng)等[2]。
2.數(shù)據(jù)準(zhǔn)確性問題。表現(xiàn)為目錄數(shù)據(jù)沒有準(zhǔn)確反映檔案實(shí)體的真實(shí)情況,檔案目錄字段項(xiàng)與檔案實(shí)際記載項(xiàng)描述不一致,另外也包括案卷目錄與卷內(nèi)目錄不一致、目錄數(shù)據(jù)與掛接的全文數(shù)據(jù)不一致等問題。
3.數(shù)據(jù)規(guī)范性問題。表現(xiàn)為目錄數(shù)據(jù)著錄不符合《軍隊(duì)檔號(hào)編制規(guī)則》《軍隊(duì)文書檔案目錄數(shù)據(jù)庫(kù)結(jié)構(gòu)與著錄格式》《軍隊(duì)院校教學(xué)檔案目錄數(shù)據(jù)庫(kù)結(jié)構(gòu)與著錄格式》等檔案著錄標(biāo)準(zhǔn)要求,檔案全文數(shù)字化不符合《軍隊(duì)檔案資料數(shù)字化通用要求》,以及電子文件歸檔與管理不符合《軍隊(duì)電子文件歸檔與電子檔案管理通用要求》有關(guān)電子文件真實(shí)性、完整性、可用性和安全性(簡(jiǎn)稱“四性”)要求等方面的問題。
1.人員素質(zhì)參差不齊。檔案數(shù)據(jù)資源建設(shè)要靠人去完成,人員責(zé)任心和業(yè)務(wù)素質(zhì)各不相同,不同人員的工作質(zhì)量也有較大的差別,尤其在大量使用勞務(wù)外包人員的情況下,這一問題尤為突出[3]。外包人員對(duì)本單位檔案數(shù)據(jù)建設(shè)的標(biāo)準(zhǔn)、規(guī)范不熟悉,對(duì)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)難以判斷,出現(xiàn)質(zhì)量問題也難以發(fā)現(xiàn)。
2.規(guī)章制度不夠健全。檔案數(shù)據(jù)質(zhì)量控制,既要靠人更要靠制度?,F(xiàn)實(shí)檔案數(shù)據(jù)資源建設(shè)中,很多單位沒真正建立起檔案數(shù)據(jù)質(zhì)量檢查制度,包括檔案數(shù)據(jù)質(zhì)量管理規(guī)定、檔案數(shù)據(jù)質(zhì)量建設(shè)標(biāo)準(zhǔn)、檔案數(shù)據(jù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)、檔案數(shù)據(jù)建設(shè)質(zhì)檢流程等規(guī)章制度都不健全。
3.檢測(cè)手段存在不足。檔案數(shù)據(jù)質(zhì)量檢測(cè)一般包括人工檢測(cè)和機(jī)器檢測(cè)兩種手段。人工檢測(cè)存在效率低、錯(cuò)誤率高、檢測(cè)不全面和無法應(yīng)對(duì)海量檔案數(shù)據(jù)資源等諸多不足。采用技術(shù)手段進(jìn)行機(jī)器檢測(cè)是檔案數(shù)據(jù)質(zhì)量檢測(cè)的主要方式,機(jī)器檢查具有速度快、效率高、不需人工干預(yù)等優(yōu)點(diǎn),但是機(jī)器檢測(cè)效果取決于檢測(cè)軟件的質(zhì)量,包括檢測(cè)項(xiàng)目是否齊全、要素配置是否靈活、參數(shù)設(shè)置是否符合標(biāo)準(zhǔn)規(guī)范等因素。
檔案數(shù)據(jù)質(zhì)量檢測(cè),主要是對(duì)檔案數(shù)據(jù)資源建設(shè)的三方面類型數(shù)據(jù)進(jìn)行質(zhì)量檢測(cè),即檔案目錄數(shù)據(jù)質(zhì)量檢測(cè)、數(shù)字化檔案數(shù)據(jù)質(zhì)量檢測(cè)、電子文件數(shù)據(jù)質(zhì)量檢測(cè),各類型檔案數(shù)據(jù)具體檢測(cè)內(nèi)容如下。
1.檔案目錄數(shù)據(jù)質(zhì)量檢測(cè)內(nèi)容。
(1)檢測(cè)檔號(hào)編制規(guī)則與命名規(guī)范:要嚴(yán)格執(zhí)行《軍隊(duì)檔案檔號(hào)編制則GJB7531-2012》相關(guān)要求,檔號(hào)由全宗代碼、保管期限代碼、類別號(hào)、年度、案卷號(hào)、件號(hào)組成,長(zhǎng)度控制在64個(gè)字節(jié)之內(nèi)。全宗代碼采用字母和阿拉伯?dāng)?shù)字標(biāo)識(shí),長(zhǎng)度不超過10個(gè)字節(jié)。保管期限代碼采用字母標(biāo)識(shí),“Y”表示永久,“D”表示定期,長(zhǎng)度為1個(gè)字節(jié)。類別號(hào)由檔案門類代碼、種類代碼等組成,長(zhǎng)度不超過22個(gè)字節(jié)(含內(nèi)部分隔符“.”)。其中,檔案門類代碼采用字母標(biāo)識(shí),“WS”表示文書檔案、“KJ”表示科技檔案、“ZM”表示專門檔案,長(zhǎng)度為2個(gè)字節(jié)。種類代碼采用字母標(biāo)識(shí),長(zhǎng)度不超過3個(gè)字節(jié),比如院校教學(xué)檔案用“JX”表示、干部檔案用“GB”表示。年度采用阿拉伯?dāng)?shù)字標(biāo)識(shí),長(zhǎng)度4個(gè)字節(jié)。案卷號(hào)采用阿拉伯?dāng)?shù)字標(biāo)識(shí),長(zhǎng)度4個(gè)字節(jié)。件號(hào)采用阿拉伯?dāng)?shù)字標(biāo)識(shí),長(zhǎng)度3個(gè)字節(jié)。
(2)檢測(cè)目錄數(shù)據(jù)庫(kù)結(jié)構(gòu):檔案門類不同,檔案目錄數(shù)據(jù)庫(kù)的結(jié)構(gòu)也不相同。目前,軍隊(duì)文書檔案、教學(xué)檔案、通信科技檔案等不同門類的檔案都有數(shù)據(jù)庫(kù)結(jié)構(gòu)和著錄規(guī)則軍用標(biāo)準(zhǔn),其中文書檔案按案卷級(jí)、文件級(jí)二級(jí)結(jié)構(gòu)建立數(shù)據(jù)庫(kù),教學(xué)檔案按案卷級(jí)、文件級(jí)和學(xué)籍級(jí)三級(jí)結(jié)構(gòu)建立數(shù)據(jù)庫(kù),科技檔案一般按項(xiàng)目級(jí)、案卷級(jí)、文件級(jí)三級(jí)結(jié)構(gòu)建立數(shù)據(jù)庫(kù)。不同門類、不同層級(jí)的數(shù)據(jù)庫(kù),每一層級(jí)數(shù)據(jù)字段都不一樣,有必著字段也有選著字段,采用機(jī)器檢測(cè)時(shí),必著字段必須全部要進(jìn)行檢測(cè),不得有字段缺項(xiàng)或字段空白,選著字段可不進(jìn)行檢測(cè)。
(3)檢測(cè)著錄規(guī)則與著錄項(xiàng)目:著錄規(guī)則是檢查著錄項(xiàng)目規(guī)范與否的標(biāo)準(zhǔn),例如字符型字段不能為空、數(shù)字型字段不能為“0”、日期型字段按年月日8位阿拉伯?dāng)?shù)字表示,著錄項(xiàng)目中出現(xiàn)的字母、阿拉伯?dāng)?shù)字用半角表示,標(biāo)點(diǎn)符號(hào)用全角表示等等,題名、發(fā)文字號(hào)、責(zé)任者等必著字段具體著錄規(guī)則嚴(yán)格按照相關(guān)軍用標(biāo)準(zhǔn)執(zhí)行,在開發(fā)設(shè)計(jì)機(jī)器檢測(cè)軟件時(shí)須將詳細(xì)字段著錄規(guī)則設(shè)計(jì)到相關(guān)數(shù)據(jù)庫(kù)表中去。必須檢測(cè)的著錄項(xiàng)目以文書檔案為例:案卷級(jí)目錄必著字段有全宗號(hào)、年度、案卷號(hào)、保管期限、案卷題名、密級(jí)、件號(hào)、檔案號(hào)等等,文件級(jí)目錄必著字段有全宗號(hào)、年度、案卷號(hào)、保管期限、案卷題名、密級(jí)、件號(hào)、檔案號(hào)、發(fā)文字號(hào)、載體單位、載體數(shù)量、載體類型、載體規(guī)格、責(zé)任者、文種、文本等等,同時(shí)檢測(cè)目錄條目有無重復(fù)著錄。
2.數(shù)字化檔案數(shù)據(jù)質(zhì)量檢測(cè)內(nèi)容。數(shù)字化檔案數(shù)據(jù)質(zhì)量檢測(cè),包括圖像掛接情況檢測(cè)和圖像質(zhì)量情況檢測(cè)兩個(gè)方面。
圖像掛接情況檢測(cè):主要是檢查實(shí)體檔案數(shù)字化后圖像的命名規(guī)則、存儲(chǔ)路徑與檔號(hào)命名規(guī)則是否對(duì)應(yīng),能否確保圖像與目錄數(shù)據(jù)進(jìn)行正確掛接。圖像掛接正確率100%才算檢測(cè)合格,圖像掛接與目錄不一致會(huì)導(dǎo)致檔案查準(zhǔn)率為0。
圖像質(zhì)量情況檢測(cè):主要包括圖像參數(shù)、傾斜度、清晰度、裁邊情況、缺漏情況等方面檢測(cè)。
圖像參數(shù)檢測(cè):檢測(cè)圖像的文件格式(是否為TIFF或JPEG格式)、尺寸(長(zhǎng)*寬一般為A3、A4或16K)、大小(建議1M左右)、分辨率(一般為300dpi,最低不低于150dpi,如需對(duì)圖片進(jìn)行全文識(shí)別最低不低于300dpi)、壓縮參數(shù)(參數(shù)值90%—100%)等是否符合要求。
傾斜度檢測(cè):檢測(cè)圖像方向與原件是否保持一致(旋轉(zhuǎn)或翻轉(zhuǎn)),確保符合閱讀習(xí)慣、傾斜度是否達(dá)到視覺上偏斜感,傾斜度大于2%用圖像處理軟件自動(dòng)糾偏。
清晰度檢測(cè):檢測(cè)圖像是否清晰可認(rèn),機(jī)器檢測(cè)主要從分辨率、像素大小、亮度、對(duì)比度等方面進(jìn)行限定。
裁邊情況檢測(cè):檢測(cè)圖像是否留邊過多或過窄,以縱向A4幅面檔案為例,如果掃描圖像字面留白左右大于3.17cm、上下大于2.54cm則屬于留白過多,需用圖像軟件進(jìn)行裁邊,如果小于相應(yīng)尺寸則需用圖像軟件對(duì)其進(jìn)行留白。
缺漏情況檢測(cè):檢測(cè)圖像是否有漏頁(yè)、掃重、順序顛倒等情況,主要從著錄檔案載體數(shù)量與圖片畫幅數(shù)方面比對(duì)是否一致,由于著錄時(shí)存在數(shù)量不準(zhǔn)確問題(有的著錄統(tǒng)計(jì)的是張數(shù)),導(dǎo)致此項(xiàng)檢測(cè)用機(jī)器檢測(cè)難度較大或誤檢。
3.電子文件數(shù)據(jù)質(zhì)量檢測(cè)內(nèi)容。《軍隊(duì)檔案條例》規(guī)定,“電子文件的歸檔應(yīng)當(dāng)符合國(guó)家和軍隊(duì)相關(guān)標(biāo)準(zhǔn),保證電子文件的真實(shí)性、完整性、可用性和安全性”,“壓縮、加密和加注標(biāo)簽的電子文件應(yīng)當(dāng)解壓、解密和脫簽后歸檔”。在工作實(shí)際中,對(duì)歸檔電子文件的檢測(cè)主要包括以下內(nèi)容。
一是檢測(cè)電子文件安全性,檢查電子文件是否存在病毒;二是檢測(cè)電子文件的可用性,看是否已脫密和去除水印標(biāo)簽,即電子文件在通用平臺(tái)是否可讀可用;三是檢測(cè)電子文件的真實(shí)性和完整性,電子文件的真實(shí)性和完整性取決于電子文件的內(nèi)容信息、結(jié)構(gòu)信息、背景信息及管理過程信息的真實(shí)性和完整性,即主要取決于電子文件元數(shù)據(jù)的真實(shí)性和完整性。以文書類電子文件為例,《文書類電子文件元數(shù)據(jù)方案》(DA/T 46-2009)規(guī)定文件元數(shù)據(jù)包括文件實(shí)體元數(shù)據(jù)、機(jī)構(gòu)實(shí)體元數(shù)據(jù)、業(yè)務(wù)實(shí)體元數(shù)據(jù)及實(shí)體關(guān)系元數(shù)據(jù)共88個(gè)元素項(xiàng),從必要性和強(qiáng)制程度上又可分必選、條件選和可選三類。檢測(cè)電子文件質(zhì)量重點(diǎn)是檢測(cè)必選項(xiàng)元數(shù)據(jù)的真實(shí)性和完整性。
結(jié)合檔案館數(shù)據(jù)質(zhì)量檢測(cè)實(shí)際業(yè)務(wù)需求,檔案數(shù)據(jù)質(zhì)量檢測(cè)一般流程如下圖所示。
圖1 檔案數(shù)據(jù)質(zhì)量檢測(cè)流程
不論檔案數(shù)據(jù)類型如何,都應(yīng)先進(jìn)行安全性和可用性檢測(cè),再進(jìn)完整性、準(zhǔn)確性和規(guī)范性檢測(cè)。檔案數(shù)據(jù)質(zhì)量檢測(cè)一般在專用計(jì)算機(jī)上進(jìn)行,先進(jìn)行全面殺毒檢測(cè),確保數(shù)據(jù)干凈無毒后,再檢查數(shù)據(jù)是否可讀可用。檔案數(shù)據(jù)檢測(cè)對(duì)象都是數(shù)據(jù)包的形式,每批次檢測(cè)數(shù)據(jù)容量從數(shù)Mb到數(shù)Tb不等,人工檢測(cè)無法滿足現(xiàn)實(shí)需要。上面的流程圖給出了不同類型檔案數(shù)據(jù)檢測(cè)項(xiàng)目,檔案館通過開發(fā)數(shù)據(jù)質(zhì)量檢測(cè)系統(tǒng),將相關(guān)檢測(cè)參數(shù)進(jìn)行合理設(shè)置,可實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)檢測(cè),能極大地提高工作效率和檢測(cè)準(zhǔn)確程度。檢測(cè)后發(fā)現(xiàn)檔案數(shù)據(jù)存在質(zhì)量問題,應(yīng)將檢測(cè)結(jié)果及時(shí)反饋給相關(guān)責(zé)任人進(jìn)行整改,整改完成后再次提交系統(tǒng)進(jìn)行復(fù)檢,直到系統(tǒng)檢測(cè)通過,最終完成閉環(huán)管理。