趙莉
摘 要?本文介紹大數(shù)據(jù)的巨大影響,總結(jié)檔案數(shù)字化工作現(xiàn)狀,分析其在實(shí)施過程中的偏差;然后以大數(shù)據(jù)為視角,結(jié)合大數(shù)據(jù)的特征和要求,提出優(yōu)化檔案數(shù)字化工作的策略;強(qiáng)調(diào)在大數(shù)據(jù)環(huán)境下,檔案數(shù)字化工作要從量的積累轉(zhuǎn)變到質(zhì)的提升和挖掘上來,讓數(shù)字化檔案資源中的海量數(shù)據(jù)得到最全、最廣的采集,以利用為導(dǎo)向,多渠道、多角度地研究和開發(fā)檔案數(shù)字化成果,使檔案數(shù)字化工作的收益最大化。
關(guān)鍵詞?大數(shù)據(jù) 檔案數(shù)字化 現(xiàn)狀 策略
一、大數(shù)據(jù)背景
2008年,《Nature》發(fā)表文章《Big Data:Science in the petabyte eta》,首次在計(jì)算機(jī)領(lǐng)域提出大數(shù)據(jù)(Big Data)這一名詞。2011年5月,全球知名的咨詢公司麥肯錫發(fā)布了報(bào)告《Big Data:The next frontier for innovation,competition,and productivity》,報(bào)告極其詳細(xì)地論述了大數(shù)據(jù)對全球的影響,許多國家都開始對大數(shù)據(jù)展開研究,美國甚至認(rèn)為大數(shù)據(jù)是“未來的石油”。2014年,大數(shù)據(jù)正式被寫入我國政府工作報(bào)告,2015年9月,國務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,“數(shù)據(jù)興國”被認(rèn)可。盡管關(guān)于什么是大數(shù)據(jù)目前還沒有一個(gè)完美的定義,但關(guān)于大數(shù)據(jù)的基本特點(diǎn)在學(xué)界已基本達(dá)成共識(shí),即大數(shù)據(jù)規(guī)模龐大、類型多樣、快捷高效、客觀真實(shí),這四個(gè)特征是對大數(shù)據(jù)比較形象和貼切的描述[1][2]。
近年來,大數(shù)據(jù)及其相關(guān)的技術(shù)、理論等已成為研究的熱點(diǎn),其重要戰(zhàn)略作用已成為共識(shí)。同樣,檔案界也對大數(shù)據(jù)給予了較多的關(guān)注。比如,在大數(shù)據(jù)與數(shù)字檔案館建設(shè)、大數(shù)據(jù)與檔案信息資源建設(shè)、大數(shù)據(jù)與檔案利用服務(wù)等檔案工作的各個(gè)方面都有了相當(dāng)多的研究??梢?,大數(shù)據(jù)及其一切相關(guān)的理論、技術(shù)對檔案工作的影響也是極大的。本文擬就以大數(shù)據(jù)為視角,對當(dāng)前日漸成熟的檔案數(shù)字化工作展開進(jìn)一步的理性思考。
二、檔案數(shù)字化工作現(xiàn)狀
眾所周知,在計(jì)算機(jī)程序中,不管什么樣的文件實(shí)質(zhì)上都是用0和1表示的二進(jìn)制數(shù)字編碼。所謂數(shù)字化,實(shí)際上就是利用計(jì)算機(jī)技術(shù),把文字、圖像、語音等信息轉(zhuǎn)換為二進(jìn)制數(shù)字編碼的過程。只有通過這樣的轉(zhuǎn)換,龐雜的信息才得以存入計(jì)算機(jī)。從這個(gè)角度看,數(shù)字化是把文字、圖像、語音等信息存入計(jì)算機(jī)的基礎(chǔ)和前提。檔案數(shù)字化是數(shù)字化中非常特別的方面,特指把紙質(zhì)檔案、紙質(zhì)照片檔案、傳統(tǒng)介質(zhì)中的音視頻檔案等非數(shù)字化的檔案通過數(shù)字化將其內(nèi)容存入計(jì)算機(jī)。
經(jīng)過多年發(fā)展,我國檔案數(shù)字化工作已取得了很大的進(jìn)步。全國各類檔案館、檔案室都在開展檔案數(shù)字化工作,成績顯著?!按媪繑?shù)字化,增量電子化”的檔案信息化戰(zhàn)略思路早已形成。2017年,國家檔案局批準(zhǔn)發(fā)布了新的《紙質(zhì)檔案數(shù)字化規(guī)范》(DA/T 31—2017),對特定類型的檔案數(shù)字化工作有了更加具體的指導(dǎo)。2017年12月27日,時(shí)任國家檔案局李明華局長在全國檔案局長、館長會(huì)議上的工作報(bào)告中總結(jié)2016年檔案工作時(shí)提到,“檔案數(shù)字化進(jìn)展順利”,并且“全國數(shù)字化檔案資源達(dá)2243萬GB”。檔案數(shù)字化工作推動(dòng)了檔案信息化的進(jìn)程,但其在實(shí)施過程中產(chǎn)生的問題和偏差不容小覷。
1.檔案數(shù)字化工作中量與質(zhì)的把控有偏差。在檔案工作的很多評估、檢查、評比等活動(dòng)中對檔案信息化建設(shè)都會(huì)要求或提到檔案數(shù)字化率要達(dá)到百分之多少,或多少年內(nèi)完成多少萬卷的掃描等。類似相關(guān)的描述都是關(guān)于檔案數(shù)字化量的,對檔案數(shù)字化質(zhì)的要求、檢測、描述卻不多。檔案數(shù)字化工作的這種形式要求和任務(wù)性要求在無形中可能會(huì)使檔案數(shù)字化工作產(chǎn)生偏差,即過于追求速度和數(shù)量,而輕視質(zhì)量的提升和工作的實(shí)效性。如,檔案數(shù)字化工作中精益求精,出效益的意識(shí)不夠,對檔案數(shù)字化加工環(huán)節(jié)及后期處理的細(xì)節(jié)把控不夠嚴(yán)格,如圖像的去污、糾偏等是否符合規(guī)定,形成的圖像是否與檔案實(shí)體的形式和內(nèi)容相符,數(shù)據(jù)掛接是否準(zhǔn)確等。這些質(zhì)量細(xì)節(jié)直接影響著檔案數(shù)字化成果的質(zhì)量及其可利用的程度。所以筆者認(rèn)為在檔案數(shù)字化工作中對質(zhì)量的高要求、重檢測比可觀的數(shù)量達(dá)標(biāo)更重要。
2.檔案數(shù)字化成果后續(xù)再加工環(huán)節(jié)欠缺。把檔案數(shù)字化成果與目錄對應(yīng)掛接后,可以實(shí)現(xiàn)在線瀏覽、打印,減少了檔案實(shí)體的利用損耗,工作人員不用頻繁進(jìn)出庫房。但把檔案數(shù)字化工作的價(jià)值僅限于瀏覽和打印上的方便、快捷是遠(yuǎn)遠(yuǎn)不夠的。非數(shù)字化檔案尤其是量相對比較大的紙質(zhì)檔案在數(shù)字化后大多以圖片和PDF格式存儲(chǔ)、打印、復(fù)制、傳遞,依然不能進(jìn)行全文精確檢索,依舊是使用目錄級檢索,即檢索方式?jīng)]有從實(shí)質(zhì)上發(fā)生改變,蘊(yùn)含在每份檔案中豐富的數(shù)據(jù)無法通過統(tǒng)計(jì)分析和人工智能方法快速發(fā)掘和利用,不能滿足數(shù)據(jù)共享、數(shù)據(jù)整合、數(shù)據(jù)處理快捷高效等大數(shù)據(jù)環(huán)境下的高需求[3]。檔案數(shù)字化成果的利用率得不到提高,檔案數(shù)字化工作投入的實(shí)際效果無法得到真正體現(xiàn)。如何加強(qiáng)檔案數(shù)字化成果的后續(xù)再加工,使數(shù)字化后的檔案信息在大數(shù)據(jù)環(huán)境下得到最大程度的開發(fā)利用,這是檔案數(shù)字化工作更應(yīng)思考的問題。
三、大數(shù)據(jù)環(huán)境下檔案數(shù)字化工作的優(yōu)化策略
1.在條件允許的情況下,適當(dāng)擴(kuò)大檔案數(shù)字化對象的范圍。數(shù)據(jù)規(guī)模龐大、數(shù)據(jù)海量,并且數(shù)據(jù)類型多樣是大數(shù)據(jù)顯著特征。在早期,受技術(shù)和能力的限制,人們一般只能用少量的數(shù)據(jù)來描述事物。隨著技術(shù)的發(fā)展,計(jì)算機(jī)技術(shù)可以處理所有的數(shù)據(jù),海量的數(shù)據(jù)可以達(dá)到更高的精確性,人們借助大數(shù)據(jù)可以更細(xì)致、更精準(zhǔn)、更全面地認(rèn)識(shí)和描述事物。這是海量數(shù)據(jù)所帶來的優(yōu)勢。所以在檔案數(shù)字化工作中,為了獲取更多、更全、更廣的數(shù)字化檔案信息,在條件允許的情況下,應(yīng)適當(dāng)擴(kuò)大檔案數(shù)字化對象的范圍。數(shù)據(jù)量足夠大是大數(shù)據(jù)環(huán)境下開展很多工作的基礎(chǔ),否則,諸如數(shù)據(jù)分析、數(shù)據(jù)挖掘等都無從談起[4][5]。但由于檔案及檔案工作的特殊性,擴(kuò)大檔案數(shù)字化對象的范圍時(shí)必須要區(qū)分各類檔案的利用權(quán)限,并且要在經(jīng)費(fèi)、軟件、硬件、技術(shù)和人員等各方面許可的情況下量力而行。
2.注重檔案數(shù)字化工作的過程管理,嚴(yán)把質(zhì)量關(guān)。大數(shù)據(jù)具有真實(shí)、準(zhǔn)確的特征。在大數(shù)據(jù)時(shí)代,人類只是相關(guān)軟件和硬件的設(shè)計(jì)和制造者,并沒有全程參與大數(shù)據(jù)的形成和采集,大數(shù)據(jù)大都由硬件和軟件因自身的基礎(chǔ)功能而自動(dòng)采集和記錄下來,人們甚至?xí)簳r(shí)都不知道這些數(shù)據(jù)的具體用途。也就是說大數(shù)據(jù)在形成過程中少了很多,甚至是沒有人的主觀意圖的痕跡,從而確保了大數(shù)據(jù)的客觀、真實(shí)和準(zhǔn)確性,客觀地記錄和反映了事物的狀態(tài)、行為等。數(shù)字化的檔案資源是非數(shù)字化檔案的一種轉(zhuǎn)化形式,從大數(shù)據(jù)的真實(shí)準(zhǔn)確性特征角度看,檔案數(shù)字化工作必須確保這種轉(zhuǎn)化的高質(zhì)量,最大程度地減少數(shù)字化檔案和非數(shù)字化檔案的轉(zhuǎn)化誤差。
所以在檔案數(shù)字化工作中,不能因趕時(shí)間、趕進(jìn)度、追數(shù)量而忽視了質(zhì)量和效益。首先,應(yīng)加強(qiáng)檔案基礎(chǔ)整理工作,檔案數(shù)字化工作必須與其他檔案業(yè)務(wù)協(xié)同進(jìn)行。規(guī)范、齊全、有序的檔案整理是開展數(shù)字化工作的基礎(chǔ)。在日常工作中應(yīng)加強(qiáng)業(yè)務(wù)指導(dǎo)和檢查,嚴(yán)格落實(shí)案卷質(zhì)量標(biāo)準(zhǔn);優(yōu)化庫藏舊檔案整理弊端,提高檔案整理的規(guī)范化程度,為數(shù)字化工作的順利開展、數(shù)字化成果質(zhì)量的提高創(chuàng)造條件。其次,要加強(qiáng)檔案數(shù)字化工作過程管理,嚴(yán)把質(zhì)量關(guān)。高質(zhì)量的成果是通過合理的過程鏈來完成的[6]。要制定明確的、可操作性強(qiáng)的質(zhì)量標(biāo)準(zhǔn)和要求,降低投入風(fēng)險(xiǎn)。在實(shí)施數(shù)字化加工的過程中注意隨時(shí)總結(jié),形成一套能應(yīng)對所發(fā)現(xiàn)問題的處理方法和規(guī)定,及時(shí)改進(jìn)檔案數(shù)字化加工的各個(gè)流程。
3.堅(jiān)持以利用為導(dǎo)向,全力挖掘和開發(fā)檔案數(shù)字化成果。數(shù)據(jù)的快捷、高效是大數(shù)據(jù)的另一個(gè)重要特征。大數(shù)據(jù)要求的是快速、持續(xù)的實(shí)時(shí)處理,在大數(shù)據(jù)環(huán)境下,人們對數(shù)據(jù)的利用越來越趨于高需求,數(shù)據(jù)處理結(jié)果要求更加及時(shí)、精準(zhǔn),否則可能就過時(shí)和無效。這種快捷和高效帶給檔案數(shù)字化工作的思考就是數(shù)字化的檔案信息資源一定要“動(dòng)起來”和“用起來”,以滿足越來越高的檔案利用需求,充分發(fā)揮檔案信息資源的價(jià)值,實(shí)現(xiàn)檔案利用服務(wù)的轉(zhuǎn)型升級。
(1)利用現(xiàn)有技術(shù)手段,結(jié)合人工輔助識(shí)別,全面采集檔案數(shù)字化成果中的各種數(shù)據(jù)。如前所述,數(shù)字化后的檔案,即圖片和PDF文件如果不采取其他措施是無法將其中蘊(yùn)含的數(shù)據(jù)信息識(shí)別并抓取出來存儲(chǔ)的,數(shù)據(jù)引用、檢索、分析更是難以實(shí)現(xiàn)。對于普通紙質(zhì)檔案,目前比較常用和成熟的技術(shù)是OCR(Optical Cha-
racter Recognition),即光學(xué)字符識(shí)別技術(shù),簡單來說就是運(yùn)用專門的軟件對檔案數(shù)字化后形成的影像文件進(jìn)行處理,并把識(shí)別到的信息以通用格式輸出保存在文本文件中,并輔以人工核查。對于音頻、視頻檔案,可以利用語音識(shí)別加上人工輔助,把聲音信息轉(zhuǎn)換為文字,還可以添加一些字幕信息,使音頻、視頻檔案也可以按具體內(nèi)容進(jìn)行檢索。對于純粹的照片檔案,以人工采集為主,編寫詳細(xì)的照片說明輸入計(jì)算機(jī)[7]。技術(shù)結(jié)合人工,可以保證較高的查全率和查準(zhǔn)率,雖然增加了一些工作量,但卻是開發(fā)檔案數(shù)字化成果的基礎(chǔ)工作,也是引用大數(shù)據(jù)技術(shù)、語義網(wǎng)技術(shù)等其他更復(fù)雜和先進(jìn)技術(shù)所做的必不可少的準(zhǔn)備。
(2)以利用為導(dǎo)向,結(jié)合檔案編研工作,充分挖掘和利用檔案數(shù)字化成果。單個(gè)數(shù)據(jù)的實(shí)際意義可能不大,如果對大量數(shù)據(jù)進(jìn)行有目的地綜合分析,其潛在價(jià)值就會(huì)顯現(xiàn)。大數(shù)據(jù)背景下更重要的是檔案附加價(jià)值的體現(xiàn),從大量數(shù)據(jù)中分析潛在的價(jià)值,決定著大數(shù)據(jù)時(shí)代檔案館的發(fā)展水平及方向[8]。在大數(shù)據(jù)背景下如何挖掘已經(jīng)數(shù)字化的檔案的價(jià)值是當(dāng)前工作的重點(diǎn)。在對檔案數(shù)字化成果進(jìn)行全面數(shù)據(jù)采集的基礎(chǔ)上,對采集到的大量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分類、預(yù)測、相關(guān)性分析、關(guān)聯(lián)分組、圖像及音(視)頻等復(fù)雜數(shù)據(jù)類型挖掘等,建立各類專題檢索數(shù)據(jù)庫。同時(shí)思考選題,創(chuàng)新檔案編研的手段、形式及傳播方式,以適應(yīng)大數(shù)據(jù)環(huán)境下的高需求,編輯貼近利用需要的成果,可以充分利用和體現(xiàn)數(shù)字化檔案資源的優(yōu)勢和價(jià)值。
(3)轉(zhuǎn)變思維,更新理念,優(yōu)化人員結(jié)構(gòu),提升檔案數(shù)字化工作隊(duì)伍的綜合素質(zhì)。在大數(shù)據(jù)時(shí)代,檔案工作人員必須主動(dòng)轉(zhuǎn)變思維方式,從網(wǎng)絡(luò)化、信息化的角度,借用大數(shù)據(jù)先進(jìn)技術(shù),以資源共享的理念,挖掘檔案數(shù)字化成果的豐富數(shù)據(jù),并納入檔案信息資源共享數(shù)據(jù)庫,或者為檔案信息資源共享平臺(tái)的搭建做好數(shù)據(jù)積累。檔案數(shù)字化成果中蘊(yùn)藏的潛在價(jià)值需要?jiǎng)?chuàng)新的思維、先進(jìn)的技術(shù)去深入挖掘,但新知識(shí)、新技術(shù)的復(fù)雜多變性是檔案部門必須要面對的現(xiàn)實(shí)問題。所以檔案數(shù)字化工作隊(duì)伍結(jié)構(gòu)和綜合素質(zhì)的與時(shí)俱進(jìn)至關(guān)重要。一是要積極引進(jìn)具有創(chuàng)新意識(shí)、相關(guān)知識(shí)和技術(shù)的人才,在人員配置上適時(shí)優(yōu)化結(jié)構(gòu);二是現(xiàn)有工作人員要通過培訓(xùn)學(xué)習(xí)、業(yè)務(wù)交流等措施來拓寬思路,更新知識(shí)和技術(shù),以適應(yīng)現(xiàn)實(shí)工作的需要。
綜上所述,檔案數(shù)字化工作已經(jīng)如火如荼地開展多年,成績斐然,日漸成熟,但其發(fā)展過程中的偏差也或多或少顯露出來。尤其是在大數(shù)據(jù)環(huán)境下,檔案數(shù)字化工作更應(yīng)實(shí)施優(yōu)化策略,要從量的積累轉(zhuǎn)變到質(zhì)的提升上來,讓數(shù)字化檔案資源中的海量數(shù)據(jù)得到最全、最廣的采集,以利用為導(dǎo)向,多渠道、多手段地研究和開發(fā)檔案數(shù)字化成果,使檔案數(shù)字化工作的收益最大化,讓檔案這一特殊信息資源在大數(shù)據(jù)進(jìn)程中的作用和價(jià)值最大化。
參考文獻(xiàn)
[1]Michael Wessler.Big Data Analytics for Dummies [M].New Jersey:John Wiley & Sons,Inc.2013.
[2]李小剛,謝詩藝,程舒.大數(shù)據(jù)時(shí)代檔案館服務(wù)創(chuàng)新研究[J].北京檔案,2013(11):11-13.
[3]梁惠卿.檔案數(shù)字化、數(shù)字化檔案和數(shù)字檔案概念辨析[J].檔案管理,2013(1):38-40.
[4]涂子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命[M].廣西師范大學(xué)出版社,2012.
[5]曹漢平.互聯(lián)網(wǎng)金融的新常態(tài)[M].北京:清華大學(xué)出版社,2016.
[6]龔曉明.卓越績效模式立足過程管理[N].中國質(zhì)量報(bào),2006(5).
[7]陶水龍.海量檔案數(shù)字資源智能管理及挖掘分析方法研究[J].檔案學(xué)研究,2017(6):75-79.
[8]周楓.大數(shù)據(jù)時(shí)代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2013(8):6-9.