• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      檔案數(shù)字化攻略

      2019-12-16 20:12:06韓李敏浙江省檔案學(xué)會(huì)
      浙江檔案 2019年1期
      關(guān)鍵詞:分辨率整理利用

      韓李敏/浙江省檔案學(xué)會(huì)

      1 影響檔案數(shù)字化的五大因素

      影響數(shù)字化的因素很多,對(duì)檔案而言,不同于圖書等文獻(xiàn)資料,其影響因子主要有五個(gè):一是檔案的自然形成因素,二是檔案的歸檔整理因素,三是檔案的涉密因素,四是檔案的憑證價(jià)值及長(zhǎng)期保存因素,五是檔案的利用因素。開展檔案數(shù)字化工作,大到制定設(shè)計(jì)方案和編制數(shù)字化規(guī)劃,小到檔案數(shù)字化的前處理和數(shù)字化各種技術(shù)指標(biāo)的確定,都必須考慮這五大因素的影響。

      1.1 檔案的自然形成因素

      與圖書等文獻(xiàn)不同,檔案是歷史自然形成的,是歷史的真實(shí)記錄。正因?yàn)闄n案的自然屬性,使得形成的檔案,無論是載體還是字跡,都是形態(tài)各異、五花八門的。就載體而言,其形態(tài)不一、規(guī)格不一,載體用材也是不一樣的。在同一卷檔案中,有機(jī)制紙、有手工紙;同樣是手工紙,還有草紙、竹紙、棉紙、木漿紙等的不同。不同材質(zhì)的紙,受保存時(shí)間、保存條件的影響,紙張的顏色變化也是很大的;就字跡而言,也同樣多姿多彩:有墨跡、藍(lán)墨水字跡、紅墨水字跡、鉛筆字跡、圓珠筆字跡、鉛印字跡、油印字跡、傳真字跡、噴墨字跡,還有紅印泥、藍(lán)印泥等。

      各種自然形成因素,對(duì)數(shù)字化成像提出了不同的技術(shù)要求,如果使用單一的掃描設(shè)置,勢(shì)必造成顧此失彼。

      1.2 檔案的歸檔整理因素

      所有文件經(jīng)過歸檔整理,才成為檔案。文件在歸檔整理過程中,添加了大量的人為“干涉”,使得原來自然狀態(tài)下形成的“無序”文件,變成一卷卷、一件件的有機(jī)集合體,成為能夠長(zhǎng)期保存和使用的檔案。檔案部門經(jīng)過長(zhǎng)期的實(shí)踐,形成了一整套的檔案整理的理論與方法,并通過各種標(biāo)準(zhǔn)與規(guī)范,將整理的經(jīng)驗(yàn)固定下來,指導(dǎo)和規(guī)范檔案工作者的整理行為。目前,我們還能從檔案中,發(fā)現(xiàn)各個(gè)不同歷史時(shí)期,人們整理檔案的歷史軌跡。檔案整理的方法是建立在傳統(tǒng)紙質(zhì)檔案整理基礎(chǔ)上的,其條件是手工管理,其目的是長(zhǎng)期保存和利用。

      檔案經(jīng)過數(shù)字化以后,成為電子影像,其保存和利用環(huán)境發(fā)生了根本性的變化。在手工管理背景下形成的檔案整理理論與方法,對(duì)于電子影像的保存和利用,造成了直接的影響。例如,傳統(tǒng)的檔案整理中,特別強(qiáng)調(diào)文件內(nèi)容間的有機(jī)聯(lián)系,報(bào)告與批復(fù)等關(guān)系非常緊密的文件,整理時(shí)都要求整合在一起、裝訂在一起,作為一件檔案來保存和利用,不論其內(nèi)容信息敏感或涉密與否。傳統(tǒng)檔案在利用時(shí),可以根據(jù)實(shí)際情況,提供一件(一卷)檔案中的部分信息或全部信息。但是數(shù)字化以后,在網(wǎng)絡(luò)環(huán)境下要采用傳統(tǒng)的利用方式,對(duì)一件電子檔案進(jìn)行部分信息的可閱讀、部分信息的限制閱讀,實(shí)現(xiàn)起來是非常困難的。

      1.3 檔案的涉密因素

      任何一個(gè)單位和部門保存的檔案,總有部分文件是涉密的,且對(duì)于涉密文件歸檔和整理都有章可循。但是對(duì)于涉密文件的數(shù)字化,我們必須遵守國(guó)家涉密電子文件管理的要求。絕密文件一般不數(shù)字化;機(jī)密級(jí)及以下文件雖可以數(shù)字化,但必須嚴(yán)格執(zhí)行國(guó)家保密管理規(guī)定,尤其是涉密數(shù)據(jù)的存儲(chǔ)、管理和使用,必須要通過相應(yīng)的涉密網(wǎng)絡(luò)及管理系統(tǒng)。

      1.4 檔案的憑證價(jià)值及長(zhǎng)期保存因素

      檔案是歷史憑證,是需要長(zhǎng)期保存的。當(dāng)紙質(zhì)檔案轉(zhuǎn)化為電子數(shù)據(jù)以后,檔案的憑證價(jià)值和長(zhǎng)期保存等要求,同樣體現(xiàn)在數(shù)字化成果上。為此,在數(shù)字化成果的存儲(chǔ)和管理上,除了考慮一般數(shù)據(jù)的存儲(chǔ)載體、存儲(chǔ)容量、安全備份等因素外,還要特別注意以下問題:一是如何保證數(shù)字化成果的憑證價(jià)值,保證電子數(shù)據(jù)的真實(shí)性和防篡改性;二是如何保證電子數(shù)據(jù)的長(zhǎng)期有效性。數(shù)字化后形成的電子檔案,不僅要現(xiàn)在可讀,而且要讓其“傳宗接代”,保持長(zhǎng)期的可利用。

      1.5 檔案的利用因素

      在長(zhǎng)期的實(shí)踐中,檔案工作從理論層面到操作層面,形成了一整套利用服務(wù)機(jī)制,以滿足檔案的管理需要。在傳統(tǒng)的檔案利用活動(dòng)中,除了制度以外,許多時(shí)候還要依靠人為干涉,保證利用工作正常進(jìn)行。

      在信息化、網(wǎng)絡(luò)化的時(shí)代,傳統(tǒng)的利用方式面臨著前所未有的大挑戰(zhàn)。圖書等文獻(xiàn)資料完成數(shù)字化工作,就可以立即投入使用了,但是檔案卻不行,為什么?因?yàn)闄n案中有可公開信息,有不可公開的內(nèi)部信息。如何保證不開放的信息在數(shù)字化以后仍然保持封閉狀態(tài),除了要在數(shù)字化之前把可公開信息與內(nèi)部信息進(jìn)行嚴(yán)格區(qū)分外,還要在網(wǎng)絡(luò)布局、系統(tǒng)設(shè)置及管理等許多方面作出相應(yīng)的調(diào)整和部署。所以要保證檔案數(shù)字化成果的可利用、可共享,前期的設(shè)計(jì)非常關(guān)鍵,否則功虧一簣,這絕非危言聳聽。

      2 傳統(tǒng)檔案整理方法對(duì)數(shù)字化的影響

      2.1 傳統(tǒng)的檔案整理特點(diǎn)

      檔案的歸檔整理實(shí)際上主要是兩項(xiàng)工作,一是將不需要?dú)w檔的文件剔除掉,二是將需要?dú)w檔的文件進(jìn)行有序整理,使原來無序雜亂的文件成為系統(tǒng)有序、具有內(nèi)在聯(lián)系的一個(gè)整體。

      歸檔整理完成的檔案以卷或件為單位進(jìn)行保存。歸檔整理后的“件”與原始記錄狀態(tài)的“件”不是同一概念,歸檔后的“件”是若干份“自然件”的集合,是人們經(jīng)過加工,將若干個(gè)具有有機(jī)聯(lián)系的“自然件”組合在一起,進(jìn)行有序排列,并通過統(tǒng)一編號(hào)固化其排序及有機(jī)聯(lián)系。歸檔整理極大提高了檔案檢索的查準(zhǔn)率和查全率,也是檔案長(zhǎng)期保存和管理的有效手段。

      比如,將報(bào)告與批復(fù)在歸檔時(shí)整合在一起,這是最典型的保持有機(jī)聯(lián)系的整理方式。但是由報(bào)告與批復(fù)組成的一件歸檔材料并非僅僅由2份“自然件”組成,一般的報(bào)告與批復(fù)歸檔件少則由2—5件“自然件”組成,多則十幾件,甚至上百件“自然件”組成一組(套)歸檔件。

      經(jīng)整理后歸檔的材料,它們的共同點(diǎn)是:一條目錄對(duì)應(yīng)若干個(gè)“自然件”,組成這些“自然件”的生命紐帶是“文件內(nèi)容的有機(jī)聯(lián)系”,不論文件是否帶有密級(jí)或敏感信息。

      2.2 傳統(tǒng)的檔案整理方法對(duì)數(shù)字化的影響

      影響之一:密與非密不分,直接影響掃描數(shù)據(jù)的存儲(chǔ)、管理及利用?,F(xiàn)在的保密要求明確規(guī)定:密與非密混在一起,一律按涉密數(shù)據(jù)處理;低密級(jí)數(shù)據(jù)與高密級(jí)數(shù)據(jù)混在一起,一律按最高密級(jí)數(shù)據(jù)處理。對(duì)于行政審批、干部人事等材料,往往結(jié)論性的最終批復(fù)材料都是可公開的信息,而報(bào)批材料和機(jī)關(guān)內(nèi)部審批過程中形成的內(nèi)部文件,往往帶有敏感信息和涉密內(nèi)容?,F(xiàn)在將可公開的政府信息和涉密或敏感信息經(jīng)整理后組合在一起,不僅讓掃描后形成的數(shù)據(jù)出不了涉密網(wǎng),更極大地限制了可公開信息的共享和檔案數(shù)字化成果的利用服務(wù)。

      影響之二:用一條目錄對(duì)應(yīng)若干個(gè)“自然件”,經(jīng)數(shù)字化掃描,即造成一條文件目錄下面掛接了若干個(gè)“自然件”的情況。由于數(shù)字影像的閱讀與紙質(zhì)檔案的閱讀有著很大不同,當(dāng)閱讀者不懂檔案整理規(guī)則時(shí),面對(duì)一條目錄下面多個(gè)文件時(shí),勢(shì)必造成閱讀障礙。

      2.3 針對(duì)傳統(tǒng)整理方法數(shù)字化對(duì)策

      在檔案數(shù)字化過程中,如何解決傳統(tǒng)檔案整理方法對(duì)數(shù)字化工作帶來的負(fù)面影像,筆者的建議是:

      第一,即“拆件”,以“自然件”為單位進(jìn)行數(shù)字化。在檔案數(shù)字化前處理階段,就將原來的檔案以“自然件”為單位,重新登記。

      第二,補(bǔ)目錄。對(duì)于每個(gè)自然件,都給予一條對(duì)應(yīng)的目錄。尤其是正式的收發(fā)文,必須一文一目錄。其他內(nèi)部文件,編目時(shí)可以簡(jiǎn)單化,僅僅標(biāo)明主題及之一、之二等即可。在著錄時(shí),必須標(biāo)明密級(jí)及公開與否等信息。

      第三,補(bǔ)編檔號(hào)。在原有檔號(hào)基礎(chǔ)上增加一個(gè)件號(hào)字段,保證新出生的每條目錄都有編號(hào)。同時(shí)保留原有的檔號(hào),保持文件之間的有機(jī)聯(lián)系。

      計(jì)算機(jī)的優(yōu)勢(shì)就是不怕細(xì),只怕粗。以“自然件”為單位進(jìn)行數(shù)字化,能夠較好地解決管理、利用中的涉密和閱讀問題。尤其是針對(duì)中華人民共和國(guó)成立后形成的檔案,不失為一種有效的補(bǔ)救措施與方法。

      3 檔案數(shù)字化掃描中主要技術(shù)指標(biāo)的選擇

      3.1 掃描色彩模式的選擇

      掃描色彩模式分為彩色、灰度、黑白三種。在不考慮壓縮等其他因素的情況下,三種掃描模式產(chǎn)生的影像,除了色彩不一樣外,最大的不同就是容量。按照理論測(cè)算,24位彩色圖像大小是8位灰色圖像的3倍、黑白圖像的24倍。也就是說,一頁(yè)10M的彩色影像,如果改用灰度掃描,實(shí)際為3.4M,若用黑白掃描,實(shí)際只有0.4M左右。作為一頁(yè)也許感覺不到,但是如果以100萬頁(yè)計(jì)算,差距就大了,彩色掃描會(huì)形成9.5T數(shù)據(jù),灰度掃描為3.2T數(shù)據(jù),黑白掃描只有0.38T數(shù)據(jù)。

      不同的色彩模式對(duì)于圖像的清晰度也有一定影響。對(duì)于原件清晰的檔案,不同的色彩模式差別不明顯;但對(duì)于原件字跡不清晰、色彩豐富、對(duì)比不強(qiáng)烈的檔案原件,如藍(lán)圖、印章、鉛筆字跡、復(fù)寫紙字跡等,彩色影像在展現(xiàn)檔案原件細(xì)節(jié)和清晰度方面,明顯要優(yōu)于灰度和黑白影像。

      許多單位的檔案數(shù)字化,早期大都采用黑白的掃描模式。究其原因,一方面是囊中羞澀,受資金短缺的影響,承受不起數(shù)據(jù)容量之重,因?yàn)閽呙栉募萘恳淮螅粌H涉及存儲(chǔ),而且涉及壓縮技術(shù)、網(wǎng)絡(luò)帶寬、系統(tǒng)運(yùn)行速度等一系列問題;另一方面我國(guó)早期的檔案數(shù)字化目的主要是為了方便計(jì)算機(jī)及網(wǎng)絡(luò)的應(yīng)用,是以制作成檔案副本考慮的,并沒有取代紙質(zhì)檔案原件的設(shè)想。

      隨著技術(shù)的進(jìn)步,計(jì)算機(jī)存儲(chǔ)成本的大幅度下降,運(yùn)行速度的飛越發(fā)展,政府財(cái)政的改善,資金和技術(shù)已不是困擾我國(guó)檔案數(shù)字化的主要瓶頸。同時(shí)國(guó)家對(duì)于檔案數(shù)字化的要求有了很大提高,要求各部門的檔案數(shù)字化,不僅為了用,更要從國(guó)家安全的高度來考慮,要求用數(shù)字化副本代替原件進(jìn)行保存和提供利用。

      為此,要適應(yīng)檔案原件自然形成,文件的載體與字跡差異性大的特點(diǎn),為最大限度保持檔案的原貌,檔案數(shù)字化掃描選擇彩色模式,應(yīng)是大勢(shì)所趨。當(dāng)然,對(duì)于工程檔案等特殊情況,仍要從實(shí)際出發(fā),不能搞一刀切。

      3.2 掃描分辨率的選擇

      分辨率對(duì)于掃描圖像幅面大小、容量大小、圖像清晰程度以及掃描時(shí)長(zhǎng)都有直接影響。理論上講,掃描圖像分辨率越高,所占用的掃描時(shí)間越長(zhǎng),文件也越大,圖像清晰程度越好。掃描分辨率提高一倍,文件容量約增加4倍。但是,我國(guó)專家郝晨輝在《檔案行業(yè)標(biāo)準(zhǔn)〈紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范〉的修訂》一文中指出:“通過實(shí)驗(yàn)我們也發(fā)現(xiàn),分辨率在調(diào)高到一定程度時(shí),分辨率的增加并不會(huì)明顯改善清晰程度,而其所需的存儲(chǔ)空間則會(huì)明顯增加。”因此,選擇合適的分辨率是檔案掃描的技術(shù)關(guān)鍵之一。

      影響分辨率選擇的因素主要還是“用”,即數(shù)字化的目的。如果僅僅為了計(jì)算機(jī)瀏覽,一般75DPI足夠了;如果要保證利用中能打印輸出,至少要100DPI以上;如果要讓掃描影像能夠作OCR識(shí)別,保證利用中能夠?qū)崿F(xiàn)全文檢索,就要求200DPI以上;如果掃描影像還想輸出到縮微膠片(COM)上,就要求達(dá)到300DPI以上;如果掃描影像用于出版印刷,由于出版物規(guī)格不同,精度要求也不同,一般在200—500DPI之間;如果用于仿真復(fù)制和仿真出版,要求分辨率到達(dá)600DPI。

      在紙質(zhì)檔案掃描中,涉及檔案中的照片,還是要做特殊的處理。建議用500DPI以上掃描,確保照片的層次性和色彩的豐富性。

      我們平時(shí)掃描,不可能將所有的利用需求都考慮在內(nèi),只需照顧大部分利用的需求就可以了。檔案影像的瀏覽、打印、全文檢索是我們的一般需求,因此一般的檔案掃描,國(guó)家標(biāo)準(zhǔn)建議“掃描分辨率應(yīng)不小于200DPI。如文字偏小、密集、清晰度較差時(shí),建議掃描分辨率不小于300DPI”,是非??茖W(xué)的,能夠滿足我們絕大部分的利用需求。至于300DPI以上的需求,則根據(jù)掃描的特殊利用要求,作相應(yīng)的選擇。

      3.3 掃描圖像存儲(chǔ)格式的選擇

      存儲(chǔ)格式是掃描所涉及的第三項(xiàng)重要技術(shù)指標(biāo)。目前,國(guó)家標(biāo)準(zhǔn)要求“紙質(zhì)檔案數(shù)字圖像長(zhǎng)期保存格式為TIFF、JPEG或JPEG2000等通用格式,圖像壓縮率的選擇可根據(jù)實(shí)際應(yīng)用的需求而定”。

      TIFF是當(dāng)今使用得最普遍的存儲(chǔ)格式,其優(yōu)點(diǎn)是可以實(shí)現(xiàn)對(duì)圖像的無壓縮存儲(chǔ)或無損壓縮存儲(chǔ),能保持原有圖像的顏色和層次;另一優(yōu)點(diǎn)是可以多個(gè)數(shù)字影像合成為一個(gè)文件,用多頁(yè)TIFF加以保存,非常適合檔案。其缺點(diǎn)就是占用存儲(chǔ)空間很大。JPEG是一種有損壓縮格式,在采用較高壓縮率的同時(shí)能獲得較好的圖像質(zhì)量;JPEG具有調(diào)節(jié)圖像的功能,允許用不同的壓縮比例對(duì)文件壓縮,方便在圖像質(zhì)量和文件大小之間找到平衡點(diǎn);其應(yīng)用也非常廣泛,目前各類瀏覽器均支持JPEG這種圖像格式。JPEG2000既支持無損壓縮,也支持有損壓縮,在相同圖像質(zhì)量條件下可以獲得比JPEG更高的壓縮比,而且能夠?qū)崿F(xiàn)圖像的漸進(jìn)傳輸。JPEG2000在2017年被寫入國(guó)家標(biāo)準(zhǔn),但是該數(shù)據(jù)格式在圖書部門應(yīng)用比較多,檔案部門使用得很少。

      3.4 數(shù)據(jù)存儲(chǔ)格式與利用格式不能混為一談

      在實(shí)踐中,我們經(jīng)常發(fā)現(xiàn)不少部門和單位將存儲(chǔ)格式與利用格式混為一談。

      在圖書等其他部門,對(duì)于數(shù)字圖像存用不分,一般只保留一種格式。我國(guó)檔案數(shù)字化從標(biāo)準(zhǔn)訂立起,就確定了檔案掃描數(shù)據(jù)存用分離的原則,即存儲(chǔ)格式是TIFF、JPEG等,使用格式是PDF等其他格式。國(guó)家標(biāo)準(zhǔn)明確規(guī)定:“紙質(zhì)檔案數(shù)字圖像利用時(shí),也可從網(wǎng)絡(luò)瀏覽速度、易操作性、存儲(chǔ)空間占用等方面進(jìn)行綜合考慮,將圖像轉(zhuǎn)換為PDF等其他格式?!?/p>

      有的單位以為掃描文件轉(zhuǎn)成利用格式以后,原來的長(zhǎng)期保存格式文件就不需要了,為節(jié)省計(jì)算機(jī)存儲(chǔ)空間,就將TIFF或JPEG等格式的文件數(shù)據(jù)全部刪除銷毀。殊不知,不同的數(shù)據(jù)格式其功能是不一樣的。PDF等格式中的圖像文件是經(jīng)過再壓縮處理的,用于長(zhǎng)期保存的圖像文件一般每頁(yè)約在1M以上,PDF格式中的圖像文件,黑白圖像每頁(yè)約為30K左右,彩色圖像每頁(yè)不超過300K左右,其他利用格式也相差無幾。所以利用格式中的圖像文件只適用于瀏覽,而要打印等其他利用,其圖像質(zhì)量是遠(yuǎn)遠(yuǎn)不夠的。該問題在機(jī)關(guān)和縣級(jí)檔案館中,反映得尤為突出。許多檔案館在接收中,遇到移交單位只有PDF等利用格式的文件,要求其轉(zhuǎn)換成TIFF等格式進(jìn)行移交,實(shí)際上這是自欺欺人罷了。經(jīng)PDF等壓縮后再轉(zhuǎn)出來的圖像,已經(jīng)根本不是原來掃描所產(chǎn)生的圖像,其分辨率等技術(shù)指標(biāo)已經(jīng)遠(yuǎn)遠(yuǎn)達(dá)不到存儲(chǔ)要求。

      4 檔案數(shù)字化的后期處理問題

      這里所說的檔案數(shù)字化的后期處理指的是數(shù)字化掃描、圖像處理、數(shù)據(jù)掛接等完成以后,還要做的幾項(xiàng)工作。在國(guó)家標(biāo)準(zhǔn)中,數(shù)字化掃描、圖像處理、數(shù)據(jù)掛接完成后,就是數(shù)字化成果驗(yàn)收。但是在實(shí)際工作中,還有幾項(xiàng)大的工作是無法回避的:一是OCR識(shí)別;二是數(shù)據(jù)壓縮和利用格式的轉(zhuǎn)換;三是數(shù)據(jù)的刻盤和存儲(chǔ)。如果實(shí)行數(shù)字化外包,這幾項(xiàng)工作也都由外包公司來完成。所以,筆者將其列為數(shù)字化的后期處理工作。

      4.1 OCR識(shí)別

      OCR識(shí)別是現(xiàn)在數(shù)字化中普遍開展的一項(xiàng)工作,其目的是解決檔案全文檢索問題。沒有OCR識(shí)別,我們只有依靠目錄查找掃描文件,但是對(duì)于文件中的內(nèi)容,仍然是無法檢索的。做了OCR識(shí)別,不僅能查到文件標(biāo)題,而且對(duì)于文件內(nèi)容也可以進(jìn)行主題檢索,這樣大大提高了文件的檢索深度,也提高了文件的查準(zhǔn)率和查全率。目前新國(guó)標(biāo)將檔案掃描的最低分辨率提高到200DPI以上,從根本上解決了OCR識(shí)別率低的問題。所以,新國(guó)標(biāo)也為OCR識(shí)別掃清了技術(shù)障礙。目前,在OCR識(shí)別中存在的主要問題是:

      一是對(duì)OCR的誤解,認(rèn)為隨便什么文件都可以做OCR識(shí)別。事實(shí)上OCR只能對(duì)正規(guī)的書寫體進(jìn)行識(shí)別,而對(duì)于手稿一般是不易識(shí)別的。當(dāng)然,正楷手寫字和早期的鋼板刻字、雕版印刷體,OCR也還是可以識(shí)別的。對(duì)于豎版文件,必須依靠專業(yè)的豎版OCR識(shí)別軟件才能識(shí)別。

      二是OCR識(shí)別率問題。識(shí)別率一般達(dá)到90%以上,已經(jīng)基本滿足檔案全文檢索的需要了。有的人片面追求識(shí)別率,一定要求識(shí)別率達(dá)到98%—99%的,反復(fù)校對(duì),實(shí)際上是浪費(fèi)人力物力。

      三是對(duì)于OCR識(shí)別節(jié)點(diǎn)的把握。OCR識(shí)別應(yīng)該安排在掃描文件壓縮之前進(jìn)行,因?yàn)樽R(shí)別率的高低很大程度上取決于圖像掃描分辨率的高低。國(guó)標(biāo)規(guī)定200DPI的分辨率本來是可以滿足OCR識(shí)別需要的,如果做了有損壓縮,圖像分辨率就會(huì)嚴(yán)重下降,這時(shí)再做OCR識(shí)別,就會(huì)直接影響識(shí)別效果。

      四是對(duì)于OCR文件的命名問題。經(jīng)過OCR識(shí)別,必然與掃描文件相對(duì)應(yīng)地產(chǎn)生一個(gè)OCR文件。由于事先沒有統(tǒng)一規(guī)范要求,軟件一般會(huì)自動(dòng)命名OCR文件。對(duì)于這種自動(dòng)命名的OCR文件,一旦遇到數(shù)據(jù)遷移或移交,很難保證與原來掃描文件的對(duì)應(yīng)關(guān)系。目前,檔案館從機(jī)關(guān)接收數(shù)字化成果,就普遍遇到這個(gè)問題。

      4.2 掃描圖像數(shù)據(jù)的壓縮

      掃描完的數(shù)據(jù)必然要做壓縮,但是如何壓縮、壓縮到什么程度,這是大家最為糾結(jié)的問題。國(guó)家標(biāo)準(zhǔn)要求“紙質(zhì)檔案數(shù)字圖像長(zhǎng)期保存格式為TIFF、JPEG或JPEG2000等通用格式,圖像壓縮率的選擇可根據(jù)實(shí)際應(yīng)用的需求而定”。

      TIFF格式可以實(shí)現(xiàn)對(duì)圖像的無損壓縮(LZW)。所謂無損壓縮,通俗地講,就是可以完全還原的一種壓縮方式。壓縮不影響文件的內(nèi)容,不會(huì)使圖像細(xì)節(jié)數(shù)據(jù)有任何的損失,能保持原有圖像的顏色和層次,但占用存儲(chǔ)空間比較大。如果把掃描圖像作為檔案原件替代品來看待,TIFF的無損壓縮(LZW)作為長(zhǎng)期保存格式應(yīng)該是較為理想的一種選擇。

      有損壓縮就是通過降低圖像的像素來達(dá)到壓縮文件大小的目的。比如JPEG格式就是一種有損壓縮數(shù)據(jù)格式。有損壓縮不能還原原始的圖像信息,是一種不可逆的壓縮。經(jīng)過有損壓縮的圖像,圖像分辨率會(huì)降低,圖像的幅面會(huì)變小,圖像的質(zhì)量會(huì)發(fā)生變化。所以,當(dāng)我們選擇采用JPEG壓縮格式作長(zhǎng)期保存格式時(shí),必須在圖像質(zhì)量和文件大小之間找到平衡點(diǎn),保證圖像質(zhì)量不受影響。

      JPEG2000既支持無損壓縮,也支持有損壓縮。JPEG2000在相同圖像質(zhì)量條件下可以獲得比JPEG更高的壓縮比,而且能夠?qū)崿F(xiàn)圖像的漸進(jìn)傳輸。

      現(xiàn)實(shí)中,JPEG、JPEG2000更多的是從實(shí)際利用需求出發(fā),作不同程度的壓縮。例如,浙江省檔案館制作黃埔軍校同學(xué)錄數(shù)據(jù)庫(kù)的過程中就選用了JPEG格式,將掃描后的同學(xué)錄照片數(shù)據(jù),制作成兩種壓縮率的數(shù)據(jù),一種是高倍壓縮率的JPEG,用于網(wǎng)絡(luò)提供利用。10多年來,人們?cè)凇罢憬瓩n案網(wǎng)”上查閱到的黃埔軍校同學(xué)錄照片都是高壓縮率的圖像,每張照片只有幾K大小。此外,省檔案館還有一份低壓縮率的JPEG圖像,為利用者直接提供復(fù)制還原服務(wù)。

      JPEG、JPEG2000應(yīng)用最典型的要數(shù)日本公文書館。大家在該館的網(wǎng)站上,可以獲得各種不同壓縮比的檔案數(shù)據(jù)。例如日本天皇詔書,網(wǎng)站提供了JPEG和JPEG2000兩種格式四種壓縮比的檔案,供觀眾自由下載。經(jīng)下載比較觀察,以《終戰(zhàn)詔書》的首頁(yè)為例:最低解像度的分辨率為1268×1770像素(360K);中解像度的分辨率為2535×3539像素(1.08M);高解像度的分辨率為5069×7078像素(3.09M);JPEG2000的分辨率也是5069×7078像素(3.15M)。低解像度滿足了一般瀏覽的需要,中解像度就可還原打印了,高解像度JPEG和JPEG2000不僅可以用于印刷出版,而且舉辦展覽、仿真復(fù)制也都能滿足需求了。

      4.3 關(guān)于掃描數(shù)據(jù)的格式轉(zhuǎn)換

      國(guó)家標(biāo)準(zhǔn)規(guī)定:“紙質(zhì)檔案數(shù)字圖像利用時(shí),也可從網(wǎng)絡(luò)瀏覽速度、易操作性、存儲(chǔ)空間占用等方面進(jìn)行綜合考慮,將圖像轉(zhuǎn)換為PDF等其他格式。”

      由于檔案文獻(xiàn)與圖書等其他文獻(xiàn)一樣,絕大部分是書本式的,為便于網(wǎng)上瀏覽,一般都轉(zhuǎn)換成PDF等版式,也稱之為電子書格式?,F(xiàn)在除了PDF外,還有DJVU、OFD等多種格式可以滿足網(wǎng)上瀏覽的需要。PDF等文件格式特點(diǎn)就是可以將文字、圖像等封裝在一個(gè)文件中,該格式文件還可以包含超文本鏈接、聲音和動(dòng)態(tài)影像等電子信息,支持特長(zhǎng)文件,集成度和安全可靠性都較高。比如,經(jīng)OCR識(shí)別形成的文本文件與掃描形成的圖像文件本是兩個(gè)文件,如果單獨(dú)使用,必須用不同的瀏覽器才能打開,現(xiàn)在用PDF格式將兩種格式的文件集成在一個(gè)文件里,既滿足了瀏覽的需要,又滿足了全文檢索的需要。

      4.4 掃描圖像數(shù)據(jù)的刻盤和移交

      數(shù)字化成果驗(yàn)收合格后,就要對(duì)數(shù)據(jù)刻盤和移交。一般刻盤都選擇DVD光盤。光盤具有脫機(jī)保存、成本低、安全性高等優(yōu)點(diǎn),深受大眾的歡迎。但是DVD光盤也存在單位容量小、壽命短、管理麻煩等缺點(diǎn)。因此建議數(shù)字化成果的移交必須保證兩種形式:光盤和硬盤。尤其對(duì)于外包加工來講,移交數(shù)字化加工硬盤也是確保數(shù)據(jù)安全的一個(gè)重要手段。

      猜你喜歡
      分辨率整理利用
      利用min{a,b}的積分表示解決一類絕對(duì)值不等式
      利用一半進(jìn)行移多補(bǔ)少
      EM算法的參數(shù)分辨率
      原生VS最大那些混淆視聽的“分辨率”概念
      利用數(shù)的分解來思考
      Roommate is necessary when far away from home
      基于深度特征學(xué)習(xí)的圖像超分辨率重建
      一種改進(jìn)的基于邊緣加強(qiáng)超分辨率算法
      高一零碎知識(shí)整理
      整理歸納中漸次堅(jiān)實(shí)
      开原市| 余干县| 阜城县| 丹棱县| 栖霞市| 天长市| 思茅市| 沁源县| 思南县| 广东省| 湘潭县| 花垣县| 自贡市| 阳山县| 宝山区| 芜湖市| 阿鲁科尔沁旗| 桐城市| 高淳县| 精河县| 陇川县| 江西省| 百色市| 芮城县| 彩票| 林口县| 兴和县| 镇宁| 丘北县| 中牟县| 台南县| 桃江县| 平陆县| 泰安市| 新昌县| 吴旗县| 白城市| 通渭县| 池州市| 乐平市| 中西区|