• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      手稿與圖紙檔案數(shù)字化過程比較研究

      2018-04-29 00:44:03龐莉
      檔案與建設(shè) 2018年1期
      關(guān)鍵詞:手稿校驗紙質(zhì)

      [摘要]手稿和圖紙檔案都屬于特殊屬性的紙質(zhì)檔案,其檔案載體不同于普通公文用紙,基于特殊紙質(zhì)檔案的紙張性質(zhì)與幅面尺寸的特殊性,在數(shù)字化過程中涉及的掃描處理技術(shù)、數(shù)字化存儲格式以及對數(shù)字化成果的校驗方法都有差異。論文力求通過比較研究的方法分析手稿和圖紙檔案數(shù)字化過程的不同層面,以期對特殊紙質(zhì)檔案的數(shù)字化方向做一個探索和展望。

      [關(guān)鍵詞]手稿圖紙數(shù)字化比較研究

      [分類號]G270.7

      A Comparative Study on the Digitization of Handwritten Manuscripts and Drawings Archives

      Pang Li

      (Archives of Shanxi Normal University, Xian, Shanxi, 710062)

      Abstract: Handwritten manuscripts and drawings archives are special paper archives,so their carrier differ from ordinary paper documents.Because the particularity for the nature of the paper and format size,digital scanning processing technology,digital storage format and the outcomes of digital calibration method all have differences and similarities. The paper tries to through a comparative study methods to analysis the different level of manuscripts and drawings archives digitization process and to do a exploration and prospects for special paper archives digitization.

      Keywords: Manuscript; Drawings; Digital; Comparative Study

      隨著信息化發(fā)展,館藏檔案的數(shù)字化早已不是一個嶄新的課題,然而在各級各類檔案館中檔案數(shù)字化理論方法基本成型,但具體實踐工作及操作流程還在進一步探索中,除了普通紙質(zhì)檔案(A4打印紙)的數(shù)字化簡單易行外,圖紙、手稿、書畫等特殊紙質(zhì)檔案的數(shù)字化處理方法和技術(shù)發(fā)展緩慢,這是現(xiàn)今館藏檔案數(shù)字化的障礙和難點所在,因此,本文以手稿與圖紙檔案為研究對象,研究其數(shù)字化過程的種種異同,對整改和開發(fā)館藏檔案中特殊紙質(zhì)檔案的數(shù)字化工作有重要意義。

      1手稿與圖紙檔案數(shù)字化過程差異

      1.1手稿數(shù)字化過程

      手稿和圖紙檔案都屬于特殊類型的紙質(zhì)檔案,而又各具不同的特點。手稿檔案大多是年代久遠的檔案資源,紙張包括手工紙和機制紙,性質(zhì)較復(fù)雜,通常的手稿、書信和日記大多為書寫紙、凸版紙、元書紙、新聞紙、黃色毛邊紙或道林紙,印有不同格子的紙箋,另外,題詞和詩詞手稿通常都使用宣紙,還有一些是毛筆、碳素墨水筆等手寫筆記,這些手寫筆記都是歷史的見證,是非常珍貴的檔案資源,然而,由于手稿檔案的紙張載體種類、字跡書寫材料、幅面尺寸都沒有統(tǒng)一標準,這就為數(shù)字化處理造成了諸多不便。

      手稿由于紙質(zhì)薄、脆、軟的特性和年代久遠因素,首先要進行數(shù)字化預(yù)處理,運用新型檔案保護修護技術(shù),為實現(xiàn)手稿的修復(fù),提高檔案紙張的生理化性能,把細菌纖維素遷移到已形成的檔案手稿紙張上,從而預(yù)先提高檔案數(shù)字化的質(zhì)量。[1]通常的處理技術(shù)是將手寫筆記翻拍成JPG圖片或者掃描成PDF圖片,再用畫圖軟件如Photoshop或者Adobe Reader軟件把圖片格式打開,用虛擬打印的方法將文件轉(zhuǎn)換為MDI格式,最后打開MDI格式的文件,用OCR技術(shù)進行識別發(fā)送至WORD文檔,這種方法繁瑣且效率低。另外,如果采用拍照的方法,又涉及照片保存的問題,且有些手稿字跡褪去,照片影像模糊不清,而手稿紙質(zhì)薄、脆、軟,使用掃描儀掃描也會對原始檔案進一步破壞。因此,現(xiàn)今可以直接捕捉和處理手寫筆跡和草圖的Carbo抓圖處理軟件,直接利用攝像頭拍攝手稿的照片并讀取圖片,利用混合圖像編輯技術(shù)既保留了矢量圖的高清晰度又實現(xiàn)了位圖方便編輯的特性,這個處理過程和一般掃描應(yīng)用非常相似,但效果又比普通掃描更清晰,顏色更逼真,還進一步保護了檔案資源,處理后的手稿還可以進行編輯,如圖1和圖2所示,從數(shù)字化的發(fā)展趨勢、數(shù)字化難易程度及數(shù)字化成果來看,手稿將越來越多采用類似于Carbo軟件的手寫信息數(shù)字化采集及識別軟件來進行數(shù)字化處理。

      1.2圖紙數(shù)字化過程

      圖紙檔案通常是基建工程形成的文件資料,包括底圖和藍圖,底圖含有文字成品和工程項目設(shè)計圖紙,藍圖主要是底圖的復(fù)曬品和工程項目管理文件。[2]圖紙檔案由于產(chǎn)生年代不同,其介質(zhì)性質(zhì)相差甚遠,圖紙的幅面大小也各異。圖紙檔案是廣泛利用的檔案資源,圖紙通常包括機械圖、建筑圖、電路圖、平面圖和線條類藝術(shù)品等圖紙資源,如何將圖紙檔案中具有復(fù)雜性、特殊性的圖形轉(zhuǎn)換為能在計算機上編輯與處理的圖形數(shù)據(jù)文件,是圖紙檔案數(shù)字化的關(guān)鍵點。圖紙檔案因其幅面大、數(shù)量多、使用率高的特點,通常有兩種數(shù)字化方法:一種是用圖形軟件重新繪制?,F(xiàn)今,各種圖形都可以利用繪圖軟件完成,計算機圖形學也可以解決各種圖形問題。如Auto CAD繪圖軟件可以完成工程制圖、機械制圖等,并形成計算機直接處理的矢量圖形數(shù)據(jù)文件;另外,處理一些特殊圖形的繪制問題使用的繪圖軟件有Adobe公司開發(fā)的Illustrator軟件、Macromedia公司的Freehand軟件、Corel公司的出品的Coreldraw等。軟件繪圖首先能實現(xiàn)直線與曲線的繪制,使用貝塞爾曲線來繪制對象的路徑,并能描繪出任何形狀的對象;其次是可以實現(xiàn)圖形的編輯,主要包括圖形的融合、相交、挖空、分割、修剪、合并等,也可實現(xiàn)基本幾何圖形的繪制。[3]直接繪制圖形的方法缺點是效率低且工作量大。另一種方法是用掃描儀將圖紙掃成光柵圖輸入計算機,如對圖紙檔案數(shù)字化處理時,為了保證其真實性、準確性,需使用工程掃描儀來掃描最大號(A0幅面)的圖紙,這種方法工作效率高,且貼近原稿真實性,但人們無法直接對光柵圖進行編輯,對特殊圖形也無法處理,這對數(shù)字化最終成果的使用有所限制,因此,圖紙數(shù)字化同時采用掃描、圖形處理軟件以及工程制圖軟件(CAD制圖)對圖紙進行數(shù)字化,相應(yīng)的圖形處理軟件應(yīng)該具有矢量圖形的編輯等功能,圖紙檔案的數(shù)字化建議根據(jù)圖紙中特殊圖形的實際情況及圖紙檔案的使用情況選擇適當?shù)姆桨高M行數(shù)字化。如圖3推薦的圖紙檔案的數(shù)字化流程。

      2數(shù)字化過程中處理技術(shù)比較

      2.1手稿和圖紙掃描后圖像處理技術(shù)

      手稿檔案數(shù)字化后的圖像中包含有少數(shù)民族文字,還存在諸多非常用字體,這些文字年代久遠,不便確認,利用傳統(tǒng)掃描后呈現(xiàn)得不夠清晰,不易辨認,影響了檔案數(shù)字化的進程和預(yù)期效果。少數(shù)民族文字種類繁多,如藏文、彝文、朝鮮文、滿文等,很多文字瀕臨滅絕,特殊字體包括古今字、繁體字、異體字等。古今字是因時代變遷形成了外形不同而意義相同的字,還有一些假借義、引申義而產(chǎn)生一字多義的現(xiàn)象。

      手稿掃描后圖像中的特殊文字和字體信息的數(shù)字化方式一般是鍵盤輸入,鍵盤輸入耗時長且成本高,現(xiàn)今普遍利用OCR技術(shù)(Optical Character Recognition,光學字符識別)來處理圖像掃描后的文本數(shù)據(jù)轉(zhuǎn)換,OCR技術(shù)可以利用多種模式識別算法剖析出文字的標準編碼,翻譯成計算機文字,并使用通用格式存儲在文本文件中。但OCR技術(shù)對打印文本以及清晰圖像的文本數(shù)據(jù)識別率較高,目前在手稿識別、古籍識別等領(lǐng)域還有待進一步突破。[4]所以,針對少數(shù)民族文字以及古今字、繁體字、異體字等特殊文字和字體,需要在分析后提出通用合理的數(shù)字化方案,設(shè)計出具有高識別功能的工具,能對古語、少數(shù)民族文字、手稿以及各種特殊字體的文字進行識別,開發(fā)出特殊文字及字體的數(shù)字化檔案管理系統(tǒng)。具體來說就是將少數(shù)民族文字、古語、文言文、特殊字型和字體的文字全部錄入到一個系統(tǒng)中,此系統(tǒng)在掃描手稿時,可以自動識別文字,并轉(zhuǎn)換成文本性數(shù)據(jù),也可以將掃描后的原稿存儲成電子文本。截至目前,還需進一步整理、編纂,再利用技術(shù)手段將特殊文字及字體整合成可反復(fù)利用的數(shù)字化檔案管理系統(tǒng),由于手稿檔案是我國文化的寶貴財富,應(yīng)該重視其數(shù)字化進程,發(fā)揮歷史檔案的價值。

      圖紙檔案在前文中提到,掃描后的圖像文件存儲于計算機,圖像文件的構(gòu)成一般是矢量圖形,而特殊圖像也是由直線、曲線、圓等基本組件構(gòu)成,這些相對獨立的組件具有形狀、大小、輪廓、顏色等屬性,這些屬性只要矢量化后都可以修改調(diào)整。而數(shù)字化得到的圖像數(shù)據(jù)量大,必須采用編碼技術(shù)壓縮。數(shù)字化后的圖像其技術(shù)參數(shù)包括像素、圖像分辨率、顏色值和色彩空間等,是以位圖的形式呈現(xiàn)在計算機上,一些圖紙檔案數(shù)字化后的圖像會“失真”,因為圖紙檔案與傳統(tǒng)紙質(zhì)檔案數(shù)字化追求的效果不同,圖紙檔案數(shù)字化后圖像更注重“原真”,所以需要通過數(shù)字化系統(tǒng)中的圖像處理功能,或者專門的圖像處理軟件來對數(shù)字化后的圖紙圖像進行處理。

      數(shù)字圖像的處理主要包括四個方面:圖像幾何變換、圖像平滑處理、圖像銳化處理。圖像的幾何變換是指圖像處理中對圖像平移、旋轉(zhuǎn)、縮小、放大等簡單變換以及變換中灰度內(nèi)插處理,在數(shù)字化過程中,圖像會收到噪聲源的干擾,產(chǎn)生無用信息,影響圖像的質(zhì)量,判斷圖像復(fù)制質(zhì)量的重要指標之一就是圖像的清晰度,在圖像處理中,清晰度主要是通過掃描進行控制的。利用圖像銳化的方法來改善圖像質(zhì)量,使圖像信息易于觀察。計算機圖像可以轉(zhuǎn)化為圖形,而圖形文件也可以轉(zhuǎn)化為圖像文件。Photoshop及其他圖像軟件(Illustrator、Freehand、Coreldraw)中也可以將矢量圖形光柵化或轉(zhuǎn)換為其他圖像文件。

      2.2數(shù)字化成果存儲格式

      手稿數(shù)字化后多是文字型、文本型數(shù)據(jù),《電子文件歸檔與管理規(guī)范》中推薦的通用存儲格式為:文字型數(shù)據(jù)采用XML、RTF和TXT格式。XML文檔格式優(yōu)點是可以全文檢索,可擴展,可在不同系統(tǒng)之間進行信息傳輸,并能進行數(shù)字化遷移;RTF優(yōu)點是編排功能強,可進行不同格式間的轉(zhuǎn)換,容易識別,但RTF格式繁多;TXT文檔格式文件體積小,使用方便,能被幾乎所有文字處理軟件識別,但同時因TXT容量較小,不易與外界進行轉(zhuǎn)換,不能插入圖片。另外,還有常用的文件處理DOC格式可在文件中嵌入圖表、圖片、建立超鏈接,但尚未成為國際標準。

      圖紙檔案掃描后多為圖像數(shù)據(jù),采用JPEG、TIFF等格式存儲?!都堎|(zhì)檔案數(shù)字化技術(shù)規(guī)范》中規(guī)定:“采用黑白二值模式掃描的圖像文件,通常采用TIFF格式存儲;采用灰度模式和彩色模式掃描的文件,通常采用JPEG格式存儲;提供網(wǎng)絡(luò)查詢的掃描圖像,可存儲為PDF或其他格式?!盵5]下面就幾種圖像存儲格式進行比較:GIF格式是動態(tài)圖的存儲格式,壓縮比高,磁盤空間占用少,但不能用于存儲真彩色的圖像文件;TIFF是一種非失真的壓縮格式,圖像質(zhì)量好,但占空間比較大;相反,JPEG格式屬于有損壓縮,容易造成圖像數(shù)據(jù)損傷,但占用磁盤空間小且圖像質(zhì)量好,可以壓縮成不同壓縮比的文件包,適合網(wǎng)絡(luò)傳輸;PNG格式屬于無損壓縮,適合圖像瀏覽,圖像色彩豐富且品質(zhì)高,但占用空間大。由此可見,手稿數(shù)字化存儲和圖紙的數(shù)字化存儲格式迥然不同。

      2.3數(shù)字化成果信息校驗技術(shù)

      檔案數(shù)字化成果的信息校驗,是檔案數(shù)字化的后期工作,也是檔案數(shù)字化成果優(yōu)劣質(zhì)檢的關(guān)鍵步驟。由于手稿和圖紙均屬于特殊紙質(zhì)檔案,因此信息校驗結(jié)果直接決定了數(shù)字化成果的再利用。手稿和圖紙的信息校驗的相同之處是,手稿和圖紙上的文字數(shù)據(jù)都可以采用雙人工輸入比較法,即由兩名錄入員在不同時間和不同終端上分別錄入同一批數(shù)據(jù),其中一名人員錄入的結(jié)果與另一名錄入的結(jié)果進行比對,如果兩次錄入結(jié)果不同,需進行核實并修正。[5]這種方法缺點是數(shù)據(jù)量大,工作量大,人工成本高,優(yōu)點是最終結(jié)果的正確性很好驗證。不同之處是圖紙數(shù)字化后大多是圖形、圖像,而手稿大多是難以辨認的字體和特殊字型,手稿數(shù)字化后其不同字型、字體應(yīng)遵循國際化的準則來校驗。目前,國際標準ISO/IEC10646(GB13000,Unicode)把迄今為止尚存的語言(Living Languages)按照其文字(Script)統(tǒng)一編碼,制定出全球通用的編碼字符集,所容納的漢字囊括《康熙字典》《漢語大字典》等,[6]開發(fā)出這樣一個包含了少數(shù)民族文字、外國文字以及古今字、異體字、繁體字等多種字型、字體的系統(tǒng),手稿的數(shù)字化成果可在中文簡體與繁體、日文、韓文、英文等平臺上校驗,這種跨語境關(guān)聯(lián)的全文檢索系統(tǒng),不但方便了不同語種的用戶的檢索,也為手稿數(shù)字化成果校驗提供有力的平臺,是未來手稿數(shù)字化的方向。

      圖紙數(shù)字化成果的校驗,主要是對掃描后的圖像逼真度以及編輯后矢量圖準確性的校驗,由于受數(shù)字化掃描角度的影響或是受折疊、受潮等因素的影響,圖紙會出現(xiàn)歪斜變形現(xiàn)象和不同程度的褶皺,導致圖紙上圖形的網(wǎng)格和曲線出現(xiàn)變形,掃描進機的圖像與最原始的圖有一定的差別,如果在這種情況下進行圖紙的數(shù)字化,結(jié)果與原始檔案數(shù)據(jù)就會不一致。圖紙數(shù)字化成果的校驗,主要的問題就是傾斜角的檢測和圖形歪斜的矯正,由于局部扭曲,缺乏統(tǒng)一的形式,因此很難用自動的方法檢測與校正,現(xiàn)今常用一種人工交互方式的傾斜校正方法,即采用人工選中圖紙的四個角,然后根據(jù)這四個角的坐標算出傾斜的角度。本文提倡采用純手工方式來處理圖紙檔案數(shù)字化的扭曲變形。主要有以下幾個步驟:第一,選擇圖紙掃描后存在扭曲的局部區(qū)域。第二,估測扭曲方向及大小,人工確定校正的方向和大小。第三,手工校正。校正前后效果對比見圖4與圖5(選用圖紙實體見陜西師范大學2012年基建圖紙部分內(nèi)容)。

      處理數(shù)字化后圖像,首先應(yīng)了解灰度直方圖(用于表達圖像灰度分布狀態(tài)的統(tǒng)計圖表)。對圖像進行數(shù)字化校驗或編輯時,可以利用灰度直方圖檢查輸入圖像灰度值在可利用的灰度內(nèi)分配是否恰當;為了使原圖像忠于圖紙檔案原稿,可以進行灰度變換。由此可見,手稿和圖紙掃描后的數(shù)字化信息的校驗也截然不同,手稿大多是對字體、字型及文字正確率的校驗,而圖紙主要是對圖形、圖像掃描后忠于原文的校驗以及校驗后的進一步編輯。

      3結(jié)論與分析

      綜上所述,手稿與圖紙檔案數(shù)字化后的數(shù)字圖像轉(zhuǎn)換的理想程度與準確程度不僅僅取決于需要轉(zhuǎn)換、處理以及編輯軟件的選擇,還取決于在數(shù)字化過程中硬件設(shè)備的選擇。特殊紙質(zhì)檔案數(shù)字化處理中應(yīng)用的硬件設(shè)備一般包括計算機、掃描儀、數(shù)碼相機、各種圖形、圖像處理軟件、文字識別軟件以及存儲設(shè)備,正確地選擇硬件設(shè)備,是檔案數(shù)字化順利進行的有力保證。一些人認為,將特殊紙質(zhì)檔案數(shù)字化后會失去原始檔案的風格和魅力,降低其真實性和可信度。[7]因此,為了保證這些特殊類型的紙質(zhì)檔案數(shù)字化后仍能忠于原稿,就要克服檔案數(shù)字化過程中許多技術(shù)障礙,而對于特殊紙質(zhì)檔案數(shù)字化掃描設(shè)備的選擇,掃描參數(shù)的設(shè)置及后期處理技術(shù)的進一步研究也非常重要。特殊紙質(zhì)檔案數(shù)字化技術(shù)的障礙的解決辦法,最關(guān)鍵的是制定有效的技術(shù)實施方案,對于手稿而言,數(shù)字化過程中,文字處理技術(shù)和語言兼容技術(shù),主要在檔案數(shù)字化的前期階段完成,利用前端控制思想,保證手稿檔案的原始性和文字的正確性;[8]而對于圖紙檔案而言,掃描后的圖像的處理技術(shù),這部分技術(shù)處理是在數(shù)字化過程中應(yīng)用,直接影響檔案數(shù)字化的效果和質(zhì)量。除此之外,特殊紙質(zhì)檔案數(shù)字化是一項很復(fù)雜的系統(tǒng)工程,只有不斷地探索各種特殊環(huán)節(jié)的關(guān)鍵掃描及處理技術(shù)才是檔案數(shù)字化的可靠保證。

      *本文系中國博士后科研基金面上項目(2016M600763)、陜西省社科信息學會青年培植項目(SHXHX2015011)的研究成果之一。

      參考文獻

      [1]張志惠.細菌纖維素在紙質(zhì)檔案修復(fù)中的應(yīng)用研究[D].昆明:云南大學.2015:7.

      [2]楊凌波,柴紹東.工程圖紙掃描數(shù)字化[J].城建檔案.2008(3):433-434.

      [3]張麗梅.館藏檔案數(shù)字化的技術(shù)策略探析[D].哈爾濱:黑龍江大學.2009:39.

      [4]傅榮校.檔案數(shù)字化掃描與存儲格式比較研究[J].檔案學通訊.2007(2):61.

      [5]蔣宏毅,王紅蕾等.地震模擬圖紙數(shù)字化存儲的實現(xiàn)[J].地震地磁觀測與研究. 2005(6):136.

      [6]李明杰,肖秋惠.中國古籍數(shù)字化資源調(diào)查與分析[J].圖書館雜志.2002(5):28.

      [7]唐躍進.檔案保護技術(shù)試驗教程[M].北京:中國人民大學出版社.2013:28.

      [8]盧森林.基于網(wǎng)絡(luò)環(huán)境下館藏檔案數(shù)字化、編研與利用研究[M].北京:北京理工大學出版社.2015:89.

      [作者簡介]

      龐莉,陜西師范大學檔案館館員,研究方向是檔案數(shù)字化研究、檔案資源建設(shè)。

      猜你喜歡
      手稿校驗紙質(zhì)
      作家手稿
      綠洲(2022年3期)2022-06-06 08:17:22
      作家手稿
      綠洲(2022年2期)2022-03-31 08:37:08
      丟失的手稿
      學生天地(2020年6期)2020-08-25 09:10:38
      爐溫均勻性校驗在鑄鍛企業(yè)的應(yīng)用
      手稿
      作品(2017年2期)2017-02-23 14:51:46
      紙質(zhì)書與《北京是個好地方》
      紙質(zhì)讀物的困境與出路
      文學教育(2016年27期)2016-02-28 02:35:24
      獨立書店浪漫的紙質(zhì)生活
      Coco薇(2016年1期)2016-01-11 03:00:59
      大型電動機高阻抗差動保護穩(wěn)定校驗研究
      電測與儀表(2015年1期)2015-04-09 12:03:02
      基于加窗插值FFT的PMU校驗方法
      鹤山市| 休宁县| 上饶市| 德令哈市| 景宁| 隆德县| 太白县| 靖边县| 梧州市| 深圳市| 老河口市| 梧州市| 清水县| 内丘县| 南投县| 太白县| 揭西县| 醴陵市| 鸡泽县| 大荔县| 朔州市| 宁化县| 修武县| 万山特区| 敦煌市| 兴国县| 巴中市| 锦州市| 松原市| 元氏县| 阿坝县| 渭源县| 南漳县| 伽师县| 紫金县| 会同县| 沈丘县| 昌黎县| 莱州市| 旬邑县| 平顺县|