趙玉琴(江蘇省五臺山體育中心,江蘇南京,210029)
圖像轉PDF的問題與解決方法
趙玉琴(江蘇省五臺山體育中心,江蘇南京,210029)
檔案數字化就是將大量紙質檔案電子化,實現電腦存儲與在線查詢。由于PDF文件本身的標準化、方便性,目前的應用越來越多,一種比較流行的方法是將掃描好的圖像文件最后合并成TIFF文件,然后轉換成PDF文件。但是由于有關部門對如何轉換成PDF文件沒有一個統(tǒng)一的規(guī)定,每個掃描公司基本上都是依據自己的想法或經驗進行掃描轉換,因此轉換流程與方式以及軟件也五花八門。
轉換成PDF文件的原理有兩種,一是基于虛擬打印原理。虛擬打印原理的軟件開發(fā)需要提供打印驅動程序,這種軟件通用性較好,除圖像文件外還可以將Word等所有可打印格式轉換成PDF。二是直接將圖像嵌入PDF文件。直接將圖像嵌入PDF文件的軟件實現相對簡單。無論采用那一種方法都存在著圖像數據流重新壓縮造成的問題和對特殊圖像格式的支持問題等。
對基于虛擬打印原理實現的轉換軟件來說,其工作過程為:轉換工具提供一個虛擬打印機。如Acrobat 提供的打印機名為Adobe PDF??磮D軟件打開圖像文件,在接到打印命令后,像在真實打印機上打印一樣,將圖像每個像素描繪到虛擬紙上,形成發(fā)送給虛擬打印機的數據流。虛擬打印機收到數據流后,根據圖像的色彩空間等信息,選擇合適的壓縮算法,對數據流再次進行壓縮以減小文件長度,然后將壓縮后的數據流存入PDF。
對于基于虛擬打印原理實現的圖像轉PDF 工具,可能會有如下問題:對于有損壓縮的JPG 文件,轉換成PDF 后的質量與發(fā)出打印命令的軟件密切相關。像ACDSEE 這樣先解碼再打印,必然會因為圖像的再壓縮而造成質量衰減或文件膨脹。像Word 這樣直接將JPG 數據流發(fā)送到虛擬打印機,則與軟件內部的打印設置有關,設置好了可以直接將數據流完整嵌入PDF 而不造成損失或膨脹,設置不好則同樣可能造成像素損失。另外,打印機對JPG 數據流的支持受平臺限制,一般來說包括ACDSEE 在內的大多數軟件都是先解碼成bitmap,這樣就可以不受平臺限制。而對于無損壓縮的圖像文件,如GIF、PNG、BMP 等,真彩色圖像往往會被轉換成有損壓縮的JPG數據流,造成圖像質量損失;灰度、索引色圖像往往會被解碼后再壓縮成某種無損壓縮數據流,如果虛擬打印機所選壓縮算法的壓縮效率低于原圖像壓縮算法,則可能造成PDF 文件的膨脹。
直接將圖像嵌入PDF的轉換軟件工作原理與基于虛擬打印機的轉換軟件不同,其工作過程是,用戶在轉換軟件中選擇需要轉換的圖像文件后,轉換工具按照PDF文件規(guī)范創(chuàng)建PDF文件,寫入文件頭信息,再逐一從圖像文件中抽取圖像數據,根據需要對數據進行轉換,然后將數據打包成PDF對象,寫入PDF文件。直接讀取圖像數據的轉換工具,由于可以從原始圖像文件中獲取豐富的圖像信息,包括原始數據壓縮算法等,可以針對不同的文件格式或不同的圖像情況做出選擇。基于虛擬打印原理實現的轉換工具,如果打印機只能得到解碼后的數據流,選擇的余地就會小一些,是從bitmap數據流中獲取顏色深度等信息,再選擇算法重新壓縮數據。
總之,只要對圖像數據流重新壓縮就有會產生問題,差別在于問題的大與小、重與輕,將無損壓縮轉換成有損壓縮,或對有損壓縮解碼后再次有損壓縮,必然造成圖像質量下降。改變文件數據流的壓縮方法,某些情況下可以減小文件長度,在某些情況下則相反,會引起文件長度加長,甚至膨脹,關鍵是看數據與壓縮方法的搭配是否合適。
這里說的特殊圖像格式,主要是指TIFF 格式。在常見的圖像格式中,JPG、GIF、BMP 等都有嚴格的格式規(guī)定,可能出現的情況較少。但是對于TIFF 來說,由于TIFF 標準本身希望能夠包容盡可能多的東西,又對實現細節(jié)也沒有具體的規(guī)定,所以各家軟件生成的TIFF 圖像種類繁多。
國內專業(yè)掃描外包公司中,他們?yōu)榱藴p少數據處理量,對TIFF 采用有損壓縮是常有的事,這些圖像多半就連libtiff也解不開,ACDSEE 更是想都不用想,有些甚至連專門顯示TIFF 文件的MicrosoftOffice Document Imaging (微軟Office 2003 所帶附件之一)也打不開,而只能用他們自己的軟件才能閱讀。
除TIFF 外,PNG 文件也是一種可能會造成潛在麻煩的格式。但是與TIFF 不同,PNG 的麻煩不在于文件格式本身或數據壓縮算法,而在于它豐富的色彩表示。
解決以上問題的建議是,對有損壓縮的圖像數據,應盡量將原始數據流嵌入PDF文件,避免重新壓縮造成圖像質量衰減。對無損壓縮圖像數據,可以根據圖像特征選擇合適的無損壓縮算法重新壓縮圖像數據,以節(jié)省存儲空間,也可以直接將原始圖像數據嵌入PDF,以節(jié)省重新壓縮所需的時間。在數字化過程中TIFF文件的生成最好規(guī)定一到兩種壓縮算法,生成PDF文件的軟件或最終文件要通過一定的檢測。