張海燕
(南京信息工程大學,210044)
?
IQA在數(shù)字化文獻質(zhì)量評估中的應(yīng)用研究
張海燕
(南京信息工程大學,210044)
IQA(Image Quality Assessment圖像質(zhì)量評價)是一種測評數(shù)字化文獻質(zhì)量優(yōu)劣的客觀方法。文章利用IQA對不同掃描模式、不同掃描分辨率獲得的數(shù)字化文獻分別進行圖像質(zhì)量測值和文字識別錯誤測值,結(jié)合圖表對測值進行了波動分析。研究發(fā)現(xiàn),數(shù)字化文獻的質(zhì)量高低并非完全取決于掃描分辨率,在常規(guī)的黑白、4階灰度掃描模式下,并非掃描分辨率越高,圖像質(zhì)量就越好,而是當分辨率取200 - 400 DPI時獲得的圖像質(zhì)量測值最低而圖像質(zhì)量最好?;跍y值的波動分析,進一步給出了文獻數(shù)字化在不同模式下比較理想的掃描分辨率范圍。
文獻數(shù)字化;文獻掃描;IQA; 圖像質(zhì)量評估
隨著科技的進步,電子文獻的興起打破了紙質(zhì)文獻長期一統(tǒng)天下的局面。對于非再生性的古籍文獻、拓片、甲骨、家譜、輿圖、手稿、地圖、書籍、樂譜等,如何能夠更好地得到傳承使用及保存,如何能夠被更廣泛地閱讀,文獻數(shù)字化技術(shù)應(yīng)該說是解決這一難題的有效途徑[1]。文獻的數(shù)字化過程一般是從掃描文獻開始,然后對掃描的圖像做進一步預(yù)處理,最后形成電子文檔。雖然技術(shù)上還存在著標準的多樣性與需求的單一性的矛盾等問題,但是文獻數(shù)字化技術(shù)也已經(jīng)逐漸形成了一定的技術(shù)標準,然而對數(shù)字化文獻的質(zhì)量進行評估的研究卻并不多見,目前大部分研究主要集中在圖像質(zhì)量評價上[2]。
最近十幾年,電子文獻直接采用文本文檔,不但閱讀方便,而且可以直接拷貝引用。然而不管是紙質(zhì)文獻,還是電子文檔,讀者都是通過眼睛閱讀頁面的文獻直接獲取其中的信息,頁面質(zhì)量越好,讀者閱讀起來就越舒服?;贗QA的數(shù)字化文獻質(zhì)量評估,就是根據(jù)人眼的生理特性和人的視覺心理,提出基于圖像質(zhì)量評價體系的文獻數(shù)字化理論依據(jù)和操作方法,對不同掃描模式下的數(shù)字化文獻的質(zhì)量進行客觀分析,根據(jù)文獻來源科學地確定掃描模式和掃描分辨率,提高了文獻數(shù)字化質(zhì)量。
2.1 數(shù)字化文獻質(zhì)量的基本要求
文獻數(shù)字化不但對文獻有保護作用,同時也有利于文獻的利用和研究[3]。東南大學朱成林等認為在古籍文獻數(shù)字化過程中,OCR(optical character register,光學字符識別)等技術(shù)的識別正確率不高,導致研究效率低下,不同機構(gòu)開發(fā)的古籍數(shù)據(jù)庫的質(zhì)量差距也較大,為保障研究的可信度,研究者在參考數(shù)字文獻的過程中依然需要與紙本原文進行對照[4]。要解決這一問題,數(shù)字化后的電子文獻就必須符合兩個基本要求:(1)文本能夠拷貝引用。如果文獻不能被直接拷貝引用,還需手工輸入,就會使得文獻的利用研究效能大為降低。(2)文本清晰,閱讀舒服。要求數(shù)字化后的文獻能夠符合人眼的生理特性和人的視覺心理,讀者無需再參考紙本文獻,在閱讀電子文獻時的感覺和閱讀原有的紙質(zhì)文獻一樣清晰舒服。不管是數(shù)字化文獻,還是純文本的電子文獻,必須符合上述兩個基本要求,讀者才會接受并愿意典藏起來。
文獻能夠拷貝引用涉及到OCR技術(shù)。如何降低OCR的文字識別錯誤率,提高OCR圖像質(zhì)量值是問題的關(guān)鍵。文獻能夠舒服清晰地閱讀涉及到人眼的視覺特性和圖像質(zhì)量。文獻的圖像質(zhì)量是首要的,即使是純文本的電子文獻。
2.2 影響OCR準確率的主要因素
OCR這一概念最早于1929年由德國科學家Tausheck提出[5]。隨后美國科學家Handel描述了利用光學技術(shù)對文字進行識別的概念模型。OCR技術(shù)即是利用光學技術(shù)對文字和字符進行掃描識別,并將其轉(zhuǎn)化為計算機內(nèi)碼的技術(shù)。影響OCR準確率的主要因素包括:
(1)OCR軟件的性能。不同的OCR軟件有著不同的性能,導致這種差異的原因是多方面的,其中最主要的原因是軟件開發(fā)和傳承方面。起步早、技術(shù)力量雄厚的軟件公司,OCR軟件的內(nèi)核模式、特征提取等方面有著明顯的優(yōu)勢,其軟件的文字識別準確率會遠遠高于其它一些起步晚、實力小的公司。
一款好的OCR軟件,其高性能不僅體現(xiàn)在版面分析、邊緣提取、傾斜校正、去噪、對灰度圖像二值化、對二值圖像偽灰度化等圖像的預(yù)處理方面,同時在樣本字庫的建立、文本行字的切分、預(yù)分類、特征提取、匹配方法、細分類、識別字典、詞句確認等文字識別方面,性能也會高于一般的OCR軟件,尤其在表格、字體識別等細節(jié)方面優(yōu)勢明顯。
CHIP全球測試中心中國實驗室在2000年便對中國6款著名的中文OCR軟件從圖像預(yù)處理、版面分析、理解、文字塊檢出、文字的行、字切分、圖像文字的規(guī)范化、文字特征的提取、與特征庫比較分類、判別、后處理等各個方面進行了重點測試。測試結(jié)果:漢王OCR新世紀專業(yè)版以其令人信服的高識別率遙遙領(lǐng)先,尚書五號OCR增強版與漢王 OCR新世紀專業(yè)版使用的是同一個程序內(nèi)核,也擁有極高的識別率。此外,丹青中英文文件辨識系統(tǒng)V4.0、清華紫光OCRMF7.5、清華文通TH-OCRMF7.5等,也被廣泛應(yīng)用。
(2)文獻的來源。數(shù)字化文獻的來源很多,不同來源的數(shù)字化文獻有著不同的特質(zhì),需要不同特質(zhì)的OCR軟件與之配套。如,針對發(fā)黃的古籍善本需要注意標點符號的識別,繁體字、通假字等字體的轉(zhuǎn)換[6];對于陳舊版本的樂譜則需要注意音符的附點、連線的識別,必須利用計算機光學樂譜識別技術(shù)(OMR),把樂譜圖像自動轉(zhuǎn)化為通用的數(shù)字音樂格式[7];票據(jù)的OCR識別對識別結(jié)果的精度要求很高,誤識率理論上要求趨近于零,識別對象較少,主要集中于金額、日期、賬號[8]。因此,針對不同待識別對象,采用不同“特質(zhì)”的OCR軟件,文字識別的準確率將大大提高。
(3)數(shù)字化設(shè)備設(shè)置。文獻數(shù)字化采用的設(shè)備主要是掃描儀。針對不同的文獻,掃描儀如何設(shè)置,掃描模式、掃描分辨率如何確定,是影響數(shù)字化文獻質(zhì)量的重要因素,也是提高數(shù)字化文獻質(zhì)量的關(guān)鍵。
2.3 基于人眼視覺特性的圖像質(zhì)量評價
由于人眼是圖像的最終觀測者, 所以主觀圖像質(zhì)量評價方法是惟一最準確的方法,傳統(tǒng)的圖像質(zhì)量評價算法由于沒有充分考慮人眼的視覺特性,使得質(zhì)量評價結(jié)果與實際圖像的人眼感知質(zhì)量不符[9]?;谌搜垡曈X特性的圖像質(zhì)量評價就是根據(jù)人眼對圖像邊緣信息非常敏感這一特性,通過比較失真彩色圖像與原始參考圖像的邊緣,以及除邊緣之外的背景相似程度,最終確定失真圖像的質(zhì)量,這樣的評價結(jié)果更接近圖像的實際視覺感知質(zhì)量。
2.4 IQA在測量文獻質(zhì)量中的應(yīng)用
2.4.1 IQA原理簡述
在自然界中,自然場景內(nèi)本身具備大量的平坦區(qū)域和豐富的邊緣和輪廓信息,其頻率分布有一定的規(guī)律——人類大腦皮層細胞的響應(yīng)與自然場景的統(tǒng)計信息呈對數(shù)關(guān)系[10]。自然場景中的平坦區(qū)域以及邊緣和輪廓的關(guān)系,首先表現(xiàn)在空間上相關(guān),即:圖像空間上相鄰的像素點有著相似的灰度值,像素點在空間上離得越遠,兩者灰度值差異越大。如果一個像素點越亮,則相鄰的像素點也越亮,隨著像素間間距的加大,相關(guān)性隨之降低。根據(jù)自然圖像的變換不變性,借助傅里葉變換,可以從像素的亮度和坐標的相關(guān)性中恢復出圖像的“自然性”。
考察數(shù)字化文獻的質(zhì)量,就是考察文獻中每個頁面的圖像質(zhì)量。每個頁面的圖像并非是掃描儀直接掃描館藏文獻而成,還必須經(jīng)過傾斜、二值化等圖像預(yù)處理環(huán)節(jié),最后才能形成數(shù)字化文獻[11]。無論掃描儀的質(zhì)量多么高、圖像預(yù)處理環(huán)節(jié)多么完美,與原文獻資料相比,用戶所看到的數(shù)字化文獻總是存在或多或少的失真。圖像的失真不是人們所期望的,但利用人眼的視覺特性,建立相應(yīng)的圖像質(zhì)量評估(IQA)模型可以評估這些失真。失真越大的圖像質(zhì)量越差,反之,圖像質(zhì)量越好。利用IQA方法,可以方便地測量出數(shù)字化文獻中每頁圖像的評估值;并能根據(jù)這些值判斷出圖像的自然度。
2.4.2 IQA測量文獻頁面質(zhì)量
數(shù)字化文獻是由一頁一頁的圖像構(gòu)成的,測定數(shù)字化文獻的頁面質(zhì)量,要把每一頁圖像提取出來,然后利用IQA圖像評估方法,測定頁面圖像質(zhì)量值。
數(shù)字化文獻頁面的提取采用PDF Image Extraction Wizard,可以批量通篇提取,也可以設(shè)定頁碼范圍提取圖像頁面。電子文本文獻盡管本質(zhì)上不是圖像,但因為最后的顯示是借助于字符碼調(diào)用系統(tǒng)字庫圖像,所以最終仍是以圖像形式展現(xiàn)在用戶的面前,字符圖像和背景構(gòu)成的畫面就是讀者閱讀的圖像。這種圖像如果質(zhì)量差,用戶閱讀不舒服,就會影響文獻的閱讀效果。用戶的閱讀界面就是IQA要評估的圖像,因此可以通過屏幕截圖,采樣歸檔。
3.1 多種模式下的數(shù)字化文獻測量
數(shù)字化文獻的圖像質(zhì)量,就是文獻每個頁面的圖像質(zhì)量的平均。每個頁面的圖像質(zhì)量雖然跟原有文獻的質(zhì)量有著直接關(guān)系,但數(shù)字化過程中掃描模式的設(shè)置以及頁面的預(yù)處理,也在很大程度上影響著一幅圖像的質(zhì)量。這里采用HP服務(wù)器的廣告頁面作為數(shù)字化的源文獻,頁面為奶油背景色,文字有黑白的、有彩色的,還有internet網(wǎng)址,是測量數(shù)字化的良好選擇。掃描儀是方正z3000,其分辨率是1600x1600dpi。選用清華同方的Cajviewer測量OCR文字識別準確率。圖像質(zhì)量的測量采用MATLAB平臺上的全盲圖像測量軟件Natural Image Quality Evaluator (NIQE)[12]。
利用NSS像素和相鄰像素之間的對數(shù)規(guī)律及圖像與距離預(yù)測系數(shù)矩陣,得出了較好的圖像質(zhì)量評估值,建立了客觀評估值與圖像內(nèi)容的相關(guān)性,而且運算方便,精度高。
掃描時共分七個分辨等級,分別是75、100、200、300、400、600、1200(DPI),掃描模式分4個等級,即黑白(bw)、四階灰色(gray)、256彩色(8bit)、真彩色(24bit)。所有的掃描圖像都用PHOTOSHOP傾斜矯正、頁面切割等預(yù)處理,以避免次要因素影響到最終的結(jié)果評析。這些掃描圖像最終形成PDF格式的文獻,以便閱讀和測量。
軟件在進行OCR識別時,能夠識別半個字符或者大句號識別為小句號的,文字錯誤值設(shè)定為0.5。圖像質(zhì)量的測量值越小表示圖像質(zhì)量越高。得到的圖像質(zhì)量測量值如表1所示,文字識別錯誤值如表2所示。
表1 圖像質(zhì)量測量值
表2 文字識別錯誤值
3.2 測量結(jié)果評析
為了直觀、方便地分析測量結(jié)果,下面給出了圖像質(zhì)量測量值和文字識別錯誤值的二維坐標圖,如圖1、圖2所示。
根據(jù)圖1和圖2的結(jié)果分析,不難得出以下結(jié)論:
(1)從圖1可以看出掃描模式為bw黑白模式下,掃描分辨率設(shè)為200DPI,圖像質(zhì)量值最低,表明此時圖像質(zhì)量最佳,隨著分辨率的增高反而圖像質(zhì)量值增大,圖像質(zhì)量越差;對于gray灰度模式、8bit彩色模式、256bit真彩模式下,掃描分辨率在600DPI處,圖像質(zhì)量值最低,圖像質(zhì)量最佳。因此對于不同類型的文獻,為了保證數(shù)字化后文獻質(zhì)量,可以采用不同的分辨率。如水墨畫、油畫等的數(shù)字化,掃描模式分辨率可以選擇600DPI以上,同時選擇真彩模式。而黑白的純文本(包含發(fā)黃的古籍文獻)類型的數(shù)字化,分辨率可以選擇200至400DPI之間,甚至只考慮200DPI的分辨率。
圖1 圖像質(zhì)量值
圖2 文字識別錯誤率
(2)從圖2可以看出,分辨率在75-200DPI之間時,各種掃描模式的文字識別錯誤個數(shù)均產(chǎn)生了一個很大的躍變,分辨率在75DPI處的文字識別錯誤個數(shù)甚至遠遠超過19;掃描分辨率在200-400DPI之間,圖像質(zhì)量整體比較穩(wěn)定,但是文獻掃描模式設(shè)為8bit彩色模式時,分辨率在300DPI處文字的識別錯誤個數(shù)發(fā)生明顯躍變,故應(yīng)避免將分辨率設(shè)在300DPI附近;當分辨率設(shè)在400DPI-1200DPI之間時,黑白、灰度及彩色模式下文獻識別錯誤率都很理想,近乎為零,但掃描模式為24bit真彩色模式,掃描分辨率在600DPI處文字的錯誤率發(fā)生明顯的躍變。這主要是由于掃描儀內(nèi)核軟件插值所致,因此24bit真彩色模式下分辨率設(shè)為300-400DPI或1200DPI時文獻質(zhì)量最優(yōu)。因此,在實際工作中進行文獻數(shù)字化時,需要考慮機器分辨率的范圍,掃描分辨率也必須避開掃描儀內(nèi)核軟件插值后的分辨率,不能簡單地認為數(shù)字化時分辨率越高文獻質(zhì)量越好。
(3)數(shù)字化工作可以從質(zhì)量評估開始。在實際進行數(shù)字化工作時,應(yīng)首先進行源文獻的質(zhì)量評估,然后進行不同掃描模式下文獻質(zhì)量測評;根據(jù)測評結(jié)果再進行大規(guī)模的數(shù)字化。不同模式的文獻質(zhì)量測量值可以相互參考,但不能直接比較,如黑白的圖像質(zhì)量值是19,真彩色的圖像測量值為13,卻不能表明黑白模式的文獻質(zhì)量比真彩模式的文獻質(zhì)量差。
研究選取圖像的視覺感知重要區(qū)域作為考察對象,一方面它提供了可靠的線性規(guī)律,另一方面它可以很好的解決客觀評價值與圖像內(nèi)容相關(guān)性的問題。原始圖像視覺感知重要區(qū)域的子帶能量在對數(shù)域內(nèi)具有很強的線性規(guī)律,而失真圖像卻會破壞這種規(guī)律。以上是比較宏觀的描述,在具體評價的時候,可以從影像各個波段的最小值、最大值、值域、均值、標準差、波段間的協(xié)方差和相關(guān)系數(shù)等具體定量指標進行確認[14]。
文獻數(shù)字化不但是數(shù)字圖書館實現(xiàn)的前提條件,也是個人進行科學研究可以借用的手段。如何保證文獻數(shù)字化能夠閱讀舒服、引用方便是文獻數(shù)字化一直研究的課題。利用IQA(Image Quality Assessment)圖像質(zhì)量評價體系對數(shù)字化文獻的質(zhì)量進行評估,可以為文獻的數(shù)字化提供一種客觀的尺度,可以使得用戶在具體文獻數(shù)字化時有了精細的參考。
文獻數(shù)字化要保證理想的質(zhì)量,還必須考慮到不同的文獻類型。文獻類型不一樣,具體數(shù)字化時的要求也不一樣。基于IQA的數(shù)字化文獻質(zhì)量評估方法,還可以根據(jù)不同類型的文獻,測定出理想?yún)?shù),幫助用戶數(shù)字化時取得比較好的效果;同樣是書畫,但不同時期的書畫有著各自的理想系數(shù),這也能使其數(shù)字化時多一個參考。
[1] 宋琳琳,李海濤.大型文獻數(shù)字化項目元數(shù)據(jù)互操作調(diào)查與啟示[J].中國圖書館學報,2012(5):27-38.
[2] 楊勇.圖書館館藏文獻數(shù)字化建設(shè)若干問題的思考[J].大理學院學報,2006,5(3):53-57.
[3] 李國新.中國古籍資源數(shù)字化的進展與任務(wù)[J].大學圖書館學報,2002,20(1):21-26.
[4] 朱成林,袁曦臨.中國古籍的數(shù)字化導讀研究[J].圖書館建設(shè),2014(11):50-55.
[5] 中文OCR軟件橫向評測 漢字識別 誰強誰弱?[J].電子計算機與外部設(shè)備,2000(5):84-87,89-91,93-94.
[6] 劉金榮.古籍資源數(shù)字化過程中的問題[J].吉林省教育學院學報(下旬),2015(8):144-146.
[7] 王紫劍.館藏陳舊版本樂譜的數(shù)字化與應(yīng)用[J].黑龍江史志,2014(17):278-279.
[8] 張殿東,包常新,溫尚卓.OCR技術(shù)在銀行票據(jù)識別系統(tǒng)中的應(yīng)用[J].山東科學,2005(2):68-70.
[9] D. J. Field.Relations between the statistics of natural images and the response properties of cortical cells[J]. Journal of Optical Society of American, vol. 4, no. 12, Dec, 1987.
[10] 金波.基于自然圖像信息統(tǒng)計的無參考圖像質(zhì)量評估研究[D].無錫:江南大學,2012.
[11] 樓斌.基于NSS與HVS的圖像質(zhì)量評價方法研究[D].杭州:浙江大學,2009.
[12] A. Schaaf and J. H. Hateren. Modelling the Power Spectra of Natural Images:statistics and information[J]. Vision research, 1996,36(17):2759-2770.
[13] Naturalness Image Quality Evaluator (NIQE)[EB/OL]. [2015-10-14].http://live.ece.utexas.edu/research/Quality.
[14] 付偉,顧曉東,汪源源. 基于人眼視覺特性的彩色圖像質(zhì)量評價[J].微電子學與計算機,2010(2):59-63,67.
(責任編輯:王靖雯)
Research on Image Quality Assessment of Digitalized Document with IQA
ZHANG Hai-yan
(Nanjing University of Information Science and Technology, Nanjing 210044, China)
IQA is an objective method to evaluate the quality of digital documents. In this paper, IQA is used to measure the image quality and text recognition error in different scanning modes and different scanning resolutions. The study finds that the quality level of digital documents is not completely determined by the scan resolutions. In the conventional scanning mode of black-white and fourth order gray-scale, the higher scan resolution doesn’t lead to the better image quality. The best image quality is obtained when its measured value is the lowest with the 200-400 DPI resolution. Based on the analysis of the fluctuation of the measured value, the paper further gives the ideal scanning resolution range of the literature digitization in different modes.
document digitization; document scanning; IQA; Image Quality Assessment
南京信息工程大學圖書館科技項目(nl-2015001);南京信息工程大學實驗室開放項目(15KF046)
G255
A
1006-1525(2016)06-0046-05
張海燕,女,館員。
2016-02-22