• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      古籍?dāng)?shù)字化實(shí)踐與探討

      2011-05-17 02:49:30劉聰明
      現(xiàn)代情報(bào) 2011年1期
      關(guān)鍵詞:質(zhì)量控制

      劉聰明

      〔摘 要〕古籍?dāng)?shù)字化的標(biāo)準(zhǔn)規(guī)范與質(zhì)量控制問題是古籍?dāng)?shù)字化的關(guān)鍵問題。本文從圖像資源和元數(shù)據(jù)方案兩方面探討了古籍?dāng)?shù)字化的標(biāo)準(zhǔn)規(guī)范,并通過古籍?dāng)?shù)字化實(shí)踐,總結(jié)出質(zhì)量控制的具體措施。

      〔關(guān)鍵詞〕古籍?dāng)?shù)字化;數(shù)字化標(biāo)準(zhǔn);質(zhì)量控制;數(shù)字化實(shí)踐

      DOI:10.3969/j.issn.1008-0821.20.01.013

      〔中圖分類號(hào)〕G250.74 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(20)01-0052-04

      Research on Digital Practice of Ancient BooksLiu Congming

      (Library,Tsinghua University,Beijing 100084,China)

      〔Abstract〕The digital standard and quality control are crucial factors in digitization of ancient books.This paper discussed the digital standard about image resources and metadata,and summed up the measures of quality control through the digital practice of ancient books.

      〔Keywords〕digitization of ancient books;digital standard;quality control;digital practice

      在古籍?dāng)?shù)字化過程中,一方面,需要認(rèn)真履行標(biāo)準(zhǔn)化規(guī)范,只有建設(shè)標(biāo)準(zhǔn)規(guī)范的數(shù)字資源,才能真正實(shí)現(xiàn)古籍的共建共享。另一方面,還需要進(jìn)行嚴(yán)格的質(zhì)量控制與檢查,只有這樣才能提供高質(zhì)量的數(shù)字化古籍,才能保證古籍的利用和研究,也才能真正實(shí)現(xiàn)古籍?dāng)?shù)字化的意義。

      1 古籍?dāng)?shù)字化標(biāo)準(zhǔn)規(guī)范

      古籍?dāng)?shù)字化實(shí)踐時(shí),只有按照標(biāo)準(zhǔn)規(guī)范進(jìn)行古籍?dāng)?shù)字化工作,才能更有利于古籍?dāng)?shù)字資源的共享,才能更有利于對(duì)古籍進(jìn)行深層次的研究[1]。2002年10月份,由中國科技信息研究所、中國科學(xué)院文獻(xiàn)情報(bào)中心和中國國家圖書館聯(lián)合將近20個(gè)單位組織規(guī)劃我國數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè),針對(duì)古籍制訂了元數(shù)據(jù)應(yīng)用規(guī)范和著錄規(guī)則[2]。2007年1月,國務(wù)院辦公廳頒發(fā)了《關(guān)于進(jìn)一步加強(qiáng)古籍保護(hù)工作的意見》,明確指出:制定古籍?dāng)?shù)字化標(biāo)準(zhǔn),規(guī)范古籍?dāng)?shù)字化工作[3]。

      1.1 圖像資源的標(biāo)準(zhǔn)參數(shù)

      隨著數(shù)字化技術(shù)的發(fā)展以及古籍大規(guī)模數(shù)字化的開展,掃描成為古籍?dāng)?shù)字化的必經(jīng)之路。掃描得到的圖像資源越來越被人們認(rèn)可,并逐漸成為主要的數(shù)字資源格式,或者說是古籍進(jìn)一步數(shù)字化開發(fā)的基礎(chǔ)。圖像資源相對(duì)于文字資源,有著更豐富的信息,對(duì)其進(jìn)行數(shù)字化描述需要的參數(shù)很多[4],主要有圖像格式、圖像色彩、壓縮方式以及分辨率等。

      1.1.1 圖像格式的選擇

      在圖像格式的選取方面,各個(gè)數(shù)字化項(xiàng)目采用的標(biāo)準(zhǔn)都有所不同,比如美國國會(huì)圖書館在“美國記憶”(American Memory)[5]項(xiàng)目中,從多角度考慮選取圖像格式,詳見下表。表1 根據(jù)資源類型進(jìn)行圖像格式的選擇

      資源類型圖像格式只包含文字TIFF包含插圖PCX由多頁組成PDF局部需要壓縮MrSID地圖類MrSID(壓縮比約22∶1)、JPEG2000(壓縮比約20∶1)印刷品和相片TIFF表2 根據(jù)資源用途進(jìn)行圖像格式的選擇

      資源用途圖像格式瀏覽服務(wù)JEPG與GIF縮略圖顯示低像素GIF

      由表1、表2可以看出,由于從資源類型、資源用途多方面考慮,制定了多個(gè)標(biāo)準(zhǔn)規(guī)范。那么,在數(shù)字化操作時(shí)容易造成混亂。

      CADAL項(xiàng)目中,在古籍?dāng)?shù)字化時(shí)主要從保存與利用兩個(gè)方面考慮:從保存的角度,由于TIFF格式具有開放的標(biāo)準(zhǔn),其源代碼可免費(fèi)獲得,幾乎可以滿足各類物理資源圖像數(shù)字化的需求,而且TIFF還是被眾多文化機(jī)構(gòu)使用的國際標(biāo)準(zhǔn)[6],所以選擇TIFF格式作為保存圖像格式。從利用的角度,由于DjVu不僅具有開放的標(biāo)準(zhǔn),其開放源代碼也可從網(wǎng)絡(luò)免費(fèi)獲取,采用DjVu圖像格式有利于資源的利用。

      1.1.2 圖像色彩

      在圖像色彩的選擇時(shí),并非色彩位數(shù)越高越好,在古籍?dāng)?shù)字化實(shí)踐中需要根據(jù)古籍資源特點(diǎn)選擇適當(dāng)?shù)膱D像色彩,合理的色彩選擇既可以節(jié)約存儲(chǔ)空間,提高數(shù)字化的效率,還可以提供較好的圖像品質(zhì)。表3 TIFF格式彩色、灰度、黑白對(duì)比

      位深色彩例 圖文件大小24位彩色.3M8位灰度3.79M 續(xù)表3

      位深色彩例 圖文件大小1位黑白487K

      20年1月第31卷第1期古籍?dāng)?shù)字化實(shí)踐與探討Jan.,20Vol.31 No.1從表3可以看出,圖像色彩的選擇將直接影響圖像文件的大小以及圖像的顯示效果。我們認(rèn)為,對(duì)于僅用于文字瀏覽或OCR的圖像,可以采用灰度或黑白二值圖像比較合理。而對(duì)于原始文獻(xiàn)帶有彩色特征的插圖、印章以及封底封面則應(yīng)采用24位真彩圖像,從而再現(xiàn)了古籍的原貌,充分體現(xiàn)古籍?dāng)?shù)字化的“保真原則”。

      1.1.3 壓縮方式

      合理的壓縮方式既可以節(jié)約存儲(chǔ)空間又不損失圖像質(zhì)量。采取一定的壓縮方式之后,文件大小可以減少到原來的幾分之一甚至幾十分之一。通過實(shí)踐發(fā)現(xiàn),選擇LZW壓縮方式處理彩色和灰度TIFF格式圖像,可以大大節(jié)約存儲(chǔ)空間;同樣選擇G4壓縮方式處理黑白二值TIFF格式圖像,也可以極大地節(jié)約存儲(chǔ)空間。由此可見,在存儲(chǔ)空間以及傳輸?shù)扔邢薜那闆r下,我們可以采用LZW壓縮方式來處理彩色和灰度圖像,不論是從圖像質(zhì)量上,還是未來的瀏覽使用方面,都是可以接受的。而對(duì)于黑白圖像則應(yīng)選擇G4壓縮方式。

      1.1.4 圖像的DPI

      圖像格式、色彩與壓縮方式選定之后,面臨的就是DPI的選擇。表4是無壓縮TIFF格式圖像不同DPI顯示效果圖。

      從表4可以看出,無論是黑白圖像還是灰度與彩色圖像,隨著DPI的降低圖像質(zhì)量明顯在下降,但DPI從300提高到600,文件大小將增加到原來的4倍之多。顯然DPI越高圖像的質(zhì)量越高,但對(duì)數(shù)字資源的存儲(chǔ)與傳輸也是一個(gè)極大的挑戰(zhàn),由于DPI的選擇直接關(guān)系到數(shù)字化資源的品質(zhì)與其占用空間和傳輸速度等,所以需要根據(jù)不同需要選擇不同的DPI[7]。適當(dāng)?shù)腄PI不僅節(jié)約存儲(chǔ)空間更加提高了傳輸效率,便于用戶的瀏覽與下載。

      在DPI選擇方面,加拿大聯(lián)邦數(shù)字化工作組曾對(duì)165個(gè)數(shù)字化項(xiàng)目進(jìn)行過調(diào)查,發(fā)現(xiàn)各個(gè)項(xiàng)目中圖像分辨率有所不同[8],過半的數(shù)字化項(xiàng)目采用了300DPI,但由于該調(diào)查是在2001年進(jìn)行的,隨著存儲(chǔ)技術(shù)與網(wǎng)絡(luò)傳輸速度的提高,在古籍的數(shù)字化實(shí)踐中,DPI的選擇將會(huì)逐漸提高。比如在CADAL項(xiàng)目中,用于保存的圖像一律采用600DPI。表4 無壓縮TIFF格式圖像不同DPI顯示效果對(duì)比

      1.2 元數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范

      元數(shù)據(jù)具有資源發(fā)現(xiàn)與確認(rèn)、資源著錄描述、資源集合組織、資源及其服務(wù)的利用和管理、資源長期保存以及資源與服務(wù)系統(tǒng)功能與過程描述等廣泛的用途[9]。針對(duì)古籍的特點(diǎn)制定標(biāo)準(zhǔn)的元數(shù)據(jù)著錄規(guī)范,是古籍?dāng)?shù)字化工作的重要環(huán)節(jié)。

      北京大學(xué)古籍?dāng)?shù)字圖書館古籍元數(shù)據(jù)結(jié)構(gòu)分為3個(gè)部分:描述性元數(shù)據(jù)、管理性元數(shù)據(jù)、應(yīng)用性元數(shù)據(jù)。其中描述性元數(shù)據(jù)標(biāo)準(zhǔn)是元數(shù)據(jù)標(biāo)準(zhǔn)的核心,而管理性元數(shù)據(jù)主要是針對(duì)數(shù)字化圖像而設(shè),大多屬于圖像管理的范疇。依據(jù)《中文元數(shù)據(jù)標(biāo)準(zhǔn)框架方案》,古籍描述性元數(shù)據(jù)由核心元素、本館核心元素、古籍個(gè)別元素組成,共15個(gè)元素,其中有12個(gè)元素是與DC相對(duì)應(yīng)的,有2個(gè)是北大數(shù)字圖書館中文元數(shù)據(jù)標(biāo)準(zhǔn)增加的本館核心元素,古籍個(gè)別元素則只有1個(gè)。這一方案較傳統(tǒng)的MARC格式具有更多的優(yōu)點(diǎn),更適合古籍的著錄和有關(guān)信息的描述,今后必將在數(shù)字圖書館領(lǐng)域獲得長足的發(fā)展[10]。

      1995年出現(xiàn)的DC(Dublin Core)元數(shù)據(jù)是為描述網(wǎng)絡(luò)資源、支持網(wǎng)絡(luò)檢索而建立的簡單有效的元數(shù)據(jù)模式,在眾多元數(shù)據(jù)方案中,DC元數(shù)據(jù)方案具有顯著的優(yōu)點(diǎn)[]:其一,簡單易用,15個(gè)元素涵蓋了資源的主要檢索點(diǎn)和有價(jià)值的說明信息(如題名、作者、關(guān)鍵詞等);其二,可擴(kuò)展,DC的每個(gè)元素都可以通過使用修飾詞來進(jìn)一步擴(kuò)展,使其對(duì)資源的描述更加豐富;其三,開放性,能夠與其他元數(shù)據(jù)形式進(jìn)行連接,具有跨學(xué)科領(lǐng)域語義互用性,同時(shí)還可以采用XML格式的RDF結(jié)構(gòu)中的嵌套形式,甚至是其它元數(shù)據(jù)格式的部分元素,來描述比較復(fù)雜的資源。這些特色使得DC元數(shù)據(jù)成為資源內(nèi)容描述的首選,且得到國際間的廣泛承認(rèn)[12]。鑒于此CADAL項(xiàng)目開發(fā)基于DC的OEB元數(shù)據(jù)著錄工具。圖1 元數(shù)據(jù)著錄軟件截圖該著錄工具,充分體現(xiàn)了DC元數(shù)據(jù)的三大特點(diǎn),由于其簡單易用,在著錄時(shí)容易操作,而且由于DC的所有元素都是可選擇的,也是可重復(fù)的,所以在著錄時(shí),可根據(jù)需要隨時(shí)添加與刪除元素。由于其具有良好的開放性,在著錄時(shí)可以將MARC格式元數(shù)據(jù)直接導(dǎo)入。

      2 古籍?dāng)?shù)字化質(zhì)量控制

      古籍?dāng)?shù)字化資源的質(zhì)量參差不齊,是近年來古籍?dāng)?shù)字化存在的一個(gè)重要問題,多數(shù)學(xué)者認(rèn)為,不注重版本的選擇是造成質(zhì)量差的原因之一,但筆者在實(shí)踐中發(fā)現(xiàn),數(shù)字資源的質(zhì)量問題并非如此,即使是選擇了好的版本,如果圖像質(zhì)檢和元數(shù)據(jù)質(zhì)檢兩個(gè)環(huán)節(jié)存在問題,也可能出現(xiàn)數(shù)字資源的質(zhì)量問題,甚至出現(xiàn)信息丟失、錯(cuò)誤等嚴(yán)重問題。下面從影響數(shù)字化資源質(zhì)量的兩個(gè)主要環(huán)節(jié)展開探討。

      2.1 圖像資源的質(zhì)量控制

      圖像資源的質(zhì)量問題直接關(guān)系到數(shù)字化整體的質(zhì)量。從數(shù)字資源的創(chuàng)建階段就應(yīng)考慮數(shù)字資源的質(zhì)量問題,并把其放在首要位置。在實(shí)踐中根據(jù)數(shù)字化流程,逐個(gè)環(huán)節(jié)檢查控制,每個(gè)環(huán)節(jié)負(fù)責(zé)上一環(huán)節(jié)的質(zhì)量檢查,并及時(shí)將質(zhì)量合格的資源進(jìn)行替代。根據(jù)標(biāo)準(zhǔn)規(guī)范細(xì)則,在整個(gè)數(shù)字化過程中圖像質(zhì)量檢查主要從以下幾方面進(jìn)行:

      (1)掃描圖像的尺寸,是否按照原始資源的100%進(jìn)行掃描。

      (2)圖像分辨率,包括存儲(chǔ)級(jí)圖像與瀏覽級(jí)圖像的分辨率,分辨率的錯(cuò)誤直接影響顯示效果。

      (3)圖像色彩和位深,是否按照制定的標(biāo)準(zhǔn)規(guī)范設(shè)置,圖像色彩和位深的不當(dāng)會(huì)影響圖像的存儲(chǔ)與傳輸以及后續(xù)的圖像處理。

      (4)圖像亮度和對(duì)比度,直接關(guān)系到OCR識(shí)別率以及圖像的清晰度。

      (5)圖像是否居中或傾斜,不僅影響識(shí)別率也影響圖像的顯示效果。

      (6)圖像是否完整或被切割,直接關(guān)系到信息的完整性與準(zhǔn)確性。

      (7)文件格式與壓縮方式,將決定是否影響后面環(huán)節(jié),以及圖像資源是否失真問題。

      美國國會(huì)圖書館在實(shí)施數(shù)字圖書館項(xiàng)目時(shí),就非常重視資源的質(zhì)量檢查問題。并且把數(shù)字資源的成品質(zhì)量,作為選擇服務(wù)商的標(biāo)準(zhǔn)之一。由此可見關(guān)注數(shù)字資源的質(zhì)量問題,是資源數(shù)字化尤其是古籍?dāng)?shù)字化的重要環(huán)節(jié)。但由于他們只注重質(zhì)量檢查的結(jié)果,至于如何進(jìn)行質(zhì)量控制與檢查并未涉及。

      有關(guān)圖像質(zhì)量的控制問題,國內(nèi)多數(shù)機(jī)構(gòu)也已認(rèn)識(shí)到它的重要性,在數(shù)字化流程中都無一例外地設(shè)置了圖文質(zhì)量控制環(huán)節(jié),并要求支持工序反饋,形成一個(gè)質(zhì)量控制系統(tǒng)[13]。古籍?dāng)?shù)字化實(shí)踐中,掃描是控制圖像質(zhì)量的關(guān)鍵環(huán)節(jié),之后所有的有關(guān)圖像的操作都是在此基礎(chǔ)之上的,因此在掃描環(huán)節(jié)就應(yīng)在圖像資源的參數(shù)設(shè)置方面嚴(yán)格控制,這一點(diǎn)對(duì)于古籍尤為重要。由于古籍比較珍貴,為了減少對(duì)古籍的磨損,盡可能一次掃描成功,這就需要將技術(shù)參數(shù)設(shè)置正確,避免不必要的重復(fù)掃描;在圖像處理環(huán)節(jié),需要選擇適當(dāng)?shù)膱D像處理軟件,盡可能進(jìn)行自動(dòng)批處理,不僅可以有效控制圖像質(zhì)量,還可大幅提高數(shù)字化效率。多年的古籍?dāng)?shù)字化實(shí)踐發(fā)現(xiàn),將圖像質(zhì)量控制問題貫穿于整個(gè)數(shù)字化過程,能夠及時(shí)準(zhǔn)確地進(jìn)行圖像質(zhì)量控制。

      2.2 元數(shù)據(jù)的質(zhì)量檢查

      影響數(shù)字資源的質(zhì)量問題除了圖像資源的質(zhì)量控制以外,對(duì)數(shù)字資源描述的元數(shù)據(jù)著錄是另一重要的因素。元數(shù)據(jù)的質(zhì)量問題直接影響到資源的查全率與查準(zhǔn)率問題。

      進(jìn)行元數(shù)據(jù)質(zhì)量控制與檢查時(shí),首先檢查各元數(shù)據(jù)項(xiàng)是否按著錄規(guī)則著錄,著錄項(xiàng)是否準(zhǔn)確、完整以及符合規(guī)范。檢查過程主要通過人工操作來控制著錄數(shù)據(jù)的質(zhì)量。例如,在CADAL項(xiàng)目中使用OEB編輯器進(jìn)行DC元數(shù)據(jù)著錄,檢查Type項(xiàng)(描述數(shù)字資源的類型)選擇是否正確,如古籍、民國圖書、民國期刊等;Format項(xiàng)(描述數(shù)字資源格式)選擇應(yīng)為Djvu、Html、Pdf等;Identifier項(xiàng)著錄是否正確,是否嚴(yán)格按照規(guī)定的位數(shù)和數(shù)字著錄,因?yàn)镮dentifier是數(shù)字資源的惟一標(biāo)識(shí)符,直接影響數(shù)字資源能否被檢索到的問題。同時(shí)還應(yīng)檢查著錄文字是否嚴(yán)格按照原始古籍進(jìn)行著錄,是否嚴(yán)格按照《古籍著錄細(xì)則》[14]和《民國圖書元數(shù)據(jù)著錄細(xì)則》[15]進(jìn)行著錄,也就是對(duì)其規(guī)范性進(jìn)行檢查。

      3 結(jié) 語

      總之古籍?dāng)?shù)字化是一個(gè)復(fù)雜的過程,古籍?dāng)?shù)字化標(biāo)準(zhǔn)規(guī)范也并非是恒定的,隨著數(shù)字化技術(shù)的發(fā)展與完善,這些都可能再次發(fā)生變化。這是一個(gè)不斷變革的領(lǐng)域,只有與時(shí)俱進(jìn)地研究與總結(jié),才可得到較為理想的數(shù)字化效果[16]。也只有認(rèn)真實(shí)施質(zhì)量控制,才能保證古籍?dāng)?shù)字化共建共享的目的,這些都需要我們?cè)诠偶當(dāng)?shù)字化實(shí)踐中摸索與總結(jié)。

      參考文獻(xiàn)

      [1]劉春金,等.中文古籍?dāng)?shù)字化現(xiàn)狀分析[J].江西圖書館學(xué)刊,2008,(2):3.

      [2]中國數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè)——項(xiàng)目簡介[EB/OL].http:∥cdls.nstl.gov.cn/2003/whole/about.html,2009--10.

      [3]國務(wù)院辦公廳關(guān)于進(jìn)一步加強(qiáng)古籍保護(hù)工作的意見[EB/OL].http:∥www.gov.cn/xxgk/pub/govpublic/mrlm/200803/t200803028z32601.html,2010-07-22.

      [4]彭緒庶,蔣穎.資源數(shù)字化標(biāo)準(zhǔn)問題研究[M].北京:北京圖書館出版社,2005:127-128.(下轉(zhuǎn)第58頁)

      猜你喜歡
      質(zhì)量控制
      如何加強(qiáng)土地測繪質(zhì)量控制
      射線無損檢測在石油化工壓力管道的質(zhì)量控制
      高層建筑主體結(jié)構(gòu)施工技術(shù)及質(zhì)量控制研究
      淺析建筑工程施工管理
      淺談機(jī)車總風(fēng)缸的制作質(zhì)量控制
      科技視界(2016年21期)2016-10-17 17:58:28
      血型實(shí)驗(yàn)室的輸血檢驗(yàn)的質(zhì)量控制與輸血安全探究
      瀝青路面施工技術(shù)及質(zhì)量控制
      關(guān)于高層建筑施工技術(shù)要點(diǎn)以及質(zhì)量控制的思考
      淺析水利工程施工質(zhì)量問題及質(zhì)量控制措施
      淺談在公路橋梁施工環(huán)節(jié)的質(zhì)量管理及控制
      科技視界(2016年20期)2016-09-29 13:11:33
      萝北县| 望江县| 鹤峰县| 旬邑县| 特克斯县| 华蓥市| 栖霞市| 渭源县| 钦州市| 盐亭县| 滦南县| 鸡西市| 湖口县| 新化县| 怀柔区| 广河县| 盐池县| 四平市| 博客| 苏州市| 湛江市| 邹城市| 涟源市| 于都县| 远安县| 渝中区| 板桥市| 赫章县| 仁化县| 阿拉善左旗| 萍乡市| 崇左市| 清苑县| 含山县| 襄垣县| 封丘县| 竹北市| 赤城县| 高青县| 堆龙德庆县| 台东市|