龍 偉 (國家圖書館 北京 100081)
文本資源是數(shù)字圖書館資源建設(shè)中最主要、最基礎(chǔ)的資源類型。讀者在圖書館使用圖書、報(bào)紙、雜志、報(bào)告等文獻(xiàn),主要是為了獲取文本內(nèi)容。就目前來說,現(xiàn)代信息技術(shù)對文本資源的處理是最為先進(jìn)和完善的,比圖像、音頻、視頻信息領(lǐng)域的技術(shù)發(fā)展更加成熟和穩(wěn)定。文本資源在信息檢索、內(nèi)容挖掘、資源共享等各方面都具有顯著的優(yōu)勢。
圖書館針對文本資源數(shù)字化加工形成更為有序的信息內(nèi)容,使文獻(xiàn)信息價值更加顯著和突出。伴隨著信息技術(shù)的發(fā)展,文本資源數(shù)字化加工方法有很多,采用不同標(biāo)準(zhǔn),各有所長。同時,標(biāo)準(zhǔn)多樣性和復(fù)雜性又制約了文本資源數(shù)字化的發(fā)展。
國外圖書館在文本資源加工方面開展較早,通過多年的交流和合作,圖書館、各機(jī)構(gòu)之間相互借鑒和協(xié)調(diào)。美國國會圖書館的美國記憶項(xiàng)目[1]、澳大利亞國家圖書館藏品數(shù)字化項(xiàng)目[2]、哈佛大學(xué)圖書館數(shù)字化工程項(xiàng)目[3]針對文本資源數(shù)字化加工制定了適用的標(biāo)準(zhǔn)和技術(shù)體系。美國國會圖書館的文本編碼指南為圖書館不同目的的文本數(shù)字化項(xiàng)目提供了最佳實(shí)踐建議[4]。該指南制定了5個不同的編碼級別,使建議盡可能全面,以適用于不同的實(shí)際操作,包括全文自動的文本創(chuàng)建和編碼,以及需要專門內(nèi)容知識、分析、編輯的編碼內(nèi)容。此外,不少圖書館及信息保存機(jī)構(gòu)還進(jìn)行了跨機(jī)構(gòu)合作,美國的FADI(Federal Agencies Digitization Guidelines Initiative,聯(lián)邦政府機(jī)構(gòu)數(shù)字化指南計(jì)劃)制定了用途更廣的一系列資源加工的標(biāo)準(zhǔn),這使得不同機(jī)構(gòu)的文本資源數(shù)字化加工可以更緊密地合作[5]。
我國圖書館文本資源數(shù)字化加工已有10多年的歷史,其加工和保存的技術(shù)方法有很多。早期文本資源數(shù)字化加工以圖像轉(zhuǎn)化為主,在此基礎(chǔ)上我國探索了數(shù)字圖書館資源建設(shè)標(biāo)準(zhǔn),如中國數(shù)字圖書館標(biāo)準(zhǔn)建設(shè)項(xiàng)目(Chinese Digital Library Standards,簡稱CDLS)[6]、大學(xué)數(shù)字圖書館國際合作計(jì)劃(China Academic Digital Associative Library,簡稱CADAL)[7]。我國在實(shí)施這些項(xiàng)目的過程中,積累了大量的文本資源數(shù)字化加工的經(jīng)驗(yàn)和成果。在商業(yè)機(jī)構(gòu)中,以北大方正和清華同方為代表,他們在這方面進(jìn)行了卓有成效的實(shí)踐。方正電子書目前已在全球3 000多家學(xué)校、政府機(jī)構(gòu)應(yīng)用。清華同方《中國知識資源總庫》已擁有國內(nèi)8 500種期刊、700多種報(bào)紙和來自1 600家機(jī)構(gòu)的學(xué)位論文和會議論文[8]54-60。在電子文件格式和元數(shù)據(jù)方面,各公司自行研制數(shù)據(jù)加工規(guī)范。
隨著文本資源數(shù)字化應(yīng)用需求的不斷增長,文本資源類型和數(shù)量發(fā)展迅速。同時,文本資源數(shù)字化加工存在的問題也就凸現(xiàn)出來。
1.2.1 缺乏文本資源數(shù)字化加工項(xiàng)目可持續(xù)發(fā)展規(guī)劃
文本資源數(shù)字化加工項(xiàng)目通常是依據(jù)本單位的加工規(guī)范或幾個合作機(jī)構(gòu)之間臨時制定的加工方案,故其加工規(guī)范表現(xiàn)出較強(qiáng)的專用性,而這樣的規(guī)范常常立意高度不夠,故在內(nèi)容編碼、數(shù)據(jù)格式、元數(shù)據(jù)方案、質(zhì)量控制等方面缺乏全面考慮,造成同一個機(jī)構(gòu)的不同文本資源加工項(xiàng)目遵循的標(biāo)準(zhǔn)不一致,給文本資源的長期保存、利用帶來一定的挑戰(zhàn)。
1.2.2 缺乏系統(tǒng)性、可操作性的標(biāo)準(zhǔn)
由于歷史、地區(qū)的原因,文本資源加工轉(zhuǎn)化時采用的標(biāo)準(zhǔn)不同。不同的編碼標(biāo)準(zhǔn)互不兼容,不同標(biāo)準(zhǔn)下處理過的信息不能通用。雖然數(shù)字圖書館前期對文本資源的圖像化做了很多研究和實(shí)踐,但針對文本資源的不同來源、不同形式、不同載體資源建設(shè)工作的指導(dǎo)需求,缺乏系統(tǒng)的、可操作程度高的標(biāo)準(zhǔn)。
1.2.3 缺乏體系化的標(biāo)準(zhǔn)
數(shù)字圖書館建設(shè)需要資源加工和管理標(biāo)準(zhǔn)體系化。文本資源與數(shù)字圖書館其他類型資源(如圖像、音頻、視頻等)的加工標(biāo)準(zhǔn)沒有形成體系化,標(biāo)準(zhǔn)間不能相互協(xié)調(diào)、配合,導(dǎo)致依據(jù)不同標(biāo)準(zhǔn)加工的數(shù)字資源可以獨(dú)立使用,但在數(shù)字資源整合時不能調(diào)用全部資源對象,造成應(yīng)用障礙。
數(shù)字圖書館是一個不斷發(fā)展的概念,隨著數(shù)字圖書館的范式演變,文本資源數(shù)字化加工過程中的標(biāo)準(zhǔn)問題顯得越來越重要。
文本資源的內(nèi)容編碼和數(shù)據(jù)格式在國內(nèi)外都有人研究,并相繼成為正式頒布的標(biāo)準(zhǔn)或事實(shí)應(yīng)用標(biāo)準(zhǔn)。從標(biāo)準(zhǔn)層面來說,它們支持不同的應(yīng)用,各有千秋,但往往不能相互兼容。隨著我國數(shù)字圖書館的發(fā)展,標(biāo)準(zhǔn)化已經(jīng)成為我國數(shù)字圖書館建設(shè)中的薄弱環(huán)節(jié)和最突出的問題。當(dāng)前,為滿足文本資源建設(shè)和服務(wù)的需要,指定一個通用的文本資源數(shù)字化加工標(biāo)準(zhǔn)十分必要。文本資源數(shù)字化加工標(biāo)準(zhǔn)的研制,有利于控制圖書館信息資源數(shù)字化質(zhì)量,避免重復(fù)加工,節(jié)省投入,提高信息資源的共享能力,同時有利于與國際接軌,其現(xiàn)實(shí)意義巨大。
2012年,全國圖書館標(biāo)準(zhǔn)化委員會委托國家圖書館牽頭并召集上海圖書館、北京大學(xué)圖書館、中國科學(xué)院文獻(xiàn)情報(bào)中心、首都圖書館、浙江大學(xué)圖書館、漢王科技股份有限公司、北京方正阿帕比技術(shù)有限公司研制國家標(biāo)準(zhǔn)《圖書館文本資源數(shù)字化加工規(guī)范》。該標(biāo)準(zhǔn)是針對一般印刷型文獻(xiàn)或其經(jīng)過數(shù)字化轉(zhuǎn)換后的圖像文件進(jìn)行的文本資源的數(shù)字化加工制定的,涵蓋了文本資源數(shù)字化加工的級別及內(nèi)容編碼、加工準(zhǔn)備、資源采集與處理、元數(shù)據(jù)加工、文件規(guī)則、質(zhì)量管理等方面的內(nèi)容。在聯(lián)合、開放、合作、共享的機(jī)制下,研究成果更具備開放性、可靠性和廣泛的應(yīng)用性。
研究文本資源數(shù)字化加工標(biāo)準(zhǔn)的目的是解決文本資源數(shù)字化加工過程中的通用性、操作性、開放性問題。
2.3.1 通用性問題
文本資源數(shù)字化加工標(biāo)準(zhǔn)或方法只有符合國際上的通行標(biāo)準(zhǔn)、事實(shí)標(biāo)準(zhǔn)或通行做法,才不會在國際交流中產(chǎn)生問題,從而保證一定的互操作性。在信息資源全球互通的大環(huán)境下,如果過于強(qiáng)調(diào)中國特色、閉門造車、拒絕國際通用標(biāo)準(zhǔn),就無法在國際標(biāo)準(zhǔn)環(huán)境下生存。
通用性有利于對文本資源數(shù)字化加工標(biāo)準(zhǔn)進(jìn)行質(zhì)量控制,一方面,能夠借此建立起統(tǒng)一的質(zhì)量體系和衡量標(biāo)準(zhǔn);另一方面,具有通用性的標(biāo)準(zhǔn)會有更多的軟硬件支持,我們可以很容易地利用一些實(shí)用工具來幫助控制質(zhì)量或改善品質(zhì)。
2.3.2 操作性問題
首先,數(shù)字資源建設(shè)是一個勞動密集型的行業(yè),雖然其對工作人員具有相當(dāng)?shù)闹R要求,但大量的基礎(chǔ)工作不能要求一般工作人員都具備應(yīng)付復(fù)雜工作的能力,過于復(fù)雜的標(biāo)準(zhǔn)和處理過程也不利于品質(zhì)的控制。標(biāo)準(zhǔn)操作的難易程度要符合工作人員的實(shí)際能力和技術(shù)水平,使一般工作人員經(jīng)過短時間的培訓(xùn)就能夠操作。
其次,從發(fā)展趨勢看,文本資源應(yīng)用的范圍更廣泛,互聯(lián)網(wǎng)、移動終端、數(shù)字電視都支持文本資源的應(yīng)用。文本資源數(shù)字化加工標(biāo)準(zhǔn)實(shí)現(xiàn)了統(tǒng)一操作,使異構(gòu)平臺加工的數(shù)字資源可以滿足多種媒介的服務(wù)。
2.3.3 開放性問題
數(shù)字圖書館的資源是各國乃至全球的知識信息寶庫,在資源建設(shè)時應(yīng)采用盡可能開放的數(shù)據(jù)格式。文本資源數(shù)字化加工標(biāo)準(zhǔn)給出的內(nèi)容編碼和格式編碼,從中文信息處理和數(shù)字資源交換共享的兼容性考慮,應(yīng)避免數(shù)字圖書館資源建設(shè)受制于個別公司、組織的技術(shù)壟斷或是因?yàn)楣?、組織的倒閉或變更導(dǎo)致缺乏必要的技術(shù)支持。
文本是以字符、符號、詞、短語、段落、句子、表格或其他字符排列形成的數(shù)據(jù),用于表達(dá)意義,其解釋基本上取決于讀者對于某種自然語言或者人工語言的知識[9]。文本是計(jì)算機(jī)表示文字及符號等信息的最基本的數(shù)據(jù)類型,一直以來,文本都是人和計(jì)算機(jī)交互的重要方式。文本資源是文本的表現(xiàn)形式。文本資源的提供方和獲得方都應(yīng)具備一定的文字或符號的識別和表達(dá)能力,在相同的文字或符號體系下通過對字符的識別和表達(dá)進(jìn)行信息交流[10]。 文本資源由文本表示屬性及格式信息組成。其中,表示屬性包括字體大小、字體類型、字體格式(加黑、斜體等)、字體定位排版等,格式信息包括標(biāo)題、段落和間距等信息。文本資源可以有邏輯結(jié)構(gòu),如一本電子圖書,信息可以邏輯地組織成內(nèi)容摘要、章、節(jié)、術(shù)語表、索引等。其結(jié)構(gòu)由文本包含的信息類型決定。
大多數(shù)文本資源制作依靠計(jì)算機(jī)鍵盤錄入。通常,創(chuàng)建數(shù)字文本效率不高,但這是一種較為普及的字符輸入方法,適合處理字體過小、圖文模糊、版面復(fù)雜的文獻(xiàn)。但圖書館所擁有的浩如煙海的文獻(xiàn)大都是存在紙質(zhì)媒介上的,因此我們必須先把印刷文獻(xiàn)轉(zhuǎn)換成電子格式,通過圖像技術(shù)記錄和保存原始文檔的外觀、結(jié)構(gòu)和內(nèi)容,再轉(zhuǎn)換為文本資源。圖像光學(xué)字符識別是這一轉(zhuǎn)換過程運(yùn)用的主要技術(shù)。
3.2.1 文本錄入
計(jì)算機(jī)錄入是廣泛使用的文字轉(zhuǎn)換方法,用于文獻(xiàn)原稿重新錄入,并手工增加標(biāo)記。這種方法通常比自動識別加人工校對的費(fèi)用低。文本資源轉(zhuǎn)換最大的項(xiàng)目之一是美國國家數(shù)字圖書館項(xiàng)目(The National Digital Library Program,簡稱 NDLP)[11]。
文本分為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),因此對文本錄入應(yīng)有一些要求:制作結(jié)構(gòu)化數(shù)據(jù),應(yīng)忠實(shí)于原稿信息,保留原始文獻(xiàn)中的字符、文字變體等版式信息;而非結(jié)構(gòu)化的文本數(shù)據(jù)制作,則應(yīng)按照內(nèi)容的邏輯順序進(jìn)行錄入,強(qiáng)調(diào)字符、數(shù)字、標(biāo)點(diǎn)、各種可打印的符號的準(zhǔn)確性和完整性,可以忽略版式信息,如一個表格或者分欄的文本應(yīng)以單元格或欄目順序進(jìn)行錄入,而不是逐行錄入。
3.2.2 掃描或照相采集
圖像感光技術(shù)(Charge-Coupled Device,簡稱CCD)、圖像傳感技術(shù)(Complementary Metal Oxide Semiconductor,簡稱CMOS)等成像技術(shù)是掃描儀或照相機(jī)獲取信息運(yùn)用的采集技術(shù)。圖像采集技術(shù)將文字、符號等各種信息都看成圖像,因此可以準(zhǔn)確地再現(xiàn)文獻(xiàn)實(shí)物的外貌。在實(shí)際應(yīng)用中,圖像采集必須與光學(xué)字符識別技術(shù)結(jié)合使用,將圖像轉(zhuǎn)換成計(jì)算機(jī)可識別的ASCII碼(American Standard Code for Information Interchange,美國標(biāo)準(zhǔn)信息交換碼),通過標(biāo)記文本和字符尋找到指定的文字信息。
3.2.3 光學(xué)字符識別
光學(xué)字符識別(Optical Character Recognition,簡稱OCR)是一種自動識別掃描儀、照相機(jī)等采集的圖像中字符的技術(shù)。其基本技術(shù)是先由計(jì)算機(jī)程序?qū)蝹€字符個體分離,然后將它們與精確的模版進(jìn)行比較,從而識別并轉(zhuǎn)換圖像信息中的字符[10]。OCR技術(shù)識別字符的準(zhǔn)確率與圖像采集質(zhì)量有直接關(guān)系,出錯率隨原稿的可辨認(rèn)程度而不同。圖像質(zhì)量受圖像清晰度、噪點(diǎn)、色彩等因素影響。在一般印刷型中文圖書、報(bào)刊的采集分辨率達(dá)到300dpi、英文等其他語種采集分辨率300dpi的情況下,文字字符識別的正確率可達(dá)到95%以上[8]27。
3.3.1 標(biāo)記語言格式加工系統(tǒng)
HTML(Hypertext Markup Language,超文本標(biāo)記語言)和XML(Extensible Markup Language,擴(kuò)展標(biāo)記語言)是標(biāo)記語言主要的數(shù)據(jù)文檔格式。
HTML文檔可利用網(wǎng)頁編輯器創(chuàng)建和查看內(nèi)容信息,使用Internet Explorer瀏覽器顯示文本、圖形和其他的任何內(nèi)容,并可用專門的Notepad 或 Text Edit 等制作工具進(jìn)行編輯。
專業(yè)的 XML 編輯器會幫助編寫無錯的 XML 文檔,根據(jù)某種 DTD(Document Type Definition,文檔類型定義)或者 schema(一般指XML架構(gòu))來驗(yàn)證 XML,以及強(qiáng)制創(chuàng)建合法的 XML 結(jié)構(gòu)??捎玫木庉嬈饔谢赪indows平臺的專業(yè)XML writer以及Easy XML和專門用來修改、編輯XML文件的工具——XML Blueprint XML Editor。當(dāng)然,也可以通過一些軟件把其他文件格式轉(zhuǎn)換成XML格式,如把PDF(Portable Document Format,便攜式文檔格式)文件內(nèi)容存成XML的Adobe Acrobat外掛插件或利用Adobe Acrobat編輯器的批處理命令,通過JAVA Script代碼將PDF轉(zhuǎn)換為XML。
3.3.2 純文本格式加工系統(tǒng)
純文本格式由可打印的字符組成,可以直接閱讀和理解其形式,沒有任何文本修飾。文本格式的加工和編輯系統(tǒng)在Windows操作系統(tǒng)環(huán)境下,除了系統(tǒng)自帶的Notepad記事本以外,有字處理器(如微軟的Word)可進(jìn)行帶有版式的文字編輯;文本處理器(如Simple Text)則是一款簡單的、用于ASCII碼的字符編輯器。在DOS環(huán)境下,使用最廣泛的是EDIT文本編輯器,通常是用命令行方式編輯一些程序和批處理文件。
3.3.3 便攜式文檔格式加工系統(tǒng)
PDF由Adobe公司開發(fā),是一種用于文檔交換的電子文件格式。這種文件格式的應(yīng)用與操作系統(tǒng)平臺無關(guān),也就是說,PDF文件不管是在Windows、Unix還是在蘋果公司的Mac OS等各種操作系統(tǒng)中都是通用的。這一特點(diǎn)使PDF文件成為在互聯(lián)網(wǎng)上進(jìn)行電子文檔發(fā)行和數(shù)字化信息傳播的理想文檔格式,越來越多的電子圖書、產(chǎn)品說明、網(wǎng)絡(luò)資料、電子郵件開始使用PDF文件。PDF能保留文件原有格式(Layout),是一個開放的國際標(biāo)準(zhǔn)。
PDF文檔需要通過Adobe Acrobat Reader來閱讀。PDF的電子圖書可以使用Adobe Acrobat軟件來制作和編輯,也可以通過Adobe Acrobat軟件把PDF文件內(nèi)容存成XML格式、HTML格式或TXT純文本格式。
內(nèi)容編碼涉及具體數(shù)據(jù)內(nèi)容的計(jì)算機(jī)編碼形式和標(biāo)記形式,是制約數(shù)字信息可實(shí)用性乃至可持續(xù)性的最基本條件[12]。
3.4.1 ISO/IEC 10646及GB13000
ISO/IEC10646也稱大字符集。該標(biāo)準(zhǔn)規(guī)定了全球現(xiàn)代書面語言文字所使用的全部字符的標(biāo)準(zhǔn)編碼,用于世界上各種語言文字、字母符號的數(shù)字化表示、傳輸、交換、處理、儲存、輸入及顯現(xiàn)。在ISO/IEC10646中,中日韓編碼漢字簡稱CJK。CJK由三部分構(gòu)成,基本級收錄20 902個漢字,擴(kuò)充A有6 582個漢字,擴(kuò)充B有42 771個漢字,漢字編碼超過7萬個漢字。
GB13000《信息技術(shù) 通用多八位編碼字符集(UCS)第一部分:體系結(jié)構(gòu)與基本多文種平面》是我國的國家標(biāo)準(zhǔn),與ISO/IEC10646相對應(yīng)。該標(biāo)準(zhǔn)的漢字編碼空間巨大,可以容納多種文字編碼體系,是我國編碼體系未來的發(fā)展方向。它編入了20 902個漢字,收集了大陸一二級字庫中的簡體字、臺灣《通用漢字標(biāo)準(zhǔn)交換碼》中的繁體字,基本涵蓋了日文與韓文中的通用漢字,滿足了方方面面的需要。
長期以來,各種漢字內(nèi)容編碼互不兼容,使得中文文字編碼呈現(xiàn)多樣性的特點(diǎn)。由于內(nèi)容編碼是數(shù)字資源建設(shè)最基礎(chǔ)的問題,因此它的多樣性和混亂會給數(shù)字資源建設(shè)和應(yīng)用過程帶來一系列嚴(yán)重且無法逆轉(zhuǎn)的問題。但是,隨著ISO/IEC10646及GB13000的推進(jìn),中、日、韓多語種及少數(shù)民族文字使用等問題得到重視,兩個標(biāo)準(zhǔn)在漢字系統(tǒng)的應(yīng)用中發(fā)揮了重要作用。
3.4.2 Unicode
Unicode(統(tǒng)一編碼)是公司聯(lián)盟制定的工業(yè)標(biāo)準(zhǔn)。Unicode3.0與 ISO 10646-1:2000的內(nèi)容、編碼與命名完全相同。1991年10月,兩個標(biāo)準(zhǔn)的制定者達(dá)成協(xié)議,采用統(tǒng)一編碼字符集。當(dāng)然,兩個標(biāo)準(zhǔn)在細(xì)節(jié)上有一些差別,如Unicode提供漢字部首/筆畫索引,ISO10646不提供。在現(xiàn)實(shí)應(yīng)用中Unicode被稱為ISO10646的實(shí)踐版。因此,支持統(tǒng)一編碼的產(chǎn)品亦支持 ISO10646 國際編碼標(biāo)準(zhǔn)。Unicode有多種傳輸格式,常見的有UTF8、UTF16、UCS-2、UCS-4等。2013年9月,Unicode 6.3版本推出。
Unicode對我國的貢獻(xiàn)是解決了簡繁漢字的統(tǒng)一處理與跨操作系統(tǒng)的自由信息交換問題,同時也解決了漢字與少數(shù)民族文字統(tǒng)一處理的問題[13]。在圖書館、信息機(jī)構(gòu)中,有很多數(shù)字化項(xiàng)目、商業(yè)數(shù)據(jù)庫采用Unicode編碼,如國家圖書館數(shù)字方志,其涉及大量繁體字、異體字轉(zhuǎn)換,為保證異構(gòu)平臺的加工和應(yīng)用,規(guī)定統(tǒng)一使用Unicode編碼。
3.4.3 ASCII碼
ASCII碼是信息處理領(lǐng)域最基本的字符編碼,主要用于顯示現(xiàn)代英語和其他西歐語言。ASCII碼共定義了256個代碼,其有兩種形式:標(biāo)準(zhǔn)形式和擴(kuò)展形式。標(biāo)準(zhǔn)ASCII碼也稱基礎(chǔ)ASCII碼,共有128個字符,包含所有的大小寫字母、數(shù)字、標(biāo)點(diǎn)符號及在美式英語中使用的特殊控制字符。后128個字符稱為擴(kuò)展ASCII碼,用于特殊符號字符、外來語字母和圖形符號的編碼。
無格式控制的純文字文件是最簡單的文檔。其實(shí)說純文本也不盡然,其文字編碼方式、空格、換行都是格式問題。不同系統(tǒng)對換行標(biāo)志的不同規(guī)定給純文本文檔的轉(zhuǎn)換帶來了麻煩。MacOS系統(tǒng)采用的是回車符(ASCII碼13),Unix系統(tǒng)采用的是換行符(ASCII碼10),而DOS和Windows系統(tǒng)則在每行的結(jié)尾加上換行和回車兩個字符。但對于純西文字符、符號、數(shù)字處理,采用ASCII碼進(jìn)行編碼是最佳選擇。
文本資源數(shù)字化加工標(biāo)準(zhǔn)的研制將有益于數(shù)字圖書館建設(shè)。在對其的實(shí)際應(yīng)用中應(yīng)該注意以下幾點(diǎn)。
國際標(biāo)準(zhǔn)化組織將“標(biāo)準(zhǔn)”定義為“由一個公認(rèn)的機(jī)構(gòu)制定和批準(zhǔn)的文件。它對活動或活動的結(jié)果規(guī)定了規(guī)則、導(dǎo)則或特殊值,供共同和反復(fù)使用,以實(shí)現(xiàn)在預(yù)定領(lǐng)域內(nèi)最佳秩序的效果”[14]。筆者認(rèn)為,標(biāo)準(zhǔn)是宏觀層面的規(guī)則。在具體應(yīng)用中,標(biāo)準(zhǔn)內(nèi)容與實(shí)際要求特別是細(xì)節(jié)處理的需求存在一定差異。當(dāng)“標(biāo)準(zhǔn)”給出的選擇比較寬泛的情況下,如有多種內(nèi)容編碼和格式編碼,應(yīng)根據(jù)建設(shè)目的,做適應(yīng)性、理性的選擇。
標(biāo)準(zhǔn)既來自于實(shí)踐的需要,同時也是長期實(shí)踐經(jīng)驗(yàn)的總結(jié)。文本資源在數(shù)字化加工中涉及技術(shù)、內(nèi)容等多個方面。隨著信息技術(shù)的發(fā)展,數(shù)字化加工技術(shù)也會不斷提高,在經(jīng)過實(shí)踐驗(yàn)證之后,一旦產(chǎn)生新的具有普遍需要的加工方法,應(yīng)及時對文本資源數(shù)字化加工技術(shù)和方法進(jìn)行標(biāo)準(zhǔn)化、規(guī)范化的統(tǒng)一處理,以保持標(biāo)準(zhǔn)的實(shí)用性。另外,隨著生產(chǎn)加工服務(wù)需求的演變,我們既要對現(xiàn)有標(biāo)準(zhǔn)進(jìn)行靈活應(yīng)用,也要看到標(biāo)準(zhǔn)的不足,針對標(biāo)準(zhǔn)中的不適應(yīng)內(nèi)容進(jìn)行及時修訂,加強(qiáng)標(biāo)準(zhǔn)的維護(hù)和管理。
數(shù)字圖書館資源類型的多樣化需要一套完整的數(shù)字資源建設(shè)標(biāo)準(zhǔn)體系來支撐,只依靠一個“文本資源加工標(biāo)準(zhǔn)”顯然是不行的。文本資源數(shù)字化加工標(biāo)準(zhǔn)應(yīng)與數(shù)字對象加工標(biāo)準(zhǔn)、元數(shù)據(jù)應(yīng)用、數(shù)字資源唯一標(biāo)識符等相關(guān)標(biāo)準(zhǔn)之間有著密切的關(guān)系,既相互聯(lián)系又相互影響。處理好各種標(biāo)準(zhǔn)應(yīng)用之間的關(guān)系,是數(shù)字資源建設(shè)有效性的保障。
[1]Requests Proposals for Digital Images from Original Documents Text Conversion and SGML-Encoding National Digital Library Program[EB/OL].[2012-09-10]. http://memory.loc.gov/ammem/prpsal/rfp18.pdf.
[2]Digitisation Guidelines [EB/OL].[2012-09-10]. http://www.nla.gov.au/standards/digitisation-guidelines.
[3]Guidance for Digitizing Text [EB/OL]. [2012-09-10]. http://preserve.harvard.edu/guidelines/textdig.html.
[4]TEI Text Encoding in Libraries Guidelines for Best Encoding Practices [EB/OL].[2012-09-20].http://old.diglib.org/standards/tei.htm.
[5]Federal Agencies Digitization Guidelines Initiative [EB/OL].[2012-09-20].http://www.digitizationguidelines.gov/.
[6]我國數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè)項(xiàng)目[EB/OL]. [2012-09-10]. http://cdls.nstl.gov.cn.
[7]CADAL項(xiàng)目[EB/OL].[2012-09-10].http://www.cadal.cn/.
[8]龍 偉,羅云川.國家圖書館文本數(shù)據(jù)加工標(biāo)準(zhǔn)和操作指南[M].北京:國家圖書館出版社,2012.
[9]顧 .國家標(biāo)準(zhǔn)《信息與文獻(xiàn) 術(shù)語》 [M].北京:中國標(biāo)準(zhǔn)出版社,2010.
[10]孫一鋼, 聶 華, 常 林,等.通用數(shù)字資源(文本數(shù)據(jù))格式標(biāo)準(zhǔn)分析報(bào)告[EB/OL].[2012-09-10]. http://cdls.nstl.gov.cn/2003/Process/.
[11]About the Collections[EB/OL].[2012-10-10].http://memory.loc.gov/ammem/about/about.html.
[12]彭緒庶,蔣 穎.資源數(shù)字化標(biāo)準(zhǔn)問題研究[M].北京:北京圖書館出版社,2005.
[13]代 紅,陳 壯.中文信息技術(shù)的基礎(chǔ)標(biāo)準(zhǔn)與中文編碼字符集的國際標(biāo)準(zhǔn)化[J].信息技術(shù)與標(biāo)準(zhǔn)化,2008(7):36-40.
[14]孫 衛(wèi),趙 悅. 圖書館信息化標(biāo)準(zhǔn)工作評析[J].現(xiàn)代圖書情報(bào)技術(shù),2009(7/8):33.