張國強(qiáng)沈 菁
淺談數(shù)字出版資源的結(jié)構(gòu)化
張國強(qiáng)1)沈 菁2)
從數(shù)字出版的特征來講,它必須有數(shù)字化出版資源作為基礎(chǔ)條件。但是,用二進(jìn)制數(shù)字編碼記錄、儲存的出版資源,并非就是數(shù)字化出版資源,而只能說是數(shù)字形態(tài)出版資源。兩者在數(shù)據(jù)組織方式、外部特征和形成的數(shù)字出版產(chǎn)品方面均有所不同。數(shù)字形態(tài)出版資源只有經(jīng)過結(jié)構(gòu)化處理才能形成數(shù)字化出版資源,結(jié)構(gòu)化處理通常有“前結(jié)構(gòu)化”“中結(jié)構(gòu)化”和“后結(jié)構(gòu)化”三種途徑。比較而言,“中結(jié)構(gòu)化”是現(xiàn)階段一種較為理想的數(shù)字出版資源結(jié)構(gòu)化的方法,其最大的特點是效率較高、成本相對較低、對編輯流程影響甚小。
數(shù)字化出版資源;數(shù)字形態(tài)出版資源;結(jié)構(gòu)化處理
數(shù)字出版是利用數(shù)字技術(shù)進(jìn)行內(nèi)容編輯加工,并通過網(wǎng)絡(luò)傳播數(shù)字內(nèi)容產(chǎn)品的一種出版方式。它的基本特征是內(nèi)容生產(chǎn)數(shù)字化、管理過程數(shù)字化、產(chǎn)品形態(tài)數(shù)字化和傳播渠道網(wǎng)絡(luò)化。其中的“管理過程數(shù)字化”不具有行業(yè)特點,目前已經(jīng)見于各個行業(yè)的企事業(yè)單位和管理機(jī)關(guān)。另三個“化”則富有出版行業(yè)的特點?!皟?nèi)容生產(chǎn)數(shù)字化”和“產(chǎn)品形態(tài)數(shù)字化”,就意味著數(shù)字出版中精神文化內(nèi)容的生產(chǎn)都是以數(shù)字化方式實現(xiàn)的,所提供給消費者的產(chǎn)品也只是可以解碼還原成各種信息內(nèi)容的編碼數(shù)字,而不附加其他物質(zhì)載體;“傳播渠道網(wǎng)絡(luò)化”,則表明數(shù)字出版產(chǎn)品僅僅通過信息網(wǎng)絡(luò)就可傳播,而不須利用任何交通運輸工具。此外,數(shù)字出版還具有復(fù)制后置化、信息交互化、版本更新便捷、發(fā)行快捷化等附加特點。
可見,數(shù)字出版應(yīng)該從編輯、復(fù)制、發(fā)行的出版活動全過程到最終產(chǎn)品的形態(tài)都全部實現(xiàn)數(shù)字化。有些出版活動僅僅部分應(yīng)用了數(shù)字化技術(shù),就不屬于數(shù)字出版,只能視為具有數(shù)字化因素的出版活動。
譬如,利用數(shù)字化技術(shù)排版、印刷紙質(zhì)出版物的出版活動,只能姑且稱為“數(shù)字—模擬出版”。因為利用電子排版文件制作印版后印刷,實際上就是一種模擬方式;即使是數(shù)字印刷,雖然沒有實體的印版,但也是要把編碼數(shù)字先解碼還原為相應(yīng)的圖文信息儲存在具有類似印版作用的成像載體上,再把這些圖文信息模擬重現(xiàn)在承印物上。更加重要的是,紙質(zhì)出版物的產(chǎn)品形態(tài)并非數(shù)字化的,還停留在模擬狀態(tài),而且其傳播必須借助交通運輸工具。
再如,生產(chǎn)存儲有電子書的手持閱讀器或者載有各種作品(如文字作品、攝影作品、美術(shù)作品、圖形作品、計算機(jī)軟件、音頻節(jié)目、視頻節(jié)目等)的只讀光盤、優(yōu)盤、集成電路卡(IC卡)等的出版活動,雖然已經(jīng)實現(xiàn)內(nèi)容生產(chǎn)數(shù)字化,也難以歸入真正的數(shù)字出版,姑且可稱為“亞數(shù)字出版”。這是因為:其一,這類出版物產(chǎn)品都要隨同特定的固定物理載體提供給消費者,沒有實現(xiàn)產(chǎn)品形態(tài)數(shù)字化;其二,這類產(chǎn)品都需要在批量復(fù)制以后才開始發(fā)行,沒有實現(xiàn)復(fù)制后置化;其三,這類產(chǎn)品都必須借助交通工具進(jìn)行實體運輸才能流通,沒有實現(xiàn)傳播渠道網(wǎng)絡(luò)化;其四,其中有些產(chǎn)品雖具有信息交互功能,但僅限于消費者與產(chǎn)品之間,出版者對消費者在購買、使用產(chǎn)品過程中的個性特點基本上是一無所知。當(dāng)然,無論是數(shù)字—模擬出版,還是數(shù)字出版、亞數(shù)字出版,都需要以二進(jìn)制數(shù)字記錄、儲存的出版資源,而后兩者更是將此作為必備的基本條件。
廣義的出版資源,是指出版物產(chǎn)品形成過程中必須加以開發(fā)、利用的各種社會資源,包括人才資源、物質(zhì)資源和信息資源。狹義的出版資源,則是指信息資源中可以轉(zhuǎn)化成為出版物內(nèi)容的精神文化成果資源,也稱“出版內(nèi)容資源”,其主要特點在于不會像物質(zhì)資源那樣在生產(chǎn)過程中被消耗后就不再保留原有的使用價值,而是會轉(zhuǎn)移到出版物產(chǎn)品中形成新的出版資源,并通過后續(xù)的開發(fā)、利用而不斷擴(kuò)大和增加使用價值。本文中的“出版資源”都是就其狹義而言的。
出版資源的記錄、存儲,在很長歷史時期內(nèi)是采用模擬方法,即用人類視覺可以直接感知的各種符號把內(nèi)容信息記錄在甲骨、石頭、金屬、絲織品、竹簡、木牘、紙張、塑料等載體上,或者利用電—磁之間的物理關(guān)系把圖、文、聲、像信息轉(zhuǎn)化為磁信號記錄在鐵磁體載體上,或者利用電—磁—機(jī)械振動之間的物理關(guān)系把聲音信號轉(zhuǎn)換成機(jī)械振動軌跡固化在塑料上。
隨著計算機(jī)信息技術(shù)的飛速發(fā)展,出現(xiàn)了數(shù)字化方式,即借助計算機(jī)或其他相應(yīng)電子設(shè)備把各種內(nèi)容信息按照特定的編碼規(guī)則轉(zhuǎn)化為二進(jìn)制數(shù)字信號后記錄、儲存在磁、光、電等介質(zhì)上,使用時再利用一定的電子設(shè)備將經(jīng)過編碼的數(shù)字信號進(jìn)行解碼,形成人類感官能夠感知的信號。這種將出版資源以二進(jìn)制數(shù)字信號記錄、儲存的過程,就是“出版資源數(shù)字化”。
以模擬方式記錄、存儲的出版資源,每使用一次都會有一定的損耗,所以會逐漸失真、報廢。以數(shù)字化方式記錄、存儲的內(nèi)容信息,除非載體或者解碼設(shè)備損壞導(dǎo)致無法使用,數(shù)字信號本身在使用過程中不會有損耗,始終保持“嶄新狀態(tài)”。所以,數(shù)字化方式明顯優(yōu)于模擬方式。
出版資源數(shù)字化的一般結(jié)果是形成“數(shù)字形態(tài)出版資源”。這類出版資源種類多樣,從目前我國出版界的現(xiàn)狀而言,它們的類型按其來源主要有如下一些:一是作者電子原稿。這是作者利用計算機(jī)等電子設(shè)備直接記錄并儲存的智力創(chuàng)作成果數(shù)字文件,其格式通常為Word或純文本。二是計算機(jī)排版文檔。這是由各種計算機(jī)排版軟件形成的數(shù)字文件,如方正“書版”的FBD小樣文件、PS大樣文件,InDesign 的Indd 文件,等等,以及據(jù)此轉(zhuǎn)換的CEB文件、PDF文件等。三是頁面掃描圖像文件。這是把已出版的紙質(zhì)出版物逐頁掃描后形成的數(shù)字文件,一般采取TIFF、JPEG、GIF、PNG、BMP等格式。四是光電掃描識別文檔。這是將已有紙質(zhì)出版物逐頁掃描后得到的圖像文件進(jìn)一步利用光學(xué)字符識別(Optical Character Recognition—OCR)技術(shù)處理的數(shù)字文件,一般為純文本。
雖然這些文件從出版的角度看,都是為出版工作服務(wù)的出版資源,而從信息特征這一角度來看,又都是數(shù)字形態(tài)的,但是,從數(shù)字出版的角度來講,它們都還只是“數(shù)字形態(tài)出版資源”,而不是“數(shù)字化出版資源”。
“數(shù)字化出版資源”是指以二進(jìn)制數(shù)字方式記錄、儲存并在數(shù)據(jù)組織結(jié)構(gòu)上符合數(shù)字出版技術(shù)要求的內(nèi)容信息,亦即可以直接供數(shù)字出版工作選擇、組配使用的出版資源,如各種數(shù)據(jù)庫文件,已經(jīng)用XML(Extensible Markup Language,可擴(kuò)展標(biāo)記語言)作過標(biāo)引的XML文件等。
數(shù)字形態(tài)出版資源與數(shù)字化出版資源的差別主要在于:第一,數(shù)據(jù)組織方式不同。前者是線性的,即信息的接受順序與其存儲的位置有關(guān);后者是結(jié)構(gòu)化的,信息存儲的位置與接受信息的先后順序無關(guān)。第二,外部表現(xiàn)特征不同。前者是被污染的,如Word文檔,排版文檔中有很多版面描述信息;后者則是干凈的,除了精神文化內(nèi)容本身外,沒有其他無關(guān)的信息。第三,應(yīng)用方向不同。前者可以用于數(shù)字—模擬出版、亞數(shù)字出版,而在數(shù)字出版中使用有限,一般僅可制作成以線性方式閱讀的電子書刊或音頻、視頻產(chǎn)品,難以把多種媒體融合在一起,且有的還不能自如適應(yīng)用戶終端的特性(如PDF格式、CEB格式的電子書在手機(jī)和尺寸較小的平板電腦上使用都很不方便);后者可以作為各類數(shù)字出版產(chǎn)品的內(nèi)容資源并順利實現(xiàn)多種媒體融合,用其制作的數(shù)字出版產(chǎn)品能夠很方便地適應(yīng)各種用戶終端的特性,同時還可以十分便捷地用于數(shù)字—模擬出版、亞數(shù)字出版,實現(xiàn)按需出版、全媒體出版等。
不過,雖然數(shù)字化出版資源有別于數(shù)字形態(tài)出版資源,但是兩者之間并不存在不可逾越的“鴻溝”。因為兩者都是用二進(jìn)制數(shù)字信號記錄、存儲信息內(nèi)容,所以,對數(shù)字形態(tài)出版資源進(jìn)行結(jié)構(gòu)化加工、處理(對頁面掃描圖像文件應(yīng)在結(jié)構(gòu)化加工前先進(jìn)行OCR識別處理)后,就可以使之轉(zhuǎn)化成為數(shù)字化出版資源。
從目前的技術(shù)來看,根據(jù)相關(guān)技術(shù)運用的時間先后,出版單位實施數(shù)字出版資源結(jié)構(gòu)化的途徑大致有三種。第一,“前結(jié)構(gòu)化”。這是對作者原稿進(jìn)行結(jié)構(gòu)化加工,即在內(nèi)容創(chuàng)作、編輯的同時進(jìn)行結(jié)構(gòu)化標(biāo)引,形成結(jié)構(gòu)化文件。第二,“中結(jié)構(gòu)化”。這是將結(jié)構(gòu)化加工與排版過程相結(jié)合,即將內(nèi)容結(jié)構(gòu)化標(biāo)記與排版指令合并輸入同一文檔,排版結(jié)束時既可導(dǎo)出結(jié)構(gòu)化文件,也可導(dǎo)出排版文檔。第三,“后結(jié)構(gòu)化”,也稱“反解”。這是對既有電子排版文件或者光電掃描識別文檔專門進(jìn)行結(jié)構(gòu)標(biāo)引加工,形成結(jié)構(gòu)化文件。這三種途徑各有特點,其應(yīng)用的背景條件和所需的人力投入都有所不同。
“前結(jié)構(gòu)化”需要有數(shù)字復(fù)合出版系統(tǒng)支持,才能高效地得到優(yōu)質(zhì)的結(jié)構(gòu)化出版資源。目前,國外已有的數(shù)字復(fù)合出版系統(tǒng)(又稱“雙軌出版系統(tǒng)”)兼具版面輸出功能和結(jié)構(gòu)化資源輸出功能,其特點是在用XML編寫數(shù)字出版處理軟件時,以XSL(Extensible Stylesheet Language,可擴(kuò)展樣式表語言)設(shè)計一個顯示/輸出軟件,可以將XML處理的結(jié)果進(jìn)行排版、印刷,最終同一文件可產(chǎn)生結(jié)構(gòu)化數(shù)字文件和印刷排版文件兩種文件。這顯然是非常理想的。但是,數(shù)字復(fù)合出版系統(tǒng)目前存在一個很大的問題,就是對原有的創(chuàng)作、編輯加工流程干擾太大。作者或編輯在處理內(nèi)容時還要兼顧內(nèi)容的結(jié)構(gòu)化標(biāo)引工作,不但會被干擾分心和增加工作量,而且內(nèi)容結(jié)構(gòu)化標(biāo)引的本身有一定的技術(shù)要求,作者、編輯如果不下一定的功夫?qū)W習(xí)、操練,一時難以掌握。我國目前還未見十分成熟的數(shù)字復(fù)合出版系統(tǒng)。況且,即使系統(tǒng)開發(fā)成功,正式投入使用前還涉及對作者、編輯的訓(xùn)練及編輯加工流程的變革。這些都需要假以時日。所以,在我國出版業(yè)實施數(shù)字化轉(zhuǎn)型發(fā)展的當(dāng)前階段,前結(jié)構(gòu)化還只是一種前瞻性的出版資源結(jié)構(gòu)化途徑,期望未來能夠真正實現(xiàn)。
“后結(jié)構(gòu)化”是對既往數(shù)據(jù)進(jìn)行反解。采用這種結(jié)構(gòu)化途徑,無論是基于電子排版文件,還是利用光電掃描識別文檔,都僅僅是節(jié)省了把內(nèi)容信息輸入計算機(jī)的人力,而實際上存在許多重復(fù)勞動,因為這是將原本已經(jīng)合在一起的內(nèi)容重新按照內(nèi)容層級拆分開來,還要把原來存在的與出版物內(nèi)容無關(guān)的版式信息和樣式信息(如排版指令,頁眉、頁腳文字,頁碼及裝飾性圖片等)予以剔除。初步處理完畢的純文本文件才能借助工具軟件進(jìn)行結(jié)構(gòu)標(biāo)引加工,并且對標(biāo)引結(jié)果必須進(jìn)行人工復(fù)核、修改。況且,對光電掃描識別文件還必須進(jìn)行人機(jī)結(jié)合式的校對??梢?,這種結(jié)構(gòu)化途徑的效率較低,通常只適用于對歷史上形成的出版資源進(jìn)行結(jié)構(gòu)化加工,它在當(dāng)前的出版業(yè)數(shù)字化轉(zhuǎn)型發(fā)展中暫時有存在的必要,但是不應(yīng)該作為出版資源結(jié)構(gòu)化的主流。
“中結(jié)構(gòu)化”即“結(jié)構(gòu)化排版”。它既可避免“前結(jié)構(gòu)化”因創(chuàng)作環(huán)境、編輯加工流程的變化而給作者、編輯人員帶來的不便,也可避免陷于“后結(jié)構(gòu)化”的“排版—反解—校對”的被動應(yīng)對的困境。從理論上來講,“中結(jié)構(gòu)化”具備效率較高、成本相對較低、對編輯加工流程影響甚小等顯著特點,可說是我國現(xiàn)階段一種較為理想的出版資源結(jié)構(gòu)化途徑,可滿足新產(chǎn)生的出版資源實現(xiàn)結(jié)構(gòu)化的需要。
中結(jié)構(gòu)化的實質(zhì),就是實現(xiàn)內(nèi)容結(jié)構(gòu)化標(biāo)引與排版指令輸入合一的“結(jié)構(gòu)化排版”,以解決長期以來困擾出版界的排版文檔不能直接用于數(shù)字出版的難題。這種方法大致上包括這樣幾個流程環(huán)節(jié)。
第一,制定標(biāo)引規(guī)范。分析研究各種出版物的結(jié)構(gòu)構(gòu)成狀況并分成若干類型,再依據(jù)XML文檔編寫規(guī)范規(guī)定對各種結(jié)構(gòu)成分的標(biāo)引方式,統(tǒng)一自定義標(biāo)記形式或標(biāo)引用語。
第二,排版兼標(biāo)引。對稿件內(nèi)容排版時同步進(jìn)行內(nèi)容結(jié)構(gòu)標(biāo)引。如采用方正書版排版軟件組版時,可將排版指令與結(jié)構(gòu)化標(biāo)記結(jié)合輸入,以減少后期處理的繁雜工作和重復(fù)勞動,形成統(tǒng)一的基礎(chǔ)數(shù)字化文檔。若還需對知識點作標(biāo)引,可預(yù)留“知識點標(biāo)記”,留待編輯添加關(guān)鍵詞。
第三,出校樣復(fù)核。打印出校樣,進(jìn)行初校和二校,既校對書刊內(nèi)容、形式,還檢查結(jié)構(gòu)化標(biāo)記的正誤、衍缺。如果需要對知識點予以標(biāo)引,由編輯人員在預(yù)留的“知識點標(biāo)記”中補(bǔ)充填入關(guān)鍵詞和對知識點標(biāo)記的位置進(jìn)行增刪調(diào)整。
第四,改樣并復(fù)核。由排版單位依據(jù)校樣標(biāo)注進(jìn)行修改,并對再次打出的校樣進(jìn)行三校,消滅改樣操作的失誤之處。本環(huán)節(jié)根據(jù)校改質(zhì)量狀況可重復(fù)進(jìn)行若干次,直到數(shù)字文檔完全正確無誤。
第五,分別導(dǎo)出文件。利用工具軟件對已經(jīng)確認(rèn)無誤的數(shù)字文件進(jìn)行處理:按統(tǒng)一規(guī)則將自定義標(biāo)記轉(zhuǎn)換成為符合規(guī)范的標(biāo)引語句后,導(dǎo)出為剝離了各種排版指令的XML格式的內(nèi)容結(jié)構(gòu)化文件,用于存檔及復(fù)合利用;保留排版指令而剔除各種結(jié)構(gòu)化標(biāo)記和知識點標(biāo)記后,導(dǎo)出為排版文檔,用于印刷。
第六,通讀、整理付印樣。用排版文檔打印出付印樣,進(jìn)行通讀和文字技術(shù)整理,防止剔除結(jié)構(gòu)化標(biāo)記、知識點標(biāo)記后可能產(chǎn)生的版面錯誤。達(dá)到付印標(biāo)準(zhǔn)后,轉(zhuǎn)入制版、印訂等紙質(zhì)出版物的一般生產(chǎn)程序。
第七,元數(shù)據(jù)標(biāo)注。利用工具軟件從出版物內(nèi)容中把有關(guān)元數(shù)據(jù)提取出來,以XML格式文件儲存后與相應(yīng)的結(jié)構(gòu)化文件整合,方便數(shù)據(jù)入庫及多重發(fā)布。
采用中結(jié)構(gòu)化方法能夠獲得標(biāo)準(zhǔn)的XML格式文件,從而在出版資源的復(fù)用性,數(shù)據(jù)的結(jié)構(gòu)性、完整性、可靠性、標(biāo)準(zhǔn)性、流通性及可追溯性方面,都能達(dá)到要求。這種方法不但適應(yīng)我國社會文化消費現(xiàn)狀,而且十分符合當(dāng)前我國出版行業(yè)的實際,能夠有效地提高出版資源的利用率,提高出版工作的效率和水平,促進(jìn)整個出版行業(yè)的數(shù)字化轉(zhuǎn)型,帶動產(chǎn)業(yè)的整體發(fā)展。
[1] 國家新聞出版廣電總局出版專業(yè)資格考試辦公室.出版專業(yè)實務(wù)?初級 [M].武漢:崇文書局,2015.
[2] 國家新聞出版廣電總局出版專業(yè)資格考試辦公室.出版專業(yè)實務(wù)?中級 [M].北京:商務(wù)印書館,2015.
[3] 國家新聞出版廣電總局出版專業(yè)資格考試辦公室.出版專業(yè)基礎(chǔ)?中級 [M].北京:商務(wù)印書館,2015.
[4] 國家新聞出版廣電總局出版專業(yè)資格考試辦公室.數(shù)字出版基礎(chǔ)[M].北京:電子工業(yè)出版社,2015.
(作者單位:1)上海辭書出版社 2)上海出版印刷高等專科學(xué)校)