• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      資源庫數(shù)據(jù)建設(shè):數(shù)字出版的重中之重

      2016-01-19 11:57葉延春
      出版參考 2015年18期
      關(guān)鍵詞:資源庫圖書加工

      葉延春

      在數(shù)字化轉(zhuǎn)型升級過程中,中國建筑工業(yè)出版社實(shí)現(xiàn)了全媒體形態(tài)的預(yù)期目標(biāo)。轉(zhuǎn)型升級內(nèi)容覆蓋了從選題策劃、內(nèi)容組織建設(shè)到產(chǎn)品研發(fā)、產(chǎn)品銷售的全業(yè)務(wù)、全流程,開發(fā)了涵蓋電子書、網(wǎng)絡(luò)課程、數(shù)據(jù)庫和移動閱讀App等產(chǎn)品。數(shù)字產(chǎn)品包括,已上線的“中國建筑出版在線”、工具書在線、“建筑文庫”移動閱讀、數(shù)字期刊平臺等,另外還完成了英文圖書元數(shù)據(jù)的推送等工作。這些多形態(tài)的數(shù)字產(chǎn)品,是建立在本社海量的資源庫的數(shù)據(jù)基石之上的。利用資源庫現(xiàn)有的資源,可以對圖書內(nèi)容實(shí)現(xiàn)結(jié)構(gòu)化、碎片化、富媒體化;通過元數(shù)據(jù)標(biāo)引、數(shù)據(jù)挖掘、數(shù)據(jù)關(guān)聯(lián),可以實(shí)現(xiàn)個性化、定制化服務(wù),以便適應(yīng)不同終端用戶的個性需求。所以,資源庫的數(shù)據(jù)建設(shè)、維護(hù)和管理是數(shù)字出版的重中之重,否則,前端多形態(tài)數(shù)字產(chǎn)品就將成為無源之水、無本之木。資源庫工作龐雜繁復(fù),如何讓資源庫的數(shù)據(jù)建設(shè)完善、規(guī)范有序,是數(shù)字出版中心相關(guān)人員必須不斷思考的問題。

      資源庫的數(shù)據(jù)建設(shè):要有獨(dú)有的加工標(biāo)準(zhǔn)

      資源庫的數(shù)據(jù)建設(shè)從前期規(guī)劃到具體實(shí)施是一個復(fù)雜的系統(tǒng)工程,也是一個從摸索中不斷走向完善的過程。在這個過程中,我們致力于數(shù)據(jù)建設(shè)逐步趨向規(guī)范化和標(biāo)準(zhǔn)化。

      資源庫數(shù)據(jù)形式按內(nèi)容可分為原始數(shù)據(jù)和基于原始數(shù)據(jù)的再加工數(shù)據(jù);數(shù)據(jù)處理按加工手段可分為數(shù)據(jù)采集、審核、分類加工、發(fā)布等。

      原始數(shù)據(jù)主要分為,從ERP和在線編纂系統(tǒng)采集到的圖書信息,排版廠提交給出版社的排版文件和鏈接圖,在線編撰的過程文件及最終文件等。

      再加工數(shù)據(jù)包括:可帶鏈接的、用于在線發(fā)布的PDF文件;結(jié)構(gòu)化的WORD文檔;EPUB文件;CEB文件等。

      資源庫的數(shù)據(jù)建設(shè),按流程順序,可分為圖書詳情信息采集、排版文件、圖片、PDF、EPUB的采集(該采集是用定制的采集工具在內(nèi)網(wǎng)批量上傳)、標(biāo)引、加工、審核、發(fā)布等。這些流程經(jīng)過兩年多的運(yùn)行和經(jīng)驗(yàn)積累,已形成建工社自身特色的加工標(biāo)準(zhǔn):

      ⑴采集信息的唯一性。定期從在線平臺或ERP系統(tǒng)讀取已正式出版發(fā)行的紙質(zhì)圖書、電子圖書。該階段主要是讀取圖書詳情信息,諸如:社書號,叢書名,書名,裝幀,開本,定價(jià),ISBN,圖書銷售分類,中圖分類號等。讀取的全部信息在庫中留存,主要信息用于外網(wǎng)發(fā)布。采集時需要注意的是,出版資源庫要堅(jiān)持“一書一號”原則,即同一本書所有信息都能最直接地從一個入口找到相關(guān)的信息,同一個社書號,無論版次只能有一個建檔。本書所有信息操作都是基于這個唯一的建檔號。不僅如此,還要做到系列叢書能夠有效關(guān)聯(lián),甚至后臺資源之間、前臺的不同站點(diǎn)之間也要能有效關(guān)聯(lián)。

      ⑵采集信息的準(zhǔn)確性。從ERP采集到的信息因各種原因,會存在信息不完整或有錯漏的情況,需要人工標(biāo)引。

      要素標(biāo)引完畢,還有“精編”項(xiàng)目:內(nèi)容提要和目錄內(nèi)容。該內(nèi)容可從ERP或排版文件讀取,如不能讀取則需人工錄入。為保證采集到的圖書信息準(zhǔn)確,標(biāo)引之后多人審核是必要的,審核無誤后才可發(fā)布到外網(wǎng)。

      ⑶排版文件、圖片、PDF、EPUB的采集。由排版廠提交到本社的排版文件和圖片一般滯后于信息發(fā)布1-3個月。數(shù)字出版部門收到排版文件后,要對文件做兩項(xiàng)必要的檢查。一是要保證內(nèi)容的正確性。二是檢查排版文件的完整性。

      內(nèi)容檢查無誤后,可以用采集工具來按類型分門別類地批量采集。在采集工具中,不同數(shù)據(jù)類型如同一個個“盒子”,啟動批量采集時可自動歸入到相應(yīng)的“盒子”中去。同一書號、不同版次的文件,不可采用批量方式,標(biāo)明版次后需人工逐個插入到相應(yīng)的資源文件夾中??晒┎杉臄?shù)據(jù)有:封面及正文排版文件、PDF、EPUB、CEB、插圖、經(jīng)典資源包等。

      PDF文件在采集之前,要嚴(yán)格區(qū)分高精度(用于內(nèi)網(wǎng)存檔或內(nèi)部職工因需調(diào)用)、低精度(用于外網(wǎng)售賣的電子書)、正文樣張(用于外網(wǎng)讀者的10%免費(fèi)翻閱),批量上傳。EPUB文件直接批量上傳即可。

      ⑷數(shù)據(jù)加工。分基本加工和深度加工兩種。

      基本加工:是將排版文件加工成CEB,PDF,EPUB等格式。必須注意的是,PDF文件用于外網(wǎng)發(fā)布時,使用低精度,同時還要批量拆分10%的PDF文件用于PC端客戶的免費(fèi)瀏覽;用于資源庫留存的PDF文件則應(yīng)生成高精度。既有圖書中,如果沒有排版文件的電子版,可將紙質(zhì)圖書經(jīng)過掃描生成PDF文件,整合成一個文檔,通過OCR識別,掃描的PDF中的文字內(nèi)容可以識別,可視為“字符”形式,以便內(nèi)容檢索和查找。

      深度加工:主要是指將PDF文件、EPUB文件、由自動引擎版面回寫的WORD文檔,在已有的結(jié)構(gòu)化基礎(chǔ)上,按需進(jìn)行深度碎片化、富媒體化。以建工社為例,經(jīng)過深度加工成功推出了數(shù)字期刊平臺,終端用戶可通過檢索期刊的欄目、標(biāo)題、作者、文獻(xiàn),訂制自己需要購買的文章。

      ⑸審核和發(fā)布。紙質(zhì)圖書的“編、校、印、發(fā)”有其完備的運(yùn)作方式和標(biāo)準(zhǔn),數(shù)字出版則不然。雖然數(shù)字出版早已不是什么新生事物,但在“審、校、發(fā)”方面,業(yè)界并沒有形成統(tǒng)一的標(biāo)準(zhǔn)。出版社在轉(zhuǎn)型初期都會面臨審校過程操作性不強(qiáng)、嚴(yán)謹(jǐn)性欠缺、重視度不夠等情況。

      經(jīng)過多年實(shí)踐和摸索,建工社的數(shù)字出版物在正式發(fā)布之前的審校,已初步形成保障質(zhì)量的運(yùn)作方式和標(biāo)準(zhǔn):一是不同流程由不同人員定崗負(fù)責(zé)。二是堅(jiān)持全面檢查、兼顧重點(diǎn)的制度。三是在無紙化的條件下,人機(jī)界面交互的同時與紙質(zhì)樣書核對。

      審核無誤的信息,定期由專人發(fā)布。資源庫的數(shù)據(jù)是動態(tài)的,每天都會有變化。需要發(fā)布的信息,堅(jiān)持定期、分批發(fā)布的原則。不是零散處理而是以時間段來加以區(qū)分,易于批量處理,也方便前后臺的數(shù)據(jù)比對和查詢。另外,需要提前發(fā)布的紙質(zhì)圖書或電子書,也有應(yīng)急響應(yīng)措施。

      資源庫數(shù)據(jù)的維護(hù)和更新:“看不見”的后續(xù)工作尤為重要

      如果說數(shù)據(jù)建設(shè)是資源庫的基礎(chǔ)性的工作,那么資源庫的數(shù)據(jù)維護(hù)和更新則是“看不見”的后續(xù)性工作。無論是內(nèi)部人員在后臺的數(shù)據(jù)調(diào)用還是終端用戶在前臺的數(shù)據(jù)訪問,都要保證數(shù)據(jù)的時效性、準(zhǔn)確性。因此,資源庫數(shù)據(jù)的日常維護(hù)和更新就顯得尤為重要。

      ⑴定期采集、發(fā)布新書。新書是指已出版發(fā)行的新版、再版、重印的紙質(zhì)圖書。每周由發(fā)行部門提供新書列表,數(shù)字出版部門根據(jù)列表,利用ERP與資源平臺的接口讀取相應(yīng)字段,采集圖書詳情;掃描紙書封面并上傳封面圖片,標(biāo)引,審核,發(fā)布。發(fā)布新書之前,由專人查看是否有前版,如有前版則從后臺撤下,發(fā)布后“圖書在線”只保留最新版。

      ⑵不定期整理需要深度加工的現(xiàn)有資源。資源庫中數(shù)據(jù)龐大,為了避免過度加工、盲目加工,造成人力和物力的浪費(fèi),須由專門人員將資源庫中需要再加工的、有市場前景的圖書資源,根據(jù)其性質(zhì)、特點(diǎn),分別導(dǎo)出需要結(jié)構(gòu)化、碎片化的圖書列表,交由有關(guān)人員作相應(yīng)的拆分,并將內(nèi)容對象導(dǎo)入到相應(yīng)的資源庫,滿足新的數(shù)字產(chǎn)品和商業(yè)模式的需要,提高內(nèi)容的利用率。數(shù)字出版資源庫里的出版資源可能會有多種類型,針對不同性質(zhì)的圖書資源采用不同的反解方式,并建立不同類型的資源庫,如標(biāo)準(zhǔn)規(guī)范庫、按篇章節(jié)拆分的期刊庫、按條目拆分的匯編及專業(yè)詞典庫、職業(yè)資格考試的視頻庫、供終端用戶有償下載的圖片庫等。

      ⑶內(nèi)外網(wǎng)已發(fā)布資源數(shù)量的定期核對。建工社的數(shù)字出版資源管理系統(tǒng)與發(fā)布管理平臺處于同一個庫中,出版資源管理平臺的數(shù)據(jù)變動直接反映到發(fā)布平臺,再由發(fā)布后臺正式發(fā)布到前臺的“圖書在線”。在“中國建筑出版在線”上線初期,因?yàn)榉N種原因發(fā)布新書時偶有前后臺數(shù)量不能完全對應(yīng)的情況,需要按圖書銷售分類人工核對。為保證這些數(shù)據(jù)完全正確,分類核對做法沿用至今。主要核對內(nèi)容:各分類下已發(fā)布新書數(shù)量;電子書總數(shù);POD數(shù)量。三個平臺的圖書分類方式完全對應(yīng)。

      ⑷“丟書”情況的查缺補(bǔ)漏。丟書情況分兩種:一種是有庫存的、從ERP里無法讀取的,另一種情況是營銷中心因種種原因沒有提供樣書的。定期核查營銷數(shù)據(jù)中有庫存的圖書,只要庫存非零,在“圖書在線”前臺必有在線銷售;紙質(zhì)書庫存為零則自動納入POD。每月由營銷中心提供銷售數(shù)據(jù),正式出版發(fā)行的新書如因某種原因在前臺沒有在線銷售信息,兩個月內(nèi)必須由人工補(bǔ)錄。

      ⑸資源數(shù)據(jù)的導(dǎo)出和調(diào)用。資源庫內(nèi)的數(shù)據(jù)不僅是用來加工各種數(shù)字產(chǎn)品的,更重要的一個功能是本社圖書資源的“倉儲”。庫內(nèi)可調(diào)用的文件類型很多,導(dǎo)出時根據(jù)實(shí)際需要可按圖書狀態(tài)、入庫時間、銷售類型下載。編輯出版部門因圖書的再版或重印需要調(diào)用原始文件時,可在資源庫平臺說明用途并在線申請,由部門領(lǐng)導(dǎo)在線核準(zhǔn)、數(shù)字出版中心的相關(guān)人員授權(quán)后方可下載。授權(quán)時指定下載人員、可下載的內(nèi)容、下載的時間限制等。嚴(yán)格“申請、審批、核發(fā)、授權(quán)、下載”程序,以策庫內(nèi)資源的信息安全。

      ⑹未雨綢繆,著眼于將來未知形態(tài)數(shù)字產(chǎn)品的資源建設(shè)。為適應(yīng)市場變化和需要,數(shù)字出版資源庫的建設(shè)都是為后續(xù)數(shù)字運(yùn)營平臺和自適應(yīng)的動態(tài)出版系統(tǒng)服務(wù)的。為了保證將來的可擴(kuò)展性,必須要求元數(shù)據(jù)內(nèi)容的自定義和可擴(kuò)展,加工處理的方式,也應(yīng)向著智能化、自動最大化、標(biāo)準(zhǔn)化的方向發(fā)展。

      總之,無論是資源庫的數(shù)據(jù)建設(shè)還是數(shù)據(jù)維護(hù)更新,資源庫相關(guān)人員都是面向社內(nèi)外的用戶服務(wù);無論后端數(shù)字產(chǎn)品將來的形態(tài)如何變化,做好服務(wù)都是資源庫團(tuán)隊(duì)的本職。以“一個團(tuán)隊(duì)、一個標(biāo)準(zhǔn)”的不變,應(yīng)對數(shù)據(jù)服務(wù)內(nèi)容的不斷變化,是數(shù)字出版資源庫業(yè)者孜孜以求的目標(biāo)。

      (作者單位系中國建筑工業(yè)出版社)

      猜你喜歡
      資源庫圖書加工
      認(rèn)識“超加工食品”
      后期加工
      圖書推薦
      貴州●石斛種質(zhì)資源庫
      歡迎來到圖書借閱角
      高中歷史信息化教育資源庫應(yīng)用探索
      福建基礎(chǔ)教育教學(xué)資源庫建設(shè)研究——以福建基礎(chǔ)教育網(wǎng)資源庫為例
      菱的簡易加工幾法
      台中市| 禹城市| 瓮安县| 东乌珠穆沁旗| 广州市| 延寿县| 平昌县| 夏津县| 萍乡市| 静乐县| 临漳县| 扶沟县| 岗巴县| 友谊县| 莱西市| 瓦房店市| 平昌县| 临邑县| 隆林| 榆中县| 名山县| 星子县| 乌恰县| 张家界市| 娄烦县| 西安市| 香港| 南郑县| 利辛县| 府谷县| 宁国市| 仪征市| 余干县| 保康县| 从江县| 无极县| 阜城县| 青神县| 呈贡县| 吉首市| 图木舒克市|