林小玲
中圖分類(lèi)號(hào):TP2文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0420026-01
一、盜版圖書(shū)概述
盜版是我國(guó)圖書(shū)市場(chǎng)乃至世界圖書(shū)市場(chǎng)的一個(gè)頑疾。圖書(shū)市場(chǎng)盜版、盜印活動(dòng)的猖獗,已到了無(wú)孔不入的地步。幾乎所有的暢銷(xiāo)圖書(shū)或教材教輔,甚至權(quán)威工具書(shū)《新華字典》,都無(wú)法擺脫被盜版的命運(yùn)。盜版行為嚴(yán)重?fù)p害了出版社和著作權(quán)人的利益,侵害了廣大讀者閱讀正規(guī)、高品質(zhì)圖書(shū)的權(quán)利,貽害無(wú)窮。
盜版圖書(shū)主要有以下幾種形式:
1.通過(guò)掃描的電子文件輸出膠片印刷,其清晰度、色彩等都會(huì)與原版書(shū)不同。此類(lèi)盜版書(shū)很容易判斷,錯(cuò)別字多,紙張粗劣,印刷模糊,偏遠(yuǎn)地區(qū)的出版社,版權(quán)頁(yè)前后不符等等。但現(xiàn)在的盜版書(shū)商越來(lái)越專(zhuān)業(yè),上述問(wèn)題他們也在逐漸改善,判斷也越來(lái)越難。但狐貍終究會(huì)露出尾巴,一般封面的原文件他們是搞不到的,只能掃描正版書(shū)的封面。受目前印刷技術(shù)的限制,掃描后再制片、印刷的封面在色澤上一定會(huì)有偏差,如偏暗、偏艷、明暗變化突然等等,而且里面的圖紋細(xì)節(jié)也會(huì)很模糊。不同印刷廠提供的紙張常常有差異,主要是質(zhì)地手感上有區(qū)別。另外,盜版書(shū)的內(nèi)容文字,要么是掃描后重新識(shí)別成文本文件再出片,那么它的錯(cuò)字率較高;要么是掃描成圖片文件直接出片,那么文字的邊角就會(huì)有些模糊。
2.直接使用電子文件,甚至正版膠片印刷,質(zhì)量能夠以假亂真,這是對(duì)排版和印刷環(huán)節(jié)管理不嚴(yán)所造成的。例如在出版社方面,內(nèi)部參與編校排人員私下將書(shū)稿盜出,盜印發(fā)行。
3.不法書(shū)商與印刷廠勾結(jié),私自加印圖書(shū)。印刷廠方面在制版印刷時(shí),主要會(huì)采取如下盜版手段:(1)文件另存;(2)另拷照排版;(3)加曬PS版;(4)私自增加印數(shù)等等。
這些盜版書(shū),有些假冒出版者名義出版,有的盜用出版社已出版圖書(shū)的書(shū)號(hào),有些甚至自己亂編書(shū)號(hào)。越來(lái)越多的出版社和著作權(quán)人意識(shí)到,打擊盜版不僅是政府的事,更是出版社自身的事。有些出版單位設(shè)置了專(zhuān)門(mén)的“打盜”機(jī)構(gòu)和專(zhuān)人,從當(dāng)初單純投訴和一般化調(diào)研的被動(dòng)狀態(tài),到積極調(diào)查、主動(dòng)介入,有組織、有計(jì)劃地開(kāi)展工作,并就某些案件提起民事訴訟。因此,做好出版物盜版鑒定工作成為必不可少的一道程序。出版社希望通過(guò)有效的、系統(tǒng)的手段,清晰地鑒別出盜版書(shū),分析其盜版根源,通過(guò)整理、分析,形成盜版信息分析報(bào)告,便于執(zhí)法部門(mén)有重點(diǎn)地打擊盜版行為。現(xiàn)今,鑒別工作的所有工序都是通過(guò)人工處理的,都是靠出版界專(zhuān)業(yè)人士或印刷行業(yè)協(xié)會(huì)專(zhuān)家的個(gè)人經(jīng)驗(yàn)做技術(shù)鑒定,缺乏軟硬件系統(tǒng)作為科學(xué)有效的工具使用。圖書(shū)盜版是一種專(zhuān)業(yè)性很強(qiáng)的犯罪,涉及出版業(yè)的一些專(zhuān)門(mén)知識(shí),一般非業(yè)內(nèi)人士所知,傳統(tǒng)的司法物證鑒定部門(mén)要完成此種鑒定有困難。在以往司法實(shí)踐中,曾以被盜版的正版出版社或其下設(shè)的出版部有關(guān)人員為鑒定人,出具鑒定結(jié)論,作為法庭證據(jù)。這種情況下的鑒定注重正版書(shū)的特征,用正版與盜版比較得出結(jié)論。
每個(gè)出版社的圖書(shū)都有其獨(dú)特之處,一般只有該出版社的出版部人員最了解。其常規(guī)鑒別方法如下:正版圖書(shū)的用料,包括正文用紙、內(nèi)封或環(huán)襯用紙、封面用紙或其他用料是國(guó)產(chǎn)的還是進(jìn)口的;圖書(shū)的裝訂方式是膠訂聯(lián)動(dòng)裝訂還是人工素線(xiàn)裝訂;圖書(shū)是否含防偽水??;水印是否真實(shí)等等。隨著出版社內(nèi)部管理系統(tǒng)如ERP(Enterprise Resource Planning,企業(yè)資源管理計(jì)劃)的完善,鑒別方法也有了進(jìn)一步的發(fā)展,可以先針對(duì)圖書(shū)身份驗(yàn)證的重要信息數(shù)據(jù)書(shū)名、書(shū)號(hào)進(jìn)行數(shù)據(jù)排查,初步確定是否為假冒出版者名義,或已出版圖書(shū)的書(shū)號(hào),或是自己亂編書(shū)號(hào)出版等的盜版方式。
雖然由出版社內(nèi)部人員鑒別正版與盜版最直截了當(dāng),但是被盜版的出版社是此類(lèi)案件的利害關(guān)系人,由他們做鑒定往往不符合鑒定結(jié)論的法定條件,在司法實(shí)踐中常被詬病。因此,仍然需要有第三方參與的科學(xué)的鑒定結(jié)論,這就需要有一套相對(duì)完善的系統(tǒng)支持。本文結(jié)合圖像識(shí)別技術(shù),以圖書(shū)封面、內(nèi)文數(shù)字圖像為對(duì)象,綜合運(yùn)用圖書(shū)出版制作管理技術(shù)、數(shù)據(jù)庫(kù)技術(shù)、圖像處理、模式識(shí)別原理,設(shè)計(jì)一套專(zhuān)供出版社或鑒定單位進(jìn)行基于圖像識(shí)別的盜版圖書(shū)鑒定系統(tǒng)。
二、核心技術(shù)及設(shè)計(jì)思路
一直以來(lái),國(guó)內(nèi)外出版社和發(fā)行單位防止和鑒別盜版圖書(shū)工作大多集中在印前工藝和印刷工藝上,如反盜版專(zhuān)用標(biāo)識(shí)、新式防偽紙、在圖書(shū)上粘貼激光防偽、數(shù)碼防偽標(biāo)貼等方式。最近,一項(xiàng)物品身份信息管理新技術(shù)“S-DNA元素標(biāo)記信息技術(shù)”的問(wèn)世,為打擊盜版增添了新武器。中國(guó)版權(quán)協(xié)會(huì)反盜版委員會(huì)近期還推出了“反盜版短信防偽信息系統(tǒng)”,該系統(tǒng)是通過(guò)推出全國(guó)統(tǒng)一的反盜版短信防偽標(biāo)識(shí),利用現(xiàn)有短信息防偽技術(shù)結(jié)合反盜版工作的特點(diǎn)和需要,集數(shù)據(jù)庫(kù)技術(shù)、遠(yuǎn)程訪問(wèn)技術(shù)、安全技術(shù)于一體的新型電子防偽反盜版系統(tǒng)。目前尚沒(méi)有專(zhuān)供出版社進(jìn)行盜版圖書(shū)鑒別用的基于圖像識(shí)別的系統(tǒng),但該系統(tǒng)綜合采用的核心技術(shù)模式識(shí)別、圖像特征識(shí)別技術(shù)等早被廣泛應(yīng)用于其他領(lǐng)域。
模式識(shí)別(Pattern Recognition)就是機(jī)器識(shí)別、計(jì)算機(jī)識(shí)別或機(jī)器自動(dòng)識(shí)別,目的在于讓機(jī)器自動(dòng)識(shí)別事物。模式識(shí)別研究的內(nèi)容是利用計(jì)算機(jī)對(duì)客觀物體進(jìn)行分類(lèi),在錯(cuò)誤概率最小的條件下,使識(shí)別的結(jié)果盡量與客觀物體相符合。模式識(shí)別中的一個(gè)基本概念是相似度(similarity),這和已知的其他一些學(xué)科方法都不相關(guān)。一般認(rèn)為兩個(gè)對(duì)象相似是因?yàn)樗麄兙哂邢嗨频奶卣?,相似度?jīng)常被描述成更加抽象的概念,它并不是在幾個(gè)對(duì)象之間衡量,而是在一個(gè)對(duì)象和一個(gè)目標(biāo)概念之間進(jìn)行衡量。讓機(jī)器辨別事物的最基本的方法是計(jì)算待識(shí)別事物與標(biāo)準(zhǔn)模板之間的相似度。
圖像識(shí)別也屬于模式識(shí)別,是數(shù)字圖像處理的一個(gè)新興的研究方向。首先,經(jīng)過(guò)深入分析,不同的印前制作過(guò)程、不同的印刷工序印出來(lái)的印刷網(wǎng)點(diǎn)是有區(qū)別的。因而,同一個(gè)文字及圖像中打出來(lái)的黑點(diǎn)均不相同。文字圖像的描述依靠黑色像素點(diǎn),這樣,可以選灰度值為第一個(gè)特征向量。計(jì)算機(jī)將封面及內(nèi)文處理成黑白圖像時(shí),認(rèn)為灰度值為0就是全黑,灰度值為255就是全白,在本系統(tǒng)中,選取灰度值為少于122的像素點(diǎn)為黑點(diǎn)。其次,整個(gè)版面內(nèi)容的面積和周長(zhǎng)也會(huì)有所區(qū)別,這樣可以選取包含整個(gè)字體的最小的矩形作為一個(gè)特征。本系統(tǒng)設(shè)定以面積灰度值為第二個(gè)特征向量,周長(zhǎng)灰度值為第三個(gè)特征向量,所設(shè)的灰度值是該矩形面積中少于122的像素點(diǎn)的總數(shù)等。簡(jiǎn)單來(lái)說(shuō),首先將出版社的正版圖書(shū)作為樣本,建立正版圖書(shū)圖像數(shù)據(jù)庫(kù);其次對(duì)待查圖書(shū)數(shù)字化,經(jīng)過(guò)一系列的識(shí)別過(guò)程,分析鑒別圖書(shū)的真?zhèn)?。系統(tǒng)操作流程設(shè)計(jì)如圖1。
其中,核心部分的操作分為幾個(gè)步驟:封面數(shù)字化圖像處理、版面分析、數(shù)字圖像識(shí)別、統(tǒng)計(jì)分析。封面數(shù)字化圖像處理是將紙質(zhì)文稿、圖像輸入計(jì)算機(jī)的過(guò)程。為了提高識(shí)別率,要對(duì)獲得的圖像信息進(jìn)行預(yù)處理,包括濾去干擾、噪聲等,這樣可提高信噪比。版面分析是把印刷品上同一版面中的圖像分割成一些圖像塊,每一圖像塊大小不等,但都含有相對(duì)獨(dú)立、完整的內(nèi)容。如標(biāo)題、圖、作者、其他文字內(nèi)容等等。這些內(nèi)容在版面上的安排有一定的、但不是固定不變的順序和規(guī)則。對(duì)于豐富多彩的印刷版面,人們?cè)陂喿x時(shí)大都能一目了然,理解其中的含義及相互連接的關(guān)系。然而,如果我們不賦予電腦必要的功能,它將無(wú)法處理這樣復(fù)雜的排列組合,這種特殊功能就是對(duì)版面的分析與理解。數(shù)字圖像的識(shí)別有四個(gè)步驟,包括圖像預(yù)處理(如二值化)、圖像分割、特征提取和圖像分類(lèi)。最后,統(tǒng)計(jì)分析是在版面標(biāo)識(shí)的錯(cuò)誤及差異經(jīng)過(guò)特征提取后,通過(guò)分類(lèi)器與特征庫(kù)進(jìn)行匹配,然后分別以不同的算法比較,找出與特征值最相似的結(jié)果,分析其情況并輸出報(bào)告。
總之,在圖像識(shí)別中,特征量的選擇及優(yōu)化組合是設(shè)計(jì)識(shí)別系統(tǒng)的關(guān)鍵,它強(qiáng)烈地影響到分類(lèi)器的設(shè)計(jì)及其性能。特征提取階段主要是對(duì)物體進(jìn)行度量從而通過(guò)度量值識(shí)別物體。計(jì)算特征是為了對(duì)物體的一些重要特征進(jìn)行定量估計(jì)。特征抽取過(guò)程產(chǎn)生了一組特征,把它們組合在一起,就形成了特征向量。常用于特征提取的方法有尺寸測(cè)量、形狀分析和紋理分析。其中紋理是一種反映一個(gè)區(qū)域中像素灰度級(jí)的空間分布的屬性,紋理特征是從物體的圖像中計(jì)算出來(lái)的一個(gè)值,它是對(duì)物體內(nèi)部灰度級(jí)變化的特征進(jìn)行量化。特征提取后要在這些特征中選出最適合分類(lèi)器設(shè)計(jì)的特征。本研究用的是基于最小距離的模板匹配法,首先確定圖像的具體特征,哪些特征可作為鑒別使用特征,哪些特征可以忽略。其次是以這些特征為參數(shù),在樣本與檢材間進(jìn)行距離的對(duì)應(yīng)計(jì)算,統(tǒng)計(jì)取樣后以某值為界,大于該值則可以確定為盜版。
該系統(tǒng)的設(shè)計(jì)思路主要基于圖像、文字等特征的相似度識(shí)別圖像處理,涉及圖像的二值化處理,圖像、文字特征的提取,模式匹配算法的實(shí)現(xiàn),OCR技術(shù)的應(yīng)用等,從而設(shè)計(jì)出最優(yōu)的圖書(shū)封面等數(shù)字圖像的特征及提取方法,并把這些功能模塊集成在系統(tǒng)中,最終實(shí)現(xiàn)基于圖像、文字特征的圖書(shū)盜版識(shí)別系統(tǒng)。
參考文獻(xiàn):
[1]王蘭萍,圖書(shū)盜版案件中鑒定結(jié)論的使用辨析[M].《中國(guó)版權(quán)》,2002年第2期.
[2]王秀珍,圖像識(shí)別技術(shù)淺論[M].內(nèi)蒙古電大學(xué)刊,2008年第8期.
[3]章毓晉,圖像處理和分析基礎(chǔ)[M].北京:高等教育出版社,2002.
[4]章毓晉,圖像分割[M].北京:科學(xué)出版社,2001.
[5]莊軍、李弼程,一種基于灰度共生矩陣的文本圖像識(shí)別方法[M].《計(jì)算機(jī)工程》,2006年2月第3期.