搭建版刻楷體字書計算機輔助版本??逼脚_的設(shè)想
朱翠萍,張憲榮
(北京師范大學(xué) 文學(xué)院,北京 100875)
摘要:隨著大數(shù)據(jù)時代的到來,古籍整理的手段不斷更新,計算機輔助版本??逼脚_的搭建也隨之成為社會發(fā)展的必然。從資源整理、圖像文本化、自動分割與屬性標(biāo)注等幾個方面來探討自動??毕到y(tǒng)搭建所必須解決的問題,為平臺搭建工作的全面開展奠定良好的基礎(chǔ)。
關(guān)鍵詞:版刻;楷體;字書;版本;自動???平臺
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/13.1415.C.20150410.1443.023.html
網(wǎng)絡(luò)出版時間:2015-04-10 14:43
古之學(xué)者往往“幼而時習(xí)之”,即使白發(fā)蒼蒼,也不敢說窮盡一經(jīng)。他們將大量寶貴的時間和智慧都用在了材料積累上,寫下的筆記、卡片成千上萬張,耗時又費力。今之學(xué)者趕上了大數(shù)據(jù)時代,大家有感于之前整理古籍的辛苦,想一改皓首窮經(jīng)的局面,搭上計算機技術(shù)這列“高鐵”,走高效整理的路子,將更多的時間與智慧投入到深入探索和理論提升中來。所以,使用數(shù)字化資源來進行學(xué)術(shù)研究成為當(dāng)今之必然趨勢。
隨著OCR光學(xué)識別技術(shù)的發(fā)展,已經(jīng)可以將古籍轉(zhuǎn)化為文本,結(jié)合人工校對,就可以實現(xiàn)古籍的全文本化,便于檢索和編輯。但就目前來看,古籍?dāng)?shù)字化的重點已由全文通索轉(zhuǎn)移到數(shù)據(jù)分析,“智能化”才是未來發(fā)展的方向和重點。通過人工智能技術(shù),可以從圖像文件中自動抽取所需信息并形成檢索點,為建立專題數(shù)據(jù)庫以及古籍整理的深加工奠定堅實的基礎(chǔ)。北京大學(xué)李國新教授曾就該問題專門做了論述,并提出了“研究支持功能”的觀點:“數(shù)字化后的古籍能夠提供科學(xué)、準(zhǔn)確的統(tǒng)計與計量信息,提供古籍內(nèi)容相關(guān)的參考數(shù)據(jù)、輔助工具,例如:對古籍字?jǐn)?shù)、字頻、詞頻的統(tǒng)計資料,異體字的匯聚顯示,讀音的自動標(biāo)注和朗讀,行文風(fēng)格特點的概率統(tǒng)計,必要的背景知識、參考數(shù)據(jù)的匯聚,在線標(biāo)點斷句工具的配備,不同版本??保值湓~典、歷史年表、歷史地圖等研究工具的載入等?!庇嬎銠C輔助版本??毕到y(tǒng)就是基于這一“智能化”目標(biāo)而搭建的,希望能成為現(xiàn)代新型字書研究者的工作平臺。
一、版本??备耪f
版本??笔侵咐貌煌陌姹竞推渌a充資料,來比較、核對、分析與推斷古籍流傳過程中所產(chǎn)生的文字差異或錯誤。這些差異或錯誤主要表現(xiàn)在誤、脫、衍和倒4個方面146-203。所謂“誤”,主要是指古籍在傳抄或刻寫過程中出現(xiàn)的錯字,亦稱“訛”;所謂“脫”是指古籍在傳抄或刻寫過程中出現(xiàn)的脫落與遺漏字句的現(xiàn)象,亦稱“奪文”;所謂“衍”是指古籍在傳抄或刻寫過程中無意混入或重復(fù)的文字;所謂“倒”是指古籍在傳抄或刻寫過程中出現(xiàn)的詞句顛倒的現(xiàn)象,亦稱“倒乙”。
版本??钡哪康氖菍⑦@些問題或差異找出來,然后進行分析研究,以求存真復(fù)原,為閱讀和研究提供一個最為接近原稿的善本。關(guān)于古籍??钡姆椒?,諸家所論不一,如葉德輝于《藏書十約》中提出了死校與活校兩法,程千帆先生則在《校讎廣義(??本?》中分對校與理校兩類,而最為學(xué)界推崇的還是陳垣先生在《??睂W(xué)釋例》卷6中所歸納的4種校勘方法,即“對校法”、“本校法”、“他校法”和“理校法”,簡稱“四校法”?,F(xiàn)據(jù)陳先生所說分別申述如下144-149:1.對校法。指選定一個版本為底本,然后用其他不同的版本與之進行比對;2.本校法。指在沒有其他版本和有關(guān)資料對比的情況下,依據(jù)該書自身體例,結(jié)合文字、音韻及訓(xùn)詁等相關(guān)領(lǐng)域的專業(yè)常識進行???;3.他校法。指利用其他書,例如書中的引證部分,來驗證本書中的文字是否正確;4.理校法。指在沒有版本或其他材料可以依據(jù)的情況下,利用所具備的理論知識和邏輯推理的方法,來分析驗證所校書中的文字是否正確。
從整體來說,??本褪抢帽容^和分析的方法對某一個文本進行校異和勘誤的工作。校異工作的內(nèi)容相對客觀,只是對比異同,可以借助計算機輔助完成。勘誤則是相對主觀性的工作,需要人們借助一定的理論知識來進行判斷推理。如果借助計算機,就屬于人工智能的范疇,難度比較大。所以,就目前而言,自動??边€主要體現(xiàn)在校異工作方面。
字書,古人稱為“小學(xué)書”,是專門收集和研究漢字形音義的工具型書籍。其范圍包括:主形的“文字”系列、主音的“音韻”系列、主義的“訓(xùn)詁”系列及其他相關(guān)的音義類著作。“版刻楷體字書”是指通過雕版印刷方式制作的字體風(fēng)格為楷體的輯錄漢字形音義信息的工具書。因其具有工具性,所以使用面廣,流傳年代久遠,這樣勢必造成字書的版本豐富多樣。筆者對幾部重要字書的版本做了一個簡單的統(tǒng)計,并通過字頭數(shù)量,對校勘字符量做了一個預(yù)估,見表1:
表1 部分字書版本及字頭數(shù)目
通過上述統(tǒng)計可以看出,僅僅字書??钡幕A(chǔ)字符量就少則幾十萬,多則上百萬。如果再加上釋文,可能就涉及上億字符,再加上對各種問題的歸類和分析,可以想見,校勘的工作量何等繁重。所以,利用計算機輔助??背蔀槠惹行枰タ说碾y題。
二、搭建版刻楷體字書版本??逼脚_的主要工作內(nèi)容
版本??笔且粋€系統(tǒng)工程,需要經(jīng)歷“校”、“按”和“斷”3個步驟。在這個過程中,有幾個主要問題需要注意。第一,通過梳理版本源流,確定善本,然后以善本為底本,其他的為校本,展開???。這一工作開展的前提就是盡可能多、全地收集不同版本,以便選到最優(yōu)質(zhì)的資源。第二,自動??彼芴幚淼氖俏谋疚募?,而獲取到的第一手資源是紙本或圖像,這就需要經(jīng)歷一個文本轉(zhuǎn)化的過程。在轉(zhuǎn)化過程中,對版式和字符自動識別的精確度會直接影響到??钡男Ч?。所以,提前分析版式信息,建立盡可能大的字符識別字典,會大大提高自動校勘的效率。第三,在自動校勘過程中,實現(xiàn)精確對應(yīng)的前提是自動分割的準(zhǔn)確。所以,研究適合古籍字書的自動分段、自動分詞和自動匹配技術(shù),是搭建自動??逼脚_過程中的核心問題。
(一)搭建版刻楷體字書版本校勘平臺的基礎(chǔ)——資源整理
目前,散藏于日本、美國、英國、越南、中國香港、中國臺灣以及中國大陸的各大圖書館中的字書資源已被陸續(xù)收集到一起。在此基礎(chǔ)上,可以對這些字書的版本信息進行分解,提取版本信息“因子”,然后將這些“因子”進行歸類與去重,形成字書版本知識專庫。據(jù)《古籍著錄規(guī)則》(GB 3792.7-2008)規(guī)定,古籍版本項包括版本類型和出版發(fā)行兩個部分,其中,前者可分為稿本、抄本和刻本等13種類型,后者則依次包括以下幾個方面:
1.國別:就目前所見到的漢字字書的版本,涉及的國別主要有中國、日本、韓國、朝鮮和越南。
2.出版年(修版年或印刷年):關(guān)于版本的年代,有幾種不同的記錄方式:
(1)朝代:楷體字書涉及的中國朝代主要有漢、南北朝、隋、唐、宋、元、明、清和中華民國等。
(2)帝王紀(jì)年:帝王紀(jì)年的基本格式是:年號+年份。中國的年號:例如,延祐3年、弘治14年、萬歷26年及康熙43年等。日本的年號:例如,昭和5年、享保12年、弘化3年、寬政2年、慶安2年、明治16年、大正15年、天保15年、文化7年、寬永4年與安永9年等。
(3)干支紀(jì)年:干支紀(jì)年具有循環(huán)性。所以,出現(xiàn)同樣的干支字眼,還需要進一步界定,否則,在計算機對版本時代進行自動排序的時候,會出現(xiàn)錯誤。
(4)公元紀(jì)年:公元紀(jì)年是以耶穌誕生年為元年,之前的年份稱為“公元前某年”,之后的年份稱為“公元后某年”。
3.制、藏地:即出版地,包括修版地或印刷地,例如,汲古閣、經(jīng)綸堂、芳梫堂、種善堂和世裕堂等。
4.刻工:即出版者,包括修版者或印刷者,例如,李顯、李書云、陳昌治、鄭世豪、毛謨和陸顥等。
根據(jù)上述版本知識信息,先進行歸類、排序和統(tǒng)計,再結(jié)合正文各方面的信息進行版本順序的梳理。同時,還可以根據(jù)這些版本信息,觀察字書發(fā)展演變的歷史,繪制字書歷史演變圖。這些為版本??逼脚_的搭建提供了豐富的資源基礎(chǔ)和序列模型。
(二)搭建版刻楷體字書??逼脚_的前提——文本化
版本校勘的核心是對正文文字的勘校。要實現(xiàn)校勘自動化,需要將紙本字書掃描為圖像,然后再將圖像的內(nèi)容進行OCR識別,最終轉(zhuǎn)化為可編輯的文本格式,這就是所謂的“文本化”過程。一般來說,在文本化過程中需要注意以下環(huán)節(jié):
1.版式分析:在古籍?dāng)?shù)字化過程中,版式分析的結(jié)果直接影響著文字采集的效果,以至影響到文字識別的效果。常見的版式信息主要由以下幾個方面組成:
(1)版面類型:橫排、豎排、左右兩欄橫排——有分割線、左右兩欄橫排——無分割線、上下兩欄豎排——有分割線和上下兩欄豎排——無分割線;
(2)制作類型:版刻、手寫體和印刷體;
(3)字符排列類型:只有大字、只有小字和大小字混合;
(4)修飾信息:無框線和列線、只有單框線、有單框線和列線、有單框線和中縫線、只有雙框線、有雙框線和列線以及有雙框線和中縫線;
(5)符號信息:符號是版式信息的重要組成部分,可以分為幾類:標(biāo)點符號,例如,句讀、專名號、分隔號和替代符等;版式符號,例如,魚尾、墨等、墨圍、空圍和墨蓋子等;專類符號,例如,工尺譜和樂譜符號等。
上述這些信息看似是外部特征,但都是古籍字書的重要組成部分,一旦遺漏,將會丟失很重要的知識信息。而版式分析是否符合圖像實際,也將直接影響字符采集的準(zhǔn)確性和效率。所以,版式分析是搭建版本??毕到y(tǒng)過程中不可忽略的一項重要內(nèi)容。
2.文字識別
文字識別是文本化的核心目標(biāo),識別效果直接影響著文本化的效率和保真的程度。文字識別效果主要受以下幾個因素影響:
(1)文字識別技術(shù)。文字識別技術(shù)主要指OCR,就是利用電子設(shè)備,對圖像文件進行分析處理,獲取文字及版面信息的過程。衡量OCR系統(tǒng)性能好壞的主要指標(biāo)包括拒識率、誤識率與識別速度等。字書掃描后的字圖清晰、完整,識別率就高;字圖不清楚,或者粘連許多框線、點讀等雜質(zhì),識別率就會比較低。當(dāng)然,不排除一些字圖清晰卻識別不正確的情況。例如《集韻》中的“從”字,在北京創(chuàng)新力博數(shù)碼科技有限公司開發(fā)的采集平臺系統(tǒng)中會認(rèn)同為“久”字,見圖1:
圖1 字符識別錯誤示例
從圖像效果來看,“從”字字圖很清楚,字形結(jié)構(gòu)也很簡單,但卻被錯誤識別為“久”字,其原因就是該系統(tǒng)對字形的結(jié)構(gòu)分析有誤。字圖中的“從”字左邊的部件“人”小于右邊的部件“人”,被電腦自動分析為左上包圍結(jié)構(gòu),在字形上與之最接近的就是“久”字。所以,識別出現(xiàn)錯誤。這說明該識別系統(tǒng)在字形訓(xùn)練方面還不夠全面,面對變化了結(jié)構(gòu)和筆形的情況,就會出現(xiàn)類似錯誤。
(2)字符集大小。字符集是描述多個文字和符號的集合,不同的字符集所含的字符數(shù)量有一定差異,其中比較常見的字符集有26-27:
1)中國大陸:最早的是GB2312-80,收字6 763個,比較??;最大的是GB18030-2005,收字70 244個。
2)中國臺灣:常見的是Big5碼,收字13 053個。
3)中國香港:在Big5碼的基礎(chǔ)上擴展的字符集是HKSCS-2004,收4 500個字,441個符號。
4)日本:在JISXO208的基礎(chǔ)上擴展的字符集是JISXO213-2004,收11 233個字。
5)韓國:在KSC5657-1991基礎(chǔ)上擴展的字符集KSC5657-1991,收2 856個韓國漢字。
字符集大且系統(tǒng)兼容性好,就會支持顯示更多的字碼,反之,則會出現(xiàn)空碼與亂碼現(xiàn)象。在上述字符集中,GB18030-2005所含的漢字字符最全,但也還有一定的區(qū)域局限,一旦換到?jīng)]有安裝該字符集或者與該字符集不兼容的系統(tǒng)中就無法使用。就目前來講,Unicode碼是唯一的國際性編碼,它是經(jīng)過字符寬度整合的編碼方式,為全世界上百萬個字符定義了唯一的編碼值,并提供了一個標(biāo)準(zhǔn)化的方法,能夠滿足在同一系統(tǒng)平臺上使用多種語言的編碼。同時,它還專門定義了中日韓統(tǒng)一表意文字集,簡稱CJK。該字符集中的字符主要來源于中國、日本、韓國、朝鮮、越南、新加坡以及中國的臺灣、香港和澳門,包括了簡體漢字、繁體漢字、方塊十字、日本國字、韓國獨有漢字、越南喃字和香港方言字,共計74 616個字符,它是漢語古籍文本化過程中首選的字符集。
(3)字形認(rèn)同規(guī)則。字形認(rèn)同規(guī)則是指在文字識別之后,尤其是對于一些相近字形進行判別,是應(yīng)該看作一個字,還是應(yīng)該看作不同的字的判別規(guī)則。該規(guī)則主要由筆畫規(guī)則和字形規(guī)則共同組成,可以視研究目的來決定寬嚴(yán)標(biāo)準(zhǔn)。如果專門進行字形研究,則采取嚴(yán)式標(biāo)準(zhǔn);如果字形不是研究的主要目標(biāo),則可以采用較寬的標(biāo)準(zhǔn),盡量認(rèn)同。例如,“刻”字,見圖2:
圖2 新舊字形差異圖
從字圖來看,這兩個字形只有“點”的差異,但從字形上講,這屬于新舊字形的差異,應(yīng)該按照兩個字符來處理;但是,如果不研究字形,只研究其讀音、釋義或其他方面的內(nèi)容,則沒必要看作兩個字符,完全可以認(rèn)同為一個“刻”字。但需要注意的是文本化階段的“判同”還是“別異”,其結(jié)論將直接影響將來下一步校勘的結(jié)果。
(三)自動分割與屬性標(biāo)注
在自動??边^程中,計算機可以借助特定的程序指令對字符之間的差異進行機械的比較。比較的基本過程是:計算機會將一個版本中的所有字符看成一個字符串,與另一個版本的字符串進行比對,如果相等,則跳過;如果不等,則切分成諸多子串,再進行比對,并把比對的結(jié)果分別反饋為異、脫、衍及倒等幾種情況。該類動作循環(huán)進行,直至對整個文本對比結(jié)束。在這個過程中,至為關(guān)鍵的是如何切分篇章問題,即:自動切割技術(shù)。一般來說,字書作為一種工具書,有著明顯的體例和結(jié)構(gòu)分布,在段落分割方面相對清晰。但是,段落內(nèi)部還有著豐富的知識信息,需要進一步詳細標(biāo)注。所以,尋找形式標(biāo)記、歸納屬性模板和實現(xiàn)自動標(biāo)注應(yīng)該是自動分割的前提。就目前來講,從字書中提取到的主要屬性要點有字頭、釋音、釋義、釋形和注釋等,這些屬性有的有形式標(biāo)記,例如:字頭一般為大字;釋音一般用某某切、某某某某二切、某某某某某某三切、某某反、音某、某聲、某韻、葉音某和諧某等來提示;釋形主要指“六書”解釋法,具體描述主要有“象某某之形”、“從某某聲”及“從某從某”等;注釋所含的內(nèi)容相對復(fù)雜一些,無法歸入前述屬性類別的都暫時處理為注釋部分,例如:案語、書證、人證、上同、同上、文幾和重音幾等內(nèi)容都標(biāo)記為注釋。
關(guān)鍵詞除了標(biāo)注上述屬性要點,還需要建立一定的專類知識庫加以輔助,形成索引。與版本??毕嚓P(guān)的專類知識庫主要有:中國字書專名庫,主要用來幫助自動提取字書類專有名稱,例如,《說文解字》《玉篇》《龍龕手鑒》《五音集韻》《方言》和《廣雅》等;字書引文知識庫,主要是用來幫助自動提取作為例證的各類引文的書籍名稱,例如,《周禮》《莊子》和《漢書》;“小學(xué)”專家名稱庫,主要用來幫助自動提取“小學(xué)”專家名稱,例如,許慎、段玉裁、顧野王、揚雄、陳彭年和宋祁;異體字字表,主要用來幫助對比不同版本中的字形差異,溝通字際關(guān)系。
收稿日期:20141208
基金項目:“中國博士后科學(xué)基金”第七批特別資助,第五十六批面上資助項目(224241)
作者簡介:朱翠萍(1980-)女,山東德州人,北京師范大學(xué)文學(xué)院文字學(xué)專業(yè)在站博士后,主要研究方向為漢語言文字學(xué)。
中圖分類號:TP 311.52文獻標(biāo)識碼:A
總之,自動??笔窃谇笆霭媸椒治觥⒆址R別和屬性標(biāo)注等工作的基礎(chǔ)上進行的,其整個系統(tǒng)工作的流程可以通過圖3示來展現(xiàn)。
三、搭建版刻楷體字書校勘平臺的意義和應(yīng)用前景
版刻楷體字書計算機輔助版本??毕到y(tǒng)將是一個非常有價值的系統(tǒng)平臺,一旦搭建成功,將有利于提高??钡男屎蜏?zhǔn)確性,減少單純?nèi)斯ば?迸c箋注過程中不必要的時間浪費和失誤。另外,這一系統(tǒng)平臺的建立將有利于改變新時代字書研究者的工作方法,原因在于目前計算機雖然很普遍,但對多數(shù)字書研究者來說,還僅僅局限于代替手寫這一最基礎(chǔ)的工作,其它大量重要的工作內(nèi)容還都處于手工勞動階段。如果該系統(tǒng)能順利運行,新型字書研究者將會把目光轉(zhuǎn)向自動化方面,全方位利用計算機技術(shù)來進行文字整理與研究工作。
圖3 版本??逼脚_流程圖
該系統(tǒng)將是字書整理甚至是古籍整理界的一個很好的工作平臺。古籍研究者可以借助此平臺進行文字切分,達到采集的目的。也可以對所采集到的數(shù)據(jù)進行屬性標(biāo)注,以便根據(jù)研究需要進行統(tǒng)計分析,得出較為全面、切實的結(jié)論,從而提高文字研究的水平。古籍出版者可以利用該平臺所提供的影像數(shù)據(jù)制作影印善本,或者等不同版本的??惫ぷ魍瓿芍螅Y選出較為理想的版本,制作高質(zhì)量的校點本。漢字教學(xué)者可以利用從該平臺中獲得的豐富的數(shù)據(jù)資源和漢字理據(jù),突破單純的繼承前人結(jié)論和人云亦云的局限,從源頭上審視所授內(nèi)容,并形成自己獨特的見解,從而增添漢字教學(xué)的特色性。
綜上所述,隨著大數(shù)據(jù)時代的到來,在古籍資源獲取及目錄檢索等方面的效率都將大大提高,這為自動校勘奠定了技術(shù)基礎(chǔ),重拾人們對于古籍版本??钡男判?。但是,技術(shù)和理論是矛盾的兩個方面,技術(shù)的發(fā)展推動著新的理論和視角的誕生,新的理論和視角反過來又影響和指導(dǎo)著新技術(shù)的實現(xiàn)空間。只有兩者相適應(yīng),才會最大限度地發(fā)揮效能。
參考文獻:
[1]李國新.中國古籍資源數(shù)字化的進展與任務(wù).大學(xué)圖書館學(xué)報,2002,(1):21-26.
[2]倪其心.??睂W(xué)大綱.北京:北京大學(xué)出版社,1987.
[3]陳垣.??睂W(xué)釋例.北京:中華書局,1959.
[4]陳力.中文古籍?dāng)?shù)字化的再思考.國家圖書館學(xué)刊,2006,(2):42-48.
[5]王蕓,肖禹.漢語古籍全文文本化研究.上海:中西書局,2012.
[6]李先耕.古籍用漢字庫的要求.第一屆中國古籍?dāng)?shù)字化國際學(xué)術(shù)研討會論文集.北京:五洲傳播出版社,2009.
[7]劉志基.建設(shè)通用數(shù)字化平臺推動古文字研究現(xiàn)代化.東方學(xué)術(shù)文庫(第二卷).上海:上海人民出版社,2004.
Assumption on Building a Computer-aided Platform for
Collating Relief Printing Dictionaries
ZHU Cui-ping,ZHANG Xian-rong
(School of Chinese Language and Literature,Beijing Normal University,Beijing 100875,China)
Abstract:With the arrival of the era of big data,methods of collatiing ancient books are constantly updated,and it is inevitable to build a computer-aided platform for collating relief printing dictionaries.From the perspectives of resource organization,image textulization,automatic segmentation and marking property,the article discusses some necessary problems in this field,which will lay a good foundation for the platform building.
Key words:relief printing;regular script;dictionaries;version;automatic collation;platform
(責(zé)任編輯喬志杰)