搭建版刻楷體字書計算機輔助版本?？逼脚_的設(shè)想

2016-01-09 07:52:04朱翠萍,張憲榮

河北北方學(xué)院學(xué)報(社會科學(xué)版) 2015年3期

朱翠萍,張憲榮

(北京師范大學(xué) 文學(xué)院,北京 100875)

摘要：隨著大數(shù)據(jù)時代的到來，古籍整理的手段不斷更新，計算機輔助版本?？逼脚_的搭建也隨之成為社會發(fā)展的必然。從資源整理、圖像文本化、自動分割與屬性標(biāo)注等幾個方面來探討自動?？毕到y(tǒng)搭建所必須解決的問題，為平臺搭建工作的全面開展奠定良好的基礎(chǔ)。

關(guān)鍵詞：版刻；楷體；字書；版本;自動?？?平臺

網(wǎng)絡(luò)出版地址：http://www.cnki.net/kcms/detail/13.1415.C.20150410.1443.023.html

網(wǎng)絡(luò)出版時間：2015-04-10 14:43

古之學(xué)者往往“幼而時習(xí)之”，即使白發(fā)蒼蒼，也不敢說窮盡一經(jīng)。他們將大量寶貴的時間和智慧都用在了材料積累上，寫下的筆記、卡片成千上萬張，耗時又費力。今之學(xué)者趕上了大數(shù)據(jù)時代，大家有感于之前整理古籍的辛苦，想一改皓首窮經(jīng)的局面，搭上計算機技術(shù)這列“高鐵”，走高效整理的路子，將更多的時間與智慧投入到深入探索和理論提升中來。所以，使用數(shù)字化資源來進行學(xué)術(shù)研究成為當(dāng)今之必然趨勢。

隨著OCR光學(xué)識別技術(shù)的發(fā)展，已經(jīng)可以將古籍轉(zhuǎn)化為文本，結(jié)合人工校對，就可以實現(xiàn)古籍的全文本化，便于檢索和編輯。但就目前來看，古籍?dāng)?shù)字化的重點已由全文通索轉(zhuǎn)移到數(shù)據(jù)分析，“智能化”才是未來發(fā)展的方向和重點。通過人工智能技術(shù)，可以從圖像文件中自動抽取所需信息并形成檢索點，為建立專題數(shù)據(jù)庫以及古籍整理的深加工奠定堅實的基礎(chǔ)。北京大學(xué)李國新教授曾就該問題專門做了論述，并提出了“研究支持功能”的觀點：“數(shù)字化后的古籍能夠提供科學(xué)、準(zhǔn)確的統(tǒng)計與計量信息，提供古籍內(nèi)容相關(guān)的參考數(shù)據(jù)、輔助工具，例如：對古籍字?jǐn)?shù)、字頻、詞頻的統(tǒng)計資料，異體字的匯聚顯示，讀音的自動標(biāo)注和朗讀，行文風(fēng)格特點的概率統(tǒng)計，必要的背景知識、參考數(shù)據(jù)的匯聚，在線標(biāo)點斷句工具的配備，不同版本?？保值湓~典、歷史年表、歷史地圖等研究工具的載入等?！庇嬎銠C輔助版本?？毕到y(tǒng)就是基于這一“智能化”目標(biāo)而搭建的，希望能成為現(xiàn)代新型字書研究者的工作平臺。

一、版本?？备耪f

版本?？笔侵咐貌煌陌姹竞推渌a充資料，來比較、核對、分析與推斷古籍流傳過程中所產(chǎn)生的文字差異或錯誤。這些差異或錯誤主要表現(xiàn)在誤、脫、衍和倒4個方面146-203。所謂“誤”，主要是指古籍在傳抄或刻寫過程中出現(xiàn)的錯字，亦稱“訛”；所謂“脫”是指古籍在傳抄或刻寫過程中出現(xiàn)的脫落與遺漏字句的現(xiàn)象，亦稱“奪文”；所謂“衍”是指古籍在傳抄或刻寫過程中無意混入或重復(fù)的文字；所謂“倒”是指古籍在傳抄或刻寫過程中出現(xiàn)的詞句顛倒的現(xiàn)象，亦稱“倒乙”。

版本?？钡哪康氖菍⑦@些問題或差異找出來，然后進行分析研究，以求存真復(fù)原，為閱讀和研究提供一個最為接近原稿的善本。關(guān)于古籍?？钡姆椒?，諸家所論不一，如葉德輝于《藏書十約》中提出了死校與活校兩法，程千帆先生則在《校讎廣義(?？本?》中分對校與理校兩類，而最為學(xué)界推崇的還是陳垣先生在《?？睂W(xué)釋例》卷6中所歸納的4種校勘方法，即“對校法”、“本校法”、“他校法”和“理校法”，簡稱“四校法”?，F(xiàn)據(jù)陳先生所說分別申述如下144-149：1.對校法。指選定一個版本為底本，然后用其他不同的版本與之進行比對；2.本校法。指在沒有其他版本和有關(guān)資料對比的情況下，依據(jù)該書自身體例，結(jié)合文字、音韻及訓(xùn)詁等相關(guān)領(lǐng)域的專業(yè)常識進行?？?；3.他校法。指利用其他書，例如書中的引證部分，來驗證本書中的文字是否正確；4.理校法。指在沒有版本或其他材料可以依據(jù)的情況下，利用所具備的理論知識和邏輯推理的方法，來分析驗證所校書中的文字是否正確。

從整體來說，?？本褪抢帽容^和分析的方法對某一個文本進行校異和勘誤的工作。校異工作的內(nèi)容相對客觀，只是對比異同，可以借助計算機輔助完成。勘誤則是相對主觀性的工作，需要人們借助一定的理論知識來進行判斷推理。如果借助計算機，就屬于人工智能的范疇，難度比較大。所以，就目前而言，自動?？边€主要體現(xiàn)在校異工作方面。

字書，古人稱為“小學(xué)書”，是專門收集和研究漢字形音義的工具型書籍。其范圍包括：主形的“文字”系列、主音的“音韻”系列、主義的“訓(xùn)詁”系列及其他相關(guān)的音義類著作。“版刻楷體字書”是指通過雕版印刷方式制作的字體風(fēng)格為楷體的輯錄漢字形音義信息的工具書。因其具有工具性，所以使用面廣，流傳年代久遠，這樣勢必造成字書的版本豐富多樣。筆者對幾部重要字書的版本做了一個簡單的統(tǒng)計，并通過字頭數(shù)量，對校勘字符量做了一個預(yù)估，見表1：

表1　部分字書版本及字頭數(shù)目

通過上述統(tǒng)計可以看出，僅僅字書?？钡幕A(chǔ)字符量就少則幾十萬，多則上百萬。如果再加上釋文，可能就涉及上億字符，再加上對各種問題的歸類和分析，可以想見，校勘的工作量何等繁重。所以，利用計算機輔助?？背蔀槠惹行枰タ说碾y題。

二、搭建版刻楷體字書版本?？逼脚_的主要工作內(nèi)容

版本?？笔且粋€系統(tǒng)工程，需要經(jīng)歷“校”、“按”和“斷”3個步驟。在這個過程中，有幾個主要問題需要注意。第一，通過梳理版本源流，確定善本，然后以善本為底本，其他的為校本，展開?？?。這一工作開展的前提就是盡可能多、全地收集不同版本，以便選到最優(yōu)質(zhì)的資源。第二，自動?？彼芴幚淼氖俏谋疚募?，而獲取到的第一手資源是紙本或圖像，這就需要經(jīng)歷一個文本轉(zhuǎn)化的過程。在轉(zhuǎn)化過程中，對版式和字符自動識別的精確度會直接影響到?？钡男Ч?。所以，提前分析版式信息，建立盡可能大的字符識別字典，會大大提高自動校勘的效率。第三，在自動校勘過程中，實現(xiàn)精確對應(yīng)的前提是自動分割的準(zhǔn)確。所以，研究適合古籍字書的自動分段、自動分詞和自動匹配技術(shù)，是搭建自動?？逼脚_過程中的核心問題。

(一)搭建版刻楷體字書版本校勘平臺的基礎(chǔ)——資源整理

目前，散藏于日本、美國、英國、越南、中國香港、中國臺灣以及中國大陸的各大圖書館中的字書資源已被陸續(xù)收集到一起。在此基礎(chǔ)上，可以對這些字書的版本信息進行分解，提取版本信息“因子”，然后將這些“因子”進行歸類與去重，形成字書版本知識專庫。據(jù)《古籍著錄規(guī)則》(GB 3792.7-2008)規(guī)定，古籍版本項包括版本類型和出版發(fā)行兩個部分，其中，前者可分為稿本、抄本和刻本等13種類型，后者則依次包括以下幾個方面：

1.國別：就目前所見到的漢字字書的版本，涉及的國別主要有中國、日本、韓國、朝鮮和越南。

2.出版年(修版年或印刷年)：關(guān)于版本的年代，有幾種不同的記錄方式：

(1)朝代：楷體字書涉及的中國朝代主要有漢、南北朝、隋、唐、宋、元、明、清和中華民國等。

(2)帝王紀(jì)年：帝王紀(jì)年的基本格式是：年號+年份。中國的年號：例如，延祐3年、弘治14年、萬歷26年及康熙43年等。日本的年號：例如，昭和5年、享保12年、弘化3年、寬政2年、慶安2年、明治16年、大正15年、天保15年、文化7年、寬永4年與安永9年等。

(3)干支紀(jì)年：干支紀(jì)年具有循環(huán)性。所以，出現(xiàn)同樣的干支字眼，還需要進一步界定，否則，在計算機對版本時代進行自動排序的時候，會出現(xiàn)錯誤。

(4)公元紀(jì)年：公元紀(jì)年是以耶穌誕生年為元年，之前的年份稱為“公元前某年”，之后的年份稱為“公元后某年”。

3.制、藏地：即出版地，包括修版地或印刷地，例如，汲古閣、經(jīng)綸堂、芳梫堂、種善堂和世裕堂等。

4.刻工：即出版者，包括修版者或印刷者，例如，李顯、李書云、陳昌治、鄭世豪、毛謨和陸顥等。

根據(jù)上述版本知識信息，先進行歸類、排序和統(tǒng)計，再結(jié)合正文各方面的信息進行版本順序的梳理。同時，還可以根據(jù)這些版本信息，觀察字書發(fā)展演變的歷史，繪制字書歷史演變圖。這些為版本?？逼脚_的搭建提供了豐富的資源基礎(chǔ)和序列模型。

(二)搭建版刻楷體字書?？逼脚_的前提——文本化

版本校勘的核心是對正文文字的勘校。要實現(xiàn)校勘自動化，需要將紙本字書掃描為圖像，然后再將圖像的內(nèi)容進行OCR識別，最終轉(zhuǎn)化為可編輯的文本格式，這就是所謂的“文本化”過程。一般來說，在文本化過程中需要注意以下環(huán)節(jié)：

1.版式分析：在古籍?dāng)?shù)字化過程中，版式分析的結(jié)果直接影響著文字采集的效果，以至影響到文字識別的效果。常見的版式信息主要由以下幾個方面組成：

(1)版面類型：橫排、豎排、左右兩欄橫排——有分割線、左右兩欄橫排——無分割線、上下兩欄豎排——有分割線和上下兩欄豎排——無分割線；

(2)制作類型：版刻、手寫體和印刷體；

(3)字符排列類型：只有大字、只有小字和大小字混合；

(4)修飾信息：無框線和列線、只有單框線、有單框線和列線、有單框線和中縫線、只有雙框線、有雙框線和列線以及有雙框線和中縫線；

(5)符號信息：符號是版式信息的重要組成部分，可以分為幾類：標(biāo)點符號，例如，句讀、專名號、分隔號和替代符等；版式符號，例如，魚尾、墨等、墨圍、空圍和墨蓋子等；專類符號，例如，工尺譜和樂譜符號等。

上述這些信息看似是外部特征，但都是古籍字書的重要組成部分，一旦遺漏，將會丟失很重要的知識信息。而版式分析是否符合圖像實際，也將直接影響字符采集的準(zhǔn)確性和效率。所以，版式分析是搭建版本?？毕到y(tǒng)過程中不可忽略的一項重要內(nèi)容。

2.文字識別

文字識別是文本化的核心目標(biāo)，識別效果直接影響著文本化的效率和保真的程度。文字識別效果主要受以下幾個因素影響：

(1)文字識別技術(shù)。文字識別技術(shù)主要指OCR，就是利用電子設(shè)備，對圖像文件進行分析處理，獲取文字及版面信息的過程。衡量OCR系統(tǒng)性能好壞的主要指標(biāo)包括拒識率、誤識率與識別速度等。字書掃描后的字圖清晰、完整，識別率就高；字圖不清楚，或者粘連許多框線、點讀等雜質(zhì)，識別率就會比較低。當(dāng)然，不排除一些字圖清晰卻識別不正確的情況。例如《集韻》中的“從”字，在北京創(chuàng)新力博數(shù)碼科技有限公司開發(fā)的采集平臺系統(tǒng)中會認(rèn)同為“久”字，見圖1：

圖1　字符識別錯誤示例

從圖像效果來看，“從”字字圖很清楚，字形結(jié)構(gòu)也很簡單，但卻被錯誤識別為“久”字，其原因就是該系統(tǒng)對字形的結(jié)構(gòu)分析有誤。字圖中的“從”字左邊的部件“人”小于右邊的部件“人”，被電腦自動分析為左上包圍結(jié)構(gòu)，在字形上與之最接近的就是“久”字。所以，識別出現(xiàn)錯誤。這說明該識別系統(tǒng)在字形訓(xùn)練方面還不夠全面，面對變化了結(jié)構(gòu)和筆形的情況，就會出現(xiàn)類似錯誤。

(2)字符集大小。字符集是描述多個文字和符號的集合,不同的字符集所含的字符數(shù)量有一定差異，其中比較常見的字符集有26-27：

1)中國大陸：最早的是GB2312-80，收字6 763個，比較??；最大的是GB18030-2005，收字70 244個。

2)中國臺灣：常見的是Big5碼，收字13 053個。

3)中國香港：在Big5碼的基礎(chǔ)上擴展的字符集是HKSCS-2004，收4 500個字，441個符號。

4)日本：在JISXO208的基礎(chǔ)上擴展的字符集是JISXO213-2004，收11 233個字。

5)韓國：在KSC5657-1991基礎(chǔ)上擴展的字符集KSC5657-1991，收2 856個韓國漢字。

字符集大且系統(tǒng)兼容性好，就會支持顯示更多的字碼，反之，則會出現(xiàn)空碼與亂碼現(xiàn)象。在上述字符集中，GB18030-2005所含的漢字字符最全，但也還有一定的區(qū)域局限，一旦換到?jīng)]有安裝該字符集或者與該字符集不兼容的系統(tǒng)中就無法使用。就目前來講，Unicode碼是唯一的國際性編碼，它是經(jīng)過字符寬度整合的編碼方式，為全世界上百萬個字符定義了唯一的編碼值，并提供了一個標(biāo)準(zhǔn)化的方法，能夠滿足在同一系統(tǒng)平臺上使用多種語言的編碼。同時，它還專門定義了中日韓統(tǒng)一表意文字集，簡稱CJK。該字符集中的字符主要來源于中國、日本、韓國、朝鮮、越南、新加坡以及中國的臺灣、香港和澳門，包括了簡體漢字、繁體漢字、方塊十字、日本國字、韓國獨有漢字、越南喃字和香港方言字，共計74 616個字符，它是漢語古籍文本化過程中首選的字符集。

(3)字形認(rèn)同規(guī)則。字形認(rèn)同規(guī)則是指在文字識別之后，尤其是對于一些相近字形進行判別，是應(yīng)該看作一個字，還是應(yīng)該看作不同的字的判別規(guī)則。該規(guī)則主要由筆畫規(guī)則和字形規(guī)則共同組成，可以視研究目的來決定寬嚴(yán)標(biāo)準(zhǔn)。如果專門進行字形研究，則采取嚴(yán)式標(biāo)準(zhǔn)；如果字形不是研究的主要目標(biāo)，則可以采用較寬的標(biāo)準(zhǔn)，盡量認(rèn)同。例如，“刻”字，見圖2：

圖2　新舊字形差異圖

從字圖來看，這兩個字形只有“點”的差異，但從字形上講，這屬于新舊字形的差異，應(yīng)該按照兩個字符來處理；但是，如果不研究字形，只研究其讀音、釋義或其他方面的內(nèi)容，則沒必要看作兩個字符，完全可以認(rèn)同為一個“刻”字。但需要注意的是文本化階段的“判同”還是“別異”，其結(jié)論將直接影響將來下一步校勘的結(jié)果。

(三)自動分割與屬性標(biāo)注

在自動?？边^程中，計算機可以借助特定的程序指令對字符之間的差異進行機械的比較。比較的基本過程是：計算機會將一個版本中的所有字符看成一個字符串，與另一個版本的字符串進行比對，如果相等，則跳過；如果不等，則切分成諸多子串，再進行比對，并把比對的結(jié)果分別反饋為異、脫、衍及倒等幾種情況。該類動作循環(huán)進行，直至對整個文本對比結(jié)束。在這個過程中，至為關(guān)鍵的是如何切分篇章問題，即：自動切割技術(shù)。一般來說，字書作為一種工具書，有著明顯的體例和結(jié)構(gòu)分布，在段落分割方面相對清晰。但是，段落內(nèi)部還有著豐富的知識信息，需要進一步詳細標(biāo)注。所以，尋找形式標(biāo)記、歸納屬性模板和實現(xiàn)自動標(biāo)注應(yīng)該是自動分割的前提。就目前來講，從字書中提取到的主要屬性要點有字頭、釋音、釋義、釋形和注釋等，這些屬性有的有形式標(biāo)記，例如：字頭一般為大字；釋音一般用某某切、某某某某二切、某某某某某某三切、某某反、音某、某聲、某韻、葉音某和諧某等來提示；釋形主要指“六書”解釋法，具體描述主要有“象某某之形”、“從某某聲”及“從某從某”等；注釋所含的內(nèi)容相對復(fù)雜一些，無法歸入前述屬性類別的都暫時處理為注釋部分，例如：案語、書證、人證、上同、同上、文幾和重音幾等內(nèi)容都標(biāo)記為注釋。

關(guān)鍵詞除了標(biāo)注上述屬性要點，還需要建立一定的專類知識庫加以輔助，形成索引。與版本?？毕嚓P(guān)的專類知識庫主要有：中國字書專名庫，主要用來幫助自動提取字書類專有名稱，例如，《說文解字》《玉篇》《龍龕手鑒》《五音集韻》《方言》和《廣雅》等；字書引文知識庫，主要是用來幫助自動提取作為例證的各類引文的書籍名稱，例如，《周禮》《莊子》和《漢書》；“小學(xué)”專家名稱庫，主要用來幫助自動提取“小學(xué)”專家名稱，例如，許慎、段玉裁、顧野王、揚雄、陳彭年和宋祁；異體字字表，主要用來幫助對比不同版本中的字形差異，溝通字際關(guān)系。

收稿日期：20141208

基金項目：“中國博士后科學(xué)基金”第七批特別資助，第五十六批面上資助項目(224241)

作者簡介：朱翠萍(1980-)女，山東德州人，北京師范大學(xué)文學(xué)院文字學(xué)專業(yè)在站博士后，主要研究方向為漢語言文字學(xué)。

中圖分類號：TP 311.52文獻標(biāo)識碼：A

總之，自動?？笔窃谇笆霭媸椒治觥⒆址R別和屬性標(biāo)注等工作的基礎(chǔ)上進行的，其整個系統(tǒng)工作的流程可以通過圖3示來展現(xiàn)。

三、搭建版刻楷體字書校勘平臺的意義和應(yīng)用前景

版刻楷體字書計算機輔助版本?？毕到y(tǒng)將是一個非常有價值的系統(tǒng)平臺，一旦搭建成功，將有利于提高?？钡男屎蜏?zhǔn)確性，減少單純?nèi)斯ば？迸c箋注過程中不必要的時間浪費和失誤。另外，這一系統(tǒng)平臺的建立將有利于改變新時代字書研究者的工作方法，原因在于目前計算機雖然很普遍，但對多數(shù)字書研究者來說，還僅僅局限于代替手寫這一最基礎(chǔ)的工作，其它大量重要的工作內(nèi)容還都處于手工勞動階段。如果該系統(tǒng)能順利運行，新型字書研究者將會把目光轉(zhuǎn)向自動化方面，全方位利用計算機技術(shù)來進行文字整理與研究工作。

圖3　版本?？逼脚_流程圖

該系統(tǒng)將是字書整理甚至是古籍整理界的一個很好的工作平臺。古籍研究者可以借助此平臺進行文字切分，達到采集的目的。也可以對所采集到的數(shù)據(jù)進行屬性標(biāo)注，以便根據(jù)研究需要進行統(tǒng)計分析，得出較為全面、切實的結(jié)論，從而提高文字研究的水平。古籍出版者可以利用該平臺所提供的影像數(shù)據(jù)制作影印善本，或者等不同版本的?？惫ぷ魍瓿芍螅Y選出較為理想的版本，制作高質(zhì)量的校點本。漢字教學(xué)者可以利用從該平臺中獲得的豐富的數(shù)據(jù)資源和漢字理據(jù)，突破單純的繼承前人結(jié)論和人云亦云的局限，從源頭上審視所授內(nèi)容，并形成自己獨特的見解，從而增添漢字教學(xué)的特色性。

綜上所述，隨著大數(shù)據(jù)時代的到來,在古籍資源獲取及目錄檢索等方面的效率都將大大提高，這為自動校勘奠定了技術(shù)基礎(chǔ)，重拾人們對于古籍版本?？钡男判?。但是，技術(shù)和理論是矛盾的兩個方面，技術(shù)的發(fā)展推動著新的理論和視角的誕生，新的理論和視角反過來又影響和指導(dǎo)著新技術(shù)的實現(xiàn)空間。只有兩者相適應(yīng)，才會最大限度地發(fā)揮效能。

參考文獻：

[1]李國新.中國古籍資源數(shù)字化的進展與任務(wù).大學(xué)圖書館學(xué)報，2002,(1)：21-26.

[2]倪其心.?？睂W(xué)大綱.北京：北京大學(xué)出版社，1987.

[3]陳垣.?？睂W(xué)釋例.北京：中華書局，1959.

[4]陳力.中文古籍?dāng)?shù)字化的再思考.國家圖書館學(xué)刊，2006,(2)：42-48.

[5]王蕓,肖禹.漢語古籍全文文本化研究.上海：中西書局，2012.

[6]李先耕.古籍用漢字庫的要求.第一屆中國古籍?dāng)?shù)字化國際學(xué)術(shù)研討會論文集.北京：五洲傳播出版社，2009.

[7]劉志基.建設(shè)通用數(shù)字化平臺推動古文字研究現(xiàn)代化.東方學(xué)術(shù)文庫(第二卷).上海：上海人民出版社，2004.

Assumption on Building a Computer-aided Platform for

Collating Relief Printing Dictionaries

ZHU Cui-ping,ZHANG Xian-rong

(School of Chinese Language and Literature,Beijing Normal University,Beijing 100875,China)

Abstract:With the arrival of the era of big data,methods of collatiing ancient books are constantly updated,and it is inevitable to build a computer-aided platform for collating relief printing dictionaries.From the perspectives of resource organization,image textulization,automatic segmentation and marking property,the article discusses some necessary problems in this field,which will lay a good foundation for the platform building.

Key words:relief printing;regular script;dictionaries;version;automatic collation;platform

(責(zé)任編輯喬志杰)

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

搭建版刻楷體字書計算機輔助版本?？逼脚_的設(shè)想