單志鵬
(北京語言大學(xué) 語言科學(xué)院,北京 100083)
柳建鈺教授的《字書字料庫的理論、實踐與應(yīng)用》一書由中華書局于2021 年5 月正式出版,該書是國內(nèi)外第一部系統(tǒng)研究字料庫的學(xué)術(shù)專著,它將字料庫的理論探索、實體建設(shè)與應(yīng)用研究三者有機結(jié)合起來,充分驗證了字料庫的實用價值和字料庫漢字學(xué)的學(xué)科意義。不論是在理論上,還是在實踐以及應(yīng)用上,該書都充分說明了字料庫建設(shè)與研究在大數(shù)據(jù)時代具有必要性和可行性?!蹲謺至蠋斓睦碚?、實踐與應(yīng)用》一書在字料庫建設(shè)與字料庫漢字學(xué)研究中的首創(chuàng)價值是值得肯定的。
隨著認知水平的提高與知識儲備的增加,跨學(xué)科的研究視角逐漸受到學(xué)界的普遍關(guān)注與重視。以往單一的研究視角、研究方法和研究理論對研究對象做到了日益“專、精”,但隨著研究的逐漸深入,單純的“專、精”很容易讓研究走入瓶頸,同時也限制了研究思路,很難發(fā)掘出研究的極大值。而跨學(xué)科、多模式的交叉研究將拓寬研究思路,只有有效借鑒其他學(xué)科的研究方法與理論,多學(xué)科互動,才能促進對研究對象更深、更廣的認知。孫磊認為,“現(xiàn)代科學(xué)技術(shù)突飛猛進的發(fā)展為新興學(xué)科或交叉學(xué)科的產(chǎn)生提供直接動力;學(xué)術(shù)環(huán)境的日益改善為新興學(xué)科的產(chǎn)生提供必要條件;生動的社會實踐則推動著新認識的產(chǎn)生,催生新的學(xué)科門類的出現(xiàn)。”[1]基于這樣一系列的原因,建立以目標導(dǎo)向為中心的關(guān)聯(lián)性趨近的相互貫通的交叉研究領(lǐng)域成為當前學(xué)術(shù)研究的主要趨勢。
“人文科學(xué)理論創(chuàng)新的一個重要機制在于轉(zhuǎn)換視域,在語言學(xué)研究中開展交叉學(xué)科研究就是一種視域的轉(zhuǎn)換。”[2]當前漢字學(xué)研究視域的轉(zhuǎn)變就是要改變以往從“故紙堆”中人工翻閱文獻、依靠學(xué)者自省或依靠個別數(shù)據(jù)來總結(jié)歸納漢字學(xué)規(guī)律的范式,轉(zhuǎn)而借助信息科學(xué)及其他相關(guān)學(xué)科的理論與技術(shù),將漢字現(xiàn)象、特點、理論同信息科學(xué)及其他相關(guān)學(xué)科深度結(jié)合,進行數(shù)理轉(zhuǎn)化,數(shù)據(jù)分析,量化對比,走大數(shù)據(jù)、信息化、科學(xué)化的道路。王寧先生指出:“漢字學(xué)和信息科學(xué)技術(shù)結(jié)合的可能性,給兩個學(xué)科都帶來了新的增長點;而漢字學(xué)和信息科學(xué)技術(shù)結(jié)合的難度,對兩個學(xué)科又都是一種挑戰(zhàn)……在21 世紀,漢字學(xué)與信息科學(xué)技術(shù)的進一步結(jié)合,是可以預(yù)見的?!盵3]為了滿足全漢字數(shù)字化整理的迫切需求,經(jīng)過長時間地探索,李國英、周曉文先生于2009 年率先闡發(fā)了字料庫建設(shè)的必要性和可行性,分析了字料庫的理論意義與現(xiàn)實價值,為當前字料庫的研究與建設(shè)奠定了理論基礎(chǔ)?!蹲謺至蠋斓睦碚?、實踐與應(yīng)用》則是柳建鈺教授沿著李國英、周曉文先生所指明的主攻方向繼續(xù)深入探索和積極實踐后所取得的一份重要的字料庫研究成果。
《字書字料庫的理論、實踐與應(yīng)用》全書共計十四章,可以分為三大部分,分別是理論篇(包括緒論、字料庫與字書字料庫概說、字料庫理論的提出及其價值、字料庫漢字學(xué)概說)、實踐篇(包括當前字料庫與“類字料庫”建設(shè)概況、字書字料庫系統(tǒng)建設(shè)的主要原則與基本流程、字書字料庫數(shù)據(jù)庫及軟件的設(shè)計、字書字料屬性庫的建設(shè)、字書字料的標注、字書字料的字際關(guān)系系聯(lián)、字書字料庫的日常維護管理)以及應(yīng)用篇(包括字書字料庫與字書疑難字考辨、基于字書字料庫的字書漢字層積流變狀況調(diào)查研究、基于字書字料庫的通用規(guī)范漢字構(gòu)形屬性調(diào)查研究)。
“名正則言順”,理論篇開篇明義,首先科學(xué)界定了“字料”“字料庫”“字書”“字書字料庫”四個核心概念。字料庫是由語料庫類推出來的概念,二者建設(shè)的基本思想一致,但對象、目的、原則等方面存在較大差異。字料庫是以“字”為核心,以漢字學(xué)理論為主要指導(dǎo),對歷史上真實出現(xiàn)過的漢字字料的本體屬性與字際關(guān)系屬性進行全方面、綜合性、立體式的標注、整理和研究的大型漢字字料信息庫。從字料的存在形式、實現(xiàn)方式、書體風(fēng)格、載體、時代、通行范圍、應(yīng)用層面、使用民族或國別、性質(zhì)、加工程度等角度可以劃分出不同類型的字料庫。不同類型的字料庫存在研究重點上的差異,可以稱為子庫,將業(yè)已建立起來的成熟的子庫進行整合就可以形成一個大規(guī)模漢字字料庫。
字書字料庫“是與語篇字料庫相對應(yīng)的字料庫兩大類型之一,它專門收集和加工歷代字書中的真實漢字字料,是在大規(guī)模歷代字書文本基礎(chǔ)上生成的真實的漢字刻寫形態(tài)的有序集合,是利用計算機對字書漢字形體進行各種分類、統(tǒng)計、檢索、綜合和比較等研究的基礎(chǔ),它能為漢字學(xué)及其他相關(guān)學(xué)科研究提供高度結(jié)構(gòu)化的字書漢字數(shù)據(jù)信息。”[4]36歷代字書貯存的是經(jīng)過專家學(xué)者系統(tǒng)整理過的社會用字,后世字書又往往求大、求全,重收集,輕整理,這就使得歷時漢字在共時層面上不斷地累積,可以說,字書文獻中蘊含著豐富的漢字字料信息。作者認為,歷代學(xué)者整理形成的大量字書文獻、當代計算機的技術(shù)支持以及漢字學(xué)與語料庫理論提供的指導(dǎo),使得字書字料庫的建立具有操作上的可行性。
字書字料庫考察的是貯存狀態(tài)下的字料,可以利用計算機數(shù)據(jù)庫手段對漢字構(gòu)形、字體演變、字際關(guān)系等漢字屬性資源進一步開發(fā),從而實現(xiàn)字書漢字屬性價值的無限增值。所以,作者認為,“字書字料庫的建設(shè),是漢字整理研究信息化、大數(shù)據(jù)化的必然選擇。通過以字書字料庫中的大規(guī)模字料數(shù)據(jù)為中心和出發(fā)點,憑借科學(xué)的統(tǒng)計方法,對字料數(shù)據(jù)進行充分地觀察、分析、描寫和概括,從中歸納抽繹出科學(xué)的漢字學(xué)理論,這將推動當前的漢字研究工作發(fā)生根本性變化?!盵4]49基于此理念建立的字書字料庫具有強大的生命力,在漢字學(xué)研究過程中將發(fā)揮無可替代的作用。
該書還闡述了字料庫理論提出的價值與背景。作者認為,交叉學(xué)科研究方法的推廣應(yīng)用、當前漢字整理的客觀現(xiàn)實、語料庫理論及語料庫語言學(xué)的影響以及李國英、周曉文先生關(guān)于字料庫理論的不懈探索都直接推動了字料庫理論與實踐的深入發(fā)展。
最后,該書論證了“字料庫漢字學(xué)”的學(xué)科定位、性質(zhì)、內(nèi)容與方法等相關(guān)問題。作者明確指出,“字料庫漢字學(xué)是以真實文本中出現(xiàn)的漢字字料為界定和描述漢字現(xiàn)象的起點,通過字料的采集、存儲、標注、檢索和統(tǒng)計分析,用來提出全新的漢字學(xué)理論或驗證、修正已有漢字學(xué)理論,并對字料庫如何應(yīng)用于漢字教學(xué)與中文信息處理及其他相關(guān)學(xué)科進行研究的一門交叉學(xué)科?!盵4]68字料庫漢字學(xué)是人文社會科學(xué)與自然科學(xué)交叉接觸的產(chǎn)物。相較于“數(shù)據(jù)庫漢字學(xué)”或“數(shù)據(jù)庫文字學(xué)”等名稱,“字料庫漢字學(xué)”更加名實相符。字料庫漢字學(xué)將研究對象集中于本體理論研究、漢字整理與規(guī)范研究以及應(yīng)用研究三個方面,是漢字學(xué)框架內(nèi)的一門嶄新的分支學(xué)科。
理論來源于實踐,反作用于實踐。實踐篇主要是在字料庫漢字學(xué)、語料庫語言學(xué)理論的指導(dǎo)下進行字書字料庫的實體建設(shè)研究。
該書對受漢字學(xué)與信息科學(xué)交叉需要而催生出的一些字料庫及“類字料庫”進行了介紹。如中國大陸的北京師范大學(xué)字料庫(BNUZLK)、華東師范大學(xué)古今文字及歷代字書資源庫、魏晉南北朝碑刻用字數(shù)據(jù)庫、漢字全息資源應(yīng)用系統(tǒng),等等;港臺地區(qū)的臺灣“中央研究院”“小學(xué)堂文字學(xué)數(shù)據(jù)庫”、香港中文大學(xué)人文電算研究中心“漢語多功能字庫”,等等;國外的日本東京大學(xué)“石刻拓本資料庫”、字形維基(GlyphWiki),等等。通過借鑒上述字料庫與“類字料庫”建設(shè)的先進經(jīng)驗,取長補短,作者提出了建設(shè)字書字料庫系統(tǒng)應(yīng)當堅持科學(xué)性、真實性、代表性、規(guī)?;?、前瞻性、先進性和共享性七個主要原則,建設(shè)階段主要有規(guī)劃、需求分析、設(shè)計、實現(xiàn)、字料采集、字料標注與使用及維護等七個方面。同時,認為C/S 架構(gòu)的高安全性更適用于字書字料庫的開發(fā)建設(shè)。
該書又具體介紹了字書字料庫的建設(shè)情況。字書字料庫數(shù)據(jù)庫是關(guān)系型數(shù)據(jù)庫[4]139。所以,在建設(shè)過程中注意各類關(guān)系屬性的關(guān)聯(lián)性。作者首先介紹了數(shù)據(jù)庫與數(shù)據(jù)類型,依據(jù)類型將各類數(shù)表分為字頭基本信息類、字頭構(gòu)形屬性類、字頭字際關(guān)系類、數(shù)據(jù)庫操作類及其他類等五大類,并介紹其中二十二個主要數(shù)據(jù)表的基本情況以及工具插件、界面設(shè)計、查詢功能和輔助功能為主的軟件系統(tǒng)設(shè)計的基本情況。從軟件設(shè)計的具體過程可以看出,字書字料庫軟件設(shè)計將漢字構(gòu)形學(xué)、漢字字體學(xué)、語料庫語言學(xué)等理論知識融會貫通,由此也充分說明字書字料庫的建設(shè)是在科學(xué)理論指導(dǎo)下完成的,從而有力保障了字書字料庫本身的科學(xué)性。
從2014 年建成“CCFD 字書字料庫”系統(tǒng)V1.0版本開始,經(jīng)過7 年的不斷擴充、升級、調(diào)整和完善,目前該系統(tǒng)共收錄字書、韻書、字形編等共計70 多部,在庫已標注字頭達到1 695 272 個,字頭參證文獻295 230 個,辭條總數(shù)達152 334 個。字料字體涵蓋篆、隸、行、草、楷五種,既收錄了甲骨文、金文、小篆等古文字字形,又收錄了隸書、楷書、行書、草書等今文字字形。不僅收錄官方權(quán)威正字字樣,還收錄社會通用層次字料和民間俗用層次字料。同時,全面吸納學(xué)界關(guān)于疑難字考釋成果,斧正以往大型字書的訛誤。就規(guī)模而言,“CCFD字書字料庫”系統(tǒng)已經(jīng)躋身于成熟性高、數(shù)據(jù)量大的中大型字料庫之列了。該字料庫的基本信息(包括部首、筆畫數(shù)等)、構(gòu)形信息(包括構(gòu)形模式、組合類型等)以及字際關(guān)系(包括異體、同形、繁簡、本借等)三大界面基本標注信息完備。查詢窗口分為字樣信息查詢、公用信息查詢、基本信息查詢、構(gòu)形關(guān)系查詢、字際關(guān)系查詢,可以滿足漢字學(xué)理論研究與應(yīng)用研究的基本查詢需求。就科研使用而言,“CCFD 字書字料庫”系統(tǒng)也已經(jīng)是一個實用性強、穩(wěn)定性好的熟字料字料庫。
“治其器必求其用?!痹摃膽?yīng)用篇主要展示了字書字料庫在應(yīng)用上的優(yōu)越性和重要性。字書字料庫的現(xiàn)實應(yīng)用主要體現(xiàn)在三個方面。
首先,字書字料庫在疑難字考辨上能夠發(fā)揮重要的作用。作者利用字書字料庫分別對“、、、”“、、、”“、、瑱”“、、、”“、通”“、、穼、罙、、”等七組疑難字進行了考釋溝通。學(xué)者可以從字書字料庫中快速提取疑難字,提高考辨工作的完成速度,提升考釋結(jié)論的科學(xué)水平,既可以復(fù)核時賢考辨結(jié)論,又可以修正學(xué)者考釋不準確之處。
其次,字書字料庫可以對字書漢字層積流變的研究提供助力。作者測查《說文》《原本玉篇》《類篇》等十五部字書中“糸部”收字的層積情況,剝離出共收、單見、歧出三種類型并進行系統(tǒng)描寫。在進行充分的調(diào)查分析后,作者認為,“字書中數(shù)量眾多的異寫、異構(gòu)字形是我國古代字書收字流變狀況的真實反映。這些字形在字書中不斷層積,最終形成了歷代字書收字動輒三五八萬的局面?!盵4]336
最后,字書字料庫還有助于對漢字構(gòu)形屬性進行全面測查。《通用規(guī)范漢字表》是目前漢字規(guī)范整理的最新權(quán)威成果,作者借助字書字料庫對《通用規(guī)范漢字表》的構(gòu)件組合動態(tài)特點、結(jié)構(gòu)層級數(shù)、各級構(gòu)件及其功能、構(gòu)形模式和布局圖式五個方面進行了更全面、更準確地構(gòu)形屬性測查研究,彌補了這一領(lǐng)域的若干空白。
《字書字料庫的理論、實踐與應(yīng)用》是國內(nèi)外第一部專門研究字料庫的著作,首次對字料庫進行了理論、實踐與應(yīng)用三方面的有益嘗試,也是第一部開啟字料庫漢字學(xué)研究范式的重要專著。該書的意義與價值主要體現(xiàn)在以下三個方面。
首先,作者嘗試建立“字料庫漢字學(xué)”這一交叉學(xué)科。從1990 年王寧先生首次使用“字料”用語,到2009 年李國英、周曉文先生科學(xué)定義“字料庫”概念,再到2014 年BNUZLK 字料庫系統(tǒng)的建構(gòu)與應(yīng)用以及海內(nèi)外各類字料庫與“類字料庫”的建立,字料庫的發(fā)展歷程充分證明了它在漢字學(xué)研究過程中的獨特價值和巨大潛力。不論是在漢字多方面屬性的量化研究中,還是在漢字共時形體關(guān)系整理與歷史形體演變研究中,字料庫能夠發(fā)揮的作用都是非常明顯的。在字書字料庫建設(shè)中,作者指導(dǎo)碩士研究生對字書新收字整理、疑難字考釋、字體對比描寫、字頭對比分析等方面的研究,都充分印證了字料庫不單純只是一個研究工具或檢索工具,而是一個能在漢字學(xué)研究過程中發(fā)揮重要作用的具有理論創(chuàng)新價值的新事物,并從實踐上驗證了字料庫的建設(shè)與研究符合當前漢字學(xué)研究需求,字料庫漢字學(xué)的研究也是可以納入漢字學(xué)整體框架體系中的。字料庫漢字學(xué)有著自己的學(xué)科性質(zhì)、研究內(nèi)容、理論思維,理應(yīng)成為漢字學(xué)框架內(nèi)的一門新的分支學(xué)科。
其次,該書為當前及未來一段時期內(nèi)字料庫的建設(shè)提供了可資借鑒的科學(xué)操作范式。字書字料庫是貯存字書漢字字料的資源庫,需要解決好各類界面的顯示、圖片的儲存與提取、各類屬性標注以及代碼轉(zhuǎn)換等一系列相關(guān)問題。該書在實踐篇中詳細論述了軟件設(shè)計的原則與流程、各類屬性庫的建構(gòu)、字料屬性系統(tǒng)的標注、字際關(guān)系的系聯(lián)以及日常維護管理等相關(guān)問題,科學(xué)規(guī)劃了字料庫建設(shè)過程中遇到的大部分問題,為日后學(xué)界建設(shè)字料庫軟件提供了科學(xué)范式。
最后,該書將推動字料庫、漢字學(xué)與字料庫漢字學(xué)之間的和諧健康發(fā)展。第一,字書字料庫將為漢字學(xué)研究提供一手數(shù)據(jù)來源。“從統(tǒng)計數(shù)據(jù)的來源來看,一般有兩種渠道:一是來源于直接的調(diào)查和科學(xué)實驗,我們稱之為第一手或直接的統(tǒng)計數(shù)據(jù);二是來源于別人調(diào)查或?qū)嶒灥臄?shù)據(jù),我們稱之為第二手或間接的統(tǒng)計數(shù)據(jù)?!盵5]字料庫直接匯集真實文本中的字料,經(jīng)過對字料的科學(xué)、系統(tǒng)、完善地標注,將各個參數(shù)關(guān)聯(lián)成一個有機整體,在進行數(shù)理統(tǒng)計、對比、分析之后,將會得到科學(xué)的一手數(shù)據(jù)。第二,字料庫在科研應(yīng)用中將會量化數(shù)據(jù),從而驗證漢字學(xué)理論知識,同時,在漢字學(xué)研究中發(fā)現(xiàn)的新現(xiàn)象、新觀點還會反哺字料庫與字料庫漢字學(xué)的建設(shè)與研究。所以,該書在理論探索與實踐操作上具有重要的意義與價值。
理論的發(fā)展需要實踐的檢驗,而實踐又會促進新理論的發(fā)生和發(fā)展,《字書字料庫的理論、實踐與應(yīng)用》就是很好的明證。
不過,該書也存在兩點不足。首先,應(yīng)用篇只對疑難字考釋、字書層積流變探究、構(gòu)形屬性分析三個方面進行了展示,尚未體現(xiàn)出字書字料庫具有廣闊使用領(lǐng)域的特點。其實還有很多領(lǐng)域可以展示字書字料庫的優(yōu)越性。例如我們可以借助字書字料庫進行字料通行范圍的層次研究。依據(jù)字書字料庫標注的字料身份信息,分出漢字字料的上層、中層、下層的層次歸屬,排列演變序列,從而可以描述不同層次漢字字料的相互影響。再如,我們可以借助字料庫進行漢字識字教學(xué)以及漢字文化闡釋等方面的研究。其次,該書對各種字料庫與“類字料庫”的分析還不夠全面,只是簡單介紹了基本信息、特點,沒有對比各類字料庫與“類字料庫”的異同之處,使讀者不能很清晰地了解其間的差異,這些問題希望以后該書修訂時能予以考慮。
我們認為,柳建鈺教授的《字書字料庫的理論、實踐與應(yīng)用》具有較高的理論價值。該書系統(tǒng)論述了字料庫的基本理論,探討了字料庫漢字學(xué)的學(xué)科性質(zhì)、研究內(nèi)容等相關(guān)問題,整體框架比較完整,理論闡發(fā)科學(xué)深入。字書字料庫數(shù)據(jù)平臺具體建設(shè)步驟的展示也為后續(xù)學(xué)界進一步研發(fā)類似字料庫提供范式,其現(xiàn)實意義是非常明顯的。字書字料庫全面標注漢字字料的基本信息,系統(tǒng)展示字料字際關(guān)系屬性,完整呈現(xiàn)字料的文化層次、社會使用以及字料的音義信息,是一個值得學(xué)界信賴的漢字字料數(shù)據(jù)資源平臺。研究顯示,在疑難字考釋、漢字構(gòu)形屬性分析等應(yīng)用研究上字料庫呈現(xiàn)出了高效、便捷的特點。這些在該書中都進行了翔實的論證。
從整體上來看,當前的語料庫研究成果系統(tǒng)、豐碩,研究人數(shù)與團隊不斷增加,語料庫語言學(xué)的研究深度也已經(jīng)達到了很高的水平,反觀字料庫的建設(shè)與研究卻顯得勢單力薄,方興未艾。我們有理由相信,在該書理論及實踐的引導(dǎo)下,未來字料庫的建設(shè)與字料庫漢字學(xué)的研究會像語料庫那樣向著更深入、更系統(tǒng)、更完善的方向發(fā)展,會形成一批高水平的學(xué)術(shù)團隊,發(fā)表一系列高質(zhì)量的研究成果,建立起多個像BCC語料庫那樣開放共享的字料庫平臺,為科學(xué)的全漢字整理與漢字學(xué)研究提供數(shù)據(jù)支持。