楊賢林
(平湖市圖書館,浙江 平湖 314200)
古籍文獻(xiàn)是我國(guó)歷代保存下來(lái)的歷史文化瑰寶,它既反映了我國(guó)在人類社會(huì)發(fā)展進(jìn)程中的歷史地位和作用,也是研究我國(guó)歷代社會(huì)政治、經(jīng)濟(jì)、軍事、科技、文化、外交以及社會(huì)發(fā)展變化等方面的最重要的原始材料。古籍資源的主要特點(diǎn)表現(xiàn)在以下幾個(gè)方面:首先,現(xiàn)存古籍中原稿數(shù)量非常有限,只有少量明朝著作、清朝著作還存有原稿,而明朝以前的所有古籍原稿均不復(fù)所見(jiàn),所以大多數(shù)古籍無(wú)法應(yīng)用現(xiàn)代技術(shù)進(jìn)行排印、校對(duì),只能通過(guò)專業(yè)的古籍整理技術(shù)按照既定的工序進(jìn)行整理、出版;其次,古籍資源存在諸多錯(cuò)漏問(wèn)題,得以流傳至今的古籍多為刻本或傳抄本,所謂刻本即采用雕版印刷而成的書籍,還有一些為活字印刷的版本,但不管是刻本還是活字本,其文字上均有諸多錯(cuò)漏,而抄本中的錯(cuò)誤則更多;最后,流傳至今的古籍多數(shù)均不只一種版本,不同版本的內(nèi)容可能存在出入。
盡管古籍整理所屬的歷史學(xué)和應(yīng)用計(jì)算機(jī)所需的計(jì)算機(jī)專業(yè)分屬兩個(gè)不同性質(zhì)的學(xué)科,表面看上去毫無(wú)聯(lián)系,但其實(shí)二者的深層思維方式有著諸多共同點(diǎn)。比如歷史學(xué)研究過(guò)程中要求研究者具備較強(qiáng)的邏輯推理能力、抽象思維、歸納能力,同樣這也是計(jì)算機(jī)學(xué)科的基本思維模式;而且研究方法與計(jì)算機(jī)科學(xué)解決問(wèn)題的方法在很大程度上具有相似性。因此現(xiàn)階段在古籍整理過(guò)程中應(yīng)用比較成熟的數(shù)字化技術(shù)已經(jīng)有很多種,常見(jiàn)的包括以下幾種:首先是電子錄入,即利用某種方法或工具把古籍內(nèi)容輸入計(jì)算機(jī)中,現(xiàn)階段出版界傳統(tǒng)的鉛字排版技術(shù)已經(jīng)完全被電子錄入所取代,而電子錄入的主要內(nèi)容包括文字、圖像、圖文混合等。其次,電子???,利用計(jì)算機(jī)可以將所有校對(duì)對(duì)象的全文在瞬間查遍,然后根據(jù)程序設(shè)定好的規(guī)則將文獻(xiàn)中的錯(cuò)誤、疑問(wèn)之處做出迅速定位,可以精確到卷、節(jié)、行、字,這樣的工作效率是令人工校勘難以企及的;而軟件聯(lián)機(jī)無(wú)紙校對(duì)則是電子校勘技術(shù)中應(yīng)用最廣泛的手段,該方法是基于計(jì)算機(jī)顯示器進(jìn)行無(wú)紙校對(duì),并且在校對(duì)過(guò)程中可以將同一古籍多種不同版本的圖文比較及文文比較。再次,電子統(tǒng)計(jì),該技術(shù)在現(xiàn)代文獻(xiàn)計(jì)量學(xué)中的地位十分重要,而在古籍?dāng)?shù)字化整理過(guò)程中,主要利用電子統(tǒng)計(jì)技術(shù)進(jìn)行字頻分析,不過(guò)近年來(lái)又開(kāi)發(fā)出一種新技術(shù),即定量分析。最后,古籍整理中,類書、家譜、方志等是比較特殊的資源,而將這類資源進(jìn)行數(shù)字化處理意義重大。比如建立類書資源數(shù)據(jù)庫(kù)可以將豐富、系統(tǒng)的數(shù)據(jù)優(yōu)勢(shì)充分發(fā)揮出來(lái);電子家譜則把常見(jiàn)的文字符號(hào)、視頻符號(hào)等轉(zhuǎn)換為數(shù)字符號(hào),再制成家譜數(shù)據(jù)庫(kù),將家譜中相關(guān)信息資源通過(guò)數(shù)字化的形式保存起來(lái),并加以利用等。
文本挖掘是數(shù)字挖掘技術(shù)的一個(gè)新興分支,其從大量文本集合、語(yǔ)料庫(kù)中抽取知識(shí)團(tuán),這些知識(shí)團(tuán)事先未知但可理解,且有潛在實(shí)用價(jià)值,即文本數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)。文本挖掘技術(shù)主要應(yīng)用于古籍作品的篇章分析,比如情感關(guān)系、人物關(guān)系等,通過(guò)一系列分析對(duì)古代文學(xué)作品做更深層次的研究?,F(xiàn)階段古籍的文本數(shù)字化水平已經(jīng)比較成熟,后續(xù)將向著文本的深度分析方向發(fā)展。傳統(tǒng)研究古代文學(xué)作品的方法對(duì)研究者的專業(yè)素質(zhì)要求較高,且需要占有大量文本,因此很長(zhǎng)一段時(shí)期內(nèi)該領(lǐng)域?qū)?quán)威及第一手文獻(xiàn)的依賴性過(guò)高。但利用數(shù)字化技術(shù)可以徹底改變這一現(xiàn)狀。利用文本挖掘技術(shù)可以基于整體的角度分析海量古籍文獻(xiàn),從而針對(duì)某個(gè)時(shí)代、某個(gè)風(fēng)格流派及某個(gè)作者進(jìn)行整體研究。比如史籍類古籍,其篇幅浩大且有著復(fù)雜的人物關(guān)系,可以利用文本挖掘技術(shù)分析同類史籍作品,從而還原一個(gè)更加準(zhǔn)確的歷史真相,對(duì)歷史人物之間的復(fù)雜關(guān)系進(jìn)行梳理。
GIS系統(tǒng)即地理信息系統(tǒng),其應(yīng)用于圖書館中可以為圖書館數(shù)字資源提供一種全新的檢索方法及入口,基于GIS技術(shù)的古籍?dāng)?shù)字化地圖資源共享平臺(tái),可以體現(xiàn)出地圖的視覺(jué)化效果,并具備地理分析功能,通過(guò)信息劃分方式與數(shù)字圖書館有機(jī)結(jié)合起來(lái),不僅可以獲得時(shí)間、空間方面的直觀檢索集,而且還可以最大程度上彌補(bǔ)文本檢索的不足之處。不過(guò)目前我國(guó)數(shù)字圖書館領(lǐng)域應(yīng)用GIS技術(shù)還不夠成熟,國(guó)外及我國(guó)港臺(tái)地區(qū)有較多的成功案例,比如中國(guó)臺(tái)灣中央研究院開(kāi)發(fā)的中國(guó)歷史文化地圖系統(tǒng),其空間范圍選擇整個(gè)中國(guó),時(shí)間范圍包括原始社會(huì)到現(xiàn)在社會(huì)的整個(gè)中國(guó)歷史,以中國(guó)文明為內(nèi)涵,實(shí)現(xiàn)系統(tǒng)應(yīng)用環(huán)境的整合性。
與現(xiàn)階段靜態(tài)的古籍?dāng)?shù)字化技術(shù)不同,基于GIS的古籍?dāng)?shù)字化地圖資源共享平臺(tái)最大的特點(diǎn)即是其動(dòng)態(tài)性,它利用圖表化、可視化、集成化、數(shù)字化的表達(dá)方式將古籍文獻(xiàn)紙質(zhì)史料呈現(xiàn)出來(lái),系統(tǒng)具備數(shù)據(jù)統(tǒng)計(jì)、文獻(xiàn)檢索及自動(dòng)生成地圖等功能,可以通過(guò)平臺(tái)檢索文學(xué)家的生平及作品,對(duì)其分類、統(tǒng)計(jì),還可以將統(tǒng)計(jì)結(jié)果通過(guò)電子地圖的形式展示出來(lái)。電子地圖中可以將某個(gè)作家的生卒地點(diǎn)、活動(dòng)地點(diǎn)、寫作作品背景地、跟哪些歷史名人交游互動(dòng)的地點(diǎn)等全部顯示出來(lái),并以時(shí)間發(fā)生順序?qū)⑵湫雄櫬肪€圖自動(dòng)繪制出來(lái)。
所謂文本可視化技術(shù)即是在分析文本資源的基礎(chǔ)上,利用計(jì)算機(jī)技術(shù)將發(fā)現(xiàn)的特定信息通過(guò)圖形化的方式呈現(xiàn)出來(lái)。文本可視化技術(shù)不僅可以將文本中的隱含內(nèi)容及關(guān)系顯示出來(lái),而且可在最大范圍內(nèi)概括海量的文本信息,在古籍整理工作中應(yīng)用該技術(shù),可以將古籍文本信息生動(dòng)地表達(dá)出來(lái),并且能夠利用特定程序的算法將古籍文本資源的潛在語(yǔ)義聯(lián)系展示出來(lái),從中發(fā)現(xiàn)新知識(shí)。利用文本可視化技術(shù)構(gòu)建古籍?dāng)?shù)字化知識(shí)體系,可以在古籍文本信息可視化展視及可視化知識(shí)提取過(guò)程中發(fā)現(xiàn)抽象的數(shù)據(jù)空間中所隱藏的模式、知識(shí)圈及見(jiàn)解。不過(guò)現(xiàn)階段古籍?dāng)?shù)字化整理領(lǐng)域可視化技術(shù)的應(yīng)用還相對(duì)較少,僅向用戶提供最簡(jiǎn)單的基本功能。即使應(yīng)用該技術(shù),古籍資源的組織方式也無(wú)法將各類資源間的知識(shí)結(jié)構(gòu)關(guān)聯(lián)準(zhǔn)確、深入、全面地揭示出來(lái),并缺少支持用戶高效學(xué)習(xí)的知識(shí)建構(gòu)功能。因此未來(lái)古籍?dāng)?shù)字化建設(shè)領(lǐng)域要將直觀圖形化的表達(dá)方式引入進(jìn)來(lái),對(duì)古籍資源的整合方式、挖掘機(jī)制等做進(jìn)一步完善。
利用可視化技術(shù)進(jìn)行知識(shí)提取不僅使得知識(shí)的表達(dá)方式更豐富,而且提高了知識(shí)評(píng)價(jià)活動(dòng)的簡(jiǎn)便性,從而大大提高知識(shí)提取的效率及效果,進(jìn)而提高知識(shí)庫(kù)的知識(shí)儲(chǔ)存量及知識(shí)結(jié)構(gòu)的質(zhì)量。文獻(xiàn)地圖、文獻(xiàn)聚類圖、文獻(xiàn)時(shí)間分布圖及文獻(xiàn)內(nèi)容直方圖等均是比較常用的可視化知識(shí)提取工具。此外,在古籍?dāng)?shù)字化建設(shè)過(guò)程中,利用可視化技術(shù)可以將古籍文獻(xiàn)信息的隱性知識(shí)通過(guò)顯性的方式表達(dá)出來(lái),還可對(duì)其內(nèi)容及結(jié)構(gòu)做出評(píng)價(jià),并根據(jù)評(píng)價(jià)結(jié)構(gòu)形成顯性的知識(shí)體系存儲(chǔ)于知識(shí)數(shù)據(jù)庫(kù)中。古籍文獻(xiàn)體現(xiàn)出時(shí)間、空間跨度大、元數(shù)據(jù)雜亂等特點(diǎn),無(wú)法遵循通用的標(biāo)準(zhǔn)形成既定的知識(shí)體系,而可視化知識(shí)提取技術(shù)恰恰提供了一種直觀表達(dá)、描述知識(shí)的方法,對(duì)研究者進(jìn)行古籍文獻(xiàn)資源的知識(shí)建構(gòu)起到有力的促進(jìn)作用。
語(yǔ)料庫(kù)是經(jīng)過(guò)電子化的、原始或添加了語(yǔ)言信息標(biāo)記的文本集合。早在20世紀(jì)80年代,我國(guó)就開(kāi)始進(jìn)行語(yǔ)料庫(kù)的建設(shè),當(dāng)時(shí)的主要目的是用于漢語(yǔ)詞匯統(tǒng)計(jì)及研究;而在20世紀(jì)90年代后,隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展,語(yǔ)料庫(kù)方法在自然語(yǔ)言信息處理領(lǐng)域的應(yīng)用也越來(lái)越廣泛。語(yǔ)料庫(kù)中包含了海量的自然語(yǔ)言材料,不僅可以應(yīng)用于語(yǔ)法、詞匯、語(yǔ)體等相關(guān)研究,而且還可用于人工智能、機(jī)器翻譯及辭典編纂等其他領(lǐng)域。而在古籍整理領(lǐng)域,語(yǔ)料庫(kù)的應(yīng)用還處于初級(jí)階段,僅用于字、詞頻率的統(tǒng)計(jì)、語(yǔ)法現(xiàn)象的歸納統(tǒng)計(jì)等。通過(guò)建立語(yǔ)料庫(kù),大大簡(jiǎn)化了基于字、詞的相關(guān)統(tǒng)計(jì)分析過(guò)程,從而大大提高了古代文學(xué)作品本體研究的便捷性與準(zhǔn)確性。用戶可以通過(guò)古籍語(yǔ)料庫(kù)對(duì)古籍文獻(xiàn)進(jìn)行全面理解,并對(duì)跨時(shí)代、跨人物的相關(guān)內(nèi)容做出對(duì)比,從而保證研究結(jié)論的可靠性。在傳統(tǒng)古籍整理工作中,為保證古籍的完整性與歷史性,需要進(jìn)行大量耗時(shí)、耗力的??惫ぷ鳎诮⒐偶Z(yǔ)料庫(kù)后,很大程度上可以利用計(jì)算機(jī)智能技術(shù)對(duì)比語(yǔ)料庫(kù)中的字、詞匯及語(yǔ)法等來(lái)完成??惫ぷ鳎矣?jì)算機(jī)系統(tǒng)具備分析功能,可以向用戶做出可能存在的錯(cuò)訛、脫落及衍生等信息提示,從而使得利用數(shù)字化技術(shù)完成古籍整理成為可能。
雖然數(shù)字化技術(shù)為古籍整理帶來(lái)了諸多便利,但仍然存在一些問(wèn)題。因此未來(lái)一段時(shí)期內(nèi),古籍整理領(lǐng)域數(shù)字化技術(shù)的應(yīng)用要向著以下幾個(gè)方面發(fā)展。
實(shí)際上我國(guó)中文古籍?dāng)?shù)字化建設(shè)現(xiàn)在還缺少統(tǒng)一的規(guī)劃,不管是科研機(jī)構(gòu)還是商業(yè)公司,均在進(jìn)行古籍資源的數(shù)字化開(kāi)發(fā),這無(wú)形中就造成了不必要的資源浪費(fèi)。比如《四庫(kù)全書》及《二十五史》,目前所知至少有4種以上電子版本。古籍經(jīng)過(guò)長(zhǎng)時(shí)間的保存及流傳會(huì)形成不同的版本,在古籍?dāng)?shù)字化開(kāi)發(fā)過(guò)程中,古籍版本的選擇會(huì)對(duì)古籍?dāng)?shù)字化版本的質(zhì)量產(chǎn)生決定性影響,因此要求古籍整理人員對(duì)每本書的目錄版本、優(yōu)缺點(diǎn)有充分的了解,才能擇優(yōu)選取版本。古籍重復(fù)開(kāi)發(fā)的現(xiàn)象不僅會(huì)導(dǎo)致資源浪費(fèi),而且會(huì)影響到電子版本的質(zhì)量,并使得市場(chǎng)無(wú)序化的問(wèn)題逐步突顯出來(lái)。因此,未來(lái)要制定一個(gè)統(tǒng)一規(guī)劃,提高資源的利用效率,實(shí)現(xiàn)古籍市場(chǎng)的有序管理。
我國(guó)中文古籍不可計(jì)數(shù),開(kāi)發(fā)單位也數(shù)量眾多,現(xiàn)階段各單位并未就古籍?dāng)?shù)字化形成共識(shí),所以在數(shù)字化整理過(guò)程中出現(xiàn)多種互不兼容的數(shù)字化格式。比如古籍?dāng)?shù)字閱讀器,現(xiàn)在常用的就有十幾種,包括PDF、PDG、TXT、DOC等,用戶如果需要使用不同開(kāi)發(fā)者的電子版本,就需要下載對(duì)應(yīng)的格式的閱讀器,不利于用戶的應(yīng)用,且這種做法對(duì)數(shù)據(jù)的共享發(fā)展也設(shè)置了一道障礙,從而直接影響到古籍?dāng)?shù)字化產(chǎn)品的使用性能。首都師范大學(xué)電子文獻(xiàn)研究所的尹小林所長(zhǎng)曾提出建設(shè)古籍?dāng)?shù)據(jù)庫(kù)的標(biāo)準(zhǔn),包括有確定的底本與書目提要、文字差錯(cuò)率不得超出萬(wàn)分之一、有互相對(duì)應(yīng)的簡(jiǎn)繁體文字、含高清版底本圖像且能縮放、具備智能化全文檢索功能、提供智能數(shù)據(jù)統(tǒng)計(jì)分析功能、可進(jìn)行多種數(shù)據(jù)格式的轉(zhuǎn)換與輸出等。后續(xù)可參考上述要求逐步建立健全相關(guān)操作規(guī)范,實(shí)現(xiàn)古籍整理的標(biāo)準(zhǔn)化。
雖然古籍?dāng)?shù)字化市場(chǎng)有著可觀的前景,但是由于其開(kāi)發(fā)過(guò)程中需要耗費(fèi)大量的人力、技術(shù),涉及多種古籍資源,因此所生產(chǎn)出來(lái)的數(shù)字化產(chǎn)品價(jià)格也比較昂貴,對(duì)于個(gè)人用戶而言就成為一道門檻。所以現(xiàn)階段古籍?dāng)?shù)字化產(chǎn)品的應(yīng)用與普及僅限于特定的區(qū)域范圍,要實(shí)現(xiàn)其大眾性、通用性功能還不現(xiàn)實(shí),這對(duì)古籍?dāng)?shù)字化產(chǎn)品的市場(chǎng)開(kāi)發(fā)與推廣會(huì)產(chǎn)生一定的制約作用。未來(lái)發(fā)展過(guò)程中,要在保證古籍?dāng)?shù)字化產(chǎn)品質(zhì)量的同時(shí),充分考慮市場(chǎng)因素,采用先進(jìn)的技術(shù)手段降低古籍開(kāi)發(fā)成本,實(shí)現(xiàn)古籍?dāng)?shù)字化產(chǎn)品的市場(chǎng)化、大眾化。
古籍文獻(xiàn)原件由于年代久遠(yuǎn)通常不會(huì)涉及版權(quán)問(wèn)題,不過(guò)如果古籍整理項(xiàng)目關(guān)系到近代的??闭沓晒?,則要注意保護(hù)知識(shí)產(chǎn)權(quán);并且古籍文獻(xiàn)資源數(shù)據(jù)庫(kù)本身也有版權(quán),整理過(guò)程中如果用到其他古籍?dāng)?shù)字化成果則要充分考慮版權(quán)問(wèn)題。需要特別提出一點(diǎn),即一些比較珍貴的古籍文獻(xiàn)可以在數(shù)字化整理的同時(shí),再將數(shù)字資源轉(zhuǎn)換為彩色縮微膠片的形式,以實(shí)現(xiàn)古籍資源的永久性存儲(chǔ);雖然這種做法在一定程度上增加了古籍整理的成本,不過(guò)對(duì)珍貴古籍資源進(jìn)行異質(zhì)備份可以最大程度地保護(hù)珍貴古籍原件。
[1] 梁愛(ài)民,陳荔京.古籍?dāng)?shù)字化與共建共享[J].國(guó)家圖書館學(xué)刊,2012(5):108-112.
[2]喻雯虹.古籍?dāng)?shù)字化資源的共建共享——從國(guó)際敦煌項(xiàng)目(IDP)談起[J].圖書館論壇,2011(3):87-89,163.
[3] 姚俊元.關(guān)于制定古籍?dāng)?shù)字化標(biāo)準(zhǔn)的思考[J].圖書館理論與實(shí)踐,2010(2):50-52.
[4] 申利.利用數(shù)字化資源提高古籍整理效率的實(shí)踐和思考[J].圖書情報(bào)知識(shí),2012(5):120-125.
[5]吳茗.淺析古籍?dāng)?shù)字化建設(shè)的組織模式——以哈佛燕京圖書館中文古籍?dāng)?shù)字化項(xiàng)目為例[J].數(shù)字圖書館論壇,2012(3):42-45.
[6]欒偉平.數(shù)字化過(guò)程中的古籍保護(hù)問(wèn)題——“明別集叢刊”項(xiàng)目的工作體會(huì)[J].大學(xué)圖書館學(xué)報(bào),2013(3):84-86,121.
[7] 徐金鑄.網(wǎng)絡(luò)環(huán)境下古籍?dāng)?shù)字化資源信息服務(wù)思考[J].蘭臺(tái)世界,2012(35):34-35.
[8] 毛建軍.中文古籍?dāng)?shù)字化合作館藏維護(hù)問(wèn)題研究[J].圖書館理論與實(shí)踐,2011(8):4-7.
[9] 郭明俠.中文古籍?dāng)?shù)字化建設(shè)探究[J].蘭臺(tái)世界,2011(18):20-21.