王昕?張潔?湯萌
摘 要 上海交通大學(xué)圖書館在新藏徽州府內(nèi)六縣的契約文書數(shù)字化與編目的基礎(chǔ)上,實踐性地探索地域信息組織與揭示新路徑,為實現(xiàn)契約文書組織和揭示研究提供了新思路和標(biāo)準(zhǔn)化操作方式。
關(guān)鍵詞 契約文書 徽州 上海交通大學(xué)
分類號 G254
DOI 10.16810/j.cnki.1672-514X.2018.04.012
Abstract On the basis of digitizing and cataloging the new collected deed documents of six counties in Huizhou, Shanghai Jiao Tong University Library explores the geographical information organization and reveals a new path to provide new ideas and methods to achieve standardization of deed documents reveal and organization.
Keywords Deed document. Huizhou. Shanghai Jiao Tong University.
0 引言
近十年來,地方歷史文獻(xiàn)的發(fā)現(xiàn)、收藏數(shù)量呈井噴態(tài)勢,其中古徽州地區(qū)文獻(xiàn)被譽為是“繼甲骨文字、漢晉簡帛、敦煌文書、明清檔案之后中國文獻(xiàn)史上第五大發(fā)現(xiàn)”[1]。因此,地方歷史文獻(xiàn)對于文化保存與學(xué)術(shù)研究所具有的重要性可見一斑。契約文書因具備鮮明的地方性、民間性、時代性和真實性,成為地方文獻(xiàn)中的一類特種文獻(xiàn)。歷史學(xué)者越來越重視對地域和社會組織方面的研究,強(qiáng)調(diào)文獻(xiàn)史料所處的地域情境和社會組織關(guān)系[2]。圖書館作為收藏地方歷史文獻(xiàn)的重要機(jī)構(gòu)之一,承擔(dān)著對文獻(xiàn)開展數(shù)字化和信息組織的建設(shè)任務(wù),圍繞契約文書等相關(guān)地方歷史文獻(xiàn)開展的數(shù)字化資源組織揭示研究將有利于輔助數(shù)字化時代歷史學(xué)學(xué)術(shù)科研的進(jìn)展。
1 契約文書文獻(xiàn)特點分析
1.1 研究對文獻(xiàn)組織揭示的需求
契約文書是民間地方歷史文獻(xiàn)中重要的組成部分,作為民間社會在各種活動中直接產(chǎn)生的原始文字資料,具有原始性、惟一性及文物性質(zhì)[3]。史學(xué)研究者可以從中挖掘民間歷史記憶,還原活生生的、豐富多彩的民間社會生活,主要因素有:
(1) 契約文書中涉及買賣、租賃或分家等多種民間交易活動,深入細(xì)致地研究有利于全面還原民間社會經(jīng)濟(jì)發(fā)展全景。
(2) 契約文書歸戶性和地域特征包含豐富的行政地域信息,圖書館界可以通過對文獻(xiàn)時空維度的組織揭示為研究者提供有價值的潛在學(xué)術(shù)研究線索。
基于以上兩點原因,整理者和研究者都意識到原有史學(xué)研究對地域和社會組織方面的差異重視程度不夠,沒有強(qiáng)調(diào)地域信息對描述契約文書這類文獻(xiàn)時所起到的作用[2]。開始注重對文獻(xiàn)以家族為單位進(jìn)行分類整理,以體現(xiàn)某個姓氏家族在特定居住地域內(nèi)生活和生產(chǎn)方面的研究[4]。但是,僅依靠現(xiàn)代文獻(xiàn)分類體系無法精準(zhǔn)描述契約文書內(nèi)涵、時間和空間方面的信息特征。而且這些問題都是圖書館界和史學(xué)界對契約文書進(jìn)行信息組織與揭示研究中所面臨的新挑戰(zhàn)。
因此,筆者的研究視角聚焦在空間維度上系統(tǒng)性、規(guī)范化地組織、描述和揭示契約文書,形成科學(xué)系統(tǒng)的契約文書地域信息組織結(jié)構(gòu)和揭示方法。
1.2 關(guān)鍵問題分析
描述性元數(shù)據(jù)是圖書館領(lǐng)域用以組織揭示文獻(xiàn)資源的技術(shù)工具。通過描述文獻(xiàn)資源的內(nèi)容、范圍、權(quán)限等信息,在文獻(xiàn)資源與用戶之間構(gòu)建起使用的橋梁。通過元數(shù)據(jù)對文獻(xiàn)進(jìn)行資源描述、組織和揭示,實現(xiàn)資源的發(fā)現(xiàn)、識別、選擇和獲取,并提供資源互操作的途徑。
目前,國內(nèi)新疆地方古籍文獻(xiàn)、敦煌文書、徽州文書、清水江文書等多個地方文獻(xiàn)組織揭示研究項目已完成或正在進(jìn)行文獻(xiàn)資料數(shù)據(jù)庫的建設(shè)工作[5-8],均采用自建一般元數(shù)據(jù)方案進(jìn)行資源組織[9-11]。但是,僅依靠書目數(shù)據(jù)或一般元數(shù)據(jù)的方式對文獻(xiàn)進(jìn)行組織已不能全面深入地展示資源內(nèi)容。國際上一些主要的數(shù)字圖書館建設(shè)項目都設(shè)計了相應(yīng)的元數(shù)據(jù)標(biāo)準(zhǔn)指導(dǎo)資源揭示工作,但尚無針對類似契約文書資源的描述元數(shù)據(jù)規(guī)范。例如,美國國會圖書館的PREMIS側(cè)重資源數(shù)字化長期保存規(guī)范的數(shù)據(jù)模型[12],但是對歷史文獻(xiàn)類資源互操作仍缺乏完整地規(guī)范性操作指導(dǎo)。我國的《專門數(shù)字對象描述元數(shù)據(jù)規(guī)范》 和國家數(shù)字圖書館工程標(biāo)準(zhǔn)規(guī)范項目研究成果中,地方歷史文獻(xiàn)的元數(shù)據(jù)規(guī)范均未列入專門元數(shù)據(jù)規(guī)范中。
國內(nèi)多家學(xué)術(shù)機(jī)構(gòu)已經(jīng)明確意識到契約文書描述、組織和揭示工作的特殊性,并先后從多個角度開展相關(guān)研究。中山大學(xué)圖書館從著錄規(guī)范的角度論證時間項、地點項和歸戶項等對組織揭示文書的重要意義[13]。黃山學(xué)院從標(biāo)識、內(nèi)容、物理外觀三個方面定義并設(shè)計徽州文書元數(shù)據(jù)[14]。閩都文獻(xiàn)多維度標(biāo)引[15]和臺灣古契約文書數(shù)據(jù)庫等項目以特色地方文獻(xiàn)的標(biāo)引和數(shù)據(jù)庫建設(shè)工作為重點展開研究。
國內(nèi)收藏契約文書的圖書館或檔案館等機(jī)構(gòu)逐步進(jìn)入對資源進(jìn)行數(shù)字化整理的實踐性研究階段,包括科學(xué)有序地整理、分類和加工建設(shè)工作。吳佩林分析國內(nèi)地方文獻(xiàn)整理與數(shù)字化工作現(xiàn)狀,認(rèn)為文獻(xiàn)編目未完全體現(xiàn)資料內(nèi)在連貫性和整體性是主要存在問題之一,而且大多采取自行制定元數(shù)據(jù)的方案來完成資源組織與描述[16]。
成千上萬件雜亂的契約文書將增加用戶使用的困難,只有經(jīng)過有序組織才能幫助用戶使用契約文書,梳理出研究脈絡(luò)與線索。結(jié)合契約文書文獻(xiàn)特征以及研究需求,筆者認(rèn)為對契約文書的地域信息進(jìn)行有序地、科學(xué)地、規(guī)范地組織描述和揭示是解決此類地方歷史文獻(xiàn)組織的重要研究方向之一。
1.3 地域信息描述與提取途徑
史學(xué)研究者已普遍認(rèn)為將文獻(xiàn)史料融入當(dāng)時社區(qū)情境是學(xué)術(shù)界普遍認(rèn)同的有效研究視角,因此特別希望整理挖掘中國近代村落、土地以及社群之間的關(guān)系時能從文獻(xiàn)中獲取更多情境式的線索[17]。契約文書中交易發(fā)生所在地域的分布統(tǒng)計與呈現(xiàn)既有助于讀者從總體上把握文獻(xiàn)的分布和存量,也將提升數(shù)據(jù)庫的分析功能從而幫助人們發(fā)現(xiàn)不同批次文獻(xiàn)之間的聯(lián)系。以上學(xué)術(shù)研究需求的新趨勢成為契約文書元數(shù)據(jù)方案特征歸納的新要求。
契約文書元數(shù)據(jù)方案不僅要體現(xiàn)一般元數(shù)據(jù)規(guī)范應(yīng)具備的描述、發(fā)現(xiàn)、識別資源對象等的基礎(chǔ)功能,還要體現(xiàn)出內(nèi)容性、物理描述和識別特征。上海交通大學(xué)圖書館分類整理館藏的契約文書文獻(xiàn)后,研究制定了20個字段的元數(shù)據(jù)方案,包括類型、標(biāo)識符、檔案號、附注、頁數(shù)、尺寸、材質(zhì)、名稱、事主、歸戶、標(biāo)的、事由等信息。此元數(shù)據(jù)方案能實現(xiàn)年代、人名、類型、來源等多維度檢索和分析。深入分析歸納元數(shù)據(jù)方案,歸納出契約文書元數(shù)據(jù)信息提取的三類特征,圖1是契約文書內(nèi)容特征、物理特征和身份識別特征中具體描述和提取方案。
(1) 內(nèi)容特征。主要用來描述文書中涉及交易的事主和交易標(biāo)的物。標(biāo)的物中有大量的包含地域信息的內(nèi)容特征,如房屋坐落地、土地字號、山、果林等。此外,契約交易發(fā)生地理包含重要行政地域信息。
(2) 物理特征。物理特征主要用來描述文書的外形,包括頁數(shù)、尺寸、材質(zhì)等信息。
(3) 身份識別特征。身份特征主要指文書本身的唯一識別符,這是用來標(biāo)識文書的重要信息。
為了充分挖掘文獻(xiàn)在研究情境方面的突出價值,描述、組織并揭示地域信息,可以通過數(shù)字人文的手段實現(xiàn)契約文書中的地域信息關(guān)聯(lián)、組織與可視化[18]。實現(xiàn)前提是對契約文書文獻(xiàn)中蘊藏的地域信息進(jìn)行細(xì)致的分析,揭示其科學(xué)規(guī)律和規(guī)范。
因此,研究提出以立體層級關(guān)系的地域結(jié)構(gòu)來組織契約文書中與地域相關(guān)的信息,特別是交易地發(fā)生的地域信息,結(jié)合歸戶信息和時間維度對契約文書進(jìn)行全景式的組織與深度揭示。下面將重點闡述具體研究思路及實現(xiàn)過程。
2 地域信息組織與揭示的實現(xiàn)
地域信息組織與揭示的實現(xiàn)過程中,首先探索并設(shè)計適用于歷史文獻(xiàn)類型數(shù)據(jù)庫的標(biāo)準(zhǔn)化地域信息元數(shù)據(jù)組織方案,建立地域信息組織的層級結(jié)構(gòu)和提取流程,并選擇了約5.6萬件的契約文書文獻(xiàn)進(jìn)行實例分析,延伸出文書中地域元素可視化等數(shù)字人文功能,為史學(xué)研究者開展契約文書的深入研究提供支撐。
2.1 地域信息的組織
2.1.1 地域信息組織的特征分析
結(jié)合圖書館學(xué)、檔案學(xué)的文獻(xiàn)研究方法和知識組織方法,遵照契約文書的特征,從文書的產(chǎn)生脈絡(luò)及文書實際記載內(nèi)容出發(fā),建立適用于數(shù)據(jù)庫的契約文書地域信息的知識組織體系。基于契約文書的特性,研究設(shè)計名稱、歸戶、地域、時間和時間(公歷)等字段反映資料的多維度,其中,分析大量的契約文書后可知地域信息的特征字符以縣、都、圖為顯著特征字符。表1統(tǒng)計總結(jié)了契約文書名稱、歸戶、地域和時間等字段中的特征詞。
2.1.2 地域信息組織的層級結(jié)構(gòu)
契約文書元數(shù)據(jù)中地域字段蘊含了主要的地域相關(guān)信息,歸戶和描述兩個字段中也分別包含部分地域細(xì)節(jié)信息。比較三個字段所包含的具體地域特征,契約文書地域字段的內(nèi)容相對復(fù)雜,主要體現(xiàn)在地域行政區(qū)域的層級結(jié)構(gòu)。
由于大部分契約文書處于明清時期,所以設(shè)計地域信息組織的層級結(jié)構(gòu)需要著重考慮明清時期中國行政區(qū)劃特點。而當(dāng)時中國行政區(qū)域劃分原則是以省、縣、都、圖和村的體系結(jié)構(gòu)。因此,研究設(shè)計了“省—縣—都—圖—村”五級層級結(jié)構(gòu),(如圖2所示)。在具體設(shè)計的過程中,還參考了地方志地理信息系統(tǒng)的構(gòu)建思路和具體實現(xiàn)方法[19]。契約文書信息組織層級結(jié)構(gòu)設(shè)計考慮了標(biāo)準(zhǔn)化、兼容性、求同性與擴(kuò)展性等原則,使得研究者可以利用這一層次結(jié)構(gòu)實現(xiàn)多維文獻(xiàn)地理信息關(guān)聯(lián)聚類。
在實例研究的過程中,筆者根據(jù)契約文書文獻(xiàn)特點的標(biāo)準(zhǔn)化地域信息元數(shù)據(jù)方案,建立起古徽州地區(qū)地域信息的五層結(jié)構(gòu)體系。地域信息標(biāo)準(zhǔn)化層級體系結(jié)構(gòu)的建立有利于整合契約文書元數(shù)據(jù)中地域信息,為地域信息著錄、提取或轉(zhuǎn)換提供規(guī)范性的理論依據(jù)。經(jīng)過對地域信息的層級化梳理后,有助于提升數(shù)據(jù)內(nèi)容辨識度,以便立體多維的描述和可視化契約文書地域信息。下面的研究將圍繞如何對已編目的文書元數(shù)據(jù)內(nèi)容進(jìn)行標(biāo)準(zhǔn)化的提取與轉(zhuǎn)化展開。
2.2 地域信息的提取流程
完成契約文書中地域信息組織特征分析和層級結(jié)構(gòu)設(shè)計后,研究將進(jìn)一步對地域信息進(jìn)行提取方案的研究。具體對契約文書中地域信息提取的應(yīng)用流程如圖3所示。
(1) 截詞分析。根據(jù)契約文書名稱、歸戶、地域和時間等字段中的特征詞,運用程序截詞和人工干預(yù)的雙重方式完成特征字符的截詞工作。
(2) 特征分析。根據(jù)契約文書名稱、歸戶、地域和時間等字段中的特征詞,特別是地域信息特征詞“縣、都、圖”等,進(jìn)行地域信息的聚合分析。
(3) 信息展示。通過時間、地域和歸戶等維度做出契約文獻(xiàn)的信息可視化展示。
以古徽州地域信息特征為例,主要的分詞或截詞判斷原則是“府”“縣”“都”“圖”和“村”。通過分詞程序以古徽州地域信息特征進(jìn)行分詞或截詞判斷原則,提取出標(biāo)準(zhǔn)化的地域信息。必要時,可以由編目專家進(jìn)行人工干預(yù),詳細(xì)解讀契約文書中的內(nèi)容,結(jié)合研究需求及文書特點,判斷固定位置、關(guān)鍵詞、前后綴詞等方法尋找地域信息,提取后填入設(shè)計好的元數(shù)據(jù)字段中。經(jīng)過分詞程序和人工干預(yù)的雙重機(jī)制,可以基本確保標(biāo)準(zhǔn)化的地域信息被有效提取。
古徽州所屬區(qū)域包括現(xiàn)安徽歙縣、休寧、祁門、黟縣、績溪和江西婺源等6個縣,在近代中國歷史上古徽州地區(qū)有著相當(dāng)繁榮的商業(yè)經(jīng)濟(jì)生活,選取這一地區(qū)的文獻(xiàn)作為研究對象既有學(xué)術(shù)價值又具備推廣意義。上海交通大學(xué)圖書館新藏古徽州地區(qū)文獻(xiàn)中已完成數(shù)字化文書數(shù)量達(dá)到5.6萬件,這些文獻(xiàn)完成了契約的歸戶性、事主、事由、標(biāo)的物和地域信息的基本編目標(biāo)引。因此,這批文獻(xiàn)的前期數(shù)字化相關(guān)工作為后續(xù)的實例分析打下了扎實的研究基礎(chǔ)。
2.3 研究實例分析
研究實例主要來自上海交通大學(xué)圖書館館藏徽州歙縣區(qū)域的文書,這些文書經(jīng)過數(shù)字化和編目工作,完成了對文書日期、名稱、事主和歸戶信息的組織工作,如表2所示。這些元數(shù)據(jù)信息的基本組織工作可以梳理出文獻(xiàn)史料所處的情境,借助本文研究提出的地域?qū)蛹壗Y(jié)構(gòu)有利于進(jìn)一步深入還原整個文獻(xiàn)史料在時間、空間、內(nèi)容和歸戶等方面的真實情境。
因此,在館藏徽州契約文書基礎(chǔ)上,根據(jù)地域信息層級結(jié)構(gòu)并按照地域信息提取流程進(jìn)行實證分析研究。
2 順治六年二月
初四日 1649 順治六年吳三□立契 吳三□(立契人);□□千(中見人);方□□(中見人);吳灶□(代筆人);
(吳)社明(兄,買人) 安徽省歙縣三十三都五圖方氏
3 乾隆四十一年十月 1776 乾隆四十一年僉業(yè)票 方玄正(業(yè)戶);
方兆和(經(jīng)承) 安徽省徽州府歙縣三十三都三圖二甲方氏
4 乾隆二十四年十二月 1759 乾隆二十四年吊票 程□(戶名);
方聖先(受稅人);
鮑巖□(冊里) 安徽省徽州府歙縣三十三都三圖二甲方氏
2.3.1 截詞分析
按照前文表1和圖1的原則進(jìn)行截詞分析并按地域?qū)蛹壗Y(jié)構(gòu)進(jìn)行特征符提取,運行提取程序的部分結(jié)果實例如表3所示。
通過這樣的數(shù)據(jù)分析,可以全面概括出古徽州所轄六個縣,及縣轄各都,圖內(nèi)的文獻(xiàn)規(guī)模和內(nèi)容特征。研究還對截詞分析程序的運行效果進(jìn)行分析。以歙縣地區(qū)文書為例,截詞分析程序有效處理的文書比例為98%,僅2%的文書需要編目專家人工干預(yù)確定具體地域信息的準(zhǔn)確性。另外,在此基礎(chǔ)上進(jìn)行契約文書的時間特征或內(nèi)容特征的信息截詞分析。
2.3.2 特征分析
截詞分析過程中,程序標(biāo)準(zhǔn)化提取出文書中省、縣、都、圖(村)等地域信息。特征分析過程中,以縣為單位對各個縣所轄的都進(jìn)行組織與整合。以清乾隆三十六年刊本《歙縣志》為例,卷一《都鄙》中記載了歙縣當(dāng)時的都、圖、村信息,共計37個都。而館藏的歙縣各都地域文獻(xiàn)分析后發(fā)現(xiàn),37個都各自有一定數(shù)量的文書。按照地域信息層級結(jié)構(gòu)的逐級推進(jìn),研究還深入到選取各都中文書數(shù)量最多的三個都(33、35、37都)進(jìn)行時間(年代)維度和地域維度的交叉組織(如圖4所示)。
2.3.3 信息展示
依照地域信息的層級結(jié)構(gòu)提取出整個徽州地區(qū)的文書內(nèi)容,清晰形象地揭示并掌握文書總體規(guī)模。圖5是對館藏古徽州文獻(xiàn)完成地域特征符標(biāo)準(zhǔn)化提取后,制作生成的古徽州一府六縣文書規(guī)模的可視化圖。館藏契約文書經(jīng)過實證檢驗后,驗證了研究提出的地域?qū)蛹壗Y(jié)構(gòu)和地域信息提取流程的有效與可行。
3 總結(jié)與展望
契約文書在地方歷史文獻(xiàn)中占據(jù)重要比例,但這些珍貴的史料文獻(xiàn)尚未全面系統(tǒng)地揭示和充分利用。數(shù)字化時代契約文書的深度聚合與揭示的研究工作具有相當(dāng)重要的學(xué)術(shù)意義。圖書館從事地方文獻(xiàn)的搜集、典藏、整理和數(shù)字化工作必將是數(shù)字人文時代社科研究的大勢所趨[20]。
本文重點聚焦契約文書地域性研究,探索契約文書地域信息標(biāo)準(zhǔn)化描述、抽取、組織和揭示的實現(xiàn)路徑,提出契約文書地域信息層級組織結(jié)構(gòu)。以上海交通大學(xué)圖書館新藏古徽州契約文書為研究對象,開展契約文書地域信息組織與揭示新路徑的探索研究,期望滿足當(dāng)代史學(xué)學(xué)者研究過程中對文獻(xiàn)資源深度聚合與展示的數(shù)字人文需求[21]。下一步工作會,將本文的研究成果深入推廣并運用到契約文書數(shù)據(jù)庫功能改善中,實現(xiàn)資源關(guān)聯(lián)、聚合和可視化效果并豐富契約文書地理信息系統(tǒng)功能。