■ 連 超 艾 麗
怎樣更快、更準(zhǔn)查找檔案,怎樣深入挖掘和開發(fā)檔案信息,是檔案工作永恒的主題。云南省檔案局十年數(shù)字化大幅提高了檔案利用效率,但仍只是在一定程度上解決了查閱者的需求。為了更加精準(zhǔn)查找檔案,推進(jìn)大數(shù)據(jù)應(yīng)用,省局相繼開展了十幾個(gè)專題數(shù)據(jù)庫(kù)建設(shè),其中館藏民國(guó)檔案人名數(shù)據(jù)庫(kù)就是其中一個(gè)基礎(chǔ)性數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)是以方便快捷查閱云南省檔案館館藏民國(guó)檔案數(shù)字化原文為目標(biāo),以每件卷內(nèi)文件為對(duì)象,圍繞人名采集相關(guān)信息,并聚合檔案數(shù)字化原文查看路徑、安全管理信息所構(gòu)建的專題數(shù)據(jù)庫(kù)。2019年首期項(xiàng)目已完成任務(wù)190萬(wàn)條,取得較好效果:一個(gè)人在卷帙浩繁的民國(guó)歷史長(zhǎng)河中所經(jīng)歷發(fā)生的各個(gè)事件記錄,只要輸入姓名關(guān)鍵字段一檢索,幾秒中之內(nèi)就可以查找完備。不僅查準(zhǔn)查全率的層次大幅提高,而且使人物在發(fā)展軌跡的歸集上有跡可考、有章可循。
建設(shè)伊始,規(guī)矩先行,民國(guó)檔案人名數(shù)據(jù)庫(kù)注重?cái)?shù)據(jù)采集的規(guī)范性。我們先后制定了《云南省檔案館館藏民國(guó)檔案人名數(shù)據(jù)庫(kù)建設(shè)業(yè)務(wù)規(guī)范》《館藏民國(guó)檔案人名數(shù)據(jù)庫(kù)建設(shè)成果質(zhì)量驗(yàn)收規(guī)范》等規(guī)章制度,逐步建立起切合工作實(shí)際的規(guī)范標(biāo)準(zhǔn)。重點(diǎn)把握以下幾方面要求:
采集項(xiàng)目的范圍,重點(diǎn)是關(guān)鍵字段的設(shè)置。怎樣清晰地把一個(gè)人同其他人區(qū)別開來(lái)?通過(guò)設(shè)置姓名、身份、機(jī)構(gòu)名稱、職銜、地名、稱謂、字、別號(hào)、曾用名、籍貫等著錄字段,基本可以達(dá)到目的。即使萬(wàn)一有重名的情況,但是身份、職銜、籍貫等其他信息不可能完全相同。
姓名信息的著錄,重點(diǎn)是格式的完整統(tǒng)一性。對(duì)照檔案數(shù)字化原文,采集文件材料正文中出現(xiàn)的人物的姓名,同一人物姓名在同一件檔案中僅需采集一次,受文者、發(fā)文者及文件正文中與文件主題有直接關(guān)系的人物均應(yīng)采集。一是按文件材料所書寫的姓名進(jìn)行著錄,如原文書寫為“字”“別號(hào)”“曾用名”的,原則上應(yīng)照原文著錄并加考證并補(bǔ)充著錄其學(xué)名。如龍志舟【龍?jiān)啤俊⑺善隆静体姟?二是書寫為“職銜+姓”的人物,原則上應(yīng)著錄其全名。如云南省建設(shè)廳發(fā)文,正文中寫為“廳長(zhǎng)張”的人物,應(yīng)著錄為張邦翰。
身份信息的著錄,重點(diǎn)是科學(xué)劃分所屬群體。著錄規(guī)則主要有兩點(diǎn):一是機(jī)構(gòu)、軍隊(duì)或黨派身份,著錄格式為完整的機(jī)構(gòu)(軍隊(duì)、黨派)名稱+職銜,如:云南省政府主席、中國(guó)銀行昆明分行經(jīng)理、第六十軍上士、云南省財(cái)政廳第一科科長(zhǎng)、西南聯(lián)大歷史系研究生;二是個(gè)人、社會(huì)、群體身份,著錄格式為地名(社群名)+稱謂。如:保山縣商民、昆明火柴同業(yè)公會(huì)會(huì)長(zhǎng)、騰沖縣士紳、云南旅京同鄉(xiāng)會(huì)成員、元江縣第四區(qū)鄉(xiāng)民等。但在采集過(guò)程中,發(fā)現(xiàn)一些人本身已有所屬單位和職銜,但在某一段時(shí)間內(nèi),被臨時(shí)抽調(diào)組建新的團(tuán)體。比如某件檔案主題是抽調(diào)某些縣長(zhǎng)去某機(jī)構(gòu)參加某種培訓(xùn),那么此時(shí)他們的新身份就是學(xué)員。所以應(yīng)按該人物在該件檔案原文中表述的身份進(jìn)行采集。
檔案開發(fā)的目的在于更好地應(yīng)用。在工作實(shí)踐中,需要以問(wèn)題為導(dǎo)向,進(jìn)而提出有針對(duì)性的解決方法,以點(diǎn)帶面,逐步總結(jié)出有借鑒意義的經(jīng)驗(yàn)范式。
強(qiáng)化培訓(xùn),準(zhǔn)確理解民國(guó)行文。民國(guó)檔案豎行文,繁體字,基本上都不是規(guī)整的印刷體,而是手寫的毛筆字,還有許多狂草,加上各種圈點(diǎn)勾畫,更顯潦草雜亂,通篇不加句讀。有些繁體字和現(xiàn)代字的字形反差很大,想當(dāng)然地理解,就容易錄錯(cuò)。比如古體字“裏”,就是現(xiàn)在的“里”,但容易理解為現(xiàn)代字“裹”;又如古體字“彙”,就是現(xiàn)在的“匯”,但容易理解為現(xiàn)體字“橐”。要想從字里行間找出人物姓名,需要采集者對(duì)中國(guó)傳統(tǒng)文化的淵源和藝術(shù)鑒賞力有較深厚的功底和知識(shí)儲(chǔ)備,尤其是對(duì)各種毛筆字體,如行楷篆隸等都有涉獵。另外,民國(guó)行文習(xí)慣在今看來(lái)時(shí)有不通順,如政府特派尚委員嘉惠,其實(shí)就是該特派員叫尚嘉惠;又如李前縣長(zhǎng)浚,其實(shí)就是前任縣長(zhǎng)叫李浚。所以要求采集者能迅速判斷出令、公函、呈、布告、批諭、咨等各種范式,較熟悉民國(guó)公文用語(yǔ)和地方機(jī)構(gòu)的設(shè)置與演變。再次,民國(guó)時(shí)期的職務(wù)和現(xiàn)今有所不同,有一些沿襲下來(lái)的歷史典故,如原文件里落款為“某政府主席代行拆”,何謂“代行拆”,字面的意思是代替該主席拆文閱覽,其實(shí)就是秘書。那么,著錄身份的時(shí)候,就要適時(shí)轉(zhuǎn)換為今人的職銜。
數(shù)據(jù)清洗,信息考證輔助查重(chong)。查找并處理異常數(shù)據(jù),發(fā)現(xiàn)并處理不具備有效檢索作用的人名、機(jī)構(gòu)、地名等著錄信息,確保數(shù)據(jù)可用,檢查并刪除重復(fù)數(shù)據(jù),達(dá)到同一件檔案內(nèi)無(wú)重復(fù)數(shù)據(jù)的要求。同時(shí),發(fā)現(xiàn)文件中一些人名價(jià)值不大,從而進(jìn)一步甄選采集范圍,確保數(shù)據(jù)的完整性、規(guī)范性、一致性、有效性。主要有幾大類無(wú)需采集的姓名:一是無(wú)銜職的普通民眾。如壯丁、雜役、伙夫、馬夫等;二是流程式人物。如擬稿、核稿、校對(duì)、監(jiān)印、簽收等與文件主題無(wú)關(guān)的人;三是難以考證之人。如原文或印章無(wú)法辨識(shí)的人、有姓無(wú)名之人。
自檢內(nèi)檢,雙管齊下謀求質(zhì)量。我們發(fā)現(xiàn),如果只是單純求快,員工只顧采集,不能有效地敦促加工人員。只有引入績(jī)效,才能使員工形成壓力和動(dòng)力,進(jìn)而達(dá)到質(zhì)量和效率的統(tǒng)一。每名采集人員需要對(duì)自己錄的條目負(fù)責(zé),每天采集完成的數(shù)據(jù),需要檢查準(zhǔn)確性;加工公司內(nèi)設(shè)專職質(zhì)檢,統(tǒng)計(jì)錯(cuò)誤。兩層檢查以后,再分批提交監(jiān)理公司驗(yàn)收。監(jiān)理人員逐件打開圖像,逐條對(duì)照姓名查驗(yàn),每卷發(fā)現(xiàn)錯(cuò)漏的情況超過(guò)三條就要打回,不告知加工公司具體錯(cuò)誤,促使其自行查找改錯(cuò)。如此往復(fù),直至錯(cuò)誤率為零。
館藏民國(guó)檔案人名數(shù)據(jù)庫(kù)的建設(shè)集應(yīng)用性和趣味性于一身,查閱者徜徉于云南民國(guó)時(shí)期的世情百態(tài),遍覽各色曲折事件、風(fēng)貌人物,知識(shí)性豐饒、應(yīng)用性廣泛,具有較高的社會(huì)利用價(jià)值。為全方位深入挖掘各種潛在的數(shù)據(jù)資源做出了良好的詮釋,也為全面推進(jìn)信息化開發(fā)建設(shè)、迎接大數(shù)據(jù)時(shí)代的到來(lái)做出了很好的鋪墊。