付昱承,徐愛(ài)惜,陳新文
隨著電子信息產(chǎn)業(yè)的不斷發(fā)展,電子家譜逐漸進(jìn)入實(shí)際應(yīng)用。平臺(tái)設(shè)定細(xì)致的家譜重建流程,或利用光學(xué)字符識(shí)別(Optical Character Recognition)技術(shù)對(duì)非手寫(xiě)家譜進(jìn)行掃描,轉(zhuǎn)換為計(jì)算機(jī)文字,切片后存入數(shù)據(jù)庫(kù)。并且考慮到家譜系統(tǒng)的復(fù)雜性,家譜數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)決定了管理操作的便捷與實(shí)用性。
2.1.1 手動(dòng)導(dǎo)入數(shù)據(jù)生成電子譜
作為電子家譜平臺(tái),各家各戶的家譜數(shù)據(jù)是基礎(chǔ)。家譜修訂通常由氏族德高望重之人負(fù)責(zé),他們處理宗祠等氏族內(nèi)部事務(wù),有一定的威信和號(hào)召力。這部分人更加注重氏族的光宗耀祖,后繼有人,因此會(huì)大力修訂家譜,促使氏族興旺繁榮。經(jīng)歷長(zhǎng)期走訪調(diào)研以及針對(duì)傳統(tǒng)家譜制作方式的考察,平臺(tái)設(shè)計(jì)了一套電子譜生成方式。其主要操作流程如下:
(1)根據(jù)姓氏,創(chuàng)建新家譜,添加家譜基本信息。并查詢整理已有老譜資料,成立家譜編纂小組。
(2)制定家譜編纂提綱及編修工作進(jìn)程安排。
(3)前言后記攥寫(xiě)、列出譜系目錄、例句等。
(4)印制調(diào)查表格,安排家譜編纂小組成員按照提綱進(jìn)行資料調(diào)查及征集。
(5)選擇家譜編修體例,確定采用歐體、蘇體、樹(shù)形圖或塔形圖。
(6)選擇家譜信息錄入方式,可采用光學(xué)字符識(shí)別技術(shù)直接掃描老譜生成電子譜,并對(duì)生成家譜中的信息進(jìn)行勘誤和補(bǔ)充。若無(wú)法使用字符識(shí)別技術(shù)進(jìn)行電子家譜制作,根據(jù)編撰小組提交的資料,進(jìn)行了族譜編輯、老譜系的選擇、世系、世界表的排列等工作,對(duì)家譜的譜序、傳記、家訓(xùn)、家規(guī)、題跋、世系圖等歷史的文集信息進(jìn)行編輯錄入。
(7)編輯好家譜的基本信息,開(kāi)始按要求依次錄入家族成員信息。
2.1.2 光學(xué)字符識(shí)別技術(shù)識(shí)別紙質(zhì)譜
光學(xué)字符識(shí)別技術(shù)是利用光學(xué)技術(shù)和計(jì)算機(jī)技術(shù)掃描識(shí)別紙中文字,并轉(zhuǎn)換成計(jì)算機(jī)可接受、人又可理解的格式。利用當(dāng)前已經(jīng)成熟的字符識(shí)別技術(shù)、針對(duì)家譜信息改良的語(yǔ)義分析算法,解決在紙質(zhì)譜轉(zhuǎn)電子譜過(guò)程中的印刷文本讀取識(shí)別與人物關(guān)系(如父子)的追溯兩大難點(diǎn)。與智能手機(jī)、數(shù)碼相機(jī)和掃描儀等設(shè)備(為確保數(shù)據(jù)準(zhǔn)確,結(jié)合當(dāng)前OCR的識(shí)別效果,推薦使用掃描儀)配合使用,使族譜編寫(xiě)更高效。具體識(shí)別流程如下:
(1)收集族譜圖片:使用掃描儀掃描紙質(zhì)族譜,設(shè)置合適的掃描分辨率,若分辨率過(guò)高則會(huì)導(dǎo)致掃描時(shí)間增加。一般采用300dpi較合適,可根據(jù)字號(hào)大小進(jìn)行調(diào)整。對(duì)于一些紙張較薄的稿件,巧妙使用灰色掃描/圖片灰度化處理處理。避免受到背面文字干擾。R、G、B三個(gè)取值范圍:0~255,像素顏色有24次方種選擇,計(jì)算像素RGB的三個(gè)分量的均值,存儲(chǔ)于相應(yīng)的矩陣中,構(gòu)造灰度圖像。以jpg/png格式結(jié)束。
(2)對(duì)圖片預(yù)處理:
噪聲去除:用高斯模糊和其他濾波器對(duì)圖片進(jìn)行處理,去除大部分的噪聲,可使圖像在后面的應(yīng)用中減少許多干擾。
二值化:考慮到攝像頭拍攝的圖片大多為彩色圖像,包含信息量相比于黑白圖像更大,可簡(jiǎn)單定義前景信息為黑色,背景信息為白色,其關(guān)鍵在于閾值T選擇,閾值確定后可將多灰度級(jí)圖像的每一點(diǎn)與閾值比較,大于T即二值化為1,反之則為0,便于后續(xù)的處理。
圖像傾斜矯正:考慮到人工對(duì)原圖的拍攝或掃描角度有一定誤差,最終圖像在水平或豎直方向有一定程度的傾斜,即可能導(dǎo)致后續(xù)表格分割出現(xiàn)偏差、識(shí)別率低下等情況。通過(guò)邊緣檢測(cè)與霍夫線變換算法,對(duì)圖中表格輪廓進(jìn)行檢測(cè),得到水平和豎直方向的線條。之后通過(guò)獨(dú)創(chuàng)的角度矯正算法,對(duì)表格的水平方向和豎直方向的傾斜角度進(jìn)行判斷,再進(jìn)行矯正,得到規(guī)整的圖片,用于下一步的表格化分割。
(3)對(duì)圖片進(jìn)行表格化分割:通過(guò)上一步得到的規(guī)整圖片,再次進(jìn)行霍夫線變換檢測(cè)出表格的線條輪廓。針對(duì)族譜的不同樣式使用不同的切割模型進(jìn)行分析,得出表格的形狀結(jié)構(gòu),之后對(duì)表格中各單元格進(jìn)行分割,得到每個(gè)單元格的小圖片,用于進(jìn)一步的識(shí)別。
(4)調(diào)用文字識(shí)別接口:目前有很多訓(xùn)練成熟的OCR接口,將每個(gè)單元格的圖片導(dǎo)入,經(jīng)過(guò)識(shí)別后返回的內(nèi)容數(shù)據(jù)。識(shí)別率通??蛇_(dá)95%以上。
(5)根據(jù)表格格式組合信息:根據(jù)不同的表格格式設(shè)計(jì)不同的信息組合方式,將各個(gè)單元格的識(shí)別內(nèi)容根據(jù)原圖片表格的結(jié)構(gòu)進(jìn)行組合,得到需要的結(jié)構(gòu)化數(shù)據(jù)并進(jìn)行人工核對(duì)。
(6)語(yǔ)義分析:對(duì)于理解語(yǔ)句意思,尤其是文言文,準(zhǔn)確的判斷主謂、述語(yǔ)與賓語(yǔ)等之間的名詞與動(dòng)詞的語(yǔ)義對(duì)提煉關(guān)鍵信息極其重要。按表格分割數(shù)據(jù)后,將各個(gè)位置的信息定位并提取,主要提取出姓名,簡(jiǎn)介,根據(jù)簡(jiǎn)介信息提取出其父親姓名,并分析是其第幾子。具體方法:首先在簡(jiǎn)介中查找“長(zhǎng)子”“次子”“三子”等關(guān)鍵詞,在這些關(guān)鍵詞之前的便是其父親名,再根據(jù)“長(zhǎng)子”“次子”“三子”等確定是其父親的第幾子。對(duì)簡(jiǎn)介中類似“生”“娶”“適”“葬”等動(dòng)詞進(jìn)行判斷,分析動(dòng)詞的施事和受事,對(duì)家譜信息的精確提煉有現(xiàn)實(shí)意義。
(7)數(shù)據(jù)存入數(shù)據(jù)庫(kù):根據(jù)語(yǔ)義分析出的人物關(guān)系,將識(shí)別出的人物基本信息存入數(shù)據(jù)庫(kù),用于后續(xù)的建樹(shù)。 注:OCR對(duì)于印刷體(包括活字印刷)的識(shí)別已十分成熟,但由于手寫(xiě)體各具特色,因此目前尚未能對(duì)手寫(xiě)體進(jìn)行有效的識(shí)別,即對(duì)于年代久遠(yuǎn)的非印刷版老譜,還需人工手動(dòng)導(dǎo)入平臺(tái)。
2.2.1 一般結(jié)構(gòu)分析
宗譜的核心內(nèi)容是譜系,采用線、圖、立表的形式,將一個(gè)姓氏的第一宗族和以下各種后代布列起來(lái),給人留以清晰印象。上述字符識(shí)別技術(shù)中的結(jié)構(gòu)化數(shù)據(jù),能夠清晰對(duì)應(yīng)家譜數(shù)據(jù)中的每個(gè)節(jié)點(diǎn)。同家譜數(shù)據(jù)中由后代節(jié)點(diǎn)和父代節(jié)點(diǎn)分別組成家譜樹(shù)的特點(diǎn)對(duì)應(yīng),電子家譜系統(tǒng)通常采用樹(shù)形結(jié)構(gòu)。
2.2.2 數(shù)據(jù)結(jié)構(gòu)
二叉樹(shù)是每個(gè)節(jié)點(diǎn)最多有兩個(gè)子樹(shù)的樹(shù)結(jié)構(gòu)?;緮?shù)據(jù)結(jié)構(gòu)中樹(shù)與家譜體系結(jié)構(gòu)十分相似,前后輩間的節(jié)點(diǎn)關(guān)系就是樹(shù)中父節(jié)點(diǎn)與子節(jié)點(diǎn)的關(guān)系。二叉樹(shù)的存儲(chǔ)結(jié)構(gòu)比較簡(jiǎn)單,對(duì)于遍歷等基本操作比較方便,所以有時(shí)需要把復(fù)雜的樹(shù),轉(zhuǎn)換為簡(jiǎn)單的二叉樹(shù)后再作處理。在此系統(tǒng)的二叉樹(shù)中,設(shè)計(jì)左子樹(shù)第一節(jié)點(diǎn)為父節(jié)點(diǎn)的兄弟,右子樹(shù)第一節(jié)點(diǎn)為父節(jié)點(diǎn)的兒子。
2.2.3 數(shù)據(jù)存儲(chǔ)方法
本平臺(tái)采用三叉鏈表存儲(chǔ)二叉樹(shù),與二叉鏈表不同的是,除指向孩子與兄弟的指針外,還需一個(gè)指向父節(jié)點(diǎn)的指針以便回溯祖先節(jié)點(diǎn),并且便于確立節(jié)點(diǎn)間的關(guān)系。選定家族成員作為基本的數(shù)據(jù)單元,定義結(jié)構(gòu)體BiTNode及各類指針。
電子家譜的可視化形式是家譜信息化的重要組成部分。針對(duì)已有家譜樹(shù)中,邊的數(shù)量隨節(jié)點(diǎn)數(shù)增長(zhǎng)而快速增長(zhǎng)導(dǎo)致可視化效果差的問(wèn)題,可以選擇不考慮夫妻關(guān)系從而減少邊的數(shù)量。從而形成每一個(gè)父/母節(jié)點(diǎn)的入點(diǎn)與多個(gè)單個(gè)孩子組成的出點(diǎn)集相對(duì)的關(guān)系模式。應(yīng)傳統(tǒng)家譜中未記錄女性家族成員,即為了保證現(xiàn)代人工導(dǎo)入數(shù)據(jù)與OCR識(shí)別傳統(tǒng)紙質(zhì)譜所獲得數(shù)據(jù)的存儲(chǔ)方法一致,數(shù)據(jù)存儲(chǔ)方法中不需要考慮夫妻關(guān)系,將女性成員信息收入其父親家族所在譜中,從而保證數(shù)據(jù)的統(tǒng)一,使展示結(jié)果清晰易懂。在用戶界面中,可對(duì)每一層中的兄弟節(jié)點(diǎn)進(jìn)行歸納,以集合的形式展示,增強(qiáng)家譜樹(shù)的表現(xiàn)力。
目前市場(chǎng)上有對(duì)家譜互聯(lián)網(wǎng)化的方向傾斜,但仍不夠完善。能夠使互聯(lián)網(wǎng)家譜去中心化,實(shí)現(xiàn)人人參與修譜的靈活操作,使整份族譜更全面、完善的修譜軟件依舊缺失。本平臺(tái)運(yùn)用的家譜管理方法和修譜手段,降低管理成本,優(yōu)化修譜流程,實(shí)現(xiàn)對(duì)家譜資源記載的重新挖掘。具有顯著的經(jīng)濟(jì)效益和社會(huì)效益。利用光學(xué)字符識(shí)別技術(shù),在保證效率的前提下實(shí)現(xiàn)家譜數(shù)據(jù)開(kāi)發(fā)式的收集,通過(guò)不同的切割模型提取關(guān)鍵信息,語(yǔ)義分析發(fā)掘深層次的信息價(jià)值。優(yōu)化存儲(chǔ)過(guò)程和可視化形式,實(shí)現(xiàn)從掃描到樹(shù)形可視化的迅速轉(zhuǎn)換。但OCR技術(shù)針對(duì)手寫(xiě)體和年久失修的老譜識(shí)別率暫未達(dá)到要求,以及如何展示具有夫妻關(guān)系且可視化效果強(qiáng)的家譜圖,是筆者暫未能解決的問(wèn)題。
參考文獻(xiàn)∶
[1]關(guān)于Android平臺(tái)的OCR文字識(shí)別[J].數(shù)字技術(shù)與應(yīng)用,2017(07).
[2]陳國(guó)軍,張庭玉.基于二叉樹(shù)的電子家譜設(shè)計(jì)方法[J].軟件,2015.
[3]劉軍丹,趙書(shū)良,趙嬌嬌,郭曉波,陳敏,柳萌萌.家譜關(guān)系的元圖表示[J].計(jì)算機(jī)應(yīng)用,2013(07).
[4]王紀(jì)坤,劉晶紅.尋根問(wèn)祖,薪火相傳——從文化尋根思潮探析譜牒文獻(xiàn)的社會(huì)文化價(jià)值[J].圖書(shū)與情報(bào),2009(05).
[5]耿宇航.掃描儀使用OCR技巧[J].中國(guó)現(xiàn)代教育裝備,2008(10).
[6]孫良明.談古文訓(xùn)詁中的語(yǔ)義關(guān)系分析——兼述讀俞樾《諸子平議》《群經(jīng)平議》[J].古籍整理研究學(xué)刊,1997(03).