張旭,趙彥輝,劉樹春*
?
本草古籍?dāng)?shù)字化及嵌入學(xué)術(shù)資源平臺(tái)的探索與實(shí)踐
張旭1,趙彥輝2,劉樹春2*
1.遼寧中醫(yī)藥大學(xué)藥學(xué)院,遼寧 大連 116600;2.遼寧中醫(yī)藥大學(xué)圖書館,遼寧 沈陽 110032
本文回顧了國內(nèi)古籍?dāng)?shù)字化的現(xiàn)狀,比較了不同類型數(shù)字化的特點(diǎn),討論了中醫(yī)藥專業(yè)古籍?dāng)?shù)字化建設(shè)及本草類古籍在內(nèi)容結(jié)構(gòu)上的特殊性,分析對(duì)比了國內(nèi)常見的中醫(yī)藥專業(yè)古籍?dāng)?shù)據(jù)庫的功能特色。以《植物名實(shí)圖考》為例,開展了本草古籍?dāng)?shù)字化服務(wù)模式的新嘗試。提出將數(shù)字化古籍進(jìn)行知識(shí)點(diǎn)切割和文字識(shí)別,經(jīng)過編號(hào)、命名、標(biāo)引,形成獨(dú)立的知識(shí)單元,嵌入到基于J2EE的SSH框架的東北地產(chǎn)藥用植物學(xué)術(shù)資源平臺(tái),通過語義知識(shí)點(diǎn)與平臺(tái)相關(guān)聯(lián),擴(kuò)展檢索路徑和利用方式,形成專題性知識(shí)服務(wù)系統(tǒng)。在豐富平臺(tái)服務(wù)內(nèi)容的同時(shí),擴(kuò)展古籍的利用途徑和探索古籍?dāng)?shù)字化的新模式,有助于對(duì)古籍進(jìn)行深入挖掘和利用。
本草古籍;古籍?dāng)?shù)字化;資源整合;知識(shí)嵌入;知識(shí)服務(wù)
古籍是指以紙為載體抄寫或未采用現(xiàn)代印刷技術(shù)印制的書籍,而且這些書籍往往經(jīng)過百年甚至千年的保存和利用,已經(jīng)非常脆弱。為了對(duì)其實(shí)施保護(hù),同時(shí)方便開發(fā)和合理利用,最有效的方法是進(jìn)行數(shù)字化處理,實(shí)現(xiàn)古籍整理、存儲(chǔ)、檢索、閱讀及傳輸?shù)碾娮踊?。雖然古籍?dāng)?shù)字化相關(guān)研究與實(shí)踐探索已經(jīng)有30余年的歷史[1],但在數(shù)字化技術(shù)、采取的數(shù)字化模式、建立的服務(wù)平臺(tái)等方面還存在著參差不齊的現(xiàn)象,在對(duì)古籍的保護(hù)和利用方面還有諸多需要探索之處。本文以本草類古籍為例,對(duì)古籍?dāng)?shù)字化的路徑、技術(shù)、方法及嵌入至學(xué)術(shù)資源服務(wù)平臺(tái)的可行性進(jìn)行探討。
古籍保存對(duì)溫濕度、照明、紫外線、空氣凈化、通風(fēng)、防蟲防鼠、消防安防等各種環(huán)境要求非常高,最重要的是在古籍使用過程中的人工磨損給古籍的保存和利用帶來現(xiàn)實(shí)上的矛盾。隨著計(jì)算機(jī)技術(shù)的應(yīng)用普及,自20世紀(jì)80年代初開始,在我國陸續(xù)開展了對(duì)古籍的數(shù)字化研究探索,既有助于對(duì)古籍進(jìn)行永久性保存及再生性保護(hù),以減少因環(huán)境和人為等因素造成的損失,同時(shí)還可以方便對(duì)古籍的整理、存儲(chǔ)、交流、傳播與利用,促進(jìn)對(duì)古籍文獻(xiàn)信息開展有效利用和深入研究。
在古籍?dāng)?shù)字化研究與實(shí)踐中,存在著不同的數(shù)字化處理方式和服務(wù)模式。除了古籍書目數(shù)字化以外,最主要的是將古籍以“文本版”或“圖像版”形式數(shù)字化,以光盤或磁盤作為存儲(chǔ)媒介提供瀏覽檢索服務(wù)。兩種方式在文字識(shí)別、全文檢索、存儲(chǔ)空間、瀏覽閱讀等方面各有優(yōu)缺點(diǎn)[2]。目前,無論是對(duì)單種古籍的數(shù)字化還是對(duì)批量古籍?dāng)?shù)字化后建立數(shù)據(jù)庫,無論是圖像庫還是文本庫,無論是光盤版或是網(wǎng)絡(luò)數(shù)據(jù)庫平臺(tái),基本都是以圖書整體為單位提供瀏覽或檢索閱讀服務(wù),可以稱為文獻(xiàn)型數(shù)據(jù)庫。在已經(jīng)建設(shè)的古籍?dāng)?shù)字化平臺(tái)所采取的文本型、圖像型和圖文型等數(shù)字化處理類型和服務(wù)模式中,也體現(xiàn)出不同的特點(diǎn)(見表1)。
表1 不同類型的古籍?dāng)?shù)字化方法及特點(diǎn)比較
在古籍?dāng)?shù)字化過程中,除了整體數(shù)字化并提供服務(wù)外,也有學(xué)者提出了一種基于知識(shí)元的知識(shí)表示方法。通過對(duì)中醫(yī)古籍知識(shí)結(jié)構(gòu)、語義解釋方式以及語義關(guān)系的分析研究,建立中醫(yī)古籍語料庫,對(duì)古籍知識(shí)元進(jìn)行解析,實(shí)現(xiàn)基于內(nèi)容的數(shù)據(jù)庫檢索和知識(shí)關(guān)聯(lián)[3],從而在常規(guī)的古籍文獻(xiàn)型數(shù)據(jù)庫的基礎(chǔ)上,進(jìn)一步發(fā)展成為古籍知識(shí)庫。
經(jīng)過探索與實(shí)踐,在初期的注重綜合性古籍圖像或文本數(shù)據(jù)庫建設(shè)的基礎(chǔ)上,逐步擴(kuò)展建設(shè)專業(yè)性、專題性古籍?dāng)?shù)據(jù)庫。國內(nèi)的中醫(yī)藥信息研究機(jī)構(gòu)在中醫(yī)古籍?dāng)?shù)字化方面也取得了可喜的成果,陸續(xù)建立了多個(gè)中醫(yī)藥專業(yè)性古籍文獻(xiàn)數(shù)字化服務(wù)平臺(tái),如由中國中醫(yī)科學(xué)院開發(fā)的“中醫(yī)藥珍善本古籍多媒體數(shù)據(jù)庫”“海外回歸中醫(yī)古籍善本集粹”等。此外,國內(nèi)專業(yè)數(shù)據(jù)庫公司也相繼開發(fā)建設(shè)了多個(gè)中醫(yī)藥古籍?dāng)?shù)據(jù)庫平臺(tái),而且這些平臺(tái)在收錄古籍?dāng)?shù)量、錄入方式、利用途徑、服務(wù)模式等方面各具特色,基本實(shí)現(xiàn)了文字識(shí)別或錄入、人工校對(duì)、全文檢索、圖文對(duì)照等功能(見表2)。
本草古籍是中醫(yī)典籍的重要組成部分,記載著中草藥在疾病治療、食療養(yǎng)生、美容保健等方面的應(yīng)用,凝聚著古代醫(yī)家的臨床實(shí)踐經(jīng)驗(yàn)。古籍?dāng)?shù)字化建設(shè)為本草古籍的保護(hù)和開發(fā)利用帶來新的契機(jī),為相關(guān)研究提供了更加豐富的素材。
與中醫(yī)藥其他類別的古籍相比,本草類古籍在編制結(jié)構(gòu)和內(nèi)容上具有結(jié)構(gòu)性明顯和條目化清晰等特點(diǎn)。例如《植物名實(shí)圖考》,每個(gè)植物藥均為一個(gè)完整的結(jié)構(gòu)化條目,包括:植物藥名、別名、功能主治、生長(zhǎng)特點(diǎn)、藥用方法、用法用量及注意事項(xiàng)等,構(gòu)成了完整的知識(shí)單元。其他本草類古籍也有類似結(jié)構(gòu)。一般藥用植物的記載大都包含名稱(別名、俗名、代稱)、分類(上中下三品、來源、自然屬性、功能分類)、來源(物種、部位、生境、記載)、性味(陰陽、五行、四氣、五味、歸經(jīng)、升降、毒性)、配伍(單行、相須、相使、相畏、相殺、相惡、相反、君、臣、佐、使)、功用(功效、副作用)、主治(主證、主?。?、組方、炮制(制法、器具、炮制時(shí)間、輔料、貯藏、禁忌)、采收(時(shí)間、方式)、地域(產(chǎn)地、道地)、鑒定(色澤、氣味、形狀、質(zhì)地、辨?zhèn)?、質(zhì)量、類藥)、用法(入藥方法、服用方法、服藥時(shí)間、用量、注意事項(xiàng))、禁忌(配伍禁忌、飲食禁忌、人群禁忌)、引用(人物、論述)等知識(shí)點(diǎn)。
表2 5種中醫(yī)藥古籍?dāng)?shù)據(jù)庫平臺(tái)及特色比較
本草類古籍的這些特點(diǎn)有利于對(duì)知識(shí)單元的抽取并與其他相關(guān)數(shù)字資源進(jìn)行整合和相互關(guān)聯(lián),以及在全文對(duì)照和構(gòu)建多途徑檢索功能方面實(shí)現(xiàn)更為精準(zhǔn)的檢索。同時(shí),也有利于對(duì)相關(guān)概念、屬性、功能主治的聚類和社會(huì)網(wǎng)絡(luò)分析。因此,在對(duì)本草類古籍的數(shù)字化研究探索中,有學(xué)者在構(gòu)建圖像庫的基礎(chǔ)上,進(jìn)行文字識(shí)別、解析和校對(duì)處理,進(jìn)一步構(gòu)建數(shù)字化文本庫,并實(shí)現(xiàn)對(duì)古籍的字詞頻統(tǒng)計(jì)和異體字匯聚顯示等輔助研究支持功能,建立集加工、閱讀、檢索、維護(hù)、交流為一體的本草古籍?dāng)?shù)字化信息平臺(tái)[4]。
根據(jù)過去數(shù)十年古籍?dāng)?shù)字化的經(jīng)驗(yàn)總結(jié)及本草類古籍的編制特點(diǎn),我們結(jié)合“東北地產(chǎn)藥用植物學(xué)術(shù)資源平臺(tái)建設(shè)項(xiàng)目”,嘗試將本草類古籍?dāng)?shù)字化并嵌入平臺(tái)結(jié)構(gòu)中,整合平臺(tái)服務(wù)與古籍知識(shí),通過古籍內(nèi)容的知識(shí)點(diǎn)與平臺(tái)相關(guān)聯(lián),形成專題性知識(shí)服務(wù)系統(tǒng),從原來的古籍文獻(xiàn)服務(wù)向古籍知識(shí)服務(wù)的轉(zhuǎn)化,有助于對(duì)古籍文獻(xiàn)的知識(shí)挖掘與利用。本研究以在歷代本草著作中收載植物數(shù)量最多的清代古籍《植物名實(shí)圖考》為例,對(duì)其數(shù)字化過程和平臺(tái)嵌入方法進(jìn)行探索嘗試。
根據(jù)掃描設(shè)備狀況及古籍?dāng)?shù)字化平臺(tái)的需要,制定詳細(xì)的古籍圖像掃描規(guī)則,以及圖片編號(hào)、文件夾命名、工作量計(jì)算、任務(wù)分工等方法細(xì)則。并根據(jù)選擇的書目和版本,有計(jì)劃地進(jìn)行古籍圖像掃描和系統(tǒng)編號(hào)。
為了便于數(shù)字化平臺(tái)對(duì)古籍的識(shí)別和應(yīng)用,根據(jù)平臺(tái)的要求,對(duì)掃描的圖像進(jìn)行色彩轉(zhuǎn)換、去噪、傾斜度校正等處理。根據(jù)《植物名實(shí)圖考》內(nèi)容編制結(jié)構(gòu)和知識(shí)點(diǎn)進(jìn)行圖片切割、文字識(shí)別和人工校對(duì),并分別進(jìn)行編號(hào)、命名、標(biāo)引,形成獨(dú)立的圖像和文本格式的知識(shí)單元,上傳服務(wù)器。
平臺(tái)建設(shè)的總思路是參照已有的中醫(yī)古籍?dāng)?shù)字化建設(shè)成果并結(jié)合東北地產(chǎn)藥用植物學(xué)術(shù)資源平臺(tái)現(xiàn)已開發(fā)運(yùn)用的狀況,基于J2EE(Java2平臺(tái)企業(yè)版)的SSH框架(struts+spring+hibernate的集成框架)予以實(shí)施。平臺(tái)設(shè)計(jì)對(duì)古籍內(nèi)容提供圖像和文本格式兩種顯示界面。將本草古籍的知識(shí)單元內(nèi)容通過超文本鏈接嵌入到平臺(tái)藥用植物的相應(yīng)條目中,并借助平臺(tái)的多種檢索途徑實(shí)現(xiàn)對(duì)本草類古籍知識(shí)的靈活利用。
在東北地產(chǎn)藥用植物學(xué)術(shù)資源平臺(tái)系統(tǒng)框架的基礎(chǔ)上,對(duì)平臺(tái)系統(tǒng)和子系統(tǒng)進(jìn)行重新設(shè)計(jì)和擴(kuò)充,增加古籍全文圖片和文字對(duì)照瀏覽頁面;增加藥用植物參考文獻(xiàn)出處,通過超鏈接與古籍知識(shí)單元圖像相關(guān)聯(lián);增加后臺(tái)文獻(xiàn)著錄、全文提交和語義標(biāo)注等管理頁面。
SSH框架屬于輕量級(jí)應(yīng)用型框架,在實(shí)際應(yīng)用中注重軟件設(shè)計(jì)的可復(fù)用性和系統(tǒng)的可擴(kuò)展性,應(yīng)用廣泛,從邏輯層面上分為用戶界面層、業(yè)務(wù)處理層和數(shù)據(jù)存儲(chǔ)層。用戶界面層分為前臺(tái)用戶界面和后臺(tái)管理員界面,是進(jìn)入學(xué)術(shù)資源平臺(tái)的窗口。前臺(tái)用戶界面包括檢索服務(wù)和類目導(dǎo)航,提供系統(tǒng)登錄、密碼修改、系統(tǒng)退出等。后臺(tái)管理員界面包括藥用植物增刪改查、文獻(xiàn)題錄管理、全文語義標(biāo)注及用戶管理等頁面。業(yè)務(wù)處理層是數(shù)字化系統(tǒng)框架體現(xiàn)核心價(jià)值的部分,處于用戶界面層和數(shù)據(jù)存儲(chǔ)層之間,可起到數(shù)據(jù)交換承上啟下的作用[5]。根據(jù)用戶界面層發(fā)出的請(qǐng)求,在數(shù)據(jù)存儲(chǔ)層獲取相關(guān)數(shù)據(jù)傳送給用戶界面層。數(shù)據(jù)存儲(chǔ)層中儲(chǔ)存了整理后的所有數(shù)據(jù)資料,在保證安全性和完整性的前提下實(shí)現(xiàn)對(duì)數(shù)據(jù)庫的維護(hù)和管理。
根據(jù)學(xué)術(shù)資源平臺(tái)的功能需求,將系統(tǒng)分為藥用植物管理、古籍書目管理、古籍知識(shí)元管理、用戶及系統(tǒng)管理等4個(gè)模塊。其中古籍書目管理和古籍知識(shí)元管理2個(gè)模塊最為核心,內(nèi)含文獻(xiàn)著錄信息、古籍原文圖像和平臺(tái)原有的按科屬分類的藥用植物資料。對(duì)系統(tǒng)進(jìn)行模塊設(shè)計(jì),不僅使古籍?dāng)?shù)字化加工更為高效、方便,還使用戶可以在任意時(shí)間和地點(diǎn)通過網(wǎng)絡(luò)訪問系統(tǒng)平臺(tái),實(shí)現(xiàn)真正意義上的資源共享。
東北地產(chǎn)藥用植物學(xué)術(shù)資源平臺(tái)原有的設(shè)計(jì)功能為提供按科、屬分類的藥用植物瀏覽方式。在此基礎(chǔ)上,結(jié)合本草古籍的內(nèi)容對(duì)其功能進(jìn)行調(diào)整和擴(kuò)充,在平臺(tái)的主界面提供按現(xiàn)代科屬分類、按藥用植物名或拉丁名瀏覽及利用關(guān)鍵詞等多途徑的全文檢索功能。
現(xiàn)代科屬分類瀏覽功能即原有的檢索方式,可以在菜單中根據(jù)植物的類型、科屬種進(jìn)行瀏覽,查找所需要的植物,進(jìn)而找到該植物的鑒別特征、入藥部位等文字信息及圖片信息。
本草古籍檢索功能則分為2種途徑。一是在本草古籍元數(shù)據(jù)錄入時(shí),將古籍中所論述的植物的屬性和性狀進(jìn)行標(biāo)引,以實(shí)現(xiàn)在菜單中根據(jù)植物的性狀和屬性在本草古籍原文中找到對(duì)應(yīng)的相關(guān)描述;二是將古籍中的植物按科分類整理并進(jìn)行標(biāo)引,可以實(shí)現(xiàn)利用植物所屬的科在菜單中進(jìn)行搜索。
數(shù)字化古籍嵌入學(xué)術(shù)資源平臺(tái)實(shí)現(xiàn)學(xué)術(shù)資源與圖書文獻(xiàn)知識(shí)單元的整合,最關(guān)鍵的步驟是元數(shù)據(jù)的錄入。元數(shù)據(jù)是古籍?dāng)?shù)字化的基礎(chǔ),是數(shù)據(jù)共享的主要接口。從目前本草古籍?dāng)?shù)字化的實(shí)踐來看,其應(yīng)用范圍窄、規(guī)模相對(duì)較小的原因在于本草古籍知識(shí)的元數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一。國際標(biāo)準(zhǔn)化組織2014年6月發(fā)布了《中醫(yī)藥學(xué)語言系統(tǒng)語義網(wǎng)絡(luò)框架》(ISO/TS 17938)和《中醫(yī)藥文獻(xiàn)元數(shù)據(jù)》(ISO/TS 17948)國際標(biāo)準(zhǔn),為本草古籍?dāng)?shù)字化內(nèi)容的語義標(biāo)引奠定了基礎(chǔ)。
在元數(shù)據(jù)錄入過程中要根據(jù)本草古籍的編制特點(diǎn),盡可能涵蓋古籍的完整信息。一是版本信息。很多古籍會(huì)因重刻、重印或被后世校注、點(diǎn)校等原因,造成出版社、出版時(shí)間、編著者等發(fā)生變化的問題。因此要仔細(xì)考證并標(biāo)明版本類型、年代、版式特征及其出版、編著信息(字、號(hào)、朝代、生卒、籍貫)等。二是本草古籍的分類信息。同種古籍在不同的文獻(xiàn)收藏單位也難以實(shí)現(xiàn)統(tǒng)一的歸屬類目。劉培生等[6]研制的《中醫(yī)古籍分類表》在古籍分類中可以作為統(tǒng)一分類參考。三是本草古籍定級(jí)信息。對(duì)古籍所屬的朝代、版刻形式、內(nèi)容、存世價(jià)值等珍貴程度進(jìn)行鑒定及等級(jí)評(píng)定。
同時(shí),數(shù)字化古籍嵌入學(xué)術(shù)平臺(tái)還要確保平臺(tái)系統(tǒng)的安全性、數(shù)據(jù)的完整性以及平臺(tái)操作的兼容性,確保用戶在使用過程中安全、方便、高效。
本草古籍?dāng)?shù)字化不僅是載體類型的改變,更重要的是古籍利用方式和利用深度的改變,對(duì)古籍的開發(fā)與利用有很大的促進(jìn)作用。將數(shù)字化本草古籍與藥用植物學(xué)術(shù)資源平臺(tái)相整合,為進(jìn)一步開發(fā)本草古籍的學(xué)術(shù)價(jià)值開辟了空間,具有可行性。但是,由于受到本草知識(shí)表示、存儲(chǔ),及軟件、硬件環(huán)境、信息技術(shù)手段等多因素限制,使中醫(yī)藥相關(guān)知識(shí)達(dá)到全面一致的理解和共享還存在著一定的局限性,還需要更進(jìn)一步的研究和探討。
[1] 龔婭君,劉春金.中文古籍?dāng)?shù)字化建設(shè)[J].浙江大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2006(4):174-176.
[2] 吉聰.中醫(yī)古籍?dāng)?shù)字化建設(shè)問題探討[J].長(zhǎng)春中醫(yī)學(xué)院學(xué)報(bào),2004, 20(3):64-65.
[3] 柳長(zhǎng)華.基于知識(shí)元的中醫(yī)古籍計(jì)算機(jī)知識(shí)表示方法//中國中醫(yī)科學(xué)院,世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì).第三屆國際傳統(tǒng)醫(yī)藥大會(huì)文集[C].中國中醫(yī)科學(xué)院,世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì),2004:47.
[4] 裴麗,曹霞,張宏偉.本草古籍?dāng)?shù)字化信息平臺(tái)現(xiàn)狀與實(shí)踐[J].中醫(yī)藥學(xué)報(bào),2013,41(4):30-33.
[5] 曹霞,常存庫,裴麗.中醫(yī)古籍?dāng)?shù)字化建設(shè)及其平臺(tái)設(shè)計(jì)和實(shí)現(xiàn)[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2016,25(3):45-47,53.
[6] 劉培生,張偉娜,李鴻濤,等.《中醫(yī)古籍分類表》的研制及應(yīng)用[J].中國中醫(yī)藥圖書情報(bào)雜志,2017,41(2):52-54.
Exploration and Practice of Digitization of Ancient Books about Chinese Materia Medica and Embedding Academic Resources Platform
ZHANG Xu1, ZHAO Yan-hui2, LIU Shu-chun2*
(1. College of Pharmacy, Liaoning University of Traditional Chinese Medicine, Dalian Liaoning 116600, China; 2. Library of Liaoning University of Traditional Chinese Medicine, Shenyang Liaoning 110032, China)
This article reviewed the present condition of the digitization of ancient books in China, compared the characteristics of different types of digitization, discussed the particularity of digitization construction of professional TCM ancient books and books of Chinese materia medica in contents and organization, and compared the functional features of the common TCM professional ancient book databases in China. Taking theas an example, this study conducted a new try for digitization service mode of Chinese materia medica books. It proposed semantic knowledge point cutting and character recognition for the digitized books, form an independent knowledge unit through numbering, naming and indexing, and to embed to the Platform of Northeast Local Medicinal Plant Academic Resources based on SSH framework of the Java. The expansion of the use of ancient books and exploration of the new mode of digitization of ancient books can be realized at the same time with enriching platform services, which can help deep excavation and use of ancient books.
ancient books about Chinese materia medica; digitization of ancient books; resource integration; knowledge embedding; knowledge service
10.3969/j.issn.2095-5707.2017.06.002
G250.7
A
2095-5707(2017)06-0005-05
(2017-08-04)
(2017-09-18;編輯:魏民)
張旭,趙彥輝,劉樹春.本草古籍?dāng)?shù)字化及嵌入學(xué)術(shù)資源平臺(tái)的探索與實(shí)踐[J].中國中醫(yī)藥圖書情報(bào)雜志,2017,41(6):5-9.
遼寧省教育廳優(yōu)質(zhì)資源共建共享專項(xiàng);遼寧省高等學(xué)校圖書情報(bào)工作委員會(huì)特色資源庫建設(shè)專項(xiàng)(L2016018)
張旭,2014級(jí)中藥學(xué)專業(yè)本科在讀。E-mail: 1378950687@qq.com
*通訊作者:劉樹春,研究館員,研究方向?yàn)橹嗅t(yī)藥信息挖掘。E-mail: scliu45@sina.com