丁侃,胡曉峰,張麗君
中國中醫(yī)科學(xué)院中國醫(yī)史文獻研究所,北京100700
解析“中醫(yī)古籍圖像數(shù)據(jù)庫”的圖像標引*
丁侃,胡曉峰,張麗君△
中國中醫(yī)科學(xué)院中國醫(yī)史文獻研究所,北京100700
通過對中國中醫(yī)科學(xué)院中國醫(yī)史文獻研究所在“中醫(yī)古籍圖像數(shù)據(jù)庫”建設(shè)過程中的圖像標引工作的介紹,探討標引規(guī)則的制定;對書目、版本、圖像本體3類共26項元數(shù)據(jù)進行詳盡說明,輔以必要的示例;并對出處標引、規(guī)范制定、提高識圖能力、細化釋圖文字標引等重點、難點問題進行討論。
中醫(yī);古籍;插圖;標引;圖像數(shù)據(jù)庫
本研究中的“中醫(yī)古籍圖像”,主要是指各類中醫(yī)古籍中所刊載的承載中醫(yī)知識的各類插圖。2009年、2013年、2014年,中國中醫(yī)科學(xué)院持續(xù)立項資助了中醫(yī)古籍圖像相關(guān)研究,前期研究共查閱診法、本草、針灸、推拿、內(nèi)科、女科、兒科、外科、傷科、五官科、養(yǎng)生、基礎(chǔ)12類中醫(yī)古籍共2 773種,登記圖像41 831幅,收集整理編輯圖像29 428幅[1]。至此中醫(yī)界第一次系統(tǒng)掌握了中醫(yī)古籍圖像資源。
為此,本研究擬建設(shè)“中醫(yī)古籍圖像數(shù)據(jù)庫”[2],以更好地管理該資源,方便用戶查找、瀏覽、使用該圖像,更為后續(xù)研究工作的開展奠定基礎(chǔ)。數(shù)據(jù)庫建設(shè)通過標引過程完成,在對圖像識讀、分析的基礎(chǔ)上,選用確切的檢索標識,以此反映該圖像所承載的中醫(yī)知識內(nèi)容。
由于中醫(yī)古籍圖像專題數(shù)據(jù)庫建設(shè)、針對圖像內(nèi)容的深度標引在業(yè)內(nèi)均屬首次,具有探索性質(zhì),因此本研究對該過程加以詳細介紹,以期為相關(guān)研究提供借鑒依據(jù)。
1.1標引對象本研究對象為中醫(yī)古籍圖像,標引粒度為“幅”,即將一幅明確、完整的古籍圖像作為標引的對象。此處引入兩個概念,即“自然頁”與“標引頁”?!白匀豁摗笔峭ㄟ^掃描或拍照得到的古籍圖像的數(shù)字文件,一般為古籍中的半頁(半版);“標引頁”是標引的基本單位,刊載有一幅明確、完整圖像的古籍圖像文件作為一張標引頁。一般情況,若一張自然頁中僅包含有一幅插圖,則標引頁≈自然頁。而如果一張自然頁中包含有多幅插圖,或是一幅完整的插圖分布刊刻于多張自然頁上,則標引頁就需要在一張或多張自然頁基礎(chǔ)上,通過“框選”或“拼接”等操作加工獲得。
1.2標引方法所有圖像的標引工作均在“中醫(yī)古籍圖像標引系統(tǒng)”中完成,標引步驟大致如下:首先,在系統(tǒng)中創(chuàng)建一種古籍,標引書名、作者等書目信息;其次,在一種古籍之下分別建立其若干版本,標引題名、版本、館藏等版本信息;再次,上傳圖像文件,系統(tǒng)將每一個版本所刊載的一包圖像文件作為一個任務(wù)進行管理;以上新建任務(wù)與數(shù)據(jù)上傳工作完成后,根據(jù)設(shè)定的圖像元數(shù)據(jù)(基本元數(shù)據(jù)及擴展元數(shù)據(jù)),對圖像本體所蘊涵的信息逐條進行抽取標引,包括圖名、分類、主題以及與之相關(guān)的其他圖像等。
書目信息用以揭示圖像源自何種古籍,分“古籍信息”和“作者信息”2組進行標引。
2.1古籍信息
2.1.1總目序號古籍在《中國中醫(yī)古籍總目》[3](以下簡稱《總目》)中的順序號為古籍在此系統(tǒng)中的唯一標識。標引說明:如《外科心法要訣》一書,總目序號標引為“9387”。對于《總目》未收錄的古籍,以“2”開頭單獨為其依次編號,如“20001”“20002”……“2XXXX”,并經(jīng)課題組備案。
2.1.2書名——古籍通用的名稱標引說明:此項標引一般參照《總目》上所著錄的書名。1)書名無需加書名號,如“外科心法要訣”;2)書名中有卷數(shù)的,卷數(shù)與書名之間需要空一格,如“黃帝內(nèi)經(jīng)素問十二卷”。
2.1.3又名——古籍的其他名稱標引說明:古籍的又名可以為多種,此項可重復(fù)標引。
2.1.4成書年代——古籍成書的年代標引說明:此項標引一般參照《總目》及《宋元明清醫(yī)籍年表》[4]。1)年代可考者,一般標引為公元紀年;2)具體年代不可考者,只能斷定朝代,按照方括號中加該朝代滅亡年代的格式標引,如明朝成書的古籍,標引為“[1644]”。
2.2作者信息每本古籍的作者及注釋整理者等可以有多位,此組可重復(fù)標引。
2.2.1作者作者的姓名。
2.2.2別稱作者的別稱。包括字、號、尊稱、謚號、官職等。標引說明:此項可重復(fù)標引。如朱丹溪的別稱有“彥修”“震亨”等。
2.2.3朝代作者生活的朝代。標引說明:1)此項標引參照《中國醫(yī)學(xué)史》[5]中附錄的“中國歷史年代簡表”;2)若作者為外國人,則此項視為“國別”,如《瘍科秘錄》作者為日人本間救,此項標引為“日”。
2.2.4責(zé)任方式作者對該書的責(zé)任方式。標引說明:常見的責(zé)任方式包括:撰著、纂、修、注、輯注、編輯、校注、編注、圖注、集注、編、輯、譯、繪、書、篆刻等。
版本信息用以揭示圖像所出之具體版本。分“版本信息”“館藏信息”“調(diào)研信息”“備注信息”4組進行標引。
3.1版本信息
3.1.1版本版本的名稱。標引說明:此項標引一般參照《總目》中著錄的版本名稱。格式一般為:朝代+年號紀年+干支紀年(公元紀年)+刊刻地點+刊刻者+版本類別。如《(徐評)外科正宗》選用的版本為“清咸豐10年庚申(1860)海寧許氏刻本”。
3.1.2題名古籍的題名。標引說明:收集古籍在牌記、卷首、卷末等處的不同題名。此項可重復(fù)標引。如《外科心法要訣》在卷首的題名為“編輯外科心法要訣”。
3.1.3刊刻年代古籍該版本的刊刻年代。標引說明:此項標引與“成書年代”的格式要求基本相同。
3.1.4所屬叢書該版本所屬的叢書。標引說明:該版本如果不是單行本,則列出所屬叢書。
3.2館藏信息
3.2.1收藏館該版本古籍所藏的圖書館。標引說明:此項標引參照《總目》中的“收藏館代號表”。如中國中醫(yī)科學(xué)院圖書館所藏,則標引為“139”;《總目》中未列出的圖書館,以“10”開頭單獨為其依次編號,如“1001”“1002”……“10XX”,并經(jīng)課題組備案。
3.2.2索書號該古籍所在圖書館的索書號。標引說明:一般為圖書館自行編制。
3.3調(diào)研信息此組標引在圖書館實地查閱過程中,《中醫(yī)古籍圖像調(diào)查表》上所填寫的原始調(diào)研記錄。包括每本古籍中所刊載的圖總數(shù)、獲圖總數(shù)、墨線插圖數(shù)、彩繪插圖數(shù)、書影總數(shù)。單位均為“幅”。3.4備注信息
3.4.1版本形態(tài)對于書本實體形態(tài)的描述。標引說明:版本形態(tài),或稱之為版本制度,包括行款、裝訂方式和板框形制等。
3.4.2任務(wù)備注關(guān)于此標引任務(wù)的備注說明。標引說明:包括任務(wù)中,關(guān)于圖像種類、數(shù)據(jù)完整性、擬分配標引人員等備注信息。
此為圖像標引的重點。將圖像本體所蘊涵的信息,即其所承載的中醫(yī)藥知識,分為“資源標識符”“正名”“圖名”“分類”“主題”“圖中文字”“釋圖文字”“相關(guān)圖像”“備注”,共9項逐條標引析出。
4.1資源標識符圖像在系統(tǒng)中的唯一編碼。標引說明:由系統(tǒng)根據(jù)總目序號、版本以及圖像流水號等要素自動生成。
4.2正名圖像的正式名稱。標引說明:此項標引是對無名圖進行命名、有名圖進行規(guī)范的過程,參照課題組擬定的《中醫(yī)古籍圖像命名規(guī)范》進行。
4.3圖名圖像的名稱。標引說明:1)此項客觀標引圖像原有的名稱,原則上對原圖名不作改動;2)本無圖名的圖,此項不必標引;3)對于本無圖名,但相關(guān)的篇名等適合作為圖名的情況,可對篇名適當取舍,作為圖名標引。
4.4分類圖像所屬的分類。標引說明:此項可重復(fù)標引,參照課題組擬定的《中醫(yī)古籍圖像分類標準》進行。
4.5主題圖像反映的主題。標引說明:此項可重復(fù)標引,主要參照《中國中醫(yī)藥主題詞表》[6]進行。主題詞之間用空格隔開,中間不加標點。
4.6圖中文字圖像中起到標記、指示等作用的文字。標引說明:原則上,圖像線條之內(nèi)的、圖像邊框之內(nèi)的文字一般視為“圖中文字”?;蛭淖植辉趫D內(nèi),但指示的為圖中位置,亦視為“圖中文字”。1)不連續(xù)的圖中文字之間用空格隔開;2)圖中文字的標引順序以符合常規(guī)的閱讀順序為原則,一般采用從上至下,由右向左的順序;3)圖中文字重復(fù)者(如圖中對稱的穴位名稱),只需標引一次即可;4)成句、成段的圖中文字,中間加標點;5)文字統(tǒng)一為簡體。
4.7釋圖文字圖像外對其本體起到解釋、闡釋等作用的文字。標引說明:“釋圖文字”通常不僅存在于圖像所在本頁,還有可能出現(xiàn)在其前后頁的上下文中。1)不連續(xù)的釋圖文字之間(段句之間)用空格隔開;2)釋圖文字的標引順序以符合常規(guī)的閱讀順序為原則,一般采用從上至下,由右向左的順序;3)成句、成段的圖中文字,中間加標點;4)允許參考其他相關(guān)資料標引本頁中沒有的釋圖文字;5)文字統(tǒng)一為簡體。此外,根據(jù)特定研究工作的需要,還可進一步對釋圖文字進行必要的細化標引,針對不同類型圖像的釋圖文字,制定相應(yīng)的擴展元數(shù)據(jù)。如針對疾病圖設(shè)置證候表現(xiàn)、辨證分析、治則治法、處方用藥等擴展元數(shù)據(jù)。
4.8相關(guān)圖像與標引對象有關(guān)聯(lián)的其他圖像。標引說明:如不同版本刊載的同一圖像、同名圖像、過程圖、組圖等,彼此之間建立關(guān)聯(lián)及順序。
4.9備注關(guān)于圖像本體需要備注說明的內(nèi)容。標引說明:對已有圖像元數(shù)據(jù)標引未盡的信息,可填入備注中。1)對于標引對象殘損不全者備注為“殘損”;2)對于標引對象模糊不清者備注為“模糊”。
5.1圖像出處的標引在數(shù)據(jù)庫建設(shè)中十分必要通過對書目信息的標引,不但可以清楚地知道圖像出自何種古籍;更可藉此了解圖像出現(xiàn)的時代背景、學(xué)術(shù)淵源、流傳脈絡(luò),將單幅的圖像定位于中醫(yī)學(xué)術(shù)傳承發(fā)展的大背景中進行考量。通過對版本信息的標引,不但可進一步明確圖像出自哪個版本;更可藉此探究版本之間的差異以及圖像在刊刻過程中的衍化傳承關(guān)系。此外館藏信息可為后續(xù)研究者實地調(diào)閱相關(guān)資料提供便利;調(diào)研信息不僅可用于調(diào)研數(shù)據(jù)、采集數(shù)據(jù)、標引數(shù)據(jù)之間的相互核實,還可排除大量無圖像刊載的古籍,為后續(xù)研究者縮小查找范圍。為此,在《國家圖書館古籍元數(shù)據(jù)規(guī)范及著錄規(guī)則》[7]以及相關(guān)研究[8]的基礎(chǔ)上,根據(jù)實際工作需要設(shè)置了如上古籍元數(shù)據(jù)和版本元數(shù)據(jù)。
5.2正名、分類、主題的標引是數(shù)據(jù)庫建設(shè)的主要任務(wù)
5.2.1正名正名指圖像的正式名稱。所謂“物之具名,本自有義,循名責(zé)實,義自明矣”[9],然而古人對圖像的命名并不統(tǒng)一,同樣一幅圖(完全相同或非常相似)常標有不同的圖名,此外對圖像不命名的情況在古籍中也普遍存在。若要達到通過名稱區(qū)分不同事物(圖像)的目的,就必須對每一幅圖像給予規(guī)范化正名。為此,課題組擬定了《中醫(yī)古籍圖像命名規(guī)范》,其中對正名所含的各種要素分別進行規(guī)范。
5.2.2分類分類指圖像所屬的分類。分類是對知識體系的次序化,沒有有效的分類,簡單累加的大量古籍圖像將不可能被有效利用。為此,課題組擬定了《中醫(yī)古籍圖像分類標準》,該標準設(shè)定了疾病圖、診斷圖、醫(yī)療圖、藥物圖、器具圖、養(yǎng)生圖、臟腑圖、經(jīng)穴圖、部位圖、理論圖、符咒圖、人物圖共12個一級類目,其下設(shè)有相應(yīng)的二級、三級類目。
5.2.3主題主題指圖像反映的主題。主題標引是揭示圖像所承載知識點的有效方法。本課題擬參考《中國中醫(yī)藥主題詞表》對圖像主題進行標引,以此更規(guī)范地抽取圖像所承載的中醫(yī)知識,同時起到優(yōu)化檢索的目的。
以上標準規(guī)范,尚需在標引實踐過程中不斷加以調(diào)整、補充、完善,最終將成為圖像研究的主要成果之一。
5.3圖中文字、釋圖文字、相關(guān)圖像標引是深入研究的基礎(chǔ)圖中文字指圖像中起到標記、指示等作用的文字。標引過程中發(fā)現(xiàn)具有現(xiàn)代中醫(yī)學(xué)高度教育背景的標引人員,對于臟腑圖、疾病圖、經(jīng)穴圖等的標引基本不存在障礙,但對于運氣、卦象、符咒等圖像的識讀,則相對困難,需要相關(guān)領(lǐng)域?qū)<抑笇?dǎo),以及標引人員自身加強相關(guān)知識的學(xué)習(xí)積累。釋圖文字指圖像外對其本體起到解釋、闡釋等作用的文字。釋圖文字通常不僅出現(xiàn)在圖像當前頁(自然頁),前后頁中也常有大段的釋圖文字。啟動古籍圖像研究之初,既已意識到將古籍圖像從整部書中割裂出來可能造成圖像相關(guān)信息的缺失,但限于研究條件,尚無法做到將圖像及其相關(guān)的上下文古籍書影進行厘定,并采集完整的相關(guān)圖像數(shù)據(jù)。為此特設(shè)此項,以彌補相關(guān)信息的缺失。相關(guān)圖像指與標引對象有關(guān)聯(lián)的其他圖像。通過相關(guān)圖像的標引,在現(xiàn)有縱向分類基礎(chǔ)上,可以進一步建立橫向的關(guān)聯(lián),形成關(guān)系網(wǎng)絡(luò),為圖像的對比、圖形刊刻演變研究打下基礎(chǔ)。
前期研究中收集了大量的圖像數(shù)據(jù),研發(fā)了相關(guān)的工具軟件,制定了相應(yīng)的規(guī)范,形成了較為成熟的標引方案,完成了對3 860幅外科類古籍圖像的標引工作,為圖像的研究工作奠定了較好基礎(chǔ)。
依托現(xiàn)有工作基礎(chǔ),希望探索一種數(shù)據(jù)共享、平臺開放、專題定制的研究機制,讓更多的有志同道參與到研究工作中,共同開拓中醫(yī)古籍圖像更廣闊的研究領(lǐng)域。
[1]秦秋.我國首次開展中醫(yī)古籍圖像研究[N].中國中醫(yī)藥報,2011-12-16(01).
[2]丁侃,胡曉峰,張麗君.中醫(yī)古籍圖像數(shù)據(jù)平臺構(gòu)建方案探討[J].中國醫(yī)藥導(dǎo)報,2012,9(14):123-124.
[3]薛清錄.中國中醫(yī)古籍總目[M].上海:上海辭書出版社,2007:1-999.
[4]劉時覺.宋元明清醫(yī)籍年表[M].北京:人民衛(wèi)生出版社,2005:306-347.
[5]甄志亞.中國醫(yī)學(xué)史[M].2版.上海:上??茖W(xué)技術(shù)出版社,1997:187.
[6]吳蘭成.中國中醫(yī)藥主題詞表[M].北京:中醫(yī)古籍出版社,1996:111-213.
[7]肖瓏,蘇品紅,劉大軍.國家圖書館古籍元數(shù)據(jù)規(guī)范與著錄規(guī)則[M].北京:國家圖書館出版社,2014:3-37.
[8]丁侃.基于知識元信息技術(shù)的中醫(yī)古籍元數(shù)據(jù)研究[D].北京:中國中醫(yī)科學(xué)院,2009.
[9]金麗.考證名物與中醫(yī)古籍閱讀[J].江西中醫(yī)學(xué)院學(xué)報,2008,20(6):25-27.
Analysis on Image Indexing of″TCM Ancient Books Image Database″
DING Kan,HU Xiaofeng,ZHANG Lijun△
Institute of Medical History and Literature in China Academy of Chinese Medical Sciences,Beijing 100700,China
By introducing image indexing in the construction period of“TCM Ancient Books Image Database”,the establishment of indexing regulations are explored;26 items of metadata about the book,edition and image were elaborately explained,accompanied by necessary typical examples;the important and difficult problems including the reference and indexing,regulation establishment,raising the ability of image identification,refining figure legends were discussed.
TCM;ancient books;illustration;indexing;image database
R-092
A
1004-6852(2016)05-0048-04
2015-05-19
中國中醫(yī)科學(xué)院基本科研業(yè)務(wù)費自主選題項目(編號ZZ070504,ZZ090503)。
丁侃(1982—),男,博士學(xué)位,助理研究員。研究方向:中醫(yī)古籍整理與數(shù)字化。
張麗君(1982—),女,碩士學(xué)位,助理研究員。研究方向:中醫(yī)古籍圖像整理。