鄧 君 呂 佳 王志宇
進(jìn)入21世紀(jì)以來,非物質(zhì)文化遺產(chǎn)的保護(hù)與傳承愈發(fā)受到國內(nèi)與國際社會(huì)的普遍關(guān)注,《保護(hù)非物質(zhì)文化遺產(chǎn)公約》在聯(lián)合國教科文組織的統(tǒng)籌推動(dòng)下得以頒布,世界多國也紛紛響應(yīng),出臺相關(guān)政策。其中,我國依托《中華人民共和國非物質(zhì)文化遺產(chǎn)保護(hù)法》,將非物質(zhì)文化遺產(chǎn)的保護(hù)與傳承納入國家法律層面。滿族民間故事作為國家級非物質(zhì)文化遺產(chǎn),是滿族的集體記憶和中華民族寶貴的文化財(cái)富。現(xiàn)代生產(chǎn)生活方式快速變化發(fā)展,口耳相傳的滿族民間故事活態(tài)傳承受到?jīng)_擊,除了培養(yǎng)“非遺”傳承人外,深入田野采錄滿族民間故事將其“固化”到一定載體上也是一種良好的保護(hù)傳承方式,而這一保護(hù)方式形成的直接成果即為滿族民間故事口述檔案。
“口述檔案是指以錄音或根據(jù)錄音逐字記錄的方式對個(gè)人有計(jì)劃采訪形成的檔案?!盵1]77結(jié)合滿族民間故事采集實(shí)際情況,筆者認(rèn)為,滿族民間故事口述檔案是個(gè)人或組織在對滿族民間故事進(jìn)行調(diào)查時(shí),對滿族民間故事講述人的講述內(nèi)容以錄音、錄像、文字等方式記錄從而形成的有價(jià)值的原始材料。目前,滿族民間故事口述檔案開發(fā)利用方式較為傳統(tǒng),以傳統(tǒng)編研出版為主,但這遠(yuǎn)不能滿足數(shù)字時(shí)代用戶的知識需求。因此,迫切需要?jiǎng)?chuàng)新滿族民間故事知識組織技術(shù)與方法,從而促進(jìn)滿族民間故事的保護(hù)與傳承。
知識組織由信息組織發(fā)展而來,是對知識單元之間的關(guān)系進(jìn)行揭示、描述和發(fā)掘的活動(dòng)。知識組織方法眾多,其中分類法按學(xué)科體系組織知識,具有很強(qiáng)的系統(tǒng)性;主題法按問題組織知識,靈活性較強(qiáng),但兩者均是線性知識組織方法,不能充分揭示知識內(nèi)在本質(zhì)和知識間復(fù)雜關(guān)聯(lián);元數(shù)據(jù)是目前描述檔案內(nèi)容、背景和結(jié)構(gòu)信息以及過程管理信息的主流方法[2]36,但難以達(dá)到不同粒度的知識揭示。本體(Ontology)作為知識組織的核心方法,是共享概念模型的形式化、明確的規(guī)范[3]199,其跨越了語義鴻溝,在機(jī)器和人之間建立了廣泛的表達(dá)連接,充分實(shí)現(xiàn)領(lǐng)域知識模型概念交換和重用。筆者以知識組織視角切入,采用本體方法對滿族民間故事口述檔案進(jìn)行知識層面組織,以網(wǎng)絡(luò)化、非線性、可視化的方式揭示滿族民間故事口述檔案中知識及其關(guān)聯(lián)關(guān)系,推動(dòng)滿族民間故事口述檔案知識面向語義化、精細(xì)化組織。
“口述檔案”這一概念始源于1984年國際檔案理事會(huì)出版的《檔案術(shù)語詞典》中出現(xiàn)的法文詞條“Archives orals”[4]42。我國關(guān)于口述檔案的研究發(fā)軔于20世紀(jì)80年代中期,1986年呂明軍[5]6進(jìn)行口述檔案理論探討,包括其概念、價(jià)值、興起及原因等方面內(nèi)容,拉開了我國口述檔案的研究序幕。時(shí)至今日,口述檔案已歷經(jīng)30多年的研究歷程,取得了豐富的研究成果。在基礎(chǔ)理論研究方面,王茂躍[6]15、張仕君[7]12、王景高[8]6、張錦[9]5等學(xué)者對口述檔案概念進(jìn)行辨析,主要在“‘口述檔案’是否屬于檔案”這一問題上進(jìn)行了激烈的爭辯;劉旭光[10]88、馮舫女[11]31、黃霄羽[12]4等人對口述檔案的價(jià)值與作用進(jìn)行深入探討,認(rèn)為口述檔案除了本身具有憑證價(jià)值和參考價(jià)值外,還有填補(bǔ)歷史空白、構(gòu)建社會(huì)記憶、保護(hù)民族文化遺產(chǎn)等價(jià)值。在口述檔案實(shí)踐研究方面,李小江[13]26、李濤[14]12、古琬瑩[15]87等人從不同視角對口述檔案的搜集與整理進(jìn)行重要闡述;傅華[16]41、楊祥銀[17]60、蔣琳[18]70對國外口述檔案實(shí)務(wù)工作進(jìn)行介紹和推廣,以期為我國口述檔案工作提供借鑒和參考。口述檔案開發(fā)利用研究能有效推進(jìn)口述檔案價(jià)值實(shí)現(xiàn),其研究成果目前已涉及各專門領(lǐng)域,如歷史名人口述檔案[19]、高校口述檔案[20]33和黨史口述檔案[21]84開發(fā)利用等。在政府大力倡導(dǎo)保護(hù)非物質(zhì)文化遺產(chǎn)的背景下,加之少數(shù)民族文字檔案匱乏,眾多學(xué)者將目光聚焦于少數(shù)民族口述檔案研究。如子志月[22]、孫麗娜[23]、鄧寶瑚[24]78、董甜甜[25]23分別探討了云南少數(shù)民族口述檔案、佤族口述檔案、瑤族口述檔案和白族民間故事口述檔案的開發(fā)利用,并從增強(qiáng)開發(fā)利用意識、完善法律制度、注重編研成果多樣化、舉辦展覽、出版書刊、拍攝影視作品等角度創(chuàng)新開發(fā)路徑。
相比于圖書、情報(bào)等其他信息資源,檔案具有一定封閉性,知識服務(wù)體系相對獨(dú)立,知識組織研究起步相對較晚,故而檔案學(xué)界對理論研究相對匱乏。熊志云[26]29認(rèn)為,以知識組織方式開辟檔案服務(wù)網(wǎng)站是整合檔案信息資源的有效手段;王應(yīng)解[27]23闡述了數(shù)字社會(huì)信息化浪潮下檔案知識組織的必要性,并就“如何進(jìn)行檔案知識組織”做了初步探討。方法技術(shù)層面,學(xué)者們主要探討了各類知識組織方法應(yīng)用于檔案資源的適用性,如李婉月等人[28]56對分面組織、本體和關(guān)聯(lián)數(shù)據(jù)檔案資源知識組織方法和技術(shù)進(jìn)行調(diào)研分析,以期建立合適的檔案知識組織框架;呂元智[29]44分析了關(guān)聯(lián)數(shù)據(jù)在檔案資源知識組織中的可行性和必要性,并提出“關(guān)聯(lián)”組織框架及完善建議;張斌等[30]51提出,基于本體的檔案知識表示和組織是檔案知識庫知識處理的最佳選擇,并提出基于知識庫的知識服務(wù)模型。領(lǐng)域應(yīng)用方面,近年涌現(xiàn)出了一批依托相關(guān)領(lǐng)域檔案資源進(jìn)行知識組織實(shí)踐的成果。如陳海玉等[31]111對“南昌起義”這一事件的數(shù)字資源進(jìn)行本體構(gòu)建,實(shí)現(xiàn)知識聚合和可視化,推進(jìn)抗戰(zhàn)檔案資源知識服務(wù);陳忻等[32]80通過LDA模型對北京香山紅色檔案進(jìn)行深入挖掘并構(gòu)建本體,實(shí)現(xiàn)知識細(xì)粒度關(guān)聯(lián),促進(jìn)紅色檔案資源開發(fā)利用;祝振媛[33]72以《吳氏西宅宗譜》為研究對象,構(gòu)建了吳氏家譜本體,推動(dòng)“新鄉(xiāng)賢建設(shè)”和“家風(fēng)建設(shè)”。
綜上所述,口述檔案領(lǐng)域研究成果豐碩,內(nèi)容豐富,經(jīng)歷了從理論探討到實(shí)踐研究這一主線轉(zhuǎn)變,且研究方向仍在繼續(xù)拓展,但對口述檔案開發(fā)利用方式的研究還不夠創(chuàng)新。檔案資源知識組織的研究成果隨著檔案知識服務(wù)需求的增長而不斷增加,尤其在知識組織方法技術(shù)方面,學(xué)界已普遍認(rèn)同本體是檔案資源良好的知識表示和知識組織形式。但對檔案資源進(jìn)行本體構(gòu)建實(shí)踐的研究尚處于初級階段,對于非物質(zhì)文化遺產(chǎn)口述檔案方面也尚未有構(gòu)建先例。本體具有開放集成性、語義化、共享性等優(yōu)勢,因此筆者選擇對滿族民間故事口述檔案進(jìn)行本體構(gòu)建,實(shí)現(xiàn)知識組織向多維網(wǎng)絡(luò)化、可視化方向發(fā)展,促進(jìn)滿族民間故事口述檔案深層次的開發(fā)利用。
筆者以斯坦福大學(xué)創(chuàng)建的七步法[34]為基礎(chǔ),并根據(jù)滿族民間故事口述檔案知識的特點(diǎn),設(shè)計(jì)了針對滿族民間故事口述檔案的本體構(gòu)建方法,并以Protege作為其本體開發(fā)工具,具體步驟包括:確定本體專業(yè)領(lǐng)域及復(fù)用本體、確定數(shù)據(jù)來源與數(shù)據(jù)預(yù)處理、定義類和類的等級體系、定義類的屬性、實(shí)例可視化和知識檢索。
1.確定本體專業(yè)領(lǐng)域及復(fù)用本體。
(1)確定本體專業(yè)領(lǐng)域范疇。滿族民間故事口述檔案以一則則滿族民間故事為主體內(nèi)容,以口述者、采集者、采集時(shí)間、采集地點(diǎn)等描述性信息為輔助內(nèi)容。其中故事主要包括反映建州女真起源的神話,反映人物、史事和地方風(fēng)物的傳說,反映人與自然、階級社會(huì)關(guān)系以及滿族動(dòng)植物崇拜的幻想故事,反映農(nóng)耕滿族經(jīng)驗(yàn)與際遇的生活故事等[35],是珍貴的非物質(zhì)文化遺產(chǎn)。因此,涉及的領(lǐng)域主要是非物質(zhì)文化遺產(chǎn)領(lǐng)域和口述檔案領(lǐng)域。
(2)考察可復(fù)用本體。CIDOC-CRM是文化遺產(chǎn)領(lǐng)域重要的本體模型,它是20多年開發(fā)和維護(hù)工作的結(jié)果,開發(fā)旨在通過為基于證據(jù)的文化遺產(chǎn)信息集成提供通用且可擴(kuò)展的語義框架來促進(jìn)對文化遺產(chǎn)信息的共享理解。其最新版本是2021年5月發(fā)布的7.1.1版本,共包含81個(gè)實(shí)體(Entity)和160個(gè)屬性(Property),內(nèi)容涵蓋文化遺產(chǎn)領(lǐng)域的歷史史實(shí)、時(shí)間、地點(diǎn)、人物等信息[36],可用于滿族民間故事口述檔案本體模型的復(fù)用。
同時(shí),筆者根據(jù)國家檔案局發(fā)布的行業(yè)標(biāo)準(zhǔn)《口述歷史電子檔案元數(shù)據(jù)方案》(DA/T-2015)相關(guān)規(guī)定,結(jié)合滿族民間故事口述檔案知識實(shí)際情況,進(jìn)行部分本體自定義。為了日后能在語義網(wǎng)環(huán)境中實(shí)現(xiàn)本體復(fù)用與共享,需要了解或定義本體的前綴及IRI。CIDOC-CRM本體模型前綴為ecrm,IRI為http://erlangen-crm.org/150716/,類的命名方式為“實(shí)體代碼”+“實(shí)體名稱”,如“人物”類為“E21 Person”,屬性命名方式為“屬性代碼”+“屬性名稱”,如屬性“參與了”命名為“P11 had participant”。自定義的本體前綴為mfs,IRI為http://www.semanticweb.org/mfs#。為清晰地區(qū)分類與屬性,將類標(biāo)記上角標(biāo)c,將對象屬性和數(shù)值屬性分別標(biāo)記上角標(biāo)op和dp。
2.確定數(shù)據(jù)來源與數(shù)據(jù)預(yù)處理。本研究以《滿族民間故事·遼東卷》(上中下卷)[37]數(shù)字資源作為主要數(shù)據(jù)源,其收錄513篇滿族民間故事,每篇故事后附相關(guān)采錄信息,為構(gòu)建本體提供了翔實(shí)的數(shù)據(jù)基礎(chǔ)。同時(shí),為確保數(shù)據(jù)的豐富性和代表性,以中國非物質(zhì)文化遺產(chǎn)網(wǎng)[38]、遼寧非物質(zhì)文化遺產(chǎn)(國家級)多媒體資源庫[39]、《滿族民間故事選》[40]、《滿族民間故事選》(第一集)[41]和《滿族民間故事選》(第二集)[42]的數(shù)字化文本作為補(bǔ)充數(shù)據(jù)源。采用人工方式對以文本格式、圖片格式存在的數(shù)據(jù)進(jìn)行采集,獲取有關(guān)滿族民間故事的內(nèi)容數(shù)據(jù)與口述檔案形成過程中的描述性數(shù)據(jù)。采集后,對數(shù)據(jù)進(jìn)行預(yù)處理,剔除重復(fù)數(shù)據(jù),對有效數(shù)據(jù)進(jìn)行校對核查。
3.定義類和類的等級體系。類是具有某種共同屬性的事物集合,確定本體的類及子類是本體構(gòu)建的基礎(chǔ)。筆者對上文采集的數(shù)據(jù)進(jìn)行深入分析與概念歸納,并結(jié)合CIDOC-CRM和《口述歷史電子檔案元數(shù)據(jù)方案》(DA/T-2015)有關(guān)實(shí)體與元數(shù)據(jù),對滿族民間故事內(nèi)容信息進(jìn)行概念提取,得到“民間故事”“故事角色”“故事地點(diǎn)”“習(xí)俗”“風(fēng)物”和“方言”;對描述性信息進(jìn)行概念提取,得到“口述者”“采集者”“采集時(shí)間”“采集地點(diǎn)”。其中“民間故事”類可按其表達(dá)內(nèi)容的不同劃分為“神話”“傳說”“故事”三個(gè)子類,“口述者”“采集者”都是人物,所以兩個(gè)子類歸為“人物”大類,但“故事角色”中包括神仙、鬼怪等非真實(shí)存在人物,因此不能將其歸入“人物”大類,而單獨(dú)設(shè)類。同理,將“采集地點(diǎn)”和“故事地點(diǎn)”歸為“地點(diǎn)”大類,將“采集時(shí)間”和“故事時(shí)間”歸為“時(shí)間實(shí)體”大類,最終形成八個(gè)大類。滿族民間故事口述檔案類及說明具體見表1(見下頁),類及類的層次結(jié)構(gòu)如圖1(見下頁)所示。
圖1 滿族民間故事口述檔案本體類及類的層次結(jié)構(gòu)
表1 滿族民間故事口述檔案本體類及其說明
4.定義類的屬性。定義好滿族民間故事口述檔案的類與其子類后,需要對類的屬性進(jìn)行定義,可以更好地體現(xiàn)類的內(nèi)涵和實(shí)現(xiàn)類之間的相互關(guān)聯(lián),從而實(shí)現(xiàn)單一的線性向網(wǎng)絡(luò)化的知識組織模式轉(zhuǎn)變。
類的屬性包括對象屬性和數(shù)據(jù)屬性。對象屬性是實(shí)現(xiàn)語義推理的重要基礎(chǔ),因?yàn)樗沁B接類之間、類與實(shí)例之間、實(shí)例與實(shí)例之間的橋梁,相當(dāng)于語法結(jié)構(gòu)中的謂語動(dòng)詞,屬性的定義域相當(dāng)于語法結(jié)構(gòu)中的主語,其值域相當(dāng)于語法結(jié)構(gòu)中的賓語。比如屬性“講述了”將作為定義域的“口述者”和作為值域的“民間故事”相連接,對象屬性除了能將兩個(gè)不同的類之間進(jìn)行關(guān)聯(lián),還可以指向自身,滿族民間故事中,故事角色往往有一定的社會(huì)關(guān)系,如姐妹關(guān)系、父子關(guān)系、師徒關(guān)系,而這類關(guān)系兩端相連的都是“故事角色”類,因此屬性關(guān)系指向“故事角色”自身。
數(shù)據(jù)屬性是描述類自身特性的內(nèi)在屬性,能使類的內(nèi)涵更為豐富。其定義域是類,值域是某一數(shù)據(jù)類型,如xsd:string、xsd:integer、xsd:float、xsd:int等。在滿族民間故事口述檔案中,口述者的數(shù)據(jù)屬性十分重要,口述者年齡、性別、職業(yè)、文化程度可以在一定程度上揭示滿族民間故事的保護(hù)與傳承情況,甚至可以為下一步的保護(hù)措施提供有益參考。如口述者的年齡大多在70歲以上,說明口述者隊(duì)伍年齡老化,則需要加強(qiáng)滿族民間故事傳承人的發(fā)展培養(yǎng),確保其能夠活態(tài)地傳承發(fā)展下去。滿族民間故事口述檔案的屬性定義具體見表2,添加屬性后的知識本體見圖2。其中實(shí)線代表父類與子類的關(guān)聯(lián),虛線代表定義的各屬性,連線的箭頭代表從定義域指向值域。
圖2 添加屬性后的滿族民間故事口述檔案知識本體
表2 滿族民間故事口述檔案本體屬性及其說明
5.實(shí)例可視化。對滿族民間故事口述檔案進(jìn)行類與屬性的定義后,是完成了本體模型的框架搭建,是概念層面的構(gòu)建,需要向其中添加實(shí)例才能豐富知識本體,是應(yīng)用層面的構(gòu)建。筆者對采集到的滿族民間故事口述檔案數(shù)據(jù)進(jìn)行評估取舍,選取了代表性實(shí)例進(jìn)行添加,共錄入129個(gè)實(shí)例,其中民間故事類28個(gè)、人物類21個(gè)、時(shí)間實(shí)體類14個(gè)、地點(diǎn)類22個(gè)、習(xí)俗類6個(gè)、方言類10個(gè)、風(fēng)物類7個(gè)、故事角色類21個(gè)。表3(見下頁)為添加的部分實(shí)例,圖3(見下頁)展現(xiàn)了添加實(shí)例后的本體模型。
圖3 添加實(shí)例后的滿族民間故事口述檔案知識本體
表3 滿族民間故事口述檔案部分實(shí)例
6.知識檢索。知識組織旨在實(shí)現(xiàn)知識檢索,知識檢索是進(jìn)行知識組織的歸宿。本體構(gòu)建完成后,筆者采用Protege中OntoGraf插件自帶的Search檢索功能進(jìn)行基本的知識檢索,以驗(yàn)證模型的可用性。以搜索“康熙”二字為例,為清晰表達(dá)各知識單元屬性,根據(jù)OntoGraf檢索界面呈現(xiàn)結(jié)果,繪制可視化圖,見圖4。
圖4 以“康熙”為關(guān)鍵詞進(jìn)行的知識檢索
在本體庫中所有與“康熙”有關(guān)的內(nèi)容被檢索出來。從類與實(shí)例的關(guān)聯(lián)觀察,可以看到“康熙”和“乾隆”是“故事角色”的實(shí)例,“康熙與乾隆的一副對聯(lián)”是“傳說”的一個(gè)實(shí)例,“康熙年間”是“故事時(shí)間”的一個(gè)實(shí)例,也就是說,可以檢索出與“康熙”二字有關(guān)的所有實(shí)例,并關(guān)聯(lián)其所屬類別。從實(shí)例與實(shí)例的關(guān)聯(lián)觀察,可以從關(guān)聯(lián)線數(shù)最多的“康熙與乾隆的一副對聯(lián)”出發(fā),以此為中心,了解它與其他實(shí)例的關(guān)系,我們可以清晰地了解到“康熙與乾隆的一副對聯(lián)”采集地點(diǎn)在本溪滿族自治縣偏嶺鎮(zhèn)泥塔村,采集時(shí)間為2008年7月19日,口述者為愛新覺羅·慶凱,采集者為張瑩,故事發(fā)生地點(diǎn)為北京,故事發(fā)生時(shí)間為康熙年間,康熙與乾隆是此故事的角色,且二者為爺孫關(guān)系。此外,在Protege系統(tǒng)中點(diǎn)擊愛新覺羅·慶凱,可以看到其具體的數(shù)值屬性,其出生日期為1935年7月,民族為滿族,文化程度為初中文化,性別為男,采集故事時(shí)其年齡為74歲。
由此可見,知識檢索實(shí)現(xiàn)了滿族民間故事口述檔案不同類型知識單元的關(guān)聯(lián),當(dāng)檢索某一知識時(shí),與其有關(guān)聯(lián)的所有知識以可視化方式呈現(xiàn),并能展現(xiàn)其具體關(guān)系,充分體現(xiàn)滿族民間故事口述檔案內(nèi)涵,實(shí)現(xiàn)了其知識內(nèi)部細(xì)粒度挖掘和開發(fā)利用,有利于人們從細(xì)微角度了解滿族民間故事,從而感受民族精神與民族智慧。
本文以滿族民間故事口述檔案為研究對象,以本體模型構(gòu)建方法為基礎(chǔ)對其進(jìn)行知識組織,探索滿族民間故事口述檔案深度開發(fā),揭示滿族民間故事口述檔案知識間動(dòng)態(tài)關(guān)聯(lián),為民間故事口述檔案本體構(gòu)建與知識檢索提供了一定參考價(jià)值,但同時(shí)也存在不足之處:對于數(shù)據(jù)的采集與分類使用手工方式,使采集數(shù)據(jù)量有限且效率較低,質(zhì)量缺乏保障,類與屬性的定義有待進(jìn)一步完善。未來,筆者將在以下方面繼續(xù)開展深入研究:(1)融合機(jī)器學(xué)習(xí)、自然語言處理等人工智能技術(shù),將傳統(tǒng)的手工數(shù)據(jù)采集轉(zhuǎn)變?yōu)榘胱詣?dòng)、自動(dòng)方式,高效高質(zhì)對模型進(jìn)行科學(xué)性維護(hù)。(2)應(yīng)用SPARQL語言查詢滿族民間故事口述檔案知識本體語義關(guān)系,增強(qiáng)知識檢索能力與語義化程度。(3)實(shí)現(xiàn)滿族民間故事口述檔案知識推理,將不能通過可視化圖清晰展現(xiàn)的屬性采用知識推理機(jī)制挖掘隱性關(guān)聯(lián)。