少林文化大數(shù)據(jù)平臺關鍵技術研究

2022-07-14 09:49:01張麗娟張富

檔案與建設 2022年6期

張麗娟張富

摘要：少林文化大數(shù)據(jù)主要包括文化原生數(shù)據(jù)和文化衍生數(shù)據(jù)。利用相關關鍵技術，將文化原生數(shù)據(jù)轉換為文化衍生數(shù)據(jù)是弘揚少林文化、挖掘少林文化人文內涵的必要支撐，是少林文化大數(shù)據(jù)平臺實現(xiàn)技術經(jīng)度和文化緯度交織融合的重要紐帶。文章在詳細剖析少林文化大數(shù)據(jù)的多維度多屬性特征基礎上，對自然語言處理、全文檢索、可視化引擎相關關鍵技術問題進行了探討，創(chuàng)新了具有少林文化屬性的相關技術應用，以期為相關研究提供借鑒。

關鍵詞：少林文化；文化大數(shù)據(jù)；數(shù)字人文；人文GIS

分類號：G270

Research on Key Technologies of Shaolin Culture Big Data Platform

Zhang Lijuan1 ，Zhang Fu2

（ 1.School of Electrical Engineering and Automation of Luoyang Institute of Science and Technology， Luoyang， Henan 471023； 2.School of Surveying， Mapping and Geographic Information of North China University of Water Resources and Electric Power， Zhengzhou， Henan 450046 ）

Abstract： Shaolin culture big data mainly includes cultural native data and cultural derived data. Using related key technologies to convert cultural native data into cultural derived data is the necessary support for promoting Shaolin culture and mining the humanistic connotation of Shaolin culture， and it is also an important link for the Shaolin culture big data platform to realize the interweaving and integration of technical longitude and cultural latitude. Based on the detailed analysis of the multi-dimensional and multi-attribute characteristics of Shaolin cultural big data， this paper discusses the key technical issues related to natural language processing， full-text retrieval and visualization engine， and innovates the application of relevant technologies with Shaolin cultural attribute， in order to provide reference for relevant research.

Keywords： Shaolin culture； Cultural Big-Data； Digital Humanities； Humanistic GIS

少林文化孕育千年、底蘊深厚，是中國優(yōu)秀傳統(tǒng)文化的典型代表。2020年10月，中國嵩山少林寺召開了“檔案與少林文化大數(shù)據(jù)”論壇，開始以少林檔案工作為先導，探索少林文化大數(shù)據(jù)的發(fā)展路徑，并于次年通過了《少林文化大數(shù)據(jù)平臺建設方案》。

隨著平臺建設的持續(xù)推進，少林文化大數(shù)據(jù)已由單一少林檔案資源，拓展延伸至更為多樣、海量、分散、動態(tài)的更具廣泛意義的數(shù)據(jù)資產，少林文化大數(shù)據(jù)平臺將全面打造新時代少林文化發(fā)展的生產要素，夯實延續(xù)少林千年輝煌的基石。本文在少林文化大數(shù)據(jù)特性基礎上，分析少林文化大數(shù)據(jù)平臺技術框架及關鍵技術問題，以期為包含檔案在內的文化大數(shù)據(jù)建設與領域應用提供參考。

1 少林文化大數(shù)據(jù)的數(shù)據(jù)來源和分類

1.1 數(shù)據(jù)來源

少林寺藏檔案資源主要包括：文書檔案4萬余件，藏經(jīng)閣圖書5萬余種、30萬余冊。包含北齊至明清時期拓片近萬件，古籍3萬多冊，其中善本近6千種2萬余冊?，F(xiàn)代圖書約4萬種，大藏經(jīng)20多種，武術典籍10多種，禪醫(yī)藥典籍3萬余卷。電子檔案資料數(shù)萬件，內容超過100T容量。據(jù)不完全統(tǒng)計，尚未收集整理的資料保守估計還有上百萬件，其中，實物檔案碑刻塔銘247種，各類塑像、壁畫、鐘鼓、石獅、匾額等關鍵附屬物約1200項。

少林寺歷史上飽經(jīng)戰(zhàn)亂，諸多歷史資料留散民間，許多歷史資料至今仍然留存在海外，因此，國內外資料庫有關少林歷史的資料也是少林文化數(shù)據(jù)的主要來源之一。目前，僅對國內資源庫進行篩選，初步統(tǒng)計出大約10萬冊/卷/個/通。

伴隨少林文化大數(shù)據(jù)平臺的日漸完善，其數(shù)據(jù)來源也從以寺藏檔案資源為主擴展為泛檔案化的信息資源聚合，初步測算，平臺一期建成后預計數(shù)據(jù)量將達1.4PB，之后年自產數(shù)據(jù)量將達到0.8PB-1PB/年。

1.2 數(shù)據(jù)分類

少林文化大數(shù)據(jù)依據(jù)其產生方式不同可分為：少林文化原生數(shù)據(jù)和少林文化衍生數(shù)據(jù)。其中，少林文化原生數(shù)據(jù)是在少林寺歷史發(fā)展與實踐中，以自然的方式直接或間接產生的基礎原始數(shù)據(jù)，是少林文化大數(shù)據(jù)整合管理、開放共享、價值挖掘、知識發(fā)現(xiàn)的必要支撐。按照其承載的信息屬性不同，又可分為：少林文化內容數(shù)據(jù)和少林文化行為數(shù)據(jù)。少林文化衍生數(shù)據(jù)是在少林文化原生數(shù)據(jù)的基礎上，依托大數(shù)據(jù)處理技術對原始數(shù)據(jù)的屬性、結構、功能、關聯(lián)性等進行分析和加工所催生的新的、具有一定認知理解的其他文化數(shù)據(jù)類型，是推動文化大數(shù)據(jù)開發(fā)利用與技術發(fā)展的內在動力。按照其呈現(xiàn)場景不同，又可分為：少林文化時空數(shù)據(jù)和少林文化知識數(shù)據(jù)（如表1所示）。

2 少林文化數(shù)據(jù)的“多維度多屬性”特征

在梳理少林文化數(shù)據(jù)資源的過程中，筆者發(fā)現(xiàn)越久遠的歷史資料越具有獨特的文化屬性，而這些數(shù)據(jù)往往又在專業(yè)和時間維度上具有明顯的不連續(xù)性。如果把“時間、專業(yè)、類別”劃分為三空間維度，任何一種數(shù)據(jù)資源至少同時具有三個維度的多屬性特征（如圖1所示）。

比如：“三教九流石碑”碑刻時間是嘉靖四十四年（1565年），但在文化時間維度上可追溯到一百多年前的明朝成化皇帝；專業(yè)維度上又具有宗教、哲學和藝術等屬性；在少林文化類別維度上又屬于禪和藝等。

少林文化數(shù)據(jù)從單一維度很難完整地詮釋少林文化內涵。首先，在時間維度上，分散的各專業(yè)資料不僅連續(xù)性、完整性不夠，而且數(shù)據(jù)產生的“時間點”與其代表文化主題的時間跨度無法依據(jù)時間屬性直接關聯(lián)對應。這種時間維度特點，還直接導致數(shù)據(jù)以多種語言形式存在。其次，在專業(yè)維度上，少林文化涉及宗教、武術、建筑、書畫藝術、醫(yī)學、歷史和外交等多個領域，而且同一文化主題涉及的領域之間又交叉融合，數(shù)據(jù)的專業(yè)歸屬相對比較模糊。再次，在少林文化類別維度上，“禪、武、醫(yī)、藝”并非孤立存在，其深層的思想邏輯、文化內涵相輔相成，密不可分，數(shù)據(jù)與這種表象分類存在“多對多”的關聯(lián)關系。

因此，少林文化數(shù)據(jù)這種多維度多屬性特征，決定了從數(shù)據(jù)采集到價值挖掘，都需要依賴多種專業(yè)的高度融合，甚至還需要從時間、地點、人物、事件、事物、現(xiàn)象、場景中尋求碎片數(shù)據(jù)之間的隱含關聯(lián)性，以此相互印證、彼此粘連。這種典型的文化數(shù)據(jù)特征對大數(shù)據(jù)技術再一次提出了新的挑戰(zhàn)。

3 少林文化大數(shù)據(jù)平臺技術框架

少林文化大數(shù)據(jù)平臺是大數(shù)據(jù)技術經(jīng)度和少林文化緯度相互交織的表現(xiàn)，試圖確保在不同應用場景之間，呈現(xiàn)出一個覆蓋全要素、全過程、全周期的“經(jīng)緯圖”。在具有普適性大數(shù)據(jù)平臺基本功能的同時，需顧及少林文化數(shù)據(jù)特征，并滿足少林數(shù)據(jù)資產開發(fā)與利用、禪宗文化傳承與傳播、少林知識研究與發(fā)展、少林寺務管理與決策的四大需求。平臺的核心層為數(shù)據(jù)層、邏輯層、應用層，每層設計思想如表2所示。

4 少林文化大數(shù)據(jù)平臺關鍵技術

在少林文化大數(shù)據(jù)平臺建設過程中，不僅需要借用大數(shù)據(jù)相關技術，還需要充分顧及少林文化數(shù)據(jù)的獨特性。本文主要從文化大數(shù)據(jù)語義解析、數(shù)據(jù)檢索查詢和文化時空化呈現(xiàn)三個方面，對涉及的自然語言處理（Natural Language Processing，NLP）、全文檢索引擎、文化時空可視化技術進行闡述。

4.1 自然語言處理技術

自然語言處理（NLP）是對自然語言信息進行處理的技術[1-2]，主要實現(xiàn)人機間自然語言交流[3]，包含自然語言理解和自然語言生成兩個層面[4-5]，二者互為逆過程。[6]

通常情況下，NLP分為五個步驟：①獲取自然語言語料數(shù)據(jù)。②數(shù)據(jù)預處理。主要進行數(shù)據(jù)清洗、謂語分詞、詞性標注等工作。③語言規(guī)則性表達。一種是基于傳統(tǒng)的自然語言處理建模，對語料數(shù)據(jù)結構化拆解與表達。另一種是基于神經(jīng)網(wǎng)絡的深度學習建模。④模型訓練，可根據(jù)語料語種、語法特征、禁止約束規(guī)則等選擇樣本進行模型訓練。⑤結果評價。常用的評測指標有準確率、召回率、綜合評價指標等。

少林文化數(shù)據(jù)歷史跨度大，數(shù)據(jù)資料存在文字多樣（古文字、繁體、梵語等）、標點缺失（碑刻、古籍尤其突出）兩大問題。因此，無法直接使用NLP進行語義解析，而需要在上述第②、③步驟進行優(yōu)化補充。

針對文字多樣問題，平臺采用多字庫自增量動態(tài)補充技術，統(tǒng)一轉為現(xiàn)代字詞庫，并由現(xiàn)代字詞庫映射到現(xiàn)代語義庫。初始狀態(tài)下，錄入各種詞典常用字（詞）數(shù)據(jù)作為多字庫基礎數(shù)據(jù)。后期根據(jù)語言模型，進行反復訓練，以此增補維護多字庫和現(xiàn)代語義庫。

針對標點缺失問題，主要基于現(xiàn)代研究成果，結合自學習算法進行處理。事實上，標點缺失與文字多樣問題密不可分，二者需要相互交叉處理，初始狀態(tài)需采用人工干預方式進行。

4.2 全文檢索技術

全文檢索技術是基于檢索資料的內容而非僅基于外表特征的一種檢索技術。少林文化衍生數(shù)據(jù)主要是加工處理后的數(shù)據(jù)，通常存儲在數(shù)據(jù)庫中，其檢索方式可以采用數(shù)據(jù)庫檢索方式。對少林文化原生數(shù)據(jù)實現(xiàn)全文檢索是本文討論的重點，經(jīng)研究發(fā)現(xiàn)，少林文化原生數(shù)據(jù)最終都可以轉換為文本和圖片兩種表達形式（轉換路徑如表3所示）。

（1）基于文本數(shù)據(jù)檢索

針對文本類數(shù)據(jù)，全文檢索的實現(xiàn)過程可描述為：使用索引程序檢索文本資料中的每一個詞，對每一個詞建立一個索引（指明該詞在文中出現(xiàn)的次數(shù)和位置），當用戶查詢時，檢索程序就根據(jù)事先建立的索引進行查找，并將查找結果及其關聯(lián)的源資料內容一并反饋給用戶。因此，基于文本的全文檢索技術包括兩大核心內容：索引處理和查詢處理。[7-8]

建立索引的目的是減少后續(xù)查詢的平均耗時，但需要增加時間復雜度和空間復雜度。索引建立后，基于索引模型保存索引庫，索引模型通常分為正排索引和倒排索引兩類。如今，建立索引的算法模型已經(jīng)比較成熟，本文不再贅述。

查詢處理是在索引建立之后完成。實際上針對大數(shù)據(jù)海量數(shù)據(jù)而言，傳統(tǒng)的檢索很難快速從數(shù)據(jù)集中查找到所需要的信息[9]，目前較為常用的是模糊匹配查詢技術，如：動態(tài)規(guī)劃字符串匹配[10]、自動機模糊匹配。[11]

值得說明的是：少林文化大數(shù)據(jù)平臺針對文本全文檢索時，顧及文字多樣性問題，需從原始文本庫和現(xiàn)代語義庫中同時檢索，以彌補傳統(tǒng)文本全文檢索的不足。

（2）基于圖片數(shù)據(jù)檢索

少林文化大數(shù)據(jù)平臺提供文化圖形元素基因的檢索功能，因此，針對圖片數(shù)據(jù)實現(xiàn)檢索時，需要采用兩種技術：基于內容描述的圖片檢索和基于樣本的圖片匹配檢索。其中，前者是一種基于文本（語義）特征（如關鍵字、注釋等）的圖像檢索方法，可以理解為文本信息檢索技術在圖像檢索中應用擴展。[12]后者是一種基于視覺特征（如顏色、布局、紋理、形狀和結構等）的圖像檢索方法，也常稱為基于內容的圖像檢索技術。[13]

4.3 可視化引擎

可視化技術主要將可見、不可見或抽象的事物，采用符號、圖形、圖像、視頻等多種可視形式清晰直觀地呈現(xiàn)技術。從來源類型上可分為數(shù)據(jù)呈現(xiàn)和信息呈現(xiàn)兩種，前者主要針對數(shù)據(jù)本身進行可視呈現(xiàn)，而后者主要針對數(shù)據(jù)所承載的信息進行可視呈現(xiàn)，包括常用的空間信息可視化、地理空間信息可視化、時空信息可視化、地理時空信息可視化等。

從呈現(xiàn)形式上，可視化技術涵蓋包括：地理地圖可視化、文本可視化、多維數(shù)據(jù)可視化、動態(tài)時序可視化、網(wǎng)絡圖可視化和時空數(shù)據(jù)可視化。

如上所述，少林文化數(shù)據(jù)存在明顯的多維度多屬性特征，少林文化主線很難從某個單一維度進行可視化呈現(xiàn)，因此，少林文化大數(shù)據(jù)平臺面向不同文化主線的描述形式，采用不同的可視形式。本文把少林文化主線的描述形式歸納為五種（如表4所示）。

5 結語

少林文化集禪修、功夫、禪醫(yī)等多種文化元素于一身，具有跨宗教、跨種族、跨國界、跨文化的特色，使得少林文化大數(shù)據(jù)在數(shù)據(jù)來源、結構特點等方面也有獨特的技術需求。少林文化大數(shù)據(jù)平臺作為少林文化價值的挖掘研究、作為傳播弘揚少林文化內涵的重要載體，在融合大數(shù)據(jù)通用技術基礎上，創(chuàng)新了具有少林文化屬性的相關技術，對同類型屬性的文化大數(shù)據(jù)研究具有借鑒意義。

*本文系國家社科基金一般項目“國家大數(shù)據(jù)戰(zhàn)略背景下檔案數(shù)據(jù)治理體系構建研究”（項目編號：19BTQ097）階段性研究成果。

注釋與參考文獻

[1]劉小安，賈杉杉，彭濤.卷積神經(jīng)網(wǎng)絡在自然語言處理中的應用研究綜述[C]//.中國計算機用戶協(xié)會網(wǎng)絡應用分會2017年第二十一屆網(wǎng)絡新技術與應用年會論文集.《計算機科學》編輯部（Editorial Board of Computer Science），2017：31-34，49.

[2][4]趙京勝，宋夢雪，高祥.自然語言處理發(fā)展及應用綜述[J].信息技術與信息化，2019（7）：142-145.

[3]羅梟.基于深度學習的自然語言處理研究綜述[J].智能計算機與應用，2020（4）：133-137.

[5]李宜哲，王帥丁.自然語言處理的發(fā)展及應用前景綜述[J].IT經(jīng)理世界，2020（5）：210-211.

[6]Allen， J.自然語言理解第2版[M].劉群，張華平，駱衛(wèi)華，等譯.北京：電子工業(yè)出版社，2005：3-9.

[7]孫芳媛.基于倒排索引和字典樹的站內搜索引擎的設計與實現(xiàn)[D].哈爾濱：哈爾濱工業(yè)大學，2016：5-6.

[8]楊文清，黃宜華，張福炎.中文Web文檔庫全文檢索技術研究與實現(xiàn)[J].中文信息學報，1999（4）：50-57.

[9]王靜帆，鄔曉鈞，夏云慶等.中文信息檢索系統(tǒng)的模糊匹配算法研究和實現(xiàn)[J].中文信息學報，2007（6）：59-64.

[10]Ukkonen E. Algorithms for approximate string matching[J].Information and control，1985（1）：100-118.

[11]Ukkonen E. Finding approximate patterns in strings[J]. Journal of Algorithms，1985（1）：132-137.

[12]錢紀初.基于內容的圖片檢索研究[D].杭州：浙江工業(yè)大學，2007：2.

[13]杭燕，楊育彬，陳兆乾.基于內容的圖像檢索綜述[J].計算機應用研究，2002（9）：9-13，29.