陳玉玲 龍洋洋 貴州大學(xué) 公共大數(shù)據(jù)國家重點(diǎn)實(shí)驗(yàn)室 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 姜軍志 貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院
在非物質(zhì)文化遺產(chǎn)的理念被提出后,各國都開始重視本國的非物質(zhì)文化遺產(chǎn)保護(hù)。在聯(lián)合國公布的人類非物質(zhì)文化遺產(chǎn)名錄中,中國的非物質(zhì)文化遺產(chǎn)資源豐富,遠(yuǎn)超其他國家。據(jù)調(diào)查,我國擁有非物質(zhì)文化遺產(chǎn)項(xiàng)目多達(dá)87 萬項(xiàng),國家圖書館累積全文影像保護(hù)已達(dá)1.1 億萬頁,音頻數(shù)字轉(zhuǎn)換的音樂超過50 萬首,戲劇種類300 余項(xiàng)、昆曲、古琴等30 余項(xiàng)。另外,國家圖書館主動(dòng)擔(dān)當(dāng)面臨無法永久保存老電影檔案以及影像資料遺產(chǎn)修復(fù)工作,做搶救性數(shù)字化修復(fù)1600 多部。
我國傳統(tǒng)的非物質(zhì)文化遺產(chǎn)保護(hù)方法包括手工記錄、拍照等,書本、照片等很難長時(shí)間存放。在數(shù)字技術(shù)在不斷發(fā)展的時(shí)代,傳統(tǒng)的手工保護(hù)方法耗時(shí)耗力,難以對(duì)非物質(zhì)文化遺產(chǎn)資源進(jìn)行有效的保護(hù)。數(shù)字化技術(shù)的出現(xiàn)為非物質(zhì)文化遺產(chǎn)的保護(hù)、管理與傳承提供了新的方式。因此,結(jié)合數(shù)字化技術(shù),將非物質(zhì)文化遺產(chǎn)進(jìn)行數(shù)字化、可視化,是十分必要的。
非物質(zhì)文化遺產(chǎn)可視化平臺(tái)主要運(yùn)用于無人監(jiān)管的情況下,通過對(duì)網(wǎng)絡(luò)上的非遺數(shù)據(jù)進(jìn)行爬取,在對(duì)數(shù)據(jù)處理后,更新非遺的信息,為非遺保護(hù)人員提供便捷的管理。同時(shí),非遺傳承人也可以通過此平臺(tái)來發(fā)布相關(guān)的非物質(zhì)文化遺產(chǎn)。近年來我國政府和社會(huì)為有效的保護(hù)非物質(zhì)文化遺產(chǎn)投入了很多精力,各省份都開始建立和完善具有地方特色的非物質(zhì)文化遺產(chǎn)檔案與數(shù)據(jù)庫,如“數(shù)字敦煌”,“數(shù)字故宮”,“上海非物質(zhì)文化遺產(chǎn)網(wǎng)”,“浙江省非物質(zhì)文化遺產(chǎn)網(wǎng)”等。但在非物質(zhì)文化遺產(chǎn)數(shù)據(jù)庫的建設(shè)過程中仍然存在很多問題:①我國的非物質(zhì)文化遺產(chǎn)數(shù)目繁多,難以百分百的覆蓋所有資源。據(jù)資料顯示,我國的公共圖書館數(shù)據(jù)庫中非物質(zhì)文化遺產(chǎn)數(shù)據(jù)資料只占總體數(shù)據(jù)庫資料的百分之六。②非物質(zhì)文化遺產(chǎn)的保護(hù),需要政府與全民的參與。因此,針對(duì)文化遺產(chǎn)建立專題數(shù)據(jù)庫,通過數(shù)字化技術(shù)整理非遺信息、使用網(wǎng)絡(luò)展示的方式來對(duì)其進(jìn)行傳播與交流是必不可少的。
針對(duì)貴陽市非物質(zhì)文化遺產(chǎn)的保護(hù),本文結(jié)合大數(shù)據(jù)可視化技術(shù),提出一個(gè)建設(shè)貴陽非物質(zhì)文化遺產(chǎn)可視化平臺(tái)的架構(gòu)方案,來幫助貴陽非遺保護(hù)工作者開展工作,健全貴陽市非物質(zhì)文化遺產(chǎn)管理體制,并對(duì)貴陽非物質(zhì)文化遺產(chǎn)進(jìn)行保護(hù)。
貴陽市非物質(zhì)文化遺產(chǎn)可視化平臺(tái)可以基于云計(jì)算、大數(shù)據(jù)等先進(jìn)技術(shù)進(jìn)行建設(shè),主要目的是實(shí)現(xiàn)非遺信息的數(shù)據(jù)可視化和科學(xué)管理化。本文采用組件化建設(shè)的模式為貴陽市非物質(zhì)文化遺產(chǎn)可視化平臺(tái)提供統(tǒng)一標(biāo)準(zhǔn)化環(huán)境下的組件化建設(shè)支撐,實(shí)現(xiàn)實(shí)戰(zhàn)需求的快速開發(fā)響應(yīng)、應(yīng)用快速部署。方案的架構(gòu)分為應(yīng)用服務(wù)層、服務(wù)支撐層以及基礎(chǔ)層三個(gè)部分。
應(yīng)用服務(wù)層:該層主要為貴陽非遺可視化平臺(tái)用戶提供應(yīng)用服務(wù),提供統(tǒng)一的登錄門戶來輔助非遺保護(hù)工作者實(shí)現(xiàn)非遺的科學(xué)化管理。用戶登錄后可根據(jù)應(yīng)用導(dǎo)航,對(duì)非遺信息查詢、展示、更新等功能。
服務(wù)支持層:借助基礎(chǔ)層的幫助,提供數(shù)據(jù)管理、數(shù)據(jù)共享、數(shù)據(jù)分析、數(shù)據(jù)調(diào)度、數(shù)據(jù)監(jiān)控等服務(wù),實(shí)現(xiàn)非遺相關(guān)數(shù)據(jù)的統(tǒng)一管理,并對(duì)各類數(shù)據(jù)合理銜接、高效利用。
基礎(chǔ)層:基礎(chǔ)層是實(shí)現(xiàn)非遺可視化平臺(tái)的保障,基礎(chǔ)層將硬件資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源等進(jìn)行整合,形成可按需求動(dòng)態(tài)擴(kuò)展的高性能計(jì)算環(huán)境和大容量存儲(chǔ)環(huán)境以滿足海量非遺數(shù)據(jù)存儲(chǔ)。
貴陽非物質(zhì)文化遺產(chǎn)可視化平臺(tái)體系架構(gòu)中,涉及到數(shù)據(jù)交換整合、資源管理、運(yùn)行維護(hù)、應(yīng)用服務(wù)等各個(gè)層面。在各個(gè)層面中,可以把功能相似的聚集在一起形成模塊,利用組件化開發(fā)原理將最基本、可重用的代碼封裝成組件為模塊提供服務(wù)。堅(jiān)持各個(gè)功能模塊以組件化方式進(jìn)行開發(fā)的原則,并基于服務(wù)總線實(shí)現(xiàn)功能模塊間的無障礙通訊,將各個(gè)模塊之間的依賴和影響降至最低。同時(shí),采用可擴(kuò)展性的技術(shù)體系架構(gòu),滿足平臺(tái)應(yīng)用功能完善升級(jí)和靈活擴(kuò)展的需要。根據(jù)數(shù)據(jù)類型、數(shù)據(jù)規(guī)模、應(yīng)用方式的不同,采用多種數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)庫管理技術(shù)混合應(yīng)用的方式進(jìn)行數(shù)據(jù)資源存儲(chǔ)管理體系建設(shè),搭建檔案庫、關(guān)系庫、專題庫、日志庫等核心數(shù)據(jù)庫。在數(shù)據(jù)庫管理方面,采用關(guān)系型數(shù)據(jù)庫、分布式列式數(shù)據(jù)庫混搭的管理方式。關(guān)系型數(shù)據(jù)庫主要存放基礎(chǔ)數(shù)據(jù)以及面向業(yè)務(wù)服務(wù)支撐的各類數(shù)據(jù)集,用于實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化處理、質(zhì)量監(jiān)控管理以及數(shù)據(jù)量較小、實(shí)時(shí)性要求高的數(shù)據(jù)分析處理工作;列式數(shù)據(jù)庫主要用于需要進(jìn)行大規(guī)模計(jì)算處理的海量數(shù)據(jù)的存放,利用其支持分布式存儲(chǔ)和并行計(jì)算的特性支撐海量數(shù)據(jù)的查詢、統(tǒng)計(jì)和分析處理等工作。
在數(shù)據(jù)存儲(chǔ)方式方面,采用集中式存儲(chǔ)和分布式存儲(chǔ)共同應(yīng)用的方式。其中,關(guān)系型數(shù)據(jù)庫一般采用集中式存儲(chǔ)方式,列式數(shù)據(jù)庫一般采用分布式存儲(chǔ)方式,非結(jié)構(gòu)化數(shù)據(jù)優(yōu)先存放在分布式存儲(chǔ)文件系統(tǒng)中;采用數(shù)據(jù)倉庫技術(shù)(Extract-Transform-Load:ETL)等主流的數(shù)據(jù)集成系統(tǒng)工具(Kettle),對(duì)大量分散異構(gòu)的資源進(jìn)行分類抽取、清洗、轉(zhuǎn)換,從各個(gè)數(shù)據(jù)源抽取數(shù)據(jù),裝載到基礎(chǔ)數(shù)據(jù)資源庫中,實(shí)現(xiàn)數(shù)據(jù)匯聚集成;采用分布式并行計(jì)算處理技術(shù)實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)管理和分析處理。平臺(tái)依托分布式并行計(jì)算框架(如Hadoop),采用分布式文件系統(tǒng)和分布式數(shù)據(jù)庫(如HDFS、Hbase)實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)與管理,使用交互式SQL 大數(shù)據(jù)查詢工具實(shí)現(xiàn)數(shù)據(jù)快速查詢,并使用適合大規(guī)模數(shù)據(jù)集并行運(yùn)算的技術(shù)模型(如Map/Reduce)滿足各種分析應(yīng)用的開發(fā)需要。
平臺(tái)采用關(guān)系型數(shù)據(jù)庫和分布式數(shù)據(jù)存儲(chǔ)混搭架構(gòu),不同數(shù)據(jù)類型將分開存儲(chǔ)。對(duì)于高價(jià)值的整合資料采用關(guān)系數(shù)據(jù)庫技術(shù);對(duì)于內(nèi)容識(shí)別、批量計(jì)算、數(shù)據(jù)挖掘類的海量數(shù)據(jù)計(jì)算,采用Hadoop 生態(tài)體系技術(shù)實(shí)現(xiàn),包括MAP/REDUCE、HBase、HIVE、Impala 等;對(duì)于實(shí)時(shí)性要求很高的數(shù)據(jù)處理將采用Spark Streaming流式計(jì)算引擎技術(shù)實(shí)現(xiàn);數(shù)據(jù)導(dǎo)入和抽取采用kafka、kettle 技術(shù),實(shí)現(xiàn)把海量數(shù)據(jù)高效的輸送到各類型數(shù)據(jù)庫中;資源調(diào)度基于Zookeeper 等技術(shù),為數(shù)據(jù)服務(wù)平臺(tái)的各類應(yīng)用程序進(jìn)行資源管理和調(diào)度。
貴陽非物質(zhì)文化遺產(chǎn)可視化平臺(tái),是一個(gè)面向貴陽市非物質(zhì)文化遺產(chǎn)保護(hù)工作者以及其他非遺愛好者的可視化平臺(tái)。非遺保護(hù)工作者可以通過此平臺(tái)監(jiān)控非遺信息,并且分析非遺信息的變化情況。普通用戶也可以通過此平臺(tái)查詢和新增相關(guān)的非物質(zhì)文化遺產(chǎn)信息。
本文介紹了研究背景、研究現(xiàn)狀以及非遺未來的發(fā)展趨勢(shì),確定了本課題的研究意義和目的,通過建立貴陽市非物質(zhì)文化遺產(chǎn)可視化平臺(tái)來實(shí)現(xiàn)對(duì)非物質(zhì)文化遺產(chǎn)的實(shí)時(shí)監(jiān)控和保護(hù)。本文結(jié)合大數(shù)據(jù)可視化相關(guān)技術(shù),對(duì)貴陽市非物質(zhì)文化遺產(chǎn)可視化平臺(tái)進(jìn)行了架構(gòu)設(shè)計(jì),分析了平臺(tái)實(shí)現(xiàn)的關(guān)鍵技術(shù)與功能,并將功能進(jìn)行了模塊劃分。