郜童童 劉文澤 孟斌 黃松 陳思宇
[摘要]隨著國家樹立文化自信、強(qiáng)調(diào)文化傳承、弘揚(yáng)文化精髓等戰(zhàn)略的提出,要求調(diào)動一切力量發(fā)展和繼承文化傳統(tǒng),文化資源密集區(qū)文化遺產(chǎn)豐富,作為文化傳承保護(hù)的重要載體愈發(fā)被學(xué)者和社會各界人士關(guān)注。在總結(jié)梳理現(xiàn)階段文化遺產(chǎn)保護(hù)傳承利用相關(guān)研究的基礎(chǔ)上,探索將微博數(shù)據(jù)、大數(shù)據(jù)分析方法與文化資源保護(hù)利用相結(jié)合,利用爬蟲工具獲取門頭溝地區(qū)2017年一年內(nèi)帶有位置信息的9萬余條微博數(shù)據(jù),運(yùn)用機(jī)器學(xué)習(xí)框架Scikit-Learn,通過樸素貝葉斯對相關(guān)數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,將與文化感知相關(guān)的微博文本選取出來,進(jìn)一步用LDA模型將文化資源保護(hù)利用的相關(guān)微博分為5個主題,并利用GIS技術(shù),將主題分析結(jié)果進(jìn)行空間分析,根據(jù)每個主題的空間分布特征與主題關(guān)鍵詞特征相結(jié)合,歸納為古剎祈福、徒步觀景、古村度假、自駕休閑、民俗感悟五大主題,發(fā)現(xiàn)5個主題的分布空間特征較為明顯,文化資源密集區(qū)的空間結(jié)構(gòu)對歸屬主題的內(nèi)涵有很好的解釋和支撐作用。
[關(guān)鍵詞]文化感知;文化資源密集區(qū);LDA模型;微博數(shù)據(jù);網(wǎng)格分析
[中圖分類號]G 122[文獻(xiàn)標(biāo)志碼]A[文章編號]1005-0310(2019)02-0045-11
Abstract: As the country establishes cultural self-confidence, emphasizes cultural heritages, and promotes the essence of culture, it is demanded to mobilize all forces to develop and inherit cultural traditions. As an important carrier of cultural heritage and protection, cultural heritage in the areas with intensive cultural resources has been paid more and more attention by scholars and people from all walks of life. Based on the summary of the research on the inheritance and utilization of cultural heritage protection at this stage, this paper explores the combination of microblog data, big data analysis methods and cultural heritage protection. By using the reptile tool to obtain more than 90,000 pieces of Weibo data with location information in the Mentougou area in 2017, and by using the machine learning framework Scikit-Learn, the learning and training related data through Naive Bayes will be related to cultural heritage perception. The microblog text is selected, and the related microblogs of cultural heritage sites are further divided into five themes by LDA model, and the GIS technology is used to spatially analyze the topic analysis results. According to the spatial distribution characteristics of each topic and with the combination of the topic key word characteristics, the conclusion is summarized as the five themes of ancient temple blessing, walking observation, ancient village vacation, self-driving leisure, and folklore perception. It finds that the distribution characteristics of the five themes are more obvious, and the spatial structure of the cultural resource-intensive areas has a good explanation for the connotation of the subject and supporting effect.
Keywords: Cultural perception; Cultural resource-intensive areas; LDA Model; Microblog data; Grid analysis
0引言
文化遺產(chǎn)具有悠久的歷史,反映著人類社會發(fā)展的進(jìn)程,體現(xiàn)著傳統(tǒng)優(yōu)秀文化的精神內(nèi)涵,具有極高的藝術(shù)價(jià)值和文化價(jià)值。習(xí)近平總書記在黨的十九大報(bào)告中指出要“堅(jiān)定文化自信,推動社會主義文化繁榮昌盛”[1],而注重文化遺產(chǎn)地保護(hù)、深入挖掘其內(nèi)涵價(jià)值,可以推動文化自信、文化發(fā)展、文化繁榮,總書記在十九大報(bào)告中還提到要“加強(qiáng)文物保護(hù)利用和文化遺產(chǎn)保護(hù)傳承”[1],就需要我們從多方面、多角度探索文化遺產(chǎn)保護(hù)傳承的方法。而文化遺產(chǎn)地是文化遺產(chǎn)的空間載體,研究文化遺產(chǎn)地是對文化遺產(chǎn)保護(hù)傳承的一個重要方面,可以從地理空間視角探索文化遺產(chǎn)保護(hù)傳承。
現(xiàn)今我國學(xué)者對于文化遺產(chǎn)地的研究方法和角度多樣,很多學(xué)者致力于相關(guān)定性研究,這類研究多提出一種思路,對較為宏觀尺度的文化遺產(chǎn)資源進(jìn)行分析,提出適用的旅游開發(fā)建議,如貴州、江蘇、陜西等[2-4]。也有學(xué)者對于文化遺產(chǎn)地的非物質(zhì)文化資源旅游開發(fā)研究較多,重視文化遺產(chǎn)地非物質(zhì)文化遺產(chǎn)更加細(xì)分的研究,如傳統(tǒng)手工制作技藝[5]、民俗體育[6]、傳統(tǒng)曲藝[7]等,注重對非物質(zhì)文化的分析,針對不同類型的非物質(zhì)文化遺產(chǎn)提出了建議,如文化遺產(chǎn)傳播可以利用直播平臺[8]、建設(shè)非遺博物館等[6]??偟膩碚f,相關(guān)定性研究角度多樣,但是缺乏有效的數(shù)據(jù)做支撐,對時(shí)間、空間的變化并沒有追蹤調(diào)查,很難與時(shí)俱進(jìn)地了解文化遺產(chǎn)地相應(yīng)的變化。我國學(xué)者對于文化遺產(chǎn)地的定量研究也頗多,大多與旅游結(jié)合集中在更小的尺度空間,如很多學(xué)者深入對文化遺產(chǎn)地游客感知、居民感知兩個視角的分析。在游客感知方面的研究有安徽黟縣宏村[9]、杭州西湖[10]、河南嵩山少林寺[11]等,提出如突出開發(fā)旅游體驗(yàn)項(xiàng)目、加強(qiáng)智慧旅游公共設(shè)施投入等建議。在居民感知方面研究有安徽西遞村[12]、廣西桂林龍脊平安寨[13]、四川九寨溝[14]等,提出如應(yīng)讓居民更多地參與旅游開發(fā)、構(gòu)建合理的利益分配機(jī)制等建議。相關(guān)的定量研究雖然有一定的問卷調(diào)查量,但其樣本數(shù)量不具規(guī)模,質(zhì)量有待深入評價(jià)。同時(shí)調(diào)查問卷形式也具有人力物力成本大、周期性長等缺點(diǎn),過于注重旅游開發(fā)視角,對文化價(jià)值研究不足,這就可能導(dǎo)致實(shí)踐操作層面可行性不強(qiáng)等問題。
除了定性研究和定量研究,還有一些學(xué)者開展了大數(shù)據(jù)對文化遺產(chǎn)地的研究,多以某一文化遺產(chǎn)地為例,通過一些數(shù)據(jù)平臺收集、篩選大量數(shù)據(jù),從某種角度對數(shù)據(jù)進(jìn)行分析,但缺乏對旅游地的空間分布規(guī)律研究,將文本數(shù)據(jù)與地理空間技術(shù)應(yīng)用的結(jié)合較弱,缺乏文化遺產(chǎn)地空間解讀。很多學(xué)者以某些角度為基礎(chǔ)收集微博數(shù)據(jù)進(jìn)行分析,如旅游形象感知[15]、游客流分析[16]、文化遺產(chǎn)認(rèn)知[17]、營銷現(xiàn)狀[18]等,通過大數(shù)據(jù)分析得出結(jié)論或建議,如有學(xué)者認(rèn)為文化遺產(chǎn)地交通擁堵缺乏管理,應(yīng)當(dāng)加強(qiáng)巡視管理等。雖然學(xué)者們用大數(shù)據(jù)對文化遺產(chǎn)地進(jìn)行分析有所成果,但是過于聚焦于旅游,對文化遺產(chǎn)價(jià)值、文化遺產(chǎn)的空間分布規(guī)律、空間應(yīng)用技術(shù)研究不足。但值得一提的是,也有學(xué)者通過大數(shù)據(jù)對文化遺產(chǎn)價(jià)值或文化遺產(chǎn)空間分布規(guī)律進(jìn)行深入探討。如周佳穎等人通過篩選大量的微博數(shù)據(jù),探測現(xiàn)今民眾對中國傳統(tǒng)節(jié)日的情感認(rèn)知以及認(rèn)知區(qū)域特征[19]。孟斌等人通過對北京三山五園的研究,梳理GIS云技術(shù)發(fā)布數(shù)字化歷史地圖及建立應(yīng)用系統(tǒng)的程序,闡述數(shù)字化技術(shù)方法對于首都北京城市空間形態(tài)的研究意義[20]。
本文基于主題模型的微博用戶數(shù)據(jù),通過數(shù)據(jù)分析、實(shí)證研究對文化遺產(chǎn)價(jià)值和資源、空間位置信息、空間分布規(guī)律進(jìn)行深入研究,從地理空間視角探索文化遺產(chǎn)保護(hù)以及文化遺產(chǎn)豐富區(qū)域的可持續(xù)發(fā)展。本文選取的門頭溝地區(qū)嚴(yán)格意義上不屬于文化遺產(chǎn)地,但是其本身的文化資源豐富程度不容忽視,文化資源密集,歷史底蘊(yùn)豐厚,對于文化資源密集區(qū)感知研究與對文化遺產(chǎn)地研究有著很好的支撐作用,從而探索文化遺產(chǎn)保護(hù)研究。運(yùn)用大數(shù)據(jù)方法對文化資源密集區(qū)感知研究就是為了更全面地對門頭溝地區(qū)的文化資源進(jìn)行分析,微博文本數(shù)據(jù)真實(shí)性較強(qiáng)、數(shù)量規(guī)模大、針對性強(qiáng),通過微博數(shù)據(jù)進(jìn)行文化資源密集區(qū)感知研究,有助于促進(jìn)這些區(qū)域的文化遺產(chǎn)保護(hù)和區(qū)域的可持續(xù)發(fā)展,為未來的文化資源豐富地區(qū)提供一種保護(hù)思路。
1數(shù)據(jù)及研究方法
1.1研究區(qū)域與數(shù)據(jù)源
1.1.1研究區(qū)域概況
門頭溝區(qū)隸屬北京市,位于北京城區(qū)正西偏南,是個有著深厚歷史底蘊(yùn)的文化資源密集區(qū)。擁有北京城母親河之稱的永定河自由徜徉其中,早在1萬年前的新石器早期,北京歷史上著名的東胡林人就在此繁衍生息。門頭溝地區(qū)歷史文化資源十分豐富,擁有潭柘寺、戒臺寺、爨底下村古建筑群和靈岳寺等全國重點(diǎn)文物保護(hù)單位,北京市級文物保護(hù)單位9個,琉璃渠村、爨底下村、靈水村等3個村入選由建設(shè)部和國家文物局共同組織評選的“中國歷史文化名村”,在已經(jīng)公布的四批中國傳統(tǒng)村落名單中,北京共有21個村入選,其中門頭溝區(qū)就有12個。在北京市十三五規(guī)劃綱要中,明確提出要“挖掘區(qū)域文化遺產(chǎn)整體價(jià)值,制定實(shí)施北部長城文化帶、東部運(yùn)河文化帶、西部西山文化帶保護(hù)利用規(guī)劃”[21],西山永定河文化帶成為推動北京文化中心建設(shè)的重要抓手之一。隨著西山永定河文化帶地位的確立,門頭溝區(qū)在文化帶中的歷史文化價(jià)值逐漸被人們關(guān)注。
1.1.2數(shù)據(jù)源與數(shù)據(jù)獲取
數(shù)據(jù)的獲取上,本文利用新浪微博官方API和網(wǎng)頁爬蟲工具,獲取門頭溝地區(qū)的2017年微博用戶數(shù)據(jù)。根據(jù)新浪微博官方發(fā)布的2018年第一季度財(cái)報(bào)顯示,截至2018年3月,微博月活躍用戶數(shù)已增至4.11億,日活躍用戶則增至1.84億,其中活躍用戶中來自移動端的比例達(dá)到了93%。面對如此巨大的體量和海量數(shù)據(jù),在數(shù)據(jù)源選取上有針對性地設(shè)置選取規(guī)則,例如只對定位為門頭溝轄區(qū)內(nèi)的微博進(jìn)行抓取,字符長度在4個字符以上,抓取的屬性包含微博ID、文本、時(shí)間、經(jīng)緯度等信息,最終獲取近10萬條微博信息作為數(shù)據(jù)源。
微博數(shù)據(jù)等大數(shù)據(jù)具有價(jià)值密度低的特點(diǎn),因此數(shù)據(jù)的預(yù)處理是后續(xù)分析的基礎(chǔ),針對此次獲取的微博數(shù)據(jù)的處理包括自定義詞典的建立和停用詞的剔除兩部分。由于中文文檔中沒有明確的分隔符,不能直接引用西方文本以空格為詞語的自然分隔符方式,所以需要利用中文分詞處理技術(shù)將漢字序列切分成單獨(dú)的具有明確語義的詞項(xiàng)。本文在多次試驗(yàn)的基礎(chǔ)上,建立了一套關(guān)于門頭溝區(qū)文化資源密集區(qū)的自定義詞典,包括地點(diǎn)的名詞、行為和情緒的表達(dá),如爨底下、定都閣、石佛嶺、點(diǎn)贊、美照、夜跑等,利用基于語義的分詞算法,得到了較好的分詞結(jié)果。為了提高數(shù)據(jù)采集精度,需要對數(shù)據(jù)進(jìn)行停用詞的剔除,包括微博表述中經(jīng)常用到的@、#、//、表情等特殊符號,中文語境下使用普遍但卻無實(shí)際意義的詞語,諸如語氣助詞、介詞、連詞、副詞等加入停用詞庫進(jìn)行降噪處理,并且將廣告、打榜、抽獎等無關(guān)微博進(jìn)行剔除。
1.2研究方法
1.2.1基于語義的微博分類與提取
基于語義的微博分類提取,利用Python機(jī)器學(xué)習(xí)框架Scikit-Learn制作分類模型,對微博文本進(jìn)行分類與提取。Scikit-Learn是一款簡單有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具,集成了成熟的機(jī)器學(xué)習(xí)的算法,可以廣泛用于解決監(jiān)督和非監(jiān)督分類問題[22-23],其中特征選取采用IF-IDF方法計(jì)算,在常用的7種統(tǒng)計(jì)學(xué)分類方法中,樸素貝葉斯(Naive Bayes)處理微博數(shù)據(jù)優(yōu)勢較為明顯,特別是對于二類分類的學(xué)習(xí)訓(xùn)練時(shí)間短,精確率、正確率、召回率明顯高于其他分類方法[24]。本文在原始數(shù)據(jù)中隨機(jī)抽取1萬條微博,采用監(jiān)督分類的方式對文本進(jìn)行識別,并且利用標(biāo)簽分類賦值,與文化資源密集區(qū)相關(guān)的微博賦值為1,否則賦值為0,利用樸素貝葉斯算法進(jìn)行機(jī)器學(xué)習(xí)文本分類,在源數(shù)據(jù)中計(jì)算機(jī)識別分類,為主題模型的構(gòu)建提供了數(shù)據(jù)基礎(chǔ)。
1.2.2LDA主題模型分析
LDA主題模型是David M.Blei等[25]人基于淺語義分析和概率淺語義分析提出的一種對文本數(shù)據(jù)的主題信息進(jìn)行建模的主題概率模型[26]。LDA可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息,并且有極強(qiáng)的解釋性,可以有效地解決短文本數(shù)據(jù)稀疏性的問題[27],主題提取效果顯著,可較好地反映文本體現(xiàn)的熱點(diǎn)話題。LDA模型也是一個三層貝葉斯概率模型,包含詞-主題-文檔3層結(jié)構(gòu),通過運(yùn)用概率方法對模型進(jìn)行推導(dǎo),來尋找文本集的語義結(jié)構(gòu),挖掘文本的主題[28]。這種非監(jiān)督學(xué)習(xí)的主題構(gòu)建算法,無需對訓(xùn)練集進(jìn)行人為標(biāo)注,只需在文檔集以及語料庫中指定主題的數(shù)量k、迭代次數(shù)和狄利克雷參數(shù)即可[29],極大地節(jié)省了人力成本和時(shí)間成本。目前LDA模型作為最基礎(chǔ)、最著名的主題構(gòu)建方式,廣泛地應(yīng)用于主題挖掘和輿情分析,有學(xué)者將其與情感分析相結(jié)合,展開旅游地[30]或傳統(tǒng)節(jié)日的感知研究,也有學(xué)者嘗試作為微博信息推薦依據(jù)[31]、科學(xué)文獻(xiàn)分析[32]的方法。本文基于 Python3.5 中 Gensim 庫的LDA 模型構(gòu)建算法,對經(jīng)過語義提取出的關(guān)于文化資源密集區(qū)相關(guān)微博的文本內(nèi)容進(jìn)行主題分析,通過LDA 模型中的詞袋(Bag of Words)計(jì)算出不同主題的概率,以及主題下對應(yīng)的詞語分布概率,最終獲得微博用戶對文化資源密集區(qū)感知的主題聚類結(jié)果。
2結(jié)果及分析
2.1分類結(jié)果分析
自定義詞典的確定。在試驗(yàn)前期階段,作者發(fā)現(xiàn)默認(rèn)的分詞計(jì)算效果欠佳,無法有效地將門頭溝地區(qū)文化內(nèi)涵較為豐富的地點(diǎn)進(jìn)行分詞識別,例如文本為“爨底下”“定都峰”,會被計(jì)算機(jī)語句分為“爨/底下”“定都/峰”兩個詞。分詞是文本分析的基礎(chǔ)步驟,不正確的分詞直接影響數(shù)據(jù)的分析,因此建立門頭溝地區(qū)文化遺產(chǎn)相關(guān)的自定義詞典十分必要。通過文獻(xiàn)查詢和對文本多次、反復(fù)的試驗(yàn),將文化資源密集區(qū)名單加入詞典當(dāng)中,以及通過多次的人工矯正,對不正確的分詞加以調(diào)整,最終得到較好的分詞結(jié)果。
分類測試識別文化資源密集區(qū)相關(guān)的微博,在Excel中調(diào)用look up工具在源數(shù)據(jù)中隨機(jī)抽取2萬條微博進(jìn)行人工標(biāo)注,標(biāo)注規(guī)則為文本明確提及文化資源密集區(qū),或沒有出現(xiàn)明確地點(diǎn)但是通過文本內(nèi)容可以判斷發(fā)布者來自文化資源地的可以標(biāo)注為1,否則將判別為與文化資源或遺產(chǎn)無關(guān)微博并標(biāo)注為0。為了將主觀因素降到最低,采用閱卷形式,同一份數(shù)據(jù)最多3個人進(jìn)行標(biāo)注,如果兩人標(biāo)注內(nèi)容相左,則交由第三人進(jìn)行判別。最終在數(shù)據(jù)中獲得訓(xùn)練樣本近1萬條,包括正向即1和負(fù)向即0的人工識別標(biāo)簽各近5千條。將訓(xùn)練樣本進(jìn)行機(jī)器學(xué)習(xí),利用樸素貝葉斯方法對源數(shù)據(jù)進(jìn)行文本分類,最終提取出文化資源密集區(qū)相關(guān)微博2萬3千條左右。在自檢結(jié)果中,混淆矩陣顯示人工標(biāo)注和計(jì)算機(jī)識別均為正向的文本1 018條,同為負(fù)向的文本1 148條,經(jīng)計(jì)算自檢率達(dá)到87.6%,綜合判定分類結(jié)果準(zhǔn)確率為86.5%,機(jī)器學(xué)習(xí)分類結(jié)果比較理想(見表1)。
2.2主題分析結(jié)果及分析
2.2.1主題數(shù)量的確定
為了更精確地選擇微博主題的數(shù)量,以期獲得比較準(zhǔn)確、全面的結(jié)果,第一次試驗(yàn),嘗試將主題個數(shù)設(shè)定為4,輸出25個關(guān)鍵詞,通過對結(jié)果圖的查驗(yàn)以及關(guān)鍵詞的辨別,發(fā)現(xiàn)當(dāng)主題個數(shù)為4時(shí),2類主題與4類主題高度重合,從關(guān)鍵詞來看,兩個主題都反映戶外風(fēng)景觀光,分類差異特征不明顯,結(jié)果不佳。而后,分別將主題個數(shù)依次上調(diào),得到不同數(shù)量主題的結(jié)果展示圖以及輸出的關(guān)鍵詞,通過統(tǒng)計(jì)圖中每個主題的分布比較,以及關(guān)鍵詞的對比核查,發(fā)現(xiàn)隨著主題個數(shù)的增多,地點(diǎn)類關(guān)鍵詞如“潭柘寺”“爨底下”“妙峰山”“京西”等詞基本都占有較高的貢獻(xiàn)值,但是超過5個主題后,隨著主題數(shù)量越多,各個主題分布的位置都有不同程度的交叉重疊現(xiàn)象,有的甚至出現(xiàn)3個主題甚至4個主題分布位置疊蓋在一起,加之對關(guān)鍵詞的校驗(yàn)發(fā)現(xiàn)各主題間關(guān)鍵詞糅雜,模糊了各個主題的特點(diǎn),不能很好地提取出每個主題的特征,會為解讀帶來較大困難,效果不理想。通過多次的實(shí)驗(yàn)探索,最終確定當(dāng)主題個數(shù)為5個時(shí),各主題在結(jié)果圖中的分布較為分散,關(guān)鍵詞也能較為清楚地反映每個主題的特征,決定將其作為本文的實(shí)驗(yàn)結(jié)果,進(jìn)行下一步分析解讀的基礎(chǔ)(見圖1、表2)。
2.2.2主題關(guān)鍵詞及其解讀
和前三個主題不同,主題4中的關(guān)鍵詞是一個動詞“喜歡”(見圖5),其表達(dá)的是情緒的好壞,對于用戶的關(guān)注點(diǎn)無法判斷,只能側(cè)面表現(xiàn)用戶的心情,所以進(jìn)一步綜合其他關(guān)鍵詞對其主題進(jìn)行分析。由圖5可知,該主題中公園旅行的貢獻(xiàn)率最高,這部分用戶更加關(guān)注的地點(diǎn)是有休閑游憩功能的公園,主要的景點(diǎn)有定都閣、蓮石湖、神泉峽等,這些景點(diǎn)區(qū)域都位于門頭溝區(qū)東部,屬于近郊地區(qū)。關(guān)鍵詞“開車”也能很好地證明這些區(qū)域距離城區(qū)較近,非常適合短途自駕游、組團(tuán)游等旅游模式。配合“好吃”“美食”“活動”等關(guān)鍵詞可知該主題在游玩之余有了餐飲的涉及,野餐露營或者品嘗特色美食等概率較高。
主題5可以看到兩個地點(diǎn)性關(guān)鍵詞“妙峰山”和“爨底下”的貢獻(xiàn)率都十分高(見圖6),這兩個地點(diǎn)看似關(guān)聯(lián)度不高,但是用戶將兩個地點(diǎn)的話題放在一起比例較高,可以從兩地的文化背景著手分析,妙峰山是門頭溝區(qū)乃至京西民俗文化的發(fā)祥地,有著悠久的民俗傳統(tǒng)和廣泛的傳播,而爨底下村,作為首批錄入國家級文化遺產(chǎn)地的古村落,其獨(dú)特的古建筑和古民居風(fēng)貌引人入勝,居民的建筑形式、生產(chǎn)習(xí)俗、聚落形態(tài)等作為民俗文化的重要組成部分,展現(xiàn)了爨底下村悠久而深沉的民間文化。因此不難理解妙峰山與爨底下村在歷史底蘊(yùn)和民俗魅力上的共同點(diǎn),通過戶外徒步、騎行、拓展等形式,身體力行,融入其中,表達(dá)了對民俗文化的積極性與關(guān)注度。
2.2.3主題的空間分布
將主題模型輸出結(jié)果導(dǎo)入ARCGIS10.6,利用漁網(wǎng)工具建立格網(wǎng),對其進(jìn)行格網(wǎng)分析,計(jì)算每個格網(wǎng)中每個主題數(shù)量所占的比率,比率較高的格網(wǎng)就是相關(guān)主題空間分布的熱點(diǎn)地區(qū)。本研究選取占比為50%以上作為標(biāo)準(zhǔn),獲取每個主題代表性的地區(qū)相對分布的空間特征。如圖7所示,主題1主要分布于門頭溝區(qū)中北部和東南部地區(qū),集中分布于雁翅鎮(zhèn)和潭柘寺鎮(zhèn)。
主題2零散分布在各個村鎮(zhèn),主要集中于門頭溝區(qū)西部的清水鎮(zhèn)。主題3分布東西部地區(qū)差異較為明顯,集中分布在中西部的村鎮(zhèn)。主題4分布于門頭溝西部和北部地區(qū),清水鎮(zhèn)、齋堂鎮(zhèn)和雁翅鎮(zhèn)分布數(shù)量較多。主題5分布較為廣泛,在清水鎮(zhèn)、齋堂鎮(zhèn)、雁翅鎮(zhèn)、妙峰山鎮(zhèn)和潭柘寺鎮(zhèn)較為集中。各個主題在門頭溝區(qū)各個地區(qū)均有分布,但差異性較為明顯。
主題1位置分布有明顯沿道路分布的特征,東南部該主題體現(xiàn)較為明顯的網(wǎng)格大致與潭王路道路線路分布趨勢相同,潭王路是通往天門山景區(qū)以及潭柘寺景區(qū)的主干路,可以理解為用戶習(xí)慣于在祈福來往的路上進(jìn)行相關(guān)微博內(nèi)容的發(fā)送。潭王路北部區(qū)域?yàn)槊罘屐`溪景區(qū),妙峰山建有娘娘廟等廟宇,三處廟宇群分別為靈感宮、回香閣、玉皇頂,山上建有釋、道、儒、俗等不同信仰的殿宇14座,以創(chuàng)建于明末的“娘娘廟”著名,可以看出妙峰山也是用戶選擇祈福的文化遺產(chǎn)地區(qū)之一。北部熱點(diǎn)區(qū)域大部分沿道路分布,較為明顯的分布在大鎮(zhèn)路、莊大路、高芹路,這3條路都距離得勝寺較近,且周邊并無其他景區(qū)或遺產(chǎn)地,可以認(rèn)為是前往得勝寺祈福的用戶在祈福路上或歸途進(jìn)行的相關(guān)內(nèi)容分享,故而本文將主題1歸納為古剎祈福主題。如圖8所示。
主題2主要集中清水鎮(zhèn),清水鎮(zhèn)南部的熱點(diǎn)地區(qū)為百花山國家級自然保護(hù)區(qū),其風(fēng)景資源包括主峰景區(qū)、草甸景區(qū)、望海樓景區(qū)、百草畔景區(qū)四大景區(qū)。保護(hù)區(qū)中18處獨(dú)特景觀、35個景點(diǎn),有豐富的生態(tài)價(jià)值、觀光價(jià)值和科考價(jià)值,是注重體驗(yàn)自然遺產(chǎn)風(fēng)光用戶的選擇地之一。清水鎮(zhèn)北部的觀景主題體現(xiàn)也十分明顯,主要分布于靈山自然風(fēng)景區(qū)、龍門澗風(fēng)景區(qū)和黃草梁景區(qū),3個景區(qū)位置緊密,形成了強(qiáng)大的風(fēng)景觀光吸引力,致使用戶無法忽視其自然景觀價(jià)值,成為觀景熱點(diǎn)區(qū)域。另外兩個熱點(diǎn)網(wǎng)格分別置于109國道和高沿路,109國道是通往門頭溝區(qū)西部的主干道,其交通地位顯著,高沿路的熱點(diǎn)體現(xiàn),很可能是其服務(wù)于靠北地區(qū)用戶前往清水鎮(zhèn)進(jìn)行觀光游覽的道路,兩條道路都是通往清水鎮(zhèn)觀景游覽比較重要的交通線路,故而將主題2歸納為徒步觀景。如圖9所示。
主題3中清水鎮(zhèn)的熱點(diǎn)村落在黃安村,位于清水鎮(zhèn)西南通往百花山的方向,相傳宋代已成村,村中不僅有眾多的古民居,還有昌宛專署舊址、石刻和過街樓等,其中昌宛黃安專署舊址為門頭溝區(qū)級文保單位,加之百花山國家級保護(hù)區(qū)的帶動,黃安村成為該主題的熱點(diǎn)地區(qū)。其他熱點(diǎn)地區(qū)分散位于109國道、齋柏路、軍紅路周邊,沿線村落眾多,如靈水村、爨底下村、張家村等,村落大都?xì)v史悠遠(yuǎn)、特色鮮明、古跡較為豐富。沿途還有一些度假村、避暑山莊、客棧等設(shè)施,為游客提供中長期村莊生活體驗(yàn),村落具有一定的旅游開發(fā)基礎(chǔ),民俗、飲食等基礎(chǔ)設(shè)施完善,村內(nèi)物質(zhì)文化遺存較為豐富,再之周邊自然景觀豐富,為家人周末度假創(chuàng)造了良好的條件,
讓自己在游玩的同時(shí)不至于過于疲憊,更好地促進(jìn)家庭之間的感情,所以可以將主題3歸納為古村度假。如圖10所示。
主題4的熱點(diǎn)從空間分布上來看,多位于主干道附近如109國道,109國道定位區(qū)域方便到達(dá),分布于門頭溝中西部地區(qū),良好的交通條件彌補(bǔ)了距離城區(qū)較遠(yuǎn)的缺點(diǎn)。
同時(shí)從熱點(diǎn)分布來看,部分熱點(diǎn)積聚于齋堂鎮(zhèn),齋堂鎮(zhèn)在門頭溝區(qū)基礎(chǔ)設(shè)施相對完善、旅游知名度較高,大量游人開車來此游玩。通過上文對主題4的關(guān)鍵詞分析解讀,提取到了具有多元性的休閑娛樂,其關(guān)鍵詞也體現(xiàn)了短途旅游的特點(diǎn),同時(shí)根據(jù)其熱點(diǎn)的空間分布點(diǎn)位于主要交通干道和齋堂鎮(zhèn),其較高的交通通達(dá)性的作用明顯,可以將主題4歸納為自駕休閑。如圖11所示。
主題5熱點(diǎn)地區(qū)為齋堂鎮(zhèn)靈水村,被國家文物局列為第二批公布的“中國歷史文化名村”,該村自古有崇尚文化的遺風(fēng),明初就建有社學(xué),尊師重教,讀書上進(jìn)蔚然成風(fēng),出過22名舉人、2名進(jìn)士和10余名全國最高學(xué)府國子監(jiān)的監(jiān)生,得名“靈水舉人村”。此地打卡的用戶無疑可以很好地感受靈水村傳承悠久的“尚學(xué)”民風(fēng)傳統(tǒng),體會濃厚特色的教育文化。另外打卡熱點(diǎn)地區(qū)為妙峰山,是以宗教民俗為主的文化圣地,每年均舉辦妙峰山娘娘廟會,以香客祭祀妙峰山“天仙圣母碧霞元君”為中心活動,集民間花會、戲曲曲藝表演、觀賞自然風(fēng)光和集市活動為一體,很好地展現(xiàn)妙峰山地區(qū)的民俗特色和民間信仰文化。還有部分打卡熱點(diǎn)地區(qū)為采摘園、觀光園等農(nóng)業(yè)特色項(xiàng)目體驗(yàn)區(qū),展現(xiàn)農(nóng)家民俗,例如京西山水種植社、紫云櫻桃采摘園、京西東山貢梨園等民俗特色體驗(yàn)區(qū),對民俗、農(nóng)樂等進(jìn)行感知,綜合關(guān)鍵詞中的妙峰山、爨底下,展現(xiàn)的是豐富的民俗文化內(nèi)涵,故而主題5為民俗感悟。如圖12所示。
3結(jié)論與討論
3.1結(jié)論
本文以微博數(shù)據(jù)為依托,嘗試將其與文化遺產(chǎn)地的感知研究相結(jié)合,利用樸素貝葉斯文本分類方法,在提取門頭溝區(qū)文化遺產(chǎn)地相關(guān)微博的基礎(chǔ)上,運(yùn)用LDA模型進(jìn)行主題模型構(gòu)建,并且將各個
模型的結(jié)果回歸地圖,研究不同主題的分布特征,
得到以下結(jié)論:
1) 門頭溝地區(qū)與文化遺產(chǎn)相關(guān)微博分為五大主題。經(jīng)過LDA模型構(gòu)建,將文化資源密集區(qū)的微博內(nèi)容體現(xiàn)的話題分為古剎祈福主題、徒步觀景主題、古村度假主題、自駕休閑主題和民俗感悟主題,每個主題下面的貢獻(xiàn)值較高的關(guān)鍵詞,可以較好地反映該主題的特征。
2) 每個主題空間分布差異較為明顯。古剎祈福主題主要集中分布于雁翅鎮(zhèn)和潭柘寺鎮(zhèn)。徒步觀景主題分布相對較為分散,主要集中于清水鎮(zhèn)。古村度假主題分布東西部地區(qū)差異較為明顯,集中分布在中西部的村鎮(zhèn)。自駕休閑主題多分布于主干道和交通設(shè)施便利的地區(qū),交通依賴程度較高。民俗感悟主題分布較為廣泛,在多個村鎮(zhèn)均有較好的體現(xiàn)。
3) 熱點(diǎn)位置對多個主題有較好的呼應(yīng)。利用GIS漁網(wǎng)分析工具,將每個文化資源密集區(qū)主題相對數(shù)量的微博位置清晰展現(xiàn),多個主題的熱點(diǎn)位置均能較好地體現(xiàn)出主題的空間特征,文化資源密集區(qū)的空間結(jié)構(gòu)對文化遺產(chǎn)感知具有重要的影響。
3.2討論
由于微博文本具有內(nèi)容短小、噪音大的特點(diǎn),此方面的大數(shù)據(jù)處理方法還在研究階段,未形成權(quán)威的解決方案,本文雖然利用機(jī)器學(xué)習(xí)對微博文本是否和文化遺產(chǎn)感知有關(guān)進(jìn)行了研究,但對如何提升分類精度有待進(jìn)一步加強(qiáng)。另外,LDA模型中主題的個數(shù)確定依然是經(jīng)驗(yàn)值,需要多次反復(fù)試驗(yàn),根據(jù)經(jīng)驗(yàn)選取,主觀因素較大。同時(shí),微博內(nèi)容位置與實(shí)際位置存在脫離現(xiàn)象,或是存在打卡地點(diǎn)偏離等問題,也導(dǎo)致部分討論的文化遺產(chǎn)感知的結(jié)果回歸到圖上后空間特征并不明顯,在下一步的研究中,要加強(qiáng)對微博數(shù)據(jù)本身特點(diǎn)的進(jìn)一步分析,在技術(shù)上尋求更好的解決方案,為文化遺產(chǎn)保護(hù)傳承利用的相關(guān)研究提供更加有效的技術(shù)支持,促進(jìn)文化
資源密集區(qū)更好的保護(hù)與傳承。
[參考文獻(xiàn)]
[1]習(xí)近平.決勝全面建成小康社會奪取新時(shí)代中國特色社會主義偉大勝利——在中國共產(chǎn)黨第十九次全國代表大會上的報(bào)告[EB/OL].(2017-10-27)[2019-03-01].http://www.xinhuanet.com/2017-10/27/c_1121867529.htm.
[2]羅紹明.貴州文化遺產(chǎn)資源保護(hù)與旅游發(fā)展[J].中國發(fā)展,2018,18(4):33-37.
[3]黃年紅,尹燕,盧勇,等.江蘇文化遺產(chǎn)旅游開發(fā)研究[J].農(nóng)村經(jīng)濟(jì)與科技,2013,24(12):86-89+59.
[4]杜忠潮.陜西關(guān)中地區(qū)帝陵遺產(chǎn)資源保護(hù)與旅游開發(fā)研究[J].咸陽師范學(xué)院學(xué)報(bào),2011,26(6):54-62.
[5]張妍,張婕.基于天津非物質(zhì)文化遺產(chǎn)活態(tài)傳承下的傳統(tǒng)手工藝生產(chǎn)性保護(hù)研究[J].包裝工程,2019,40(4):192-196.
[6]陳永輝,白晉湘.非物質(zhì)文化遺產(chǎn)保護(hù)視角下我國少數(shù)民族民俗體育文化資源開發(fā)[J].武漢體育學(xué)院學(xué)報(bào),2009,43(3):75-80.
[7]李廣宏,梁敏華.桂林戲曲非物質(zhì)文化遺產(chǎn)旅游數(shù)字化開發(fā)研究[J].河北旅游職業(yè)學(xué)院學(xué)報(bào),2018,23(4):28-32.
[8]薛璐瑤,張璐,唐嘉聞.非物質(zhì)文化遺產(chǎn)的新媒體傳播研究——以內(nèi)蒙古呼和浩特市 “和林格爾剪紙”為例[J].新媒體研究,2019,5(1):42-44+55.
[9]盧松,吳霞.古村落旅游地寫生游客滿意度評價(jià)——以黟縣宏村為例[J].地理研究,2017,36(8):1570-1582.
[10]張嫄媛,單文君.基于游客感知的杭州西湖景區(qū)智慧旅游公共服務(wù)體系優(yōu)化研究[J].時(shí)代經(jīng)貿(mào),2018(6):56-58.
[11]張琪.嵩山少林寺游客旅游動機(jī)研究[J].河南工程學(xué)院學(xué)報(bào)(社會科學(xué)版),2015,30(2):22-27.
[12]盧松,張捷,蘇勤.旅游地居民對旅游影響感知與態(tài)度的歷時(shí)性分析——以世界文化遺產(chǎn)西遞景區(qū)為例[J].地理研究,2009,28(2):536-548.
[13]唐曉云,閔慶文,吳忠軍.社區(qū)型農(nóng)業(yè)文化遺產(chǎn)旅游地居民感知及其影響——以廣西桂林龍脊平安寨為例[J].資源科學(xué),2010,32(6):1035-1041.
[14]盧松,張捷,李東和,等.旅游地居民對旅游影響感知和態(tài)度的比較——以西遞景區(qū)與九寨溝景區(qū)為例[J].地理學(xué)報(bào),2008(6):646-656.
[15]楊敏,李馨怡.基于微博數(shù)據(jù)分析的西安旅游形象感知研究[J].曲阜師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,43(1):81-88.
[16]陳曉艷,張子昂,胡小海,等.微博簽到大數(shù)據(jù)中旅游景區(qū)客流波動特征分析——以南京市鐘山風(fēng)景名勝區(qū)為例[J].經(jīng)濟(jì)地理,2018,38(9):206-214.
[17]楊微石,郭旦懷,逯燕玲,等.基于大數(shù)據(jù)的文化遺產(chǎn)認(rèn)知分析方法——以北京舊城中軸線為例[J].地理科學(xué)進(jìn)展,2017,36(9):1111-1118.
[18]塔娜,張海.微博旅游營銷現(xiàn)狀研究——以宏村為例[J].度假旅游,2018(11):204-206.
[19]周佳穎,王俊蓉,張景秋.微博用戶的中國傳統(tǒng)節(jié)日感知及區(qū)域差異研究[J].地球信息科學(xué)學(xué)報(bào),2019,21(1):77-85.
[20]朱海勇,孟斌,張景秋.數(shù)字化技術(shù)和三山五園文化遺產(chǎn)保護(hù)與利用[J].北京聯(lián)合大學(xué)學(xué)報(bào),2016,30(1):21-25.
[21]北京市人民政府辦公廳. 北京市國民經(jīng)濟(jì)和社會發(fā)展第十三個五年規(guī)劃綱要[EB/OL].(2016-03-28)[2019-03-09].http://www.beijing.gov.cn/gongkai/guihua/2841/6590/6600/1700260/1532420/index.html.
[22]SWAMI A, JAIN R. Scikit-learn: machine learning in python[J]. Journal of Machine Learning Research, 2012, 12(10):2825-2830.
[23]楊憶,李建國,葛方振.基于Scikit-Learn的垃圾短信過濾方法實(shí)證研究[J].淮北師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,37(4):39-41.
[24]史琬瑩.樸素貝葉斯方法在文本分類中的運(yùn)用[J].電子技術(shù)與軟件工程,2018(11):192.
[25]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J].Journal of Machine Learning Research, 2003(3):993-1022.
[26]鄧丹君,姚莉.基于微博標(biāo)簽和LDA的微博主題提取算法[J].計(jì)算機(jī)與數(shù)字工程,2017,45(5):954-957.
[27]宋蕾,張培晶.基于LDA主題建模的微博輿情分析系統(tǒng)研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(4):5-6.
[28]張晨逸,孫建伶,丁軼群.基于MB-LDA模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1795-1802.
[29]謝永俊,彭霞,黃舟,等.基于微博數(shù)據(jù)的北京市熱點(diǎn)區(qū)域意象感知[J].地理科學(xué)進(jìn)展,2017,36(9):1099-1110.
[30]張學(xué)民,趙明宇.基于LDA和情感分析的西塘古鎮(zhèn)旅游形象研究[J/OL].河北工業(yè)大學(xué)學(xué)報(bào)(社會科學(xué)版):1-9[2019-03-07].https://doi.org/10.14081/j.cnki.cn13-1396/g4.000113.
[31]崔金棟,杜文強(qiáng),關(guān)楊.基于大數(shù)據(jù)與LDA融合的微博信息推薦方法研究[J].情報(bào)科學(xué),2018,36(9):27-31+76.
[32]周娜,李秀霞,高丹.基于LDA主題模型的“作者—內(nèi)容—方法”多重共現(xiàn)分析——以圖書情報(bào)學(xué)為例[J/OL].情報(bào)理論與實(shí)踐: 1-9[2019-03-07]. http://kns.cnki.net/kcms/detail/11.1762.g3.20190131.1556.004.html.
(責(zé)任編輯李亞青)