胡 永,趙艷香,馬嚴(yán)彥
(北京市園林綠化局信息中心,北京 100013)
古樹名木是一種珍奇的綠色資源,又是一種記錄環(huán)境變遷,社會演變的重要見證,是城市歷史文化遺產(chǎn)的主要組成部分[1]。北京市共有各級別的古樹名木4萬多棵[2],從全球范圍來看,北京也是保存古樹名木數(shù)量和類別最多的大都會,保護(hù)好珍貴的古樹名木資源,對于弘揚北京燦爛的歷史文化,促進(jìn)生態(tài)文明建設(shè),具有十分重要的作用[3]。
近年來,公眾參與古樹名木保護(hù)與管理的熱情逐漸興起,但參與主體人數(shù)少、參與形式簡單、參與機制缺失[4],無法達(dá)到古樹名木得到更為良好的保護(hù)與管理的需要,也不能滿足公眾參與的需要。
現(xiàn)如今在電子政府背景下,為讓公眾更好地參與到北京古樹名木的保護(hù)中,本研究應(yīng)用數(shù)據(jù)分析技術(shù)對古樹名木的二維碼留言數(shù)據(jù)進(jìn)行分析,從數(shù)據(jù)的角度,客觀了解和掌握公眾對古樹的需求、關(guān)注度、喜好等,精確地反映公眾對古樹名木產(chǎn)生的行為特征,為管理部門提供古樹名木管理和規(guī)劃的決策依據(jù),提升政府和公民網(wǎng)絡(luò)互動的效能。
北京市作為歷史文化名城,古樹名木資源豐富,共有4萬多株古樹名木,樹種主要多為側(cè)柏、油松、國槐、榆樹等鄉(xiāng)土樹種;在全市16個區(qū)均有分布,分布密度不均,主要集中在皇陵墓地、皇家園林、王府、寺廟及庭院等地,僅古樹群就有100多處。2018年北京市園林綠化局把每株古樹名木都掛上了二維碼樹牌,建立了二維碼管理系統(tǒng),鼓勵公眾通過掃描樹牌查詢和瀏覽樹木的信息及照片,同時可進(jìn)行評價、留言和拍照上傳等,使公眾與古樹名木的互動交流更為便捷,在公眾和古樹名木之間架起了平行、全方位的信息溝通橋梁,鼓勵普通公眾在參與模式下更多地參與全市古樹名木建設(shè)[5]。
數(shù)據(jù)主要來源于2018-09—2019-08公眾對古樹名木二維碼樹牌的留言。對留言進(jìn)行采集和分類,把公眾每一次通過掃描二維碼樹牌發(fā)布的留言作為“留言次數(shù)”統(tǒng)計,共采集到對北京市古樹名木的二維碼留言數(shù)據(jù)3 580條,部分樣本數(shù)據(jù)見表1。
表1 部分樣本數(shù)據(jù)二維碼編號古樹名稱科屬管護(hù)單位樹齡/a留言內(nèi)容留言時間r6riAb側(cè)柏柏科側(cè)柏屬頤和園管理中心126歐德錘2018-09-01 12:27AB3Mfu側(cè)柏柏科側(cè)柏屬頤和園管理中心136到此一游2018-09-01 12:53iQJbye國槐豆科槐屬故宮博物院400難得2018-09-01 13:35UNfEvm檜柏柏科圓柏屬故宮博物院200贊!2018-09-02 08:14zyeI7b檜柏柏科圓柏屬頤和園管理中心110真香2018-09-02 12:52QZ3yEz檜柏柏科圓柏屬頤和園管理中心110溥儀來過吧?2018-09-02 14:21nYNVFr側(cè)柏柏科側(cè)柏屬頤和園管理中心138你好呀!!2018-09-03 14:22fARfqy側(cè)柏柏科側(cè)柏屬頤和園管理中心124愛護(hù)樹木2018-09-03 16:45……………………
主要應(yīng)用自然語言處理和多維度拆解分析兩種方法,并利用二維碼留言信息內(nèi)容和時空分布特點,分析游客對北京市古樹名木的關(guān)注程度和喜好程度。
自然語言處理(Natural LanguageProcessing,NLP)是將人類交流溝通所用的語言經(jīng)過處理轉(zhuǎn)化為機器所能理解的機器語言,旨在設(shè)計算法使計算機像人一樣理解和處理自然語言[6]。自然語言處理在實體抽取、情感分析等任務(wù)上的準(zhǔn)確度不斷提高[7],為精確處理留言評論數(shù)據(jù)提供了可能。本次古樹名木留言數(shù)據(jù)分析中,運用了NLP即自然語言處理技術(shù)?;贜LP技術(shù),進(jìn)行挖掘,智能統(tǒng)計分析出古樹名木留言詞云圖。
多維度拆解分析方法,是從多個維度拆解分析數(shù)據(jù)。在數(shù)據(jù)分析中,通過不同的維度去觀察同一組數(shù)據(jù),從而從多個角度觀察出數(shù)據(jù)呈現(xiàn)的規(guī)律。
2.2.1 自然語言處理
1)文本預(yù)處理。利用NLTK自然語言處理庫對留言數(shù)據(jù)進(jìn)行文本預(yù)處理,預(yù)處理包括:文本提取(提取所需要的文本)和文本過濾(過濾掉空格空行、重復(fù)數(shù)據(jù)、以及火星文)。在3 580條古樹名木留言數(shù)據(jù)中,提取留言內(nèi)容中的文本,并進(jìn)行文本過濾,去掉無效文本。
2)分詞處理、關(guān)鍵詞提取。將文本預(yù)處理后的留言內(nèi)容,采用jieba(結(jié)巴)分詞處理工具[8](Python的一個中文分詞組件工具),進(jìn)行分詞拆分和處理,用TF-IDF[9](詞頻—逆文件頻率)算法進(jìn)行留言文本關(guān)鍵詞信息提取,TF是一個詞條(term)出現(xiàn)的頻率,IDF是一個詞條的重要性值。
(1)
(2)
得出TF和IDF之后,某個詞t的TF-IDF值為:
TF-IDF(t)=TF(t)*IDF(t)
(3)
通過TF-IDF值過濾掉常見的詞,提取二維碼留言信息中的關(guān)鍵詞。
3)生成留言詞云圖
經(jīng)過TF-IDF算法得到關(guān)鍵詞信息后,通過加載詞云包wordcloud庫,對古樹名木留言熱詞進(jìn)行詞云圖繪制(圖1)??赏ㄟ^調(diào)整wordcloud的參數(shù)設(shè)置詞云圖形狀,達(dá)到不同顯示效果。
圖1 留言詞云圖
2.2.2 多維度拆解分析
將3 580條古樹留言數(shù)據(jù),基于留言頻次、時間、位置進(jìn)行整理統(tǒng)計排序,從多個維度進(jìn)行分析。
從二維碼留言數(shù)據(jù)中,統(tǒng)計出各公園古樹名木的留言次數(shù)數(shù)據(jù),用各公園留言次數(shù)數(shù)據(jù)除以公園內(nèi)古樹名木數(shù)量,得出各公園古樹名木平均被留言評價次數(shù),經(jīng)排序后得到全市公園內(nèi)古樹名木留言評價次數(shù)前九的公園如圖2所示。從圖2可知,故宮內(nèi)的古樹名木平均被留言評價次數(shù)最多。故宮是國家5A級旅游景區(qū),也是第一批全國重點文物保護(hù)單位,聞名國內(nèi)外,故宮內(nèi)的“活文物”——古樹名木,也因其樹齡古老、姿態(tài)奇絕而備受公眾關(guān)注和喜愛。
圖2 各公園古樹名木平均被評價次數(shù)分析圖
將二維碼留言頻次,基于古樹名木類別進(jìn)行匯總統(tǒng)計排序(圖3),得出楸樹是全市平均被留言評價次數(shù)最高的古樹。楸樹是北京的鄉(xiāng)土樹種,樹形優(yōu)美、高大粗壯、花大色艷,更多地受到公眾的喜愛和關(guān)注。
圖3 各類古樹名木平均被評價次數(shù)分析圖
將每株古樹名木評論數(shù)量進(jìn)行排序,得出評論數(shù)量前三甲的古樹名木,分別是潭柘寺編號為110109A00677的銀杏樹、中山公園的編號為110131A06915和110131A06918兩株側(cè)柏,它們的樹齡都在1 000 a以上。潭柘寺古銀杏樹為乾隆御封的“帝王樹”,是迄今為止,皇帝對樹木御封的最高封號,其樹高超過30 m,胸干周長達(dá)9 m,遮蔭面積約600 m2,樹齡1 300 a;中山公園的側(cè)柏,已有上千年的生長史,樹干周長達(dá)一丈九尺余,偉岸挺拔。
將古樹名木留言數(shù)據(jù),按照月份進(jìn)行匯總統(tǒng)計,經(jīng)排序分析后得出月度公眾留言數(shù),詳見圖4,可知4—8月份古樹名木留言評論人數(shù)相對較多,五月份人數(shù)最多,春季至初夏公眾出游觀賞意愿較高,也是古樹名木最佳觀賞時間。
圖4 月度公眾留言數(shù)
將古樹名木留言數(shù)據(jù),按照每小時為一個時間段進(jìn)行匯總統(tǒng)計,經(jīng)排序分析后得出各時段公眾留言數(shù),詳見圖5,可知公眾留言評論較集中的時間段為每天的9:00—15:00。9:00至15:00一般是公眾觀賞游覽較集中的時間段,因此與古樹名木的交流也集中在這個時間段。
圖5 每天各個時段公眾留言數(shù)
留言信息中有20條留言反饋古樹名木瀕臨死亡的信息,10條留言反饋二維碼信息錯誤,8條留言反饋古樹名木遭到破壞,此外還有123條分享古樹名木知識的互動留言,89條祝福古樹名木的留言,881條贊美古樹名木和2 439條打卡紀(jì)念留言,涉及到古樹名木各個相關(guān)方面,內(nèi)容豐富。詳見圖6。
留言詞頻統(tǒng)計得出:帶有“古樹”留言有279條,帶有“到此一游”留言有170條,帶有“歷史”留言有106條,帶有“見證”留言有74條,帶有“大樹”留言有61條,帶有“厲害”留言有50條。得出公眾與古樹名木互動最頻繁的詞是古樹、到此一游、歷史、保護(hù)、見證等詞,表達(dá)了公眾對古樹名木積極向上的情感。
圖6 留言類別統(tǒng)計
本文創(chuàng)新性地依據(jù)古樹名木二維碼留言數(shù)據(jù),利用自然語言處理、多維度拆解分析數(shù)據(jù)分析方法,分析展示了公眾對古樹名木關(guān)注情況及時空特征。從數(shù)據(jù)分析得出:
1) 公眾對了解古樹名木種類以及相關(guān)信息有較強需求,特別是對它們的樹齡有較大偏好。
2) 中山公園、天壇公園、故宮成為公眾參觀古樹名木的最佳去處。
3) 觀賞時間大多集中在春季,每天的觀賞時間一般集中在9:00—15:00。
4) 二維碼留言拓寬了管理部門與公眾之間的溝通渠道,提高了公眾參與全市古樹名木建設(shè)與保護(hù)的便利性和積極性。
5) 古樹歷史悠久,是與歷史對話的橋梁,因此越來越受到公眾關(guān)注,同時北京古樹名木也給公眾提供了美好愿望與祝福的寄托。但大量公眾基本全是通過掃二維碼了解古樹,也說明古樹科普工作有待進(jìn)一步加強。
1)目前統(tǒng)計的古樹名木大多分布在北京五環(huán)以內(nèi),建議加大對北京偏遠(yuǎn)地區(qū)的未知古樹名木的調(diào)查統(tǒng)計,進(jìn)而加強對全市古樹名木的保護(hù)。
2)在游客較集中的公園景區(qū),每年春夏兩季的9:00—15:00時間段,多組織一些古樹名木觀賞及知識普及活動,進(jìn)一步提升公共服務(wù)能力,加大公眾與古樹名木的交流。
3)在游客留言較少的公園景區(qū),加大古樹名木二維碼留言功能與活動的宣傳,更多地引導(dǎo)公眾參與古樹名木的游覽與互動交流。
4)加強古樹名木的標(biāo)牌與標(biāo)識配置,強化科普工作,普及古樹名木生長環(huán)境和生長價值的相關(guān)知識,提高公眾參與保護(hù)古樹名木意識。