• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于社交媒體的海南旅游景區(qū)評價數據集

      2019-11-18 08:10:46林振宇解吉波覃佐淼楊騰飛趙靜
      關鍵詞:海南島數據量文件夾

      林振宇,解吉波,覃佐淼,楊騰飛,趙靜

      1.海南省地球觀測重點實驗室,海南三亞 572000

      2.中國科學院遙感與數字地球研究所,數字地球重點實驗室,北京 100094

      3.河南理工大學,河南焦作 454000

      數據庫(集)基本信息簡介

      數據庫(集)名稱 基于社交媒體的海南旅游景區(qū)評價數據集數據作者 林振宇,解吉波,覃佐淼,楊騰飛,趙靜數據通信作者 解吉波(xiejb@radi.ac.cn)數據時間范圍 2012年1月至2018年10月地理區(qū)域 地理范圍包括海南島(北緯 18°10′-20°10′,東經 108.37°-111.03°)。數據量 58.8 MB數據格式 *.rar, *.sql, *.xlsx數據服務系統(tǒng)網址 http://www.sciencedb.cn/dataSet/handle/714基金項目 海南省重大科技計劃項目(ZDKJ2016021)數據庫(集)組成數據集由1個壓縮包組成,主要包括5個文件夾,數據量約125 MB,壓縮后數據量約58.8 MB。5個文件夾分別為美團、同程、途牛、攜程、樣例數據,每個文件夾下由各旅游網站的景區(qū)評論數據組成,以兩種數據形式存放(*.sql, *.xlsx)。

      引 言

      旅游是海南省的經濟支柱產業(yè)之一,對其他相關產業(yè)的發(fā)展有著較強的帶動作用。研究和提高海南各景區(qū)的服務質量,滿足游客多元化的旅游需求,對進一步促進海南旅游產業(yè)的發(fā)展至關重要。

      隨著旅游互聯(lián)網的快速發(fā)展,大量和旅游景區(qū)相關的用戶評論信息為旅游業(yè)的發(fā)展研究提供了有力數據支持。更多的潛在游客,會在出行前根據這些評論信息制定旅游路線,協(xié)助旅游決策[1-3]。通常,這些數據信息多以文本、圖片的形式出現在各大社交媒體平臺上。這些信息通常表達了游客對于相關景區(qū)的意見、建議和滿意度,從而為景區(qū)質量和服務的進一步提升提供有效參考。目前,國內外已有不少學者對景區(qū)的社交媒體信息展開相關研究,并從不同方面探討它們的應用。如文獻[4]以眾包的形式收集秦皇島高校大學生對當地旅游景區(qū)的評論信息,并結合這些數據提供者的個人信息開展用戶畫像的旅游情境化推薦服務研究;文獻[5]利用多模態(tài)的景點信息(文本、地理標記圖片以及視頻生成景點的信息摘要),根據用戶的查詢?yōu)橛脩魝€性化地推薦景點;文獻[6-8]基于簽到記錄數據來進行旅游路線的推薦等。然而目前,可用的基于社交媒體的開放旅游景區(qū)評論數據集并不多,這嚴重制約了旅游信息挖掘的研究。為此,本文以海南島為研究對象,從主流旅游網站(包括美團網、途牛網、同程網以及攜程網等)上收集和處理了2012-2018年間所有4A和5A級旅游景區(qū)的評論數據構建了數據集。

      1 數據采集和處理方法

      本數據集的生產流程包括數據采集與清洗,數據管理和數據分類。數據制作流程如圖1所示。

      圖1 數據集制作流程圖

      1.1 景區(qū)評論數據的采集與清洗

      該部分數據以海南島4A和5A級景區(qū)為研究對象,將4A和5A級景區(qū)分為4種類型,分別為自然景區(qū)、歷史人文景區(qū)、民俗風情景區(qū)、休閑度假景區(qū)。獲取了2012-2018共7年的評論數據,這些數據主要來源于包括美團、攜程、同程以及途牛在內的4個旅游網站。原始數據形式為HTML,本文通過Java編程語言對其進行了解析和清洗,最終形成了283 072條結構化文本數據。其中,數據清洗操作包括全半角字符的轉化、繁簡體文字的轉化、去除同一用戶的多次評論以及文本去重等。同時,為方便讀者使用,該部分數據以sql和xlsx兩種格式存儲。如下表1-4顯示了數據的基本結構信息,如圖2展示了旅游景區(qū)在海南島的分布情況。

      表1 海南島自然景區(qū)名稱及評論數據量

      表2 海南島歷史人文景區(qū)名稱及評論數據量

      表3 海南島民俗風情景區(qū)名稱及評論數據量

      表4 海南島休閑度假景區(qū)名稱及評論數據量

      序號 名稱 等級 美團 攜程 同程 途牛 地址7 清水灣旅游區(qū) 4A 0 330 0 0 陵水

      圖2 旅游景區(qū)在海南島分布情況

      1.2 數據分類

      景區(qū)社交媒體評論信息蘊含著公眾對于景區(qū)不同方面的評價,這對于發(fā)現和解決旅游景區(qū)存在的問題,提高游客滿意度等具有重要的參考價值。為此,本數據集從多個主題對這些評論信息進行公眾情感分類。

      我們根據整個文本的情感傾向,將該文本分為積極情感、消極情感和中性情感3個類別[9],用以從宏觀上對該景區(qū)作出評價。從細粒度主題上分,我們則根據國家A級景區(qū)的評價指標,基于這些評價指標對該景區(qū)作出情感分類,旨在從多個主題方面刻畫景區(qū)質量,以提供個性化服務需求。其中細粒度的主題指標包括景區(qū)飲食(飲食口味、飲食價格)、景區(qū)娛樂(娛樂趣味性、項目價格)、景區(qū)購物(物價、商業(yè)氛圍)、景區(qū)游覽(購票、景色、導游解說)、景區(qū)特色、景區(qū)衛(wèi)生、景區(qū)交通、景區(qū)住宿、景區(qū)服務質量、景區(qū)安全10個方面。圖3為根據國家A級景區(qū)評價指標的細粒度分類標準。

      圖3 細粒度分類標準

      2 數據樣本描述

      2.1 數據集信息

      本數據集從美團、攜程、同程和途牛4個旅游網站上收集并處理了海南島所有4A和5A級景區(qū)的評論數據,數據的時間跨度為7年(2012-2018年)。

      整個數據集由1個壓縮文件包組成,壓縮文件包由5個文件夾組成。其中4個文件夾分別以上述4個旅游網站命名,每個文件夾下分別為24個景區(qū)在該旅游網站中的所有評論數據,數據儲存格式包括sql和xlsx,命名規(guī)則為“旅游網站+景區(qū)名稱”;第5個文件夾以樣例數據命名,該文件夾下為經過分類處理的數據,命名規(guī)則為“旅游網站+景區(qū)名稱+積極/消極/中性+分類細則序號〔1 景區(qū)飲食(11飲食口味,12飲食價格),2 景區(qū)交通,3 景區(qū)特色,4 景區(qū)游覽(41購票,42 景色,43 導游解說),5 景區(qū)住宿,6 景區(qū)衛(wèi)生,7 景區(qū)娛樂(71娛樂趣味性,72 項目價格),8 景區(qū)服務質量,9 景區(qū)購物(91 物價,92商業(yè)氛圍),10 景區(qū)安全〕”。數據集詳細信息如表5。

      表5 海南島旅游數據集信息

      2.2 分類樣本描述

      樣本集以途牛網上分界洲島旅游區(qū)的評論數據為基礎,將這些原始數據進行多個主題的情感分類,從而得到表6所示的結果。

      表6 示例樣本情況

      3 數據質量控制和評估

      評論海南景區(qū)旅游質量的社交媒體平臺有很多。為保障數據的豐富性,我們通過比較選出了具有代表性的4個旅游網站,以確保最大程度地獲取相關信息。數據收集完成后,我們人工檢查了數據的有效性并刪除了不完整的及與海南旅游景區(qū)無關的評論數據。在分類樣例中,本文所用的細粒度主題則是根據國家A級景區(qū)的評價指標來擬定。對于分類樣例中的文本情感類別標簽,我們安排了2個同事進行人工判讀,并對結果進行復議和討論,以確保最終分類的正確性。

      4 數據使用方法和建議

      本數據集包含海南島4A級以上所有景區(qū)2012-2018年以來283 072條社交媒體評論數據。研究人員可通過互聯(lián)網文本情感分析算法抽取公眾對景區(qū)不同主題特征的態(tài)度信息,同時結合時間維度從公眾觀測的角度探究景區(qū)質量的變化特征,為景區(qū)網絡口碑、形象管理等提供數據參考。通過互聯(lián)網主題聚類算法,如LDA(Latent Dirichlet Allocation)、K-means聚類算法、或者簡單的詞頻計算等語義挖掘算法從各景區(qū)海量評論信息中抽取公眾關注熱點,以服務于旅游景區(qū)的個性化推薦、景區(qū)發(fā)展規(guī)劃等。官方發(fā)布的諸如旅游景區(qū)統(tǒng)計年鑒等數據,可以與本數據集作為相互驗證和補充的數據,將會在景區(qū)容量管理、景區(qū)傳播效果評價、景區(qū)形象管理、景區(qū)熱度分析、景區(qū)質量評價分析、景區(qū)發(fā)展趨勢等研究上發(fā)揮重要作用。

      猜你喜歡
      海南島數據量文件夾
      磁力文件夾
      基于大數據量的初至層析成像算法優(yōu)化
      計算Lyapunov指數的模糊C均值聚類小數據量法
      高刷新率不容易顯示器需求與接口標準帶寬
      寬帶信號采集與大數據量傳輸系統(tǒng)設計與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      調動右鍵 解決文件夾管理三大難題
      是海南省還是海南島?
      TC一鍵直達常用文件夾
      電腦迷(2015年1期)2015-04-29 21:24:13
      關于海南島戰(zhàn)役作戰(zhàn)方針的考察
      軍事歷史(1994年6期)1994-08-15 08:56:38
      回憶海南島渡海登陸戰(zhàn)役
      軍事歷史(1987年2期)1987-08-20 06:10:48
      奎屯市| 玛多县| 彭泽县| 象州县| 砚山县| 仪陇县| 津市市| 廉江市| 新郑市| 犍为县| 浠水县| 阜南县| 丹巴县| 东方市| 崇明县| 涞源县| 长寿区| 都匀市| 岑巩县| 济宁市| 紫云| 榕江县| 石屏县| 武平县| 澎湖县| 确山县| 寿宁县| 若尔盖县| 西林县| 房山区| 兴化市| 合山市| 大邑县| 文化| 乐东| 文成县| 闽清县| 宜阳县| 迁安市| 噶尔县| 英山县|