• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于網(wǎng)絡(luò)爬蟲的旅游用戶數(shù)據(jù)分析

      2020-01-07 04:00:16何彩娟于碧鵬李榮華
      關(guān)鍵詞:馬蜂窩爬蟲解析

      何彩娟 于碧鵬 李榮華

      【摘?要】步入“互聯(lián)網(wǎng)+”與大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)爬蟲與用戶數(shù)據(jù)分析已經(jīng)成為技術(shù)輿論新格局的重要組成部分,各個(gè)行業(yè)都在積極的朝著互聯(lián)網(wǎng)轉(zhuǎn)型,旅游行業(yè)也在不斷的在嘗試智能化轉(zhuǎn)型,其中用戶數(shù)據(jù)的分析也是最為熱門的話題之一。本文以馬蜂窩網(wǎng)旅行網(wǎng)的用戶在網(wǎng)站發(fā)表的行為數(shù)據(jù),基Python這一時(shí)下流行的人工智能編程語言,做詳細(xì)的數(shù)據(jù)爬取、數(shù)據(jù)分析,為旅游組織方在旅游產(chǎn)品追求個(gè)性化、差異化的市場提供一個(gè)有效的優(yōu)化方向。

      1.分析背景

      伴隨著經(jīng)濟(jì)蓬勃發(fā)展及人們對生活品質(zhì)的高要求,外加各國政府不約而同的采取優(yōu)惠政策促進(jìn)旅游服務(wù)產(chǎn)業(yè)發(fā)展,使得全球旅游產(chǎn)業(yè)保持快速、穩(wěn)定的發(fā)展。近年來,中國旅游業(yè)競爭力呈現(xiàn)快速上升趨勢。據(jù)統(tǒng)計(jì)數(shù)據(jù)得出,2018年全國旅游出行人數(shù)超55億,總收入超5萬億元,與2017相比分別增長11.09%和11.98%;全國境外旅行人數(shù)約為1.5億人次,同比增長11.5%。消費(fèi)升級的社會,全民旅游意愿、支出節(jié)節(jié)攀升,未來旅游產(chǎn)業(yè)市場仍是塊大蛋糕。

      2.國內(nèi)外研究現(xiàn)狀

      用戶在選擇具體的旅游景點(diǎn)和規(guī)劃旅游路線時(shí),國內(nèi)大多數(shù)都是基于基本的旅游咨詢,根據(jù)用戶的旅游需求,結(jié)合景點(diǎn)一些對外開放的信息進(jìn)行數(shù)據(jù)采集、分析,最后推薦給用戶。馬蜂窩旅游分享社區(qū)目共有 1.25億用戶,每月在線活躍的人數(shù)超過 1 億,用戶量廣,月產(chǎn)優(yōu)質(zhì)游記超過 13 萬篇。其中涉及國內(nèi)外目的地攻略、游記、問答、點(diǎn)評等用戶真實(shí)分享的UGC信息,對服務(wù)企業(yè)規(guī)劃旅游路線有重要意義。

      3.本文實(shí)現(xiàn)思路

      本文研究主要由通過網(wǎng)絡(luò)爬蟲技術(shù)獲取馬蜂窩城市數(shù)據(jù)及用戶足跡數(shù)據(jù),并將獲取到的用戶數(shù)據(jù)存儲至數(shù)據(jù)庫中。具體實(shí)現(xiàn)思路如下。

      (1)以Python為編程語言,通過Scrapy分布式爬蟲框架獲取城市數(shù)據(jù)和用戶足跡數(shù)據(jù),將獲取到的用戶數(shù)據(jù)以文檔的形式存儲到MongoDB數(shù)據(jù)庫中,數(shù)據(jù)存儲之后完成網(wǎng)絡(luò)爬蟲部分。

      (2)統(tǒng)計(jì)數(shù)據(jù)中每個(gè)城市累積旅游人數(shù)和用戶游記中累積出現(xiàn)的詞語。將所有城市的出游情況通過熱力圖的形式附著至中國地圖上,以觀察國內(nèi)整體旅游城市持有趨勢。另外根據(jù)Python提供的中文詞庫,對爬取的游記進(jìn)行分詞統(tǒng)計(jì),獲得出現(xiàn)次數(shù)較多的關(guān)鍵詞并可視化分析,通過這兩點(diǎn)對國內(nèi)的旅游特點(diǎn)進(jìn)行總體概括。

      (3)從總體可視化方向?qū)τ脩艟唧w的旅游行為進(jìn)行分析,主要通過出行伴侶、出行天數(shù)、出行季節(jié)、人均花費(fèi)四個(gè)特征對用戶的個(gè)人旅游特征概括,以達(dá)對用戶之間的區(qū)分。

      (4)根據(jù)以上分析結(jié)果,將其結(jié)合至實(shí)際的旅游行業(yè)情況,得出一些優(yōu)化旅游服務(wù)行業(yè)的方向以及個(gè)人旅游未來的趨勢。

      互聯(lián)網(wǎng)時(shí)代的到來,網(wǎng)絡(luò)所容納的信息數(shù)量級已無法確切統(tǒng)計(jì),對傳統(tǒng)的紙質(zhì)記錄、電腦錄入、系統(tǒng)管理,如何將如此海量的數(shù)據(jù)收集到文本或者數(shù)據(jù)庫中,是個(gè)巨大的難題。面對如此龐大,錯(cuò)綜復(fù)雜的網(wǎng)絡(luò)信息,一套自動獲取信息的網(wǎng)絡(luò)爬蟲系統(tǒng)孕育而生,以減少數(shù)據(jù)檢索,機(jī)器維護(hù),網(wǎng)絡(luò)技術(shù)學(xué)習(xí)等各方成本。本論文以Python作為編程語言來完成相關(guān)數(shù)據(jù)的收集。

      4.網(wǎng)頁爬蟲流程

      網(wǎng)絡(luò)爬蟲的是給定一個(gè)需要訪問的URL,通過HTTP協(xié)議與服務(wù)器建立連接,得到對應(yīng)頁面的數(shù)據(jù),然后根據(jù)一定規(guī)則進(jìn)行數(shù)據(jù)爬取,本文單個(gè)網(wǎng)頁爬取流程如圖1-1所示。

      基本流程如下:

      步驟1發(fā)送請求:給定需要訪問的URL,通過HTTP協(xié)議向站點(diǎn)發(fā)起連接請求(Request),等待響應(yīng)與服務(wù)器響建立連接。

      步驟2獲取響應(yīng)內(nèi)容:正常響應(yīng)后建立連接,服務(wù)器返回一個(gè)攜帶網(wǎng)頁內(nèi)容的Response,類型為HTM。

      步驟3解析內(nèi)容:通過Python提供的Beautifulsoup和Json庫對獲取內(nèi)容進(jìn)行解析,解析方式主要為Beautifulsoup提供的DOM文檔節(jié)點(diǎn)提取。

      步驟4存儲數(shù)據(jù):將所需的數(shù)據(jù)從對應(yīng)節(jié)點(diǎn)中提取出來,并存儲到數(shù)據(jù)庫。

      整體爬取過程:

      (1)爬蟲引擎與起始URL建立站點(diǎn)連接。

      (2)爬蟲引擎將URL封裝為請求,并通過下載中間器將其傳遞給下載程序。

      (3)下載器把訪問服務(wù)器并下載返回內(nèi)容,封裝成應(yīng)答包,并發(fā)送給爬蟲。

      (4)爬蟲解析Response,從網(wǎng)頁中抓取需要的信息,并將解析出信息傳送給實(shí)體管道

      (5)若爬蟲解析出的是鏈接,則將鏈接返回存放給調(diào)度器。

      (6)重復(fù)以上步驟直到調(diào)度器中沒有請求,結(jié)束對站點(diǎn)的爬取。

      5. 總結(jié)

      基于網(wǎng)絡(luò)爬蟲的旅游用戶數(shù)據(jù)分析模型是挑選馬蜂窩旅游社區(qū)用戶數(shù)據(jù)設(shè)計(jì)的分析模型,實(shí)現(xiàn)了從龐大的數(shù)據(jù)中從兩方面提取用戶的指定數(shù)據(jù),一方面從馬蜂窩社區(qū)用戶的某個(gè)個(gè)人主頁進(jìn)行數(shù)據(jù)獲取,數(shù)據(jù)獲取后通過其關(guān)注的用戶和訪客深究整個(gè)社區(qū)的其他用戶,直至窮盡所有。另一方面由旅游目的地為切入點(diǎn),提取社區(qū)網(wǎng)站中的國內(nèi)熱門旅游城市數(shù)據(jù),其參考重點(diǎn)主要是所有城市的數(shù)據(jù)均有旅游用戶在網(wǎng)站發(fā)布的行為活動組成。

      旅游的體驗(yàn)聯(lián)系到生活的方方面面,希望旅游服務(wù)商以跨界為新思路。社交為例,有旅游+社交的模式,相同目的地且體驗(yàn)心理一點(diǎn)的用戶可以有拼單的自駕游需求,從而推廣當(dāng)?shù)匚幕?。希望未來中國旅游能出現(xiàn)新靈感方式。

      參考文獻(xiàn):

      [1]邢琦. 旅游信息服務(wù)視閾下的智慧旅游概念[J]. 旅游縱覽,2019.

      [2]米也塞·艾尼玩. 基于Python的維吾爾文文本聚類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn). 新疆大學(xué),2012.

      [3]耿大偉. 基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 燕山大學(xué),2015.

      作者簡介:

      何彩娟,1983年8月8日。

      于碧鵬,1978年2月,漢,教師,研究方向:人工智能、計(jì)算機(jī)、物理學(xué)教育。

      (作者單位:廣州大學(xué)華軟軟件學(xué)院;2廣州石化中學(xué))

      猜你喜歡
      馬蜂窩爬蟲解析
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
      三角函數(shù)解析式中ω的幾種求法
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      馬蜂窩之戰(zhàn)
      幽默大師(2020年11期)2020-11-26 06:11:56
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      睡夢解析儀
      電競初解析
      商周刊(2017年12期)2017-06-22 12:02:01
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      相機(jī)解析
      “強(qiáng)項(xiàng)令”董宣
      平安县| 简阳市| 图木舒克市| 两当县| 濮阳市| 大城县| 西乌珠穆沁旗| 安吉县| 陵川县| 鸡东县| 华池县| 丰镇市| 五原县| 河间市| 项城市| 海原县| 丹东市| 怀化市| 镇坪县| 时尚| 忻城县| 额尔古纳市| 金秀| 黎城县| 华坪县| 始兴县| 鄢陵县| 阜康市| 枣庄市| 江阴市| 清水县| 定陶县| 三都| 黔南| 枣强县| 龙山县| 慈溪市| 望江县| 华容县| 灵璧县| 尼勒克县|