何彩娟 于碧鵬 李榮華
【摘?要】步入“互聯(lián)網(wǎng)+”與大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)爬蟲與用戶數(shù)據(jù)分析已經(jīng)成為技術(shù)輿論新格局的重要組成部分,各個(gè)行業(yè)都在積極的朝著互聯(lián)網(wǎng)轉(zhuǎn)型,旅游行業(yè)也在不斷的在嘗試智能化轉(zhuǎn)型,其中用戶數(shù)據(jù)的分析也是最為熱門的話題之一。本文以馬蜂窩網(wǎng)旅行網(wǎng)的用戶在網(wǎng)站發(fā)表的行為數(shù)據(jù),基Python這一時(shí)下流行的人工智能編程語言,做詳細(xì)的數(shù)據(jù)爬取、數(shù)據(jù)分析,為旅游組織方在旅游產(chǎn)品追求個(gè)性化、差異化的市場提供一個(gè)有效的優(yōu)化方向。
1.分析背景
伴隨著經(jīng)濟(jì)蓬勃發(fā)展及人們對生活品質(zhì)的高要求,外加各國政府不約而同的采取優(yōu)惠政策促進(jìn)旅游服務(wù)產(chǎn)業(yè)發(fā)展,使得全球旅游產(chǎn)業(yè)保持快速、穩(wěn)定的發(fā)展。近年來,中國旅游業(yè)競爭力呈現(xiàn)快速上升趨勢。據(jù)統(tǒng)計(jì)數(shù)據(jù)得出,2018年全國旅游出行人數(shù)超55億,總收入超5萬億元,與2017相比分別增長11.09%和11.98%;全國境外旅行人數(shù)約為1.5億人次,同比增長11.5%。消費(fèi)升級的社會,全民旅游意愿、支出節(jié)節(jié)攀升,未來旅游產(chǎn)業(yè)市場仍是塊大蛋糕。
2.國內(nèi)外研究現(xiàn)狀
用戶在選擇具體的旅游景點(diǎn)和規(guī)劃旅游路線時(shí),國內(nèi)大多數(shù)都是基于基本的旅游咨詢,根據(jù)用戶的旅游需求,結(jié)合景點(diǎn)一些對外開放的信息進(jìn)行數(shù)據(jù)采集、分析,最后推薦給用戶。馬蜂窩旅游分享社區(qū)目共有 1.25億用戶,每月在線活躍的人數(shù)超過 1 億,用戶量廣,月產(chǎn)優(yōu)質(zhì)游記超過 13 萬篇。其中涉及國內(nèi)外目的地攻略、游記、問答、點(diǎn)評等用戶真實(shí)分享的UGC信息,對服務(wù)企業(yè)規(guī)劃旅游路線有重要意義。
3.本文實(shí)現(xiàn)思路
本文研究主要由通過網(wǎng)絡(luò)爬蟲技術(shù)獲取馬蜂窩城市數(shù)據(jù)及用戶足跡數(shù)據(jù),并將獲取到的用戶數(shù)據(jù)存儲至數(shù)據(jù)庫中。具體實(shí)現(xiàn)思路如下。
(1)以Python為編程語言,通過Scrapy分布式爬蟲框架獲取城市數(shù)據(jù)和用戶足跡數(shù)據(jù),將獲取到的用戶數(shù)據(jù)以文檔的形式存儲到MongoDB數(shù)據(jù)庫中,數(shù)據(jù)存儲之后完成網(wǎng)絡(luò)爬蟲部分。
(2)統(tǒng)計(jì)數(shù)據(jù)中每個(gè)城市累積旅游人數(shù)和用戶游記中累積出現(xiàn)的詞語。將所有城市的出游情況通過熱力圖的形式附著至中國地圖上,以觀察國內(nèi)整體旅游城市持有趨勢。另外根據(jù)Python提供的中文詞庫,對爬取的游記進(jìn)行分詞統(tǒng)計(jì),獲得出現(xiàn)次數(shù)較多的關(guān)鍵詞并可視化分析,通過這兩點(diǎn)對國內(nèi)的旅游特點(diǎn)進(jìn)行總體概括。
(3)從總體可視化方向?qū)τ脩艟唧w的旅游行為進(jìn)行分析,主要通過出行伴侶、出行天數(shù)、出行季節(jié)、人均花費(fèi)四個(gè)特征對用戶的個(gè)人旅游特征概括,以達(dá)對用戶之間的區(qū)分。
(4)根據(jù)以上分析結(jié)果,將其結(jié)合至實(shí)際的旅游行業(yè)情況,得出一些優(yōu)化旅游服務(wù)行業(yè)的方向以及個(gè)人旅游未來的趨勢。
互聯(lián)網(wǎng)時(shí)代的到來,網(wǎng)絡(luò)所容納的信息數(shù)量級已無法確切統(tǒng)計(jì),對傳統(tǒng)的紙質(zhì)記錄、電腦錄入、系統(tǒng)管理,如何將如此海量的數(shù)據(jù)收集到文本或者數(shù)據(jù)庫中,是個(gè)巨大的難題。面對如此龐大,錯(cuò)綜復(fù)雜的網(wǎng)絡(luò)信息,一套自動獲取信息的網(wǎng)絡(luò)爬蟲系統(tǒng)孕育而生,以減少數(shù)據(jù)檢索,機(jī)器維護(hù),網(wǎng)絡(luò)技術(shù)學(xué)習(xí)等各方成本。本論文以Python作為編程語言來完成相關(guān)數(shù)據(jù)的收集。
4.網(wǎng)頁爬蟲流程
網(wǎng)絡(luò)爬蟲的是給定一個(gè)需要訪問的URL,通過HTTP協(xié)議與服務(wù)器建立連接,得到對應(yīng)頁面的數(shù)據(jù),然后根據(jù)一定規(guī)則進(jìn)行數(shù)據(jù)爬取,本文單個(gè)網(wǎng)頁爬取流程如圖1-1所示。
基本流程如下:
步驟1發(fā)送請求:給定需要訪問的URL,通過HTTP協(xié)議向站點(diǎn)發(fā)起連接請求(Request),等待響應(yīng)與服務(wù)器響建立連接。
步驟2獲取響應(yīng)內(nèi)容:正常響應(yīng)后建立連接,服務(wù)器返回一個(gè)攜帶網(wǎng)頁內(nèi)容的Response,類型為HTM。
步驟3解析內(nèi)容:通過Python提供的Beautifulsoup和Json庫對獲取內(nèi)容進(jìn)行解析,解析方式主要為Beautifulsoup提供的DOM文檔節(jié)點(diǎn)提取。
步驟4存儲數(shù)據(jù):將所需的數(shù)據(jù)從對應(yīng)節(jié)點(diǎn)中提取出來,并存儲到數(shù)據(jù)庫。
整體爬取過程:
(1)爬蟲引擎與起始URL建立站點(diǎn)連接。
(2)爬蟲引擎將URL封裝為請求,并通過下載中間器將其傳遞給下載程序。
(3)下載器把訪問服務(wù)器并下載返回內(nèi)容,封裝成應(yīng)答包,并發(fā)送給爬蟲。
(4)爬蟲解析Response,從網(wǎng)頁中抓取需要的信息,并將解析出信息傳送給實(shí)體管道
(5)若爬蟲解析出的是鏈接,則將鏈接返回存放給調(diào)度器。
(6)重復(fù)以上步驟直到調(diào)度器中沒有請求,結(jié)束對站點(diǎn)的爬取。
5. 總結(jié)
基于網(wǎng)絡(luò)爬蟲的旅游用戶數(shù)據(jù)分析模型是挑選馬蜂窩旅游社區(qū)用戶數(shù)據(jù)設(shè)計(jì)的分析模型,實(shí)現(xiàn)了從龐大的數(shù)據(jù)中從兩方面提取用戶的指定數(shù)據(jù),一方面從馬蜂窩社區(qū)用戶的某個(gè)個(gè)人主頁進(jìn)行數(shù)據(jù)獲取,數(shù)據(jù)獲取后通過其關(guān)注的用戶和訪客深究整個(gè)社區(qū)的其他用戶,直至窮盡所有。另一方面由旅游目的地為切入點(diǎn),提取社區(qū)網(wǎng)站中的國內(nèi)熱門旅游城市數(shù)據(jù),其參考重點(diǎn)主要是所有城市的數(shù)據(jù)均有旅游用戶在網(wǎng)站發(fā)布的行為活動組成。
旅游的體驗(yàn)聯(lián)系到生活的方方面面,希望旅游服務(wù)商以跨界為新思路。社交為例,有旅游+社交的模式,相同目的地且體驗(yàn)心理一點(diǎn)的用戶可以有拼單的自駕游需求,從而推廣當(dāng)?shù)匚幕?。希望未來中國旅游能出現(xiàn)新靈感方式。
參考文獻(xiàn):
[1]邢琦. 旅游信息服務(wù)視閾下的智慧旅游概念[J]. 旅游縱覽,2019.
[2]米也塞·艾尼玩. 基于Python的維吾爾文文本聚類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn). 新疆大學(xué),2012.
[3]耿大偉. 基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 燕山大學(xué),2015.
作者簡介:
何彩娟,1983年8月8日。
于碧鵬,1978年2月,漢,教師,研究方向:人工智能、計(jì)算機(jī)、物理學(xué)教育。
(作者單位:廣州大學(xué)華軟軟件學(xué)院;2廣州石化中學(xué))