• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集技術(shù)在旅游行業(yè)中的應(yīng)用與實(shí)現(xiàn)

      2021-09-08 02:02:42張鵬
      中國(guó)新通信 2021年14期
      關(guān)鍵詞:爬蟲網(wǎng)頁(yè)頁(yè)面

      張鵬

      引言:

      目前,我國(guó)開啟了全面建設(shè)社會(huì)主義現(xiàn)代化國(guó)家的新征程。面對(duì)國(guó)內(nèi)外環(huán)境復(fù)雜多變形勢(shì),我國(guó)提出加快構(gòu)建以國(guó)內(nèi)大循環(huán)為主體,國(guó)際國(guó)內(nèi)雙循環(huán)相互促進(jìn)的新發(fā)展戰(zhàn)略。旅游業(yè)作為國(guó)家經(jīng)濟(jì)社會(huì)發(fā)展的重要組成部分既有新機(jī)遇,也面臨新挑戰(zhàn)。

      科學(xué)技術(shù)飛速發(fā)展,為旅游業(yè)提供了新動(dòng)能,也提出了創(chuàng)新發(fā)展的新要求。大數(shù)據(jù)、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、人工智能等新一輪信息技術(shù)不斷突破,深刻地改變著旅游業(yè)的發(fā)展格局,用數(shù)據(jù)管理、服務(wù)、決策,對(duì)于培育繁榮國(guó)內(nèi)旅游市場(chǎng),充分釋放內(nèi)需潛力,促進(jìn)國(guó)內(nèi)大循環(huán),具有十分重要的支撐作用。

      一、用數(shù)據(jù)支撐管理已成為政府部門迫切需要

      旅游行業(yè)是多種行業(yè)服務(wù)的綜合集成,有很強(qiáng)的復(fù)雜性和綜合性,涉及旅游、交通、天氣、酒店、餐飲等多個(gè)服務(wù)行業(yè),需要多個(gè)行業(yè)通力合作提供一盤棋服務(wù)。國(guó)內(nèi)著名景點(diǎn)景區(qū)的供給數(shù)量相對(duì)于眾多游客差距,面對(duì)大量游客的需求,再加上重要節(jié)假日時(shí)間較集中,經(jīng)常會(huì)出現(xiàn),由于出行計(jì)劃路線沖突導(dǎo)致游客擁擠,旅游體驗(yàn)質(zhì)量不高等問(wèn)題。目前,旅游行業(yè)有關(guān)管理部門,為加強(qiáng)管理,提升服務(wù)質(zhì)量,要求各地嚴(yán)格落實(shí)“限量、預(yù)約、錯(cuò)峰”措施,控制好接待游客數(shù)量,引導(dǎo)游客間隔進(jìn)入景區(qū)、錯(cuò)峰進(jìn)行游覽,將流量管控關(guān)口前置,及時(shí)發(fā)布旅游提示,為游客出行提供參考。面對(duì)以上需要,旅游行業(yè)有關(guān)管理部門可借助大數(shù)據(jù)分析,強(qiáng)化行業(yè)管理,開展業(yè)務(wù)和服務(wù)模式創(chuàng)新。

      基于這樣的需求,經(jīng)過(guò)前期可行性分析和統(tǒng)一規(guī)劃,本文將采用網(wǎng)絡(luò)爬蟲等數(shù)據(jù)采集技術(shù),對(duì)互聯(lián)網(wǎng)旅游信息進(jìn)行掃描汲取,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)旅游信息的采集。旅游行業(yè)有關(guān)管理部門可再結(jié)合多年來(lái)建設(shè)相關(guān)信息系統(tǒng)形成的數(shù)據(jù)積累,實(shí)現(xiàn)旅游相關(guān)信息多維度采集和匯總,為實(shí)現(xiàn)數(shù)據(jù)的多維度挖掘和關(guān)聯(lián)分析,輔助相關(guān)政策出臺(tái)、旅游提示發(fā)布等提供科學(xué)數(shù)據(jù)支撐。

      二、互聯(lián)網(wǎng)旅游信息采集需求

      目前,我國(guó)網(wǎng)民規(guī)模為9.04億。游客通過(guò)網(wǎng)絡(luò)方式查詢制定出行計(jì)劃、定制購(gòu)買旅游產(chǎn)品、分享出行體驗(yàn)、投訴問(wèn)題意愿強(qiáng)烈。借助網(wǎng)絡(luò)爬蟲等技術(shù),對(duì)互聯(lián)網(wǎng)多維度旅游信息進(jìn)行采集,具有部署方便、運(yùn)行高效、采集穩(wěn)定等優(yōu)勢(shì)。

      旅游采集數(shù)據(jù)類型多樣,涵蓋旅游產(chǎn)品資源、營(yíng)銷推廣、輿情觀點(diǎn)、游客行為等多個(gè)方面。旅游資源信息,指旅游要素的基礎(chǔ)數(shù)據(jù)項(xiàng),主要包括旅游目的地、星級(jí)酒店、A級(jí)景區(qū)、旅行社及導(dǎo)游等要素的基礎(chǔ)信息。旅游營(yíng)銷信息,指旅游產(chǎn)品或旅游服務(wù)的生產(chǎn)商所提供的旅游服務(wù)、產(chǎn)品和項(xiàng)目。旅游輿情監(jiān)測(cè)信息,對(duì)互聯(lián)網(wǎng)上旅游者及旅游相關(guān)的言論和觀點(diǎn)進(jìn)行監(jiān)測(cè)和預(yù)測(cè)的行為。游客網(wǎng)絡(luò)行為信息,通過(guò)互聯(lián)網(wǎng)上的信息分析,研究游客的網(wǎng)絡(luò)行為,從而進(jìn)行網(wǎng)絡(luò)用戶分析,用戶消費(fèi)潛力、消費(fèi)行為和消費(fèi)動(dòng)機(jī)分析等。

      旅游采集數(shù)據(jù)來(lái)源渠道廣泛,既包括景區(qū)、旅行社、酒店等網(wǎng)站的結(jié)構(gòu)化旅游要素,也包括博客、新聞、貼吧、微博等非結(jié)構(gòu)化旅游衍生數(shù)據(jù)。旅游資源信息,主要來(lái)源于省、市級(jí)旅游行政管理部門政務(wù)網(wǎng)站和資訊網(wǎng)站。旅游營(yíng)銷信息,主要來(lái)自星級(jí)酒店、A級(jí)景區(qū)、旅行社等旅游企業(yè)網(wǎng)站信息和導(dǎo)游信息。旅游輿情信息,主要來(lái)自門戶網(wǎng)站微博、國(guó)內(nèi)知名論壇、重要輿情網(wǎng)站,社交網(wǎng)絡(luò)和社區(qū)。游客網(wǎng)絡(luò)行為信息,主要來(lái)自對(duì)攜程網(wǎng)、美團(tuán)點(diǎn)評(píng)、去哪兒網(wǎng)等評(píng)價(jià)類數(shù)據(jù)。

      旅游采集方式及更新頻率需全面考慮數(shù)據(jù)類型和數(shù)據(jù)渠道各自特征,可按照動(dòng)態(tài)和靜態(tài)對(duì)相關(guān)采集信息進(jìn)行分類設(shè)置。動(dòng)態(tài)信息是指交通、天氣、價(jià)格、促銷、展會(huì)等隨時(shí)或較短時(shí)間內(nèi)會(huì)發(fā)生變化的旅游信息,還包括熱點(diǎn)新聞、重大活動(dòng)、旅游市場(chǎng)動(dòng)態(tài)等信息。靜態(tài)信息是指法律法規(guī)、企業(yè)名稱地址、簡(jiǎn)介設(shè)施等隨時(shí)間變化不頻繁的信息。動(dòng)態(tài)信息需要即時(shí)更新,靜態(tài)信息可以根據(jù)實(shí)際情況設(shè)定更新周期。更新周期不同可根據(jù)信息的屬性,一般可分為實(shí)時(shí)更新、變即更新、定期更新等幾類。

      三、互聯(lián)網(wǎng)旅游信息采集系統(tǒng)設(shè)計(jì)

      旅游行業(yè)數(shù)據(jù)涉及行業(yè)具有綜合性和復(fù)雜性等特點(diǎn),既要加強(qiáng)與氣象、交通、公安等政府部門橫向合作,又要加強(qiáng)與運(yùn)營(yíng)商、在線電商、搜索引擎等行業(yè)和自媒體的縱向融合??傮w設(shè)計(jì)思路主要有三方面考慮,一是多樣性數(shù)據(jù)采集方式。旅游數(shù)據(jù)種類眾多、分布廣泛,數(shù)據(jù)采集需要綜合接口開發(fā)、網(wǎng)上抓取等多種方式。二是先進(jìn)數(shù)據(jù)整合架構(gòu)。旅游數(shù)據(jù)來(lái)源廣泛、異構(gòu)種類多,數(shù)據(jù)整合管理難度高,采用比較成熟第三方軟件是一種較好的方案。三是通過(guò)應(yīng)用提高科學(xué)管理。整合各方旅游數(shù)據(jù)形成旅游信息資源數(shù)據(jù)庫(kù),可通過(guò)大數(shù)據(jù)分析挖掘里面蘊(yùn)藏的大量?jī)r(jià)值信息。數(shù)據(jù)采集系統(tǒng)主要實(shí)現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)采集渠道、采集策略和采集內(nèi)容管理等三個(gè)部分。主要是通過(guò)網(wǎng)絡(luò)爬蟲等技術(shù),對(duì)網(wǎng)絡(luò)信息采集、處理,其主要技術(shù)包括以下幾部分:

      3.1主題初始化

      主題初始化模塊首先要配置好旅游相關(guān)的景區(qū)、酒店、旅行社等主題詞庫(kù),然后將把一些與主題相關(guān)度緊密度高的URL存在相關(guān)數(shù)據(jù)庫(kù)中,為爬蟲采集工作做好準(zhǔn)備。

      3.2網(wǎng)絡(luò)機(jī)器人

      1.網(wǎng)頁(yè)下載:爬蟲向目標(biāo)網(wǎng)頁(yè)的WEB應(yīng)用服務(wù)器請(qǐng)求頁(yè)面,根據(jù)REP協(xié)議要求下載相關(guān)頁(yè)面并存入庫(kù)中,并建立索引。

      2.解析HTML:按照預(yù)先設(shè)定好的規(guī)則,提取網(wǎng)頁(yè)中有用信息,以文本格式保存用于后期分析,并將新提取出來(lái)的URL存入U(xiǎn)RL隊(duì)列,這樣就進(jìn)入了一個(gè)循環(huán)。

      3.3信息過(guò)濾

      在爬蟲工作前,需要預(yù)先分析網(wǎng)頁(yè)或者URL,提取與主題相關(guān)度高的網(wǎng)頁(yè)或URL鏈接。具體說(shuō)來(lái),信息過(guò)濾模塊包含如下功能:

      1.頁(yè)面與主題的相關(guān)度判定:第一設(shè)定一個(gè)主題相關(guān)度閾值A(chǔ),當(dāng)采集頁(yè)面的主題相關(guān)度小于A,則判定過(guò)濾該網(wǎng)頁(yè),否則添加并下載該頁(yè)面,并對(duì)其建立索引。主題相關(guān)度閾值A(chǔ)的初值可以設(shè)置小一點(diǎn),采用機(jī)器學(xué)習(xí)的方法不斷迭代更新該閾值,至其收斂。

      2. URL與主題的相關(guān)度判定:為了快速提高所需信息獲取的準(zhǔn)確率和效率,需要先判斷采集的URL與預(yù)設(shè)主題是否相關(guān),稱作鏈接過(guò)濾。本采集系統(tǒng)采用TDT(Topic Detection and Tracking)、Pagerank算法對(duì)URL與主題相關(guān)度進(jìn)行判定。

      3.4分詞索引

      1.中文分詞。中文分詞簡(jiǎn)單言之就是講整段話進(jìn)行加標(biāo)點(diǎn)處理,使其具備實(shí)際詞條意義。英文分詞比中文分詞更加簡(jiǎn)單,使其26個(gè)字母實(shí)現(xiàn)其實(shí)際的含義,也就是變成一個(gè)個(gè)的單詞。

      目前,幾大流行的中文分詞主要有PaoDing、Imdict、Mmseg4j、IK等工具,IK分詞器以其自帶詞庫(kù)量大且速度快占用內(nèi)存小等優(yōu)勢(shì)被本系統(tǒng)而采用。旅游行業(yè)綜合性、復(fù)雜性強(qiáng)涉及信息領(lǐng)域種類多樣,需要IK分詞各類專業(yè)詞庫(kù)的支持。

      2.本文在數(shù)據(jù)檢索服務(wù)方面,采用是Solr分布式全文檢索服務(wù)器。其本身具有的API接口類型與Web-service的類似。用戶通過(guò)http協(xié)議進(jìn)入所需Web頁(yè)面查找,同時(shí)提交XML文件給搜索引擎服務(wù)器,Web頁(yè)面顯示出來(lái)的結(jié)果是XML格式的結(jié)果。

      由于采集系統(tǒng)需采集網(wǎng)頁(yè)規(guī)模比較大、搜索的頁(yè)面非常多,采用分布式數(shù)據(jù)采集技術(shù),會(huì)明顯提高系統(tǒng)的性能,可以實(shí)現(xiàn)更快的采集速度和更高的采集性能。在執(zhí)行Web信息采集任務(wù)時(shí),利用多并發(fā)信息采集節(jié)點(diǎn)協(xié)同工作,且每一個(gè)節(jié)點(diǎn)的計(jì)算資源也可獨(dú)立運(yùn)算。

      采集系統(tǒng)提供了比較高效的網(wǎng)絡(luò)信息的采集工具,主要包括元搜索、定向深度搜索、網(wǎng)絡(luò)智能機(jī)器人深網(wǎng)搜索三種互補(bǔ)的策略。

      四、互聯(lián)網(wǎng)旅游信息采集系統(tǒng)實(shí)現(xiàn)及應(yīng)用

      為方便日常管理及使用,旅游信息采集系統(tǒng)需要實(shí)現(xiàn)對(duì)采集信息的實(shí)時(shí)、快速、靈活的瀏覽和顯示,以方便對(duì)各類信息的審核。

      可對(duì)各類的旅游信息按照地域、時(shí)效、來(lái)源、類型、內(nèi)容進(jìn)行多維度篩選檢索查看,對(duì)需要的各類型的信息進(jìn)行相應(yīng)的審核處理。

      以采集北京“故宮”景區(qū)信息為例,展示從爬蟲配置、采集信息管理到最后數(shù)據(jù)庫(kù)查詢等功能實(shí)現(xiàn)。

      4.1配置爬蟲程序

      網(wǎng)絡(luò)爬蟲工具內(nèi)置一個(gè)網(wǎng)頁(yè)瀏覽器,用戶不但可以靈活定義網(wǎng)頁(yè)中要采集的任意內(nèi)容,而且可以完全模擬瀏覽操作網(wǎng)頁(yè)的所有步驟(如輸入注冊(cè)信息、循環(huán)、翻頁(yè)等),并自動(dòng)形成一個(gè)網(wǎng)絡(luò)智能爬蟲,實(shí)現(xiàn)網(wǎng)頁(yè)信息的自動(dòng)采集。

      4.2生成智能爬蟲

      配置爬蟲腳本文件并設(shè)定了爬蟲的名稱和調(diào)度時(shí)間等信息。執(zhí)行腳本,爬蟲就正常工作了,并將采集到的網(wǎng)頁(yè)同步到待審頁(yè)面進(jìn)行一定的人工審核。

      4.3采集系統(tǒng)采集策略定向配置

      輸入“故宮”可以查到爬蟲從各個(gè)來(lái)源采集到的信息,需要人工進(jìn)行一定的合并、添、刪除等數(shù)據(jù)處理工作。

      4.4數(shù)據(jù)庫(kù)查詢驗(yàn)證

      在數(shù)據(jù)庫(kù)中查詢“故宮”采集信息的覆蓋范圍情況,執(zhí)行select * from travel where name like '%故宮%' and cite=858語(yǔ)句,用戶可對(duì)采集渠道進(jìn)行驗(yàn)證。

      五、下一步工作展望

      政府管理部門通過(guò)打破“系統(tǒng)煙囪”“數(shù)據(jù)孤島”,形成覆蓋政府各級(jí)部門的多級(jí)聯(lián)動(dòng)、共建共享的業(yè)務(wù)協(xié)同格局,并應(yīng)用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)對(duì)政府?dāng)?shù)據(jù)和社會(huì)信息的匯聚、存儲(chǔ)和關(guān)聯(lián)分析,可以有效激活數(shù)據(jù)資源價(jià)值,從中發(fā)現(xiàn)新問(wèn)題、創(chuàng)新新動(dòng)能、提升新能量,為政府政策制定科學(xué)化、行業(yè)監(jiān)管精準(zhǔn)化和社會(huì)服務(wù)高效化提供重要支撐。隨著信息技術(shù)不斷發(fā)展,大量游客行為被記錄,越來(lái)越多的數(shù)據(jù)可以被加以利用。在數(shù)據(jù)源頭,本文雖然利用一種成熟方便數(shù)據(jù)采集技術(shù)實(shí)現(xiàn)了多種數(shù)據(jù)采集。

      但是由于旅游數(shù)據(jù)信息來(lái)源比較普遍,采集量巨大,爬蟲智能有限,即便增加各種采集策略,難免會(huì)出現(xiàn)漏采,缺采等情況發(fā)生,采集過(guò)程中很難保證各類旅游數(shù)據(jù)源的數(shù)據(jù)采集量和采集質(zhì)量。所以旅游數(shù)據(jù)采集在渠道覆蓋、持續(xù)采集、人工參與量大等方面還存難點(diǎn),今后工作重點(diǎn)在以下兩方面:

      1.優(yōu)化采集策略,開發(fā)更加智能的采集程序是旅游大數(shù)據(jù)分析中的一個(gè)必要突破點(diǎn)。

      2.旅游數(shù)據(jù)的維度多,可分析主題廣泛,分析模型根據(jù)以往的經(jīng)驗(yàn)建立會(huì)存在局限性,不能體現(xiàn)“讓數(shù)據(jù)說(shuō)話”的過(guò)程,如何有效的建立更符合實(shí)際情況的分析模型也是下一步工作中必須要考慮的問(wèn)題。

      參? 考? 文? 獻(xiàn)

      [1]鄭鑫臻,吳韶波,基于網(wǎng)絡(luò)爬蟲技術(shù)的時(shí)令旅游信息獲取[J].物聯(lián)網(wǎng)技術(shù),2018年05期

      [2]劉煥欣,基于匿名網(wǎng)絡(luò)的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)分析[J].計(jì)算機(jī)產(chǎn)品與流通,2017年12期

      猜你喜歡
      爬蟲網(wǎng)頁(yè)頁(yè)面
      大狗熊在睡覺(jué)
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
      刷新生活的頁(yè)面
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
      10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
      凤翔县| 扎鲁特旗| 田东县| 黔西县| 镶黄旗| 蓝山县| 织金县| 勐海县| 天津市| 海盐县| 抚顺市| 宁化县| 孟津县| 龙山县| 石渠县| 宣威市| 淳化县| 荣成市| 宁都县| 常山县| 萝北县| 辽中县| 左云县| 安西县| 沙河市| 阳山县| 东阿县| 丽江市| 方城县| 永城市| 益阳市| 合川市| 兰西县| 鞍山市| 大足县| 邢台县| 遂昌县| 名山县| 元朗区| 平顺县| 奈曼旗|