• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于游記主題挖掘與表達(dá)的旅游信息推薦研究

      2017-07-17 15:23呂琳露李亞婷
      現(xiàn)代情報(bào) 2017年6期
      關(guān)鍵詞:文本挖掘信息服務(wù)游記

      呂琳露+李亞婷

      [摘要][目的/意義]針對(duì)在線旅游平臺(tái),提出一種挖掘游記主題標(biāo)簽,以代表性游記以及其中相關(guān)內(nèi)容進(jìn)行旅游信息推薦的新策略。[方法/過程]在利用文本挖掘技術(shù),構(gòu)建LDA主題模型,形成游記文本主題標(biāo)簽的基礎(chǔ)上,通過游記代表度算法,篩選出針對(duì)相應(yīng)標(biāo)簽的高描述度與高忠誠(chéng)度游記進(jìn)行旅游信息推薦,以客觀表達(dá)文本聚類結(jié)果以及主題詞之間的語義關(guān)系,并以螞蜂窩旅游網(wǎng)中的“杭州游記”為例,加以驗(yàn)證。[結(jié)果/結(jié)論]結(jié)果表明,這種方式能挖掘出旅游者在歷史旅游經(jīng)歷中真實(shí)的旅游熱點(diǎn)及重點(diǎn)信息需求,針對(duì)高相似度游記的識(shí)別與聚類具有良好效果,對(duì)旅游信息細(xì)粒度推薦具有指導(dǎo)意義與實(shí)踐意義。

      [關(guān)鍵詞]在線旅游平臺(tái);游記;信息推薦;信息服務(wù);文本挖掘

      D0l:10.3969/j.issn.1008—0821.2017.06.010

      [中圖分類號(hào)]G254 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008—0821(2017)06—0061—07

      網(wǎng)絡(luò)游記作為人們獲取旅游信息的重要來源之一,已經(jīng)成為一種傳遞旅游信息的網(wǎng)絡(luò)口碑,幫助并影響著旅游者的決策行為。在此背景下,游記資源的組織和整合對(duì)于在線旅游平臺(tái)中的信息序化以及信息推薦策略研究具有重要意義。如今,在線旅游平臺(tái)對(duì)于游記資源供用戶篩選的條件大都局限于人均花費(fèi)、行程天數(shù)、出發(fā)時(shí)間、和誰出行等屬性,不足以滿足用戶對(duì)更具針對(duì)性游記的檢索需求,完善游記信息序化機(jī)制,提出更有效的信息推薦策略成為旅游網(wǎng)站發(fā)展過程中的一種切實(shí)需要。

      由此,本文針對(duì)在線旅游平臺(tái),提出一種借助文本挖掘技術(shù)來提取游記標(biāo)簽,并篩選出代表性游記,提取相關(guān)內(nèi)容以進(jìn)行旅游信息推薦的新策略。研究利用LDA模型對(duì)游記文本進(jìn)行主題識(shí)別與分析,然后將提煉出來的特征詞作為游記的主題標(biāo)簽,根據(jù)從中自主選擇的標(biāo)簽形成了游記文本的聚類,最后采用代表性游記客觀表達(dá)帶標(biāo)簽文本的內(nèi)容,實(shí)現(xiàn)科學(xué)推薦的目的。

      1相關(guān)研究

      回顧相關(guān)文獻(xiàn),學(xué)者們對(duì)于網(wǎng)絡(luò)游記文本挖掘,主要將其應(yīng)用在對(duì)旅游目的地的形象感知和情感分析、游客行為特征的發(fā)現(xiàn)以及旅游推薦系統(tǒng)的優(yōu)化中。而以旅游信息推薦為中心的研究,除了對(duì)在線旅游平臺(tái)中旅游產(chǎn)品營(yíng)銷策略的探索,學(xué)者們主要著眼于旅游信息推薦算法的改進(jìn),分析如何優(yōu)化相關(guān)算法來提高推薦效率和準(zhǔn)確率,重點(diǎn)集中在利用日志信息和交互信息以及用戶行為數(shù)據(jù),包括訪問記錄、瀏覽與購(gòu)買行為、時(shí)空數(shù)據(jù)、旅游游記等,以進(jìn)行個(gè)性化旅游信息推薦。

      到目前為止,針對(duì)在線旅游游記的推薦研究較少,存在很大的探索空間。相較有參考意義的有:Ji利用游記中的照片和地點(diǎn)信息,建立了一個(gè)包含“用戶一景點(diǎn)一照片”的層次化的圖結(jié)構(gòu),并對(duì)景點(diǎn)、用戶和照片進(jìn)行排序,隨后又對(duì)其進(jìn)行了延伸,在進(jìn)行景點(diǎn)排序后,采用稀疏重構(gòu)方法提取景點(diǎn)的代表性照片;Hao等采用概率圖模型對(duì)旅游游記進(jìn)行建模,提出游記中的詞匯屬于背景話題模型和地點(diǎn)特有的話題模型兩大類,并以此進(jìn)行游記特征詞的抽??;馬艷艷肯定了旅游網(wǎng)站中游記分享社區(qū)的現(xiàn)實(shí)價(jià)值,并通過對(duì)旅游網(wǎng)站中游記專輯制作和分享展示的具體功能設(shè)計(jì),闡述了對(duì)游記資源進(jìn)行組織與整合的基本方法;諸葛菲提出了在線旅游服務(wù)中的眾包信息推薦模型,該方法基于旅行者隱式行為,針對(duì)某一旅游需求,將所有眾包旅游方案中與需求相似度最大的方案作為最優(yōu)結(jié)果推薦給用戶。

      綜上,雖然學(xué)者們已經(jīng)注意到了游記資源在旅游信息推薦中的重要性,部分研究實(shí)現(xiàn)了從游記中挖掘相關(guān)知識(shí)以創(chuàng)新旅游信息服務(wù),但少數(shù)研究將研究重點(diǎn)直接立足于游記本身的推薦上,基于此,本文通過對(duì)網(wǎng)絡(luò)游記文本進(jìn)行主題建模獲得游記主題標(biāo)簽,根據(jù)標(biāo)簽組合形成文本聚類,并篩選出代表性游記進(jìn)行旅游信息推薦,即從游記文本出發(fā)最終回歸到游記進(jìn)行信息表達(dá),實(shí)現(xiàn)客觀、科學(xué)的推薦策略。

      2研究設(shè)計(jì)與方法

      本文通過網(wǎng)絡(luò)爬蟲獲取研究樣本區(qū)域的游記文本,然后對(duì)文本進(jìn)行預(yù)處理,包括設(shè)定自定義詞表、分詞和去停用詞等,將文本向量化;隨后構(gòu)建LDA主題模型,得到游記數(shù)據(jù)集中的主題概率分布,并對(duì)所識(shí)別發(fā)現(xiàn)的高頻特征詞進(jìn)行人工分析與描述,形成文本主題的相關(guān)標(biāo)簽;最后,通過對(duì)每篇游記于用戶根據(jù)需要設(shè)定的標(biāo)簽的描述度、忠誠(chéng)度和代表度的計(jì)算,得到相應(yīng)標(biāo)簽的代表性游記及相關(guān)內(nèi)容。

      2.1數(shù)據(jù)采集及預(yù)處理

      本文采用MetaStudio和DataScraper網(wǎng)頁信息抽取工具,以螞蜂窩旅行網(wǎng)(http:∥www.mafengwo.cn)為例,在網(wǎng)站上用“杭州”作為目的地標(biāo)簽搜集相關(guān)游記,采集的內(nèi)容包括游記的全部文本以及相關(guān)屬性,采集時(shí)間為2016年10月13日至2016年10月14日,共計(jì)1005條數(shù)據(jù)。

      由于游記中語義表達(dá)方式多樣,本文結(jié)合攜程旅游網(wǎng)、螞蜂窩旅行網(wǎng)和貓途鷹旅行社區(qū)提供的杭州地名信息以及其他相關(guān)詞匯信息,以最少匹配為原則,人工對(duì)詞表進(jìn)行統(tǒng)一處理,最終得到杭州主題相關(guān)詞表(1433個(gè))?;诖耍ㄟ^正則表達(dá)式去除游記中的鏈接、表情符號(hào)等噪音信息后,采用Python的Jieba分詞包,對(duì)數(shù)據(jù)樣本進(jìn)行分詞處理,保留各個(gè)游記的名詞、形容詞以及自定義詞表中的詞匯,并去除停用詞,最后得到表1所列數(shù)據(jù)集合。

      2.2游記文本主題挖掘

      借助Python工具,本文運(yùn)用主題建模中最基本的模型LDA(Latent Dirichlet Allocation),挖掘隱藏在游記文本內(nèi)的潛在主題,并對(duì)高頻特征詞進(jìn)行人工分析與描述,以此得到文本主題標(biāo)簽。在LDA建模過程中,采用MCMC(Markov Chain Monte Carlo)中的Gibbs算法對(duì)IDA模型的參數(shù)進(jìn)行近似估計(jì)。其中,本文將狄利克雷函數(shù)的先驗(yàn)參數(shù)α和β設(shè)置為經(jīng)驗(yàn)值,分別為α=50/K,β=0.01,而主題個(gè)數(shù)K則利用層次狄利克雷過程(Hierarchical Dirichlet Processes)進(jìn)行分析確定。

      2.3代表性游記及相關(guān)內(nèi)容的選取

      崔雷等在研究中以TF-IDF為方法學(xué)基礎(chǔ),提出了選取代表性論文來表示某一學(xué)科主題高頻詞共現(xiàn)聚類分析結(jié)果的方法?;诖?,本文通過計(jì)算Pi游記對(duì)標(biāo)簽組Cj的描述度和對(duì)Cj內(nèi)容表達(dá)的專指性,對(duì)每篇游記的代表度進(jìn)行度量最后進(jìn)行降序排列以得到相應(yīng)的代表性游記。具體步驟如下:

      最后,對(duì)所選定的代表性游記,提取含有標(biāo)簽組合中主題詞的所有句子,得到關(guān)于各個(gè)標(biāo)簽主題詞的針對(duì)性內(nèi)容。

      3游記主題詞提取

      針對(duì)數(shù)據(jù)預(yù)處理得到的分析樣本,利用層次狄利克雷過程算法,采用Python的Gensim工具包,對(duì)LDA模型中的主題個(gè)數(shù)進(jìn)行預(yù)判,得到K=149。進(jìn)而構(gòu)建LDA模型,抽取前10個(gè)聚類主題,每個(gè)主題下生成20個(gè)最有可能出現(xiàn)的詞語以及相應(yīng)的概率。由于LDA模型為概率生成模型,每一次得到的識(shí)別結(jié)果有所差別,表2展示了其中一次實(shí)驗(yàn)中的前5個(gè)聚類結(jié)果。綜合實(shí)驗(yàn)結(jié)果得,不同主題聚類間的特征詞相似度高,且大多分布在旅游景點(diǎn)相關(guān)名詞。由于游記是旅游者基于自身旅游體驗(yàn)主動(dòng)發(fā)表的文本,主要描述了旅游過程與感受,蘊(yùn)含著明顯的行程規(guī)劃信息,因此文本主題多為景點(diǎn)地名及其他相關(guān)名詞符合游記文本的語言特點(diǎn)。同時(shí),也表明了游記文本的主題十分集中,實(shí)驗(yàn)樣本之間的相似度很高,正鑒于此,需要對(duì)文本內(nèi)容進(jìn)行細(xì)粒度的識(shí)別和表達(dá),才能更準(zhǔn)確高效的從繁多的信息中篩選出對(duì)用戶而言價(jià)值更高的游記。

      本文對(duì)上述LDA實(shí)驗(yàn)過程重復(fù)10次,并對(duì)得到的高頻特征詞及其分布概率進(jìn)行人工分析與判讀,過濾語義性弱以及重復(fù)的特征詞,得到文本的特征標(biāo)簽詞表(共108個(gè)),如表3所示。其中,這些主題詞主要可分為4類:①相關(guān)城市名稱,如上海、蘇州、南京等,對(duì)包含這些城市名的游記進(jìn)行探析發(fā)現(xiàn),其語義關(guān)系多為游客行程安排中涉及的旅游出發(fā)地與目的地,也就是說一方面從這些城市到杭州旅游的游客居多;另一方面人們?cè)谟瓮婧贾輹r(shí),常同時(shí)將這些城市也安排在旅行計(jì)劃中;②旅游景點(diǎn)名稱,如千島湖、西湖、靈隱寺以及河坊街等,旅游景點(diǎn)名稱作為占比最多的標(biāo)簽主題詞匯,旅游景點(diǎn)名稱也是最重要的標(biāo)簽,根據(jù)不同標(biāo)簽的選取,可以有效地幫助用戶篩選出切合需求的游記;③景點(diǎn)特色相關(guān)詞匯,如古鎮(zhèn)、龍井、游船和索道等,這些特征是對(duì)旅游景點(diǎn)特色的進(jìn)一步表達(dá),加強(qiáng)了對(duì)旅游景點(diǎn)名詞的語義理解,同時(shí),由于模型算法抽取出的主題詞都是相關(guān)性很強(qiáng)的詞匯,保證了這些景點(diǎn)特色相關(guān)詞匯的可靠性與準(zhǔn)確性;④旅游信息要素相關(guān)特征詞,如門票、酒店、公交及餐廳等,這些主題都是旅行過程中的常見話題,也是旅游者信息需求中的重要組成部分。

      4信息推薦的實(shí)現(xiàn)

      4.1代表性游記推薦

      根據(jù)得到的主題標(biāo)簽詞表,選定標(biāo)簽詞,計(jì)算得到對(duì)應(yīng)的代表性游記,并對(duì)其進(jìn)行了相關(guān)性分析以檢驗(yàn)實(shí)驗(yàn)結(jié)果的科學(xué)性與實(shí)效性,具體步驟與結(jié)果分析如下。

      本文以標(biāo)簽組“周莊、西塘、西溪、河坊街、機(jī)場(chǎng)”、“上海、西湖、花港觀魚、三潭印月、京杭大運(yùn)河、河坊街、酒店、公交”和“靈隱寺、飛來峰、門票、民宿、龍井、中國(guó)茶葉博物館”為例,計(jì)算每篇游記對(duì)相應(yīng)標(biāo)簽的描述度、忠誠(chéng)度和代表度。同時(shí),根據(jù)代表度降序排列,得到前10篇游記作為代表性游記。對(duì)于同一組標(biāo)簽,本文首先計(jì)算了游記的描述度、忠誠(chéng)度與代表度的相關(guān)性(見表4)。

      從表4可看出,針對(duì)1005篇游記,整體上三者之間存在顯著正向相關(guān)關(guān)系;對(duì)于代表性游記,游記的描述度與忠誠(chéng)度呈負(fù)相關(guān),而代表度與描述度、忠誠(chéng)度相關(guān)性呈不確定狀,且三者之間相關(guān)關(guān)系的顯著性由標(biāo)簽組合的改變存在差異。描述度高的游記表示了在該游記中標(biāo)簽對(duì)應(yīng)內(nèi)容相較豐富,忠誠(chéng)度高則表明該游記對(duì)于用戶指定的需求更具有針對(duì)性,專指性強(qiáng)。當(dāng)游記作者對(duì)標(biāo)簽涵蓋旅游內(nèi)容進(jìn)行了較為詳盡的描述時(shí),根據(jù)游記作者的語言習(xí)慣往往對(duì)其他內(nèi)容也有較長(zhǎng)篇幅的記錄,因此在一定程度上描述度與忠誠(chéng)度存在相互制約。而代表度算法綜合了游記對(duì)標(biāo)簽主題的描述程度和忠誠(chéng)程度,只有在游記作者以標(biāo)簽主題內(nèi)容為整篇游記的重點(diǎn),對(duì)相關(guān)內(nèi)容描述得多而其他內(nèi)容記錄得少時(shí),才能得到兩者均處于較高水平的狀態(tài)。這使得最終選取出的代表性游記在內(nèi)容上有較豐富的展現(xiàn),同時(shí)過濾掉了用戶沒有需求的冗余信息。

      隨后本文對(duì)代表性游記進(jìn)一步追蹤和檢驗(yàn),得到各游記字?jǐn)?shù)、所包含圖片數(shù)以及對(duì)應(yīng)游記的用戶互動(dòng)行為數(shù)據(jù),如表5所示。結(jié)果表明,所選取的代表性游記并不是簡(jiǎn)單的數(shù)據(jù)集中字?jǐn)?shù)和包含圖片數(shù)最多的游記,但其數(shù)目處在相較高的位置且在用戶互動(dòng)指標(biāo)上有較好的表現(xiàn)。與此同時(shí),3組標(biāo)簽共得到29篇代表性游記,分別來自29為作者,不同標(biāo)簽組得到的代表性游記差異性顯著,初步證明了通過上述算法得到了對(duì)應(yīng)不同需求的信息甄別結(jié)果,對(duì)于高相似度游記的識(shí)別與聚類具有良好效果。

      與此同時(shí),本文對(duì)抽取同一組標(biāo)簽下的代表性游記內(nèi)容進(jìn)行人工分析以驗(yàn)證,得到代表度更高的游記對(duì)于標(biāo)簽涵蓋內(nèi)容的描述與表達(dá)更加相關(guān)與細(xì)致,且在不同標(biāo)簽組下均有較好的效果。例如,標(biāo)簽組“周莊、西塘、西溪、河坊街、機(jī)場(chǎng)”中,對(duì)應(yīng)編號(hào)為187的游記在字?jǐn)?shù)、所含圖片數(shù)以及閱讀、點(diǎn)贊、評(píng)論、收藏和分享指標(biāo)上均明顯高于其他代表性游記,但其代表度排列第7,并不靠前。具體探究可得該游記行程為“杭州-南潯-蘇州-周莊-錦溪-上海”,時(shí)間跨度10天,雖然內(nèi)容豐富但范圍廣泛,針對(duì)性稍弱,而其他排名靠前的游記與標(biāo)簽內(nèi)容的相關(guān)性更強(qiáng)。在內(nèi)容詳盡方面,例如標(biāo)簽組“上海、西湖、花港觀魚、三潭印月、京杭大運(yùn)河、河坊街、酒店、公交”中。對(duì)應(yīng)編號(hào)為82、634、826的游記對(duì)三潭印月景點(diǎn)的相關(guān)描述;標(biāo)簽組“靈隱寺、飛來峰、門票、民宿、龍井、中國(guó)茶葉博物館”中,對(duì)應(yīng)編號(hào)為173、642游記對(duì)靈隱寺和飛來峰門票信息的表達(dá),見圖1,隨著游記在組中代表度依次減弱,其相關(guān)記錄的詳盡程度依次減弱。

      4.2針對(duì)性內(nèi)容定位

      根據(jù)數(shù)據(jù)樣本中對(duì)游記篇幅的統(tǒng)計(jì)結(jié)果可知,其平均字?jǐn)?shù)達(dá)到4 500字以上,因此,為了更高效的給予用戶相關(guān)信息推薦,滿足用戶需求,本文進(jìn)一步提取了代表性游記中包含標(biāo)簽內(nèi)容的相關(guān)信息。表6展示了對(duì)于標(biāo)簽組“周莊、西塘、西溪、河坊街、機(jī)場(chǎng)”,部分代表性游記中針對(duì)“機(jī)場(chǎng)”的相關(guān)信息。

      5結(jié)語

      如今,很多用戶都傾向于從在線旅游平臺(tái)中獲取旅游經(jīng)驗(yàn)以完善自己的旅游計(jì)劃,而歷史旅游者融合自身體驗(yàn),分享與總結(jié)旅游經(jīng)驗(yàn),撰寫旅游游記,對(duì)于潛在旅游者極具價(jià)值。本文以螞蜂窩旅游信息交流平臺(tái)中杭州旅行游記為例,利用LDA模型對(duì)游記文本集進(jìn)行建模,得到文本主題分布與游記中心主題相關(guān)詞匯。隨后,設(shè)定相關(guān)標(biāo)簽,通過每篇游記對(duì)標(biāo)簽組合的描述度、忠誠(chéng)度和代表度的計(jì)算,得到相應(yīng)的代表性游記及相關(guān)內(nèi)容,最后通過對(duì)代表性游記的追蹤與檢驗(yàn),結(jié)合游記內(nèi)容和相關(guān)屬性,對(duì)研究算法進(jìn)行了進(jìn)一步剖析。

      作為現(xiàn)實(shí)旅游者對(duì)自身旅游經(jīng)歷的描述與情感表達(dá),游記文本具有信息真實(shí)、反饋及時(shí)、內(nèi)容豐富的特點(diǎn),通過LDA主題模型從游記文本中識(shí)別出來的特征詞,切實(shí)代表了該旅游目的地中的熱門景點(diǎn)與特色以及用戶在旅游過程中關(guān)心的熱點(diǎn),將其設(shè)為供用戶選取的標(biāo)簽詞具有符合用戶需求的良好表現(xiàn)。隨后,本文提出以根據(jù)主題標(biāo)簽選取代表性游記進(jìn)行旅游信息推薦的新策略,具有很好的指導(dǎo)意義和實(shí)踐價(jià)值。一方面,當(dāng)用戶設(shè)定一組標(biāo)簽后,需要檢索系統(tǒng)尋找到這組標(biāo)簽所代表的概念之間的語義關(guān)系,而這種關(guān)系往往就蘊(yùn)含在用戶自發(fā)、自主撰寫的游記文本中。另一方面,當(dāng)對(duì)游記文本數(shù)據(jù)集進(jìn)行主題識(shí)別與文本聚類后,對(duì)這些知識(shí)發(fā)現(xiàn)的結(jié)果進(jìn)行表達(dá)和解釋,然后呈現(xiàn)給用戶是信息服務(wù)的最后一道程序,通過篩選代表性游記,用客觀存在的游記文本來表現(xiàn)主題內(nèi)容,實(shí)現(xiàn)旅游信息推薦的方法,使得對(duì)主題詞之間語義關(guān)系的判讀更為客觀與準(zhǔn)確。

      本文還存在一些不足以及可加以深入探討的內(nèi)容,如本文僅以LDA模型為例抽取游記主題標(biāo)簽,雖然LDA是主題挖掘模型中較為成熟與流行的聚類算法,但不代表其完全適應(yīng)游記文本的語言特點(diǎn)。同時(shí),用戶對(duì)于游記描述度與忠誠(chéng)度的傾向方面是否存在側(cè)重等問題也有待商榷,因此,主題識(shí)別算法的優(yōu)化以及代表性游記篩選策略的改進(jìn)都將是以后的研究著眼點(diǎn)。

      猜你喜歡
      文本挖掘信息服務(wù)游記
      地心游記(十)只剩我一個(gè)人
      公共圖書館科技創(chuàng)新服務(wù)探析
      慧眼識(shí)璞玉,妙手煉渾金
      隆昌县| 永修县| 监利县| 奇台县| 册亨县| 得荣县| 綦江县| 丰台区| 西林县| 文化| 社旗县| 淮安市| 景谷| 双峰县| 琼中| 雷山县| 故城县| 高陵县| 襄城县| 京山县| 龙里县| 呼伦贝尔市| 萨迦县| 永年县| 时尚| 山阴县| 常山县| 历史| 闻喜县| 博客| 阿拉尔市| 巍山| 股票| 姚安县| 东方市| 司法| 钟祥市| 博罗县| 温州市| 双江| 大港区|