• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于大數(shù)據(jù)分析的旅游微博用戶偏愛(ài)研究

      2019-05-22 06:52:52蔣文明
      滁州學(xué)院學(xué)報(bào) 2019年1期
      關(guān)鍵詞:巨量網(wǎng)絡(luò)拓?fù)?/a>網(wǎng)頁(yè)

      曹 煒,蔣文明

      旅游微博用戶偏愛(ài)鏈路算法旨在通過(guò)后臺(tái)用戶瀏覽日志挖掘其瀏覽網(wǎng)站的習(xí)慣規(guī)律,并基于研究結(jié)果優(yōu)化網(wǎng)絡(luò)鏈路設(shè)計(jì)或更加精準(zhǔn)地為用戶提供個(gè)性化推送等商業(yè)服務(wù)[1]。隨著微博這一新興媒介的快速發(fā)展,微博平臺(tái)正向著功能多樣化演進(jìn),旅游微博是其中一種典型的面向休閑旅游的集社交、美圖分享、景點(diǎn)推送和旅游策略制定于一體的網(wǎng)絡(luò)平臺(tái)[2]。當(dāng)前,旅游微博用戶偏愛(ài)鏈路研究主要集中在網(wǎng)絡(luò)拓?fù)浼軜?gòu)既有鏈路的點(diǎn)擊量計(jì)算上[3]。

      這些算法基本能夠?qū)崿F(xiàn)對(duì)偏愛(ài)鏈路的計(jì)算,但也存在明顯的不足之處:(1)這幾種算法建立在“點(diǎn)擊量高等同于客戶偏愛(ài)度高”這一假設(shè)上,從而忽略了網(wǎng)站鏈路設(shè)置以及雜散釣魚(yú)鏈接等對(duì)用戶訪問(wèn)習(xí)慣的影響;(2)旅游微博的生成數(shù)據(jù)呈指數(shù)形式增長(zhǎng),傳統(tǒng)算法對(duì)海量信息處理能力不足的現(xiàn)象日益凸顯[4,5]。

      考慮到大數(shù)據(jù)分析技術(shù)在巨量信息處理上的突出優(yōu)勢(shì),將探索建立更加合理的偏愛(ài)指數(shù)評(píng)價(jià)方法,并基于大數(shù)據(jù)分析和Map-Reduce對(duì)現(xiàn)有網(wǎng)絡(luò)拓?fù)渌惴ㄟM(jìn)行改進(jìn),以實(shí)現(xiàn)對(duì)旅游微博平臺(tái)產(chǎn)生的巨量數(shù)據(jù)進(jìn)行模塊化并行計(jì)算。為探究新算法的可行性,將利用某旅游微博平臺(tái)的真實(shí)數(shù)據(jù)設(shè)計(jì)驗(yàn)證實(shí)驗(yàn)。

      一、 真實(shí)偏愛(ài)指數(shù)研究

      一個(gè)網(wǎng)站某鏈路的點(diǎn)擊量高低并不能客觀評(píng)價(jià)用戶的喜好程度,這一觀點(diǎn)得到了越來(lái)越多的認(rèn)同[6]。邢東山等人基于“相對(duì)點(diǎn)擊量”提出了網(wǎng)站偏愛(ài)度計(jì)算方法,初步建立了互聯(lián)網(wǎng)條件下網(wǎng)站點(diǎn)擊量強(qiáng)度與用戶真實(shí)需求強(qiáng)度的數(shù)學(xué)模型。然而這種方法并未將互聯(lián)網(wǎng)的拓?fù)浼軜?gòu)納入考慮,若其計(jì)算出的一個(gè)偏愛(ài)鏈路與互聯(lián)網(wǎng)拓?fù)浼軜?gòu)中的一個(gè)鏈路重合,這個(gè)鏈路上的高點(diǎn)擊量顯然來(lái)自于用戶的順序?yàn)g覽,并不能說(shuō)明用戶真實(shí)需求強(qiáng)度大[7]。為解決這個(gè)問(wèn)題,在考慮了互聯(lián)網(wǎng)拓?fù)浼軜?gòu)特點(diǎn)的基礎(chǔ)上,提出了“真實(shí)偏愛(ài)指數(shù)”這一概念。

      (一) 互聯(lián)網(wǎng)拓?fù)浼軜?gòu)

      旅游微博用戶可以通過(guò)超鏈接點(diǎn)擊進(jìn)入不同頁(yè)面,通過(guò)所訪問(wèn)頁(yè)面提供的超鏈接,用戶可以進(jìn)一步訪問(wèn)更多巨量網(wǎng)絡(luò)資源[8]。互聯(lián)網(wǎng)的這種拓?fù)浼軜?gòu)見(jiàn)圖1。

      圖1 典型互聯(lián)網(wǎng)拓?fù)浼軜?gòu)

      圖1是旅游微博常用的典型性三層次網(wǎng)絡(luò)架構(gòu),圖1中的圓圈代表網(wǎng)絡(luò)節(jié)點(diǎn),對(duì)應(yīng)真實(shí)網(wǎng)絡(luò)中的網(wǎng)頁(yè),內(nèi)置字母A-G用于標(biāo)識(shí)不同的網(wǎng)絡(luò)節(jié)點(diǎn);圖1中帶箭頭的有向指針代表網(wǎng)頁(yè)間的鏈接關(guān)系。網(wǎng)絡(luò)拓?fù)浼軜?gòu)最初通常是由網(wǎng)站創(chuàng)建人設(shè)置的,網(wǎng)站創(chuàng)建人依據(jù)某個(gè)指標(biāo),對(duì)不同網(wǎng)頁(yè)的關(guān)聯(lián)性進(jìn)行評(píng)判,關(guān)聯(lián)度較大的網(wǎng)頁(yè)在拓?fù)浼軜?gòu)中距離較近,反之則距離較遠(yuǎn)。從微博用戶的角度來(lái)看,網(wǎng)站創(chuàng)建者按設(shè)想搭建的網(wǎng)絡(luò)拓?fù)浼軜?gòu)在真實(shí)線上運(yùn)行中往往不能完全契合用戶興趣,而在網(wǎng)絡(luò)拓?fù)浼軜?gòu)中擁有高點(diǎn)擊量的訪問(wèn)鏈路,顯然更能反映用戶偏愛(ài)。因此,網(wǎng)站創(chuàng)建人可以依據(jù)真實(shí)的用戶偏愛(ài)鏈路,通過(guò)添加或者刪減超鏈接的方式,對(duì)原有網(wǎng)絡(luò)拓?fù)浼軜?gòu)進(jìn)行重設(shè)。如在圖1中,若通過(guò)計(jì)算發(fā)現(xiàn)F→C→A→B→E是用戶點(diǎn)擊量較高的偏愛(ài)鏈路,網(wǎng)站創(chuàng)建人可以設(shè)置F→E的訪問(wèn)鏈路,從而提高微博用戶搜索效率并提升平臺(tái)好評(píng)度。

      (二) 網(wǎng)頁(yè)鏈路矩陣

      旅游微博用戶的網(wǎng)上瀏覽歷史,會(huì)被網(wǎng)頁(yè)日志所記載,網(wǎng)頁(yè)日志能夠詳細(xì)記載用戶瀏覽時(shí)間、瀏覽網(wǎng)頁(yè)地址以及使用網(wǎng)頁(yè)的超鏈接情況。研究旅游微博用戶的網(wǎng)頁(yè)偏愛(ài)鏈路,需要基于巨量日志數(shù)據(jù)進(jìn)行計(jì)算。為了化簡(jiǎn)計(jì)算過(guò)程,通常忽略巨量瀏覽日志數(shù)據(jù)中的非主要單元,而主要關(guān)注用戶的瀏覽鏈路。表1為瀏覽日志數(shù)據(jù)中被重點(diǎn)關(guān)注的數(shù)據(jù)單元。

      表1 瀏覽日志數(shù)據(jù)中的主要數(shù)據(jù)單元

      在表1中,“時(shí)刻”顯示了用戶訪問(wèn)頁(yè)面的時(shí)間,調(diào)取“時(shí)刻”數(shù)據(jù),可以研究用戶在旅游微博上的活躍時(shí)間段規(guī)律,為個(gè)性化推送服務(wù)提供依據(jù);“當(dāng)前頁(yè)面地址”顯示了用戶所逗留網(wǎng)址,用戶在某個(gè)頁(yè)面上逗留時(shí)間的長(zhǎng)短,可以間接衡量用戶對(duì)網(wǎng)頁(yè)內(nèi)容的偏愛(ài)指數(shù)。“鏈接頁(yè)面地址”表示用戶從當(dāng)前逗留網(wǎng)頁(yè)通過(guò)超鏈接點(diǎn)擊進(jìn)入的網(wǎng)頁(yè),用戶上網(wǎng)過(guò)程中產(chǎn)生的“當(dāng)前頁(yè)面→鏈接頁(yè)面”鏈路,是研究用戶偏愛(ài)鏈路的重要依據(jù)。

      目前微博用戶群數(shù)量龐大,一個(gè)熱門(mén)旅游微博平臺(tái),用戶在24小時(shí)內(nèi)瀏覽頁(yè)面所產(chǎn)生的日志數(shù)據(jù)總量可達(dá)到1000GB甚至更高。因而將基于大數(shù)據(jù)分析理論對(duì)日志數(shù)據(jù)進(jìn)行Map-Reduce編程運(yùn)算,以實(shí)現(xiàn)從巨量數(shù)據(jù)中挖掘旅游微博用戶偏愛(ài)鏈路。

      首先從用戶巨量日志數(shù)據(jù)中提取T、N、L三種主要數(shù)據(jù)單元。設(shè)Q=[N,L]為當(dāng)前頁(yè)面地址和鏈接頁(yè)面地址組成的一個(gè)數(shù)據(jù)元素,則Q的集合包含了用戶瀏覽頁(yè)面所產(chǎn)生的所有鏈路。通過(guò)大數(shù)據(jù)分析中的矩陣簡(jiǎn)化算法對(duì)Q的集合進(jìn)行計(jì)算,可明顯減少后期數(shù)據(jù)計(jì)算量,設(shè)表2為化簡(jiǎn)后Q的集合。

      表2 化簡(jiǎn)后Q的集合

      表3 部分?jǐn)?shù)據(jù)的三元素矩陣形式

      在表2中,null表示退出網(wǎng)頁(yè)中斷瀏覽,表中數(shù)據(jù)為相應(yīng)的N和L之間的鏈路點(diǎn)擊量。為進(jìn)一步減少巨量數(shù)據(jù)的計(jì)算量,將簡(jiǎn)化后Q的集合進(jìn)一步簡(jiǎn)化為三元素矩陣,表3為表2中部分?jǐn)?shù)據(jù)的三元素矩陣形式。

      (三)真實(shí)偏愛(ài)指數(shù)計(jì)算

      真實(shí)偏愛(ài)度指數(shù)計(jì)算包括兩個(gè)過(guò)程:網(wǎng)頁(yè)間超鏈接真實(shí)重要度計(jì)算和鏈路真實(shí)偏愛(ài)指數(shù)計(jì)算。

      1.網(wǎng)頁(yè)間超鏈接真實(shí)重要度計(jì)算。網(wǎng)絡(luò)拓?fù)浼軜?gòu)下,超鏈接的點(diǎn)擊量并不能客觀反映其重要度,在圖1中,假設(shè)客戶對(duì)網(wǎng)頁(yè)E的內(nèi)容十分感興趣,則在網(wǎng)絡(luò)拓?fù)浼軜?gòu)下,必須經(jīng)由超鏈接A→B→E實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的E訪問(wèn),這將導(dǎo)致超鏈接A→B的點(diǎn)擊量激增,但用戶卻并非對(duì)網(wǎng)頁(yè)B感興趣。為此,在已有網(wǎng)絡(luò)拓?fù)浼軜?gòu)基礎(chǔ)上提出了鏈路加權(quán)法,以衡量頁(yè)面間超鏈接的真實(shí)重要度。設(shè)i和j分別表示當(dāng)前頁(yè)面序號(hào)和鏈接頁(yè)面序號(hào),鏈路加權(quán)法的操作方法是賦予網(wǎng)頁(yè)的每個(gè)超鏈接一個(gè)加權(quán)系數(shù)Kij,Kij∈(0,1)。在網(wǎng)絡(luò)拓?fù)浼軜?gòu)中,距離主鏈路越遠(yuǎn)的超鏈接,其加權(quán)系數(shù)越大,距離主鏈路越近的超鏈接,其加權(quán)系數(shù)越小。

      2.鏈路真實(shí)偏愛(ài)指數(shù)計(jì)算。設(shè)頁(yè)面i和j間的超鏈接點(diǎn)擊量為Sij,則

      (1)

      式1中,定義E為某條鏈路的真實(shí)偏愛(ài)指數(shù)值。

      二、基于大數(shù)據(jù)分析的用戶偏愛(ài)鏈路算法分析

      熱門(mén)旅游微博平臺(tái)的網(wǎng)絡(luò)日志數(shù)據(jù)規(guī)模龐大,經(jīng)過(guò)化簡(jiǎn)后的三元素矩陣對(duì)常規(guī)算法依舊是一個(gè)挑戰(zhàn),因此提出基于大數(shù)據(jù)分析的Map-Reduce程序處理法,對(duì)三元素矩陣的巨量數(shù)據(jù)進(jìn)行計(jì)算。

      (一) Map-Reduce巨量數(shù)據(jù)并行運(yùn)算模型

      Map-Reduce是旨在處理巨量數(shù)據(jù)(數(shù)據(jù)量在1TB以上時(shí)優(yōu)勢(shì)凸顯)提出的運(yùn)算模型,Map-Reduce運(yùn)算模型的核心理念是將需處理的巨量數(shù)據(jù)劃分成大量的子數(shù)據(jù),并將子數(shù)據(jù)在分布的計(jì)算單元之間合理調(diào)配,以實(shí)現(xiàn)數(shù)據(jù)的快速處理。Map-Reduce運(yùn)算模型將處理數(shù)據(jù)的過(guò)程分成了以下幾個(gè)環(huán)節(jié):巨量數(shù)據(jù)導(dǎo)入、巨量數(shù)據(jù)合理劃分、子數(shù)據(jù)在分布式計(jì)算單元上調(diào)配計(jì)算、生成計(jì)算結(jié)果。

      Map-Reduce巨量數(shù)據(jù)并行運(yùn)算模型已相當(dāng)完善,將該模型應(yīng)用于旅游微博網(wǎng)絡(luò)日志巨量數(shù)據(jù)處理,是實(shí)現(xiàn)用戶真實(shí)偏愛(ài)指數(shù)計(jì)算的關(guān)鍵一步,具體步驟為:旅游微博用戶網(wǎng)絡(luò)日志原始數(shù)據(jù)→冗余數(shù)據(jù)刪減→T、N、L數(shù)據(jù)提取→三元素矩陣→三元素矩陣數(shù)據(jù)拆分→Map-Reduce巨量數(shù)據(jù)分布計(jì)算→生成最終結(jié)果。

      (二)基于大數(shù)據(jù)分析的用戶偏愛(ài)鏈路算法

      基于大數(shù)據(jù)分析的用戶偏愛(ài)鏈路算法的部分程序代碼如下:

      1. in:向MR導(dǎo)入旅游微博網(wǎng)絡(luò)日志的三元素矩陣數(shù)據(jù)包W,設(shè)定鏈路真實(shí)重要度門(mén)限E0

      2.out:用戶真實(shí)偏愛(ài)鏈路

      3.for each w1 in W…w1是三元素矩陣的一個(gè)子數(shù)據(jù)

      4.i=w1_N…N表示當(dāng)前網(wǎng)頁(yè)標(biāo)號(hào)

      5.j=w1_L…L表示鏈接頁(yè)面標(biāo)號(hào)

      6. if Kij*Sij>=E0…鏈路真實(shí)重要度超過(guò)門(mén)限

      7.Keep (i,j)…記錄鏈路子集

      8.遴選(i,j)集合中連續(xù)鏈路集合為最終生成結(jié)果

      三、兩種算法的對(duì)比實(shí)驗(yàn)及結(jié)果

      為探索基于大數(shù)據(jù)分析的用戶偏愛(ài)鏈路算法的可行性,設(shè)計(jì)實(shí)驗(yàn)對(duì)該算法和傳統(tǒng)算法做了對(duì)比分析,從巨量數(shù)據(jù)處理速度和用戶偏愛(ài)鏈路計(jì)算結(jié)果準(zhǔn)確度兩個(gè)方面對(duì)該算法進(jìn)行了評(píng)價(jià)。

      (一)巨量數(shù)據(jù)下旅游微博用戶偏愛(ài)鏈路計(jì)算速度比較

      對(duì)比實(shí)驗(yàn)中,預(yù)處理數(shù)據(jù)(網(wǎng)絡(luò)瀏覽日志)來(lái)自某旅游微博平臺(tái),數(shù)據(jù)大小為25G左右,基于大數(shù)據(jù)分析的用戶偏愛(ài)鏈路算法使用5臺(tái)安裝Map-Reduce編程系統(tǒng)的計(jì)算機(jī),傳統(tǒng)算法使用1臺(tái)安裝MPI數(shù)據(jù)處理系統(tǒng)的計(jì)算器,5臺(tái)計(jì)算機(jī)均為聯(lián)想Y46型,主要硬件配置相同。

      圖2為兩種計(jì)算方法的數(shù)據(jù)處理速度對(duì)比曲線。由圖1可知:

      1.當(dāng)需要處理的數(shù)據(jù)較少時(shí),兩種算法的數(shù)據(jù)處理速度相差不大,由于傳統(tǒng)算法只需要一臺(tái)計(jì)算機(jī),因而優(yōu)勢(shì)更為明顯。

      2.當(dāng)需要處理的數(shù)據(jù)逐漸增多時(shí),基于大數(shù)據(jù)分析的偏愛(ài)鏈路計(jì)算方法優(yōu)勢(shì)將越發(fā)突出,且隨著需要處理的數(shù)據(jù)逐漸增多,相同時(shí)間內(nèi)新算法的數(shù)據(jù)處理量與傳統(tǒng)算法的數(shù)據(jù)量比值越來(lái)越大,這表明當(dāng)需要處理的數(shù)據(jù)超過(guò)一定規(guī)模,5臺(tái)計(jì)算機(jī)的分布式大數(shù)據(jù)處理計(jì)算,其效率超過(guò)了5臺(tái)按傳統(tǒng)算法運(yùn)算的計(jì)算機(jī)的數(shù)據(jù)處理效率總和。且分布式計(jì)算機(jī)數(shù)量越多,優(yōu)勢(shì)越明顯。

      圖2 兩種算法的數(shù)據(jù)處理速度比較

      因此,在網(wǎng)絡(luò)日志巨量數(shù)據(jù)需及時(shí)處理的背景下,基于大數(shù)據(jù)分析的旅游微博用戶偏愛(ài)鏈路計(jì)算方法更具優(yōu)勢(shì)。

      (二) 兩種算法下用戶偏愛(ài)鏈路準(zhǔn)確度比較

      為比較兩種計(jì)算方法所計(jì)算出的用戶偏愛(ài)鏈路的準(zhǔn)確度高低,設(shè)計(jì)了對(duì)比實(shí)驗(yàn),在實(shí)驗(yàn)中,分別為兩種算法導(dǎo)入了相同的原始網(wǎng)絡(luò)日志數(shù)據(jù),并通過(guò)兩種算法得到了其各自運(yùn)算下的偏愛(ài)指數(shù)靠前的X條鏈路。將兩種算法各自計(jì)算所得的X條鏈路分別和網(wǎng)站根據(jù)運(yùn)營(yíng)經(jīng)驗(yàn)提供的訪問(wèn)量靠前的X條鏈路進(jìn)行比較,實(shí)驗(yàn)結(jié)果見(jiàn)圖3。

      圖3 兩種算法的鏈路準(zhǔn)確度比較

      對(duì)比實(shí)驗(yàn)的結(jié)果顯示:當(dāng)X較小時(shí),傳統(tǒng)算法得到的偏愛(ài)鏈路與實(shí)際情況更為貼合,這可能是因?yàn)樾滤惴訖?quán)系數(shù)的引入在數(shù)據(jù)規(guī)模較小時(shí),會(huì)對(duì)數(shù)據(jù)計(jì)算產(chǎn)生較為明顯的影響;當(dāng)X增大時(shí),傳統(tǒng)算法的計(jì)算結(jié)果準(zhǔn)確度將開(kāi)始降低,而新算法的運(yùn)算準(zhǔn)確度將趨于穩(wěn)定且由于傳統(tǒng)算法。這可能是因?yàn)樾滤惴ㄖ兄匾认拗档囊?,一定程度上排除了主鏈路高點(diǎn)擊量帶來(lái)的干擾。

      四、結(jié)論

      在巨量數(shù)據(jù)背景下,基于大數(shù)據(jù)分析的旅游微博用戶偏愛(ài)鏈路算法能夠以更快的運(yùn)算速率和更高的計(jì)算準(zhǔn)確率對(duì)數(shù)據(jù)進(jìn)行挖掘。如何將挖掘得到的用戶偏愛(ài)鏈路結(jié)果應(yīng)用于微博平臺(tái)改造或用于個(gè)性化旅游策略推送,是需要進(jìn)一步研究的問(wèn)題。

      猜你喜歡
      巨量網(wǎng)絡(luò)拓?fù)?/a>網(wǎng)頁(yè)
      基于通聯(lián)關(guān)系的通信網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)方法
      巨量引擎推出人物紀(jì)錄片《炬光》
      綜藝報(bào)(2021年5期)2021-05-08 03:50:05
      電子制作(2018年23期)2018-12-26 01:01:16
      基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      勞斯萊斯古斯特與魅影網(wǎng)絡(luò)拓?fù)鋱D
      電測(cè)與儀表(2016年5期)2016-04-22 01:13:46
      網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
      科學(xué)家稱(chēng)在洋底發(fā)現(xiàn)巨量淡水
      10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
      谷城县| 郎溪县| 阜南县| 山阴县| 尼勒克县| 辉南县| 隆昌县| 吕梁市| 长子县| 永定县| 隆安县| 旬阳县| 车险| 金乡县| 收藏| 南充市| 犍为县| 合水县| 汶上县| 香河县| 连南| 乐亭县| 航空| 手游| 武胜县| 大宁县| 龙山县| 黑龙江省| 南昌市| 开江县| 翼城县| 清新县| 密云县| 原阳县| 云龙县| 特克斯县| 盐城市| 万荣县| 威海市| 和林格尔县| 正宁县|