• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向用戶互聯(lián)網(wǎng)訪問日志的異常點(diǎn)擊分析

      2010-07-18 03:11:52劉奕群馬少平茹立云
      中文信息學(xué)報(bào) 2010年3期
      關(guān)鍵詞:訪問量多用戶搜索引擎

      王 倩,劉奕群,馬少平,茹立云

      (智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌),清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,北京100084)

      1 引言

      據(jù)統(tǒng)計(jì),截止2009年12月30日我國網(wǎng)民人數(shù)已達(dá)到3.84億[1]。隨著互聯(lián)網(wǎng)逐漸深入人們的日常生活之中,圍繞著網(wǎng)絡(luò)已經(jīng)形成一個(gè)龐大的產(chǎn)業(yè)鏈,如搜索引擎、門戶網(wǎng)站、視頻網(wǎng)站、博客網(wǎng)站,以及應(yīng)用在這些網(wǎng)站的種種網(wǎng)絡(luò)營銷。這些資源在豐富網(wǎng)民信息來源的同時(shí),給互聯(lián)網(wǎng)公司帶來了巨大收益。如何在眾多競爭對(duì)手中脫穎而出,吸引更多的網(wǎng)民注意力,成為了各家互聯(lián)網(wǎng)公司關(guān)注的核心,而用戶行為分析,是各個(gè)公司獲取用戶反饋信息從而改進(jìn)服務(wù)的最重要手段之一。

      隨著搜索引擎技術(shù)的發(fā)展,由搜索引擎公司提供的瀏覽器工具欄越來越為廣大網(wǎng)絡(luò)用戶所接受。瀏覽器工具欄可以為用戶提供直接的搜索引擎訪問接口,同時(shí)也可以提供彈出窗口過濾、下載加速、網(wǎng)絡(luò)書簽等多種附加功能。目前的主流搜索引擎公司都推出了自己的瀏覽器工具欄服務(wù),如谷歌(http://toolbar.goog le.com/)、雅虎(http ://toolbar.yahoo.com/)、百度(http://bar.baidu.com/)、微軟(http://toolbar.live.com/)等不少公司還把工具欄與其他軟件產(chǎn)品捆綁發(fā)行以加強(qiáng)推廣。與此同時(shí),大多數(shù)搜索引擎供應(yīng)商也通過工具欄基于匿名策略收集用戶的Web訪問行為數(shù)據(jù),以便為工具欄用戶提供更多個(gè)性化的增值服務(wù)。最近,一些研究人員也開始利用這部分Web訪問行為數(shù)據(jù)對(duì)網(wǎng)絡(luò)用戶的行為特征加以研究和利用。

      如今,基于互聯(lián)網(wǎng)訪問日志的用戶行為分析被廣泛應(yīng)用于搜索引擎算法改進(jìn)[2-4],競價(jià)廣告投放[5],作弊頁面識(shí)別[6]等方面的研究中。這方面研究中的一個(gè)核心問題是:如何基于互聯(lián)網(wǎng)訪問日志進(jìn)行用戶行為分析,并得到真實(shí)的用戶意圖。我們?cè)诜治瞿成逃盟阉饕婀镜幕ヂ?lián)網(wǎng)訪問日志時(shí),發(fā)現(xiàn)用戶日志中有很多異常點(diǎn)擊,一般是人為不能做到的,還有一些點(diǎn)擊很難理解為用戶的正常意圖,極有可能受到了某種非正當(dāng)目的的驅(qū)動(dòng)。這些行為不僅干擾了互聯(lián)網(wǎng)公司用戶反饋信息的收集,而且可能提示著某類異常點(diǎn)擊行為,對(duì)它們的研究不僅能夠準(zhǔn)確我們的用戶行為統(tǒng)計(jì),而且還對(duì)網(wǎng)絡(luò)安全維護(hù)起著很重要的作用。

      本文對(duì)某商用搜索引擎公司的互聯(lián)網(wǎng)訪問日志中的幾種異常點(diǎn)擊行為進(jìn)行分析統(tǒng)計(jì),提取出它們不同于正常點(diǎn)擊的特征,分析隱藏在它們背后的真實(shí)目的,并給出在用戶行為分析時(shí)處理這些異常點(diǎn)擊行為的建議。雖然,本文涉及的僅僅是互聯(lián)網(wǎng)訪問日志的分析,但在一定程度上可以推廣到其他日志分析中,具有一定的普適性。

      論文其他部分的組織結(jié)構(gòu)如下:第二節(jié)給出相關(guān)定義,介紹本文用于反映日志特征的幾個(gè)統(tǒng)計(jì)特征,第三節(jié)為文章的主體,介紹統(tǒng)計(jì)實(shí)驗(yàn),逐一分析了幾種異常點(diǎn)擊的特征,第四節(jié)結(jié)論,總結(jié)本文的觀點(diǎn),并提出今后工作的方向。

      2 定義

      這部分介紹本文用于反映用戶行為的幾個(gè)統(tǒng)計(jì)特征:訪問集中度,用戶平均訪問量以及訪問量時(shí)間分布,并給出了它們的形式化定義。

      2.1 訪問集中度

      正常的用戶點(diǎn)擊日志,在點(diǎn)擊記錄數(shù)和訪問過的站點(diǎn)數(shù)之間滿足一定的關(guān)系,但是異常點(diǎn)擊行為的這兩個(gè)數(shù)據(jù)卻可能呈現(xiàn)出不一樣的關(guān)系??赡艹霈F(xiàn)用戶訪問站點(diǎn)過于集中或過于分散的狀況。訪問集中度即是用來衡量用戶訪問過的站點(diǎn)數(shù)偏離正常情況的程度。正常情況下,點(diǎn)擊記錄數(shù)和訪問站點(diǎn)數(shù)之間的關(guān)系,不是一個(gè)簡單的數(shù)學(xué)關(guān)系,還和當(dāng)時(shí)互聯(lián)網(wǎng)上有多少站點(diǎn)有關(guān)。因此我們利用這樣的方法來定義訪問集中度:如果待研究的目標(biāo)記錄有N條,我們從一天的日志中隨機(jī)提取與N相當(dāng)?shù)挠涗洈?shù)rand(N)(我們采用的隨機(jī)提取算法,不能保證精確提取N條,但是是與N相當(dāng)?shù)挠涗洈?shù)),N條記錄訪問的站點(diǎn)集合為site(N),站點(diǎn)數(shù)為#site(N),隨機(jī)提取記錄訪問的站點(diǎn)集合為site(rand(N)),訪問站點(diǎn)數(shù)為#site(rand(N))。公式如下:

      2.2 用戶平均訪問量

      正常瀏覽互聯(lián)網(wǎng)的用戶群體,一天的訪問量滿足一個(gè)比較穩(wěn)定的分布,有一個(gè)比較穩(wěn)定的平均值,如果是有某種異常行為的用戶群體,他們的平均訪問量可能會(huì)有一些不同。

      假設(shè)目標(biāo)用戶數(shù)為U,他們一天的點(diǎn)擊數(shù)為click(U),用戶平均訪問量的公式如下:

      2.3 訪問量時(shí)間分布

      對(duì)于用戶一天的日志,其各個(gè)時(shí)間段的點(diǎn)擊量分布,在一段時(shí)間內(nèi)保持一個(gè)比較穩(wěn)定的比例,但對(duì)于某些異常的點(diǎn)擊,它的時(shí)間分布可能與所有點(diǎn)擊的時(shí)間分布有所區(qū)別。定義點(diǎn)擊量時(shí)間分布是一個(gè)24維的向量,如果一天的點(diǎn)擊量為C,第i(0≤i≤23)維表示第i小時(shí)的點(diǎn)擊量與一天總點(diǎn)擊量的比,公式如下:

      3 異常點(diǎn)擊分析

      3.1 數(shù)據(jù)準(zhǔn)備

      我們采用的互聯(lián)網(wǎng)訪問日志記錄了用戶的互聯(lián)網(wǎng)瀏覽行為。日志記錄的內(nèi)容有:用戶IP(IP信息經(jīng)過加密處理);用戶ID,日志收集工具隨機(jī)分配給用戶的一個(gè)序列號(hào),正常情況下,用戶一天內(nèi)在一臺(tái)機(jī)器上訪問互聯(lián)網(wǎng),所留下的點(diǎn)擊記錄里用戶ID是一致的;點(diǎn)擊時(shí)間,點(diǎn)擊發(fā)生的時(shí)間;目的地址,用戶此次點(diǎn)擊要訪問頁面的 URL;源地址,用戶從該URL點(diǎn)擊目的地址??梢钥吹?我們所采用的互聯(lián)網(wǎng)訪問日志,由于用戶IP數(shù)據(jù)經(jīng)過加密處理,而用戶ID為日志收集工具自動(dòng)分配,因此不涉及對(duì)用戶個(gè)人隱私信息的記錄。

      我們采用了2008年12月中10天的數(shù)據(jù),共234786 722條記錄。

      3.2 連續(xù)點(diǎn)擊的分析

      在日志分析中,存在一些用戶點(diǎn)擊頻率過高的現(xiàn)象,表現(xiàn)為一秒鐘連續(xù)點(diǎn)擊多次,這種情況的異常性很明顯。作為自然人的用戶只有在刷新頁面時(shí)才可能一秒鐘點(diǎn)擊兩次以上,但是用戶刷新頁面的行為不能夠完全解釋一秒連續(xù)點(diǎn)擊多次的現(xiàn)象,

      3.2.1節(jié)和3.2.2節(jié)從不同角度對(duì)這一現(xiàn)象進(jìn)行了分析統(tǒng)計(jì)。用戶點(diǎn)擊頻率過高,也可能表現(xiàn)為一段時(shí)間內(nèi)點(diǎn)擊頻率過高,3.2.3節(jié)對(duì)一分鐘內(nèi)用戶點(diǎn)擊頻率過高的情況進(jìn)行了分析。

      3.2.1 連續(xù)點(diǎn)擊多次的分析

      在日志分析時(shí),往往會(huì)看到這樣的情形:一個(gè)用戶在一秒之內(nèi)發(fā)生連續(xù)多次點(diǎn)擊,對(duì)于一個(gè)自然人有目的的點(diǎn)擊,一般是不可能出現(xiàn)這種情況,那么如何解釋這種情況,這樣的點(diǎn)擊與一般的點(diǎn)擊如何區(qū)別呢?我們分重復(fù)連續(xù)點(diǎn)擊(連續(xù)點(diǎn)擊同一個(gè)目標(biāo)頁面)與非重復(fù)連續(xù)點(diǎn)擊(連續(xù)點(diǎn)擊不同目標(biāo)頁面)兩種情況來進(jìn)行討論。

      3.2.1.1 重復(fù)連續(xù)點(diǎn)擊

      首先,連續(xù)點(diǎn)擊不同次數(shù)的點(diǎn)擊分布如表1所示,可以看出連續(xù)點(diǎn)擊兩次的點(diǎn)擊數(shù),相對(duì)于連續(xù)點(diǎn)擊三次及三次以上的點(diǎn)擊數(shù)異常的高,分別分析這些連續(xù)點(diǎn)擊的特征得到表1的結(jié)果。

      從表1看到,在連續(xù)點(diǎn)擊中完全重復(fù)的比例很高,尤其是兩次連續(xù)點(diǎn)擊,比例高達(dá)26.29%。對(duì)于這些連續(xù)點(diǎn)擊,我們認(rèn)為產(chǎn)生的原因如下:

      1)用戶偶然的刷新造成的記錄重復(fù),在重復(fù)點(diǎn)擊次數(shù)過多時(shí),這種情況發(fā)生的可能性不大。

      2)有一些站點(diǎn)本身設(shè)計(jì)有問題,用戶在點(diǎn)擊這些站點(diǎn)時(shí),會(huì)產(chǎn)生等同于雙擊或多次點(diǎn)擊的效果致使日志上留下了幾次完全一樣的記錄,這種情況的可能性也不大。

      表1 重復(fù)連續(xù)點(diǎn)擊特征統(tǒng)計(jì)

      3)最后一種,就是與其他連續(xù)點(diǎn)擊一樣,是程序點(diǎn)擊而非人為點(diǎn)擊的結(jié)果。

      對(duì)于這種重復(fù)點(diǎn)擊,如果是前兩種情況,最好的處理方法是去重,只記點(diǎn)擊一次,但如果是第三種情況,則最好完全忽略。

      3.2.1.2 非重復(fù)連續(xù)點(diǎn)擊

      由上一節(jié)可知,連續(xù)點(diǎn)擊兩次的情況相對(duì)于連續(xù)點(diǎn)擊三次、四次、五次以上的情況,出現(xiàn)的頻率高很多,所以我們分連續(xù)點(diǎn)擊兩次和三次以上來討論,對(duì)它們的特征進(jìn)行統(tǒng)計(jì),得出表2數(shù)據(jù)。

      表2 非重復(fù)連續(xù)點(diǎn)擊特征統(tǒng)計(jì)

      從表2可以看出,連續(xù)點(diǎn)擊的訪問集中度較高,而無源地址比例和目的地址非根目錄比例均較正常日志有所區(qū)別??偟膩碚f,非重復(fù)連續(xù)點(diǎn)擊較傾向于訪問網(wǎng)站的首頁,而不深入訪問子網(wǎng)頁,說明了這種點(diǎn)擊可能蘊(yùn)藏著提高某些網(wǎng)站點(diǎn)擊率的目的。所以,對(duì)于非重復(fù)的連續(xù)點(diǎn)擊建議濾去。

      3.2.2 多次連續(xù)點(diǎn)擊的分析

      實(shí)驗(yàn)統(tǒng)計(jì),在用戶一天的點(diǎn)擊記錄中,未發(fā)生連續(xù)點(diǎn)擊的用戶數(shù)為193528,發(fā)生連續(xù)點(diǎn)擊的用戶分布數(shù)據(jù)如表3所示。

      從表3可以看出,隨著用戶連續(xù)點(diǎn)擊出現(xiàn)次數(shù)的增多,平均訪問量和訪問集中度數(shù)據(jù)逐漸偏離一天日志的相應(yīng)數(shù)據(jù),但是無源地址比例和目的地址非根目錄比例卻沒有太明顯的變化,因?yàn)樯弦还?jié)統(tǒng)計(jì)已經(jīng)說明,對(duì)于連續(xù)點(diǎn)擊本身這兩項(xiàng)數(shù)據(jù)都會(huì)偏離,但是因?yàn)檫@里我們統(tǒng)計(jì)的是用戶的所有訪問記錄,所以可能用戶其他的點(diǎn)擊記錄沖淡了連續(xù)點(diǎn)擊記錄的效果。對(duì)于這些用戶訪問過的站點(diǎn)進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)他們?cè)L問頻率高的站點(diǎn),與所有用戶一天訪問的情況相比有一定出入。對(duì)于出現(xiàn)1~3次連續(xù)點(diǎn)擊的用戶,這種差別很小,可以忽略,但是對(duì)于出現(xiàn)26次以上連續(xù)點(diǎn)擊的用戶,在其訪問頻率最高的前十位站點(diǎn)中,幾乎沒有太熱門的網(wǎng)站。

      表3 多次連續(xù)點(diǎn)擊的用戶點(diǎn)擊特征

      綜上所述,我們認(rèn)為對(duì)于出現(xiàn)1~3次連續(xù)點(diǎn)擊的用戶應(yīng)該是偶然的結(jié)果,并非用戶的本意,可以不用處理;出現(xiàn)4~25次連續(xù)點(diǎn)擊的用戶,應(yīng)該并非偶然,但基本還可以相信其除去連續(xù)點(diǎn)擊外的其他點(diǎn)擊;但對(duì)于出現(xiàn)26次以上連續(xù)點(diǎn)擊的用戶,可以視情況濾去其所有點(diǎn)擊。

      3.2.3 一分鐘點(diǎn)擊過多的分析

      如果用戶的點(diǎn)擊背后蘊(yùn)藏了某種目的的話,也并非一定用一秒連續(xù)點(diǎn)擊這種明顯異常的手法,因此我們將時(shí)間粒度增大。我們以一分鐘來劃分session,那么一天的點(diǎn)擊日志共有21 525 733個(gè)session,這其中絕大多數(shù)session只有一次點(diǎn)擊,一個(gè)session里最多出現(xiàn)了58次點(diǎn)擊,對(duì)于大多數(shù)用戶的大多數(shù)session來說,2次以內(nèi)的點(diǎn)擊數(shù)是比較常見的。一分鐘點(diǎn)擊不同次數(shù)的用戶分布,統(tǒng)計(jì)這些點(diǎn)擊的特征如表4。

      表4 一分鐘點(diǎn)擊多次的點(diǎn)擊特征

      分析表4可知,一分鐘點(diǎn)擊4次以上的用戶各項(xiàng)數(shù)據(jù)與正常值相比均有較大偏差,與一秒鐘連續(xù)點(diǎn)擊的用戶數(shù)據(jù)特征較為近似。于是我們通過實(shí)驗(yàn)觀察在一分鐘點(diǎn)擊超過4次的點(diǎn)擊記錄里到底有多少來自一秒鐘連續(xù)點(diǎn)擊,實(shí)驗(yàn)結(jié)果證實(shí),幾乎100%的點(diǎn)擊都來自一秒鐘連續(xù)點(diǎn)擊,由此可見,一個(gè)正常用戶進(jìn)行正常的網(wǎng)頁瀏覽時(shí),在一分鐘之內(nèi)點(diǎn)擊4個(gè)以上頁面的概率很小。

      3.3 同一IP多用戶的分析

      根據(jù)IP進(jìn)行日志分析的結(jié)果如下,一天的日志訪問IP有327 981個(gè),其中約95.50%的IP只有一個(gè)用戶使用,約3.17%的 IP有兩個(gè)用戶使用,約0.66%的IP有三個(gè)用戶使用,只有約0.67%的用戶有三個(gè)以上的用戶使用。我們分別提取有2~5個(gè)用戶,有6~20個(gè)用戶和有20個(gè)以上用戶的IP進(jìn)行分析。在一天的日志中,約87.04%的點(diǎn)擊來自于只有一個(gè)用戶使用的IP。

      表5 單IP多用戶的點(diǎn)擊特征分析

      從表5可知,多個(gè)用戶使用的IP對(duì)應(yīng)日志的統(tǒng)計(jì)數(shù)據(jù)與一天日志的統(tǒng)計(jì)數(shù)據(jù)并無太大偏差,進(jìn)一步統(tǒng)計(jì)這些點(diǎn)擊訪問較多的站點(diǎn),與正常的日志統(tǒng)計(jì)結(jié)果差異也不大,這與我們的預(yù)想一致,因?yàn)槎嘤脩舻腎P應(yīng)該有相當(dāng)大的比例是正常的代理IP,而個(gè)別不正常的IP可能也不是針對(duì)相同的網(wǎng)站,所以偏差不會(huì)太明顯。盡管如此,在訪問集中度這一項(xiàng)上,單IP多用戶的點(diǎn)擊明顯傾向于點(diǎn)擊更加集中的站點(diǎn),這說明其中隱藏著帶有目的性的異常點(diǎn)擊。

      在本節(jié)的實(shí)驗(yàn)中,我們對(duì)單IP多用戶的點(diǎn)擊行為作了一些分析。綜上,這種現(xiàn)象中的確包含著比例較高的異常點(diǎn)擊,不同于連續(xù)點(diǎn)擊,這種現(xiàn)象也包含著很多正常點(diǎn)擊。本節(jié)主要使用了IP對(duì)應(yīng)的用戶數(shù)和IP的集中度來對(duì)點(diǎn)擊進(jìn)行分類,這兩種分類方法對(duì)于識(shí)別單IP多用戶中的異常點(diǎn)擊有一定的參考意義。

      3.4 同一用戶多IP的分析

      一個(gè)用戶一天內(nèi)通常只使用一個(gè)IP,但有一些用戶可能使用兩個(gè)以上的IP。這種情況可能的一個(gè)原因是某些局域網(wǎng)設(shè)置動(dòng)態(tài)IP,那么用戶在關(guān)機(jī)重新開機(jī)后,IP可能改變。還有一個(gè)原因就是用戶有意為之,例如使用代理服務(wù)器惡意頻繁更換IP的情況。一天內(nèi)用戶使用的IP數(shù)分布如表6所示,而抽取使用2個(gè)以上IP用戶的所有點(diǎn)擊,分析其特征如表7所示。

      表6 用戶一天使用的IP數(shù)分布

      表7 單用戶多IP點(diǎn)擊特征分析

      與單IP多用戶的情況類似,單用戶多IP的點(diǎn)擊,訪問集中度也并沒有太明顯的提高,訪問的熱門站點(diǎn)也并沒有明顯的異常,但是用戶平均訪問量卻相對(duì)較低(這里以相同用戶相同IP為一個(gè)用戶),這可能是因?yàn)橛脩粢啻螕QIP,必然不會(huì)用一個(gè)IP點(diǎn)擊太多。當(dāng)用戶使用2個(gè)IP的時(shí)候,可以說各項(xiàng)數(shù)據(jù)都比較正常,但當(dāng)用戶使用3個(gè)和3個(gè)以上IP的時(shí)候,訪問數(shù)據(jù)會(huì)有一些異常,這表明隨著用戶使用IP數(shù)的增長,異常點(diǎn)擊的比例也在提高。

      3.5 異常點(diǎn)擊的時(shí)間分布

      在一天里,用戶在不同時(shí)間段的點(diǎn)擊量呈現(xiàn)一個(gè)較穩(wěn)定的分布,在文獻(xiàn)[7]中曾提到,點(diǎn)擊欺詐有可能使得某網(wǎng)站的點(diǎn)擊量在某個(gè)時(shí)間段異常增高,那么我們分析的幾種異常點(diǎn)擊的時(shí)間分布是否有異常呢?

      我們對(duì)各種異常點(diǎn)擊的時(shí)間分布進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)與一天所有點(diǎn)擊的時(shí)間分布并沒有明顯的差別。連續(xù)點(diǎn)擊多次的點(diǎn)擊是本文最明顯的異常點(diǎn)擊,圖1顯示了這種異常點(diǎn)擊與所有點(diǎn)擊的時(shí)間分布對(duì)比。我們認(rèn)為,對(duì)于某一網(wǎng)站作弊的群體可能相對(duì)單一,所以他們的點(diǎn)擊可能集中于某一時(shí)段,但是對(duì)于統(tǒng)計(jì)整個(gè)互聯(lián)網(wǎng)訪問情況的互聯(lián)網(wǎng)訪問日志而言,即便是異常的點(diǎn)擊,因?yàn)獒槍?duì)不同的網(wǎng)站,異常點(diǎn)擊的用戶也較分散,點(diǎn)擊時(shí)間也不會(huì)一致,所以其整體時(shí)間分布也就沒有呈現(xiàn)太明顯的異?,F(xiàn)象。

      圖1 連續(xù)點(diǎn)擊多次的異常點(diǎn)擊與所有點(diǎn)擊的時(shí)間分布對(duì)比

      4 結(jié)論

      本文利用了互聯(lián)網(wǎng)訪問日志中的數(shù)據(jù),對(duì)用戶點(diǎn)擊記錄中的三種特殊現(xiàn)象從幾個(gè)方面進(jìn)行了分析。從各個(gè)數(shù)據(jù)看,連續(xù)點(diǎn)擊的不可靠性比較明顯,但缺乏有效的數(shù)據(jù)表明出現(xiàn)連續(xù)點(diǎn)擊用戶的其他的點(diǎn)擊也不可靠。如果是重復(fù)點(diǎn)擊,可以濾去多余的點(diǎn)擊,只留下一次,而非重復(fù)的點(diǎn)擊則建議全部濾去。對(duì)于單IP多用戶/單用戶多IP的情況,在僅有這一項(xiàng)特征的情況下,建議不做處理,因?yàn)閮H憑這一特征不能判斷點(diǎn)擊異常,如果需要處理則要針對(duì)異常的IP/用戶進(jìn)行進(jìn)一步分析,以判斷其是否異常,再做處理。

      本文主要采用了用戶訪問集中度,用戶平均訪問量,無源地址比例和目的地址非根目錄比例幾項(xiàng)指標(biāo)來分析日志,其中用戶訪問集中度和用戶平均訪問量比較好地反映了異常點(diǎn)擊的特征,另外兩項(xiàng)指標(biāo),異常點(diǎn)擊與正常點(diǎn)擊的表現(xiàn)差別并不明顯。在衡量點(diǎn)擊是否可靠方面,一個(gè)直接的衡量指標(biāo)是看點(diǎn)擊的目的地址是否為垃圾站點(diǎn),但因?yàn)槔军c(diǎn)的識(shí)別本身非常困難,所以本文并未涉及。我們認(rèn)為,今后可以對(duì)以上的幾種特殊現(xiàn)象進(jìn)行更深入的分析,可以探索它們之間疊加出現(xiàn)的情況,比如對(duì)于單IP多用戶的點(diǎn)擊,可以統(tǒng)計(jì)是否此時(shí)連續(xù)點(diǎn)擊的比例也較高,是否這兩種情況疊加出現(xiàn),比單獨(dú)一種情況出現(xiàn)時(shí)用戶點(diǎn)擊的異常特征更加明顯。此外,目前的實(shí)驗(yàn)只是以一天為周期,然后平均十天的數(shù)據(jù)得到的結(jié)論,文獻(xiàn)[8]以一個(gè)更長的時(shí)間段為周期,這可能成為未來工作的方向。

      [1] 中國互聯(lián)網(wǎng)絡(luò)信息中心.第25次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[OL].2010年 1月.在線資源位置:http://new s.sciencenet.cn/up load/new s/file/2010/1/2010115164254332.pd f.

      [2] 余慧佳,劉奕群,張敏,等.基于大規(guī)模日志分析的網(wǎng)絡(luò)搜索引擎用戶行為研究[C]//第三屆學(xué)生計(jì)算機(jī)語言學(xué)研討會(huì)論文集,2006,202-207.

      [3] Rongwei Cen,Yiqun Liu,M in Zhang,Liyun Ru,Shaoping M a.Study on the Click Context of W eb Search Users for Reliability Analysis[C]//The Fifth Asia Information Retrieval Symposium(A IRS),2009年.

      [4] 劉奕群,岑榮偉,張敏,等.基于用戶行為分析的搜索引擎自動(dòng)性能評(píng)價(jià)[J].軟件學(xué)報(bào),2008,19(11):3023-3032.

      [5] 陳磊,劉奕群,茹立云,等.基于用戶日志挖掘的搜索引擎廣告效果分析[J].中文信息學(xué)報(bào),2008,22(6):92-97.

      [6] 余慧佳,劉奕群,張敏,茹立云,等.基于目的分析的作弊頁面分類[J].中文信息學(xué)報(bào),2009,23(2):95-101.

      [7] 網(wǎng)站分析在中國-從基礎(chǔ)到前沿.那些虛無的網(wǎng)事-人工流量的八大怪現(xiàn)狀[OL].2008年12月8日.網(wǎng)頁地址 :h ttp://www.chinaw ebanalytics.cn/?p=242.

      [8] 王繼民,彭波.搜索引擎用戶點(diǎn)擊行為分析[J].情報(bào)學(xué)報(bào),2006,25(2):154-162.

      猜你喜歡
      訪問量多用戶搜索引擎
      安泰科多用戶報(bào)告訂閱單
      安泰科多用戶報(bào)告訂閱單
      安泰科多用戶報(bào)告訂閱單
      安泰科多用戶報(bào)告訂閱單
      高職院校圖書館電子資源中數(shù)據(jù)庫的使用情況分析
      卷宗(2016年12期)2017-04-19 20:57:30
      如何做好搜索引擎優(yōu)化(SEO)提高新聞網(wǎng)站訪問量
      活力(2016年9期)2016-08-01 22:41:45
      一所大學(xué)有40人被確診為抑郁癥
      健康管理(2016年7期)2016-05-14 11:38:41
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      凉城县| 明光市| 波密县| 新巴尔虎左旗| 湖口县| 东港市| 从江县| 佛教| 开阳县| 黄陵县| 东源县| 阆中市| 年辖:市辖区| 新晃| 贡山| 新郑市| 虎林市| 策勒县| 新巴尔虎左旗| 保靖县| 邯郸县| 治多县| 汉源县| 朝阳区| 岑巩县| 华阴市| 松江区| 岳池县| 抚松县| 星座| 济南市| 汾西县| 卢龙县| 惠来县| 中西区| 澜沧| 招远市| 泰宁县| 景德镇市| 江永县| 新安县|