• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于網(wǎng)頁(yè)瀏覽行為的分析

      2012-03-22 02:20:46雪,
      關(guān)鍵詞:冪指數(shù)冪律高斯分布

      米 雪, 張 寧

      (上海理工大學(xué)管理學(xué)院,上海 200093)

      探索人類(lèi)各種行為的統(tǒng)計(jì)特性,是探索自然界、認(rèn)知人類(lèi)自身的一個(gè)重要方面,對(duì)于研究經(jīng)濟(jì)、心理和眾多社會(huì)學(xué)科有著重要的意義.在研究涉及人類(lèi)行為特性的問(wèn)題時(shí),一個(gè)常常采用的傳統(tǒng)近似是,將人類(lèi)的行為簡(jiǎn)化為可以使用泊松過(guò)程描述的穩(wěn)態(tài)隨機(jī)過(guò)程.這種假設(shè)導(dǎo)致的一個(gè)結(jié)論是人的行為的時(shí)間統(tǒng)計(jì)特征是比較均勻的,兩個(gè)相繼行為之間的時(shí)間間隔的偏離其平均值很多的概率很小.但是,Barabási通過(guò)對(duì)用戶電子郵件和普通郵件的發(fā)送與回復(fù)行為的時(shí)間間隔的實(shí)際統(tǒng)計(jì),展示了與此截然不同的特性:人類(lèi)行為同時(shí)具有長(zhǎng)時(shí)間的靜默與短期的高頻率爆發(fā),相鄰兩個(gè)事件的時(shí)間間隔分布存在滿足反比冪函數(shù)的胖尾特性.這些行為的統(tǒng)計(jì)特性不能用傳統(tǒng)的泊松過(guò)程進(jìn)行描述,說(shuō)明人類(lèi)的個(gè)體行為可能存在復(fù)雜的動(dòng)力學(xué)機(jī)制[1].

      Barabási等的工作開(kāi)創(chuàng)了人類(lèi)動(dòng)力學(xué)的新方向.盡管這個(gè)方向問(wèn)世時(shí)間很短,但是由于其理論和應(yīng)用上的雙重價(jià)值,很快就吸引了國(guó)際上許多知名科學(xué)家的關(guān)注[2].隨即研究者對(duì)這一問(wèn)題展開(kāi)了極為廣泛的探索.Vazqueza[3]認(rèn)為人類(lèi)的記憶會(huì)對(duì)自身的行為產(chǎn)生巨大的影響,因此從人類(lèi)記憶的角度解釋了通信模式中人類(lèi)動(dòng)力學(xué)的非泊松分布.除此之外,人類(lèi)行為不僅僅是為了完成某些任務(wù),興趣愛(ài)好往往也是驅(qū)動(dòng)人類(lèi)行為的一個(gè)重要因素,如網(wǎng)頁(yè)瀏覽[4-8]、電影點(diǎn)播[9]、游戲[10]等人類(lèi)行為,所以韓筱璞等[11]提出了一個(gè)基于可變興趣的人類(lèi)動(dòng)力學(xué)模型,并通過(guò)數(shù)值模擬和解析進(jìn)行了研究,得到了指數(shù)為1的冪律分布形式的時(shí)間間隔分布.

      互聯(lián)網(wǎng)為觀察了解和監(jiān)管人類(lèi)社會(huì)行為的很多方面提供了途徑,特別是那種有著大量頻繁訪問(wèn)的“老客戶”的網(wǎng)站.如果這些網(wǎng)站屬于公司或者大學(xué)的話,其使用模式能夠?yàn)槿祟?lèi)群體工作習(xí)慣提供研究的信息.Dezso等[5]通過(guò)研究個(gè)體用戶的瀏覽模式和門(mén)戶網(wǎng)站上某個(gè)網(wǎng)頁(yè)訪問(wèn)量之間的相互作用,發(fā)現(xiàn)新聞網(wǎng)頁(yè)的訪問(wèn)量不依賴于其內(nèi)容,而主要取決于用戶的訪問(wèn)和瀏覽模式,其訪問(wèn)量表現(xiàn)出冪律衰退特點(diǎn).Goncalves等[8]對(duì)用戶瀏覽網(wǎng)頁(yè)的日志做了一個(gè)基礎(chǔ)全面的實(shí)證分析,他認(rèn)為線性優(yōu)先連接,基于優(yōu)先權(quán)的排隊(duì)以及用戶興趣的衰減是理解網(wǎng)頁(yè)瀏覽行為的關(guān)鍵.張寧[7]用復(fù)雜網(wǎng)絡(luò)的方法研究特定群體進(jìn)行萬(wàn)維網(wǎng)訪問(wèn)的行為特征,得到了雖然群體用戶訪問(wèn)萬(wàn)維網(wǎng)的時(shí)間是隨機(jī)的,所訪問(wèn)的網(wǎng)頁(yè)各有不同,但大部分人的興趣是一致的,群體興趣網(wǎng)絡(luò)的入度分布具有冪律特征,群體興趣圖譜基本穩(wěn)定,校園群體上網(wǎng)行為具有特定的時(shí)間規(guī)律性.本文分別從時(shí)間間隔和事件間隔兩個(gè)層面上研究了某高校的網(wǎng)頁(yè)瀏覽日志的規(guī)律,群體用戶訪問(wèn)網(wǎng)頁(yè)的時(shí)間間隔和事件間隔服從冪律分布,所有單個(gè)用戶的活躍性也服從冪律分布,而且不論是群體用戶行為還是單個(gè)用戶行為,時(shí)間間隔的冪指數(shù)大于事件間隔的冪指數(shù).

      1 數(shù)據(jù)來(lái)源與統(tǒng)計(jì)方法

      研究的數(shù)據(jù)來(lái)自國(guó)內(nèi)某高校局域網(wǎng)內(nèi)師生訪問(wèn)互聯(lián)網(wǎng)的記錄,時(shí)間跨度為半個(gè)月,從2009年11月26日凌晨0時(shí)開(kāi)始到2009年12月09日凌晨23時(shí)59分59秒結(jié)束.

      對(duì)于用戶瀏覽網(wǎng)頁(yè)的行為來(lái)說(shuō),最重要的問(wèn)題是能否有效地判斷此過(guò)程是由人類(lèi)發(fā)出的正常訪問(wèn)過(guò)程.現(xiàn)實(shí)中很多因素可以引起頁(yè)面的發(fā)送請(qǐng)求,除了人類(lèi)用戶的正常操作過(guò)程之外,還有如良性軟件和惡性軟件的自動(dòng)更新過(guò)程,黑客的自動(dòng)攻擊.大多數(shù)的自動(dòng)更新過(guò)程都呈現(xiàn)出具有清晰頻率的規(guī)則動(dòng)態(tài);蓄意攻擊的特點(diǎn)是:它們會(huì)產(chǎn)生巨大的訪問(wèn)量并且這些訪問(wèn)量會(huì)集中在很小的一個(gè)時(shí)間段內(nèi)爆發(fā).毫無(wú)疑問(wèn),這些非正常訪問(wèn)會(huì)在實(shí)證分析中影響統(tǒng)計(jì)結(jié)果的準(zhǔn)確性.所以文中將使用統(tǒng)計(jì)事件間隔的方法來(lái)過(guò)濾掉統(tǒng)計(jì)研究中的非正常訪問(wèn)過(guò)程,并且對(duì)比事件間隔和時(shí)間間隔的統(tǒng)計(jì)結(jié)果,由此對(duì)用戶瀏覽網(wǎng)頁(yè)的行為進(jìn)行分析.

      統(tǒng)計(jì)中定義事件間隔為連續(xù)兩次訪問(wèn)同一網(wǎng)站期間訪問(wèn)其它網(wǎng)站的次數(shù)n,相應(yīng)的概率分布為P(n).時(shí)間間隔t為連續(xù)兩次訪問(wèn)網(wǎng)頁(yè)的時(shí)間差,相應(yīng)的概率分布為P(t).統(tǒng)計(jì)表明該高校在觀測(cè)期內(nèi)一共訪問(wèn)的主站數(shù)量為82 153個(gè),平均每天的訪問(wèn)用戶有2 631個(gè),平均每天會(huì)發(fā)出1 510 381個(gè)訪問(wèn)請(qǐng)求,較大的數(shù)據(jù)量足以反映真實(shí)的統(tǒng)計(jì)規(guī)律.

      2 網(wǎng)頁(yè)瀏覽的行為分析

      2.1 群體用戶訪問(wèn)網(wǎng)頁(yè)的時(shí)間間隔分布和事件間隔分布

      這里所說(shuō)的群體用戶指的是將所有用戶看成一個(gè)整體,即在不對(duì)用戶的IP進(jìn)行過(guò)濾的情況下,考察所有用戶瀏覽網(wǎng)頁(yè)的時(shí)間間隔和事件間隔分布.統(tǒng)計(jì)結(jié)果如圖1所示,該分布在雙對(duì)數(shù)坐標(biāo)下呈現(xiàn)出冪函數(shù)的特點(diǎn),冪指數(shù)分別為

      從時(shí)間間隔方面來(lái)說(shuō),隨著生活節(jié)奏的加快,互聯(lián)網(wǎng)為人類(lèi)的生活和學(xué)習(xí)帶來(lái)極大的便利,在日常生活和工作中人們常常需要頻繁地訪問(wèn)互聯(lián)網(wǎng),所以對(duì)于群體用戶來(lái)說(shuō),大多數(shù)的時(shí)間間隔都很短,只有晚上休息的時(shí)候才會(huì)有比較長(zhǎng)的時(shí)間間隔,這種時(shí)間間隔的極度不均勻性造成了冪律分布的形成.從事件間隔方面來(lái)說(shuō),這里統(tǒng)計(jì)得到的事件個(gè)數(shù)實(shí)際上就是群體用戶訪問(wèn)所有網(wǎng)站的個(gè)數(shù).由于各種網(wǎng)站的功能不同,所以人們?yōu)g覽各種網(wǎng)頁(yè)的概率也不同.如對(duì)自己感興趣的網(wǎng)站,一天可能要瀏覽多次,高頻率的訪問(wèn)必然使得其間訪問(wèn)其它網(wǎng)站的次數(shù)減少;而有些跟自己生活不相關(guān)的網(wǎng)站,可能很久才瀏覽一次.這種事件間隔的不均勻性也造成了冪律分布的形成.

      2.2 所有單個(gè)用戶的活躍性分布

      文獻(xiàn)[9]是眾多關(guān)于網(wǎng)絡(luò)應(yīng)用研究中極具代表性的一項(xiàng)研究成果.筆者對(duì)某在線電影點(diǎn)播網(wǎng)站的歷史記錄進(jìn)行了研究,提出了“活躍性a”概念,相應(yīng)的概率分布為P(a).本文也對(duì)活躍性進(jìn)行了實(shí)證研究,活躍性定義為用戶在一天中平均點(diǎn)擊的網(wǎng)頁(yè)數(shù),用戶的平均活躍性

      圖1 群體用戶訪問(wèn)網(wǎng)頁(yè)的時(shí)間間隔分布及事件間隔分布Fig.1 The exponents of time interval and event intervals distributions of web-browsing behaviors based on collective aspects

      盡管開(kāi)始就預(yù)測(cè)活躍性本身存在著非平凡的分布,但從實(shí)證數(shù)據(jù)中觀察到的冪律關(guān)系還是讓人們感到意外.圖2給出了所有單個(gè)用戶的活躍性分布,冪指數(shù)為s=1.68,這與高校的實(shí)際生活中的經(jīng)驗(yàn)相符:多數(shù)的學(xué)生主要以學(xué)業(yè)為主,只是偶爾上網(wǎng)娛樂(lè)一下或者查閱資料;而少數(shù)的學(xué)生以搞科研為主,生活學(xué)習(xí)中離不開(kāi)電腦,所以上網(wǎng)的活躍性必然比較大.

      2.3 冪指數(shù)與活躍性的關(guān)系

      為了挖掘活躍性在人類(lèi)的網(wǎng)頁(yè)瀏覽模式中扮演的角色,將所有用戶按照其活躍程度遞增進(jìn)行排序,然后將這些排序后的用戶分為20組,每個(gè)組包含幾乎相同數(shù)目的用戶.然后對(duì)這20組分別進(jìn)行時(shí)間間隔統(tǒng)計(jì)和事件間隔統(tǒng)計(jì),并且研究它們的冪指數(shù)和活躍性的關(guān)系后發(fā)現(xiàn):所有的20組的時(shí)間間隔分布和事件間隔分布都滿足冪函數(shù)律,并且兩種統(tǒng)計(jì)方法中的冪指數(shù)各不相同;時(shí)間間隔和事件間隔的冪指數(shù)與活躍性都成正相關(guān)性.

      圖2 所有單個(gè)用戶的活躍性分布Fig 2 The exponents of activity distributions of web-browsing behaviors based on all singles aspects

      圖3(a)為時(shí)間間隔的冪指數(shù)與活躍性的關(guān)系,對(duì)其進(jìn)行曲線擬合發(fā)現(xiàn)該分布服從冪律分布,擬合的冪律分布的函數(shù)為y=1.037x0.131,擬合指數(shù)R2=0.992;圖3(b)是事件間隔的冪指數(shù)與活躍性的關(guān)系,對(duì)其進(jìn)行曲線擬合分析發(fā)現(xiàn)該擬合結(jié)果服從高斯分布,而不是時(shí)間間隔層面中的冪律分布,擬合的高斯分布函數(shù)為,擬合指數(shù)R2=0.992.

      圖3 冪指數(shù)與活躍性的關(guān)系Fig.3 The relation between power-law exponent and activity

      2.4 單個(gè)用戶冪指數(shù)分布

      為了顧及到每個(gè)用戶瀏覽模式的冪指數(shù)的不同,本文研究了不同個(gè)體的瀏覽模式并發(fā)現(xiàn)單個(gè)用戶的時(shí)間間隔分布和事件間隔分布均服從冪律分布,其冪指數(shù)的個(gè)體人數(shù)c均服從高斯分布.平均冪指數(shù)分別是擬合的高斯分布函數(shù)分別為y=

      從圖1中,不難發(fā)現(xiàn)群體用戶訪問(wèn)網(wǎng)頁(yè)的時(shí)間間隔分布的冪指數(shù)大于事件間隔分布的冪指數(shù),而在圖4中顯示,單個(gè)用戶時(shí)間間隔的冪指數(shù)分布的平均指數(shù)也大于單個(gè)用戶事件間隔的冪指數(shù)分布的平均指數(shù),并且后者的分布比前者的也要集中.

      圖4 單個(gè)用戶時(shí)間間隔和事件間隔的冪指數(shù)分布Fig.4 The time interval distribution is a power law with exponent following a Gaussian distribution,so as the event interval distribution

      3 結(jié) 論

      關(guān)于網(wǎng)頁(yè)瀏覽的人類(lèi)行為分析已經(jīng)有很多專(zhuān)家學(xué)者從不同角度進(jìn)行了分析研究,本文是利用高校訪問(wèn)互聯(lián)網(wǎng)的歷史記錄數(shù)據(jù),從時(shí)間間隔和事件間隔兩個(gè)層面對(duì)群體用戶和單個(gè)用戶進(jìn)行了分析.實(shí)證表明,群體用戶訪問(wèn)網(wǎng)頁(yè)的時(shí)間間隔和事件間隔都服從冪律分布,所有單個(gè)用戶的活躍性也是服從冪律分布的,而且不論是群體用戶行為還是單個(gè)用戶行為,時(shí)間間隔的冪指數(shù)大于事件間隔的冪指數(shù);時(shí)間間隔的冪指數(shù)與活躍性服從冪律分布,而事件間隔的冪指數(shù)與活躍性服從高斯分布;單個(gè)用戶時(shí)間間隔和事件間隔的冪指數(shù)都是服從高斯分布的.

      互聯(lián)網(wǎng)的發(fā)展極大的促進(jìn)了信息的交流和溝通,網(wǎng)頁(yè)瀏覽已經(jīng)成為了人們了解社會(huì)動(dòng)態(tài)的一種重要的途徑,因此,通過(guò)網(wǎng)頁(yè)瀏覽模式對(duì)人類(lèi)行為規(guī)律的研究,在資源有限的條件下,通過(guò)最為恰當(dāng)?shù)姆绞?,讓人人都公平地享有信息資源是非常有必要的.

      致謝:感謝中國(guó)科技大學(xué)韓筱璞和上海理工大學(xué)樊超參與的有益討論.

      [1] 汪秉宏,韓筱璞.人類(lèi)行為的動(dòng)力學(xué)與統(tǒng)計(jì)力學(xué)研究[J].物理,2010,39(1):28-37.

      [2] 李楠楠,周濤,張寧.人類(lèi)動(dòng)力學(xué)基本概念與實(shí)證分析[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2008,5(2):15-24.

      [3] Vazquez A.Impact of memory on human dynamics[J].Physica A,2007,373:747.

      [4] Racz B,Lukacs A.High density compression of log files[DB/OL].[2009-11-10].http://csd12.computer.org/comp/pro2ceedings/dcc/2004/2082/00/20820557.pdf.

      [5] Dezso Z,Almaas E,Lukacs A,et al.Dynamics of information access on the web[J].Physical Review E,2006,73(6):066132.

      [6] 趙庚生,張寧.人類(lèi)行為的動(dòng)力學(xué)模型[M].香港:上海系統(tǒng)科學(xué)出版社,2008:47-53.

      [7] 張寧.群體興趣網(wǎng)的統(tǒng)計(jì)特性研究[J].上海理工大學(xué)學(xué)報(bào),2008,30(3):243-248.

      [8] Goncalves B,Ramasco J J.Human dynamics revealed through Web analytics[J].Physical Review E,2008,78(2):026123.

      [9] Zhou T,Kiet H A T,Kim B J,et al.Role of activity in human dynamics[J].Europhysics Letters,2008,82(2):28002.

      [10] Henderson T,Nhatti S.Modeling user behavior in networked games[C]//Proc 9th ACM International Conference on Multimedia.New York:ACM Press,2001:212.

      [11] Han X P,Zhou T,Wang B H.Modeling human dynamics with adaptive interest[J].New Journal of Physics,2008,10(7):073010.

      猜你喜歡
      冪指數(shù)冪律高斯分布
      源于學(xué)生試題疑問(wèn)的數(shù)學(xué)建模例談
      部分相干冪指數(shù)相位渦旋光束的傳輸特性研究*
      利用Box-Cox變換對(duì)移動(dòng)通信中小區(qū)級(jí)業(yè)務(wù)流量分布的研究
      2種非對(duì)稱廣義高斯分布模型的構(gòu)造
      基于逼近理想點(diǎn)冪指數(shù)評(píng)估的防空導(dǎo)彈型譜分析與研究
      一種基于改進(jìn)混合高斯模型的前景檢測(cè)
      一類(lèi)度互質(zhì)的無(wú)標(biāo)度網(wǎng)絡(luò)研究
      考試周刊(2016年99期)2016-12-26 10:54:30
      四川地區(qū)降水冪律指數(shù)研究
      冪律流底泥的質(zhì)量輸移和流場(chǎng)
      對(duì)抗冪律
      汤原县| 贡嘎县| 鱼台县| 龙川县| 衡山县| 集安市| 固安县| 白河县| 隆回县| 资兴市| 盘锦市| 秦安县| 嵊州市| 武夷山市| 金昌市| 绍兴县| 铁岭市| 遂宁市| 牙克石市| 吉隆县| 永平县| 鸡西市| 惠州市| 蓝田县| 双辽市| 垫江县| 兴海县| 巴林左旗| 凤山县| 临泽县| 婺源县| 青川县| 安图县| 永嘉县| 福安市| 临汾市| 大庆市| 鲁山县| 漯河市| 黔南| 观塘区|