卞正宇,楊 丹,朱世玲
(南京郵電大學(xué) 計算機學(xué)院,江蘇 南京 210003)
對于人類行為模式的研究一直是復(fù)雜性科學(xué)研究的熱點。在處于大數(shù)據(jù)時代的當今社會,海量的數(shù)據(jù)由人類活動產(chǎn)生,也勢必要將其應(yīng)用于對人類行為的研究[1],由此產(chǎn)生了人類動力學(xué),而人類活動時間分布特性的研究是其中一個重要的組成部分。在研究的初期,學(xué)者們認為人類活動的時間特性應(yīng)當表現(xiàn)為泊松過程,即兩個相繼行為間隔的時間大體相近,很長的時間間隔應(yīng)當指數(shù)級般的少見。但在2005年,Barabsi A發(fā)表在《自然》雜志的研究顯示[2],人類行為時間間隔分布對于經(jīng)典泊松過程偏離,反而可以用冪函數(shù)進行很好的擬合,進一步研究發(fā)現(xiàn),絕大部分的人類行為都具有冪律的特性[3-5]。在此基礎(chǔ)上提出的基于任務(wù)系統(tǒng),基于人類興趣、記憶,基于人類社交屬性等的模型都是對冪律分布成因的探索[6-12]。有研究發(fā)現(xiàn),冪指數(shù)隨個體活躍性度的提升單調(diào)變化,這表明個體之間活躍度的異質(zhì)性對于人類行為時間間隔分布具有一定的影響。為了研究這種普遍性質(zhì)的形成因素,結(jié)合過往的時間重定標算法,文中提出了一種改進算法,以消除個體活躍度的差異對于時間間隔分布的影響。實驗結(jié)果表明,雖然活躍度的異質(zhì)性可以影響冪指數(shù)的大小,但冪律性質(zhì)的發(fā)生是人類內(nèi)稟屬性決定的。
過去人們認為人類行為發(fā)生的時間間隔分布服從泊松分布,最初是泊松在審判案件時為了引入概率的概念提出的。但是近年來隨著大數(shù)據(jù)技術(shù)的發(fā)展,大量人類活動產(chǎn)生的數(shù)據(jù)沉積下來,這些寶貴的財富為學(xué)者們的研究提供了堅實的基礎(chǔ),擺脫了過去缺乏數(shù)據(jù)的窘境。通過這些數(shù)據(jù),對人類行為時間間隔的研究發(fā)現(xiàn)絕大部分的行為的時間間隔分布和等待時間分布都符合冪律特性,而不是想象中的泊松過程[13-14]。冪律特性是指時間間隔t的概率分布為冪函數(shù),即:
p(t)∝t-α
(1)
例如,電子郵件的時間間隔分布為p(t)∝t-α,α∈(1.2,1.7)任務(wù)執(zhí)行的分布為p(t)~t-α,α∈(1.47,1.74),網(wǎng)頁訪問行為服從p(t)∝t-α,α∈(2.1,3),twitter數(shù)據(jù)服從p(t)∝t-α,α?1.35,等等。
這說明人類活動的時間間隔可以有一些很大的數(shù)值,即存在長時間的等待,而不是如泊松過程所想的,時間間隔分布均勻,且不允許長時間的空白。這在數(shù)學(xué)上表現(xiàn)為在泊松過程中,間隔時間的分布曲線的尾部按照指數(shù)下降,而冪律分布具有胖尾的特征,即在尾部下降的遠不如指數(shù)快。經(jīng)過大量的實證研究顯示,冪律分布的時間間隔分布可能是人類行為的普遍性質(zhì),且其形成原因可能是由于人類的自主性與內(nèi)稟特性。冪律分布還有另外一個廣為人知的名字叫28法則,即人類活動許多系統(tǒng)中都可以分為20%和80%兩個群體,例如20%的人掌握了80%的財富,股市中只有20%的人可以保持盈利,80%的人會虧損。由此可見冪律分布不僅僅存在于人類行為的時間間隔中,它在人類為主導(dǎo)的系統(tǒng)中也普遍存在,甚至在自然界中也大量存在。例如地震的間隔時間、小行星帶中隕石的分布也符合冪律分布。讓人不禁感到世間萬物好像都冥冥中服從同一個規(guī)律,到底是什么導(dǎo)致了這種普遍特征的產(chǎn)生也是目前研究的熱點。
人類活動個體活躍度H被定義為單位時間內(nèi)活動發(fā)生的頻率[15],即:
(2)
其中,N為該個體總的行為次數(shù);T為第一次與最后一次行為之間的時間間隔。
在日常生活中,活躍度表現(xiàn)出明顯的周期性與波動。一個繁忙的上班族在工作時間中接到電話的頻率可能為1個小時一通,撥出電話的頻率可能是一個小時8通,但是在午夜2點他通話行為的頻率將會大幅度降低,這就造成了活躍度的波動。日復(fù)一日的工作大同小異,這時活躍度會表現(xiàn)出以天為周期的周期性。如圖1所示,趙志丹等研究了AOL數(shù)據(jù)集[16],選取10天的數(shù)據(jù),其中橫軸為行為發(fā)生的時間,縱軸就是在該時刻發(fā)生行為的個體的數(shù)目。通過圖1可以發(fā)現(xiàn),用戶的活躍度呈現(xiàn)出明顯的周期性與較大的波動,同時對于不同活躍度的用戶進行的分布研究表明,用戶行為時間間隔的冪指數(shù)隨活躍度的上升而增大。
圖1 AOL用戶活躍度的周期與波動
在日常生活中這種活躍性的周期性大量存在,例如用戶訪問互聯(lián)網(wǎng)網(wǎng)頁、用戶編輯維基百科、玩家登陸在線游戲、研究人員向Linux服務(wù)器提交計算任務(wù)、用戶通過手機進行搜索等等。同時還有研究顯示行為時間間隔也存在著周期性,比如家庭出游通常以一周為周期,直觀的解釋就是一家人通常在周末外出娛樂。同時最近的一項研究表明,用戶在線觀看視頻的時間間隔也存在周期性現(xiàn)象。
為了研究用戶活躍度對于冪律分布形成的影響,Radicchi等[17]提出用間隔時間的平均值〈t〉來將橫軸間隔時間t改為t/〈t〉,縱軸概率密度函數(shù)p(t)改為p(t)〈t〉,從而研究不同活躍性用戶的行為機制。這就是一種常見的時間重定標方法,所謂時間重定標即是對時間尺度重新定義。
最近的一項研究[6]根據(jù)Netflix數(shù)據(jù)集,選取三組不同活躍度的用戶,使用上文的時間重定標方法,分別對這三組數(shù)據(jù)做了處理,結(jié)果如圖2所示。
圖2 不同活躍度用戶時間重定標處理結(jié)果
從圖2可以看到,三組數(shù)據(jù)經(jīng)過時間重定標處理后幾乎坍塌重疊,這說明不同活躍性的個體可能擁有相同的內(nèi)在行為特性。
由于用戶活躍度的影響,在某一小段時間內(nèi),行為發(fā)生的次數(shù)非常多,而在另一段時內(nèi),行為發(fā)生的次數(shù)卻非常少。為了消除這種影響,需要尋找一種方法可以使得時間在事件發(fā)生快的時候流逝的更快,在事件發(fā)生慢的時候流逝的慢一點,自然轉(zhuǎn)向重新定義一種時間尺度標準。因此有研究者提出了一種新的方法“相對時鐘法”[18],用個體相繼兩個行為之間,同一時區(qū)其他個體發(fā)出的行為總數(shù)來度量時間間隔長度,從而消除活躍度周期性帶來的影響,取得了很好的效果。
但是相對時鐘法只側(cè)重于消除活躍度周期性的影響,沒有考慮到個體總體活躍性對冪律指數(shù)的作用。文中結(jié)合相對時鐘法與3.1中的算法,提出一種新的算法,選取用戶兩個相繼事件間隔的時間中其他用戶發(fā)生事件的總數(shù)與用戶自身平均時間間隔倒數(shù)的乘積作為新的時間尺度,即該用戶兩個事件的時間間隔。具體的算法步驟如下:
Step1:計算個體行為的平均時間間隔〈t〉;
Step2:計算各個相繼事件發(fā)生的時間內(nèi)其他用戶發(fā)生的事件數(shù)N;
Step3:選取N/〈t〉作為該用戶各相繼事件的時間間隔t。
平均時間間隔〈t〉是個體自身活躍性的體現(xiàn),而事件數(shù)N是活躍度周期性與波動的一個表現(xiàn),選擇N/〈t〉作為時間間隔,既消除了活躍度周期與波動的影響,又體現(xiàn)了個人內(nèi)在的活躍性特性,從而研究個體行為時間間隔冪率分布的成因。
4.1.1 AOL
AOL(American Online)數(shù)據(jù)集是由美國在線提供,它是一家提供互聯(lián)網(wǎng)服務(wù)和媒體服務(wù)的公司,該數(shù)據(jù)集包含從2006年3月10日至2006年3月20日的互聯(lián)網(wǎng)用戶搜索行為記錄,時間精度為秒。
4.1.2 Delicious
Delicious是一個幫助用戶管理和分享他們喜歡網(wǎng)站鏈接的網(wǎng)站,提供了一種簡單共享網(wǎng)頁的方法,它為互聯(lián)網(wǎng)用戶提供管理和分享他們喜歡的網(wǎng)頁書簽功能。該數(shù)據(jù)包含了 123 449名用戶,6 279 896條書簽記錄,以及1千萬條標簽信息,該數(shù)據(jù)時間精度為天。
實驗采用AOL和Delicious數(shù)據(jù)集,在MATLAB上對數(shù)據(jù)進行了分析。首先在兩個數(shù)據(jù)集中分別選取10個不同活躍度的用戶,分析他們的行為時間間隔分布,采用最大似然估計法分別得到這十個用戶的真實時間間隔分布的冪率指數(shù)。表1給出了在兩個數(shù)據(jù)集上不同活躍度的用戶基于真實時間的時間間隔分布,其中用戶的活躍度隨組號而增加。通過表1可以觀察到AOL、Delicious兩個數(shù)據(jù)集上用戶的真實時間間隔分布都可以由冪律分布很好地擬合,并且時間間隔分布的冪指數(shù)隨個體的活躍度單調(diào)增加。
接著采用文中提出的改進算法對剛剛選出的用戶數(shù)據(jù)進行操作,得到的結(jié)果如表2所示。表2是經(jīng)過時間重定標算法處理的結(jié)果,其中用戶的活躍度隨組號而增大。通過表2可以看到經(jīng)過處理后實驗結(jié)果仍然服從冪律分布,并且冪指數(shù)依然隨個體的活躍度單調(diào)增加。
表1 不同活躍性用戶真實時間間隔的冪指數(shù)
對比表1與表2可以發(fā)現(xiàn),在消除了活躍度周期與波動的影響后,結(jié)果卻仍然表現(xiàn)為冪律分布。這些結(jié)果非常明顯地表明用戶間隔時間分布的冪律現(xiàn)象并不能由用戶活躍性的異質(zhì)性和周期性來完全解釋,而且在采用改進的算法后冪指數(shù)依然隨著個體的活躍度單調(diào)增加,這說明每個人內(nèi)在的活躍性會影響冪指數(shù)的大小,時間間隔的冪律分布是由人的包括總體活躍性在內(nèi)的內(nèi)稟特性決定的。
文中結(jié)合兩種時間重定標算法,綜合考慮活躍度的周期與波動和個體內(nèi)在活躍性的影響,兼顧了兩者的優(yōu)點。將改進后的算法在AOL和Delicious數(shù)據(jù)集上做了實驗。實驗結(jié)果表明人類行為時間間隔之所以服從冪律分布,與活躍度的周期性和波動無關(guān),而是由人內(nèi)在特性決定的,并且冪指數(shù)隨個體活躍性單調(diào)增加。
每個人都與其他人不同,但是人的內(nèi)在特性在時間間隔分布上卻統(tǒng)一體現(xiàn)出冪律特性,這是今后要考慮的問題,有學(xué)者將冪律在數(shù)學(xué)上的描述即分形與混沌理論結(jié)合起來,提出冪律分布的產(chǎn)生可能是非線性系統(tǒng)下自組織主導(dǎo)的過程產(chǎn)生的必然結(jié)果。對人類行為的深入理解,有助于解釋若干復(fù)雜的社會經(jīng)濟現(xiàn)象,并在輿情監(jiān)控、疾病防治、交通規(guī)劃、呼叫服務(wù)、信息推薦等方面產(chǎn)生應(yīng)用價值。但科學(xué)是一把雙刃劍,人類動力學(xué)的研究也可能會導(dǎo)致個人隱私被侵犯。在文章的最后,特別呼吁相關(guān)的科研人員,在專注科學(xué)研究的同時,探索保護個人隱私的科學(xué)手段,盡量消弭研究帶來的負能量。