專欄評(píng)述
在這篇文章中,任曉龍等人分析了百多萬騰訊用戶的數(shù)據(jù),揭示了QQ在線社交網(wǎng)絡(luò)的結(jié)構(gòu)特征,以及QQ用戶在性別、年齡和地理上的分布。這些結(jié)果有價(jià)值,但都不是我感興趣的。我真正感興趣的,是作者揭示了QQ上的活躍程度和城市經(jīng)濟(jì)指標(biāo)GDP之間的關(guān)系。讓人吃驚的是,一個(gè)城市QQ用戶數(shù)和這個(gè)城市的GDP之間的Pearson相關(guān)系數(shù)達(dá)到了驚人的0.84。這么強(qiáng)的關(guān)聯(lián),暗示用在線數(shù)據(jù)預(yù)測(cè)城市GDP的可能性。最近劉金虎等人的論文“Online Social Activity Reflects Economic Status”分析了2億多新浪微博的用戶數(shù)據(jù),發(fā)現(xiàn)在線用戶注冊(cè)數(shù)目和城市GDP之間的Pearson相關(guān)系數(shù)可以超過0.86,并且利用這些數(shù)據(jù)可以進(jìn)行很好的GDP預(yù)測(cè)。
任曉龍和劉金虎的論文都只是連接在線行為和線下社會(huì)經(jīng)濟(jì)的最初步嘗試,但是這些結(jié)果價(jià)值不菲。首先,傳統(tǒng)的經(jīng)濟(jì)普查要消耗大量的人力和物力,并且有很長的時(shí)間延后,而利用在線數(shù)據(jù)——當(dāng)然不僅僅是這兩篇文章這么簡單的單一數(shù)據(jù)集——其成本相比經(jīng)濟(jì)普查幾乎可以忽略不計(jì),而且實(shí)時(shí)可以獲得這些數(shù)據(jù),不存在分析結(jié)果與現(xiàn)實(shí)狀況之間巨大的時(shí)間差。其次,這些分析能夠發(fā)現(xiàn)一些異常,例如劉金虎等人發(fā)現(xiàn)鄂爾多斯、崇左、來賓、中衛(wèi)等幾個(gè)城市在2012年之間互聯(lián)網(wǎng)非常不活躍,但是GDP很高,而這些城市的經(jīng)濟(jì)結(jié)構(gòu)比較單一,對(duì)于資源儲(chǔ)備和資源價(jià)格有非常強(qiáng)的依賴,容易遭遇經(jīng)濟(jì)風(fēng)險(xiǎn)。例如鄂爾多斯在2012年后就遇到了經(jīng)濟(jì)上的巨大挑戰(zhàn)!
任曉龍的文章只是一個(gè)起點(diǎn),它告訴我們互聯(lián)網(wǎng)的數(shù)據(jù)能夠告訴我們更多。
探索人類行為中的各類時(shí)空統(tǒng)計(jì)特征及其形成機(jī)制,對(duì)于理解人類自身的行為規(guī)律和解釋受人類行為影響的各種復(fù)雜社會(huì)經(jīng)濟(jì)現(xiàn)象都具有重要的意義。在人類行為時(shí)間特性研究方面,人在多次從事某特定活動(dòng)之間的時(shí)間間隔分布是一個(gè)受到廣泛關(guān)注的問題。在過去的十年里,研究者已經(jīng)對(duì)人類時(shí)間間隔分布進(jìn)行了大量的實(shí)證研究,并提出了數(shù)十種動(dòng)力學(xué)和非動(dòng)力學(xué)的模型來解釋時(shí)間間隔非泊松特性的形成機(jī)制??瓷先r(shí)間間隔分布這個(gè)問題已經(jīng)被研究的比較深入透徹了,但符丁、李明江和黎路的文章《基于價(jià)值驅(qū)動(dòng)的人類行為動(dòng)力學(xué)實(shí)證研究和建?!纷屛覀兛吹剑杂邢喈?dāng)一部分行為的時(shí)間間隔分布無法通過現(xiàn)有模型解釋,例如健身運(yùn)動(dòng)的時(shí)間間隔,研究者下載論文的時(shí)間間隔等。為此,該文的作者們?cè)趯?shí)證研究的基礎(chǔ)上提出了一種基于價(jià)值驅(qū)動(dòng)的人類動(dòng)力學(xué)模型,將個(gè)人期望實(shí)現(xiàn)的價(jià)值作為行為發(fā)生的重要影響因素,并分別針對(duì)保持價(jià)值和非保持價(jià)值給出了模型的理論結(jié)果。盡管該文還存在部分實(shí)證數(shù)據(jù)略顯單薄、兩類子模型的異同討論有所欠缺等問題,但瑕不掩瑜:從價(jià)值驅(qū)動(dòng)的角度研究人類行為時(shí)間分布無疑是一個(gè)新穎的視角,值得從事人類動(dòng)力學(xué)相關(guān)問題研究的讀者關(guān)注。
長期以來,人們認(rèn)為個(gè)體差異性服從均勻的泊松分布。過去10年,人們通過研究大量社會(huì)系統(tǒng)上的人類行為,發(fā)現(xiàn)個(gè)體的差異性呈現(xiàn)非泊松的冪律分布。比如2005年Barabasi在《自然》上的著名論文“The origin of bursts and heavy tails in human dynamics”,從實(shí)證角度指出:人們?cè)诨貜?fù)電子郵件的時(shí)間間隔分布具有顯著的陣發(fā)特征,即在一段長期靜默后會(huì)伴隨高頻率的集中爆發(fā)行為,其時(shí)間間隔分布滿足冪律分布P(τ)~τ?a,當(dāng)a<3時(shí)其方差發(fā)散,因此人類的這類異質(zhì)行為無法用平穩(wěn)的泊松過程描述。本刊2013年綜述論文《人類行為時(shí)空特性的統(tǒng)計(jì)力學(xué)》對(duì)此有詳細(xì)闡述。探索各類系統(tǒng)中人類時(shí)空異質(zhì)性現(xiàn)象并對(duì)其建模分析是一個(gè)值得深入研究的課題。
該論文實(shí)證研究了新浪微博的用戶轉(zhuǎn)發(fā)評(píng)論行為,指出用戶發(fā)文的時(shí)間間隔分布和微博被轉(zhuǎn)發(fā)/評(píng)論的次數(shù)都服從冪律分布,且二者的冪指數(shù)相差1。進(jìn)一步,作者基于用戶行為的時(shí)間間隔服從異質(zhì)的冪律分布這一假設(shè),利用易感-感染(SI)傳播模型和BA無標(biāo)度網(wǎng)絡(luò)模型從理論到仿真研究了信息傳播過程,獲得了一致的結(jié)果。雖然作者只是在經(jīng)典的BA網(wǎng)絡(luò)模型基礎(chǔ)上研究了個(gè)體差異性對(duì)于信息傳播的影響,但其背后個(gè)體行為的異質(zhì)性與群體動(dòng)力學(xué)行為之間的內(nèi)在機(jī)理值得繼續(xù)深入研究。