摘要:隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),數(shù)據(jù)成為當(dāng)今社會(huì)中重要的資源,在龐大的數(shù)據(jù)體系中蘊(yùn)藏著無(wú)限的價(jià)值,對(duì)這些數(shù)據(jù)進(jìn)行挖掘有著重要的意義。社交網(wǎng)絡(luò)是在傳統(tǒng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展而來(lái)的,但是當(dāng)網(wǎng)絡(luò)的應(yīng)用和移動(dòng)的終端設(shè)備快速的發(fā)展時(shí),社交網(wǎng)絡(luò)也飛速發(fā)展起來(lái)。文章對(duì)新浪微博中的數(shù)據(jù)通過(guò)適當(dāng)?shù)姆绞竭M(jìn)行了收集,并進(jìn)行了相關(guān)的分析。
關(guān)鍵詞:新浪微博;社交網(wǎng)絡(luò);用戶(hù)權(quán)重;數(shù)據(jù)分析;數(shù)據(jù)體系 文獻(xiàn)標(biāo)識(shí)碼:A
中圖分類(lèi)號(hào):TP391 文章編號(hào):1009-2374(2016)05-0190-02 DOI:10.13535/j.cnki.11-4406/n.2016.05.095
信息的獲取方式有很多種,但是比較常用的主要是兩種:一種是網(wǎng)絡(luò)爬蟲(chóng);另一種是網(wǎng)頁(yè)信息解析。但是微博用這兩種常規(guī)的方法很難高效地獲取相關(guān)數(shù)據(jù),因?yàn)槲⒉┑挠脩?hù)量很大,數(shù)據(jù)更新的速度很快,用戶(hù)之間的交流很頻繁,這種常規(guī)的方法無(wú)法實(shí)現(xiàn)這種數(shù)據(jù)的獲取。所以,微博的數(shù)據(jù)獲取主要依賴(lài)于API接口,它是由微博服務(wù)商提供的一種可以查詢(xún)微博數(shù)據(jù)和微博中的交流情況的應(yīng)用,可以實(shí)現(xiàn)微博數(shù)據(jù)的獲取。
微博服務(wù)商不僅可以獲得微博的數(shù)據(jù),還可以獲得用戶(hù)的數(shù)據(jù),這些數(shù)據(jù)都是很重要的資源,但是API作為一個(gè)服務(wù)器,同其他服務(wù)器一樣,有一定的負(fù)荷限度,所以為了保證服務(wù)器不出現(xiàn)崩潰、為了保護(hù)數(shù)據(jù)不丟失,必須對(duì)每個(gè)API接口設(shè)置一定的權(quán)限。在新浪微博中,一般的權(quán)限是用戶(hù)在一個(gè)小時(shí)內(nèi)調(diào)用的次數(shù)不能太過(guò)于頻繁,最多為1000次,而且在此基礎(chǔ)上每個(gè)API中都設(shè)有各自的小權(quán)限,所以在收集數(shù)據(jù)的過(guò)程中要分別對(duì)每個(gè)API接口進(jìn)行相應(yīng)的設(shè)置,這樣才能獲得更多的數(shù)據(jù)。除了解決API接口的限制問(wèn)題,還需要系統(tǒng)具備災(zāi)難恢復(fù)功能,這樣可以相對(duì)提高數(shù)據(jù)獲取速度。
1 微博數(shù)據(jù)收集和特征分析
1.1 微博數(shù)據(jù)收集
雖然利用開(kāi)放的API接口可以收集微博中的數(shù)據(jù),但是還有一個(gè)重要的問(wèn)題需要解決,那就是關(guān)于用戶(hù)的身份認(rèn)證的問(wèn)題。用戶(hù)在微博中注冊(cè)的時(shí)候進(jìn)行的身份認(rèn)證是受保護(hù)的,任何第三方在不知道用戶(hù)名和密碼的情況下是不能查看該用戶(hù)的任何信息的。新浪微博是通過(guò)OAUTH認(rèn)證來(lái)實(shí)現(xiàn)用戶(hù)身份保護(hù)的,QAUTH認(rèn)證不僅安全,而且還特別簡(jiǎn)單實(shí)用,在新浪微博中主要是用于API的用戶(hù)驗(yàn)證協(xié)議。當(dāng)用戶(hù)在微博中進(jìn)行注冊(cè)的時(shí)候,通過(guò)QAUTH的授權(quán)后,用戶(hù)會(huì)收到一份由API根據(jù)用戶(hù)的請(qǐng)求而發(fā)送的XML或JSON文件??梢酝ㄟ^(guò)對(duì)這類(lèi)文件進(jìn)行解析,從而獲得原始的數(shù)據(jù)。
1.2 微博特征分析
每個(gè)用戶(hù)的受關(guān)注程度都不相同,為了評(píng)價(jià)某個(gè)用戶(hù)的受關(guān)注程度,可以通過(guò)統(tǒng)計(jì)其微博的回復(fù)數(shù)和轉(zhuǎn)發(fā)數(shù)來(lái)估計(jì)。在新浪微博中,對(duì)于用戶(hù)所發(fā)送的一條微博,關(guān)注他的用戶(hù)可以有三種行為:第一種是單純的回復(fù),在這種情況下該用戶(hù)的微博中的評(píng)論數(shù)就會(huì)增加1個(gè);第二種是單純的轉(zhuǎn)發(fā),在這種情況下該用戶(hù)的原微博中轉(zhuǎn)發(fā)數(shù)就會(huì)增加1個(gè);第三種是既有回復(fù)又有轉(zhuǎn)發(fā),在這種情況下就會(huì)評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù)都加1個(gè)。所以在微博的轉(zhuǎn)發(fā)回復(fù)兩者之間既相互聯(lián)系,又相互區(qū)別。同理,微博的回復(fù)數(shù)量和轉(zhuǎn)發(fā)數(shù)量之間同樣存在著某種關(guān)系,如果某一條微博的回復(fù)數(shù)量很高,那么這條微博被轉(zhuǎn)發(fā)的可能性也很大。
新浪微博較其他的社交網(wǎng)絡(luò)平臺(tái)有更多的功能,其中很重要的一個(gè)就是在新浪微博中含有很多多媒體的信息。經(jīng)過(guò)統(tǒng)計(jì)發(fā)現(xiàn),在微博的內(nèi)容中添加了一些圖片或其他多媒體信息會(huì)比單純的文字內(nèi)容更具吸引力,會(huì)有更多的回復(fù)量和轉(zhuǎn)發(fā)量。此外,對(duì)于同樣具有多媒體信息的微博,如果在微博中存在提及關(guān)系,那么它的關(guān)注量會(huì)比沒(méi)有提及關(guān)系的更高,而且這個(gè)關(guān)注度還隨提及的用戶(hù)的數(shù)量的增加而增加,所以在微博傳播性能參考特征中還有提及特征。
2 用戶(hù)特征分析
雖然微博同F(xiàn)acebook、MySpace等一樣都是社交網(wǎng)絡(luò),但是微博有很多不同于它們的特點(diǎn)。比如,在微博中用戶(hù)之間的友好關(guān)系是雙向的,當(dāng)用戶(hù)A關(guān)注用戶(hù)B的時(shí)候,不需要經(jīng)過(guò)用戶(hù)B的審核,而且如果用戶(hù)B不關(guān)注用戶(hù)A的話(huà),用戶(hù)A就不會(huì)出現(xiàn)在用戶(hù)B的關(guān)注名單中,在這種情況中,用戶(hù)A與用戶(hù)B之間的關(guān)系比較復(fù)雜,與一般的好友關(guān)系不同,前者是后者的粉絲,后者是前者的被關(guān)注好友。在微博這種社交網(wǎng)絡(luò)中,其結(jié)構(gòu)特征可以描述為一種關(guān)系式,即G=(U,E),U指網(wǎng)絡(luò)中的節(jié)點(diǎn),也就是用戶(hù),E表示各個(gè)用戶(hù)之間存在的有向的連接關(guān)系。該關(guān)系式稱(chēng)為網(wǎng)絡(luò)拓?fù)潢P(guān)系,在這個(gè)關(guān)系式中,分別設(shè)定了出度和入度,其中出度是指一個(gè)用戶(hù)的關(guān)注好友數(shù),入度是指這個(gè)用戶(hù)的粉絲數(shù)量,通過(guò)用戶(hù)的出度和入度形成了一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的度的分布特征。
在新浪微博中用戶(hù)是分不同等級(jí)的,在本文進(jìn)行數(shù)據(jù)收集的過(guò)程中發(fā)現(xiàn),在新浪微博中通過(guò)認(rèn)證用戶(hù)將用戶(hù)分為普通用戶(hù)和認(rèn)證用戶(hù)。因?yàn)槲⒉┰诓粩嗟纳?jí)更新,在最新版的新浪微博中對(duì)認(rèn)證用戶(hù)進(jìn)行了更加詳細(xì)的分類(lèi)。在研究過(guò)程中發(fā)現(xiàn),經(jīng)過(guò)認(rèn)證的用戶(hù)的粉絲量較普通用戶(hù)多很多,而且其微博的評(píng)論量和轉(zhuǎn)發(fā)量也更高,所以是否為認(rèn)證用戶(hù)也在很大程度上決定了微博的傳播情況。一般來(lái)說(shuō),如果一個(gè)用戶(hù)有很多的粉絲,那么他的微博被轉(zhuǎn)發(fā)或者被評(píng)論的可能性就很高,對(duì)于用戶(hù)微博的轉(zhuǎn)發(fā)與回復(fù)數(shù)與用戶(hù)粉絲數(shù)量之間存在著很密切的關(guān)系,但是這個(gè)關(guān)系比較模糊。
當(dāng)用戶(hù)打開(kāi)微博的時(shí)候,最先呈現(xiàn)在其微博首頁(yè)的是其所關(guān)注的好友的最新微博,一般都是按照時(shí)間的順序進(jìn)行排列,最新的消息排在最上面。一般來(lái)說(shuō),用戶(hù)打開(kāi)微博后最先出現(xiàn)的就是關(guān)注好友的最新微博,但是隨著逐漸向下滑動(dòng),會(huì)有更多的信息呈現(xiàn)出來(lái),所以每次用戶(hù)在打開(kāi)微博后,會(huì)有大量的信息出現(xiàn),但是一般的用戶(hù)都只是簡(jiǎn)單瀏覽,很多信息都會(huì)被忽略掉。因此,一個(gè)微博是否會(huì)被關(guān)注還會(huì)因?yàn)橛脩?hù)的情況不同而不同,如果一條微博的發(fā)布時(shí)間恰好處于用戶(hù)的活躍時(shí)段,那么被關(guān)注的可能性就會(huì)很大,但如果恰好處于不活躍時(shí)段,則很有可能會(huì)被忽略,所以用戶(hù)的活躍時(shí)間特征也是微博傳播的重要影響因素。
3 基于HITS算法的節(jié)點(diǎn)權(quán)重分析
在社交網(wǎng)絡(luò)中特別重視人與人之間的相互關(guān)系,所以一個(gè)很具有權(quán)威的微博作者的微博會(huì)傳播得更廣。通過(guò)前面的分析可知,用戶(hù)的權(quán)重有很多的影響因素,比如用戶(hù)的影響力、用戶(hù)的活躍程度等。HITS算法是一種權(quán)重排序法,在互聯(lián)網(wǎng)中有很廣泛的應(yīng)用,它主要是指:在同一個(gè)網(wǎng)頁(yè)中同時(shí)存在兩個(gè)不同的值,分別是hub值與authority值。其中hub值是指該網(wǎng)頁(yè)所指向的所有的網(wǎng)頁(yè)中的authority值構(gòu)成;而網(wǎng)頁(yè)的authority值由指向該頁(yè)面的所有網(wǎng)頁(yè)hub值構(gòu)成。在互聯(lián)網(wǎng)中,有這樣一個(gè)規(guī)律,如果有很多具有高權(quán)威性的網(wǎng)頁(yè)都指向一個(gè)未知的網(wǎng)頁(yè),那么這個(gè)未知的網(wǎng)頁(yè)在很大程度上也會(huì)是高權(quán)威性網(wǎng)頁(yè)。
在整個(gè)互聯(lián)網(wǎng)中,每一個(gè)網(wǎng)頁(yè)都會(huì)含有各種不同的連接,假如在你打開(kāi)的一個(gè)具有很高權(quán)威性的網(wǎng)頁(yè)中連接到某一個(gè)廣告,那么這個(gè)廣告就會(huì)因此而同樣具有很高的權(quán)威性;或者另外一種情況,當(dāng)你在搜索一個(gè)主題的時(shí)候,出現(xiàn)一個(gè)與你搜索的主題沒(méi)有任何關(guān)系但是具有很高權(quán)威性的頁(yè)面,這些情況都會(huì)使得HITS的公正性受到嚴(yán)重的影響。但是,在微博中,每個(gè)用戶(hù)都是獨(dú)立的個(gè)體,都有自己的思想。很多明星在微博中有大量的粉絲,并且一般都只有少量的關(guān)注好友,但是他們的微博通常都會(huì)有很高的回復(fù)率和轉(zhuǎn)發(fā)率。對(duì)微博中的用戶(hù)進(jìn)行詳細(xì)的分析后,得出了一些重要的規(guī)律,比如:在新浪微博中,如果某個(gè)用戶(hù)有很高的權(quán)重,他關(guān)注的好友越多,那么說(shuō)明他所關(guān)注的好友越不重要;但是,反過(guò)來(lái),如果他關(guān)注的好友越少,則說(shuō)明他所關(guān)注的好友對(duì)他來(lái)說(shuō)都很重要。為了限制權(quán)威性用戶(hù)無(wú)限度的傳遞其自身的權(quán)威性,必須將HITS算法進(jìn)行相應(yīng)的改進(jìn),因?yàn)樵谖⒉┲杏脩?hù)之間的友好關(guān)系是有方向的,這種關(guān)系正好與互聯(lián)網(wǎng)的網(wǎng)頁(yè)連接非常相似,所以可以按照互聯(lián)網(wǎng)中的方法同樣的改進(jìn),HITS算法。
在社會(huì)快速發(fā)展的同時(shí),互聯(lián)網(wǎng)也在迅速的發(fā)展,特別是社交網(wǎng)絡(luò)如微博逐漸成為人們?nèi)粘躺钪胁豢苫蛉钡囊徊糠帧I缃痪W(wǎng)絡(luò)比傳統(tǒng)網(wǎng)絡(luò)傳播信息速度更快,特征也更復(fù)雜,所以傳統(tǒng)的理論和研究模型都不再適用于社交網(wǎng)絡(luò),怎樣才能更加快速、更加高效地獲取社交網(wǎng)絡(luò)中的各種信息和數(shù)據(jù),具有很重要的研究意義和應(yīng)用的價(jià)值。
本文將API接口的應(yīng)用合理地運(yùn)用到研究過(guò)程中,并結(jié)合網(wǎng)頁(yè)信息解析法,分別對(duì)微博的數(shù)據(jù)進(jìn)行了收集和多角度的分析,根據(jù)研究結(jié)果發(fā)現(xiàn)影響了影響微博用戶(hù)的權(quán)威性和微博的傳播范圍的相關(guān)因素。在微博等社交網(wǎng)絡(luò)中,雖然所發(fā)布的內(nèi)容完全相同,但是具有不同權(quán)威性的人進(jìn)行發(fā)布將會(huì)有不同的效果、不同的影響力。
參考文獻(xiàn)
[1]Linyuan Lü,Matú?Medo,Chi Ho Yeung,Yi-Cheng Zhang,Zi-Ke Zhang,Tao Zhou.Recommender systems[J].Physics Reports,2012,(1).
[2]Chuang Liu,Wei-Xing Zhou.Heterogeneity in initial resource configurations improves a network-based hybrid recommendation algorithm[J].Physica A:Statistical Mechanics and its Applications,2012,(22).
[3]蔣昌金,彭宏,陳建超,等.基于主題詞權(quán)重和句子特征的自動(dòng)文摘[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,(7).
作者簡(jiǎn)介:張宇航,男,本溪廣播電視大學(xué)計(jì)算機(jī)講師。
(責(zé)任編輯:王 波)