• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      騰訊微博的內(nèi)容生成模式分析

      2015-04-21 08:43:47李亞平倪志豪
      中文信息學(xué)報 2015年3期
      關(guān)鍵詞:微博原創(chuàng)影響力

      李亞平,曹 潤,童 露,梁 循,倪志豪

      (中國人民大學(xué) 信息學(xué)院,北京 100872)

      ?

      騰訊微博的內(nèi)容生成模式分析

      李亞平,曹 潤,童 露,梁 循,倪志豪

      (中國人民大學(xué) 信息學(xué)院,北京 100872)

      隨著Web 2.0 時代網(wǎng)絡(luò)技術(shù)的快速發(fā)展,社交類網(wǎng)站用戶大規(guī)模增加。該文選取騰訊微博近兩萬名用戶,抓取了他們所有的微博數(shù)據(jù),對騰訊微博的用戶內(nèi)容生成模式進行分析和研究。我們從微博用戶貢獻分析、基于時間的用戶活躍度分析以及微博影響三個角度出發(fā),對微博的數(shù)量、微博的原創(chuàng)與轉(zhuǎn)發(fā)、微博發(fā)布的周模式與日模式、微博轉(zhuǎn)發(fā)影響力以及對影響微博轉(zhuǎn)發(fā)的因素進行研究??偨Y(jié)出微博用戶內(nèi)容生成的一些特點,如用戶內(nèi)容貢獻呈現(xiàn)一種“90-10”規(guī)則,不同類型的用戶有著不同的“微博風(fēng)格”,微博用戶每日微博發(fā)布數(shù)有著明顯的周模式與日模式等。相關(guān)分析結(jié)論對于進一步深化研究微博的用戶內(nèi)容生成模式具有一定參考意義。

      微博;用戶內(nèi)容生成;模式分析

      1 引言

      Web 2.0 時代網(wǎng)絡(luò)技術(shù)的不斷進步,使得社交類網(wǎng)站出現(xiàn)了快速發(fā)展。如Facebook,MySpace, 人人網(wǎng),天涯社區(qū)等,這些社交網(wǎng)絡(luò)已經(jīng)吸引了相當數(shù)量的參與者,他們貢獻互聯(lián)網(wǎng)上的各種內(nèi)容,通常被稱為用戶生成內(nèi)容(UGC User Content Generation)[1]。而近幾年來伴隨3G技術(shù)發(fā)展,手機上網(wǎng)功能逐步完善,社交網(wǎng)站中的微博類網(wǎng)站更是出現(xiàn)了“井噴”式的發(fā)展。

      用戶是這些社交網(wǎng)站與社區(qū)論壇的基本元素。根據(jù)目的的不同,現(xiàn)有的在線社交網(wǎng)站可以被分成兩類,面向網(wǎng)絡(luò)關(guān)系的社交網(wǎng)站與面向知識共享的社交網(wǎng)站[2]。前者如Facebook與人人網(wǎng),更加強調(diào)從網(wǎng)絡(luò)的觀點出發(fā),社交關(guān)系是這些社交網(wǎng)站的基礎(chǔ),這類網(wǎng)站中的內(nèi)容分析主要是在朋友之間的。后者如博客網(wǎng)站、百度知道、優(yōu)酷視頻等,重點更在于知識或是內(nèi)容的分享。這些網(wǎng)絡(luò)不是被潛在的社交關(guān)系所驅(qū)動的,相反,這些網(wǎng)絡(luò)通過用戶基于分享內(nèi)容上共同的興趣構(gòu)成。而微博兼具以上兩類社交網(wǎng)站的共同特性,微博既是一個網(wǎng)絡(luò)的社交平臺,同時十分注重知識分享,兼具媒體的特性[3],因此對其進行用戶內(nèi)容生成模式研究具有更加重要的意義。

      2 相關(guān)工作

      國外學(xué)者主要以Twitter為平臺進行微博相關(guān)的研究工作,其中包括三個方面的研究: 第一,針對Twitter平臺所形成的人際網(wǎng)絡(luò)進行網(wǎng)絡(luò)拓撲結(jié)構(gòu)分析;第二,針對Twitter上的話題及信息擴散研究;第三,針對Twitter用戶影響力的研究。Haewoon等定量地研究了Twitter整個網(wǎng)絡(luò)平臺及在上面的信息擴散,從Twitter整體來做研究,細分了很多維度如網(wǎng)絡(luò)拓撲結(jié)構(gòu)、話題、轉(zhuǎn)發(fā)網(wǎng)絡(luò)、用戶影響力等等,比較簡明扼要地去論證Twitter擁有媒體屬性[3]。Meeyoung提出了粉絲影響力、轉(zhuǎn)發(fā)影響力、點名影響力三種類型的用戶影響力,并對比研究了這三種研究方法用戶影響力排名的不同結(jié)果。發(fā)現(xiàn)受歡迎的用戶,即有很多粉絲的用戶在轉(zhuǎn)發(fā)和回復(fù)上不一定有很高的影響力[4]。Jianshu Wen等采用LDA算法來實現(xiàn)TOPIC的抽取,構(gòu)建了一個TwitterRank算法,通過衡量話題相似度來構(gòu)建用戶關(guān)系網(wǎng)絡(luò),評估微博系統(tǒng)中用戶的影響力[5]。

      伴隨新浪微博、騰訊微博、網(wǎng)易微博等近兩年“井噴”式的發(fā)展,國內(nèi)學(xué)者也對其進行了很多相關(guān)研究。有學(xué)者對于2010年中國微博研究總體情況進行了回顧和分析,認為對微博的研究已經(jīng)成為中國新媒體傳播研究領(lǐng)域的熱點話題之一[6]。余偉介紹了微博的功能特點與應(yīng)用價值,利用本體的方式來描述微博,并設(shè)計了一個基于微博的用戶行為分析模型[7]。高承實等進行了微博輿情監(jiān)控的研究,結(jié)合信息空間模型構(gòu)建了微博輿情的三維空間,運用Delphi法和層次分析法來確定各項指標的權(quán)重,最終建立微博輿情監(jiān)測指標體系[8]?;谖⒉﹥?nèi)容的情感分析也引起了一些學(xué)者的關(guān)注,他們或是提出了基于中文微博的情感分布語言模型[9],或是對不同的情感分析方法進行了深入研究,包括表情符號的規(guī)則方法、情感詞典的規(guī)則方法和基于SVM的層次結(jié)構(gòu)的多策略方法,實驗表明基于SVM的層次結(jié)構(gòu)多策略方法效果最好[10]。DCCI互聯(lián)網(wǎng)數(shù)據(jù)中心發(fā)布微博藍皮書,發(fā)現(xiàn)微博用戶量整體趨向飽和穩(wěn)定態(tài)勢,并開始大規(guī)模向移動端遷移[11]。通過對騰訊微博和新浪微博的對比研究,李燕萍發(fā)現(xiàn)轉(zhuǎn)發(fā)數(shù)和評論數(shù)、粉絲數(shù)、關(guān)注數(shù)和博文數(shù)兩兩之間都有一定的正相關(guān)性[12]。Lei Guo等人研究了社交網(wǎng)站的用戶內(nèi)容貢獻模式。作者將研究重點放在三類最受歡迎的面向知識分享的社交網(wǎng)站,包括博客系統(tǒng)、社交書簽分享網(wǎng)站、知識問答社交網(wǎng)站,研究發(fā)現(xiàn)在以上三類網(wǎng)站用戶的表現(xiàn)有很強的日模式與周模式[2]。

      這些存在的研究主要側(cè)重于用戶如何連接在一起和網(wǎng)絡(luò)如何形成,社會網(wǎng)絡(luò)圖形如何演變,或是代表用戶與社區(qū)發(fā)現(xiàn)。對于有著兩類社交網(wǎng)站共同特點及自己特性的微博,對其用戶生成內(nèi)容相關(guān)方面的研究并不是很多,因此,本文的研究具有很重要的實踐意義。

      3 實驗數(shù)據(jù)

      本文實驗利用騰訊微博的API接口隨機抓取了17 232名用戶自注冊之日起至2012年3月28日的所有微博,共計10 995 827條微博。數(shù)據(jù)庫中每條微博的數(shù)據(jù)格式如表1所示。

      表1 數(shù)據(jù)庫中每條微博的數(shù)據(jù)格式

      騰訊將所有的微博分為七種: 1-原創(chuàng),2-轉(zhuǎn)發(fā),3-私信,4-回復(fù),5-空回,6-提及,7-評論。其中原創(chuàng)與轉(zhuǎn)發(fā)類微博超過總數(shù)的92%,本文重點針對此兩類微博進行研究。

      除此之外,本文部分實驗還涉及到用戶的性別、是否為認證用戶等基本信息??傮w可將所有的信息細分為四類: 用戶基本信息(用戶名、性別、是否vip認證用戶)、用戶行為信息(發(fā)布微博時間、發(fā)布端口、微博類型)、微博基本信息(微博內(nèi)容)、微博擴散信息(被轉(zhuǎn)發(fā)次數(shù)、被點評次數(shù)、來源id)

      4 微博用戶貢獻分析

      本文從用戶發(fā)布微博的數(shù)量以及微博的長度兩個方面分析微博用戶的內(nèi)容貢獻情況。

      4.1 微博的數(shù)量

      圖1中橫軸每個點代表一個用戶(只顯示部分用戶名),縱軸表示該用戶所發(fā)布的微博總數(shù);曲線顯示了微博總數(shù)累計值。結(jié)果顯示80%的微博只來自于7.59%的用戶,而15.94%的用戶發(fā)布了90%的微博。

      圖1 微博用戶發(fā)布微博數(shù)

      4.1.1 原創(chuàng)型微博與轉(zhuǎn)發(fā)型微博數(shù)量的對比分析

      原創(chuàng)和轉(zhuǎn)發(fā)分別代表微博中的信息制造和信息傳播,可以看到在騰訊微博中原創(chuàng)微博與轉(zhuǎn)發(fā)微博幾乎各自占據(jù)了“半壁江山”,說明發(fā)表觀點與傳遞信息在微博中有著幾乎同等的重要地位。原創(chuàng)以及轉(zhuǎn)發(fā)占總體的92.21%,占絕大多數(shù),且轉(zhuǎn)發(fā)數(shù)遠遠大于評論的數(shù)量,這與微博中轉(zhuǎn)發(fā)過程常常伴隨著評論的特性有關(guān)。在對轉(zhuǎn)發(fā)類型的微博內(nèi)容進一步處理后,我們發(fā)現(xiàn)純粹的轉(zhuǎn)發(fā)行為(即轉(zhuǎn)發(fā)的同時未作出任何評價)只占總體的12.83%。

      圖2 不同類型微博分布

      轉(zhuǎn)發(fā)有助于擴散某個話題,回復(fù)代表用戶開始就某一話題進行討論,可以衡量用戶對此話題的黏度,圖2顯示了微博具有較大的擴散性。

      4.1.2 用戶原創(chuàng)與轉(zhuǎn)發(fā)行為分析

      分析用戶的轉(zhuǎn)發(fā)行為,人均轉(zhuǎn)發(fā)微博次數(shù)240.58次。多數(shù)人轉(zhuǎn)發(fā)次數(shù)較少,49.37%的用戶轉(zhuǎn)發(fā)次數(shù)小于23次,70%的用戶轉(zhuǎn)發(fā)次數(shù)少于114。極少人有大量的轉(zhuǎn)發(fā)行為,轉(zhuǎn)發(fā)行為超過 1 000次的用戶占總體的8.623%,轉(zhuǎn)發(fā)次數(shù)超過 4 000的僅占總體的1.44%。但轉(zhuǎn)發(fā)次數(shù)超過 1 000次的用戶其累計轉(zhuǎn)發(fā)次數(shù)占總體的68.55%,超過4 000的用戶累計轉(zhuǎn)發(fā)次數(shù)占總體的26.10%,長尾效應(yīng)較Zi Yang等[13]在twitter中觀察到的更為顯著。

      以轉(zhuǎn)發(fā)次數(shù)為x軸,轉(zhuǎn)發(fā)次數(shù)大于x的用戶數(shù)為y軸,得到圖3。曲線呈冪律分布,斜率為-0.644,擬合度R2為0.718 5。

      圖3 用戶轉(zhuǎn)發(fā)行為分布

      圖4 用戶轉(zhuǎn)發(fā)與非轉(zhuǎn)發(fā)行為對比

      觀察用戶的轉(zhuǎn)發(fā)行為和原創(chuàng)行為,圖4中縱軸表示用戶轉(zhuǎn)發(fā)的微博數(shù),橫軸表示用戶發(fā)布的原創(chuàng)型微博,并做移動平均線??梢钥吹?,總體來說,用戶轉(zhuǎn)發(fā)微博的行為明顯多于原創(chuàng)。移動平均線在x、y坐標均小于1 000的象限內(nèi)位于上方,而在兩坐標軸均大于1 000的象限內(nèi)則位于下方。即在用戶使用微博初期,原創(chuàng)行為明顯占優(yōu)勢,而隨著對微博使用行為的增加,轉(zhuǎn)發(fā)行為逐漸占據(jù)上風(fēng)。

      用戶在微博中所充當?shù)慕巧S著使用的持續(xù),逐漸從發(fā)言者轉(zhuǎn)向傳播者。

      4.2 微博長度分析

      在對微博長度分析時,對類型為轉(zhuǎn)發(fā)的微博的Origtext字段做處理,刪除其中的被轉(zhuǎn)發(fā)內(nèi)容(‘//@’后的內(nèi)容屬于其轉(zhuǎn)發(fā)的內(nèi)容)后使用。所有的微博內(nèi)容的平均字符長度為40.06,在分別對男女、微博類型進行細分后,結(jié)果如表2: 就微博類型來看,用戶所發(fā)原創(chuàng)微博長度均明顯大于轉(zhuǎn)發(fā)微博,說明原創(chuàng)型微博通常包含更大的原始信息量。就用戶類型來看,男性用戶發(fā)送微博的字數(shù)略高于女性用戶,VIP用戶所發(fā)微博平均長度為53.65,是非VIP用戶所發(fā)微博長度的1.6倍。

      其中女性用戶原創(chuàng)微博字數(shù)比男性高很多,且女性用戶原創(chuàng)微博的字數(shù)是轉(zhuǎn)發(fā)的近4倍,而男性用戶原創(chuàng)微博的字數(shù)是轉(zhuǎn)發(fā)微博的字數(shù)的3.45倍,顯示性別對“微博風(fēng)格”會產(chǎn)生比較大的影響,例如女性可能更傾向于詳細地描述一個事件或一種物品,而對轉(zhuǎn)發(fā)的內(nèi)容簡短地發(fā)表意見,而男性用戶傾向于相對簡短地敘述。

      VIP用戶是最為“勤勞”內(nèi)容貢獻用戶,平均微博字數(shù)為53.65,遠遠高于其他類型的用戶,其原創(chuàng)微博的平均字數(shù)高達81.71,可以看作VIP用戶的原創(chuàng)微博中包含更大的信息量。

      不同類型的用戶在貢獻的內(nèi)容上具有各自的特征。

      表2 不同類型用戶原創(chuàng)與轉(zhuǎn)發(fā)微博字數(shù)

      5 基于時間的微博用戶活躍度分析

      實驗從騰訊微博的發(fā)展趨勢、微博發(fā)布的周模式與日模式兩個方向來進行基于時間的微博用戶活躍度分析。

      5.1 騰訊微博發(fā)展趨勢

      圖5展示了實驗隨機抓取的騰訊微博的17 232名用戶從騰訊微博開通之日(2010.3.28)至筆者抓取之日每日的發(fā)布微博數(shù),可以看出曲線呈現(xiàn)一種波動上升的趨勢,說明微博已經(jīng)歷過起步期、成長期,進入并正處在快速發(fā)展期。

      5.2 微博發(fā)布的周模式與日模式

      圖6展示了從圖5中截取的部分的曲線形態(tài),表示從2011.10.1到2011.12.30的時間段內(nèi),每天所發(fā)微博數(shù),可以看出微博用戶每日微博發(fā)布數(shù)有著明顯的周期規(guī)律,周期長度大致為七天。而每周中的峰值基本分布在周四,谷底基本分布在周末。其中周期內(nèi)的微博數(shù)分布大多為雙峰分布,偶有單峰、三峰。

      圖7表示不同類型微博發(fā)布數(shù)在一周中的分布。從圖7中可以看到對所有微博,總體沒有很大的起伏變化,周末所發(fā)微博數(shù)最少;周三所發(fā)微博數(shù)最多。原創(chuàng)型微博的一周內(nèi)每日發(fā)布起伏較大,而轉(zhuǎn)發(fā)微博一周內(nèi)的每日發(fā)布數(shù)則較為平均,只顯現(xiàn)出平日略高于周末的規(guī)律。為了更深入了解其中規(guī)律,實驗繼續(xù)對一日中每小時的微博數(shù)做詳細地分析。

      圖7 不同類型微博發(fā)布數(shù)的星期分布

      實驗對原創(chuàng)微博、轉(zhuǎn)發(fā)微博和所有微博按照時間軸展開,分別進行了分析,將每小時的微博數(shù)繪成條形圖,同時統(tǒng)計每周同一小時新發(fā)布的微博。然后將整個追蹤時間中每小時的發(fā)布微博數(shù)整合統(tǒng)計,并進行了歸一化處理。圖8上半部分顯示了每周的原創(chuàng)微博、轉(zhuǎn)發(fā)微博和所有微博分別的發(fā)布百分比。相對于轉(zhuǎn)發(fā)型微博,原創(chuàng)型微博在平日里每小時的發(fā)布數(shù)高于周日每小時的發(fā)布數(shù)的情況更加明顯,且在原創(chuàng)型微博中,平日每天的每小時微博發(fā)布數(shù)基本都呈現(xiàn)出雙峰分布,周末只有一個發(fā)布高峰。以前學(xué)者的相關(guān)研究中顯示對于博客類網(wǎng)站,在平日里每小時的發(fā)布數(shù)于周日每小時的發(fā)布數(shù)較為相似。博客是一種日常的網(wǎng)絡(luò)日志或日記寫作,所以博客中每天的用戶活動不會在一個星期內(nèi)的不同天急劇改變[2]。而微博的發(fā)布更加隨意簡單,會很好地融入用戶的日常生活中,因此顯現(xiàn)出一種與用戶日常作息時間十分相關(guān)的分布。

      圖8的底部模塊進一步顯示了微博發(fā)布的每日模式,以類似每周模式的方式計算。對三種分類,發(fā)布高峰時間持續(xù)很長,兩個最高峰在10時與22時,發(fā)布高峰時段可以涵蓋一天中的三分之二,低峰期在凌晨3~5時處,整張圖可以很明顯地分作兩個部分,以8時和4%為分界線。這與博客的高峰時間大約只是在23時有著很大差別[2]。與博客相比,微博發(fā)布的便捷性使得其發(fā)布的高峰期跨度大大擴展,證明了微博隨時隨地記錄人們生活的特性。

      圖8 每日發(fā)布微博數(shù)的星期分布歸一化結(jié)果

      圖9 微博轉(zhuǎn)發(fā)數(shù)的分布

      6 微博影響分析

      實驗從微博轉(zhuǎn)發(fā)分析、微博轉(zhuǎn)發(fā)影響力分析以及影響微博轉(zhuǎn)發(fā)的三個因素研究微博的影響。

      6.1 微博轉(zhuǎn)發(fā)次數(shù)分析

      除原創(chuàng)和轉(zhuǎn)發(fā)類型外的微博其轉(zhuǎn)發(fā)數(shù)量與回復(fù)數(shù)量基本為0。故下文只考慮原創(chuàng)和轉(zhuǎn)發(fā)的微博。

      微博轉(zhuǎn)發(fā)數(shù)count取值從最小值0(5 638 724條)到最大值2 097 150(1條),自count=2 105開始,大于此值的任一轉(zhuǎn)發(fā)次數(shù)對應(yīng)的微博數(shù)目均為個位數(shù),即對于某一大于2 105的數(shù)字,有小于10條的微博其轉(zhuǎn)發(fā)數(shù)等于此值。只有極少數(shù)的微博被轉(zhuǎn)發(fā)的次數(shù)很大,而絕大多數(shù)的微博其轉(zhuǎn)發(fā)數(shù)較小。

      微博轉(zhuǎn)發(fā)次數(shù)的均值為67.544 8。表3顯示了不同類型的微博轉(zhuǎn)發(fā)數(shù)的比較,表中第三列表示包含某種多媒體的微博其平均轉(zhuǎn)發(fā)量與不含此類內(nèi)容微博的平均轉(zhuǎn)發(fā)量的比值,不包含多媒體信息的微博的平均轉(zhuǎn)發(fā)量遠遠低于包含多媒體信息的微博的平均轉(zhuǎn)發(fā)量, 其中不包含圖片的微博平均轉(zhuǎn)發(fā)數(shù)最低,包含音樂的微博轉(zhuǎn)發(fā)數(shù)均值高達456.759 7。說明包含多媒體的微博攜帶的信息量更大,帶來了更大的轉(zhuǎn)發(fā)量,更容易造成較大的影響,而不同的多媒體對用戶的吸引力也存在著差距。

      表3 不同微博類型的微博轉(zhuǎn)發(fā)數(shù)

      轉(zhuǎn)發(fā)次數(shù)為0~599次的微博占總體的98.62%,轉(zhuǎn)發(fā)次數(shù)為0~49次的占總體的91.03 %,說明大部分的微博沒有被轉(zhuǎn)發(fā),沒能造成傳播影響,但極少數(shù)的微博被極大地轉(zhuǎn)發(fā),造成了很大的影響力。轉(zhuǎn)發(fā)次數(shù)為0的占58.787 8%,在去除0后,我們得到以下曲線,其中橫軸表示微博的轉(zhuǎn)發(fā)次數(shù),縱軸顯示了微博數(shù),該曲線符合冪律分布,斜率為-1.007,擬合度R2為-0.990 7。

      圖10 微博轉(zhuǎn)發(fā)次數(shù)的分布

      6.2 微博轉(zhuǎn)發(fā)影響力分析

      對于微博的影響力,我們有這樣的直觀感受: 微博在令閱讀者留下印象時才會對個體造成影響,而對某一微博的印象中往往蘊含的各種情緒會促使閱讀者對微博進行轉(zhuǎn)發(fā)和評論?;谶@一認知,實驗假設(shè)沒有被轉(zhuǎn)發(fā)的微博沒有造成轉(zhuǎn)發(fā)影響,以微博被轉(zhuǎn)發(fā)的累計次數(shù)作為衡量該微博影響力的依據(jù)。以樣本中所有微博被轉(zhuǎn)發(fā)的次數(shù)的累加和作為總體,那么某條微博被轉(zhuǎn)發(fā)的次數(shù)占總體的百分比可以形容為該條微博在其中的影響力。

      通過分析微博的轉(zhuǎn)發(fā)次數(shù),并與其微博用戶關(guān)聯(lián),顯示所有轉(zhuǎn)發(fā)數(shù)(count)大于357的微博其轉(zhuǎn)發(fā)量的累計值占總體的80% ,僅來自1 367名(7.93%)用戶,即8%的用戶貢獻了80%的微博影響力。被轉(zhuǎn)發(fā)次數(shù)超過93的所有微博其轉(zhuǎn)發(fā)量累計占總體的90%,來自2 124名(12.32%)用戶,顯示10%左右的用戶貢獻了90%的微博影響力,具體見圖11。

      圖11 微博轉(zhuǎn)發(fā)影響力

      我們進一步區(qū)分微博類型進行分析(見圖12),對于原創(chuàng)型微博: count>695的微博的累計轉(zhuǎn)發(fā)量占據(jù)總轉(zhuǎn)發(fā)量的80%,來自965名(5.60%)用戶。count>217的微博的累計轉(zhuǎn)發(fā)量占據(jù)總轉(zhuǎn)發(fā)量90%, 來自1 402名(8.13%)用戶。對于轉(zhuǎn)發(fā)型微博: count>60的微博累計轉(zhuǎn)發(fā)量占總轉(zhuǎn)發(fā)量的80.1%,來自 1 633名(9.48%)用戶。count>29的微博累計轉(zhuǎn)發(fā)量占總轉(zhuǎn)發(fā)量的90.1%,來自2 009名(11.66%)用戶。轉(zhuǎn)發(fā)型微博的轉(zhuǎn)發(fā)影響可以形象地表述為原微博擴散的再次爆發(fā)節(jié)點,其擴散的能力是低于原微博的。原創(chuàng)聚集現(xiàn)象更加明顯,更加少量的活躍用戶貢獻了更多的影響力。

      6.3 微博轉(zhuǎn)發(fā)影響因素分析

      6.3.1 對含有‘@’的微博分析

      在微博輸入框中,包括原創(chuàng)、轉(zhuǎn)發(fā)與評論的微博,在‘@’后需要加上其他用戶的微博用戶名,就可以將這消息通知別人,這是微博中的一種重要的互動交流方式。

      實驗將含有‘@’各種類型微博提取出來,做出表4的分析。

      從表4可以看出原創(chuàng)微博中,約有8.71%的微博中含有‘@’字符,其中以“@某用戶”為句首的有10.13%,與twitter數(shù)據(jù)中36%包含“@”且其中86%以“@某用戶”作為句首的情況有很大不同;同時原創(chuàng)微博中包含‘#’(話題標簽)的微博占16.69%,遠大于Danah等[14]發(fā)現(xiàn)的5%。包含‘@’字符可以說明此條微博的目的是為了與熟人交流,而使用‘#’則是在與陌生人討論,騰訊微博中與熟人的交流的傾向更少,且語言習(xí)慣也有明顯不同。

      表4 不同微博類型的微博轉(zhuǎn)發(fā)數(shù)

      包含‘@’字符代表著用戶的轉(zhuǎn)發(fā)行為其目的更多的是希望與好友間形成討論,我們發(fā)現(xiàn)對于非VIP用戶來說,含有‘@’微博得到的轉(zhuǎn)發(fā)和評論均顯著大于不含的微博。但對VIP用戶則完全相反。前者從結(jié)果上驗證了我們的假設(shè),而后者的出現(xiàn)可能是由于民眾對明星用戶的轉(zhuǎn)發(fā)動機的特殊造成的,這需要我們后續(xù)實驗的驗證。

      圖12 原創(chuàng)、轉(zhuǎn)發(fā)型微博轉(zhuǎn)發(fā)影響力

      6.3.2 微博內(nèi)容的重要程度

      微博的內(nèi)容同樣會影響其被轉(zhuǎn)發(fā)的情況。熱門話題往往在一段時間內(nèi)會被很多人頻繁地討論,相關(guān)內(nèi)容會在微博中出現(xiàn)很多次;而小眾的內(nèi)容則只在少數(shù)人的微博中有所展現(xiàn)。因此我們可以認為某微博其內(nèi)容的重要程度可以從包含的字段在所有微博中出現(xiàn)的頻率之和來衡量?;谶@樣的認知,我們利用TF-IDF來衡量一個微博其內(nèi)容的重要程度:

      圖13 內(nèi)容重要程度對轉(zhuǎn)發(fā)的影響

      其中n(t,m)表示詞語t在微博m中出現(xiàn)的次數(shù),n(t,M)表示整個微博數(shù)據(jù)集M中包含t的微博數(shù)目,|M|指微博數(shù)據(jù)集中所包含微博的總數(shù)。我們對不同的重要程度的微博對比其被轉(zhuǎn)發(fā)與被忽略(未被轉(zhuǎn)發(fā))的情況進行分析。

      由圖13可以看到,微博被轉(zhuǎn)發(fā)的情況在TF-IDF值為40時達到一個小高峰,隨后下降,至110處有一次波動。此后隨著TF-IDF值的增長,被轉(zhuǎn)發(fā)的概率緩慢增長,至400左右基本穩(wěn)定。TF-IDF值大于500的微博僅有極少數(shù),并沒有明顯的統(tǒng)計價值,被轉(zhuǎn)發(fā)的比率總體來說較大,但取值并不穩(wěn)定,不對其進行討論。

      結(jié)果與Zi Yang等人[13]的研究結(jié)果比,同樣具有兩次波峰。較為不同的是,Zi Yang等人的研究結(jié)果中,所有轉(zhuǎn)發(fā)的比值均小于0.6,而本文中則220后突破0.6,比率值穩(wěn)定在0.75以下。

      7 結(jié)論

      本文選取騰訊微博17 232名用戶,共計10 995 827條微博,分析研究微博的用戶內(nèi)容生成模式。我們總結(jié)出微博用戶內(nèi)容生成的一些特點:

      (1) “90-10”規(guī)則: 相較于其他社交網(wǎng)站中大多遵從的“80-20”規(guī)則,微博顯示出了一種用戶內(nèi)容生成更明顯的聚集性,表現(xiàn)出一種“90-10”規(guī)律,更加少量的活躍用戶貢獻了更多地內(nèi)容,如15.94%的用戶發(fā)布了90%的微博;更加集中的某一部分微博造成了更大的影響力,原創(chuàng)型微博的總轉(zhuǎn)發(fā)影響力的90%來自8.13%名用戶,轉(zhuǎn)發(fā)型微博11.66%的用戶貢獻了90%的微博轉(zhuǎn)發(fā)影響力。

      (2) 先原創(chuàng)后轉(zhuǎn)發(fā): 隨著對微博使用程度的加深,用戶使用微博的主要行為逐漸從發(fā)布原創(chuàng)微博轉(zhuǎn)向轉(zhuǎn)發(fā)微博。身份從發(fā)言者逐漸轉(zhuǎn)為傳播者。

      (3) 從微博長度的角度來看,不同類型用戶有明顯的差異,女性用戶其原創(chuàng)微博與轉(zhuǎn)發(fā)微博的長度差異更明顯,VIP用戶所發(fā)微博平均長度是非VIP用戶所發(fā)微博長度的1.5倍等。

      (4) 微博用戶每日微博發(fā)布數(shù)有著明顯的周模式與日模式,微博發(fā)布的高峰期跨度遠遠大于博客類網(wǎng)站,也顯示出微博發(fā)布的便利性,與日常生活的融合性。 (5) 包含多媒體的微博攜帶的信息量更大,帶來了更大的轉(zhuǎn)發(fā)量,更容易造成較大的影響。

      用戶內(nèi)容生成分析在基于微博的研究中有極其重要的價值,同時隨著微博用戶大規(guī)模增加,微博內(nèi)容的影響也不斷擴大,微博的用戶內(nèi)容生成分析對了解信息分享型的社會網(wǎng)絡(luò)的本質(zhì)規(guī)律有著極大的意義。在今后的工作中,我們將會收集更加全面更具代表性的數(shù)據(jù),對數(shù)據(jù)進行更深層次的分析,挖掘出更有效的用戶行為模式,以優(yōu)化相關(guān)研究結(jié)果。

      [1] F Bell. The rise of user-generated content. http://www.entrepreneur.com/technology/managingtechnology/web20columnistfrankbell/article183432.html, 2007.

      [2] Lei Guo, Enhua Tan, Songqing Chen, et al. Analyzing Patterns of User Content Generation in Online[C]//Social Networks KDD’09, Paris, France, 2009: 495-503.

      [3] Haewoon Kwak, Changhyun Lee, Hosung Park,et al. What is Twitter, a Social Network or a News Media? [C]//ACM, Raleigh, North Carolina, USA, 2010: 799-806.

      [4] Meeyoung Cha,Hamed Haddadi, Fabr′icio Benevenuto, et al. Measuring User Influence in Twitter: The Million Follower Fallacy[J].Artificial Intelligence, 2010,146(1):10-17.

      [5] Jianshu Weng, Ee-Peng Lim, Jing Jiang, et al. TwitterRank:Finding Topic-sensitive Influential Twitterers[C]//WSDM’10,February4-6,New York City, New York,USA

      [6] 王曉蘭. 2010年中國微博客研究綜述[J].國際新聞界,2011, 24(1):24-27.

      [7] 余偉. 基于本體的微博客用戶行為模型研究[J].廣東技術(shù)師范學(xué)院學(xué)報,2010,27(2):27-30.

      [8] 高承實,榮星,陳越. 微博輿情監(jiān)測指標體系研究[J].情報雜志,2011,30 (9):66-70.

      [9] 謝麗星,周明,孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報,2012,26(1):73-82.

      [10] 楊亮,林原,林鴻飛. 基于情感分布的微博熱點事件發(fā)現(xiàn)[J].中文信息學(xué)報,2012,26(1):84-90.

      [11] 2012中國微博微博藍皮書[R].DCCI互聯(lián)網(wǎng)數(shù)據(jù)中心,2012年9月.

      [12] 李燕萍. 微博比較研究[J].情報雜志,2012,31(3):77-83.

      [13] Zi Yang, Jingyi Guo, Keke Cai, et al. Understanding Retweeting Behaviors in Social Networks[C]//CIKM’10,October 26-30, Toronto, Ontario, Canada.

      [14] Danah boyd, Scott Golder, Gilad Lotan, Tweet,Tweet,Retweet: Conversational Aspects of Retweeting on Twitter[C]//Proceeding of the 43rd Hawaii International Conference on System Sciences, 2010.

      Analyzing Patterns of User Content Generation in Tencent Microblogging

      LI Yaping, CAO Run, TONG Lu, LIANG Xun, NI Zhihao

      (Information School of RenMin University of China, Beijing 100872, China)

      With the rapid development of network technology in Web2.0 age, the amount of social network website users has increased sharply. This paper colllects near 20 thousands users of Tencent Microblogging with their Microbloggings, and analyzes the patterns of user Content Generation of Tencent Microblogging. From perspectives of Microblogging content contribution, user activity over time and Microblogging influence, we examine the amount of Microblogging, ratio of original and repost content, number of content text, the weekly and daily patterns of Microblogging release, the repost number of Microblogging, the repost influence of Microblogging and the Microblogging contain ‘@’. Our analysis shows observations scuh as the users’ content contribution have “90-10”rule, different type of users have different “Microblogging style”, and users’ posting behavior exhibits strong daily and weekly patterns.

      Microblogging; User Content Generation; Pattern Analysis

      李亞平(1989—),碩士研究生,主要研究領(lǐng)域為社會計算。E?mail:snap008@126.com曹潤(1988—),碩士,主要研究領(lǐng)域為社會計算,數(shù)據(jù)挖掘。E?mail:caorun2008@163.com童露(1990—),碩士,主要研究領(lǐng)域為數(shù)據(jù)挖掘。E?mail:tongluruc@gmail.com

      1003-0077(2015)03-0130-10

      2012-05-02 定稿日期: 2014-08-29

      國家自然科學(xué)基金(70871001,71271211);北京市自然科學(xué)基金(4132067);中國人民大學(xué)科學(xué)研究基金(中央高?;究蒲袠I(yè)務(wù)費專項資金)

      TP391

      A

      猜你喜歡
      微博原創(chuàng)影響力
      2021年本刊原創(chuàng)題(二)
      天才影響力
      NBA特刊(2018年14期)2018-08-13 08:51:40
      從題海中來,到原創(chuàng)中去
      ——記我的原創(chuàng)感悟
      黃艷:最深遠的影響力
      完形填空原創(chuàng)專練
      事實與流言的博弈
      人間(2016年26期)2016-11-03 18:19:04
      3.15消協(xié)三十年十大影響力事件
      傳媒不可估量的影響力
      人間(2015年21期)2015-03-11 15:24:39
      原創(chuàng)地帶
      神回復(fù)
      意林(2013年15期)2013-05-14 16:49:23
      嘉义市| 新乡市| 枝江市| 昌黎县| 梅州市| 佛教| 团风县| 公安县| 铜鼓县| 周至县| 抚远县| 连江县| 松溪县| 揭东县| 仁寿县| 内乡县| 中西区| 泸定县| 鄂托克前旗| 印江| 彩票| 密云县| 洪江市| 兰考县| 惠来县| 玉溪市| 合川市| 东明县| 毕节市| 垫江县| 南靖县| 芜湖县| 仲巴县| 嘉定区| 科尔| 常熟市| 红原县| 山西省| 嵩明县| 汉中市| 东乌珠穆沁旗|