• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      國外社交媒體影響力研究述評——進展與啟示

      2016-08-23 09:58:34劉濟群
      現代情報 2016年3期

      劉濟群

      (北京大學信息管理系,北京 100871)

      ?

      ·綜述 · 述評·

      國外社交媒體影響力研究述評
      ——進展與啟示

      劉濟群

      (北京大學信息管理系,北京 100871)

      大數據環(huán)境下信息與通訊技術的發(fā)展,使越來越多的用戶進入了社交媒介建構的虛擬網絡空間之中,社交媒體的影響力也在不斷增強。本文從信息內容和網絡結構兩個層面綜述了國外計算機科學等相關領域的社交媒體研究,指出了基于內容的主題提取,信息傳播的流行度分析,社交媒體中的網絡結構分析以及社區(qū)發(fā)掘等重要的研究領域;具體闡釋了一部分具有基礎性或典型性的模型、算法、以及相應的研究成果比較,同時也提出了未來的研究領域和研究方法的可能發(fā)展方向。最后,本文討論了國外社交媒體影響力研究對基于國內語境之研究的啟示。

      社交媒體;社會網絡;影響力分析;LDA模型;社區(qū)發(fā)掘

      社交媒體是幫助用戶在虛擬的網絡空間中發(fā)布與獲取信息、建立人際聯系、形成虛擬社區(qū)的重要工具。 隨著信息與通訊技術(Information and Communication Technology,ICT)的不斷發(fā)展,尤其是移動互聯設備的不斷普及,社交媒體的影響力日益擴大,并逐漸成長為用戶創(chuàng)造內容、分享信息與搜尋信息的主要平臺。在基本的社交網絡形成與維護方面,大多數社交媒體平臺在維護了已有社交關系的同時,也會為陌生人建立虛擬空間中的弱聯系或形成活動小組創(chuàng)造機會。有些社交媒體可以吸引很寬泛的范圍內不同類型的用戶(例如Facebook,Twitter等),但另外一些會基于語言、種族、性別、宗教信仰以及國籍等方面的相似性幫助人們建立聯系。除此之外,這些社交媒體的不同之處還體現在他們可以在多大程度上吸納新的信息與通訊工具(如WeChat逐步支持文字、語音、視頻分享以及即時通話等信息與通訊功能),主要有:與手機的聯通性,圖片與視頻的分享等。

      在互聯網技術較為先進,市場經濟十分活躍的美國,基于公司注冊或商業(yè)交流的社交媒體工具在上世紀末即開始出現。進入21世紀后,世界范圍內的社交媒體在工具種類、用戶范圍、信息功能、交互方式等方面都經歷了較大幅度的飛躍,如表1所示。在此背景下,面向社交媒體以及基于社交媒體的社會網絡分析也吸引了學術界的注意,社會學、情報學、計算機科學、數學等不同研究領域都有學者投入到了社交媒體的研究之中。就圖書情報與計算機科學領域的學者而言,基于社交網絡結構的指標分析(如小世界網絡和核心邊緣結構分析[1-2],社交媒體中的虛擬社區(qū)識別[3-4](The detection of virtual community,等)和基于信息內容的主題挖掘、觀點挖掘以及情感分析[5](Sentiment analysis)往往是關注的重點,也是目前在領域內拓展社交媒體研究的主要方向。

      表1 國內外主要社交媒體的產生時間

      社交媒體的影響力源自于其基本功能在用戶群或社會網絡(現實的或虛擬的)之中的發(fā)散、傳遞與延伸。因此,面向社交媒體的影響力研究應該從對社交媒體的構成以及基本功能的定義展開。在本文中,筆者借鑒了Boyd和Ellison的定義[6],并結合當前社交媒體發(fā)展的平臺性,基于移動互聯的泛在性,以及多項信息與通訊技術的整合性等特點對該定義進行了修正與補充。社交媒體站點是一種基于網絡空間的服務平臺,它可以支持用戶執(zhí)行以下功能:

      在社交媒體的情境中,這一虛擬形象往往是用戶在現實生活中之角色的映射。

      如上所述,社交媒體在為用戶提供信息服務時,既為用戶構造了包含信息生產與信息分享過程的個人信息世界,也在社交網絡與弱關系的形成中扮演了重要角色。對應社交媒體在用戶特征、社交網絡以及信息傳播方面的影響,面向社交媒體的影響力分析往往從以下3個方面展開:

      由此可見,在計算機與圖書情報研究領域,面向社交媒體影響力的研究與社交媒體本身的特征相關,研究的主題也圍繞著社交媒體情境下的社會網絡(偏向于結構分析)與信息生產傳播(偏向于內容分析)兩個核心問題展開。

      1 社交媒體中的信息生產與傳播

      服務于信息的生產與傳播是媒體的根本功能所在?;诨ヂ摼W技術的社交媒體與傳統的廣播、報紙、電視等離散的、節(jié)點式的媒體不同,它利用網絡環(huán)境實現了媒體的情境化與平臺化,從而增進了媒體在信息傳播方面的作用,提高了流動在網絡中的信息的影響力。另外,社交媒體的開放性和網絡本身的民主性,也使得用戶在接收信息的同時,成為了信息生產與傳播的主導者,社交媒體中意見領袖的生成與波動則顯得更加頻繁。因此,基于內容要素的信息生產與傳播分析,是研究社交媒體作用,發(fā)掘社交媒體潛在影響力的關鍵切入點之一。

      1.1 基于內容的主題提取:LDA模型及其拓展

      近年來,主題建模(Topic Modeling)方法在不同領域的文本挖掘研究中都受到了學者的關注。其中,LDA主題提取模型(Latent Dirichlet Allocation)比較契合文檔形成的實際過程,較好地描述了文檔、主題與詞之間的關系,故而逐漸成為主題建模的標準化方法。在社會網絡與社交媒體的影響力分析中,大量的內容分析與主題提取模型都是基于LDA模型延伸而來。例如,McCallum[7]基于LDA的模型框架提出了一個新的內容分析模型,用于在社交媒介中發(fā)掘小組并同時提取內容主題。Zhang[8]也基于LDA的主題分析功能,將LDA模型引入了虛擬社區(qū)識別與檢測的研究領域。Qian[9]等人結合了不同來源的多模態(tài)數據,利用監(jiān)督式(Supervised)的LDA模型研究了社交媒體中的事件分類問題。其他相似的擴展(Extension)模型也在社交媒體的研究領域不斷出現。例如,基于LDA模型的標簽推薦[10],事件分類與提取[11-12],挖掘生成中(Emerging)的內容主題[13]等。

      LDA模型是一種面向文本語料庫集合的文檔生成概率模型,它同時也是一個三層結構的貝葉斯模型。在這個模型,語料庫中的每個文檔都被建模為基于一個特定主題集合的有限混合(Finite mixture)[14]。LDA模型作為一種無監(jiān)督的機器學習技術,常被用于大量文檔集合中的主題信息提取過程。LDA模型運用了詞語集合的方法,將每個文檔都建構為一個基于詞語計數的向量。每個文檔都是基于一系列主題的概率分布,而每個主題也是基于一系列詞的概率分布。LDA模型定義的文檔生成過程包含如下3個主要步驟:

      基于LDA的思路可以發(fā)現,一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到的。因此,在一篇文檔的生成過程中,文檔集合里的每個詞語出現的概率為:

      基于詞語和主題的概率分布思路使得LDA模型的分析更加全面和平滑,因而也更優(yōu)于其他類似的模型(例如Unigram模型和Mixture of unigram模型等)[14]。LDA模型中的聯合概率如下所示:

      α和β表示語料級別的參數,也就是每個文檔都一樣,因此生成過程只采樣一次。θ是文檔級別的變量,每個文檔對應一個θ,也就是每個文檔產生各個主題z的概率是不同的,所有生成每個文檔采樣一次θ。z和w都是單詞級別變量,z由θ生成,w由z和β共同生成,一個單詞w對應一個主題z。通過上面對LDA生成模型的討論,可以知道LDA模型主要是從給定的輸入語料中學習訓練兩個控制參數α和β,學習出了這兩個控制參數就確定了模型,便可以用來生成文檔[13-14]。其中α和β分別對應以下各個信息:

      在LDA模型的迭代中,把w作為觀察變量,θ和z作為隱藏變量,就可以通過EM算法學習出α和β,求解過程中遇到后驗概率p(θ,z|w)則無法直接求解,需要找一個似然函數下界來近似求解,LDA模型使用了基于分解(Factorization)假設的變分法(Variational Inference)進行計算,用到了EM算法[14]。每次E-step輸入α和β,計算似然函數,M-step最大化這個似然函數,算出α和β,不斷迭代直到收斂。綜上所述,LDA文檔生成模型的迭代運算過程如圖1所示。

      圖1 LDA模型示意圖

      與一般性的文檔主題建模相比,社交媒體中的內容影響力應基于短文本建模,尤其是在微博(Microblogging)環(huán)境下進行分析。LDA主題提取模型在社交媒體的研究情境中得到了廣泛的應用,一些學者根據社交媒體中文本內容,發(fā)布者等多方面特征,對原有的LDA模型進行了進一步的拓展。作者主題模型(Author-Topic Model,AT)就是其中一個應用較為廣泛的LDA擴展模型。Rosen-Zvi等在作者與文檔信息提取中首次提出了初步的AT模型[15],并在基于文本語料庫的機器學習研究中拓展了該模型[16]。在AT模型中,文檔中的每個詞w都與兩個潛在的變量相聯系:信息發(fā)布者x和主題z。與LDA模型相似,社交媒體中的每個信息發(fā)布者都對應著一個包含多項特征的分布,這個分布被標記為θ,它是基于主題集合T產生的。相應地,每個主題也是基于詞語的多項分布而形成的。在Hong與Davison[17]面向Twitter的主題建模研究中,與LDA模型中的文檔生成過程類似,AT模型中的生成階段如下所示:

      如上所述,AT模型中的主題生成規(guī)則與LDA模型相似。不同的是,AT模型增加了作者集合的維度,同時也沒有應用基于概率的混合主題思路(Mixture of topic)。在社交媒體影響力這一研究領域內,Hong與Davison應用主題建模的技術所研究的問題是:①基于主題提取的內容,預測Twitter中的流行信息與內容;②將Twitter用戶和相應信息放入主題分類的范疇中去。在備用的數據集合中,研究者抽取了兩周的Twitter信息與用戶數據,并基于Twitter中已有的Twitter Suggestion建構了用戶分類。

      在評估指標的選擇與構建方面,基于數據和模型的評估則因問題而異:對于第一個問題,研究者運用了準確率(Precision),召回率(Recall),以及F值(F-Measure)作為評估指標。這些指標其他基于社交媒體內容的主題提取(如事件提取與事件分類問題)也有較為廣泛的應用[12]。在主題建模方面,為了判別不同輪運行中訓練和學習出的主題是否契合,一般引入Jensen-Shannon差異度(divergence)公式進行計算分析。公式如下所示:

      在公式中,M代表不同類型詞的數量,φna表示詞n在類別a中的概率。由此可見,當JS相似度為0時,則說明兩個分布是完全不一致的。Jensen-Shannon差異度值是基于每個分布的KL差異度平均值而確定的。這種引入差異度分析機器學習中不同分布相似度的做法在其他社交媒體內容影響力的研究中也有應用[18]。從JS差異度分析中可以發(fā)現,同一個主題下AT模型在運行的過程中學習到的詞的出現概率是各不相同,不斷變化的。但一部分詞在Twitter測試集中出現的概率排名一直很高。在研究中,Kendall一般被用于概率排名之間的差異度。對于相同的m個詞,Kendall的定義入下所示:

      在上述公式中,P代表兩個排名列表中排名一致的詞數量,Q代表的則是排名不一致的詞數量。由此可見,τ的值域是(-1,1)。1代表的是兩個排名列表中相同詞的排名是完全一致的。-1則代表兩個排名是完全不一致的。一般地,當τ為0時,則表示有50%的詞語排名是一致的。在Hong與Davison[17]的研究中,MSG,USER以及AT模型在同一個數據集中運行,其Kendall的平均值隨著主題數量增加而變化的具體情況如圖2所示。

      圖2 Kendall的平均值

      由此可見,縱軸是不同模型之間的比較下所形成的Kendallτ平均值,橫軸是主題的數量。隨著主題數量的不斷增加,所有模型對比的Kendallτ值都在持續(xù)下降,進而說明了主題數量增加與詞語數量的增多增加了概率排名列表之間的不一致情況。Kumar等人[19]研究了Twitter等社交媒體中能快速獲取信息的關鍵人及其識別問題。在他們的研究中,詞語(Term)的出現概率與主題(Topic)之間在Kendall方面的相關關系也得到了驗證。

      在社交媒體的文本挖掘研究中,AT模型并不是惟一,也不是目前最優(yōu)的LDA模型拓展。Hong和Davison將AT模型與USER模型以及傳統的TF-IDF等模型作了比較,顯示出了AT模型在短文本主題提取方面的較高準確度。但進一步地,Zhao等[20]學者在對Twitter與其他傳統社交媒體的比較分析中引入了Twitter-LDA模型,并將其結果與傳統的標準LDA模型,AT模型分別作了比較。研究者抽取了330個主題類型以及其中的Twitter信息(Tweets)作為算法的測試集,發(fā)現Twitter-LDA模型的表現明顯優(yōu)于其他兩個模型。其準確度結果如表2所示。

      表2 Twitter-LDA,AT模型以及標準LDA模型之間的比較

      在基于Twitter中短文本內容的主題分析中,除上述LDA類的關鍵詞提取與主題發(fā)掘方法之外,Topical PageRank通常是使用較為廣泛的方法之一。該方法基于每個不同的主題分別運行基于主題的PageRank算法(Topic-biased PageRank),并將與目標主題高度相關的關鍵詞提取出來。通常地,特定主題PageRank(Topic-specific PageRank)的得分可以根據以下公式計算:

      在上述公式中,Rt(W)是指在主題t中詞w獲得的PageRank得分數,e(Wj,Wi)是有向邊(Wj→Wi)的權重,Pt(W)是詞W的隨機跳轉概率(Random jumping probability)。在給定的主題t中,就所有的關鍵詞w而言,必須滿足Pt(W)的總和為1。上述初始模型利用社會網絡分析中PageRank的算法構建了主題內詞間的共現關系,為主題相關的關鍵詞提取提供了簡潔有效的方法。然而,在不同的主題關系下,同樣的詞共現代表的含義是不同的。例如,juice和apple可能經常共同出現,但若在電子產品的主題下,二者之間的共現關系就不能作為關鍵詞提取的依據。由此可見,Topic-specifc PageRank算法還應該加入主題這一情境性因素[21]。特定邊的權重不應該是對所有主題都通用的定值,而是一個關于t的函數。基于這種改進思路,可得主題情境下的PageRank關鍵詞提取模型(Topic context sensitive PageRank method)如下:

      值得注意的是,未經拓展的標準LDA模型在直接應用于社交媒體信息內容分析時的效果往往較差,原因在于社交媒體中的文本信息過短,且通常以單主題信息為主,故而不適合標準LDA模型的類別提取與訓練過程。因此,在基于社交媒體中短文本內容主題的提取與分析中,LDA模型依然是該研究領域進行模型拓展的基礎,其他的一系列研究模型,如AT模型,Twitter-LDA,USER等模型,都是在LDA核心思想的基礎上,根據社交媒體的各項內容特征(文本長度,發(fā)布者特征,發(fā)布數量,主題數量等)通過增加變量,調整部分算法細節(jié)等方式進行拓展的。

      1.2 社交媒體情境下的信息不平等:內容流行度分析

      以新聞信息為代表的各類信息的流行度,是近年來面向社交媒體影響力分析的一個重要研究領域。社交媒體中信息的流行度受到內容,發(fā)布者影響力,發(fā)布時間等多項因素的影響,網絡之外的情境因素,例如地理,語言等也很難被完全考慮到分析之內[22]。與此同時,社交媒體中傳播的成功率與信息的流行度也不是均勻分布的,而多半是遵循冪律分布的:一小部分用戶占據了社交媒體中信息活動的主體,他們發(fā)布和關注的信息往往被賦予權威性,受到廣泛的關注,閱讀與分享。另一方面,大部分普通用戶發(fā)布的信息則相對單一,受到的關注也比較少,其所生產與傳播之信息的傳播范圍以及影響力也因而十分有限[23]。以Flickr為例,在40億圖片中只有很小一部分圖片被閱覽超過千次,絕大部分圖片都很少受到用戶的點擊與閱覽。

      基于內容流行度分析問題的復雜度,其研究者提出的算法和變量模型就相對分散,很少基于一個類似于LDA的基礎模型發(fā)展出很多相似的但跨越多個研究問題拓展模型。在社交媒體研究領域諸多學者參考了已有的模型與指標,以試圖預測特定信息內容在Twitter,Facebook等覆蓋面較廣的社交網絡中會獲得何種水平的流行度。Kim等[24]學者構建了包含爆炸性,熱度,溫和等不同程度的博客文章熱度量表(Temperature scale),并抓取了文章點擊率數據,以飽和狀態(tài)的點擊率(Hit count of saturated point)預測博客文章未來的流行度。Tatar[25]也認同了用戶參與的記錄在預測信息流行度中的重要性。與Kim的研究不同的是,Tatar關注了在線新聞流行度與相應較短時間段內用戶評論之間的聯系。基于為期4年的在線新聞與相關評論數據集,Tatar發(fā)展出了一個簡單線性模型,并從準確度,復雜度等方面與其他類似模型作了比較。

      由此可見,在基于文本內容的流行度分析方面,面向社交媒體中新聞信息的流行度預測是學者們較多關注的領域。除常見的twitter,Facebook,Flickr等社交媒體意外,Lerman和Togg[23]以網上新聞類社交媒體Digg為目標對象,研究了新聞受關注度隨發(fā)布時間的變化走勢以及影響因素。在Digg中,用戶可以對自己感興趣的新聞話題進行投票,以推出自己認可的熱點新聞。在基于2 159項不同新聞事件及其投票狀況之分析的基礎上,Lerman首先提出了事件投票的增速(導數)模型和投票者之為投票追隨者(fans)的減速模型,后者指的是投票者的fans還未瀏覽被投票的新聞,這種情況的不斷消減也可以說明特定新聞流行度的上升。其中,投票增速模型如下所示。

      Vf=Vfpage(p(t)θ(Nvote(t)-h)

      Vu=CVfpage(q(t)θ(h-Nvote(t))θ(24hr-t)

      Vfriends=ws(t)

      在模型中,r衡量了新聞事件的興趣度,或用戶投票給該新聞的可能性。Vf(t),Vu(t)以及Vfriends(t)3個變量分別代表用戶通過前一個網頁,后一個網頁或社交網絡中的好友而得之該新聞。h表示的是推廣新聞所需要的基本投票數。W指的是投票者的fans進入并關注被投票新聞的速率。公式θ(Nvote(t)-h)表示:當一個新聞的投票數少于基本要求h時,新聞只是在下一頁可見;當超過h時,該新聞在前一個網頁即可見。由此可見,用戶了解新聞的信息渠道是決定該新聞是否被投票,以及其最終流行度為多少的決定性因素。流行度中的冪律分布與馬太效應也就因此而形成。

      另一方面,在社交媒體中,單個用戶對信息的關注也會影響其好友的關注。投票者未關注該新聞的fans數量下降模型就是針對該種現象提出的。如果一個用戶的好友較多,或其處在社交網絡相對中心的位置,其投票和分享新聞對該新聞的流行度就有較強的提升作用。該模型的數學化表達如下所示:

      進一步地,Lerman得出了新聞事件流行度(這里以被投票數代表)隨時間的累積變化趨勢如圖3所示,以及事件的數量流行度分布情況如圖4所示。在圖3中,Lerman摘取了被投票較多,流行度較高的story2和累積流行度相對較低的story2作為樣本案例進行了對比分析。在圖4中,新聞事件的投票數與相應的事件頻率形成了近似于冪律分布的狀態(tài)。Gomez等人[26]在對Slashdot上社交網絡與用戶評論的分析中也發(fā)現了這種文本內容流行度在時間,空間以及內容上不均衡分布的現象。

      圖3 兩項新聞信息的投票累積增長度

      圖4 新聞流行度的數量分布

      在社交媒體中,除了文本信息與圖片信息的生產與傳播之外,視頻信息(如YouTube)也是用戶分享信息以及社交媒體產生影響力的主要形式之一。在視頻的流行度分析方面,Cha等學者[27]在基于YouTube視頻集合的研究中發(fā)現了類似于文本內容流行度的長尾分布現象(Long-tail Distribution):極少部分的視頻可以吸引百萬以上的瀏覽量,而絕大部分視頻的瀏覽次數不超過50次。除了上述的整體特征以外,基于視頻主題和地理地區(qū)分布下的視頻流行度分析也在社交媒體的研究領域中受到了廣泛關注。在面向地理地區(qū)變量的視頻流行度分析中,瀏覽焦點(View focus)和瀏覽熵值(View entropy)是較為常用的兩個衡量指標[28]。其他的相關指標有峰值強度(Peak intensity)以及單調性(uniformity)[29]等等。對于視頻i的瀏覽焦點值Fi的計算公式如下所示:

      瀏覽焦點代表的是視頻i所獲得的瀏覽時間與在單個地區(qū)的整個生命周期相比的最大值。另一方面,面向特定視頻i的瀏覽熵值Hi的計算公式如下所示:

      瀏覽熵值衡量是特定視頻信息在不同地區(qū)的流行度分布狀況。因此,較高的瀏覽熵值說明該視頻關于地區(qū)的流行度分布較為平均,視頻瀏覽的分布范圍很廣;熵值較低則說明視頻瀏覽更集中于少量的地區(qū)。基于上述一系列視頻流行度分析指標的研究發(fā)現,雖然社交媒體中的網絡視頻服務在本質上是面向全球的,但在線視頻的流行度卻受到了實際地理地區(qū)的顯著限制,這與不同地區(qū)的用戶在興趣,文化背景以及瀏覽習慣等各方面的不同有關。因此,在未來的研究中,視頻的流行度以及由此衍生出的社交媒體影響力分析還有很多地理性特征值得進一步挖掘。

      2 社交媒介影響力的結構性分析:社交網絡與社區(qū)發(fā)掘

      除了信息內容本身的生成,分享以及傳播以外,社交媒介中形成的社會網絡與社區(qū)(Social networks and communities)也構成了社交媒介影響力傳輸的重要因素,即區(qū)別于主題或內容本身的結構性因素。對于社會網絡的分析在學術層面和實際應用層面均有重要價值:社交媒介中人與人在虛擬世界相互聯系并構成網絡,對這種網絡的分析可以使虛擬世界中模糊不清的信息傳播和社會過程更為清晰,網絡中不同內容和信息發(fā)布者的重要性都可以被量化評價。在社會網絡的研究情境下,社交媒體系統正處于一個拐點。一方面,服務于信息生產的用戶信息發(fā)布工具趨于成熟,但基于此的網絡分析工具還相對滯后[30]。面向社交媒介的社會網絡分析一般可以回答如下幾個類型的問題[30-31]:

      在面向社交媒體的網絡分析中,由于具體的問題有差異,不同的學者在具體指標與方法上都會有分歧。但在社會網絡分析方面,Perer和Shneiderman[32]提出了指標清單往往是作為分析起點的基礎性研究指標:

      上述指標均為社會網絡分析的初始指標,也是更復雜網絡分析的基礎和起點。作為基礎性的網絡分析工具,以上的初始指標是為了得到關于社交媒介中網絡結構的宏觀把握。對網絡進一步的分析,則往往需要涉及邊的性質分析,以及社會網絡中的虛擬社區(qū)發(fā)掘等問題。

      在社交網絡中邊的性質分析方面,積極(Positive)關系和消極(Negative)關系的產生與互動往往是研究關注的重點。當涉及社交媒介中交互關系的討論時,在積極關系(如關注,好友等)之外添加對消極關系的關注,可以是研究本身更貼近于社交媒介中虛擬網絡的實際情況:基于社交媒介發(fā)展起來的社會網絡通常包含著大量的積極和消極關系,并使它們同時存在于一個單一的系統中。若要更好地理解這些關系的作用和互動,就必須在邊的方向和權重之外,增加對邊的性質的考慮。Kunegis等學者[33]基于Slatshot中用戶關系的語料庫分析,挖掘了用戶之間追隨(tag)關系下的隱含的積極關系與消極關系。進一步地,Leskovec等學者[34]研究了Epinion,Slashdot以及Wikipedia中基于邊性質的標記網絡(Signed network),并探討了上述不同社交媒體中穩(wěn)定三邊關系的數量和分布情況,以研究特定社交媒體情境下基于3個用戶為一組的交互關系是否顯著地偏向于穩(wěn)定或不穩(wěn)定。研究結果如表3所示。

      表3 平衡與非平衡無向三邊關系數

      三邊關系的穩(wěn)定結構是分析復雜網絡穩(wěn)定性的基本出發(fā)點。如表所示,P表示的是特定三邊關系的出現概率,P0則是相應的隨機概率。S(surprise)衡量的是P偏離P0的程度。當P(Ti)>P0(Ti)時,則表明相應三邊關系出現的概率大于隨機概率,進而凸顯了該種社交媒介對特定類型三邊關系的塑造作用,也就是社交媒介影響力的一種具體體現。通過表3可以發(fā)現,T3類型(即三邊關系均為積極關系)的出現概率在3類社交媒介中都大于相應的隨機概率(其中在Epinion中最高),進而了說明上述3種社交媒介情境都有利于用戶間相對穩(wěn)定關系的形成,這些實證觀測結果與Heider早期關于結構性平衡的定義是相符的。

      除了社交媒介中關系性質的分析以外,虛擬社區(qū)的形成與發(fā)掘也是面向社交媒體影響力之結構性分析的一個重要領域。在目前的社交媒介虛擬社區(qū)挖掘中,目標社區(qū)一般被分為兩種范式:分眾分類或大眾分類(Folksonomy)[35]和meta圖分類(Metagraph)[36]。大眾分類法使得傳統分類法擺脫了固化的現象,并且跟大眾的認知程度密切地結合起來,同時這種分類方法也為群體用戶和信息之間建立了一個聯系橋梁。這種分類是平面化的,沒有等級層次的劃分,雖然它相對不夠嚴謹,缺乏準確度,但是在社會性軟件中,這種平面延伸的分類方法卻在無形之中成為形成了溝通的渠道和網絡,而且方便,靈活,不受條件限制。所以這種以自定義標簽形式的大眾分類在現下流行的社會性網絡服務中得到了廣泛的應用,例如Delicious、Flickr和43things等等。與分眾分類相比較為復雜的meta圖分類則關注的是不同用戶的不同分面(Facets)之間的聯系,并依據不同面的組配來為用戶的關系和活動建圖。在研究方法與算法復雜度方面,Papadppoulos等學者[37]總結并比較了包含連續(xù)性子結構發(fā)掘,節(jié)點聚類等多種研究方法在內的社區(qū)發(fā)掘方法,如表4所示。

      表4 社區(qū)發(fā)掘的復雜度比較

      在上述的社區(qū)發(fā)掘算法復雜度比較中,復雜度A指的是不考慮網絡密度的復雜度比較,而復雜度B指的是基于網絡結構稀疏這一假設的復雜度比較。進一步地,在網絡規(guī)模的比較中,S指的是小規(guī)模網絡,即節(jié)點數不足104。M指的是大于小規(guī)模網絡但節(jié)點數不足106的中型網絡;L則是指節(jié)點數在(106,109)這一區(qū)間內的大規(guī)模網絡。筆者認為,就方法論層面而言,未來社區(qū)發(fā)掘研究的重點在于如何改進算法,以解決社交媒體中數據量和網絡規(guī)模急速擴張的現實狀況。在社交媒介的虛擬空間中,社區(qū)中用戶的整體行為與個人行為之間的差別也有待挖掘,需要構建社會網絡的動態(tài)模型加以分析[38]。另外,K叢分析,多維度分析以及超網絡分析都有可能在未來的社交媒介研究領域吸引更多學者的注意。

      3 結論與討論

      在本文中,筆者基于國外相關的實證研究從信息內容和網絡結構兩個層面總結了目前的社交媒介影響力研究狀況。社交媒體指允許人們撰寫,分享,評價,討論,相互溝通的網站和技術平臺。簡言之,社交媒體是社會化媒體與社交網絡的結合體,它是一個“能互動”的媒體。和傳統的社交形式和媒體傳播方式相比,社交媒體網站具有便捷,及時,時尚,互動性強,突出個性化,資料更新的及時容易,使用目的手段多樣性等優(yōu)點,體現出平民性,參與性,對話性,社區(qū)化等明顯特征。具體來說,社交媒體的形態(tài)包括博客及微博客(如國外Twitter,Facebook等,國內的飯否網等),維基(如國外的Wiki等,國內的互動百科,百度百科等),圖片分享(如國外的Flickr,Pinterest等)播客及視頻分享(如國外YouTube等,國內的土豆網,優(yōu)酷網等)等。

      縱觀社交媒體的發(fā)展過程,可以說,社交媒體發(fā)展到現在已經成為我們生活中的重要組成部分。社交媒體相關的學術研究也從內容挖掘(如基于LDA模型的一系列主題提取和內容挖掘的拓展模型研究)和網絡結構(如網絡節(jié)點與邊的性質,網絡中的社區(qū)發(fā)掘等)兩個層面不斷展開。當社交媒體成為我們文化生活的一部分時,任何社會化的活動都不能忽略其影響。基于個人層面的影響分析,社交媒體已經覆蓋人們日常生活的各個方面,并正改變人們尋找和分享信息的方式和相互交往的手段。基于社會的影響來講,首先,社交媒體是基于關系的信息傳播,具有更好的營銷效果,對商業(yè)的發(fā)展帶來了新的契機。另外,可以說社交媒體正在掀起一場“網絡革命”:社交媒體不再是人們單獨進行交流的工具,也是人們關注熱點事件,組織政治活動,發(fā)動公民運動,實施危機救助的平臺。相應地,面向社交媒體影響力的模型構建以及語義分析等,應將更大的數據量,更多的社交媒介現象納入分析的范疇之中。

      在國內的語境下,社交媒體,特別是微博在群體性事件和公民事件中的影響力已受到日益廣泛的關注。相應地,國內面向社交媒體的影響力研究也可能借鑒國外的研究領域和研究方法,從而在國內的社交媒體情境下更準確地挖掘信息生成規(guī)律,信息傳播規(guī)律,用戶行為模式以及社交網絡結構等方面的動態(tài)特征。

      [1]Cheng X,Dale C,Liu J.Statistics and social network of youtube videos[C]∥Quality of Service,2008.IWQoS 2008.16th International Workshop on.IEEE,2008:229-238.

      [2]Kwak H,Lee C,Park H,et al.What is Twitter,a social network or a news media?[C]∥Proceedings of the 19th international conference on World Wide Web.ACM,2010:591-600.

      [3]Erickson T.Social interaction on the net:Virtual community as participatory genre[C]∥System Sciences,1997,Proceedings of the Thirtieth Hawaii International Conference on.IEEE,1997,(6):13-21.

      [4]Mangold W G,Faulds D J.Social media:The new hybrid element of the promotion mix[J].Business Horizons,2009,52(4):357-365.

      [5]Pang B,Lee L.Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval,2008,2(1-2):1-135.

      [6]Ellison N B.Social network sites:Definition,history,and scholarship[J].Journal of Computer-Mediated Communication,2007,13(1):210-230.

      [7]McCallum A,Wang X,Mohanty N.Joint group and topic discovery from relations and text[M].Springer Berlin Heidelberg,2007:28-44.

      [8]Zhang H,Giles C L,Foley H C,et al.Probabilistic community discovery using hierarchical latent gaussian mixture model[C]∥AAAI.2007,(7):663-668.

      [9]Qian S,Zhang T,Xu C.Multi-modal supervised latent dirichlet allocation for event classification in social media[C]∥Proceedings of International Conference on Internet Multimedia Computing and Service.ACM,2014:152.

      [10]Krestel R,Fankhauser P,Nejdl W.Latent dirichlet allocation for tag recommendation[C]∥Proceedings of the third ACM conference on Recommender systems.ACM,2009:61-68.

      [11]Qian S,Zhang T,Xu C.Boosted multi-modal supervised latent dirichlet allocation for social event classification[C]∥Pattern Recognition(ICPR),2014 22nd International Conference on.IEEE,2014:1999-2004.

      [12]Tsolmon B,Lee K S.An event extraction model based on timeline and user analysis in Latent Dirichlet allocation[C]∥Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval.ACM,2014:1187-1190.

      [13]Saha A,Sindhwani V.Learning evolving and emerging topics in social media:a dynamic nmf approach with temporal regularization[C]∥Proceedings of the fifth ACM international conference on Web search and data mining.ACM,2012:693-702.

      [14]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].The Journal of Machine Learning Research,2003,(3):993-1022.

      [15]Rosen-Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents[C]∥Proceedings of the 20th conference on Uncertainty in artificial intelligence.AUAI Press,2004:487-494.

      [16]Rosen-Zvi M,Chemudugunta C,Griffiths T,et al.Learning author-topic models from text corpora[J].ACM Transactions on Information Systems(TOIS),2010,28(1):4.

      [17]Hong L,Davison B D.Empirical study of topic modeling in twitter[C]∥Proceedings of the First Workshop on Social Media Analytics.ACM,2010:80-88.

      [18]Xu Z,Lu R,Xiang L,et al.Discovering user interest on twitter with a modified author-topic model[C]∥Web Intelligence and Intelligent Agent Technology(WI-IAT),2011 IEEE/WIC/ACM International Conference on.IEEE,2011,(1):422-429.

      [19]Kumar S,Morstatter F,Zafarani R,et al.Whom should I follow?identifying relevant users during crises[C]∥Proceedings of the 24th ACM conference on Hypertext and social media.ACM,2013:139-147.

      [20]Zhao W X,Jiang J,Weng J,et al.Comparing twitter and traditional media using topic models[M]∥Advances in Information Retrieval.Springer Berlin Heidelberg,2011:338-349.

      [21]Zhao W X,Jiang J,He J,et al.Topical keyphrase extraction from twitter[C]∥Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1.Association for Computational Linguistics,2011:379-388.

      [22]Bandari R,Asur S,Huberman B A.The Pulse of News in Social Media:Forecasting Popularity[C]∥ICWSM.2012.

      [23]Lerman K,Hogg T.Using a model of social dynamics to predict popularity of news[C]∥Proceedings of the 19th international conference on World wide web.ACM,2010:621-630.

      [24]Kim S D,Kim S H,Cho H G.Predicting the virtual temperature of web-blog articles as a measurement tool for online popularity[C]∥Computer and Information Technology(CIT),2011 IEEE 11th International Conference on.IEEE,2011:449-454.

      [25]Tatar A,Leguay J,Antoniadis P,et al.Predicting the popularity of online articles based on user comments[C]∥Proceedings of the International Conference on Web Intelligence,Mining and Semantics.ACM,2011:67.

      [26]Gómez V,Kaltenbrunner A,López V.Statistical analysis of the social network and discussion threads in slashdot[C]∥Proceedings of the 17th international conference on World Wide Web.ACM,2008:645-654.

      [27]Cha M,Kwak H,Rodriguez P,et al.I tube,you tube,everybody tubes:analyzing the world’s largest user generated content video system[C]∥Proceedings of the 7th ACM SIGCOMM conference on Internet measurement.ACM,2007:1-14.

      [28]Brodersen A,Scellato S,Wattenhofer M.Youtube around the world:geographic popularity of videos[C]∥Proceedings of the 21st international conference on World Wide Web.ACM,2012:241-250.

      [29]Figueiredo F,Benevenuto F,Almeida J M.The tube over time:characterizing popularity growth of youtube videos[C]∥Proceedings of the fourth ACM international conference on Web search and data mining.ACM,2011:745-754.

      [30]Smith M A,Shneiderman B,Milic-Frayling N,et al.Analyzing(social media)networks with NodeXL[C]∥Proceedings of the fourth international conference on Communities and technologies.ACM,2014:255-264.

      [31]Kane G C,Alavi M,Labianca G,et al.What’s different about social media networks?A framework and research agenda[J].MIS Quarterly,2014,38(1):275-304.

      [32]Perer A,Shneiderman B.Balancing systematic and flexible exploration of social networks[J].Visualization and Computer Graphics,IEEE Transactions on,2006,12(5):693-700.

      [33]Kunegis J,Lommatzsch A,Bauckhage C.The slashdot zoo:mining a social network with negative edges[C]∥Proceedings of the 18th international conference on World Wide Web.ACM,2009:741-750.

      [34]Leskovec J,Huttenlocher D,Kleinberg J.Signed networks in social media[C]∥Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.ACM,2010:1361-1370.

      [35]Almoqhim F,Millard D E,Shadbolt N.Improving on Popularity as a Proxy for Generality When Building Tag Hierarchies from Folksonomies[M]∥Social Informatics.Springer International Publishing,2014:95-111.

      [36]Lin Y R,Sun J,Sundaram H,et al.Community discovery via metagraph factorization[J].ACM Transactions on Knowledge Discovery from Data(TKDD),2011,5(3):17.

      [37]Papadopoulos S,Kompatsiaris Y,Vakali A,et al.Community detection in social media[J].Data Mining and Knowledge Discovery,2012,24(3):515-554.

      [38]Yu R,He X,Liu Y.Glad:group anomaly detection in social media analysis[C]∥Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2014:372-381.

      (本文責任編輯:郭沫含)

      Research Agenda of International Social Media Influence Analysis——Advances and Implications

      Liu Jiqun

      (Department of Information Management,Peking University,Beijing 100871,China)

      With the rapid development of information and communication technologies,more and more individual users and organizations choose to participate in the social media spaces,and the influence of social media keeps on ascending accordingly.This paper analyzed and summarized the studies of social media influences overseas in relative fields,such as computer science,and point out some basic and promising research area in social media studies including topic extraction based on contents,the popularity of information in social media,social networks and community detection.Furthermore,the paper introduced various fundamental and typical algorithms and models,and compared relevant findings.The possible direction of future research in the field of social media studies was also proposed.Finally,the implications of these studies to social media influence analysis in China were also discussed.

      social media;social network;influence analysis;LDA model;community detection

      2016-01-18

      劉濟群(1992-),男,碩士研究生,研究方向:信息行為,信息通訊技術與社會發(fā)展,圖書情報學研究方法,發(fā)表論文10余篇。

      10.3969/j.issn.1008-0821.2016.03.026

      TP391;G252.8

      A

      1008-0821(2016)03-0158-09

      威宁| 古田县| 乡宁县| 夏邑县| 陇川县| 衢州市| 宝鸡市| 筠连县| 沙湾县| 绥阳县| 永川市| 铁力市| 工布江达县| 楚雄市| 京山县| 富裕县| 大丰市| 德令哈市| 杨浦区| 梧州市| 武功县| 老河口市| 屏东市| 平湖市| 从化市| 肥西县| 文安县| 龙海市| 腾冲县| 赤水市| 平舆县| 青阳县| 永年县| 吉安县| 通辽市| 铅山县| 嵊泗县| 城固县| 慈利县| 读书| 隆回县|