• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主題細分的社交網絡用戶間交互特征分析*

      2021-02-01 10:31:12楊欣誼朱恒民
      情報雜志 2021年1期
      關鍵詞:子網紀錄社交

      楊欣誼 朱恒民,2 魏 靜 陳 文

      (1.南京郵電大學 管理學院 南京 210003;2.江蘇高校哲學社會科學重點研究基地—信息產業(yè)融合創(chuàng)新與應急管理研究中心 南京 210003)

      0 引 言

      據第44次《中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》,截至2019年6月,我國網民規(guī)模達8.54億。在規(guī)模巨大的用戶基礎上,在線社交平臺上形成了紛繁復雜的用戶關系網絡。正是這種龐大網絡上的用戶間交互行為,促使信息在互聯(lián)網上迅速傳播和擴散[1-3]。

      在線社交網絡中,用戶間交互行為往往受到用戶主題偏好的影響,即令用戶感興趣的話題更容易被傳播。用戶間交互行為呈現(xiàn)什么樣的主題偏好特征?如何在紛雜的信息中探索出這種特征?從用戶間交互記錄中細分出不同的主題維度,進而從微觀層面細粒度地刻畫用戶間交互行為的主題偏好特征,為網絡信息的引導和干預提供科學的依據。

      1 文獻綜述

      用戶的信息交互行為已成為國內社交網絡研究的熱點之一[4],主要涉及兩個方面:挖掘影響用戶間交互行為的因素,以及基于交互行為的應用研究。徐建民等[5]融入轉發(fā)者與發(fā)布者的社交關系、轉發(fā)者對內容的偏好等影響因素對用戶轉發(fā)行為進行預測。劉瑋等[6]通過實驗發(fā)現(xiàn)社交關系對預測模型的準確率提升最大。上述工作均指出了社交關系是影響用戶間交互行為的重要因素之一。基于網絡用戶行為的“記憶性”[7],Zhu等[8]利用用戶間歷史交互紀錄構建了以交互概率為權重的用戶關系網絡,能夠反映用戶間交互的偏好;琚春華等[9]提出了基于關系圈與個體交互環(huán)境的用戶交互關系強度計算方法。張繼東等[10]提出了基于用戶間交互行為的用戶影響力度量模型;Liu等[11]以轉發(fā)概率作為用戶間關系的權重,挖掘在特定主題下對特定節(jié)點的轉發(fā)最具影響力的節(jié)點。社交網絡中用戶間關系是影響用戶交互行為的重要因素,目前已有工作是根據交互概率或轉發(fā)概率等一維指標來度量用戶間交互關系的強度,并沒有考慮到用戶間在不同主題下交互行為的差異。

      主題模型越來越多地被用來挖掘在線社交網絡中用戶的興趣偏好[12-14]。夏立華等[15]基于PLSA方法分析用戶評論中產生的子話題,而Varshney等[16]則利用主題模型實現(xiàn)Twitter文本的潛在主題挖掘,從而獲得用戶興趣;夏立新等[17]利用LDA主題模型獲取用戶標簽主題來研究用戶興趣的層級演化規(guī)律;安璐等[18]基于主題模型刻畫了微博用戶特征,實現(xiàn)了恐怖事件情境下的用戶畫像。上述工作均是采用主題模型對社交網絡中單個用戶的行為特征進行細粒度地分析,如何利用主題模型探索用戶間交互的主題偏好特征,仍需要進一步地研究。

      社交網絡中用戶間的交互具有一定的主題偏好,不同主題下用戶間的交互強度是不一致的。為了細粒度地刻畫出用戶間交互的主題特征,本文提出基于主題細分來分析用戶間交互行為的研究思路。首先,通過用戶間交互實例分析得出主題細分的必要性;其次,基于主題細分,采用多維向量來表示用戶間的交互關系強度;在此基礎上分析用戶間交互的主題偏好特征。

      2 用戶間交互的主題偏好實例分析

      社交網絡用戶在選擇閱讀或傳播信息時是有興趣偏好的,這種偏好也影響著用戶之間的互動。用戶間互動的主題是否集中?用戶間在不同主題上的互動強度有沒有差異?為了回答這些問題,本文選取了新浪微博的一些用戶實例,通過分析其在3個月內轉發(fā)的內容,來探索用戶間交互的主題偏好。

      表1列出了6個新浪微博用戶在3個月內的交互主題統(tǒng)計情況。實例用戶的ID分別為“頭條新聞”(用戶1)、“微天下”(用戶2)、“立春SpringBegins”(用戶3)、“人民網”(用戶4)、“新浪綜藝”(用戶5)和“新浪娛樂”(用戶6)。表中數(shù)字為交互用戶在各主題下的交互頻次。

      表1 用戶間交互主題及頻次統(tǒng)計

      從表1中可以看出用戶間的交互內容往往涵蓋多個主題。例如,用戶1與用戶2的交互內容涉及社會、時政、娛樂3個主題;用戶3與用戶4的交互則涉及除此以外的時尚、生活、科技、情感、體育等共8個主題。此外,從表1中還可發(fā)現(xiàn),雖然在一段時間內用戶間交互主題涉及到多個方面,但是不同主題上的交互頻次是有差異的。如用戶1與用戶2的交互偏向時政和社會主題,而娛樂主題甚少涉及;用戶5與用戶6的交互則偏向娛樂方面。這說明用戶間的交互是具有主題偏好的,即在不同主題上的交互強度是不一致的,僅使用一維的連邊權重(交互總頻次)無法精確地描述用戶交互的主題偏好,因而有必要對交互內容進行主題細分,細粒度地分析用戶間的交互行為。

      3 基于主題細分的用戶間交互特征分析思路

      首先在微博用戶交互紀錄數(shù)據獲取與預處理的基礎上,采用LDA模型進行主題識別;基于主題細分思想,采用多維向量表示用戶間交互的強度,并計算不同主題下的強度分量;最后,針對具體實例,利用統(tǒng)計分析和復雜網絡方法分析用戶間交互的主題偏好特征。具體流程如圖1展示。

      圖1 基于主題細分的用戶間交互特征分析流程

      3.1數(shù)據獲取與預處理針對新浪微博在線社交平臺,首先爬取一個用戶關注關系子網,再以該子網為基礎,獲取子網內用戶間的交互紀錄。

      LDA主題識別的前提是對數(shù)據進行清洗和分詞。交互紀錄爬取程序針對單個用戶進行,因而記錄中涉及許多子網外用戶的紀錄,對這些紀錄進行刪除。本研究僅針對文本內容進行分析,因而剔除僅包含鏈接或圖片等非文本數(shù)據的紀錄,刪除重復數(shù)據。新浪微博的文本內容包含用戶的多級轉發(fā)數(shù)據,對這樣的紀錄進行剝離,獲得多級交互數(shù)據。最終,每一條交互紀錄被表示成一個四元組(上游節(jié)點,下游節(jié)點,內容,轉發(fā)時間)。

      對于每一條交互紀錄中的文本內容,利用jieba工具包進行分詞。文本中包含許多出現(xiàn)頻次高卻無實際含義的詞(停用詞),對于這類詞,在哈工大停用詞列表的基礎上,增加數(shù)據集中重復出現(xiàn)的無意義字符,去除停用詞。

      3.2LDA主題識別LDA主題模型首先由Blei等[19]提出,這一模型通過無監(jiān)督的學習方法發(fā)現(xiàn)文本中隱含的主題信息,從而將文檔集中每篇文檔的主題按照概率分布的形式表示。LDA模型能夠預測訓練集與非訓練集中文檔和詞的主題分布,經過完善,亦成為分析大規(guī)模非結構化文檔集的有效工具[20]。

      LDA主題模型獲得結果的好壞與文檔總數(shù)、主題數(shù)量、詞匯總數(shù)、迭代次數(shù)等相關。因獲取文檔集的大小是確定的(雖然可以通過語料庫訓練,但仍然是確定的),主要通過調節(jié)主題數(shù)量、詞匯總數(shù)、迭代次數(shù)等獲得最優(yōu)模型。模型常用衡量指標為困惑度(Perplexity),困惑度越小,模型越好。通過不斷調參獲得最優(yōu)主題模型,將每一條文本表示為一個多維向量:

      c=(t1,t2,…,tm)

      (1)

      其中,m為主題總數(shù);tk表示這條紀錄內容屬于主題Tk的權重,所有主題下的權重相加為1。

      3.3主題細分下用戶間多維交互強度表示用戶間交互強度是根據一段時間內產生的歷史交互紀錄綜合計算而定?;跉v史交互紀錄內容的主題向量,節(jié)點i和j的交互強度tISij可表示為同維度的向量形式:

      (2)

      (3)

      3.4用戶間交互的主題偏好特征分析將用戶表示成節(jié)點,用戶間交互關系表示為連邊,則構成用戶交互網絡。利用可視化工具Gephi繪制用戶交互網絡,觀察用戶間交互形成的主題子網?;赑ython編程和統(tǒng)計分析方法,首先觀察交互強度在各主題上的分布;再對不同時段的用戶間交互關系進行相關性分析;最后,基于復雜網絡分析方法挖掘特定主題下的用戶子網,觀察子網內用戶交互的主題偏好特征。

      4 實例分析與結果討論

      4.1數(shù)據準備本文爬取的用戶網絡為新浪微博中一個包含1 488個用戶的關注關系子網,交互數(shù)據為該子網內用戶3個月內的交互紀錄,時間跨度為2017年9月1日至2017年11月29日,經過預處理獲得17 509條交互紀錄。原有關注子網中的用戶之間產生了16 324條單向關注關系,但大部分用戶未發(fā)生交互,歷史紀錄中的交互發(fā)生在645個用戶的2 224條關注關系上,本次研究針對關注且發(fā)生交互的用戶間關系(簡稱交互關系)。

      4.2主題識別與分析在LDA主題模型中,經過實驗最終選擇的迭代次數(shù)為100,總詞數(shù)為500,主題數(shù)量為12,困惑度值為364.0898。各個主題由詞語及其在該主題出現(xiàn)的概率組成,表2列出了各主題下權重排名前15的詞語。從表中可看出,識別出的各主題區(qū)分度較大。主題T1與海外新聞相關;主題T2、T3、T6比較相似,側重情感類話題;主題T4與電影和時尚相關;主題T5與婚姻話題相關;主題T7主要與財經新聞相關;主題T8是兒童成長方面的話題;主題T9與社會新聞相關;主題T10與慈善事業(yè)較為相關;主題T11與娛樂新聞更相關;主題T12與電競行業(yè)相關。

      4.3用戶間交互主題特征分析

      4.3.1 交互關系強度值分布 將所有用戶間交互關系強度按照主題分量的大小進行降序排列,以排列順序為橫坐標,交互強度值為縱坐標作散點圖,可得到各主題下交互強度的分布圖。圖2所示為主題T1、T5、T9下的交互強度分布??梢娺@3個主題下的關系強度分布較相似,且大部分交互關系的強度值較小。例如主題T1下交互強度值小于0.5的關系占91.73%,但仍有部分關系的交互強度值很大,有4.09%的關系交互強度值大于0.9。這說明用戶間交互強度值分布具有長尾特征,即在特定主題下,盡管大部分交互的主題分量比較小,但仍有少部分交互分量值較大。

      圖2 不同主題下交互強度的分布

      選擇權重最大的主題分量作為交互關系的偏好主題,則交互關系可以劃分為不同的偏好主題類。為了驗證這種劃分的合理性,本文通過計算交互關系兩兩之間的相似度,來對比分析具有相同偏好主題和不同偏好主題的交互關系相似度分布的差異。

      圖3中淺色部分代表偏好主題不同的交互關系之間的相似度分布(分別為T8與T10),深色部分為偏好主題相同的交互關系之間的相似度分布(T8)。從圖3可以發(fā)現(xiàn),主題偏好相同的交互關系之間相似度分布呈現(xiàn)明顯右偏,其相似度平均值為0.7733,標準差為0.0134,其中92.94%的相似度大于0.6;而相較之下,偏好主題不同的交互關系間相似度較小,平均值為0.5562,標準差較大,為0.0494,其中58.42%的相似度小于0.6??梢?,偏好主題相同的交互關系相似度高,而偏好主題不同的關系相似度則較低,這表明采用權重最大的主題分量來標識交互關系的偏好主題,是可以在主題上區(qū)分用戶間的交互關系的。

      圖3 交互關系間的相似度分布

      4.3.2 用戶間交互主題的時序相關性分析 將交互紀錄按照時間順序分為兩份,計算兩個時間段內用戶間在各主題下的交互強度,再計算同一用戶對在兩段時間內多維交互關系的相關系數(shù),可用于評價用戶間交互主題的時序相關性。圖4展示了兩段時間內用戶間交互關系強度相關性值的分布,可發(fā)現(xiàn)相關性值的分布明顯右傾,有74.61%的交互關系在前后兩段時間內的相關性值大于0.5230,說明用戶間交互在前后兩段時間內具有顯著的相關性。這說明用戶間交互的主題偏好在一段時間內具有穩(wěn)定性。用戶間交互行為的這一特征可被用于用戶傳播行為的預測。

      圖4 用戶間交互主題的時序相關性分布

      4.3.3 用戶間交互主題子網分析 偏好主題相同的交互關系可形成一個交互子網。圖5為偏好主題為T4的關系及其所連接的用戶構成的部分網絡,圖中節(jié)點表示用戶,節(jié)點內數(shù)字表示用戶編號,連邊表示用戶之間的有向交互關系,從下級用戶指向上級用戶。偏好主題T4的關系共有206條,連接了253個用戶,其中103條交互關系連通了93個用戶。圖6為主題T4子網內所有用戶在3個月中傳播內容的詞云,可以看出,主題子網傳播高頻詞為“電影”“感覺”“時尚”“生活”“藝術”“朋友”等,是與電影、時尚相關的內容,這說明同一主題子網的用戶之間傳播的話題也是與該主題相關的。因此,可根據信息的主題有針對性地對某個子網采取措施,實現(xiàn)有效的信息傳播監(jiān)控和干預。

      圖5 偏好主題T4的交互關系形成的最大連通子網

      圖6 主題T4下子網的傳播內容詞云

      偏好主題T11的交互關系形成的最大連通子網如圖7所示。對比分析T4和T11兩個主題子網的節(jié)點重要性,如表3所示。其中,主題Tk子網中節(jié)點A的入度表示在數(shù)據獲取時間段內,對用戶A傳播的特定主題Tk的信息進行轉發(fā)的用戶數(shù)目。顯然,入度值高的用戶節(jié)點對該主題的信息傳播起到的作用也大??紤]到網絡中相當數(shù)量節(jié)點的入度值是相同的,本文結合另一常用指標PageRank來進行節(jié)點重要性的評價。

      圖7 偏好主題T11的交互關系形成的最大連通子網

      表3T4和T11主題子網節(jié)點重要性對比

      對比分析T4與T11兩個主題子網中的節(jié)點重要性??煽闯鰳颂柗謩e為534、1396、1390、877、485和241的這6個節(jié)點在兩個主題子網中的入度值和PageRank值排名均靠前,說明這些節(jié)點在兩個子網的話題傳播中都起到了重要作用。此外,我們也發(fā)現(xiàn)兩個子網中一些節(jié)點的重要性存在差異。例如,節(jié)點1355在主題T4下很重要,入度排名第7,PageRank排名第12,但不存在于T11子網中;此外,節(jié)點298是主題T4下的重要節(jié)點而在主題T11下入度為0,PageRank排名靠后,對主題T11下的話題傳播作用很小。由此可見,節(jié)點在不同主題子網的話題傳播中發(fā)揮著不同的作用。因而對于不同主題子網,需要選擇相應的關鍵節(jié)點實現(xiàn)有效的信息傳播干預。

      5 結 語

      本文主要貢獻在于提出了基于主題細分的用戶間交互強度的表示和度量方法,以及基于此對社交網絡用戶間的交互主題偏好特征進行了細粒度分析。研究發(fā)現(xiàn)用戶間交互關系強度的分布具有長尾特征;在不同時間段,用戶間的交互主題具有時序相關性,即一段時間內用戶間交互的主題偏好會相對穩(wěn)定;基于多維的用戶間交互強度,可抽取出具有相同主題偏好的用戶交互子網,發(fā)掘出子網中的關鍵節(jié)點,研究結論可用來預測用戶傳播信息的行為,方便對信息傳播進行監(jiān)控和干預。

      猜你喜歡
      子網紀錄社交
      社交之城
      英語世界(2023年6期)2023-06-30 06:28:28
      一種簡單子網劃分方法及教學案例*
      計算機時代(2023年1期)2023-01-30 04:08:22
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      社交距離
      第一財經(2020年4期)2020-04-14 04:38:56
      子網劃分問題研究及應用
      你回避社交,真不是因為內向
      文苑(2018年17期)2018-11-09 01:29:28
      出版紀錄
      子網劃分的簡易方法
      《科教·紀錄》
      電影故事(2016年5期)2016-06-15 20:27:30
      《科教·紀錄》
      電影故事(2015年41期)2015-09-06 02:30:09
      武城县| 阜平县| 贵州省| 连山| 塔城市| 黄陵县| 临西县| 金门县| 永康市| 齐河县| 开封市| 达州市| 三亚市| 昆明市| 绵阳市| 平南县| 资阳市| 涪陵区| 炎陵县| 洛扎县| 东源县| 台山市| 日照市| 永春县| 东城区| 康定县| 东至县| 奎屯市| 新田县| 九台市| 弥渡县| 方城县| 西藏| 钟祥市| 太仆寺旗| 玉树县| 绥芬河市| 潼关县| 安义县| 资中县| 门头沟区|