• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      微博傳播趨勢預測的研究

      2019-07-13 09:39:56孫育華黃成哲黑龍李軍張艷艷韓中元高佳明趙金梅
      科技創(chuàng)新導報 2019年9期
      關鍵詞:支持向量機

      孫育華 黃成哲 黑龍 李軍 張艷艷 韓中元 高佳明 趙金梅

      摘 要:微博快速轉發(fā)的特點使得在微博傳播的過程中存在著顯著的時間特性。本文對這種時間特性進行分析,挖掘傳播規(guī)律,對傳播規(guī)律建模,并對未來的微博傳播情況進行預測。本文從微博整體的角度上考慮時間特性,通過分類和回歸模型,對微博傳播的趨勢加以判定,并對傳播數(shù)量加以預測。本文獲取Twitter的505萬條微博數(shù)據(jù),利用TREC公布的相關性標注,驗證了方法的有效性。在預測微博未來漲跌判定的實驗中,準確率達到了80%,而預測相關微博數(shù)量的實驗中,準確率在50%以上。

      關鍵詞:微博傳播 趨勢預測 支持向量機 邏輯回歸

      中圖分類號:TP393 文獻標識碼:A 文章編號:1674-098X(2019)03(c)-0251-05

      微博不但是一種信息分享和交流的社交網絡平臺,而且也是民眾表達觀點的重要社會媒體。用戶可以隨時隨地將所見所聞發(fā)送到微博平臺上,無論是好友還是陌生人都可以一起轉發(fā)和評論。

      因為微博具有開放性和自由化的特點,所以微博平臺逐漸成為社會公眾的信息傳播渠道。微博傳播預測的研究具有重要的理論價值和應用意義。例如,政府部門可以通過預測消息傳播范圍和用戶觀點態(tài)度,及時采取科學有效的措施以控制虛假信息在網絡中的傳播;公司和企業(yè)可以通過企業(yè)相關信息的傳播趨勢,分析用戶的喜好,對用戶提供更精確的個性化服務,更加準確地為用戶推薦商品、話題信息等。

      1 相關工作

      國內外對微博傳播預測的研究主要可以分為兩大方向,一是基于用戶特征和文本特征進行研究,二是根據(jù)轉發(fā)關系建立微博轉發(fā)樹。

      對于基于用戶特征和文本特征的代表性研究包括,Suh等人[1]使用包括URL、標簽、關注人數(shù)、粉絲人數(shù)等用戶特征建立特征空間,通過主成分分析和廣義線性模型的分析方法,研究用戶特征與微博轉發(fā)之間的關系,但是研究結果只能體現(xiàn)出哪些用戶特征能對微博傳播造成較大影響,并不能對用戶的行為進行預測。Phuvipadaw等人[2]根據(jù)微博的文本特征,構建了突發(fā)新聞檢測以及跟蹤的算法。曹玖新等人[3]通過使用用戶特征、社交特征和微博特征,結合分類模型對微博的傳播進行預測。文獻[4]采用了用戶名、關注人數(shù)、微博內容詞頻等用戶特征和文本特征結合基于概率的協(xié)同過濾模型對微博的轉發(fā)進行預測[4]。Weng等人[5]提出了依靠粉絲數(shù)和發(fā)布微博數(shù)來衡量用戶的影響力,從而識別出在社交網絡中影響力較大的用戶。Pal等人[6]采用了用戶所發(fā)微博數(shù)量、收到的回復數(shù)、被轉發(fā)數(shù)、被提到次數(shù)和粉絲數(shù)等多個特征來計算用戶影響力。劉功申等人[7]提出了對用戶影響力進行量化的算法,根據(jù)用戶的特征數(shù)據(jù)來預測用戶發(fā)出的微博是否會被大量轉發(fā)。張旸等人[8]通過分析用戶特征和文本特征提出了特征加權預測模型,將微博轉發(fā)預測問題轉化為二類分類問題,并且對各特征的重要性進行了分析,得出了用戶粉絲數(shù)和用戶被提及數(shù)對微博的轉發(fā)影響較大的結論,并沒有對微博未來轉發(fā)的趨勢和數(shù)量進行預測。文獻[9]和文獻[10]中筆者選取了22種特征,結合因子圖模型進行對微博的傳播進行預測[9-10]。

      對于基于轉發(fā)關系的微博預測代表性研究包括,Boyd等人[11]以Twitter為研究對象,對Twitter上用戶轉發(fā)的方式、轉發(fā)的原因和轉發(fā)的內容進行了分析。Yang等人[12]通過分析微博內容中@username來提取轉發(fā)關系建立微博轉發(fā)樹,再結合因子圖模型建立轉發(fā)預測模型,一個用戶是一個節(jié)點,用戶之間的轉發(fā)關系為邊,對節(jié)點狀態(tài)進行預測。但是在實際應用當中建立完整的轉發(fā)樹是很困難的,且計算復雜度高。Kossinets等人[13]采用聚類的方法對微博網絡進行網絡聚類,生成特征結構傳播樹,最終得到一個概率模型,也有很多研究員采用SIR、SIS等[14]經典的信息傳播模型對微博的傳播進行預測。

      Fan等人[15]對新浪微博上的拓撲結構和微博信息進行研究,得出新浪微博的拓撲結構具有小世界及無標度特性,分布服從冪律分布。國內外研究者對不同類型的在線社交網絡進行研究,比如Flickr[16]、Blogs[17]、Digg[18]以及YouTube[19]等,研究展示了信息在社交網絡上所呈現(xiàn)出來的規(guī)律。Liben-Nowell等人[20]的研究全面地闡述了微博信息在真實社交網絡中傳播的特征及與規(guī)律,并且得出結論:精確的預測信息傳播路徑是非常困難的;使用簡單的預測模型往往與真實情況相距甚遠[20]。Galuba等人[21]對Twitter上URL信息在用戶拓撲網絡中傳播的規(guī)律進行研究,提出了預測URL轉發(fā)路徑的預測模型。

      2 本文方法

      針對上述存在的問題,本文提出的方法是從整體的角度,通過在不同的時間段內用戶對話題的關注程度來進行研究,并利用機器學習算法對微博數(shù)據(jù)進行分析建模。機器學習算法從數(shù)據(jù)中自動分析獲取規(guī)律,并利用規(guī)律進行預測的算法。本文采用的機器學習算法主要包括支持向量機(SVM)和邏輯回歸算法(LR)。從時間的角度來提取特征,根據(jù)這些特征在進行預測。另一方面,選擇廣泛應用的自回歸差分滑動平均模型作為本次實驗的baseline。

      2.1 支持向量機模型

      SVM(支持向量機,Support Vector Machine)于1995年正式發(fā)表。由于在分類任務中顯示出卓越性能,很快成為機器學習的主流技術。分類學習的最基本思想是在樣本空間中找到一個劃分超平面,將不同類別的樣本分開[22]。

      以上為支持向量機的基本型[22]。由此可以將微博的傳播預測問題轉化為了多分類的問題,在訓練模型的過程中就可以確定未來微博可能出現(xiàn)傳播情況,在測試的過程中,根據(jù)訓練特征來預測未來微博的傳播屬于哪一種情況,即微博的傳播數(shù)量或漲跌趨勢。

      2.2 邏輯回歸模型

      當對數(shù)線性模型中的一個二分類變量被當做因變量并定義為一系列自變量函數(shù)時,對數(shù)線性模型就變成了Logistics回歸模型。Logistics回歸的因變量可以是二分類的,也可以是多分類的。

      其中λ就是懲罰因子,λ的增大會使模型的擬合度變低。泛化能力增強,λ減小會使模型更加擬合現(xiàn)有的數(shù)據(jù),泛化能力減弱。

      邏輯回歸與SVM不同之處在于,不是依靠尋找最優(yōu)超平面來對樣本進行分類,而是對樣本數(shù)據(jù)屬于哪個類別計算出一個概率,將樣本數(shù)據(jù)劃分到概率最高的那一類別中。在對微博傳播預測的研究中,使用邏輯回歸算法可以計算未來微博在傳播過程中某種情況發(fā)生的概率,概率最高的情況就是要預測的結果。

      3 實驗

      3.1 實驗數(shù)據(jù)

      本文采用TREC2011年發(fā)布的微博評測任務的實驗數(shù)據(jù),是業(yè)內權威、公開的實驗數(shù)據(jù)集。數(shù)據(jù)內容為Twitter平臺上2011年1月23日零時到2月9日零時之間的全部微博。對爬取的微博數(shù)據(jù)進行過濾之后,得到可用于實驗的505萬條微博。

      實驗中將微博數(shù)據(jù)按照不同的時段進行劃分,時段的跨度包括2h、3h、4h、6h、8h、12h、24h。預測在不同的時段下微博傳播的數(shù)量以及微博傳播的趨勢。

      以2h為一個時段舉例說明,1月23日到2月9日的微博數(shù)據(jù)可以劃分為204個時段,提取出每個話題在各個時段的相關微博數(shù)量。Trec官方總計提供了110個查詢話題,每個查詢都提供了相關微博的ID。保留相關微博數(shù)量大于等于50的查詢,用于實驗的查詢數(shù)量實際為62個。其中1~50號查詢中,有24個可用,51~110號查詢中,有38個可用。如查詢MB004在1月27日10點到22點的相關微博數(shù)量如時段與相關微博數(shù)量表1所示。

      將1~50號查詢作為測試數(shù)據(jù),51~110號查詢做為訓練數(shù)據(jù)。在實驗數(shù)據(jù)集中取前10個時段的相關微博數(shù)量作為特征值,第11個時段的相關微博數(shù)量作為待預測值組成一組記錄。由此可以得到4662組測試數(shù)據(jù)和7372組訓練數(shù)據(jù)。

      因為要預測微博轉發(fā)的漲跌趨勢,所以在微博轉發(fā)的漲跌趨勢實驗數(shù)據(jù)中設置了三個特征:-1、0和1,如第二時段相對于第一時段的相關微博數(shù)量上漲,則標記特征為1,如不變標記特征為0,如下降則為-1。將查詢MB004在1月27日10點到22點的相關微博數(shù)量處理成-1、0和1的特征形式如轉換成漲跌表2所示。

      在將數(shù)據(jù)按照2h為一個時段切分的實驗中,無論是測試數(shù)據(jù)集中和預測數(shù)據(jù)集中包含有大量0標簽,考慮到大量的0標簽會使實驗結果虛高,所以將測試數(shù)據(jù)集和訓練數(shù)據(jù)集中大量的0標簽剔除進行實驗,作為實驗對照組。

      在處理實驗數(shù)據(jù)的過程中,會有一部分異常數(shù)據(jù)。在計算過程中會得到奇異矩陣,由于ARIMA在計算系數(shù)過程中涉及到矩陣求逆,奇異矩陣無法求逆矩陣,這部分數(shù)據(jù)應該從實驗數(shù)據(jù)中剔除。

      具體的實驗數(shù)據(jù)規(guī)模如實驗數(shù)據(jù)規(guī)模統(tǒng)計表3所示。

      對于其他時段的實驗數(shù)據(jù)處理過程,同以上介紹處理步驟完全相同,這里不再贅述。

      3.2 Baseline

      自回歸差分滑動平均模型(Auto Regressive Integrated Moving Average Model,簡記ARIMA)在預測氣溫,股票價格,黃金價格走勢等領域都有廣泛的應用。微博的傳播預測和預測氣溫和股票價格等具有一定的相似性。因此本文選用了基于時序分析的自回歸差分滑動平均模型(ARIMA)作為微博傳播預測研究的基線標準。

      3.3 參數(shù)設置

      3.3.1 SVM實驗參數(shù)

      對于微博數(shù)據(jù)而言,并沒有明顯的數(shù)據(jù)特征,所以本文選用了泛化能力較強的高斯核函數(shù)(Radial Basis Function,簡稱RBF)作為實驗的核函數(shù),SVM類型選擇C_SVC,核參數(shù)設置為0.025,懲罰系數(shù)為1.0,可容忍偏差設置為0.001。

      3.3.2 邏輯回歸實驗參數(shù)

      邏輯回歸模型主要涉及的參數(shù)包括:優(yōu)化算法選擇參數(shù),分類方式選擇參數(shù)。根據(jù)調參實驗結果分析,優(yōu)化算法選擇參數(shù)為隨機平均梯度下降算法,分類方式選擇一對多分類算法,最大迭代次數(shù)設置為20,正則化系數(shù)C設置為100時,模型泛化能力較好,預測準確率較高。

      4 實驗結果

      表4匯報了漲跌趨勢判定的實驗結果。

      在以2h為一個時段預測微博傳播數(shù)量的實驗中,實驗結果如表5所示。

      由于時間跨度過短,所以有大量時段的相關微博數(shù)量為0,大量的零標簽和零特征值導致了實驗結果虛高,在去掉零標簽之后實驗結果下降到了54.6584%。這種零標簽和零特征大量出現(xiàn)的情況在增大時間跨度的條件下得到了明顯的緩解。所以接下來其他時段的實驗結果并沒有增加去掉零標簽實驗數(shù)據(jù)記錄的實驗對照組。

      接下來又將時段劃分為3h,4h,6h,8h,12h,24h進行實驗,不同時段的預測相關微博數(shù)量實驗準確率實驗結果如表6所示。

      5 結語

      本文通過基于分類的方法來對社交網絡中微博的轉發(fā)預測進行了研究。使用了分類算法中SVM算法和邏輯回歸算法,并且將基于時序分析的自回歸差分滑動平均模型作為實驗結果的baseline,實驗結果表明,在微博的轉發(fā)預測研究中,基于分類的方法性能優(yōu)于傳統(tǒng)的時序分析的預測方法,并且在時段不斷增加的情況下,基于分類的預測方法也能保持良好的預測準確率。

      參考文獻

      [1] Suh B, Hong L, Pirolli P, et al. Want to be Retweeted? Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]// IEEE Second International Conference on Social Computing. IEEE, 2010:177-184.

      [2] Phuvipadawat S, Murata T. Breaking News Detection and Tracking in Twitter[C]// Ieee/wic/acm International Conference on Web Intelligence and Intelligent Agent Technology. IEEE Computer Society, 2010:120-123.

      [3] Cao J X, Wu J L, Shi W, et al. Sina microblog information diffusion analysis and prediction[J]. Chinese Journal of Computers, 2014.

      [4] Zaman T R, Herbrich R, Gael J V, et al. Predicting Information Spreading in Twitter[J]. Computational Social Science & the Wisdom of Crowds Workshop, 2010.

      [5] Weng J, Lim E P, Jiang J, et al. TwitterRank: finding topic-sensitive influential twitterers[J]. 2010:261-270.

      [6] Pal A , Counts S. Identifyingtopical authoyities in microblogs [ C ] . Proc of the 4th ACM Int Conf on Web Search and Data M ining ( WSD'11 ) , New York : ACM , 2011 : 45-54.

      [7] 劉功申, 孟魁, 謝婧. 一種微博預警算法[J]. 計算機科學, 2014, 41(12):33-37.

      [8] Zhang Y, Rong L U, Yang Q. Predicting Retweeting in Microblogs[J]. Journal of Chinese Information Processing, 2012, 26(4):109-108.

      [9] Yang Z, Guo J, Cai K, et al. Understanding retweeting behaviors in social networks[C]// ACM International Conference on Information and Knowledge Management. ACM, 2010:1633-1636.

      [10]Yang Zi.Predictive models in social network analysis[M].S. dissertation] .Tsinghua University, Beijing, 2011.

      [11]HI. boyd, danah, Golder, Scott, and Lotan, Gilad. Tweet Tweet Retweet: Conversational Aspects of Retweeting on Twitter.[C]// 2010.

      [12]Yang Z, Guo J, Cai K, et al. Understanding retweeting behaviors in social networks[C]// ACM International Conference on Information and Knowledge Management. ACM, 2010:1633-1636.

      [13]Kossinets G, Kleinberg J, Watts D. The structure of information pathways in a social communication network[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2008:435-443.

      [14]Zhou Tao, Fu Zhong-Qian, Niu Yong-Wei, et al.Research on spreading dynamics on complex networks. Progress in Natural Science, 2005, 15( 5) :513-518.

      [15]Fan P, Li P, Jiang Z, et al. Measurement and analysis of topology and information propagation on Sina-Microblog[C]// IEEE International Conference on Intelligence and Security Informatics. IEEE, 2011:396-401.

      [16]Cha M, Mislove A, Adams B, et al. Characterizing social cascades in flickr[C]// The Workshop on Online Social Networks. ACM, 2008:13-18.

      [17]Leskovec J, Mcglohon M, Faloutsos C, et al. Cascading Behavior in Large Blog Graphs[J]. Sdm, 2007, 15(1):9:3–9:56.

      [18]Wu F, Huberman B A, Adamic L A, et al. Information flow in social groups[J]. Physica A Statistical Mechanics & Its Applications, 2004, 337(1–2):327-335.

      [19]Szabo G, Huberman B A. Predicting the popularity of online content[M]. ACM, 2010.

      [20]Liben-Nowell D, Kleinberg J. Tracing information flow on a global scale using Internet chain-letter data[J]. Proceedings of the National Academy of Sciences of the United States of America, 2008, 105(12):4633.

      [21]Galuba W, Aberer K, Chakraborty D, et al. Outtweeting the twitterers - predicting information cascades in microblogs[C]// Wonference on Online Social Networks. USENIX Association, 2010.

      [22]周志華, 王玨. 機器學習及其應用[M].北京:清華大學出版社, 2007.

      猜你喜歡
      支持向量機
      基于支持向量回歸機的電能質量評估
      基于智能優(yōu)化算法選擇特征的網絡入侵檢測
      數(shù)據(jù)挖掘技術在電廠經濟性分析系統(tǒng)中的應用Q
      基于改進支持向量機的船舶縱搖預報模型
      中國水運(2016年11期)2017-01-04 12:26:47
      基于SVM的煙草銷售量預測
      軟件導刊(2016年11期)2016-12-22 21:52:38
      動態(tài)場景中的視覺目標識別方法分析
      論提高裝備故障預測準確度的方法途徑
      價值工程(2016年32期)2016-12-20 20:36:43
      基于熵技術的公共事業(yè)費最優(yōu)組合預測
      價值工程(2016年29期)2016-11-14 00:13:35
      基于支持向量機的金融數(shù)據(jù)分析研究
      管理類研究生支持向量機預測決策實驗教學研究
      考試周刊(2016年53期)2016-07-15 09:08:21
      尉氏县| 澄城县| 江陵县| 靖州| 宣威市| 静乐县| 丹棱县| 镇巴县| 攀枝花市| 大安市| 郧西县| 合水县| 托里县| 定陶县| 隆安县| 苍南县| 乌鲁木齐县| 通化市| 方城县| 南汇区| 柏乡县| 都匀市| 昭觉县| 台东市| 仁寿县| 日照市| 定安县| 洛川县| 饶河县| 东阿县| 师宗县| 江永县| 日土县| 元朗区| 葫芦岛市| 墨竹工卡县| 台中市| 钟山县| 东至县| 云林县| 南阳市|