解偉凡,郭巖*,匡廣生,余智華,薛源海,沈華偉
基于演化模式的推特話題流行度預測方法
解偉凡1,2,郭巖1*,匡廣生1,3,余智華1,薛源海1,沈華偉1
(1.中國科學院計算技術研究所 數(shù)據(jù)智能系統(tǒng)研究中心,北京 100190; 2.中國科學院大學 計算機科學與技術學院,北京 101408; 3.中國科學院大學 人工智能學院,北京 101408)(?通信作者電子郵箱guoy@ict.ac.cn)
針對以往流行度預測方法未利用演化模式之間的差異和忽略預測時效性的問題,提出了一種基于演化模式的推特話題流行度預測方法。首先,基于?SC算法對大量歷史話題的流行度序列進行聚類,并得到6類演化模式;然后,使用各類演化模式下的歷史話題數(shù)據(jù)分別訓練全連接網(wǎng)絡(FCN)作為預測模型;最后,為選擇待預測話題的預測模型,提出幅度對齊的動態(tài)時間規(guī)整(AADTW)算法來計算待預測話題的已知流行度序列與各演化模式的相似度,并選取相似度最高的演化模式的預測模型進行流行度預測。在根據(jù)已知前20 h的流行度預測后5 h的流行度的任務中,與差分整合移動平均自回歸(ARIMA)方法以及使用單一的全連接網(wǎng)絡進行預測的方法相比,所提方法的預測結果的平均絕對百分比誤差(MAPE)分別降低了58.2%和31.0%。實驗結果表明,基于演化模式得到的模型群相較于單一模型能更加準確地預測推特話題流行度。
推特話題;演化模式;流行度預測;社交網(wǎng)絡;時間序列
隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,社交網(wǎng)絡已經(jīng)成為人們日常生活中不可或缺的一部分。社交網(wǎng)絡的出現(xiàn),極大地方便了消息的產(chǎn)生和傳播。在社交網(wǎng)絡上,用戶針對自己感興趣的話題發(fā)布消息,備受關注的熱點話題會迅速擴散,具體表現(xiàn)包括消息發(fā)布數(shù)量大、消息的轉發(fā)評論次數(shù)多、消息發(fā)布者的社會影響力大等。網(wǎng)絡話題的流行度預測有著重大的現(xiàn)實意義,在話題傳播早期預測出下一階段的流行程度,可以對話題在將來是否成為熱點話題進行及時的預判,在輿情監(jiān)控、流量分發(fā)、話題推送、網(wǎng)絡營銷等領域有重大的應用價值。推特平臺的話題以Hashtag形式呈現(xiàn),受到人為干預程度較低,是流行度預測的合適對象。
已有的流行度預測方法的處理對象集中在消息級別,而話題級別的流行度預測研究相對匱乏。同時,流行度預測往往有時效要求,意味著待預測話題的觀測窗口較小,僅能使用早期極其有限的流行度數(shù)據(jù)。相應地,與待預測話題同屬一類演化模式的歷史話題經(jīng)歷了完整的生命周期,觀測窗口較大,流行度數(shù)據(jù)相對完備。充分利用與待預測話題具有相同流行度演化模式的歷史話題數(shù)據(jù),可以有效彌補待預測話題數(shù)據(jù)量較少對預測產(chǎn)生的干擾。已有的研究僅使用待預測話題本身的數(shù)據(jù)進行預測,或者將全部歷史話題納入單一的預測模型,忽略了不同歷史話題與待預測話題在演化模式的相似程度上存在差異,未充分利用待預測話題同屬一類演化模式的歷史話題數(shù)據(jù),這些不足都影響了預測效果。
本文提出了一種基于演化模式的推特話題流行度預測方法,先進行歷史話題的聚類,得到各類演化模式并訓練對應的預測模型,然后判斷待預測話題的演化模式,最后基于該模式的預測模型進行流行度預測。本文使用小時內與話題相關的消息發(fā)布數(shù)量作為流行度。為了得到反映大部分推特話題的流行度變化趨勢且彼此存在明顯差異的一組演化模式,本文基于歷史話題在時序上完整的流行度序列,采用Yang等[1]提出的?SC(?Spectral Centroid)聚類算法生成各類別的中心作為話題級別的流行度演化模式,同時得到每類模式下包含的歷史話題,對每個演化模式單獨訓練預測模型。對于待預測的話題,本文根據(jù)早期的流行度數(shù)據(jù)進行演化模式級別的分類,以待預測話題的已知流行度序列與基于歷史話題數(shù)據(jù)生成的各個演化模式的序列距離作為分類依據(jù)??紤]到?SC算法只能計算長度相等的序列之間的距離,而待預測話題的已知流行度序列與基于歷史話題數(shù)據(jù)生成的演化模式是一對長度不等的序列,本文提出基于幅度對齊的動態(tài)時間規(guī)整(Amplitude?Alignment Dynamic Time Warping, AADTW)算法計算待預測話題的已知流行度序列與各演化模式的距離,以與其距離最小的類別下的預測模型進行流行度預測。在實驗中,本文的方法與完全不使用歷史話題數(shù)據(jù)的方法、使用全部歷史話題訓練單一預測模型的方法分別進行了對比,結果表明本文方法取得了更優(yōu)的效果。
本文主要工作如下:
1)提出基于演化模式的推特話題流行度預測框架。該框架在離線階段挖掘歷史話題的流行度演化模式,并訓練對應的預測模型;在線階段根據(jù)待預測話題的早期數(shù)據(jù),將其分到演化模式相似的類別中,并使用相應的預測模型預測其流行度。該框架的優(yōu)點是:對于待預測話題,僅需其早期流行度序列作為輸入,無需非時序數(shù)據(jù),很好地適應了流行度預測問題對時效性要求,解決了待預測話題早期數(shù)據(jù)少的問題。
2)提出基于幅度對齊的動態(tài)時間規(guī)整(AADTW)算法。樸素的動態(tài)時間規(guī)整(Dynamic Time Warping, DTW)[2]算法雖然提供了變長序列之間距離的定義,能夠較好地適應歷史話題的演化模式與待預測話題的已知流行度序列在長度上存在的差異,但是該距離定義沒有充分強調一對序列在時序上的變化趨勢的相似程度,會對待預測話題的演化模式做出錯誤的判斷。針對該問題,本文提出AADTW算法,該算法通過引入?SC算法計算等長序列之間的距離時采用的幅度對齊思想,并結合DTW算法處理變長序列的時序拉伸思想,更好地解決了判斷待預測話題的演化模式這一問題。
從消息級別的流行度預測方法中可以發(fā)現(xiàn),有必要引入消息級別或話題級別的相似度計算方法,據(jù)此對待預測的消息或話題進行分類,按類別分別訓練預測模型,這樣可以對不同話題進行更具針對性的流行度預測,避免噪聲數(shù)據(jù)對預測產(chǎn)生干擾。
話題級別的流行度預測的已有工作相對較少。Hu等[14]分析了若干突發(fā)話題在社交網(wǎng)絡的流行度隨時間變化的周期性,發(fā)現(xiàn)其中包含間隔較短的多個峰值,提出了一種基于Holt?Winters模型的話題級別的流行度預測方法,僅使用待預測話題早期的評論間隔數(shù)據(jù)。Li等[15]提出了一種基于情感強度的話題級別流行度預測方法,將話題相關的發(fā)文量作為流行度量化指標,對大量用戶特定話題下消息的情感表達數(shù)據(jù)和流行度數(shù)據(jù)進行特征融合,結合差分整合移動平均自回歸(Auto?Regressive Integrated Moving Average, ARIMA)方法預測話題在將來一段時間的流行度,效果優(yōu)于不引入情感特征的方法。Wang等[16]同樣考慮到情感強度在話題級別流行度預測中的作用,結合Markov隨機場對流行度進行預測,效果優(yōu)于不引入情感特征的方法。Gupta等[17]設計了多個流行度量化指標,根據(jù)文本特征等非時序特征對話題進行分類,訓練多個模型進行預測,并驗證了指標設計的合理性。王新樂等[18]使用推特平臺和微博平臺的Hashtag的內容主題特征、時間特征、序列特征、用戶粉絲網(wǎng)絡特征等進行基于支持向量機的主題標簽的流行度預測,但該方法需要大量的非時序數(shù)據(jù)支撐,獲取的時間成本較高。
以往的話題級別流行度預測方法或者忽略了歷史話題數(shù)據(jù)的作用,僅使用待預測話題自身的數(shù)據(jù)進行預測;或者將歷史話題的數(shù)據(jù)集中訓練單一預測模型,未考慮到某些歷史話題的流行度演化模式與待預測話題不同,在訓練數(shù)據(jù)中作為干擾噪聲存在,影響預測效果,而那些演化模式與待預測話題相似的歷史話題卻未被重視;或者考慮到了對不同類別下的話題分別訓練預測模型,但是需要大量的非時序數(shù)據(jù)作為支持,獲取數(shù)據(jù)的時間成本較高,忽略了預測的時效性要求。
本文方法首先根據(jù)流行度演化模式對歷史話題進行聚類,得到各個話題類別中心以及歷史話題的類別標簽;然后使用每個話題類別的數(shù)據(jù)訓練該類的預測模型,各話題類別的預測模型構成了模型群。對于每個待預測話題,計算其早期的流行度序列與各話題類別中心的相似度,將待預測話題路由至與其相似度最高的話題類別下的預測模型進行流行度預測。整體框架如圖1所示。
圖1 整體預測框架
預測框架可以分為以下三個模塊:
1)歷史話題的聚類模塊:功能為離線挖掘歷史話題的流行度演化模式,并根據(jù)演化模式對話題進行分類。實際場景中能獲得歷史話題整個生命周期中的流行度序列,可以設置較大的觀測窗口,故各歷史話題序列長度相等且較大。問題抽象為計算長度相等的時間序列之間的距離,Yang等[1]的工作證明?SC算法可以很好地解決該問題,因此本文基于?SC算法建立此模塊。
2)預測話題的分類模塊:功能為根據(jù)待預測話題的早期數(shù)據(jù),判斷話題的演化模式類別。由于觀測窗口通常較小,因此待預測話題的早期流行度序列較短,而歷史話題的聚類模塊得到的各類別中心的序列通常較長,需要計算兩個不等長序列之間的距離,序列距離是待預測話題分類的唯一根據(jù)。問題抽象為計算長度存在較大差別的時間序列之間的距離,且距離定義應當充分體現(xiàn)序列在演化模式上的差異。DTW算法的序列距離定義較好地適應了序列之間長度不相等的情況,但是受到序列間的幅度差異、演化模式上的差異等諸多因素影響,直接使用該距離定義會使部分待預測話題沒有選擇與其在變化趨勢上最相似的類別中心作為自身的演化模式,而是錯誤地選擇與其在幅度上最接近的類別中心作為自身的演化模式。針對該問題,本文提出了AADTW算法以建立待預測話題分類模塊。
3)預測模塊:功能包括兩個階段,即離線為每個類別訓練預測模型,以及在線為待預測話題預測其流行度。各個類別的預測模型之間結構相同,區(qū)別在于訓練數(shù)據(jù)不同導致參數(shù)不同。本文基于全連接神經(jīng)網(wǎng)絡建立預測模塊。
聚類模塊的輸入是若干歷史話題的流行度序列,聚類算法將在觀測窗口內流行度變化趨勢相似的歷史話題歸入同一類別,輸出包括:
1)各個歷史話題所屬的唯一的類別標簽,根據(jù)該標簽確定每個類別的預測模型的訓練集;
2)各個類別的中心,每個類別中心代表一類演化模式,要直觀表現(xiàn)類內所有流行度序列在變化趨勢上的共同點,同時要淡化類內不同流行度序列在幅度上的差異。
?SC算法的執(zhí)行流程與K?Means算法類似,是多階段迭代的過程,在每個階段首先嘗試逐個更新序列所屬的類別,然后重新計算各個類別的中心,直至所有序列的類別保持不變。
K?Means算法將類別內全體樣本的均值作為類別中心,不能在時間序列聚類中沿用,因為這種定義中心的方法與使用歐幾里得距離進行相似度計算的方法一樣,淡化了序列的演化模式,過分強調序列之間的幅度區(qū)別和細微延遲引發(fā)的差異。?SC算法設計了新的類別中心:
此模塊將判斷待預測話題的演化模式這一問題轉化為多分類問題,以預測話題的已知流行度序列與基于歷史話題數(shù)據(jù)生成的各個演化模式的序列距離作為分類依據(jù)。歷史話題經(jīng)歷了從產(chǎn)生到消亡的完整生命周期,其流行度序列與待預測話題早期數(shù)據(jù)構建的流行度序列在長度上存在明顯差異,如何定義和計算長度不同的序列之間的距離?針對該問題,本文提出了一種基于幅度對齊的動態(tài)時間規(guī)整算法,對待預測話題進行演化模式級別的分類。樸素的DTW算法雖然能夠較好地適應序列之間的長度差異,但直接使用可能會得到待預測序列與趨勢不同的演化模式存在最小的序列距離,導致分類結果錯誤。
1)狀態(tài)為當前取出的兩個子序列各自的長度。
2)階段為兩個子序列的長度之和。在問題求解的過程中,兩個子序列的長度都是單調不減的,保證了子問題的無后效性。
綜上所述,狀態(tài)轉移方程為:
針對以上問題,引入?SC算法中的伸縮度概念,重新定義不等長序列之間的距離,提出AADTW算法。
圖2以一個在觀測窗口中經(jīng)歷多次流行度峰值的待預測話題為例,展示了AADTW算法與DTW算法的區(qū)別。模式A代表在生命周期中經(jīng)歷單個流行度峰值的一類話題,模式B代表在生命周期中經(jīng)過多個流行度峰值的一類話題。待預測話題的流行度曲線在觀測窗口內已經(jīng)經(jīng)歷一次完整的波峰,并且即將到達新的波峰,從流行度變化趨勢的角度應當歸入模式B。圖2(a)中可以看到模式A與待預測話題的流行度曲線逼近程度較高,二者均偏離模式B的曲線,樸素DTW算法計算出的結果是模式A與待預測話題的距離更接近,會錯誤地將待預測話題歸入模式A。圖2(b)中AADTW算法對模式A進行了幅度壓縮,對模式B進行了幅度拉伸,目的均是使二者的曲線盡可能逼近待預測話題,經(jīng)過幅度對齊的處理后,AADTW算法計算的結果是待預測話題與模式B更接近。
圖2 DTW算法與AADTW算法對觀測窗口內存在多峰的待預測話題進行分類時的區(qū)別
本文使用全連接網(wǎng)絡(Fully Connected Network, FCN)進行時間序列的多步預測,網(wǎng)絡結構包括輸入層、隱藏層、輸出層。其中:輸入層的輸入長度等于待預測話題的觀測窗口,輸出層的輸出長度為預測窗口。使用每個話題類別包含的流行度數(shù)據(jù)訓練該類別的全連接預測網(wǎng)絡,各類別對應的網(wǎng)絡結構相同,區(qū)別在于參數(shù),共同構成一個網(wǎng)絡群,選擇平均絕對百分比誤差(Mean Absolute Percentage Error, MAPE)作為損失函數(shù)實驗數(shù)據(jù)。
Yang等[1]分析了推特上1 000個Hashtag從首次出現(xiàn)起各小時內被提及次數(shù),發(fā)現(xiàn)對于大部分話題Hashtag,用戶的發(fā)文行為基本集中在前128 h,所以本文設置采集時間為128 h。多數(shù)Hashtag在第50 h前后會經(jīng)歷小時內被提及次數(shù)的峰值,之后的流行度變化幅度明顯小于前50 h內,即50 h后話題的傳播規(guī)模趨于穩(wěn)定,從時效性考慮,觀測窗口在50 h內流行度預測更有意義,所以實驗中設置的觀測窗口均在50 h以內。話題的流行度在20 h內基本處于不斷增長的狀態(tài),難以從中發(fā)現(xiàn)演化模式的差異,所以實驗中設置的觀測窗口至少為20 h。本文采集了推特平臺上7.5萬個話題Hashtag前128 h內的發(fā)文數(shù)據(jù),按小時切分后得到各小時的發(fā)文量。選取其中90%的話題Hashtag作為訓練集,其余10%話題Hashtag作為測試集。測試的觀測窗口分別為20 h、30 h、40 h,預測窗口始終為5 h。注意到測試設置的觀測窗口的長度遠小于采集數(shù)據(jù)的完整時間區(qū)間,這是為了模擬實際預測場景下已知待預測話題的少量數(shù)據(jù)和各歷史話題的完整時序數(shù)據(jù)。
1)ARIMA模型:僅使用待預測話題本身的數(shù)據(jù)進行預測,完全不使用歷史數(shù)據(jù)。
2)單一的FCN模型:使用全部訓練數(shù)據(jù)訓練一個全連接網(wǎng)絡,所有的測試數(shù)據(jù)均使用該模型進行預測。
3)復用?SC算法建立分類模塊的模型(?SC+FCN):對訓練數(shù)據(jù)使用?SC算法進行聚類后,采取將各話題類別中心進行裁剪尾部的處理,保留長度等于觀測窗口的前綴,使用?SC算法的距離定義計算其與測試數(shù)據(jù)的序列距離,選擇與測試數(shù)據(jù)距離最小的一類作為測試數(shù)據(jù)的類別。
4)使用樸素DTW算法建立分類模塊的模型(?SC+DTW+FCN):對訓練數(shù)據(jù)使用?SC算法進行聚類后,使用DTW算法計算測試數(shù)據(jù)與各話題類別中心的距離,選擇與測試數(shù)據(jù)距離最小的一類作為測試數(shù)據(jù)的類別。
為驗證本文方法的穩(wěn)定性,還根據(jù)待預測話題的分類結果,以及流行度預測結果計算每類演化模式下的MAPE。
本文使用MAPE作為預測結果的評價指標,該指標的計算方法為:
表1 不同模型的MAPE
從表1可以發(fā)現(xiàn),本文方法(?SC+AADTW+FCN)在各觀測窗口下均取得了最優(yōu)的效果,下面依次對各組實驗進行分析:
1)ARIMA:ARIMA模型的MAPE始終大于1,預測結果存在嚴重失真,ARIMA模型僅基于待預測話題已有的數(shù)據(jù)進行預測,而且假設序列具有周期性,實際上話題傳播的演化模式并不具有明顯的周期性,違背了ARIMA的假設。驗證了在觀測窗口較小的情況下,僅使用待預測話題的已知流行度對后續(xù)流行度預測難以取得理想效果。
2)FCN:一方面,F(xiàn)CN模型相較于ARIMA有明顯的性能提升,驗證了引入歷史話題數(shù)據(jù)的必要性;另一方面,F(xiàn)CN模型的表現(xiàn)相較于使用?SC算法進行歷史話題聚類的后兩種方法存在差距。使用單一預測模型實際上將所有歷史話題的數(shù)據(jù)置于同等的地位,沒有發(fā)現(xiàn)歷史話題流行度演化模式存在的明顯差異,與待預測話題的演化模式不同的歷史話題成為噪聲,對預測形成干擾。這說明引入?SC算法可以發(fā)現(xiàn)相似話題,歷史的相似話題在流行度預測中發(fā)揮重要作用。
3)?SC+FCN:使用KSC算法同時完成歷史話題聚類和待預測話題分類的方法,其預測效果隨著觀測窗口增大有最明顯提升,驗證了KSC算法能起到過濾歷史話題數(shù)據(jù)、保留演化模式與待預測話題相似的歷史話題的作用。
4)?SC+DTW+FCN:一方面,在待預測話題分類模塊使用樸素DTW算法使得預測效果相較于使用?SC算法有了進一步的提升,驗證了DTW算法能夠更好地量化長度存在明顯差異的時間序列之間的相似程度。另一方面,相較于上一種方法(?SC+FCN)的預測效果提升程度隨著觀測窗口增大不斷縮小。這是因為文獻[1]發(fā)現(xiàn)推特話題的流行度演化模式在話題首次出現(xiàn)后接近50 h基本可被確定,而本文設置的觀測窗口越來越接近50 h。換言之,越是在話題出現(xiàn)的早期,觀測窗口越小,DTW算法相較于?SC算法在待預測話題分類任務上的優(yōu)勢越明顯。
5)?SC+AADTW+FC:本文提出的AADTW算法在計算序列之間的距離時同時具備?SC算法抵消序列之間的幅度差異,以及DTW算法適應序列之間長度差異的特點,使得序列之間演化模式的相似程度成為影響序列距離的主要因素,在流行度預測問題上充分利用了歷史話題的演化模式?;贏ADTW算法建立待預測話題分類模塊,相較于使用樸素DTW算法進一步提高了預測效果。與ARIMA和FCN相比,本文方法的MAPE分別降低了58.2%和31.0%
本文還根據(jù)待預測話題的分類結果,以及流行度預測結果計算每類演化模式下的MAPE,結果見表2。可以發(fā)現(xiàn),在每個觀測窗口下,每類演化模式的MAPE與測試集整體的MAPE十分接近,表明本文的方法對不同的待預測話題進行預測時具有穩(wěn)定的表現(xiàn)。
表2 不同演化模式的MAPE
話題級別的流行度預測問題有時效要求,在話題出現(xiàn)早期存在流行度數(shù)據(jù)不足的問題,歷史話題的數(shù)據(jù)相對完備,考慮使用與待預測話題的流行度演化模式相似的歷史話題數(shù)據(jù)提高預測效果。本文提出一種基于演化模式相似的歷史話題進行流行度預測的方法。通過一系列的對比試驗,驗證了該方法的有效性。本文方法與完全基于待預測話題自身數(shù)據(jù)的ARIMA模型相比,驗證了引入歷史數(shù)據(jù)可以顯著降低早期流行度預測的誤差;與使用全部歷史話題數(shù)據(jù)訓練單一預測模型的方法對比,驗證了引入?SC聚類算法可以有效過濾對預測任務產(chǎn)生干擾的歷史事件;與使用?SC算法做待預測話題分類的方法對比,驗證了在話題出現(xiàn)早期數(shù)據(jù)不足的情況下,引入DTW算法可以明顯提高待預測話題分類效果;與使用樸素DTW算法進行待預測話題分類的方法對比,驗證了AADTW算法相較DTW算法能更好地判斷待預測話題的演化模式,進而提高預測效果。本文計算了每類演化模式下的MAPE,驗證了方法的穩(wěn)定性。
在本文的流行度預測方法中,僅使用了話題的部分時序特征,未來可以考慮結合話題的非時序特征,例如話題的情感色彩等。在計算時間序列之間的變化趨勢的相似度問題上,可以考慮使用其他的幅度對齊方法,或者使用其他的計算變長序列距離的算法以更好地解決問題。
[1] YANG J, LESKOVEC J. Patterns of temporal variation in online media[C]// Proceedings of the 4th ACM International Conference on Web Search and Web Data Mining. New York: ACM, 2011:177-186.
[2] BERNDT D J, CLIFFORD J. Using dynamic time warping to find patterns in time series[C]// Proceedings of the 1994 AAAI Conference on Knowledge Discovery and Data Mining. Menlo Park, CA: AAAI Press, 1994:359-370.
[3] SZABO G, HUBERMAN B A. Predicting the popularity of online content[J]. Communication of the ACM, 2010, 53(8):80-88.
[4] 朱海龍,云曉春,韓志帥. 基于傳播加速度的微博流行度預測方法[J]. 計算機研究與發(fā)展, 2018, 55(6):1282-1293.(ZHU H L, YUN X C, HAN Z S. Weibo popularity prediction method based on propagation acceleration[J]. Journal of Computer Research and Development, 2018, 55(6):1282-1293.)
[5] BAO P, SHEN H W, HUANG J M, et al. Popularity prediction in microblogging network: a case study on Sina Weibo[C]// Proceedings of the 22nd International Conference on World Wide Web. New York: ACM, 2013:177-178.
[6] 高金華,沈華偉,程學旗,等. 基于相似消息的流行度預測方法[J]. 中文信息學報, 2018, 32(11):79-85.(GAO J H, SHEN H W, CHENG X Q, et al. Popularity prediction method based on similar historical tweets[J] Journal of Chinese Information Processing, 2018, 32(11):79-85.)
[7] WANG X M, FANG B X, ZHANG H L, et al. Predicting the popularity of news based on competitive matrix[C]// Proceedings of the IEEE 2nd International Conference on Data Science in Cyberspace. Piscataway: IEEE, 2017:151-155.
[8] AHMED M, SPAGNA S, HUICI F, et al. A peek into the future: predicting the evolution of popularity in user generated content[C]// Proceedings of the 6th ACM International Conference on Web Search and Data Mining. New York: ACM, 2013:607-616.
[9] LYMPEROPOULOS I N. RC?Tweet: modeling and predicting the popularity of tweets through the dynamics of a capacitor[J]. Expert Systems with Applications, 2021, 163: No.113785.
[10] TSAGKIAS M, WEERKAMP W, DE RIJKE M. Predicting the volume of comments on online news stories[C]// Proceedings of the 18th ACM Conference on Information and Knowledge Management. New York: ACM, 2009:1765-1768.
[11] FIGUEIREDO F, BENEVENUTO F, ALMEIDA J. The tube over time: characterizing popularity growth of YouTube videos[C]// Proceedings of the 4th ACM International Conference on Web Search and Web Data Mining. New York: ACM, 2011:745-754.
[12] 鐘志豪,肖井華,吳曄,等. 基于抖音平臺的在線短視頻流行度建模研究[J]. 電子科技大學學報, 2021, 50(5):774-781.(ZHONG Z H, XIAO J H, WU Y, et al. Modeling dynamics of online short video popularity based on Douyin platform[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(5):774-781.)
[13] GAO X F, ZHENG Z W, CHU Q Q, et al. Popularity prediction for single tweet based on heterogeneous Bass model[J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 33(5):2165-2178.
[14] HU Y, HU C J, FU S S, et al. Predicting the popularity of viral topics based on time series forecasting[J]. Neurocomputing, 2016, 210:55-65.
[15] LI J N, GAO Y R, GAO X F, et al. SENTI2POP: sentiment? aware topic popularity prediction on social media[C]// Proceedings of the 2019 IEEE International Conference on Data Mining. Piscataway: IEEE, 2019: 1174-1179.
[16] WANG X, WANG C, DING Z Y, et al. Predicting the popularity of topics based on user sentiment in microblogging websites[J]. Journal of Intelligent Information Systems, 2018, 51(1): 97-114.
[17] GUPTA M, GAO J, ZHAI C X, et al. Predicting future popularity trend of events in microblogging platforms[J]. Proceedings of the American Society for Information Science and Technology, 2012, 49(1):1-10.
[18] 王新樂,楊文峰,廖華明,等. 基于多維度特征的主題標簽流行度預測[J]. 山東大學學報(理學版), 2020, 55(1):94-101.(WANG X L, YANG W F, LIAO H M, et al. Popularity prediction of hashtags based on multi?dimensional features[J]. Journal of Shandong University (Natural Science), 2020, 55(1):94-101.)
[19] MATSUBARA Y, SAKURAI Y, PRAKASH B A, et al. Rise and fall patterns of information diffusion: model and implications[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2012: 6-14.
Popularity prediction method of Twitter topics based on evolution patterns
XIE Weifan1,2, GUO Yan1*, KUANG Guangsheng1,3, YU Zhihua1, XUE Yuanhai1, SHEN Huawei1
(1,,,100190,;2,,101408,;3,,101408,)
A popularity prediction method of Twitter topics based on evolution patterns was proposed to address the problem that the differences between evolution patterns and the time?effectiveness of prediction were not taken into account in previous popularity prediction methods. Firstly, the?SC (?Spectral Centroid) algorithm was used to cluster the popularity sequences of a large number of historical topics, and 6 evolution patterns were obtained. Then, a Fully Connected Network (FCN) was trained as the prediction model by using historical topic data of each evolution pattern. Finally, in order to select the prediction model for the topic to be predicted, Amplitude?Alignment Dynamic Time Warping (AADTW) algorithm was proposed to calculate the similarity between the known popularity sequence of the topic to be predicted and each evolution pattern, and the prediction model of the evolution pattern with the highest similarity was selected to predict the popularity. In the task of predicting the popularity of the next 5 hours based on the known popularity of the first 20 hours, the Mean Absolute Percentage Error (MAPE) of the prediction results of the proposed method was reduced by 58.2% and 31.0% respectively, compared with those of the Auto?Regressive Integrated Moving Average (ARIMA) method and method using a single fully connected network. Experimental results show that the model group based on the evolution patterns can predict the popularity of Twitter topic more accurately than single model.
Twitter topic; evolution pattern; popularity prediction; social network; time series
This work is partially supported by National Natural Science Foundation of China (U21B2046).
XIE Weifan, born in 1997, M. S. candidate. His research interests include popularity prediction.
GUO Yan, born in 1974, Ph. D., senior engineer. Her research interests include network information acquisition, network content processing.
KUANG Guangsheng, born in 1995, M. S. candidate. His research interests include natural language processing, data fusion.
YU Zhihua, born in 1973, Ph. D., chief senior engineer. His research interests include internet public opinion analysis.
XUE Yuanhai, born in 1987, Ph. D., senior engineer. His research interests include information retrieval, big data.
SHEN Huawei, born in 1982, Ph. D., research fellow. His research interests include social computing, data mining, machine learning.
TP181
A
1001-9081(2022)11-3364-07
10.11772/j.issn.1001-9081.2022010045
2022?01?17;
2022?03?03;
2022?03?07。
國家自然科學基金資助項目(U21B2046)。
解偉凡(1997—),男,山西運城人,碩士研究生,主要研究方向:流行度預測;郭巖(1974—),女,陜西西安人,高級工程師,博士,主要研究方向:網(wǎng)絡信息獲取、網(wǎng)絡內容處理;匡廣生(1995—),男,江西贛州人,碩士研究生,主要研究方向:自然語言處理、數(shù)據(jù)融合;余智華(1973—),男,江西吉安人,正高級工程師,博士,主要研究方向:網(wǎng)絡輿情分析;薛源海(1987—),男,云南玉溪人,高級工程師,博士,主要研究方向:信息檢索、大數(shù)據(jù);沈華偉(1982—),男,河南周口人,研究員,博士,主要研究方向:社會計算、數(shù)據(jù)挖掘、機器學習。