• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LTTB-KSC算法的網(wǎng)絡(luò)輿情事件熱度高峰研究

      2023-02-04 09:09:24郭海玲李紫萱
      情報(bào)雜志 2023年1期
      關(guān)鍵詞:高峰聚類矩陣

      高 燁 李 松 郭海玲 李紫萱

      (河北大學(xué) 管理學(xué)院 保定 071002)

      0 引 言

      互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,使得越來越多的人通過網(wǎng)絡(luò)來發(fā)表見解、公布消息以及獲得熱度,互聯(lián)網(wǎng)上的信息呈現(xiàn)爆炸式增長,互聯(lián)網(wǎng)迅速發(fā)展成為資源共享的平臺(tái)?,F(xiàn)實(shí)生活中的某些事件發(fā)生后,隨著該事件在網(wǎng)絡(luò)上發(fā)酵,會(huì)引起民眾激烈的討論,引發(fā)網(wǎng)絡(luò)輿情。民眾在關(guān)注該事件的同時(shí),也會(huì)產(chǎn)生一些新的衍生話題,如果無法進(jìn)行及時(shí)的處理,隨著進(jìn)一步的傳播討論,將會(huì)影響到民眾的認(rèn)知和社會(huì)的穩(wěn)定。因此,研究網(wǎng)絡(luò)輿情事件熱度高峰將有助于相關(guān)部門預(yù)估民眾對(duì)網(wǎng)絡(luò)輿情事件關(guān)注程度的高峰期,及時(shí)監(jiān)測可能出現(xiàn)的衍生話題,抑制負(fù)面言論,正確引導(dǎo)社會(huì)的輿論方向。

      由于舊話題的消失或新話題的產(chǎn)生,網(wǎng)絡(luò)輿情事件的發(fā)展在時(shí)間維度上是穩(wěn)定的[1]。目前大多數(shù)的研究集中于熱度的整體趨勢,很少關(guān)注網(wǎng)絡(luò)輿情事件熱度曲線的峰值數(shù)據(jù)和特征,缺乏預(yù)測熱度高峰期時(shí)間范圍的科學(xué)方法。對(duì)熱度趨勢相關(guān)研究進(jìn)行梳理,發(fā)現(xiàn)網(wǎng)絡(luò)輿情事件的熱度時(shí)間序列蘊(yùn)含著豐富的時(shí)態(tài)信息,民眾對(duì)相同類別事件的關(guān)注程度及其發(fā)展趨勢在很大程度上具有相似性[2]?;诖耍疚膹木垲惾胧謱?duì)熱度高峰展開研究。K-Means算法和KSC算法是對(duì)時(shí)間序列聚類的主要算法,其中KSC算法根據(jù)時(shí)序的趨勢特征進(jìn)行聚類,能夠刻畫出時(shí)間序列之間的內(nèi)在規(guī)律特征,對(duì)時(shí)間序列聚類效果更好。但是KSC算法也存在著一些缺陷:a.KSC算法的時(shí)間復(fù)雜度很高;b.初始類別中心選擇很敏感,初始類別中心選擇的好壞影響聚類的收斂速度;c.無法自動(dòng)設(shè)定與調(diào)整聚類個(gè)數(shù)。

      LTTB(Largest Triangle Three Buckets)算法是一種能夠保持原始時(shí)間序列趨勢特征的降維算法,將LTTB算法與KSC算法組合,使用LTTB算法對(duì)時(shí)間序列進(jìn)行降維,然后使用KSC算法對(duì)降維后的數(shù)據(jù)聚類,能夠改善KSC算法時(shí)間復(fù)雜度高和初始類別中心選擇敏感性的問題?;谏鲜鏊枷耄疚奶岢隽薒TTB-KSC算法,據(jù)此構(gòu)建出網(wǎng)絡(luò)輿情事件熱度高峰變化模式,并對(duì)網(wǎng)絡(luò)輿情事件熱度高峰期時(shí)間范圍預(yù)測展開進(jìn)一步研究。

      1 相關(guān)研究

      1.1 熱度序列聚類研究

      熱度序列聚類是一種根據(jù)熱度時(shí)間序列所呈現(xiàn)出的趨勢和特征進(jìn)行聚類的一種方法,它將具有相似趨勢形狀的熱度時(shí)間序列聚集在一起,其聚類結(jié)果能夠刻畫出用戶對(duì)某種話題或者某類事件關(guān)注程度的共同變化趨勢,為網(wǎng)絡(luò)話題或事件的熱度預(yù)測奠定了基礎(chǔ)。Yang等人[3]提出KSC算法對(duì)話題的熱度時(shí)間序列進(jìn)行聚類,定義了新的時(shí)間序列差異度公式和更新矩陣中心公式,以便刻畫熱度發(fā)展趨勢的內(nèi)在規(guī)律特征,但KSC算法在初始類別中心選擇上非常敏感,且有高時(shí)間復(fù)雜度,不可直接將其應(yīng)用于高維數(shù)據(jù)。韓忠明等人[4]針對(duì)KSC算法存在的缺陷選擇用Haar小波變換對(duì)高維時(shí)間序列降維,然后在低維數(shù)據(jù)上進(jìn)行聚類,雖有效解決了KSC算法初始類矩陣中心高敏感性、高時(shí)間復(fù)雜度的問題,但是每一層的降維是采用兩個(gè)相鄰值取平均值的方法,降維后的時(shí)間序列趨勢特征丟失嚴(yán)重,低維度聚類結(jié)果較差,以此為依據(jù)確定出的高維初始矩陣中心會(huì)存在偏差,使得最終聚類結(jié)果存在一定誤差。張茂元等人[5]使用集合經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)對(duì)序列進(jìn)行平穩(wěn)化處理,得到具有物理意義的各個(gè)IMF分量,然后從低頻分量開始聚類,將低頻分量的聚類結(jié)果作為高頻分量聚類的初始矩陣中心,有效地減少了非平穩(wěn)特性對(duì)算法準(zhǔn)確性的影響,但是在分解過程中會(huì)存在殘余的白噪聲,同時(shí)低頻分量相較于原始時(shí)序也存在趨勢特征缺失的問題,從而影響聚類結(jié)果。學(xué)者們對(duì)于KSC算法的改進(jìn)取得了明顯成效,但對(duì)原始時(shí)間序列的處理會(huì)使其丟失部分趨勢特征,得到的聚類結(jié)果從波峰變化趨勢來看具有一定的重合性,而且目前沒有一個(gè)科學(xué)的方法能夠自動(dòng)設(shè)定與調(diào)整聚類的個(gè)數(shù)。

      1.2 熱度趨勢研究

      在熱度趨勢的研究中,學(xué)者們多通過挖掘自身歷史數(shù)據(jù)對(duì)事件未來熱度趨勢進(jìn)行預(yù)測。盧珺珈等人[6]通過發(fā)帖量衡量事件熱度,采用高斯模型對(duì)帖子的發(fā)展態(tài)勢進(jìn)行擬合,在此基礎(chǔ)上對(duì)帖子的熱度在未來某時(shí)間段處于上升或下降作出預(yù)測。周西平等人[7]選取新浪微博上的熱點(diǎn)事件,運(yùn)用馬爾可夫分析方法建立網(wǎng)絡(luò)輿情熱度趨勢模型,預(yù)測事件所處的發(fā)展階段。楊茂青等人[8]基于隨機(jī)森林(RF)算法建立突發(fā)事件網(wǎng)絡(luò)輿情演化預(yù)測模型,通過高效的定量預(yù)測模型預(yù)測未來某時(shí)間點(diǎn)的全網(wǎng)發(fā)帖量。學(xué)者們采用不同方法進(jìn)行事件熱度趨勢的預(yù)測研究,但很少將目光集中于事件熱度曲線的峰值數(shù)據(jù)和特征,缺乏預(yù)測事件熱度高峰期時(shí)間范圍的科學(xué)方法。

      2 基于LTTB-KSC算法構(gòu)建熱度高峰變化模式

      2.1 KSC算法

      KSC(K_Spectral Centroid Clustering)算法是一種類似于經(jīng)典K-Means聚類算法的迭代算法,它將時(shí)間序列的趨勢特征作為聚類的依據(jù),不考慮時(shí)間序列的具體幅值[9]。

      KSC算法可分為類別劃分和更新聚類中心兩個(gè)步驟。首先,隨機(jī)對(duì)所有時(shí)間序列進(jìn)行分類,使用矩陣中心計(jì)算公式計(jì)算出每個(gè)類別的矩陣中心,使用差異度計(jì)算公式計(jì)算所有時(shí)間序列與每個(gè)類別矩陣中心的差異度,將時(shí)間序列歸到差異度最小的類中;其次,根據(jù)劃分到每個(gè)類的時(shí)間序列更新類別的矩陣中心。通過不斷迭代,最終得到k個(gè)聚類結(jié)果。KSC算法是一個(gè)迭代的過程,迭代停止的條件是:每個(gè)類別的成員不再發(fā)生變化或者達(dá)到預(yù)定的迭代次數(shù)。

      a.差異度公式。

      (1)

      式中,x和y表示兩個(gè)時(shí)間序列,時(shí)間序列是按照一定的時(shí)間間隔排列的一組數(shù)據(jù),時(shí)間間隔可以是任意的時(shí)間單位。每個(gè)時(shí)間序列表示{t1,t2,…,tL},L為時(shí)間序列的維度,ti可以表示事件每小時(shí)的熱度值。yq是時(shí)間序列y移動(dòng)q個(gè)時(shí)間單位的結(jié)果,平移后的時(shí)間序列y與x的峰值處于同一時(shí)間點(diǎn)。‖·‖表示向量范數(shù),α為縮放系數(shù),用α來匹配兩個(gè)時(shí)間序列的形狀。式(1)表明任意兩個(gè)時(shí)間序列的相似性只與它們的趨勢走向有關(guān),而和它們的峰值數(shù)值以及在何時(shí)達(dá)到峰值無關(guān)[5]。

      b.更新矩陣中心公式。

      (2)

      (3)

      (4)

      2.2 基于LTTB-KSC算法聚類

      KSC算法將時(shí)間序列的趨勢特征作為聚類依據(jù),不考慮時(shí)序的具體幅值,能夠挖掘出類似事件發(fā)展趨勢中蘊(yùn)含的規(guī)律,其聚類結(jié)果能夠直接反映同類輿情事件的傳播狀態(tài)。但KSC算法也存在著一些問題:a.KSC算法的時(shí)間復(fù)雜度很高。對(duì)于N個(gè)L維的時(shí)間序列,算法迭代過程中每次需要進(jìn)行N×L3次的差異度計(jì)算。b.初始類別中心選擇很敏感。初始類別中心選取的優(yōu)劣關(guān)系著聚類的收斂速率,如果初始類別中心選擇不恰當(dāng),聚類的收斂速率將很低。c.無法自動(dòng)設(shè)定與調(diào)整聚類個(gè)數(shù)?,F(xiàn)如今聚類個(gè)數(shù)通常是根據(jù)歷史經(jīng)驗(yàn)獲得或者利用仿真實(shí)驗(yàn)不斷調(diào)整,而在海量數(shù)據(jù)下使用KSC算法時(shí),如何針對(duì)時(shí)間序列的數(shù)據(jù)特點(diǎn),自動(dòng)選擇并調(diào)節(jié)聚類個(gè)數(shù),是亟待解決的問題。本文基于KSC算法存在的問題提出了LTTB-KSC(Largest Triangle Three Buckets-based KSC Algorithm)算法。LTTB-KSC算法聚類分為兩個(gè)步驟:使用LTTB算法對(duì)原始時(shí)間序列降維;對(duì)降維后的時(shí)間序列聚類。

      LTTB算法是在2013年由冰島大學(xué)的Sveinn提出,主要用來對(duì)大數(shù)據(jù)集,特別是時(shí)間序列進(jìn)行降采樣以實(shí)現(xiàn)可視化,可應(yīng)用于數(shù)據(jù)簡化和計(jì)算機(jī)視覺領(lǐng)域,具有極高的數(shù)據(jù)預(yù)處理價(jià)值[10]。例如,現(xiàn)在許多網(wǎng)站為用戶提供查看交互式折線圖的功能,互聯(lián)網(wǎng)數(shù)據(jù)廣泛,用戶的計(jì)算機(jī)繪制折線圖需要一些時(shí)間,如果數(shù)據(jù)在繪制前被合理地降采樣,用戶等待時(shí)間減少,且不會(huì)對(duì)折線圖產(chǎn)生任何可觀察的影響,節(jié)省帶寬和時(shí)間,使用LTTB算法對(duì)數(shù)據(jù)降采樣可滿足這一要求。

      研究表明,LTTB算法對(duì)時(shí)序數(shù)據(jù)的降維擬合效果顯著,能夠使用較少的點(diǎn)充分描繪原始時(shí)序數(shù)據(jù)形態(tài)的外輪廓特征,具有非常好的視覺表現(xiàn),因此本文選擇使用該算法對(duì)高維度的時(shí)間序列降維,LTTB算法基于最大有效面積對(duì)時(shí)序數(shù)據(jù)降維與擬合,具體過程:

      a.按照閾值(返回?cái)?shù)據(jù)點(diǎn)的個(gè)數(shù))將原始時(shí)序數(shù)據(jù)劃分為大小近似的段,第一段和最后一段只包含原始數(shù)據(jù)第一個(gè)和最后一個(gè)數(shù)據(jù)點(diǎn)。

      b.遍歷所有段,從第一段到最后一段,并從每個(gè)段中利用算法選擇出最重要的F點(diǎn)。

      如圖1所示,該算法一次使用三段,從左向右進(jìn)行,形成三角形左角的第一段的點(diǎn)始終固定為先前選定的點(diǎn),形成三角形右角的點(diǎn)是第三段中的臨時(shí)點(diǎn),B點(diǎn)為當(dāng)前段中存在的點(diǎn)。若B點(diǎn)與固定點(diǎn)A(先前選擇的)和臨時(shí)點(diǎn)C形成三角形的有效面積最大,選擇B點(diǎn)作為當(dāng)前段的F點(diǎn),代表當(dāng)前段內(nèi)的所有點(diǎn)。

      圖1 LTTB算法F點(diǎn)的選擇

      臨時(shí)點(diǎn)C的選擇主要采用一種平均近似的虛擬固定點(diǎn)方法,假設(shè)某一段中有點(diǎn)集P={p1,…,pm}及虛擬固定點(diǎn)pv,每一點(diǎn)對(duì)應(yīng)的值用val(pj)表示,則有

      (5)

      c.遍歷完成后,將每一段中確定的F點(diǎn)組合成一個(gè)新的時(shí)間序列,即為降維后的結(jié)果。

      利用LTTB算法對(duì)原始時(shí)間序列進(jìn)行降維,能夠保證降維后的時(shí)間序列仍完美保留著原始時(shí)間序列的趨勢特征。對(duì)降維后的時(shí)間序列進(jìn)行聚類,降低了時(shí)間復(fù)雜度,提高了聚類的速率。同時(shí),對(duì)降維后數(shù)據(jù)進(jìn)行初始類別的選擇,計(jì)算初始類別矩陣中心,并以此為基礎(chǔ)進(jìn)行迭代,更新類別矩陣中心,也有效改善了KSC算法初始類別中心選擇敏感性問題,LTTB-KSC算法具體構(gòu)建流程如圖2所示。

      圖2 LTTB-KSC算法構(gòu)建流程

      2.3 確定降維維度和聚類個(gè)數(shù)

      2.3.1確定降維維度

      構(gòu)建網(wǎng)絡(luò)輿情事件熱度序列數(shù)據(jù)集通常需要收集長達(dá)一年甚至幾個(gè)月的熱度值,但熱度時(shí)間序列所形成的熱度曲線的體積往往集中在峰值附近,人們對(duì)于某個(gè)熱門內(nèi)容的關(guān)注程度僅維持一段時(shí)間,而在其它的時(shí)間里很少或者不會(huì)在提及,因此形成很長的時(shí)間序列是不合理的,需要對(duì)其進(jìn)行截?cái)?。為了設(shè)定截?cái)嗟拈L度,Yang等學(xué)者觀測了事件流行程度擴(kuò)散情況并進(jìn)行了相應(yīng)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明可將熱度序列的長度截?cái)酁?28小時(shí)[3]。

      2.3.2確定聚類個(gè)數(shù)

      已有文獻(xiàn)多通過借鑒歷史經(jīng)驗(yàn)或者利用仿真實(shí)驗(yàn)不斷調(diào)整聚類個(gè)數(shù),直到聚類結(jié)果基本穩(wěn)定,找到最佳聚類數(shù)。本文將聚類結(jié)果類間評(píng)價(jià)和類內(nèi)評(píng)價(jià)相結(jié)合來確定最優(yōu)的聚類個(gè)數(shù)。

      采用F-Value(F值)刻畫每個(gè)類內(nèi)部成員的差異度,該值越小表示類內(nèi)的元素越緊湊,聚類效果越好。使用KSC算法中的差異度公式來計(jì)算F值,具體公式為

      (6)

      采用D-value(D值)來衡量類別之間的差異性,類別之間差異越大,表明聚類效果越好,計(jì)算公式為

      (7)

      式中,μi代表類別i的矩陣中心,μj代表類別j的矩陣中心。

      將F值和D值結(jié)合,尋找F/D的最優(yōu)值。F值衡量類內(nèi)成員聚類效果,越小越好,D值衡量類間聚類效果,越大越好,因此,希望找到最小比值對(duì)應(yīng)的聚類數(shù)作為最佳聚類數(shù)。

      (8)

      2.4 矩陣中心曲線擬合

      為精準(zhǔn)擬合矩陣中心曲線,保證矩陣中心對(duì)應(yīng)的時(shí)間序列維度與單位小時(shí)的一一對(duì)應(yīng),首先采用三次樣條插值法將矩陣中心的維度擴(kuò)展為原始時(shí)間序列的維度。三次樣條插值是基于分段低次插值思想進(jìn)行數(shù)據(jù)插值,目的是求出穿過原本給定的一系列點(diǎn)的分段三次多項(xiàng)式函數(shù),并使得所有的點(diǎn)都保證至少二階連續(xù)可導(dǎo)。得到全段的三次多項(xiàng)式函數(shù)后,就能計(jì)算出原數(shù)據(jù)點(diǎn)間的插值結(jié)果。

      假設(shè)有節(jié)點(diǎn)x:a=x0

      (1)在每個(gè)分段小區(qū)間上[xi,xi+1]上,S(x)=Si(x)都是一個(gè)三次多項(xiàng)式;

      (2)滿足插值條件,S(xi)=yi;

      (3)曲線光滑,S(x),導(dǎo)數(shù)S′(x),二階導(dǎo)數(shù)S″(x)連續(xù)。

      n個(gè)分段三次多項(xiàng)式的形式為

      Si(x)=ai+bi(x-xi)+ci(x-xi)2+di(x-xi)3,i=0,1,…,n-1

      (9)

      式中,Si(x)是第i+1個(gè)區(qū)間對(duì)應(yīng)的三次方程;ai、bi、ci和di是三次樣條方程的4n個(gè)未知系數(shù)。

      采用三次樣條插值法對(duì)聚類結(jié)果中每一類的矩陣中心建立分段三次多項(xiàng)式函數(shù),并在原數(shù)據(jù)點(diǎn)間進(jìn)行插值,將矩陣中心的維度擴(kuò)展到原始時(shí)間序列相同維度,通過三次樣條插值得到的插值點(diǎn)非常符合原數(shù)據(jù)點(diǎn)的變化特征,能夠保證維度擴(kuò)展后的矩陣中心曲線完整保留著原始曲線的變化趨勢。

      高斯混合模型是多個(gè)單高斯概率密度函數(shù)的線性組合,通過調(diào)整高斯混合模型的各個(gè)組成參數(shù),包括成分?jǐn)?shù)、權(quán)重系數(shù)、均值和每個(gè)成分的協(xié)方差矩陣,來精確描述各種概率密度分布[11]。通俗來說,無論觀測數(shù)據(jù)集如何分布以及呈現(xiàn)何種規(guī)律,都可以通過多個(gè)單一高斯模型的混合進(jìn)行擬合[12]。因此本文選擇使用高斯混合模型擬合擴(kuò)展維度后的矩陣中心曲線,得出每一類的熱度高峰函數(shù)。

      高斯混合模型通常被用來對(duì)多維隨機(jī)變量的聯(lián)合概率密度函數(shù)建模[11],可表示為

      (10)

      式中,φ(x|θk)表示高斯分布的概率密度函數(shù),其表達(dá)式為

      (11)

      設(shè)需要n個(gè)高斯分布擬合聚類結(jié)果的矩陣中心曲線,則每一類的熱度高峰函數(shù)為

      (12)

      2.5 熱度高峰變化模式構(gòu)建流程

      構(gòu)建熱度高峰變化模式分為五個(gè)步驟。

      a.按一定的時(shí)間間隔從網(wǎng)絡(luò)平臺(tái)上爬取網(wǎng)絡(luò)輿情事件熱度序列數(shù)據(jù)集,數(shù)據(jù)集中包含N個(gè)熱度序列。

      b.將N個(gè)熱度序列使用LTTB-KSC算法進(jìn)行聚類。首先使用LTTB算法降維,然后使用KSC算法對(duì)降維后的時(shí)間序列聚類,最終得到聚類結(jié)果{C1,…,Ck},每一類別Ci由熱度序列{y1,…,ym}組成,m代表該類別中包含的熱度序列的個(gè)數(shù)。

      c.采用三次樣條插值法將每一類矩陣中心擴(kuò)展到原始維度(L維)。聚類結(jié)果中每一類別的矩陣中心表示該類成員的共同形狀特征,類別Ci的矩陣中心表示為{Z1,…,ZH},其維度為H維(H

      d.根據(jù)維度擴(kuò)展后的矩陣中心曲線特征選擇合適的高斯混合模型對(duì)擴(kuò)維后的矩陣中心進(jìn)行曲線擬合,得到每一類的熱度高峰函數(shù)及函數(shù)曲線。

      e.觀察每一類熱度高峰函數(shù)曲線,根據(jù)曲線的波形特征進(jìn)行模式劃分。將每類模式中所屬的矩陣中心擬合值采用算數(shù)平均法求得熱度高峰模式值,最終得到熱度高峰變化模式曲線。

      3 網(wǎng)絡(luò)輿情事件熱度高峰時(shí)間范圍預(yù)測

      3.1 DTW距離衡量時(shí)間序列相似度

      時(shí)間序列的相似性屬于曲線相似性/曲線匹配領(lǐng)域的內(nèi)容,判斷時(shí)間序列相似性需要從距離和形狀兩方面考慮。要衡量距離和形狀,歐式距離有著廣泛的應(yīng)用,但用歐式距離衡量時(shí)間序列的相似性存在著致命的缺陷:a.忽略序列的波動(dòng)形態(tài),不能辨別形狀和反映趨勢動(dòng)態(tài)變化幅度的相似性[13];b.由于復(fù)雜時(shí)間序列的不確定性與突變性,易將其誤判與簡單的時(shí)間序列更相似,而不是同類復(fù)雜時(shí)間序列[14]。因此,引入動(dòng)態(tài)時(shí)間規(guī)整算法(Dynamic Time Warping, DTW),DTW算法采用動(dòng)態(tài)尋優(yōu)的方法求解最小累計(jì)歐式距離,通過路徑回溯尋找兩個(gè)序列點(diǎn)間的最佳匹配,使用最小累計(jì)歐式距離(DTW距離)衡量兩個(gè)時(shí)間序列的相似度。DTW算法彌補(bǔ)了歐式距離所有點(diǎn)直接對(duì)應(yīng)計(jì)算的缺陷,而是尋找序列之間邏輯上正確對(duì)應(yīng)的點(diǎn)進(jìn)行距離的計(jì)算,有效地解決時(shí)間序列時(shí)間軸上的偏移和伸縮后相似性度量的問題[15]。

      給定時(shí)間序列x={x1,x2,…,xm}和y={y1,y2,…,yn},x為參考序列,y為測試序列,使用DTW算法衡量時(shí)間序列相似性的具體過程如下:

      a.計(jì)算序列點(diǎn)之間的歐式距離,構(gòu)成m×n的距離矩陣。

      c(m,n)=‖xi-yj‖2

      (13)

      b.構(gòu)造累計(jì)距離矩陣D={r(i,j)}m,n

      (14)

      c.基于累計(jì)距離矩陣D,采用路徑回溯方法,從矩陣右上角開始,向左下尋找一條彎曲路徑W=(w1,w2,…,wk)使得路徑經(jīng)過的元素之和最小,x和y匹配度最大。

      d.彎曲路徑對(duì)應(yīng)的值即為時(shí)間序列x和y的DTW距離,DTW值越大,距離越遠(yuǎn),時(shí)間序列的相似度越小,反之亦然。

      3.2 高峰時(shí)間預(yù)測

      當(dāng)新的網(wǎng)絡(luò)輿情事件發(fā)生時(shí),首先按照一定的時(shí)間間隔采集該事件的熱度,獲得該事件的熱度時(shí)間序列;然后利用DTW距離計(jì)算新事件熱度序列與每一類熱度高峰變化模式值的相似度,將其劃分到相似度最大的熱度高峰變化模式中;最后將該熱度高峰變化模式曲線對(duì)應(yīng)數(shù)值按照已知實(shí)際熱度值進(jìn)行一定比例縮放,得到熱度高峰趨勢預(yù)測曲線,預(yù)測出網(wǎng)絡(luò)輿情事件熱度高峰對(duì)應(yīng)的時(shí)間范圍,具體步驟如下:

      a.按一定時(shí)間間隔采集新事件發(fā)生初期的熱度,獲得初期熱度序列x,長度為len(x)。設(shè)每一類的熱度高峰變化模式對(duì)應(yīng)的熱度序列為yi,長度為128,i的大小取決于熱度高峰變化模式的數(shù)目。

      b.使用DTW距離計(jì)算x與yi的相似度,將x劃分到相似度最大(DTW距離最小)的熱度高峰變化模式中,將該模式作為事件熱度高峰趨勢的預(yù)測模型。通常選取yi中前l(fā)en(x)個(gè)數(shù)值參與距離的計(jì)算,但為保證結(jié)果的準(zhǔn)確性,需考慮現(xiàn)實(shí)時(shí)序曲線與模式曲線之間可能存在的偏移誤差,選取的yi的數(shù)值長度相較于len(x)需進(jìn)行一定程度的延長,延長距離由模式曲線的趨勢決定,設(shè)延長距離為d,最終選取yi中(len(x)+d)個(gè)數(shù)值計(jì)算DTW距離。

      c.將選定的熱度高峰變化模式曲線對(duì)應(yīng)數(shù)值按照已知實(shí)際熱度值進(jìn)行一定比例縮放,得到網(wǎng)絡(luò)輿情事件熱度高峰趨勢預(yù)測曲線。觀察曲線趨勢,定位曲線波峰位置,將每一維度轉(zhuǎn)換為與之相對(duì)應(yīng)的具體時(shí)間,最終獲取網(wǎng)絡(luò)輿情事件熱度高峰對(duì)應(yīng)的時(shí)間范圍。

      4 實(shí)驗(yàn)與分析

      4.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)共使用三個(gè)數(shù)據(jù)集,前兩個(gè)數(shù)據(jù)集來自Stanford大學(xué)的MemePhr和Twhtag數(shù)據(jù)集。MemePhr數(shù)據(jù)集選自博客和網(wǎng)站上的1 000個(gè)熱門帖子和新聞,以每小時(shí)的評(píng)論數(shù)作為熱度,維度為128;Twhtag數(shù)據(jù)集選自twitter上的1 000熱門帖子,以每小時(shí)該話題被提到的次數(shù)作為熱度,維度為128;第三個(gè)數(shù)據(jù)集是從新浪微博平臺(tái)采集的2021年11月30日3時(shí)到12月5日10時(shí)網(wǎng)友關(guān)于“失聯(lián)攝影師鹿道森確認(rèn)死亡事件”所發(fā)表的博文內(nèi)容,共計(jì)3 714條,統(tǒng)計(jì)每小時(shí)網(wǎng)友發(fā)表的博文數(shù)量作為該事件每小時(shí)的熱度。本文基于前兩個(gè)標(biāo)準(zhǔn)熱度時(shí)間序列數(shù)據(jù)集和“鹿道森事件”相關(guān)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)研究。

      4.2 確定維度和聚類數(shù)目

      通過進(jìn)行對(duì)比實(shí)驗(yàn),不斷調(diào)整降維維數(shù),結(jié)果表明當(dāng)熱度序列降到一半維度(64維)時(shí),降維后的熱度序列比較完整的保留著原始熱度序列的趨勢和特征。部分對(duì)比結(jié)果如圖3所示。

      圖3 不同維度時(shí)間序列曲線圖

      通過實(shí)驗(yàn)尋找最佳聚類數(shù),選取F值與D值的最小比值,實(shí)驗(yàn)發(fā)現(xiàn)結(jié)果不停下降,從k=6開始導(dǎo)數(shù)趨于0,F(xiàn)/D最小且不再改變,則確定最佳的聚類數(shù)(k=6),結(jié)果如圖4所示。

      圖4 F與D的比值結(jié)果

      4.3 算法聚類結(jié)果比較

      為驗(yàn)證提出的LTTB-KSC聚類算法的有效性,對(duì)KSC和LTTB-KSC算法從聚類效率和聚類效果兩方面進(jìn)行比較。

      a.效率比較。對(duì)比KSC和LTTB-KSC算法在MemePhr和Twhtag數(shù)據(jù)集上進(jìn)行聚類所消耗的時(shí)間,結(jié)果如圖5所示,時(shí)間單位為s。

      圖5 兩個(gè)算法在不同數(shù)據(jù)集下的消耗時(shí)間結(jié)果

      從圖5中可以看出LTTB-KSC算法在聚類時(shí)間上相較于KSC算法有了明顯的改進(jìn),LTTB-KSC算法在MemePhr數(shù)據(jù)集上進(jìn)行聚類的時(shí)間相較于KSC算法減少了將近35%,在Twhtag數(shù)據(jù)集聚類的時(shí)間減少了將近21.5%。

      b.效果比較。衡量一個(gè)聚類算法的優(yōu)劣,不僅要考慮使用該算法進(jìn)行聚類的效率,還要考慮聚類結(jié)果是否合理,本文用F值(公式6)和D值(公式7)從類內(nèi)和類間兩方面評(píng)價(jià)聚類結(jié)果的合理性。表1給出了KSC算法及其組合算法在兩個(gè)數(shù)據(jù)集上聚類結(jié)果的F值和D值,對(duì)比表內(nèi)數(shù)值可以看出LTTB-KSC算法的聚類結(jié)果在類內(nèi)成員緊湊程度和類間差異性上都要優(yōu)于KSC算法,原因在于LTTB-KSC算法對(duì)原始熱度時(shí)間序列進(jìn)行了降維,降維后的熱度序列比較完整的保留著原始熱度序列的趨勢和特征,然后在低維數(shù)據(jù)上計(jì)算出每個(gè)類的初始矩陣中心,則優(yōu)化了初始類別矩陣中心的計(jì)算結(jié)果,并以此為基礎(chǔ)進(jìn)行迭代,更新每個(gè)類別矩陣中心,能有效改善KSC算法初始類別中心的敏感性問題。

      表1 兩個(gè)算法在不同數(shù)據(jù)集下的F值和D值

      4.4 構(gòu)建熱度高峰變化模式

      以MemePhr和Twhtag數(shù)據(jù)集中的熱度時(shí)間序列為基礎(chǔ)構(gòu)建熱度高峰變化模式。首先對(duì)數(shù)據(jù)集中的熱度序列進(jìn)行聚類,將熱度序列按照變化趨勢聚為6類,結(jié)果如圖6和圖7所示;然后采用三次樣條插值法將每一類的矩陣中心維度從64維擴(kuò)展到128維,結(jié)果如圖8和圖9所示。

      圖6 MemePhr數(shù)據(jù)集聚類結(jié)果的矩陣中心曲線

      圖7 Twhtag數(shù)據(jù)集聚類結(jié)果的矩陣中心曲線

      圖8 MemePhr數(shù)據(jù)集擴(kuò)展維度后的矩陣中心曲線

      圖9 Twhtag數(shù)據(jù)集擴(kuò)展維度后的矩陣中心曲線

      觀察每一類擴(kuò)維后的矩陣中心曲線,根據(jù)曲線的趨勢特征選擇高斯混合模型來對(duì)其進(jìn)行曲線擬合,得出熱度高峰函數(shù)。每一類的熱度高峰函數(shù)曲線如圖10和圖11所示。

      圖10 MemePhr數(shù)據(jù)集下每一類熱度高峰函數(shù)曲線

      圖11 Twhtag數(shù)據(jù)集下每一類熱度高峰函數(shù)曲線

      根據(jù)每一類矩陣中心曲線特征,選擇使用5個(gè)高斯分布對(duì)其進(jìn)行曲線擬合,得到的熱度高峰函數(shù)具體公式為

      (15)

      觀察每一類熱度高峰函數(shù)曲線圖,曲線多呈現(xiàn)單峰和雙峰特征,結(jié)合曲線趨勢可將人們對(duì)網(wǎng)絡(luò)輿情事件關(guān)注程度的曲線高峰劃分為三大變化模式,如表2所示。

      表2 熱度高峰變化模式

      a.單高峰模式。事件一經(jīng)發(fā)生迅速引起廣泛關(guān)注,熱度達(dá)到最高峰,當(dāng)公眾事件得到處理或者滿足人們的好奇心后,互聯(lián)網(wǎng)出現(xiàn)的海量新話題轉(zhuǎn)移了人們的注意力,人們對(duì)該事件的關(guān)注程度迅速衰減。

      b.高-低峰模式。事件一經(jīng)發(fā)生引起廣泛關(guān)注,熱度急劇上升達(dá)到最高峰,事件進(jìn)入衰退期后,當(dāng)與事件相關(guān)聯(lián)的消息發(fā)布時(shí),會(huì)再次引起人們對(duì)該事件的關(guān)注,引發(fā)熱度波動(dòng)。

      c.低-高峰模式。事件發(fā)生初期并沒有引起廣泛關(guān)注,熱度呈現(xiàn)小幅度波動(dòng),隨著事件發(fā)酵到一定程度,人們對(duì)事件的關(guān)注程度急劇攀升,熱度達(dá)到最高峰。當(dāng)事件進(jìn)入衰退期后,會(huì)出現(xiàn)兩種情況,一是熱度衰減為0,人們不再關(guān)注該事件;二是當(dāng)相關(guān)聯(lián)事件或話題出現(xiàn)后,再次引發(fā)該事件的熱度波動(dòng)。

      在熱度高峰時(shí)間范圍的預(yù)測中,主要關(guān)注的是峰值數(shù)據(jù)和特征以及對(duì)應(yīng)的時(shí)間范圍,因此根據(jù)每一類熱度高峰函數(shù)曲線的波形特征將其劃分到相應(yīng)的熱度高峰變化模式中,劃分結(jié)果如表3和表4所示。

      表3 MemePhr數(shù)據(jù)集熱度高峰模式劃分

      表4 Twhtag數(shù)據(jù)集熱度高峰模式劃分

      根據(jù)兩個(gè)數(shù)據(jù)集的模式劃分結(jié)果,使用算數(shù)平均法整合熱度高峰函數(shù)曲線具體數(shù)值,最終得到熱度高峰變化模式曲線如圖12所示。

      圖12 熱度高峰變化模式曲線

      4.5 熱度高峰時(shí)間范圍預(yù)測

      根據(jù)網(wǎng)絡(luò)輿情事件熱度高峰變化模式,預(yù)測新輿情事件熱度高峰變化趨勢。根據(jù)采集的“鹿道森事件”的數(shù)據(jù),將媒體通報(bào)失聯(lián)攝影師鹿道森確認(rèn)死亡前32小時(shí)內(nèi)(11月30日3時(shí)到12月1日10時(shí))每小時(shí)事件的熱度作為訓(xùn)練數(shù)據(jù),構(gòu)建初期熱度時(shí)間序列。然后利用DTW距離計(jì)算“鹿道森事件”初期熱度序列與每一類熱度高峰變化模式值的相似度,通過對(duì)比事件初期熱度序列與每一類熱度高峰變化模式曲線趨勢,確定參與計(jì)算的熱度高峰變化模式數(shù)值相較于初期熱度序列延長5個(gè)單位,最終計(jì)算結(jié)果顯示與高-低峰模式的相似度最大,將高-低峰熱度高峰變化模式作為“鹿道森事件”的預(yù)測模型,根據(jù)訓(xùn)練數(shù)據(jù)將預(yù)測模型的數(shù)值放大500倍,得到“鹿道森事件”熱度高峰趨勢預(yù)測曲線,結(jié)果如圖13所示。

      圖13 “鹿道森事件”熱度高峰趨勢預(yù)測對(duì)比

      根據(jù)“鹿道森事件”熱度高峰趨勢預(yù)測曲線,捕捉峰值特征,將小時(shí)數(shù)轉(zhuǎn)換為具體時(shí)間,轉(zhuǎn)換結(jié)果如圖14所示,精確定位事件熱度高峰對(duì)應(yīng)的時(shí)間范圍。圖中矩形虛線框部分對(duì)應(yīng)的時(shí)間范圍為12月1日中午12點(diǎn)到12月3日上午7點(diǎn),這段時(shí)間即為預(yù)測的“鹿道森事件”熱度最高的時(shí)間范圍。

      圖14 “鹿道森事件”熱度高峰時(shí)間范圍

      從圖13和圖14對(duì)比結(jié)果可知,“鹿道森事件”熱度高峰趨勢真實(shí)曲線與預(yù)測曲線外輪廓大體相似,雖然預(yù)測熱度值和真實(shí)熱度值存在一定偏差,但預(yù)測曲線能夠反映出真實(shí)曲線趨勢變化,突出波峰特征,根據(jù)預(yù)測曲線定位的“鹿道森事件”熱度高峰時(shí)間范圍與真實(shí)熱度高峰時(shí)間范圍大致重合,結(jié)果理想。

      5 結(jié) 論

      本文為進(jìn)行網(wǎng)絡(luò)輿情事件熱度高峰時(shí)間范圍的預(yù)測展開了一系列研究和實(shí)驗(yàn),首先對(duì)熱度序列聚類方法和熱度趨勢研究進(jìn)行了梳理和總結(jié),針對(duì)KSC算法的優(yōu)缺點(diǎn),提出了LTTB-KSC算法以及科學(xué)合理的聚類數(shù)目確定方法。在MemePhr和Twhtag數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明LTTB-KSC算法在聚類效率和效果上都優(yōu)于KSC算法。然后借助三次樣條插值法和高斯混合模型構(gòu)建每一類的熱度高峰函數(shù),通過分析熱度高峰函數(shù)曲線將熱度高峰的變化情況分為單高峰、高-低峰和低-高峰三種模式。最后使用DTW距離判斷網(wǎng)絡(luò)輿情事件所屬的熱度高峰變化模式,得出熱度高峰趨勢曲線,定位熱度高峰對(duì)應(yīng)的時(shí)間范圍。本文所構(gòu)建的熱度高峰變化模式將有利于相關(guān)部門及時(shí)采取不同措施控制輿論導(dǎo)向,維護(hù)社會(huì)和諧穩(wěn)定。

      本研究在構(gòu)建熱度高峰變化模式時(shí)還存在一些問題,每個(gè)熱度高峰變化模式對(duì)應(yīng)數(shù)值采用算數(shù)平均法求得,最終結(jié)果會(huì)弱化曲線部分趨勢特征,后續(xù)會(huì)考慮采用更為合適的方法求解熱度高峰變化模式值,使熱度高峰變化模式曲線更具有代表性。此外,在未來的研究中將根據(jù)本文所提出的方法及時(shí)定位網(wǎng)絡(luò)輿情事件熱度高峰時(shí)間范圍,采集民眾在該時(shí)間段內(nèi)對(duì)事件的討論內(nèi)容,監(jiān)測網(wǎng)絡(luò)輿情事件可能產(chǎn)生的衍生話題。

      猜你喜歡
      高峰聚類矩陣
      病毒病將迎“小高峰”全方位布控巧應(yīng)對(duì)
      石慶云
      書香兩岸(2020年3期)2020-06-29 12:33:45
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      初等行變換與初等列變換并用求逆矩陣
      雨天早高峰,自在從容時(shí)。
      基于改進(jìn)的遺傳算法的模糊聚類算法
      矩陣
      南都周刊(2015年4期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年3期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年1期)2015-09-10 07:22:44
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      永和县| 汝城县| 溧水县| 满城县| 曲沃县| 洛南县| 中方县| 婺源县| 太原市| 石泉县| 连南| 望城县| 昭平县| 九寨沟县| 台州市| 西藏| 临沂市| 扬中市| 十堰市| 铜梁县| 贺州市| 昭苏县| 陆丰市| 龙江县| 仁布县| 当阳市| 安化县| 黔西县| 盐城市| 永昌县| 彭山县| 乌拉特中旗| 永城市| 马鞍山市| 都兰县| 盘锦市| 永福县| 临沭县| 健康| 张家港市| 广宁县|