摘 要:針對國網客服中心客戶重復訴求問題,面對輿情群體性事件的沖擊,須了解輿情群體性事件的演化規(guī)律,確定事件類別,提煉事件特征?;诓煌悇e的網絡群體性事件,基于海量的95598工單數(shù)據集,通過LDA主題模型與高斯混合聚類算法相結合,利用LDA模型實現(xiàn)文本潛在語義的識別構建的網絡群體性事件動態(tài)識別模型,通過大量的文本訓練,當事件聚類數(shù)為6時有良好的解釋性。利用LDA主題模型和高斯混合聚類算法,減少了模型的迭代次數(shù),確定最佳主題數(shù),提高了網絡群體性事件識別結果的準確性。
關鍵詞:高斯聚類;輿情數(shù)據;群體性事件;主題模型;動態(tài)識別
中圖分類號:TP 39 " " " 文獻標志碼:A
網絡輿情是指利用互聯(lián)網對輿情事件表達相關言論。當發(fā)生群體性輿情事件時,相關職能部門需要迅速收集網絡輿情信息,跟蹤事態(tài)變化,這是亟待解決的問題[1]。本文基于95598工單和其龐大的用戶數(shù)據,構建一種對公眾輿論進行實時監(jiān)測和分析的輿情監(jiān)測機制。通過95598熱線工單采集用戶訴求信息,結合數(shù)據分析和挖掘技術,對公眾輿論進行全面、客觀、精準地監(jiān)測和分析。
1 模型架構設計
對網絡輿情群體性事件的研究主要結合文本處理技術,目前國內已有眾多學者在相關領域的研究取得進展。張君第等通過使用TF-IDF算法對文本特征提取,使用徑向量函數(shù)的神經網絡模型以及自然語言處理算法對數(shù)據進行訓練,來進行輿情分析與預警[2]。學者秦洋等通過自然語言處理等技術流程,得到熱度和情感傾向分析,并將其應用于輿情監(jiān)測[3]。學者趙明輝采用文本挖掘技術進行數(shù)據爬取,再結合情感分析、主題模型等方法對文本評論中的隱性知識做顯性挖掘[4]。陳謙等通過對文本數(shù)據做降維處理后,結合感知機技術對文本做進一步聚類[5]。周忠寶等使用文本挖掘技術對彈幕數(shù)據進行爬取,然后進行動態(tài)主題分析,并使用CNN對文本進行情感分析[6]。2022年田永承等將每個聚類中心代表一個話題,將親和傳播算法引入網絡輿情熱點話題的檢測中[7]。本文基于國網客服中心95598數(shù)據分析平臺,采用網絡自動化技術將客戶訴求信息數(shù)據進行抓取,采用聚類算法進行主題信息聚類??紤]到基礎的聚類算法,因為采用迭代方法,所以聚類結果往往收斂于局部最優(yōu)而得不到全局最優(yōu)解,且可處理的數(shù)據類型有限,對于高維數(shù)據對象的聚類效果不佳。本文通過高斯聚類模型與LDA主題模型的融合,利用LDA主題模型確定聚類點初始位置?;诖?,選取對網絡群體性事件文檔集中影響程度排名較高的前N個主題,根據確定的N個主題對網絡群體性事件文本信息集開始初步聚類,以此定位為初始聚類中心,減少聚類迭代次數(shù),使聚類結果更準確。
1.1 主題提取模型
主題模型(Topic Model)是自然語言處理中的一種常用模型,其作用是從大量文檔中自動提取主題信息。主題模型的核心思想是每篇文檔都可以看作是多個主題的混合,而每個主題則由1組詞構成。LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,作為一種非監(jiān)督機器學習技術,可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息。LDA模型是基于概率潛在語義分析PLAS模型的改進。PLSA是基于概率潛在語義分析的,它假設文檔和主題共同生成詞語,PLSA的主題是由潛在語義向量構成的,解釋性較差。有學者通過引入對狄利克雷先驗參數(shù),解決了PLAS模型在文檔層概率模型缺失的問題,實現(xiàn)了主題的詞匯概率分布和文檔主題概率分布。LDA模型是一種全概率主題生成模型,被廣泛應用于文本處理任務,在語料規(guī)模較大的文本上表現(xiàn)良好。有學者基于LDA模型對2006—2017年的研究文獻中的主題演化趨勢進行分析,得到了圖書情報研究的熱門主題并總結了演化趨勢[8]。
LDA假設每個文檔定義了一個主題(topic)的概率分布,而每個主題定義了一個詞(word)的概率分布。它還假設在文檔中的每個詞是這樣被產生的:先從文檔中抽出一個主題(例如金融),然后再從主題中抽出一個詞(例如貨幣)。每個詞的產生過程彼此獨立。LDA算法有訓練和測試兩個階段 , 當訓練時輸入許多文檔,輸出這兩個概率分布的參數(shù);當測試時輸入一個新文檔,輸出它的主題分布。LDA可以從一篇文檔中提取少數(shù)幾個主題,與人們在整理文件的過程中打上標簽相似,為信息檢索提供了便利。
其基本步驟如下:首先,從主題分布中隨機選擇一個主題;其次,從該主題的單詞分布中隨機選擇一個單詞;重復上述過程,直到生成整個文本。將文檔—詞語由高維度的向量空間矩陣映射轉換為2個低維度的矩陣:文檔—主題矩陣、主題—詞語矩陣,其中文檔—主題及主題—詞語均服從多項式分布。一篇文檔中每個詞語出現(xiàn)的條件概率公式如公式(1)所示。
P(詞語|文檔)=∑主題P(詞語|主題)P*(主題|文檔) " (1)
式中:P(詞語|文檔)為該詞語在文檔中出現(xiàn)的概率值,是已知的,P(詞語|主題)與P(主題|文檔)是未知的,P(詞語|主題)為詞語在對應主題下的概率,如果概率值越大就說明特征詞與該主題的關聯(lián)性越大。P(主題|文檔)為文檔對應主題下的概率值,如果概率值越大就說明主題與文檔的聯(lián)系更緊密,這樣可以反映主題構成情況。假設共有M篇文檔,可提取K個主題。每個文檔都是獨立的主題分布,主題概率分布參數(shù)α服從狄利克雷分布。θ為每篇文章的主題分布,對于第i篇文檔的主題分布是θi。每個主題都有各自的詞項分布,詞項分布概率參數(shù)β也服從于狄利克雷分布,α、β與主題數(shù)目K都是建模前需要確定的超參數(shù)。
針對文檔內第n個詞語,首先,完成從相應的文檔中主題分布進行主題抽取的步驟,其次,再去完成詞項分布中主題抽取的步驟,最后,持續(xù)重復上述步驟,直到完成文檔的所有遍歷過程,其聯(lián)合概率如公式(2)所示。
(2)
式中:t為主題topic;w為文檔中的詞word;α為主題概率分布;β為詞項概率分布;θ、t為隱含變量;N為文檔中全部詞的數(shù)量。
1.2 高斯混合模型聚類
1.2.1 高斯混合模型(GMM)
高斯混合模型(Gaussian Mixed Model,GMM)是一種基于概率密度函數(shù)的概率建模技術,它假設每個聚類都是由多個高斯分布組成的混合分布。GMM的目標是通過最大化似然函數(shù)來估計模型參數(shù),包括每個高斯分布的均值、方差和混合系數(shù),以及數(shù)據點屬于每個聚類的概率。當聚類時,GMM將數(shù)據點分配到概率最大的聚類中,而不是像K-Means那樣將數(shù)據點硬性分配到某個聚類中。GMM在許多應用中都表現(xiàn)出色,當數(shù)據點沒有明顯分離時,可以對復雜的多維數(shù)據進行建模。高斯混合模型基于一個假設:數(shù)據點x=(x1,x2,...,xn)T服從高斯分布;Xi為d維隨機變量,則其模型的概率分布如公式(3)所示。
(3)
式中:xi為第i個觀測數(shù)據;k為子高斯模型的數(shù)量;ak為觀測數(shù)據屬于第k個子模型的概率;?(x|θ)為第k個子模型的高斯分布密度函數(shù)。對于這個模型來說,參數(shù)θ=(μk,αk,σk)也就是子模型的期望、方差(或協(xié)方差)以及在混合模型的概率。然后需要由觀測數(shù)據求混合模型中的參數(shù)θ,對于參數(shù)估計來說,通常使用的就是極大似然(Maximum-likelihood)估計方法。對于高斯混合模型來說,它的Log-Likelihood 函數(shù)如公式(4)所示。
(4)
通過公式(4)中最大化對數(shù)似然函數(shù)來得到參數(shù)θ的估計量,由于不知道每個數(shù)據觀測點是屬于哪個子分布的隱變量的,因此在log中還有求和,對于每個子模型都有未知的(μk,ak,σk),無法直接進行求導計算,需要采用迭代的方法求解,通常使用EM這種迭代計算的方法。
1.2.2 期望最大算法(EM)
EM算法屬于迭代優(yōu)化策略,其作用是找到概率模型中參數(shù)的最大似然估計,利用Jensen不等式計算似然函數(shù)的下界(Lower bound),通過極大化下界得到極大化似然函數(shù)。期望最大算法的每次迭代都有2個步驟,即E-step(求期望),M-step(求極大)。其具體步驟如下。對參數(shù)進行初始化。
E-step:基于當前狀態(tài)的參數(shù)值,確定每條數(shù)據來源各子模型的概率值,如公式(5)所示。
(5)
M-step:計算新一輪迭代的模型參數(shù),如公式(6)~公式(8)所示。
(6)
(7)
(8)
重復計算步驟(2)和步驟(3),直至收斂。
式中:xj為第j個觀測數(shù)據;?(xj|θk)為第k個子模型的高斯分布密度函數(shù);θk也就是第k個子模型的期望、方差(或協(xié)方差)以及在混合模型的概率;rjk為數(shù)據j來自子模型k的概率;μk為第k個高斯分量的期望向量;∑k為第k個高斯分量的協(xié)方差矩陣;ak為新一輪迭代后的數(shù)據j來自子模型k的概率。
EM聚類步驟如下:在E步中根據給定的觀測變量與當前的參數(shù)估計值計算完整數(shù)據對數(shù)似然函數(shù)的條件期望值;在M步中根據E步得到的后驗概率,計算使對數(shù)似然函數(shù)值最大的參數(shù)估計量。E步與M步之間交替迭代,當公式(8)收斂到某一確切值時停止迭代,最終每個樣本的聚類結果由其后驗概率最大值所在的下標決定。通過以上部分獲取高斯混合模型的參數(shù)。雖然EM算法具備收斂性,但是仍然需要通過初始化幾次不同的參數(shù)進行迭代,取結果最好的那次,保證找到全局最大值,而不是局部最大值。
1.2.3 算法優(yōu)化
根據上述算法步驟可知,當模型在開始階段估計參數(shù)時,初始值非常敏感,設置不同的初始值導致模型可能產生南轅北轍的估計結果,對EM算法來說,需要找到合理的初始化方法。目前,對于模型的初始化主要是利用其他聚類算法,雖然能夠獲取較優(yōu)異的結果,但是這種方法進行初始化不僅復雜,而且還會造成重復聚類。由于國家電網用戶是億級,業(yè)務自身所生產數(shù)據是上億級別的量,為了保證系統(tǒng)穩(wěn)定性,減輕算法運算壓力,因此本文對模型初始值選擇進行優(yōu)化。這樣避免了選擇初始值時重復聚類的問題,也減少了模型運算負荷。本文引入三分位數(shù)優(yōu)化初始值,分位數(shù)本質上是一種排序方式,它是連續(xù)分布函數(shù)中的一個點,將其劃分為幾個等份的數(shù)值點,在統(tǒng)計學研究中會經常使用中位數(shù)、三分位數(shù)等。三分位數(shù)是在某排序的數(shù)列中存在2個分位點,將該數(shù)列劃分為3個等值部分。假設將一列數(shù)據依據值得大小進行排序,三分位數(shù)可以將這列數(shù)據分割成高、中、低3個部分。
根據高斯混合聚類算法,基于EM模型實施初始化聚類,主要目的是為了獲得初始分類中經驗知識占比較高的狀態(tài)。當數(shù)據服從高斯混合分布時,盡量將組成部分的各個多維高斯分布進行比較明顯的區(qū)分。當基于高斯混合聚類算法結合EM算法開始聚類過程時,其步驟明細如下。
假設聚類的對象是一個n×p的數(shù)據樣本,n為樣本的數(shù)據個數(shù),p為樣本的維度。
步驟一:首先,對數(shù)據樣本的第一列進行值排序,其次,計算該列的三分位數(shù),根據分位數(shù)C1和C2的將其劃分為3個等值部分,為3個初始的分類。對數(shù)據樣本中第2,3,…,p列的值進行上述過程,結合三分位數(shù)法確定剩下的p-1個初始分類方式。
步驟二:依次計算p個初始分類方式的參數(shù)θ,然后計算每個初始分類方式中各類別的中心距離dj(j = 1,2,3,…,p),dj為馬氏距離,然后確定dj中最大值,則其為對應的初始分類,同時該分類方式下的參數(shù)θ={ω1,ω2,...,ωk,μ1,μ2,...,μk,∑1,∑2,...,∑k},作為EM算法聚類的初始值。
2 輿情群體性事件的識別
首先,本試驗利用爬蟲抓取95598數(shù)據分析平臺的工單數(shù)據,其次,對訓練的文本數(shù)據集進行分詞處理,同時考慮到具體使用場景對部分停用詞或者語句進行剔除,減少數(shù)據文本的干擾信息。最后,輿情數(shù)據文本數(shù)據處理后,再引入評價指標衡量最佳主題數(shù),在統(tǒng)計學中,常用困惑度來評價LDA模型的性能優(yōu)劣,如公式(9)所示。
(9)
式中:p(w)為每個詞在文本中出現(xiàn)的概率;N為文本中所有詞的集合。如果困惑度過小,就說明模型對未見過的數(shù)據的預測能力強,反之表明模型對未見過的數(shù)據的預測能力較弱。
本文使用LDA主題模型,模型服從狄利克雷分布,LDA主題模型中的“文檔-主題”和“主題-詞項”的概率分布,即q和j的值。首先,得到q和j的先驗分布,其分別有一個狄利克雷的先驗分布,其超參數(shù)分別為a和b。然后,采用Gibbs抽樣法進行推斷,推斷出q分布,最后,用LDA主題模型中的“文檔-主題”的概率分布q作為每篇網絡群體性事件文檔的向量,建立向量空間。LDA主題模型求解包括以下3個過程。1)以a為先驗超參數(shù),對每個文檔初始化“文檔-主題”的概率分布q。2)以b為先驗超參數(shù),對每個主題初始化“主題-詞項\"的概率分布j。3)輿情文本d中的每個詞項,從該文本的q分布中抽取一個主題;再從該主題的j分布中抽取一個詞項。經過Nd(Nd表示輿情文本d中的所有詞的集合)重復抽取,獲取最終輿情文本d。
首先,通過網格搜索法參數(shù)尋優(yōu)確定最佳主題數(shù)T=50,在曲線的最低拐點附近抽取主題效果最佳。其次,采用高斯混合聚類算法進行文本主題聚類,其步驟包括以下5個。1)采用三份位數(shù)法對參數(shù)進行初始化。2)E-step?;谶x取的參數(shù),確定數(shù)據集中的每個j來源于子模型k的概率。3)M-step。計算新一輪迭代的模型參數(shù)。4)重復計算步驟2)和步驟3),直至收斂。5)利用蘭德指數(shù)(Rand index,RI)評價聚類效果,RI取值范圍為[0,1],值的大小能夠直接表明聚類結果與實際情況是否一致,值越大,聚類效果越好。當試驗中聚類個數(shù)為6時,聚合效果最好(見表1)。
3 結語
由于高斯聚類算法具有收斂速度快、可以處理非常復雜的數(shù)據分布等優(yōu)點,因此其在文本聚類的數(shù)據挖掘中有優(yōu)異的表現(xiàn)。同時發(fā)現(xiàn)高斯聚類需要預設聚類個數(shù),且其對于初始值的敏感性較大,不同的初始化方法會得到不同的聚類結果。本文結合95598工單數(shù)據,為了提高網絡群體性事件識別結果的準確性,結合LDA主題模型確定初始化主題,然后再利用高斯混合聚類模型完成主題事件聚類。當聚類模型估計參數(shù)時,針對初始值敏感造成估計結果偏差的缺陷引入三分位數(shù)法優(yōu)化初始值,避免了初始值選擇時重復聚類的問題,也減少了模型運算負荷。采用上述方法減少迭代步驟,提高抗噪聲的能力,提高群體性事件聚類準確率。目前,95598輿情監(jiān)測機制是一個非常重要的輿情監(jiān)測工具,及時發(fā)現(xiàn)潛在的危機,提高公眾形象和公眾信任度。在后續(xù)研究中通過引入結果判別方法,使主題分類的結果更符合實際情況。
參考文獻
[1]MACLENNAN B, KYPRI K, LANGLEY J, et al.public sentiment
towards alcohol and local government alcohol policies in New Zealand[J].
International Journal of Drug Policy,2014,23(1):45-53.
[2]張君第.基于自然語言處理與智能語義識別的輿情監(jiān)測預警模型研究[J].電子設計工程,2022,30(17):165-169.
[3]秦洋,鄭楠昱.基于大數(shù)據的熱點話題輿情分析系統(tǒng)設計[J].無線互聯(lián)科技,2022,19(2):49-50.
[4]趙明輝,張玲玲.基于網絡評論文本挖掘的技術預見方法研究[J].科技管理研究,2022,42(16):176-181.
[5]陳謙,徐興梅,陳帥.基于文本挖掘的多用戶投訴數(shù)據流聚類算法[J].計算機仿真,2022,39(5):423-426.
[6]周忠寶,朱文靜,王皓,等.基于彈幕文本挖掘的社交媒體 KOL 研究[J].計算機工程與科學,2022,44(3):521-529.
[7]田水承,黃權.基于文本挖掘的煤礦瓦斯事故致因分析[J].煤礦安全,2022,53(5):241-245.
[8]林麗麗,馬秀峰.基于LDA模型的國內圖書情報學研究主題發(fā)現(xiàn)及演化分析[J].情報科學,2019,37(12):87-92.