• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于LDA模型的微信留言文本主題發(fā)現(xiàn)研究

      2017-09-15 01:26施利萍
      科教導刊·電子版 2017年24期

      施利萍

      摘 要 目前越來越多的機構建立微信公眾平臺,在公眾號文章中的留言反映其受眾在該文章話題下的關注熱點和真實觀點,因此分析和挖掘留言具有十分重要的參考價值。分析了微信公眾號留言文本的挖掘價值,通過LDA主題模型,研究了如何從留言文本出挖掘出熱點話題,從而幫助公眾號更好地發(fā)展。

      關鍵詞 微信留言文本 主題發(fā)現(xiàn) LDA模型

      中圖分類號:TP181 文獻標識碼:A

      1微信公眾號留言文本的挖掘價值

      隨著移動互聯(lián)網的普及,通過手機上網的中國網民規(guī)模近十億,而微信是目前使用最多的社交軟件,月活躍用戶數(shù)達5億,微信公眾號達數(shù)百分個。越來越多各單位機構建立微信公眾平臺,利用其進行宣傳、展示、服務、產品推介等。微信公眾平臺傳播資訊具有針對性強,覆蓋一切碎片化時間;傳播精準,歷史信息傳播周期長;交互性強,方便及時的交互體驗;實時、靈活、低成本等特點。公眾號的訂閱者一般對該公眾號信息較為關注,在公眾號文章中的留言反映他們在該文章話題下的關注熱點和真實觀點。因此我們可以利用數(shù)據(jù)挖掘技術從這些留言文本中挖掘出網民所討論的熱點話題,從而了解到網民的態(tài)度。留言大數(shù)據(jù)挖掘有利于公眾平臺獲取當前的熱門關注點,從而有針對性地加強相關內容創(chuàng)建,進而提升用戶體驗和活躍度,增加用戶的粘度和參與度。

      留言文本具有信息內容短、信息量少的特征,這加大了提取話題的難度。本文針對公眾號留言文本,應用LDA主題模型提取出熱點話題。

      2 LDA主題模型

      主題模型是當前文本表示研究的主要范式,LDA(LatentDirichletAllocafion)主題模型是一種基于概率的主題發(fā)現(xiàn)模型,能夠提取文本隱含主題的非監(jiān)督學習模型,是主體模型中典型的代表。由于LDA模型是全概率主題生成模型,可以利用高效的概率推斷算法進行計算,同時LDA模型在計算過程中與訓練文檔數(shù)量無關,因此更適合處理大規(guī)模語料庫。

      LDA模型是一個三層貝葉斯產生式概率模型,該模型采用“詞袋”的方法,這種方法將每一篇文檔看作一個詞頻向量,假設文檔是由一系列潛在主題混合而成,主題是由詞匯表中所有的詞匯混合而成,每一篇文檔代表了主題所代表的一個概率分布,而每一個主題又代表了很多單詞所構成的一個概率分布。

      3基于LDA模型的微信留言文本主題提取

      3.1文本預處理

      保證數(shù)據(jù)的質量,降低無關數(shù)據(jù)或噪聲數(shù)據(jù)對結果的影響,需要對抓取到元數(shù)據(jù)進行預處理。本文主要從以下方面對數(shù)據(jù)進行整理:

      (1)剔除只包含特殊字符和數(shù)字的留言,只保留重復評論中的一條;

      (2)利用IKAnalyzer2012開源分詞類庫對每條留言進行分詞,保留名詞和動詞;對短文本分詞可通過使用詞典中的詞條進行字符串匹配來實現(xiàn)。將短文本分詞后再去掉一些無意義的詞語,如“的”、“了”等詞語,雖然出現(xiàn)頻率高,但對文本分類沒有太大的貢獻;

      (3)建立停用詞表剔除文本內容中的無用字詞。

      3.2 LDA建模

      假定給定一個留言集R包含M篇留言文本{r1,r2,…,rM},留言文本rm是長度為Nm的詞匯序列,記為rm={w1,w2,…,wN},其中wn表示序列中的第n個詞匯,在M篇留言中分布著K個主題{t1,t2,…,tk}。詞匯wi在留言rm中的概率可以表示為:

      p(wi|rm) ==1p((wi|zi=j)p(zj=j|rm)) (1)

      其中,zi是潛在主題,標示詞匯wi的主題序號,p(wi|zi=j) 標示詞匯wi被分配到第j個主題的概率p(zj=j|rm),標示第j個主題在留言rm中的概率。

      模型假定每篇留言是由各個主題隨機混合而成,將主題表示為在詞匯上的概率分布,由此其中每個主題都是可解釋的。模型使用多項式分布建立貝葉斯網絡中各參數(shù)和變量之間的關聯(lián),并假設多項式分布的參數(shù)服從Dirichlet。每個主題又是詞匯表中所有詞匯的隨機混合,混合比例也服從多項式分布。

      根據(jù)經驗,模型中主題數(shù)目K預設為50,同時根據(jù)Steyvers的建議,令 根據(jù)主題數(shù)目變化, 的所有分量取經驗值=50/T,而 的所有分量取固定的經驗值 =0.01,這三個可變量的取值確定后,結合輸入向量運行Gibbs抽樣,得到詞匯表中的詞語在K個潛在主題上的概率分布以及潛在主題在每篇留言中的概率分布。

      本文認為表達某個主題的留言越多該主題就越重要。在模型中,一個留言可能包含一個或若干個主題,是若干主題的混合,那么某個主題的重要度就與該主題在所有留言的各混合主題中所占的比例有關。所以留言集合中主題的重要度可以通過計算留言集合中所有句子包含的該主題的權重的累加和得到。最后將主題按重要程度排序,從而得到留言文本的熱點主題。

      4 結束語

      本文分析了微信公眾號留言文本的挖掘價值,通過LDA主題模型,研究了如何從留言文本出挖掘出熱點話題,從而幫助公眾號更好地發(fā)展。

      參考文獻

      [1] 劉坤峰,劉斌,秦長濤,劉振名,梁品超.新媒體微信公眾平臺建設及運營策略研究[J].河北工程技術高等??茖W校學報,2017(01):42—44.

      [2] 余傳明,張小青,陳雷.基于LDA模型的評論熱點挖掘:原理與實現(xiàn)[J].情報理論與實踐,2010(05):103—106.endprint

      连云港市| 云梦县| 全椒县| SHOW| 宕昌县| 乌鲁木齐县| 临安市| 河南省| 浦北县| 成都市| 永嘉县| 顺昌县| 镇江市| 绥中县| 南投市| 若尔盖县| 大埔区| 凉城县| 乐安县| 泸水县| 乐都县| 新郑市| 呼伦贝尔市| 秦安县| 航空| 横峰县| 民县| 安塞县| 黎川县| 木里| 福鼎市| 洪洞县| 巩留县| 阜宁县| 揭东县| 敦煌市| 婺源县| 阿拉善左旗| 宁远县| 安远县| 历史|