• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語義詞向量的自媒體短文本主題建模

      2019-12-23 07:24:21黃嬋
      計算機時代 2019年12期

      黃嬋

      摘? 要: 短文本建模的稀疏問題是短文本主題建模的主要問題,文章提出基于詞向量的短文本主題建模模型—語義詞向量模型(Semantics Word Embedding Modeling,SWEM)。采用半自動的方法對短文本信息進行擴充,對短文本相應詞語進行同義詞林處理,增加短文本集合中詞共現(xiàn)信息,豐富文檔內容,推理出較高質量的文本主題結構,解決短文本的詞共現(xiàn)信息不足的問題。實驗表明,SWEM模型優(yōu)于LDA、BTM等傳統(tǒng)模型。

      關鍵詞: 短文本; 主題建模; 同義詞; SWEM

      中圖分類號:TP311? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)12-57-04

      Topic modeling of self-media short text based on semantic word vector

      Huang Chan

      (Ganzhou teachers college, Ganzhou, Jiangxi 341000, China)

      Abstract: The sparse problem of short text modeling is the main problem of short text topic modeling. This paper proposes a word-vector based short text topic modeling model SWEM (Semantics word embedding modeling). It uses semi-automatic method to expand short text information, the word in short text is processed with corresponding synonyms of the word, to increase word co-occurrence information in short text set, to enrich document content, so as to infer a high quality text topic structure and to solve the problem of insufficient co-occurrence of words in decisive texts. Experiments show that SWEM model is superior to traditional models such as LDA and BTM.

      Key words: short text; topic modeling; synonym; SWEM

      0 引言

      自媒體是指以現(xiàn)代化、電子化的手段,向不特定的大多數(shù)或者特定的單個人傳遞規(guī)范性及非規(guī)范性信息的新媒體的總稱。通常以短文本的形式活躍于視野中。其特點主要有文本長度較短,內容表達隨意常出現(xiàn)一些錯別字、同音字詞,甚至出現(xiàn)流行網絡用語。因此,在海量的短文本數(shù)據(jù)內挖掘有價值的信息是一項極具挑戰(zhàn)的任務。

      1 相關研究

      主題模型(topic model)是指以非監(jiān)督學習的方式對文集的隱含語義結構進行聚類的統(tǒng)計模型[1],而主題建模能夠從一個文本對象中自動識別它的主題,且發(fā)現(xiàn)隱藏的模式,有助于作出更好的決策。自媒體作為短文本的一種常見特性,挖掘其主題具有較強的實用價值,已經得到了科研工作者的關注與研究。

      Malone[2]等人在1987年就發(fā)表了具有影響力的論文,提出了最早的協(xié)同過濾。2003年,Blei等學者提出了隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)[3]模型。晏小輝[4]等的學者提出了一個雙詞主題模型(Biterm Topic Model,BTM),對雙詞來建模,構成了雙詞-主題-單詞的三層結構。唐曉波等[5]人建立了基于主題圖的用戶興趣模型,運用無尺度圖K-中心點算法對主題圖進行更深層次的聚類挖掘。鄧智龍[6]則提出了用戶興趣關聯(lián)規(guī)則的興趣發(fā)現(xiàn)方法,發(fā)現(xiàn)各個興趣之間的關聯(lián)規(guī)則。趙捧未等[7]提出的用戶興趣模型構建方法是利用了本地節(jié)點資源和知識地圖的構建。胡吉明等[8]從模塊度改進的角度,針對用戶興趣多元化和關系社區(qū)的交叉性特點對社區(qū)發(fā)現(xiàn)算法進行了改進。

      從上述的研究成果中可以看出,其核心部分都是建立主題模型,但建模過程中都面臨了短文本的稀疏問題,遺憾的是多數(shù)作者并沒有提出快速而簡易的方法。

      本文結合其他研究者思路對解決短文本的稀疏問題進行分析與研究。提出語義詞向量模型(Semanticswordembedding modeling,SWEM),對詞向量進行建模,對海量短文本自媒體信息構建結構化主題,發(fā)現(xiàn)社團和意見領袖。

      2 一種基于語義詞向量的自媒體短文本主題建模

      2.1 自媒體短文本主題建模分析

      傳統(tǒng)的主題模型是對文檔產生過程建模,認為存在文檔、主題、詞三層結構,文檔包含多個主題,詞由每個詞產生,隱式地利用文檔級別的詞共現(xiàn)信息推理主題結構,這類模型較適應于長文本。然而,短文本文檔經過去停用詞等手段處理之后,每個文本包含的詞數(shù)通常非常少,當傳統(tǒng)模型應用在短文本時,詞頻信息和詞共現(xiàn)信息嚴重不足,導致稀疏問題。在使用推理算法時,難以準確地推理出文檔中主題分布參數(shù)與主題和詞的分布參數(shù),大大影響短文本主題建模的效果。因此,解決短文本的稀疏問題是重點。

      2.2 語義詞向量模型

      哈工大同義詞詞林能針對不同的詞語的語義進行不同角度的詞匯擴充。面對同義詞林的優(yōu)勢,不難想到利用哈工大同義詞詞林,采用半自動的方法對短文本信息進行擴充,緩解短文本信息量少的問題。將所有的短文本相應詞語進行同義詞林處理,使文檔組成一個語料集合,在短文本語料集合內詞共現(xiàn)信息就會明顯增加,豐富文檔級別的詞共現(xiàn)信息,能夠推理較高質量的主題結構,解決短文本的詞共現(xiàn)信息不足的問題?;诖?,提出基于詞向量的短文本主題建模模型—語義詞向量模型(Semantics Word Embedding Modeling,SWEM)。

      ⑴ 同義詞詞林簡介

      《同義詞詞林》[9]是80年代出版的一部對漢語詞匯按語義全面分類的詞典,收錄詞語近7萬。

      同義詞詞林共提供3層編碼,隨著級別的遞增,詞義刻畫越來越細,到了第五層,每個分類里詞語數(shù)量已經不大,常常是只有一個詞語,已經不可再分,可以稱為原子詞群、原子類或原子節(jié)點。其中第一級用大寫英文字母表示大類;第二級用小寫英文字母表示中類;第三級用二位十進制整數(shù)表示小類;新增的第四級和第五級的編碼與原有的三級編碼并構成一個完整的編碼,唯一代表詞典中出現(xiàn)的詞語。具體編碼如表1所示。

      ⑵ SWEM模型

      語義詞向量模型(Semantics Word Embedding Modeling,SWEM)將假設整個短文本數(shù)據(jù)集合服從一個主題分布,主題服從高斯分布,對全局內的詞向量,包括原來集合內可觀察到的詞向量和對應詞的同義詞向量進行建模。

      對于短文本來說,文檔級的詞頻信息和詞共現(xiàn)信息不足,SWEM模型摒棄了文檔級的主題分布,假設整個語料集合服從同一個主題分布,其具體描述表述如下:首先,根據(jù)超參數(shù)[α]生成語料集合的主題分布[θ],然后,在該主題分部下選擇一個主題[Zk],通過參數(shù)[μk]和[σk2]生成主題詞向量的高斯分布,最后,在這個高斯分布中生成每個詞向量。SWEM模型的概率圖模型如圖1所示。

      模型含義:給定一個短文本語料D{d1, d2, ...,dn},每篇文檔對應的詞向量是[W= w1,w2,...,wn,w'n+1,w'n+2,...,w'n+i],其中w1代表原本文檔中的詞項,[w1']等代表的是文檔中詞向量的同義詞向量。取zk∈[1,k]當做主題的標量,[θ]表示短文本語料集合的主題分布,其中[θ]采用狄利克雷先驗,其超參[α],主題跟詞向量之間采用高斯混合分布,[α]代表第k個高斯模型權重,[μk]代表的是第k個高斯模型的均值,[σ2k]代表的是第k個高斯模型的協(xié)方差。

      ⑶ 基于SWEM主題模型描述

      ① 對每篇文檔內詞向量進行同義詞林泛化,求得隱含詞向量[w'] ,加入原來的短文本文檔中。

      ② 對整個短文本語料集合采樣一個主題分布:[θ~ Dirichlet(α)]。

      ③ 對每個主題[Zk],k∈[1,k],采樣一個主題詞向量分布[ψk~ Gaussian(μk,σ2k)]。

      ④ 對于每個詞向量w∈W,包括原文檔的詞向量和生成的同義詞向量:

      (a) 采樣一個主題[Zk~Multinomial(θ)];

      (b) 采樣一個詞向量[W~Multinomial(ψk)]。

      根據(jù)以上的產生式可知:詞向量集合W是觀測變量,包括原來文本中的詞向量和對應生成的同義詞向量,主題分布[θ]和主題詞向量分布[μk]主題z是隱含變量,[α]為模型超參,[μk],[σ2k]是第k個分部高斯模型的均值和協(xié)方差。

      給定觀測數(shù)據(jù)詞向量集合[W= w1,w2,...,wn,w'n+1,w'n+2,...,w'n+i],其中w1等代表原本文檔中的詞項,[w'n+1]等代表對應生成的同義詞向量。模型是包含 K個高斯分布的高斯混合分布,假設詞向量W來自如下的高斯混合分布的似然函數(shù)為:

      [p(W|p)=i=1N+N'k=1kλkf(wi|uk,σ2k)]? ⑴

      對式⑴取對數(shù),似然函數(shù)變換為:

      [log(p(W|p))=i=1N+N'log(k=1kλkf(wi|uk,σ2k))]? ⑵

      從式⑵中可以看出目標函數(shù)難以對其進行求偏導處理。于是采用無EM算法[10]估計參數(shù)[λk], [μk], [σ2k]的值。

      3 實驗

      3.1 實驗數(shù)據(jù)

      為驗證模型的主題建模能力。本文選擇近期搜集Twitter自媒體數(shù)據(jù)165360條數(shù)據(jù)。在對這些數(shù)據(jù)進行去噪過濾基礎上分詞處理,去除停用詞等及舍棄在文檔集合內出現(xiàn)低于10次數(shù)的詞。如表2展示了每個數(shù)據(jù)集的文檔數(shù)目、詞典大小、平均文檔的長度。

      在詞向量的選擇上,使用谷歌新聞語料訓練的詞向量,詞向量維數(shù)為200。在除停用詞等無意義的詞后,選擇Skip-gram算法訓練,其他參數(shù)為模型默認值,最終生成數(shù)據(jù)集。同時在數(shù)據(jù)集中本文采用Twitter提供的主題標簽(Hashtag)功能對數(shù)據(jù)集進行分類(工具采用線性SVM分類器),并提取其中的內容。抽取20個高頻的Hashtag作為分類數(shù)據(jù)的標簽。如表3所示。

      從表3中可以看到Twitter數(shù)據(jù)集的主題種類繁多,能為檢驗模型分類性能試驗提供支持。

      3.2 模型對比

      實驗中首先根據(jù)不同模型對文檔進行主題建模之后,分別得出文檔的主題概率分布,用主題概率分布將文檔表示成主題向量,維數(shù)為主題的個數(shù),每一維用其包含主題的概率表示。得到文檔d的主題向量表示為D=[P(z=1|d),(z=2|d),…,(z=K|d)],然后,隨機的在數(shù)據(jù)集合中選出70%作為訓練數(shù)據(jù)集,其余30%作為測試分類性能的數(shù)據(jù)集。

      為更清晰的對比,本文將選擇LDA模型、BTM模型及本文提出的SWEM模型進行對比,驗證各種模型在同一短文本數(shù)據(jù)集上學習主題的能力,并用PMI Score[11]方法進行測評,一般來說,PMI越大表示的是這兩個單詞主題相關性強。

      在各模型的超參數(shù)的設置上,為能更好的解決短文本的稀疏問題,分別對LDA模型超參數(shù)設置為[α]=0.05,[β]=0.01;BTM模型超參數(shù)設置為[α]=50/K,[β]=0.01,并同本文提出的SWEM模型對不同的主題數(shù)量下的分類性能PMI Score對比,如圖2所示。

      4.3 結果分析

      從圖2中Twitter數(shù)據(jù)集上模型分類性能實驗中可以看出,SWEM模型分類性能優(yōu)于BTM模型及LDA模型。在主題數(shù)為80左右的時候,發(fā)現(xiàn)SWEM模型表現(xiàn)達到最好。但是隨著主題數(shù)增大,分類性能出現(xiàn)下降,可能的原因是某些額外生成的詞向量質量降低,隨著主題數(shù)的增大,干擾了主題的學習的質量。

      5 結束語

      短文本建模的稀疏問題是短文本主題建模的短板,文章采用半自動的方法對短文本信息進行擴充,緩解短文本信息量少的問題。將所有的短文本相應詞語進行同義詞林處理,使文檔組成一個語料集合,在短文本語料集合內詞共現(xiàn)信息就會明顯增加,豐富文檔級別的詞共現(xiàn)信息,能夠推理較高質量的主題結構,解決短文本的詞共現(xiàn)信息不足的問題。實驗表明SWEM模型優(yōu)于BTM、LDA模型,說明通過同義詞向量建??梢越鉀Q稀疏問題。

      參考文獻(References):

      [1] Papadimitriou,C.H.,Raghavan,P.,Tamaki,H.and Vempala,S.,2000.Latent semantic indexing:A probabilistic analysis.Journal of Computer and System Sciences,61(2),pp.217-235

      [2] Malone,T W,Grant,K R,Turbak,F(xiàn) A,et al. Intelligent? information-sharing? systems.Communications of the ACM,1987.

      [3] Blei D M,Ng A Y,Jordan M I. Latent dirichletallocation[J].Journal of Machine Learning Research,2003.3:993-1022

      [4] Yan X,Guo J,Lan Y,et al. A biterm topic model for short texts[C]// Proceedings of the 22nd international conference on World Wide Web.ACM,2013.1445-1456

      [5] 唐曉波,張昭.基于混合圖的在線社交網絡個性化推薦系統(tǒng)研究[J].情報理論與實踐,2013.2:91-95

      [6] 鄧智龍,淦文燕.復雜網絡中社團結構發(fā)現(xiàn)算法[J].計算機科學,2012.6.

      [7] 趙捧未,李春燕,竇永香.語義對等網環(huán)境下基于節(jié)點知識地圖的用戶模型構建[J].情報理論與實踐,2012.35(2):104-108

      [8] 胡吉明,胡昌平.基于關系社區(qū)發(fā)現(xiàn)改進的用戶興趣建模[J].情報學報,2013.7,32(7):763-768

      [9] Mei Jiaju,Zhu Yiming,GaoYunqi,et al.,TongyiciCilin [M]. Shanghai:Shanghai Lexicographical Publishing House,1993.106-108

      [10] Moon T K.The expectation-maximization algorithm[J]. IEEE Signal Processing Magazine,1996.13(6):47-60

      [11] Newman D,Lau J H,Grieser K,et al.Automatic evaluation of topic coherence[C]//Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.Association for Computational Linguistics,2010.100-108

      静乐县| 宁津县| 天峨县| 永康市| 丹东市| 兰州市| 马关县| 龙井市| 什邡市| 启东市| 潞西市| 瑞安市| 勐海县| 大同市| 湘阴县| 和田县| 乐都县| 威宁| 怀柔区| 锡林郭勒盟| 大埔县| 泽库县| 鄂托克旗| 克东县| 泰安市| 当涂县| 孙吴县| 拜泉县| 嘉鱼县| 通海县| 剑河县| 盈江县| 嘉义县| 吉木萨尔县| 苗栗县| 垣曲县| 历史| 元阳县| 达州市| 南靖县| 拜城县|