• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于CWMD和SP的微博話題發(fā)現(xiàn)算法

      2021-05-20 01:26:04方梁雨
      關(guān)鍵詞:歐氏余弦文檔

      孫 悅,羅 倩,方梁雨

      (北京信息科技大學(xué) 信息與通信工程學(xué)院,北京 100192)

      0 引言

      2020年新浪微博第一季度財(cái)報(bào)數(shù)據(jù)顯示,截至 2020 年 5月,微博的月活躍用戶已達(dá)5.50億,同比呈增長(zhǎng)趨勢(shì)。微博發(fā)布的信息往往具有時(shí)效性短、動(dòng)態(tài)性強(qiáng)和結(jié)構(gòu)不規(guī)范等特點(diǎn)[1]。從大量的文本數(shù)據(jù)中發(fā)掘出有價(jià)值的信息,具有重要意義。

      微博話題發(fā)現(xiàn)過(guò)程就是一種有價(jià)值信息的發(fā)掘過(guò)程,其中最重要的環(huán)節(jié)是文本聚類過(guò)程。常見(jiàn)的聚類算法有基于劃分的K-means聚類[2],基于密度的DBSCAN算法[3],基于層次的Single-Pass算法[4]。武國(guó)勝等[5]對(duì)文本聚類使用了改進(jìn)的密度峰值算法,使用潛在語(yǔ)義分析模型(LSA)進(jìn)行建模,使用密度敏感距離作為聚類的標(biāo)準(zhǔn)。Wang等[6]使用Word2vec對(duì)文本進(jìn)行表示,引入了Canopy算法對(duì)文本進(jìn)行K-means聚類。劉金碩等[7]使用LDA模型表示文本,并使用K-means算法對(duì)文本進(jìn)行聚類處理,在食品安全文本類的數(shù)據(jù)集上進(jìn)行算法驗(yàn)證。車?yán)俚萚8]融合了向量空間模型、潛在狄利克雷分配模型和構(gòu)建命名實(shí)體模型3種方法,使用Single-Pass算法進(jìn)行新聞話題的發(fā)現(xiàn)。

      這些聚類的相似度策略采用傳統(tǒng)的歐氏距離、余弦距離來(lái)計(jì)算文本之間的距離,用于相似度判斷的標(biāo)準(zhǔn),忽略了當(dāng)文檔詞數(shù)不同時(shí),詞與詞之間存在的“一對(duì)多”關(guān)系。因此,本文使用融合了余弦距離和WMD(word mover′s distance)的CWMD(cos-word mover′s distance) 來(lái)計(jì)算文本之間的距離,并且使用TF-IDF值代替WMD中的詞頻權(quán)重。同時(shí),在微博話題發(fā)現(xiàn)中,因無(wú)法確定聚類后簇的個(gè)數(shù),所以K-means算法并不適用;DBSCAN基于密度聚類,不能增量式聚類,即新到來(lái)的數(shù)據(jù)無(wú)法對(duì)已有的簇產(chǎn)生影響,也不適用于微博話題的檢測(cè)。對(duì)此,本文選取了基于層次聚類的Single-Pass算法進(jìn)行博話題檢測(cè)。

      1 文本表示

      常見(jiàn)的文本表示有向量空間模型(vector space model,VSM)、潛在的狄利克雷主題模型[9]等。在深度學(xué)習(xí)領(lǐng)域,Mikolov等[10]提出了Word2vec 模型,該模型結(jié)合上下文信息表示文檔中特定單詞的語(yǔ)義和語(yǔ)法信息。

      VSM文本表示模型只考慮詞頻對(duì)文檔的影響,認(rèn)為詞之間獨(dú)立存在,忽略了其相關(guān)性。LDA主題模型對(duì)本文中微博數(shù)據(jù)的短文本信息不適用,因?yàn)檩^短的文本特征維度較高,數(shù)據(jù)比較稀疏,信息量少[11],無(wú)法準(zhǔn)確地確定主題。

      基于本文數(shù)據(jù)特點(diǎn)和各文本表示模型的優(yōu)缺點(diǎn),提出TF-IDF & Word2vec文本表示模型。步驟如下:

      輸入:文本語(yǔ)料M= {m1,m2,…,mn} 輸出:文本向量集 Step1:輸入文本語(yǔ)料集,對(duì)文本進(jìn)行Jieba分詞以及去除停用詞。每一條文本變?yōu)楹刑卣髟~的集合,即mi= {fi1,fi2,…}; Step2:將處理后的文本集合輸入到Word2vec模型中進(jìn)行訓(xùn)練,對(duì)于每一個(gè)特征詞fij都會(huì)得到一個(gè)N維的特征向量V(fij); Step3:利用TF-IDF公式計(jì)算文檔中特征詞的權(quán)重W(fij); Step4:根據(jù)Step2和 Step3中的計(jì)算結(jié)果,向量化表示mi= {(V(fi1),W(fi1)),(V(fi2),W(fi2)),…}。

      2 CWMD算法

      2.1 傳統(tǒng)文本距離計(jì)算方式

      對(duì)文本進(jìn)行聚類,需要確定一種標(biāo)準(zhǔn)來(lái)判斷不同的文本是否相似,這個(gè)標(biāo)準(zhǔn)就是距離函數(shù)。常見(jiàn)的距離函數(shù)有歐氏距離、余弦距離、馬氏距離、曼哈頓距離等。在文本聚類中,歐氏距離和余弦距離因計(jì)算簡(jiǎn)便、易于理解而被廣泛使用。圖1展示了空間內(nèi)P、Q兩點(diǎn)的歐氏距離和余弦距離。

      圖1 歐氏距離和余弦距離

      假設(shè)計(jì)算兩個(gè)特征詞都為p維的文檔m1、m2的距離,m1的空間向量表示形式為W1=,〈w11,w13,…,w1p〉,m2的表示形式為W2=〈w21,w22,…,w2p〉,其歐氏距離為

      (1)

      余弦距離為

      (2)

      式(1)、(2)計(jì)算的是特征項(xiàng)個(gè)數(shù)相等的兩個(gè)文檔的距離,即W1的維度等于W2的維度。圖2展示的是當(dāng)兩個(gè)文檔特征項(xiàng)個(gè)數(shù)不同時(shí),利用傳統(tǒng)方式計(jì)算文檔1到文檔2距離的情況。如果僅考慮兩文檔距離和最小,則最佳解決方案是使文檔1、2中每?jī)蓚€(gè)單詞的距離最小。在這種情況下,可能會(huì)出現(xiàn)文檔2中的一個(gè)詞對(duì)應(yīng)文檔1中多個(gè)特征詞,而忽略了文檔2中其他特征詞與文檔1中該詞的距離,極端情況下會(huì)出現(xiàn)一對(duì)所有的情況,這樣的計(jì)算方式并沒(méi)有考慮整個(gè)文檔中所有詞對(duì)于該文檔的貢獻(xiàn)。

      圖2 傳統(tǒng)的文本距離計(jì)算方式

      2.2 WMD計(jì)算方式

      WMD是Kusner等[12]提出的一種基于EMD(earth mover′s distance)計(jì)算詞移距離的度量方式,與歐氏距離、余弦距離不同,WMD本質(zhì)是線性規(guī)劃問(wèn)題,計(jì)算的是兩個(gè)分布之間的距離,其計(jì)算公式如下:

      (3)

      圖3為使用WMD算法計(jì)算文檔P1和P2距離的方式。

      圖3 WMD計(jì)算距離的方式

      WMD具體算法過(guò)程如下:

      兩個(gè)文檔P1、P2經(jīng)過(guò)Word2vec模型表示后,P1中的第i個(gè)詞和P2中的第j個(gè)詞的歐氏距離為

      c(i,j)=‖xi-xj‖2

      (4)

      2.3 CWMD計(jì)算方式

      在WMD中,Kusner等[12]使用歐氏距離衡量詞間的轉(zhuǎn)移代價(jià)。Word2vec模型屬于嵌入式模型,歐氏距離側(cè)重于數(shù)值上的絕對(duì)差值,計(jì)算結(jié)果受維度的影響。而余弦距離在維度變化情況下,仍體現(xiàn)方向上的差異,計(jì)算結(jié)果與維度無(wú)關(guān)。所以本文提出將余弦距離作為WMD詞轉(zhuǎn)移代價(jià)的度量方式,即提出CWMD算法。

      WMD用詞頻來(lái)表示詞的權(quán)重,認(rèn)為一個(gè)詞出現(xiàn)的次數(shù)越多,則權(quán)重越大,忽略了關(guān)鍵詞信息??紤]到不同的詞對(duì)句子的貢獻(xiàn)不同,本文使用TF-IDF值代替原始的詞頻作為WMD權(quán)重的輸入。

      3 聚類算法

      聚類分析也稱為群集分析。針對(duì)實(shí)驗(yàn)數(shù)據(jù)特征,本文采用結(jié)構(gòu)性聚類的層次聚類算法——SP文本聚類算法。傳統(tǒng)的SP算法中,語(yǔ)料庫(kù)中的每條數(shù)據(jù)按照順序參與一次聚類,而且對(duì)文本輸入的順序比較敏感,即一個(gè)文本簇中初始的文本對(duì)該簇的影響較大。微博文本長(zhǎng)度較短,包含的信息量較少,針對(duì)短文本數(shù)據(jù)的特點(diǎn),本文提出了一種對(duì)初始文本集預(yù)處理的SP聚類算法。

      為了使簇中初始的文本向量相對(duì)準(zhǔn)確,當(dāng)處理文本向量Di時(shí),先不對(duì)其進(jìn)行相似度比對(duì),而是判斷向量的長(zhǎng)度。如果小于規(guī)定的閾值L,則進(jìn)入待定區(qū)U,否則進(jìn)入預(yù)處理集合M。等M中文本數(shù)據(jù)聚類完成后,對(duì)待定池U中的數(shù)據(jù)進(jìn)行聚類。這樣可以有效避免因初始文本長(zhǎng)度較短、信息量較少而使簇的初始中心不準(zhǔn)確的問(wèn)題。算法流程如圖4所示,偽代碼如圖5所示。

      圖4 加入文本待定池的SP算法流程

      圖5 改進(jìn)的SP聚類算法偽代碼

      4 實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)

      本文使用中文分析語(yǔ)料庫(kù)中京東和攜程網(wǎng)上采集到的評(píng)價(jià)數(shù)據(jù),包括書(shū)籍、衣服、計(jì)算機(jī)、酒店、平板、水果、洗發(fā)水、牛奶、手機(jī)8種類別共62 774條文本作為原始數(shù)據(jù)。原始數(shù)據(jù)中存在大量噪聲信息,為了使聚類的質(zhì)量有所提高,對(duì)其進(jìn)行篩選,刪除噪聲數(shù)據(jù)后,最終選用書(shū)籍、衣服、計(jì)算機(jī)、酒店4種類別各1 000條數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。

      為了節(jié)省算法運(yùn)行空間,提高運(yùn)行速度,使用Jieba分詞對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理。將分詞之后對(duì)文檔貢獻(xiàn)值較小的助詞、語(yǔ)氣詞等“停用詞”剔除。

      使用準(zhǔn)確率(P)、召回率(R)和F1值作為分類效果好壞的評(píng)價(jià)指標(biāo)。其中

      (5)

      準(zhǔn)確率、召回率越高,F(xiàn)1值越大,說(shuō)明模型的效果越好。

      4.2 對(duì)比實(shí)驗(yàn)

      4.2.1 SP聚類算法對(duì)比實(shí)驗(yàn)

      將CWMD分別與傳統(tǒng)的SP聚類算法和改進(jìn)的SP聚類算法相結(jié)合,進(jìn)行文本聚類實(shí)驗(yàn),使用F1值作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如圖6所示。

      圖6 改進(jìn)前后SP聚類算法實(shí)驗(yàn)效果對(duì)比

      從圖6可以看出,改進(jìn)后的SP算法 4類文本的F1均值提高了35.52%,聚類的效果有了明顯提升。

      4.2.2 距離標(biāo)準(zhǔn)對(duì)比實(shí)驗(yàn)

      使用改進(jìn)的SP算法,將CWMD、余弦距離和歐氏距離分別作為其聚類標(biāo)準(zhǔn)進(jìn)行實(shí)驗(yàn),F(xiàn)1值作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如圖7所示。

      圖7 使用不同距離標(biāo)準(zhǔn)的實(shí)驗(yàn)效果對(duì)比

      從圖7可以看出,當(dāng)文本數(shù)據(jù)集相同時(shí),使用CWMD作為聚類標(biāo)準(zhǔn)的算法效果最好,4類文本的F1均值比使用歐氏距離、余弦距離作為聚類標(biāo)準(zhǔn)分別提高了19.25%、14.45%。使用相同的距離標(biāo)準(zhǔn)進(jìn)行聚類時(shí),不同類別的文本效果略有差異,主要是受文本數(shù)據(jù)本身的影響。

      5 應(yīng)用實(shí)例

      將CWMD與改進(jìn)的SP相結(jié)合的聚類算法應(yīng)用到微博文本中,進(jìn)行話題發(fā)現(xiàn)分析。

      5.1 微博數(shù)據(jù)采集以及文本聚類

      本文采用Python語(yǔ)言對(duì)微博進(jìn)行網(wǎng)絡(luò)爬蟲(chóng),采集到了2020-8-25至2020-9-1期間部分微博數(shù)據(jù),共計(jì)2萬(wàn)余條,包括博主的ID、昵稱、博文、發(fā)布時(shí)間以及發(fā)布終端等。將獲取到的博文進(jìn)行文本預(yù)處理,去除噪音和一些特殊符號(hào)等。之后進(jìn)行Jieba分詞,去除停用詞并對(duì)數(shù)據(jù)作向量化表示。將處理后的數(shù)據(jù)結(jié)果輸入CWMD和改進(jìn)的SP聚類模型中。

      5.2 聚類結(jié)果分析

      針對(duì)聚類結(jié)果,根據(jù)包含文本數(shù)量取前3個(gè)話題簇,對(duì)其提取關(guān)鍵詞,將關(guān)鍵詞和微博官網(wǎng)提供的熱點(diǎn)話題進(jìn)行對(duì)比,從而驗(yàn)證聚類后話題詞與現(xiàn)實(shí)微博話題的一致性,結(jié)果如表1所示。

      表1 微博文本聚類結(jié)果與熱搜話題對(duì)比

      最右側(cè)一欄的3個(gè)話題是在數(shù)據(jù)采集時(shí)間段中新浪微博的熱搜話題。該時(shí)段正值國(guó)內(nèi)疫情放緩,國(guó)民經(jīng)濟(jì)復(fù)蘇,“澳門發(fā)放2.9億元消費(fèi)券吸引內(nèi)地游客”話題引起人們的廣泛關(guān)注,網(wǎng)民就此開(kāi)展廣泛討論。從聚類結(jié)果可以看出,“消費(fèi)”、“澳門”、“內(nèi)地”等詞是文本簇中的關(guān)鍵詞,這些詞與實(shí)際的熱搜話題緊密相關(guān)。在“非全研究生考教師被取消資格”話題中,網(wǎng)民就全日制和非全日制產(chǎn)生的學(xué)歷歧視問(wèn)題進(jìn)行討論??梢钥闯?,每個(gè)文本簇提取到的關(guān)鍵詞和微博實(shí)際熱搜話題聯(lián)系緊密,證明本文提出的聚類模型可以較好地應(yīng)用到微博話題檢測(cè)中。

      6 結(jié)束語(yǔ)

      本文針對(duì)傳統(tǒng)的微博話題檢測(cè)中文本向量高維稀疏且無(wú)關(guān)鍵詞信息等缺陷,將Word2vec模型訓(xùn)練好的詞向量進(jìn)行TF-IDF加權(quán)表示,引入CWMD距離計(jì)算文本之間的差距。并且采用改進(jìn)的SP增量聚類的方式進(jìn)行最終的文本聚類。對(duì)有標(biāo)簽評(píng)論數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,本文提出的聚類模型比傳統(tǒng)的聚類模型效果更好。在此基礎(chǔ)上,對(duì)爬取到的無(wú)標(biāo)簽微博文本進(jìn)行處理,將聚類結(jié)果與微博官方熱搜話題進(jìn)行比對(duì),證實(shí)了聚類結(jié)果的有效性。下一步將增加爬取微博的時(shí)間跨度,進(jìn)行更全面的話題發(fā)現(xiàn)。

      猜你喜歡
      歐氏余弦文檔
      有人一聲不吭向你扔了個(gè)文檔
      兩個(gè)含余弦函數(shù)的三角母不等式及其推論
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      分?jǐn)?shù)階余弦變換的卷積定理
      圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      離散余弦小波包變換及語(yǔ)音信號(hào)壓縮感知
      基于多維歐氏空間相似度的激光點(diǎn)云分割方法
      麗江“思奔記”(上)
      探索地理(2013年5期)2014-01-09 06:40:44
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      南城县| 芦溪县| 寿阳县| 英吉沙县| 鹿邑县| 万源市| 巴南区| 宁城县| 洛宁县| 久治县| 百色市| 岫岩| 扶绥县| 苏尼特左旗| 许昌市| 彭泽县| 绥滨县| 红河县| 东乌| 搜索| 巫溪县| 昭通市| 梁河县| 南澳县| 乐山市| 德庆县| 葫芦岛市| 上思县| 北流市| 三穗县| 闽清县| 桂林市| 陵川县| 南昌县| 南城县| 平遥县| 大宁县| 丽江市| 澄江县| 从化市| 永康市|