• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向地域流動的在線熱點話題演化檢測方法*

      2023-10-20 00:42:38翟菊葉葉澤坤
      情報雜志 2023年10期
      關(guān)鍵詞:時刻遺傳詞匯

      翟菊葉 葉澤坤

      (1.蚌埠醫(yī)學(xué)院衛(wèi)生管理學(xué)院 蚌埠 233030;2.復(fù)旦大學(xué)計算機科學(xué)與技術(shù)學(xué)院 上海 201114)

      1 問題的提出

      隨著我國移動互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,越來越多的民眾把網(wǎng)絡(luò)作為信息交流的主要方式[1]。由于網(wǎng)絡(luò)打破了時空限制,民眾能夠在更大范圍內(nèi)交流自己關(guān)注的社會熱點問題,因此網(wǎng)絡(luò)中蘊含著大量的熱點話題。而隨著位置服務(wù)[2]的廣泛應(yīng)用,網(wǎng)民發(fā)布的文本內(nèi)容會被打上位置標(biāo)簽,讓網(wǎng)絡(luò)話題具有了地域特征。話題在隨時間演化的過程中,其地域特征也會隨之演化。所以,對話題的地域特征進行演化挖掘有助于感知話題流行的位置動向,對輿情研判、網(wǎng)絡(luò)推薦、社會管理等具有十分重要的意義。

      20世紀(jì)90年代中后期,為了應(yīng)對網(wǎng)絡(luò)信息“爆炸”給信息檢索帶來的困擾,話題檢測與跟蹤(Topic Detection and Tracking, TDT)技術(shù)開始興起[3],并吸引了大量學(xué)者跟進研究。在話題檢測技術(shù)中,基于聚類的話題檢測方法和基于概率模型的話題生成方法是最常用的方法。如Wu等[4]提出了一種基于多策源的群聊話題檢測技術(shù),該技術(shù)通過構(gòu)建話題序列解決了話題糾纏問題,并利用群聊消息的用戶、時間、類型等屬性強化了同話題消息之間的聯(lián)系,彌補了單純依靠稀疏短文本特征進行聚類的不足。Jiang[5]等提出了一種基于高斯混合模型的文本表示學(xué)習(xí)框架,該方法把文本語義映射成主題,再利用統(tǒng)計流形有效地度量文本距離,從而達到文本分類的目的。Zhang等[6]提出了一種基于詞向量的話題焦點生成方法,該方法首先運用特征詞提取公式構(gòu)造話題特征詞集合;再用Skip-gram模型訓(xùn)練文本詞向量;然后通過BTM(Biterm Topic Model)對文本詞向量進行主題建模,實現(xiàn)話題焦點的識別。由于話題會隨著時間不斷演化,為了解決動態(tài)數(shù)據(jù)中的話題檢測問題,話題跟蹤技術(shù)應(yīng)運而生,其核心思想是在話題檢測的基礎(chǔ)上引入時間維度,分析時間序列上話題的變化情況。如Liu等[7]提出了一種基于多維特征的網(wǎng)絡(luò)話題演化分析方法,該方法運用網(wǎng)絡(luò)評論構(gòu)建話題圖譜,然后利用LDA(Latent Dirichlet Allocation)模型對圖譜中話題屬性進行劃分,并以時間屬性為主軸,全方位追蹤輿情話題的演化情況。

      上述話題檢測與跟蹤技術(shù)都是面向線上數(shù)據(jù)的,沒有考慮話題的位置屬性,無法發(fā)現(xiàn)話題在地域上的分布。而隨著位置服務(wù)技術(shù)的廣泛應(yīng)用,地域性話題檢測技術(shù)研究也逐漸興起。如曹玖新等[8]提出了一種基于在線社交網(wǎng)絡(luò)的地域性話題識別方法,該方法根據(jù)地域性話題的空間關(guān)聯(lián)特征,綜合考慮用戶發(fā)布的文本內(nèi)容和地理位置信息,按照主題模型思想構(gòu)建地域性話題發(fā)現(xiàn)模型(Geographical Textual Topic Discovering model, GTTD)。該模型將用戶、話題和地理位置間存在的緊密關(guān)系同時引入話題發(fā)現(xiàn)框架中,實現(xiàn)了網(wǎng)絡(luò)話題的地域特征識別。He等[9]提出了一種基于多層隱狄利克雷過程的地理話題識別方法,該方法把文本、用戶興趣和空間進行聯(lián)合建模,按照空間-用戶興趣-話題三個層次建立話題樹,構(gòu)造了地理位置上的話題生成規(guī)則。地域性話題識別方法把線上話題引入到線下,為更深層的線上線下研究奠定了理論基礎(chǔ),但當(dāng)前的地域性話題識別方法仍然缺乏對話題地域演化的識別能力,無法感知話題在流行地域上的發(fā)展趨勢。

      為了解決這個問題,本文在OLDA模型的基礎(chǔ)上引入位置參數(shù),提出了一種面向地域流動的在線話題演化識別方法。該方法把網(wǎng)絡(luò)文本數(shù)據(jù)按時間順序進行分組,在t-1與t時刻之間建立話題地域遺傳矩陣,動態(tài)更新t時刻[<話題,地域>-位置]t分布的超參;然后利用t-1時刻主題地域的后驗信息,聯(lián)合建模t時刻文本、話題、地域、位置及詞匯五個變量,生成[文本-話題]t、[話題-詞匯]t、[<話題,地域>-位置]t三個分布矩陣;最后運用相似度計算公式對t-1與t時刻的話題進行鏈接,得到t時刻話題流行區(qū)域分布[<話題-地域>-位置]t,以此實現(xiàn)話題流行地域的演化識別。

      2 相關(guān)技術(shù)

      2.1 話題模型

      話題模型(Topic Model, TM)是一種以非監(jiān)督學(xué)習(xí)方式對隱含在數(shù)據(jù)集中的語義結(jié)構(gòu)進行聚類的統(tǒng)計模型[10],它把高維文本數(shù)據(jù)降維成話題詞混合分布向量。目前,常用的話題模型是由Blei等[11]于2003年提出的潛在隱狄利克雷分配模型LDA。該模型依據(jù)文本、話題、詞匯三者之間的條件依賴關(guān)系,把文本建模成K維話題的多項式概率混合,把每個話題建模成N維詞匯的多項式概率混合,最終得到文檔-話題分布θ和話題-詞匯分布φ兩個分布矩陣。

      LDA模型是一個靜態(tài)模型,為了讓其具備連續(xù)數(shù)據(jù)流環(huán)境下的話題語義識別能力,Alsumait等[12]在LDA模型中增加了時間維度,提出了一種在線LDA模型(Online Latent Dirichlet Allocation, OLDA)。該模型的核心是基于時間平滑假設(shè),即在沒有受到外部干擾的情況下,t時刻的話題分布只受t-1時刻話題狀態(tài)的影響。OLDA模型把t-1時刻語料中的話題詞頻信息作為當(dāng)前t時刻話題遺傳物質(zhì),以此動態(tài)更新t時刻話題先驗,更新方式如公式(1)所示。

      Multi(φt)~Dir(βt)~Dir(wt-1Mt-1)

      (1)

      其中,wt-1是t-1時刻話題分布的遺傳度,表示t-1時刻前話題-詞匯分布中各詞匯出現(xiàn)的頻次,Mt-1是根據(jù)t-1時刻話題遺傳信息構(gòu)造的話題演化矩陣,大小為K×N,并能自動與t時刻話題分布進行對齊。

      2.2 地域性話題模型

      地域性話題模型的核心任務(wù)是把線上話題映射到位置維度上,建立話題與線下位置的對應(yīng)關(guān)系。根據(jù)話題和位置的依賴順序不同,地域性話題挖掘模型的構(gòu)造原理也存在著差異。GTTD模型[8]假設(shè)距離相近的用戶具有相似的興趣愛好,更容易形成同一話題,所以,此模型把地理位置參數(shù)作為生成框架的最高層,把話題作為(地域,用戶)上的條件概率,生成順序是:地域→用戶→話題→(位置,詞匯)。該模型的缺陷是地域設(shè)置不合理容易影響話題識別精度。RO-LDA模型[13]把地域的生成順排在了話題后面,把文本位置作為模型框架的最底層,認為詞匯和位置都是話題生成的,生成順序是:文本→(話題,地域)→(詞匯,位置)。該模型在話題層上建立了地域平行層,通過詞匯與位置的映射關(guān)系建立話題在地域上的概率分布,從而識別出話題的流行地域。

      3 面向地域流動的在線話題演化檢測方法

      在線話題作為一種網(wǎng)絡(luò)信息實體會隨著時間動態(tài)演化,表現(xiàn)為話題的分裂、膨脹、合并、消失等。由于話題具有位置屬性,所以線上話題在演化的過程中,其線下流行地域也會隨之演化,表現(xiàn)為地域的分裂、膨脹、合并、消失等。文獻[12]提出了話題遺傳思想,運用馬爾科夫鏈建立了話題演化模型OLDA。該模型假設(shè)在無外力干擾的情況下,t時刻話題的生成只受到t-1時刻話題狀態(tài)的影響,通過建立相鄰時刻的話題地域遺傳矩陣,有效提高了t時刻話題識別精度。受OLDA模型話題遺傳思想啟發(fā),經(jīng)分析發(fā)現(xiàn):由于話題容易受到用戶興趣和社會環(huán)境影響,在特定社會環(huán)境下用戶發(fā)布的文檔會含有相似的話題。而在沒有外力干擾的情況下,社會環(huán)境和用戶興趣也是平滑的,所以,話題的地域特征也有和話題一樣的遺傳特性。因此,本文在OLDA模型中增加(話題,地域)層,搭設(shè)話題地域的遺傳接口,建立地域性話題演化模型EIAGT。該模型綜合運用t-1時刻的話題地域遺傳信息,建模t時刻文本-話題分布和(話題,地域)-位置分布,具備了話題地域演化識別能力。

      3.1 EIAGT模型描述

      設(shè)Dt={d1,d2, …,dM}為t時刻網(wǎng)絡(luò)數(shù)據(jù)集,K為Dt中隱含的話題數(shù)量。V={w1,w2,…,wN}表示Dt中的詞匯集合;R={r1,r2,…,rG}表示Dt中位置標(biāo)簽集合;U={}表示用戶集合。其中,U是一個三元組,ui表示用戶,foli表示粉絲列表,frii表示好友列表。由于Dt包含詞匯和位置兩個維度的信息,網(wǎng)絡(luò)文本是一維話題向量的混合,而話題是詞匯和位置兩個維度的混合,所以,網(wǎng)絡(luò)文本對應(yīng)著一個話題多項式分布,話題對應(yīng)著詞匯和位置的一個二維多項式分布。文本依賴話題,話題依賴詞匯和地域、地域依賴位置。EIAGT模型在t時刻對語料數(shù)據(jù)時,把t-1時刻的后驗作為當(dāng)前t時刻的先驗,生成過程是:按照文檔-話題的先驗分布選擇話題組合生成文本;按照話題-詞匯先驗分布和話題-地域先驗分布選擇詞匯組合和地域組合生成話題;再按照地域-位置先驗分布選擇位置組合生成話題地域。在EIAGT模型中,話題和地域是隱含變量,詞匯和位置是實際值。根據(jù)模型原理,定義以下分布關(guān)系。

      分布1[文本-話題]t:對于Dt中任意文本dm,生成K維話題分布向量Ad=,其中,pzi=Nzi/Nd是文本dm生成話題zi的概率,Nzi代表文本dm分配給話題zi的詞匯出現(xiàn)的頻數(shù),Nd代表文本dm中詞匯總數(shù)。根據(jù)分布1,話題zi在Dt中的邊緣分布如公式(2)所示。

      (2)

      分布2[話題-詞匯]t:對任意話題zi,生成N維詞匯分布向量Bz=,其中,pwi=Nwi/N代表話題zi生成詞匯wi的概率,Nwi代表詞匯表V中分配給話題zi的第i個詞匯的頻數(shù),N代表V中分配給zi的詞匯總數(shù)。根據(jù)分布2,詞匯wi在話題zi中的邊緣分布如公式(3)所示。

      (3)

      分布3[話題-地域]t:對任意話題zi,生成G維地域分布向量Hz=,其中,pli=Nli/N代表話題zi生成地域li的概率,Nli代表地域li中的位置分配給話題zi的頻數(shù),N代表地域li中位置總數(shù)。根據(jù)分布3,地域在話題中的邊緣分布如公式(4)所示。

      (4)

      分布4[(話題,地域)-位置]t:對任意(話題,地域)li,生成S維位置分布向量E(z, l)=,其中,pri=Nri/N代表話題zi在地域li上生成位置ri的概率,Nri代表位置ri在li中出現(xiàn)的頻數(shù),N代表位置ri的標(biāo)簽總數(shù)。根據(jù)分布4,位置ri在(話題,地域)li中的邊緣分布如公式(5)所示。

      (5)

      根據(jù)變量之間的依賴關(guān)系,模型的建模步驟如下:

      第1步,利用t-1時刻話題和地域的遺傳信息建立t時刻話題遺傳矩陣wt-1和地域遺傳矩陣vt-1;

      第2步,從文本-話題分布At中隨機生成一個話題zi;

      第3步,以Interface-β(wt-1)為先驗從對應(yīng)的話題-詞匯分布Bt中隨機抽取一個詞匯wi;

      第4步,以Interface-δ(vt-1)為先驗從話題-地域分布Ht中隨機抽取一個地域li;

      第5步,從地域-位置分布Et中隨機抽取一個位置ri;

      第6步,返回至第2步,直到生成所有的詞匯和位置。

      從生成過程來看,EIAGT模型在主題層上映射出了一個地域?qū)?地域?qū)佑钟成涑隽艘粋€位置層,所以EIAGT模型是一個4層貝葉斯網(wǎng)絡(luò),其生成結(jié)構(gòu)如圖1所示。

      圖1 EIAGT模型生成示意圖

      圖1中,方框表示抽樣次數(shù),箭頭表示依賴關(guān)系。話題z和地域l是隱含變量,實心圓圈詞匯w和位置r是可觀測值,各符號代表的含義如表1所示。

      表1 EIAGT模型參數(shù)說明

      3.2 話題地域遺傳矩陣的建立

      3.2.1話題地域遺傳度計算

      話題z在地域l上的特征包括:話題z在地域l上的文本數(shù)量;話題z在地域l上的用戶數(shù)量;話題z在地域l上的用戶影響力以及話題z在地域l上的用戶交融度。我們用特征增量作為遺傳度量標(biāo)準(zhǔn),則t-1時刻話題z在地域li上遺傳度計算公式如(6)所示:

      (6)

      (7)

      (8)

      式(8)中,UStr表示話題用戶之間產(chǎn)生信息交流的用戶數(shù)量,|U|表示用戶總數(shù)。

      EIAGT模型將t時刻(主題,地域)-位置分布矩陣νt的生成過程看成馬爾可夫鏈,把t-1時刻的主題位置后驗作為t時刻νt的條件先驗,先驗的傳遞是通過調(diào)節(jié)超參δt的來值實現(xiàn)的。超參δt的計算公式如(9)所示。

      (9)

      其中,Lt表示t時刻話題地域向量中的位置個數(shù),Rank是個符合正態(tài)分布的隨機變量用來調(diào)節(jié)遺傳偏離。

      3.2.2相鄰時刻的話題對齊

      在EIAGT模型中,t時刻的話題數(shù)量K是動態(tài)獲取的。如果t-1時刻和t時刻的話題數(shù)量不相同,在先驗遺傳時t-1時刻的話題地域遺傳矩陣和t時刻的生成矩陣就無法對齊,容易造成話題地域信息的遺傳錯位。為了避免矩陣相乘帶來的誤差,需要對兩個時刻的位置演化矩陣ν進行對齊操作。對其操作如下:

      假設(shè)t時間片內(nèi)的話題數(shù)為K,話題演化矩陣C遵循如下原則:①若t-1時間片中的話題數(shù)大于K,則Bt-1和Ht-1按分布強度topK原則縮減至K行;②若t-1時間片中的話題數(shù)小于K,則Bt-1和Ht-1增加到K行,增加的行向量按分布均值均勻填充。

      3.3模型生成過程的公式推導(dǎo)

      由于模型中存在隱含變量z和l,直接對參數(shù)進行精確推導(dǎo)比較困難。通常情況下,需要通過變量之間的依賴關(guān)系建立變量之間的聯(lián)合概率,然后求解可觀測變量w和r的邊緣分布,消去隱含變量,得出w和r的生成概率,最后再運用吉布斯采樣算法對可觀測變量進行迭代,得出At、Bt、Et穩(wěn)定的近似分布。

      3.3.1t時刻詞匯w、位置r的生成概率推導(dǎo)

      t-1與t兩個時刻之間產(chǎn)生的文本形成t時刻文本集,用Dt表示。根據(jù)EIAGT的生成過程,文檔di∈Dt生成一個服從Dirichlet分布的話題多項式混合,記為Ad。話題zi∈di生成一個服從Dirichlet分布的詞匯多項式混合,記為Bz。同時,話題zi又生成一個服從高斯分布的位置多項式混合,記為Ez,每一維高斯分布表示話題的一個地域。高斯分布的最大值對應(yīng)的位置為話題的地域中心。由于話題存在于多個地域上,所以模型在生成話題位置時,首先選取話題zi生成概率top 100的文檔位置作為話題中心,然后按照最小距離dist閾值對這些位置進行聚類,得出話題的多個種子地域,最后依次搜索文本位置并與所有種子的地域中心進行比較,把符合閾值的文本位置分配給話題相應(yīng)的種子地域,如果地域之間的距離小于閾值時,進行地域合并。

      P(At,Bt,Et,w,r,z|αt,βt,δt,wt-1,vt-1)=

      (10)

      對公式(10)右邊部分繼續(xù)分解如下:

      (11)

      公式(11)中,Γ(·)表示標(biāo)準(zhǔn)伽瑪函數(shù),xd,r表示在r位置內(nèi)的文本d分配給主題z的詞匯數(shù)量,x表示在r位置內(nèi)文本d的詞匯總數(shù)。

      (12)

      公式(12)中,yr,z表示話題z在位置r上出現(xiàn)的頻數(shù),y表示話題z在所有位置上出現(xiàn)的總頻數(shù)。

      (13)

      公式(13)中,cl,w表示地域l上分配給話題z的位置數(shù)量,c表示地域l上位置總數(shù)。由公式(10)得出w和r的采樣公式。

      (14)

      公式(14)表示采樣詞匯w在話題zi中且不再z-i中,采樣位置r在地域li中且不在l-i中的聯(lián)合概率。

      3.3.2w和r的采樣過程

      在EIAGT模型中,為了保持話題演化的連續(xù)性,通過t-1時刻的遺傳矩陣來動態(tài)調(diào)節(jié)t時刻超參αt、βt、δt的分布。然后,使用先驗信息依次遍歷Dt中的所有文本,動態(tài)更新At、Bt、Et三個分布,At、Bt、Et的更新公式如(15)~(17)所示,每遍歷一次Dt算作一次采樣。

      (15)

      (16)

      (17)

      對公式(14)進行反復(fù)采樣迭代,達到設(shè)定的迭代次數(shù)或者At、Bt、Et三個分布達到穩(wěn)定的轉(zhuǎn)移狀態(tài)后停止采樣。

      3.4 算法描述

      EIAGT模型建立了文本、話題、地域、詞匯、位置五者之間的依賴關(guān)系,在At、Bt、Et三個分布內(nèi)形成了一個隱馬爾科夫鏈。根據(jù)馬爾科夫鏈的收斂性質(zhì),需要對語料庫中的可觀測量w和r進行采樣,采樣算法描述如下:

      Input:(1)超參α,β,δ; (2)初始時刻t, 位置距離閾值dist。

      Output:At,Bt,Et。

      IFt= 1 Then

      初始化話題遺傳矩陣,設(shè)定值為αt=β/K;

      Else IFt>1 Then

      K= Get-K(Dt);//獲取t時刻數(shù)據(jù)集中的話題數(shù)

      αt=βt/K;

      βt= Interface-β(wt-1);//獲取話題遺傳先驗

      γt= Interface-δ(vt-1);//獲取話題地域的遺傳先驗

      Forl=1 toL

      Fork=1 toK

      Choosealk~Multi(γtk) fromHt;

      For eachr∈lk

      Chooseari~Multi(lk) fromEt;

      Createzn→lk//建立話題與地域的映射關(guān)系

      Fori=1 toM

      Forj=1 toN

      Choose azdn~Multi(θdi) fromAt;

      For eachw∈di

      Choose awi~Multi(zdn) fromBt;

      For eachr∈liandPr> dist

      Chooseari~Multi(lzn) fromEt;

      Merge(lj,ri);//把位置ri合并到lj中

      End For

      End For

      End For

      t=t+ 1;

      Createwt-1with Interface-β( );

      Createvt-1with Interface-δ( );

      End IF

      模型在迭代的時候,依次掃描文檔、詞匯及詞匯位置。由于文檔并不是由所有詞匯構(gòu)成的,地域也不包含所有位置,所以文本長度設(shè)為文本長度的均值lw。每個地域中的位置數(shù)量設(shè)為所有地域位置數(shù)量的均值lr。地域和話題是平行層,文本數(shù)量為M,迭代次數(shù)為Niter,主題數(shù)為K,地域數(shù)為G,所以,算法的時間復(fù)雜度為O(Niter×M×(Klw+Glr))。

      4 實 驗

      4.1 數(shù)據(jù)來源及預(yù)處理

      我們使用“八爪魚”網(wǎng)絡(luò)數(shù)據(jù)采集器爬取了2020年1月10日~2月6日微博熱門板塊中用戶發(fā)帖文本數(shù)據(jù),共計56 982條。每條數(shù)據(jù)包括文本內(nèi)容、發(fā)布時間、位置等三個字段。實驗數(shù)據(jù)納入標(biāo)注:①所有字段無缺失值;②文本字段需包含漢字。根據(jù)納入標(biāo)準(zhǔn)對不符合要求的數(shù)據(jù)進行清洗后,得到有效數(shù)據(jù)52 976條。然后,使用ICTCLAS分詞軟件對文本進行分詞,去除停用詞、介詞、語氣詞、轉(zhuǎn)折詞等無用詞后,建立大小為M×(2+N)的文本矩陣D,每一行表示一條文本信息,其中,第1列存放文本的發(fā)布時間,第2列存放文本發(fā)表的位置,后N列存放文本分詞結(jié)果。按照4天的時間間隔劃分D,建立數(shù)據(jù)流Dt=1~Dt=7。需要說明的是:用戶發(fā)帖時系統(tǒng)會根據(jù)用戶的位置以“省”為位置單位標(biāo)識出用戶的位置信息,為了便于建模,我們按照字母升序?qū)κ》菝Q進行編號,如:安徽省的編號為r01。

      4.2 實驗結(jié)果分析

      當(dāng)t=1時,EIAGT模型以初始狀態(tài)開始運行,參數(shù)設(shè)置為:αt= 0.5/K,βt= 0.01,δt= 0.01;當(dāng)t>1時,αt= 0.5/K,βt= Interface-β(Et-1),δt= Interface-δ(Et-1)。話題數(shù)K為Dt中的最優(yōu)話題數(shù),由話題最優(yōu)化函數(shù)返回得到[14]。話題位置的生成概率閾值設(shè)定為0.010。按照位置生成概率排序,選擇Top 10作為地域中的位置數(shù)量。以上參數(shù)均為經(jīng)驗最優(yōu)[15]。

      4.2.1話題位置的動態(tài)識別

      EIAGT模型依次對t=1到t=7連續(xù)數(shù)據(jù)段進行運算,共識別出話題169個。按照生成概率從大到小的順序,從Bt中選取出10個詞作為話題特征詞,從Et中選取8個位置作為話題流行的地域。EIAGT模型識別出的話題和位置信息如表2所示。另外,由于篇幅限制,每個時間段內(nèi)僅列舉出了熱度排名前3的話題。最后,我們把相鄰時刻話題鏈接[11]之后,得出7個熱點話題,話題序號按照話題出現(xiàn)的先后進行編排,話題流行地域用位置編號表示。

      表2 連續(xù)時刻話題特征詞及位置識別結(jié)果

      根據(jù)表2中的話題特征詞,使用人工方法對7個話題進行內(nèi)容概括。概括過程如下:首先,在各數(shù)據(jù)流Dt=i內(nèi)以話題特征詞作為檢索詞抽取包含該話題特征詞的所有文本;然后,由兩人共同探討概括出文本所表達的話題,如果出現(xiàn)意見不一致,則引入“第三人”進行判斷。按照這種方式,7個話題的內(nèi)容概括如下:

      話題1:關(guān)于春節(jié)相關(guān)的話題;

      話題2:關(guān)于旅游的話題;

      話題3:關(guān)于新冠疫情的話題;

      話題4:關(guān)于趙忠祥去世的話題;

      話題5:關(guān)于武漢封城的話題;

      話題6:關(guān)于科比去世的話題;

      話題7:關(guān)于復(fù)工復(fù)產(chǎn)的話題。

      4.2.2話題的線上特征分析

      從圖2中可以看出,持續(xù)時間最長的是話題1和話題3,分析原因是因為話題1討論的是春節(jié)相關(guān)話題,因為春節(jié)是中國人最重要的節(jié)日之一,這個話題是人們都愛討論的;另外,這段時間正是我國疫情發(fā)展的初始階段,大家都在關(guān)心疫情發(fā)展,所以話題3的持續(xù)時間也非常長。話題2在t1時刻后熱度就降低了,可能是因為受疫情的影響,很多旅游計劃都不能成行,促使了旅游話題的消失。趙忠祥去世和科比去世都是爆炸性新聞,但是熱度都只持續(xù)兩個時間段,且強度不強,主要原因還是因為我國疫情的發(fā)展,人們關(guān)注的焦點又迅速地轉(zhuǎn)移到了疫情之上。

      圖2 話題持續(xù)的時間分布

      4.2.3話題的線下特征分析

      話題的線下特征識別包括話題的地域演化識別和流行地域上的話題強度演化識別。本文以話題3為例來說明話題線下特征的識別過程。表3給出了話題3在t1~t4連續(xù)時間段上的流行地域熱度。

      表3 連續(xù)時間段上話題3在流行地域上的熱度變化

      在表3中,在t1時間段,話題3的主要流行地域在湖北省,因為這個時期疫情剛處于發(fā)展階段,外圍省份的網(wǎng)民對此關(guān)注的還相對較少。在t2時間段,話題3已經(jīng)向周邊省份擴散,一些發(fā)達省份話題熱度開始逐步增強,原因可能是因為這些地區(qū)人口多,網(wǎng)民基數(shù)大,發(fā)帖量多等原因造成的。在t3時間段,隨著疫情的迅猛發(fā)展,話題3在湖北省的熱度持續(xù)走高,且在其他省份的熱度也在不斷增強。在t4時間段,隨著疫情的發(fā)展以及大量在外務(wù)工人員返鄉(xiāng)過年等原因,話題3逐步向中西部流動,表現(xiàn)在河南、安徽、重慶等省市的話題強度明顯增長。

      4.3 模型性能評價

      4.3.1困惑度對比

      困惑度(Perplexity)是檢測話題聚類質(zhì)量的評價標(biāo)準(zhǔn)[16],困惑度越小,算法性能越好。為了驗證EIAGT模型話題識別的有效性,我們選取OLDA、LDA、TF-IDF[17]、PLSA[18]四個經(jīng)典話題模型作為對比對象,從每個時間段數(shù)據(jù)集中隨機抽取70%的文本數(shù)據(jù)作為訓(xùn)練集,剩下的30%作為測試集,各算法在7個連續(xù)數(shù)據(jù)集上話題困惑度對比如圖3所示。

      圖3 困惑度對比

      從圖3中可以得出,本文模型的困惑度與OLDA相近,均低于其他3個模型,說明EIAGT模型的話題識別精度達到了OLDA的水平,話題識別效果較好。分析原因是因為本文模型與OLDA模型都利用了歷史語料信息,使得話題生成先驗更加貼近t時刻文本環(huán)境,提高了話題先驗的準(zhǔn)確性。而其它三個模型僅憑人工經(jīng)驗來設(shè)定模型的超參,對語料環(huán)境一無所知,這就容易造成話題后驗的計算偏差。

      4.3.2話題地域識別性能對比

      為了驗證本文模型的有效性,我們采用準(zhǔn)確率、召回率和F值作為評價指標(biāo),以RO-LDA[13]、GTTD[8]、LGT[19]、GT[20]作為對比對象,在本文提供的7個連續(xù)數(shù)據(jù)集上依次運行這些算法。然后,把各模型識別出的話題地域與人工標(biāo)注結(jié)果進行對比,準(zhǔn)確率、召回率、F值分別如表4~表6所示。

      表4 準(zhǔn)確率對比(%)

      表5 召回率對比(%)

      表6 F值對比(%)

      在表6中,EIAGT模型的綜合F值高于其它模型,說明EIAGT模型的話題地域識別性能最好。從對比結(jié)果來看,文本方法與當(dāng)前流行的GTTD和RO-LDA模型相比,有兩個方面的優(yōu)勢:一是模型假設(shè)優(yōu)勢,二是話題地域遺傳優(yōu)勢。GTTD模型基于興趣聚類假設(shè),認為相同區(qū)域內(nèi)相近的人更容易具有相似的興趣話題,挖掘生成順序是地域→話題。這種生成順序把話題約束在了事先設(shè)定的區(qū)域內(nèi),在區(qū)域內(nèi)熱點話題的地域分布挖掘方面具有較強的優(yōu)勢,但在廣泛范圍內(nèi)的話題地域識別精度不是很理想。RO-LDA模型的生成順序恰好與GTTG相反,它在采樣話題詞的時候一并采樣詞匯位置,通過對話題詞的聚類,建立話題地域?qū)?該模型的生成順序是話題→地域。這種方式打破了話題的地域限制,更容易識別話題在多地域上的分布,所以在廣泛性話題挖掘上RO-LDA要好于GTTD。但是GTTD和RO-LDA都是靜態(tài)模型,模型超參是根據(jù)人為經(jīng)驗設(shè)定的,很難判定當(dāng)前語料環(huán)境下的話題和話題地域的最優(yōu)先驗。而本文方法是個動態(tài)模型,不僅借鑒了RO-LDA模型的地域生成假設(shè),還利用話題遺傳和地域遺傳思想,提高了話題和話題地域的識別精度,使得EIAGT模型性能有了進一步的提高。

      5 結(jié) 語

      本文利用OLDA模型的在線話題演化識別能力,在其三層生成框架的基礎(chǔ)上增加了(話題,地域)層,建立了地域性話題演化識別模型EIAGT。該模型利用t-1時刻話題和話題地域的遺傳信息訓(xùn)練出話題-詞匯分布Bt和(話題,地域)-位置分布Et,具備了線下話題流行地域的演化識別能力。經(jīng)過實驗并與其它流行模型進行對比,本文方法不僅在話題識別性能上達到了OLDA模型的水平,而且在話題流行地域的識別性能上也達到了良好效果。

      由于EIAGT模型的話題及話題地域遺傳信息都是基于時間平滑假設(shè)計算得到的,影響了模型在t時刻的話題感應(yīng)靈敏度,對話題的突變挖掘效果較差。所以如何提高EIAGT模型在時間平滑假設(shè)下的突發(fā)話題識別速率, 以及基于時序與空間數(shù)據(jù)學(xué)習(xí)模型[21,22]下的話題地域挖掘?qū)⑹俏覀兿乱徊降难芯抗ぷ鳌?/p>

      猜你喜歡
      時刻遺傳詞匯
      非遺傳承
      冬“傲”時刻
      捕獵時刻
      本刊可直接用縮寫的常用詞匯
      一些常用詞匯可直接用縮寫
      還有什么會遺傳?
      還有什么會遺傳
      還有什么會遺傳?
      本刊可直接用縮寫的常用詞匯
      街拍的歡樂時刻到來了
      平塘县| 儋州市| 顺昌县| 礼泉县| 平邑县| 甘泉县| 礼泉县| 额尔古纳市| 仁化县| 潮安县| 丰台区| 古田县| 金溪县| 洪雅县| 区。| 池州市| 正宁县| 五指山市| 榆中县| 中西区| 黑龙江省| 客服| 宁南县| 杨浦区| 平山县| 都安| 溆浦县| 渭源县| 岑巩县| 安陆市| 淳化县| 历史| 阿拉善盟| 郎溪县| 宝应县| 武强县| 海淀区| 湖南省| 乐平市| 怀柔区| 博爱县|