• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于CNN-RNN的社交媒體中突發(fā)事件感知方法

      2021-09-09 05:35:54李小平
      鐵道學報 2021年8期
      關(guān)鍵詞:突發(fā)事件消息社交

      李小平,白 超

      (蘭州交通大學 機電工程學院,甘肅 蘭州 730070)

      據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)數(shù)據(jù)顯示,我國手機上網(wǎng)人數(shù)為8億左右。每一個手機用戶就是一個獨立的社會傳感器,可以隨時通過微博、微信等移動社交方式發(fā)送所見所聞,成為社會輿論熱點、突發(fā)危機事件傳播的第一觸角。近年來,社交媒體大數(shù)據(jù)已經(jīng)在突發(fā)事件情境感知、監(jiān)管決策和應急處理等方面提供了有價值的信息[1-3],對有效幫助應急救援決策部門及時、果斷地做出正確決策提供了新的思路和手段,也引起了新聞傳播、計算機科學、公共管理等諸多領(lǐng)域?qū)W者的關(guān)注和研究[4]。

      社交媒體中突發(fā)事件的感知屬于“熱點輿論”傳播的范疇,一般采用復雜網(wǎng)絡(luò)的方法進行研究。Jermaine等[5]利用多層神經(jīng)網(wǎng)絡(luò)從社交網(wǎng)絡(luò)數(shù)據(jù)中感知事件真相;陳震等[6]基于貝葉斯網(wǎng)絡(luò)進行輿情事件趨勢分析;楊峰等[7]將情報資源分析之上的情景要素與當前突發(fā)事件呈現(xiàn)的特征屬性進行相似度檢驗,然后通過扎根理論、文本分詞、特征詞提取以及相似度計算等方法實現(xiàn)情報感知;王艷東等[8]基于社交媒體數(shù)據(jù)建立應急主題分類模型,并對突發(fā)事件的空間分布規(guī)律和異常區(qū)域進行了挖掘分析;趙又霖等[9]針對社會感知數(shù)據(jù)進行了多源異構(gòu)融合及語義層面的知識組織,構(gòu)建了社會感知數(shù)據(jù)驅(qū)動下的時空語義模型。

      隨著大數(shù)據(jù)技術(shù)的應用及計算機處理能力的提升,深度學習技術(shù)也逐漸應用于社交媒體分析,并顯示出強大的解決能力。文獻[10]針對社交媒體感知中的大量異構(gòu)、噪聲、虛假以及缺乏空間參考信息的數(shù)據(jù)問題,采用高性能計算、深度學習以及多源數(shù)據(jù)融合技術(shù)實現(xiàn)災難事件的及時感知與應對;文獻[11]使用卷積神經(jīng)網(wǎng)絡(luò)以及支持向量機識別Facebook中的緊急事件,對應急準備、響應、恢復信息進行了分類研究;文獻[12]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的突發(fā)公共事件謠言轉(zhuǎn)發(fā)行為預測模型;文獻[13]研究了自然災害期間社交媒體中的信息融合問題;文獻[14]提出了一種基于改進RNN-LSTM的專業(yè)領(lǐng)域公共事件數(shù)據(jù)預測模型。

      綜上所述,傳統(tǒng)的社交媒體事件感知方法主要依賴于語義信息和復雜社會網(wǎng)絡(luò)信息[5-9];而深度學習方法能夠有效避免對于語義信息和社會網(wǎng)絡(luò)信息的過度依賴,快速從海量社交信息中篩選出關(guān)鍵敏感信息,成為社交媒體信息處理的新方向[10-14]。突發(fā)事件在社交媒體中的傳播可以看作是一個自發(fā)的自適應社交網(wǎng)絡(luò),具有較強的時空相關(guān)性[15],決策者希望在事件發(fā)生的第一時間就能及時感知,以便快速采取應對措施,因此,突發(fā)事件的社交媒體信息感知存在地理位置性、時間鏈條性、緊迫性、自適應網(wǎng)絡(luò)、爆炸性傳播等特點。CNN(卷積神經(jīng)網(wǎng)絡(luò))方法具有較強的高維數(shù)據(jù)(如時空語義數(shù)據(jù))處理能力,又可避免對圖像的復雜前期預處理;RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))方法具有事件序列性的特點,能夠直接學習從消息傳播時間序列獲取的映射函數(shù),具有及時、準確感知突發(fā)事件的能力。因此,本文在前述研究的基礎(chǔ)上,提出一種基于CNN與RNN融合的社交媒體中突發(fā)事件感知方法,避免了自適應復雜社會網(wǎng)絡(luò)的構(gòu)建及低效的事件特征提取,利用CNN的高維數(shù)據(jù)處理能力構(gòu)建事件消息多元傳遞網(wǎng)絡(luò),利用RNN的時序處理能力構(gòu)建突發(fā)事件傳播的時間序列,融合實現(xiàn)對于一定傳播范圍(轉(zhuǎn)發(fā)次數(shù))、傳播時長敏感信息的自動獲取,然后通過事件鏈的語義信息、圖像、語音、視頻、地理位置等進行事件畫像,實現(xiàn)對突發(fā)事件現(xiàn)場情境的快速感知。

      1 社交媒體中的時空語義問題描述

      一則社交網(wǎng)絡(luò)消息S可定義為一個七元組函數(shù),即

      S=f(created_at,id,mid,mutil_data,source,geo,uid)

      (1)

      式中:created_at為社交消息創(chuàng)建時間;id為社交消息ID號;mid為社交消息MID號;mutil_data為社交消息內(nèi)容;source為消息來源(源發(fā)、轉(zhuǎn)發(fā));geo為消息發(fā)送地址(經(jīng)緯度);uid為用戶ID。時間數(shù)據(jù)created_at和空間數(shù)據(jù)geo共同定義了社交消息的時空屬性。社交消息內(nèi)容mutil_data包含多個數(shù)據(jù),其定義為

      mutil_data=(text,original_pic,original_voice,

      original_video)

      (2)

      式中:text為語義信息;original_pic為原始圖片數(shù)據(jù);original_voice為語音數(shù)據(jù);original_video為視頻數(shù)據(jù)。text、original_pic、original_voice、original_video共同構(gòu)成多模態(tài)社交網(wǎng)絡(luò)數(shù)據(jù)。采用網(wǎng)絡(luò)爬取工具(如Python等)可以從微博、微信、抖音、Facebook等社交媒體中獲取上述信息,并創(chuàng)建社交網(wǎng)絡(luò)消息源數(shù)據(jù)庫。

      2 融合CNN-RNN的突發(fā)事件感知模型

      2.1 網(wǎng)絡(luò)輸入

      (1)時間created_at序列特征的向量表示

      社交消息創(chuàng)建時間created_at(年、月、日、時、分、秒)的向量表示參考文獻[16],采用正交互補的方法將時間變量映射成時間的向量表示。

      (3)

      式中:t2v(τ)[i]為t2v(τ)的第i個元素;F為周期激活函數(shù);ωi和φi為可學習參數(shù);τ為時間標量。選擇F為正弦函數(shù),對于1≤i≤k,ωi和φi為正弦函數(shù)的頻率和移相。

      時間信息中,年月日是非周期量,時分秒是周期量,則每條消息發(fā)布的時間可以表示為

      created_at={T0,T1,T2,T3}

      (4)

      式中:T0為年月日向量;T1為時向量;T2為分向量;T3為秒向量。降維處理后得到二維社會傳感網(wǎng)絡(luò)時間向量created_at-2為

      (5)

      式中:tntn為第n條消息發(fā)布的時間。

      (2)社交消息mid及主題id的向量表示

      社交消息mid和主題id是社交消息的標識數(shù)據(jù)。假如某條社交消息的鏈接為http:∥weibo.com/2803301701/CeaOU15IT,則CeaOU15IT即為該消息的mid。mid經(jīng)過62進制轉(zhuǎn)換即為主題id。CeaOU15IT對應的id為3833781880260331。id和mid可以用一維向量表示。

      (3)mutil_data文本數(shù)據(jù)的向量化

      mutil_data為社交消息內(nèi)容,在事件感知時重點考慮text語義數(shù)據(jù),original_pic、original_voice、original_video等其他數(shù)據(jù)在情景畫像時再進行數(shù)據(jù)融合。mutil_data中文本數(shù)據(jù)的向量化采用隱含迪利克雷分布(Latent Dirichlet Allocation,LDA)方法[17],處理過程見圖1。

      圖1mutil_data文本數(shù)據(jù)向量化

      首先將消息內(nèi)容采用TF-IDF方法進行特征詞抽取,然后采用LDA進行關(guān)鍵詞主題映射,最后通過word2vec函數(shù)將其主題向量化?;贕ibbs采樣的并行化計算特性,本文采用Gibbs來訓練分布式的海量社交媒體文檔的LDA模型。

      (4)geo數(shù)據(jù)的向量表示

      geo為地理信息,以路網(wǎng)無向圖的方式對其進行向量化,以帶屬性的線段集合方式儲存。每個線段由有序的經(jīng)緯度坐標組成,再用一個二維數(shù)組存放頂點關(guān)系的數(shù)據(jù)。在無向圖中,任一坐標頂點i的度數(shù)為第i列所有元素的和。

      (5)用戶特征向量source及uid的向量表示

      社交網(wǎng)絡(luò)中的用戶是消息的傳播者,初始發(fā)布者很有可能是事件的親歷者或者旁觀者,對于突發(fā)事件的感知,需要在盡可能短的時間內(nèi)從社交網(wǎng)絡(luò)數(shù)據(jù)中挖掘出敏感信息。RNN能夠很好地關(guān)聯(lián)轉(zhuǎn)發(fā)消息的時間序列,因此,基于用戶特征向量source及uid的社交消息轉(zhuǎn)發(fā)可以用一個時間序列向量表示,見圖2。

      圖2 消息轉(zhuǎn)發(fā)的時間序列

      圖2中,對于一條社交網(wǎng)絡(luò)消息,t0時刻的用戶x0為消息源,ti時刻發(fā)布的消息轉(zhuǎn)發(fā)自ti-1時刻的xi-1,因此,基于用戶特征(uid)可以構(gòu)建RNN神經(jīng)網(wǎng)絡(luò)。每個uid的字段長度是不同的,為了使進入網(wǎng)絡(luò)的特征具有相同的長度,對輸入序列做如下處理:設(shè)置輸入序列X的最大長度為L;對于長度大于L的序列,從序列尾部做截斷處理;對于長度小于L的序列,在序列頭部添加0補足。轉(zhuǎn)發(fā)用戶uid帶有轉(zhuǎn)發(fā)信息的所有信息,屬于典型的RNN時間序列傳遞。

      2.2 網(wǎng)絡(luò)結(jié)構(gòu)

      在CNN環(huán)節(jié),首先將轉(zhuǎn)發(fā)消息的信息進行圖像化,然后將圖像化處理后的created_at、id、mid、uid、geo、text輸入CNN,經(jīng)過卷積操作提取不同抽象層次的高維度局部特征,再經(jīng)過池化技術(shù)有效控制學習規(guī)模,提高泛化能力,最后通過softmax進行主題分類。為了防止過度擬合,降低神經(jīng)元之間連接的復雜性,在本模型中加入了Dropconnect函數(shù)[18]。不同激活函數(shù)對識別性能有顯著影響,激活函數(shù)RReLU的識別性能好于sigmoid函數(shù)和tanh函數(shù)[19],所以本文選取RReLU激活函數(shù)。

      在RNN環(huán)節(jié),將CNN softmax的主題及消息分類輸出作為RNN神經(jīng)網(wǎng)絡(luò)的輸入,根據(jù)用戶特征向量source的時間序列保留轉(zhuǎn)發(fā)消息的時序性。在某一個時序xi,滿足一定轉(zhuǎn)發(fā)次數(shù)或傳播時長后作為突發(fā)事件進行主題輸出,然后在該主題序列中追溯到原始消息x0及原始消息x0的地理位置geo0。以geo0為圓心,在半徑R的范圍內(nèi)該主題的消息即為突發(fā)事件發(fā)生地的社交媒體發(fā)出的消息,也是最接近真實的突發(fā)事件信息。采集這些信息(包括text、original_pic、original_voice、original_video),并進行事件畫像,即可感知到突發(fā)事件的現(xiàn)場情境。融合CNN-RNN的網(wǎng)絡(luò)模型結(jié)構(gòu)見圖3。

      圖3 融合CNN-RNN的突發(fā)事件感知模型

      2.2.1 基于多層CNN的社交消息主題聚類

      海量社交消息的CNN聚類,卷積的層數(shù)越多則非線性擬合能力越強,提取的消息特征也越多,但過多的卷積層會延長運算時間,造成過擬合現(xiàn)象,因此本模型采用了4層卷積層和2層最大池化層。具體處理過程如下。

      (1)歸一化:由于模型涉及6層信息的疊加,因此在信息輸入網(wǎng)絡(luò)之前進行歸一化操作。

      (6)

      (2)卷積層1:卷積層1選用3×3的卷積核進行圖像局部特征提取,假設(shè)輸入層圖像為n×n,則卷積層1處理后得到(n-2)×(n-2)的特征圖。

      (8)全連接層:全連接層將學到的“分布式特征表示”映射到樣本標記空間中。由于全連接層的輸入是最大池化層2的輸出,是二維的特征圖,因此需要對二維特征圖進行降維處理成一維向量。

      (9)softmax:對于社交消息的分類輸出問題,采用softmax作為似然函數(shù)。全連接層輸出所有單元的激活值,通過softmax進行歸一化,映射到(0,1)區(qū)間內(nèi),即

      (7)

      式中:Si為第i個類別的概率;z(i)為第i個類別的單元激活值。選擇其中概率值最大的類別作為最終分類結(jié)果輸出,進而完成了CNN對消息的特征提取和分類。

      2.2.2 基于RNN循環(huán)網(wǎng)絡(luò)單元的突發(fā)事件感知

      (1)長短期記憶模型

      以CNN方法輸出社交消息主題聚類以后,采用RNN來輸出符合條件的突發(fā)事件信息。

      O(t)=f(x(t))×W+O(t-1)×V+b

      (8)

      式中:O為輸出;x為輸入;W為輸入層訓練的權(quán)重;V為輸出層訓練的權(quán)重;b為偏置量;f為激活函數(shù)。

      常規(guī)RNN在訓練中容易出現(xiàn)梯度消失問題[20],為此本課題采用長短期記憶(Long Short-Term Memory,LSTM)模型[21]和GRU[22]單元來進行處理。LSTM模型是一種時間遞歸神經(jīng)網(wǎng)絡(luò),旨在解決RNN的長期依賴與梯度消失問題。LSTM網(wǎng)絡(luò)的結(jié)構(gòu)與循環(huán)神經(jīng)網(wǎng)絡(luò)保持一致,而重復模塊會進行更多的操作,增強重復模塊使LSTM網(wǎng)絡(luò)能夠記住長期依賴關(guān)系。LSTM加入了輸入門gin(t)、遺忘門gforget(t)和輸出門gout(t),其表達式為

      gin(t)=sigmoid[W×x(t)+V×y(t-1)+

      U×C(t-1)]

      (9)

      gforget(t)=sigmoid[W×x(t)+V×y(t-1)+

      U×C(t-1)]

      (10)

      gout(t)=sigmoid[W×x(t)+V×y(t-1)+

      U×C(t)]

      (11)

      C(t)=gforgetC(t-1)+gin?f[W×

      x(t)+V×O(t-1)]

      (12)

      式中:C(·)為記憶單元;?為對應元素的乘積。

      則LSTM的輸出為

      O(t)=gout?f{gforgetC(t-1)+

      gin?f[W×x(t)+V×O(t-1)]}

      (13)

      (2)突發(fā)事件感知流程設(shè)計

      突發(fā)事件感知最希望得到事件發(fā)生地的現(xiàn)場用戶發(fā)出的消息,將社交消息中的地理位置信息geo與LDA提取的關(guān)鍵詞進行閾值匹配,即可獲得事發(fā)地用戶發(fā)出的源消息。

      要感知社交消息中的突發(fā)事件,核心是要獲取created_at、geo、text數(shù)據(jù),created_at、geo、text共同定義為社交消息時空語義三要素。根據(jù)突發(fā)事件在社交媒體傳播中的地理位置性、時間鏈條性、感知緊迫性、網(wǎng)絡(luò)自適應、傳播爆炸性等特點,設(shè)定突發(fā)事件消息在社交網(wǎng)絡(luò)傳播中的轉(zhuǎn)發(fā)次數(shù)為n、傳播時長為T時能夠被感知。

      將CNN輸出的聚類消息輸入到RNN中時,首先判定該消息轉(zhuǎn)發(fā)次數(shù)是否超過所設(shè)定的轉(zhuǎn)發(fā)頻次閾值n,如果超過則認為該事件即為突發(fā)事件,如果沒超過則輸入RNN中得到輸出結(jié)果y0,y1,y2,…,再根據(jù)式(10)判斷該事件為突發(fā)事件時進行主題序列輸出。

      (14)

      突發(fā)事件感知最希望得到事件發(fā)生地的現(xiàn)場社交媒體發(fā)出的第一手消息。在圖3輸出主題序列后,通過主題中的地理位置詞與該主題社交消息序列的地理位置信息geo,采用k-means算法,再通過設(shè)計距離R找到距離事發(fā)地點R范圍內(nèi)的社交消息群,確定為該突發(fā)事件的源消息群。假設(shè)該源消息群包含text、original_pic、original_voice、original_video等多模態(tài)數(shù)據(jù),通過事件畫像即可感知突發(fā)事件現(xiàn)場的情境。

      突發(fā)事件感知算法設(shè)計如下。

      輸入:源消息數(shù)據(jù)矩陣λ;轉(zhuǎn)發(fā)頻次閾值n;輻射半徑R。

      輸出:突發(fā)事件原始消息λi1;突發(fā)事件位置信息g*。

      開始:初始化源消息矩陣λ;將源消息數(shù)據(jù)矩陣λ按主題reshape為主題矩陣λi。

      ②判斷該主題事件轉(zhuǎn)發(fā)次數(shù)是否超過閾值,若超過則執(zhí)行⑥,若未超過則執(zhí)行③。

      ④計算輸出層O=g(VS),其中S為隱含層,即

      S=[f(Wx1+Us0),f(Wx2+Us1),…,

      f(Wxk+Usk-1)]

      (15)

      式中:xk為時間序列k的輸入;sk-1為第k-1個神經(jīng)元輸出的隱含信息;U為隱含層訓練的權(quán)重。

      ⑤根據(jù)輸出層結(jié)果計算softmax函數(shù)值并判斷該事件是否為突發(fā)事件。若該事件為突發(fā)事件則執(zhí)行⑥,否則返回①。

      ⑥輸出該事件原始消息λi1以及該事件原始消息的位置信息g*。

      結(jié)束:以該原始消息的位置信息g*為原點、R為輻射半徑,對短期內(nèi)的消息生成分布圖像并輸出消息列表。

      3 實驗

      為了驗證本文提出算法的先進性與可靠性,采用微博數(shù)據(jù)進行測試實驗。

      3.1 實驗環(huán)境

      采用Intel(R) Core(TM) i5-4210處理器,主頻1.70 GHz,內(nèi)存為8 GB,基于Tensorflow深度學習框架。實驗環(huán)境配置見表1。

      表1 實驗環(huán)境配置

      3.2 實驗數(shù)據(jù)

      本文使用的實驗數(shù)據(jù)來源于爬蟲在新浪微博上爬取到的從2020年3月30日到2020年4月9日共計12 939條數(shù)據(jù),將其中的60%用于訓練,40%用于測試。

      3.3 實驗過程

      (1)數(shù)據(jù)預處理

      由于消息的產(chǎn)生并不是由同一個用戶發(fā)出,故同一主題可能會產(chǎn)生多條消息,特別是對于一些熱門話題,短期內(nèi)將會有許多用戶發(fā)表在社交網(wǎng)絡(luò)上。將消息文本輸入LDA模型進行關(guān)鍵詞提取并通過word2vec函數(shù)向量化生成二維矩陣,對爬取到的12 939條消息數(shù)據(jù)進行向量化、歸一化處理。

      以郴州火車脫軌事件為例,其消息內(nèi)容為:“【湖南郴州火車脫軌事故現(xiàn)場】3月30日,T179次旅客列車行駛至湖南郴州永興縣境內(nèi)時脫軌,車廂發(fā)生側(cè)翻。經(jīng)現(xiàn)場確認,事故未造成人員死亡,受傷的鐵路員工和旅客已送醫(yī)救治。@人民日報正在直播,一起關(guān)注救援工作!”

      首先利用LDA進行關(guān)鍵詞提取,獲取的關(guān)鍵詞為“脫軌、郴州、直播、湖南、關(guān)注、受傷、死亡、旅客、救援、造成”。關(guān)鍵詞向量化時,選取總詞量的10%作為詞袋模型的大小,則以上關(guān)鍵詞向量化結(jié)果為[0003 0002 9899 0523 9745 1234 1234 1124 0854 9857]。再經(jīng)過歸一化后生成二維矩陣,見圖4。

      圖4 消息數(shù)據(jù)二維矩陣

      (2)CNN模型處理

      將向量化的訓練集數(shù)據(jù)輸入CNN模型。本實驗采用了4層卷積層和2層最大池化層,最后全連接層數(shù)據(jù)再進行softmax得到各個事件的主題聚類,并為每個消息附上主題標簽?;贑NN的主題聚類見表2。

      表2 基于CNN的主題聚類

      (3)LSTM模型結(jié)果

      將CNN中輸出同一類的消息輸入LSTM中預測是否為突發(fā)事件,若為突發(fā)事件則輸出其原始消息相關(guān)信息。輸出結(jié)果見圖5。

      圖5 基于LSTM模型的事件預測

      (4)突發(fā)事件臨近消息分布地圖

      為了提高數(shù)據(jù)的可視化程度,使用Python的folium第三方庫導入世界地圖來生成突發(fā)事件臨近消息分布地圖。由于微博消息具有離散性,故這里選用散點標記的方法生成分布地圖。郴州火車脫軌事件根據(jù)LSTM模型輸出的突發(fā)事件原始消息地理位置g*(這里以25 km為輻射半徑)生成的分布地圖見圖6。

      圖6 郴州火車脫軌事件事發(fā)地附近社交網(wǎng)絡(luò)消息分布地圖

      通過CNN-RNN融合的方法能夠在短期內(nèi)感知突發(fā)事件并生成分布地圖,再根據(jù)分布地圖可以較為容易地在早期找到突發(fā)事件的發(fā)生地點,同時也篩選出了早期的微博消息,因此具有很強的時效性和真實性,并根據(jù)分布地圖可以在短時間內(nèi)了解到現(xiàn)場的情況從而更早地做出更有針對性的決策。

      3.4 實驗評價

      基于社交網(wǎng)絡(luò)的突發(fā)事件感知問題屬于多元分類問題,可以采用精確率P、召回率R和F1值來進行評估,計算式分別為

      (16)

      (17)

      (18)

      式中:P為正確預測到的正類樣本數(shù)量占所有預測為正類樣本數(shù)量的比例;R為正確預測到的正類樣本數(shù)量占實際正類樣本數(shù)的比例;F1值為精確率與召回率的調(diào)和均值,是綜合考慮精確率與召回率的一種評價標準;TP為實際是正類,預測也為正類的樣本數(shù)量;FP為實際是反類,預測為正類的樣本數(shù)量;FN為實際是正類,預測為反類的樣本數(shù)量。

      3.5 對比實驗與分析

      CNN-RNN(LSTM)模型中將防止過擬合泛化函數(shù)Dropconnect的取值從0.1到0.9進行實驗,其實驗結(jié)果見圖7。

      圖7 Dropconnect取值對精確率的影響

      從圖7中可以看出,Dropconnect在CNN-RNN(LSTM)模型中對準確率有一定的影響,其取值在0.5~0.7之間時效果最佳,故本文選取Dropconnect為0.6。

      分別用LDA-CNN、RNN(LSTM)、CNN-RNN(LSTM)模型對微博數(shù)據(jù)進行突發(fā)事件感知實驗,以驗證本文提出算法的有效性。實驗結(jié)果對比見圖8,F(xiàn)1值對比見表3。

      圖8 Dropconnect對精確率的影響

      表3 突發(fā)事件感知實驗F1值比較

      由圖8和表3可以看出:

      采用文獻[17]的LDA-CNN模型進行實驗時,通過LDA主題抽取后將其向量化并輸入CNN網(wǎng)絡(luò),在全連接層后直接利用softmax進行突發(fā)事件感知,其精確率為89.2%,F(xiàn)1值為90.1%。主要是由于突發(fā)事件在社交媒體傳播中的時間鏈條性在LDA-CNN模型中并不能很好地得到體現(xiàn)。

      采用文獻[23]的RNN(LSTM)模型進行實驗時,由于RNN具有事件序列性,能夠直接學習從消息傳播事件序列到獲取的映射函數(shù),故能夠?qū)崿F(xiàn)及時、準確地感知發(fā)生的突發(fā)事件。但由于消息轉(zhuǎn)發(fā)序列通常都較長,故RNN(LSTM)收斂速度較慢,對突發(fā)事件的感知能力較弱。RNN(LSTM)模型精確率高于LDA-CNN模型,達到了89.6%,F(xiàn)1值達到91.3%。

      本文提出的CNN-RNN(LSTM)模型,利用了CNN的圖像處理能力構(gòu)建消息傳遞網(wǎng)絡(luò),獲得主題分類,為每個消息附上標簽,再將同類消息輸入RNN模型中,用RNN的時序處理能力構(gòu)建突發(fā)事件特征傳播的時間序列,對敏感信息自動獲取,既保證了消息的鏈條特性,又使得收斂速度更快,精確率達到了95.0%,F(xiàn)1值達到93.4%。

      4 結(jié)論

      本文提出了一種用于社交媒體中突發(fā)事件感知的方法。該方法能夠克服傳統(tǒng)方法對語義信息的過度依賴,通過CNN構(gòu)建自適應網(wǎng)絡(luò),從傳播中提取抽象特征,并結(jié)合RNN保持傳播過程中的序列性,從而更快地收斂并有著較好的識別精度,可以在較短的時間內(nèi)檢測出可能的突發(fā)事件,追根溯源,并根據(jù)源頭地理位置對消息進行聚類,最后通過事件鏈的語義信息、圖像、語音、視頻等進行事件畫像,實現(xiàn)對突發(fā)事件的快速感知。

      由于篇幅所限,本文對基于語義、圖像、語音、視頻、地理位置信息的事件畫像問題沒有進行詳細描述,后續(xù)將針對這一問題開展研究。

      猜你喜歡
      突發(fā)事件消息社交
      社交之城
      英語世界(2023年6期)2023-06-30 06:28:28
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      社交距離
      一張圖看5G消息
      你回避社交,真不是因為內(nèi)向
      文苑(2018年17期)2018-11-09 01:29:28
      突發(fā)事件的輿論引導
      清朝三起突發(fā)事件的處置
      文史春秋(2016年8期)2016-02-28 17:41:32
      消息
      消息
      消息
      都兰县| 宁都县| 宜宾县| 甘孜| 都安| 盘锦市| 商南县| 福清市| 陵川县| 台北市| 乌鲁木齐市| 罗甸县| 汉源县| 金阳县| 曲阜市| 靖宇县| 泸定县| 德令哈市| 休宁县| 三原县| 安新县| 新余市| 保靖县| 轮台县| 滨州市| 东阿县| 肇源县| 德格县| 时尚| 高平市| 开平市| 务川| 南岸区| 阳谷县| 卫辉市| 景洪市| 镇平县| 肇州县| 永城市| 高平市| 大余县|