李小平,白 超
(蘭州交通大學 機電工程學院,甘肅 蘭州 730070)
據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)數(shù)據(jù)顯示,我國手機上網(wǎng)人數(shù)為8億左右。每一個手機用戶就是一個獨立的社會傳感器,可以隨時通過微博、微信等移動社交方式發(fā)送所見所聞,成為社會輿論熱點、突發(fā)危機事件傳播的第一觸角。近年來,社交媒體大數(shù)據(jù)已經(jīng)在突發(fā)事件情境感知、監(jiān)管決策和應急處理等方面提供了有價值的信息[1-3],對有效幫助應急救援決策部門及時、果斷地做出正確決策提供了新的思路和手段,也引起了新聞傳播、計算機科學、公共管理等諸多領(lǐng)域?qū)W者的關(guān)注和研究[4]。
社交媒體中突發(fā)事件的感知屬于“熱點輿論”傳播的范疇,一般采用復雜網(wǎng)絡(luò)的方法進行研究。Jermaine等[5]利用多層神經(jīng)網(wǎng)絡(luò)從社交網(wǎng)絡(luò)數(shù)據(jù)中感知事件真相;陳震等[6]基于貝葉斯網(wǎng)絡(luò)進行輿情事件趨勢分析;楊峰等[7]將情報資源分析之上的情景要素與當前突發(fā)事件呈現(xiàn)的特征屬性進行相似度檢驗,然后通過扎根理論、文本分詞、特征詞提取以及相似度計算等方法實現(xiàn)情報感知;王艷東等[8]基于社交媒體數(shù)據(jù)建立應急主題分類模型,并對突發(fā)事件的空間分布規(guī)律和異常區(qū)域進行了挖掘分析;趙又霖等[9]針對社會感知數(shù)據(jù)進行了多源異構(gòu)融合及語義層面的知識組織,構(gòu)建了社會感知數(shù)據(jù)驅(qū)動下的時空語義模型。
隨著大數(shù)據(jù)技術(shù)的應用及計算機處理能力的提升,深度學習技術(shù)也逐漸應用于社交媒體分析,并顯示出強大的解決能力。文獻[10]針對社交媒體感知中的大量異構(gòu)、噪聲、虛假以及缺乏空間參考信息的數(shù)據(jù)問題,采用高性能計算、深度學習以及多源數(shù)據(jù)融合技術(shù)實現(xiàn)災難事件的及時感知與應對;文獻[11]使用卷積神經(jīng)網(wǎng)絡(luò)以及支持向量機識別Facebook中的緊急事件,對應急準備、響應、恢復信息進行了分類研究;文獻[12]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的突發(fā)公共事件謠言轉(zhuǎn)發(fā)行為預測模型;文獻[13]研究了自然災害期間社交媒體中的信息融合問題;文獻[14]提出了一種基于改進RNN-LSTM的專業(yè)領(lǐng)域公共事件數(shù)據(jù)預測模型。
綜上所述,傳統(tǒng)的社交媒體事件感知方法主要依賴于語義信息和復雜社會網(wǎng)絡(luò)信息[5-9];而深度學習方法能夠有效避免對于語義信息和社會網(wǎng)絡(luò)信息的過度依賴,快速從海量社交信息中篩選出關(guān)鍵敏感信息,成為社交媒體信息處理的新方向[10-14]。突發(fā)事件在社交媒體中的傳播可以看作是一個自發(fā)的自適應社交網(wǎng)絡(luò),具有較強的時空相關(guān)性[15],決策者希望在事件發(fā)生的第一時間就能及時感知,以便快速采取應對措施,因此,突發(fā)事件的社交媒體信息感知存在地理位置性、時間鏈條性、緊迫性、自適應網(wǎng)絡(luò)、爆炸性傳播等特點。CNN(卷積神經(jīng)網(wǎng)絡(luò))方法具有較強的高維數(shù)據(jù)(如時空語義數(shù)據(jù))處理能力,又可避免對圖像的復雜前期預處理;RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))方法具有事件序列性的特點,能夠直接學習從消息傳播時間序列獲取的映射函數(shù),具有及時、準確感知突發(fā)事件的能力。因此,本文在前述研究的基礎(chǔ)上,提出一種基于CNN與RNN融合的社交媒體中突發(fā)事件感知方法,避免了自適應復雜社會網(wǎng)絡(luò)的構(gòu)建及低效的事件特征提取,利用CNN的高維數(shù)據(jù)處理能力構(gòu)建事件消息多元傳遞網(wǎng)絡(luò),利用RNN的時序處理能力構(gòu)建突發(fā)事件傳播的時間序列,融合實現(xiàn)對于一定傳播范圍(轉(zhuǎn)發(fā)次數(shù))、傳播時長敏感信息的自動獲取,然后通過事件鏈的語義信息、圖像、語音、視頻、地理位置等進行事件畫像,實現(xiàn)對突發(fā)事件現(xiàn)場情境的快速感知。
一則社交網(wǎng)絡(luò)消息S可定義為一個七元組函數(shù),即
S=f(created_at,id,mid,mutil_data,source,geo,uid)
(1)
式中:created_at為社交消息創(chuàng)建時間;id為社交消息ID號;mid為社交消息MID號;mutil_data為社交消息內(nèi)容;source為消息來源(源發(fā)、轉(zhuǎn)發(fā));geo為消息發(fā)送地址(經(jīng)緯度);uid為用戶ID。時間數(shù)據(jù)created_at和空間數(shù)據(jù)geo共同定義了社交消息的時空屬性。社交消息內(nèi)容mutil_data包含多個數(shù)據(jù),其定義為
mutil_data=(text,original_pic,original_voice,
original_video)
(2)
式中:text為語義信息;original_pic為原始圖片數(shù)據(jù);original_voice為語音數(shù)據(jù);original_video為視頻數(shù)據(jù)。text、original_pic、original_voice、original_video共同構(gòu)成多模態(tài)社交網(wǎng)絡(luò)數(shù)據(jù)。采用網(wǎng)絡(luò)爬取工具(如Python等)可以從微博、微信、抖音、Facebook等社交媒體中獲取上述信息,并創(chuàng)建社交網(wǎng)絡(luò)消息源數(shù)據(jù)庫。
(1)時間created_at序列特征的向量表示
社交消息創(chuàng)建時間created_at(年、月、日、時、分、秒)的向量表示參考文獻[16],采用正交互補的方法將時間變量映射成時間的向量表示。
(3)
式中:t2v(τ)[i]為t2v(τ)的第i個元素;F為周期激活函數(shù);ωi和φi為可學習參數(shù);τ為時間標量。選擇F為正弦函數(shù),對于1≤i≤k,ωi和φi為正弦函數(shù)的頻率和移相。
時間信息中,年月日是非周期量,時分秒是周期量,則每條消息發(fā)布的時間可以表示為
created_at={T0,T1,T2,T3}
(4)
式中:T0為年月日向量;T1為時向量;T2為分向量;T3為秒向量。降維處理后得到二維社會傳感網(wǎng)絡(luò)時間向量created_at-2為
(5)
式中:tntn為第n條消息發(fā)布的時間。
(2)社交消息mid及主題id的向量表示
社交消息mid和主題id是社交消息的標識數(shù)據(jù)。假如某條社交消息的鏈接為http:∥weibo.com/2803301701/CeaOU15IT,則CeaOU15IT即為該消息的mid。mid經(jīng)過62進制轉(zhuǎn)換即為主題id。CeaOU15IT對應的id為3833781880260331。id和mid可以用一維向量表示。
(3)mutil_data文本數(shù)據(jù)的向量化
mutil_data為社交消息內(nèi)容,在事件感知時重點考慮text語義數(shù)據(jù),original_pic、original_voice、original_video等其他數(shù)據(jù)在情景畫像時再進行數(shù)據(jù)融合。mutil_data中文本數(shù)據(jù)的向量化采用隱含迪利克雷分布(Latent Dirichlet Allocation,LDA)方法[17],處理過程見圖1。
圖1mutil_data文本數(shù)據(jù)向量化
首先將消息內(nèi)容采用TF-IDF方法進行特征詞抽取,然后采用LDA進行關(guān)鍵詞主題映射,最后通過word2vec函數(shù)將其主題向量化?;贕ibbs采樣的并行化計算特性,本文采用Gibbs來訓練分布式的海量社交媒體文檔的LDA模型。
(4)geo數(shù)據(jù)的向量表示
geo為地理信息,以路網(wǎng)無向圖的方式對其進行向量化,以帶屬性的線段集合方式儲存。每個線段由有序的經(jīng)緯度坐標組成,再用一個二維數(shù)組存放頂點關(guān)系的數(shù)據(jù)。在無向圖中,任一坐標頂點i的度數(shù)為第i列所有元素的和。
(5)用戶特征向量source及uid的向量表示
社交網(wǎng)絡(luò)中的用戶是消息的傳播者,初始發(fā)布者很有可能是事件的親歷者或者旁觀者,對于突發(fā)事件的感知,需要在盡可能短的時間內(nèi)從社交網(wǎng)絡(luò)數(shù)據(jù)中挖掘出敏感信息。RNN能夠很好地關(guān)聯(lián)轉(zhuǎn)發(fā)消息的時間序列,因此,基于用戶特征向量source及uid的社交消息轉(zhuǎn)發(fā)可以用一個時間序列向量表示,見圖2。
圖2 消息轉(zhuǎn)發(fā)的時間序列
圖2中,對于一條社交網(wǎng)絡(luò)消息,t0時刻的用戶x0為消息源,ti時刻發(fā)布的消息轉(zhuǎn)發(fā)自ti-1時刻的xi-1,因此,基于用戶特征(uid)可以構(gòu)建RNN神經(jīng)網(wǎng)絡(luò)。每個uid的字段長度是不同的,為了使進入網(wǎng)絡(luò)的特征具有相同的長度,對輸入序列做如下處理:設(shè)置輸入序列X的最大長度為L;對于長度大于L的序列,從序列尾部做截斷處理;對于長度小于L的序列,在序列頭部添加0補足。轉(zhuǎn)發(fā)用戶uid帶有轉(zhuǎn)發(fā)信息的所有信息,屬于典型的RNN時間序列傳遞。
在CNN環(huán)節(jié),首先將轉(zhuǎn)發(fā)消息的信息進行圖像化,然后將圖像化處理后的created_at、id、mid、uid、geo、text輸入CNN,經(jīng)過卷積操作提取不同抽象層次的高維度局部特征,再經(jīng)過池化技術(shù)有效控制學習規(guī)模,提高泛化能力,最后通過softmax進行主題分類。為了防止過度擬合,降低神經(jīng)元之間連接的復雜性,在本模型中加入了Dropconnect函數(shù)[18]。不同激活函數(shù)對識別性能有顯著影響,激活函數(shù)RReLU的識別性能好于sigmoid函數(shù)和tanh函數(shù)[19],所以本文選取RReLU激活函數(shù)。
在RNN環(huán)節(jié),將CNN softmax的主題及消息分類輸出作為RNN神經(jīng)網(wǎng)絡(luò)的輸入,根據(jù)用戶特征向量source的時間序列保留轉(zhuǎn)發(fā)消息的時序性。在某一個時序xi,滿足一定轉(zhuǎn)發(fā)次數(shù)或傳播時長后作為突發(fā)事件進行主題輸出,然后在該主題序列中追溯到原始消息x0及原始消息x0的地理位置geo0。以geo0為圓心,在半徑R的范圍內(nèi)該主題的消息即為突發(fā)事件發(fā)生地的社交媒體發(fā)出的消息,也是最接近真實的突發(fā)事件信息。采集這些信息(包括text、original_pic、original_voice、original_video),并進行事件畫像,即可感知到突發(fā)事件的現(xiàn)場情境。融合CNN-RNN的網(wǎng)絡(luò)模型結(jié)構(gòu)見圖3。
圖3 融合CNN-RNN的突發(fā)事件感知模型
2.2.1 基于多層CNN的社交消息主題聚類
海量社交消息的CNN聚類,卷積的層數(shù)越多則非線性擬合能力越強,提取的消息特征也越多,但過多的卷積層會延長運算時間,造成過擬合現(xiàn)象,因此本模型采用了4層卷積層和2層最大池化層。具體處理過程如下。
(1)歸一化:由于模型涉及6層信息的疊加,因此在信息輸入網(wǎng)絡(luò)之前進行歸一化操作。
(6)
(2)卷積層1:卷積層1選用3×3的卷積核進行圖像局部特征提取,假設(shè)輸入層圖像為n×n,則卷積層1處理后得到(n-2)×(n-2)的特征圖。
(8)全連接層:全連接層將學到的“分布式特征表示”映射到樣本標記空間中。由于全連接層的輸入是最大池化層2的輸出,是二維的特征圖,因此需要對二維特征圖進行降維處理成一維向量。
(9)softmax:對于社交消息的分類輸出問題,采用softmax作為似然函數(shù)。全連接層輸出所有單元的激活值,通過softmax進行歸一化,映射到(0,1)區(qū)間內(nèi),即
(7)
式中:Si為第i個類別的概率;z(i)為第i個類別的單元激活值。選擇其中概率值最大的類別作為最終分類結(jié)果輸出,進而完成了CNN對消息的特征提取和分類。
2.2.2 基于RNN循環(huán)網(wǎng)絡(luò)單元的突發(fā)事件感知
(1)長短期記憶模型
以CNN方法輸出社交消息主題聚類以后,采用RNN來輸出符合條件的突發(fā)事件信息。
O(t)=f(x(t))×W+O(t-1)×V+b
(8)
式中:O為輸出;x為輸入;W為輸入層訓練的權(quán)重;V為輸出層訓練的權(quán)重;b為偏置量;f為激活函數(shù)。
常規(guī)RNN在訓練中容易出現(xiàn)梯度消失問題[20],為此本課題采用長短期記憶(Long Short-Term Memory,LSTM)模型[21]和GRU[22]單元來進行處理。LSTM模型是一種時間遞歸神經(jīng)網(wǎng)絡(luò),旨在解決RNN的長期依賴與梯度消失問題。LSTM網(wǎng)絡(luò)的結(jié)構(gòu)與循環(huán)神經(jīng)網(wǎng)絡(luò)保持一致,而重復模塊會進行更多的操作,增強重復模塊使LSTM網(wǎng)絡(luò)能夠記住長期依賴關(guān)系。LSTM加入了輸入門gin(t)、遺忘門gforget(t)和輸出門gout(t),其表達式為
gin(t)=sigmoid[W×x(t)+V×y(t-1)+
U×C(t-1)]
(9)
gforget(t)=sigmoid[W×x(t)+V×y(t-1)+
U×C(t-1)]
(10)
gout(t)=sigmoid[W×x(t)+V×y(t-1)+
U×C(t)]
(11)
C(t)=gforgetC(t-1)+gin?f[W×
x(t)+V×O(t-1)]
(12)
式中:C(·)為記憶單元;?為對應元素的乘積。
則LSTM的輸出為
O(t)=gout?f{gforgetC(t-1)+
gin?f[W×x(t)+V×O(t-1)]}
(13)
(2)突發(fā)事件感知流程設(shè)計
突發(fā)事件感知最希望得到事件發(fā)生地的現(xiàn)場用戶發(fā)出的消息,將社交消息中的地理位置信息geo與LDA提取的關(guān)鍵詞進行閾值匹配,即可獲得事發(fā)地用戶發(fā)出的源消息。
要感知社交消息中的突發(fā)事件,核心是要獲取created_at、geo、text數(shù)據(jù),created_at、geo、text共同定義為社交消息時空語義三要素。根據(jù)突發(fā)事件在社交媒體傳播中的地理位置性、時間鏈條性、感知緊迫性、網(wǎng)絡(luò)自適應、傳播爆炸性等特點,設(shè)定突發(fā)事件消息在社交網(wǎng)絡(luò)傳播中的轉(zhuǎn)發(fā)次數(shù)為n、傳播時長為T時能夠被感知。
將CNN輸出的聚類消息輸入到RNN中時,首先判定該消息轉(zhuǎn)發(fā)次數(shù)是否超過所設(shè)定的轉(zhuǎn)發(fā)頻次閾值n,如果超過則認為該事件即為突發(fā)事件,如果沒超過則輸入RNN中得到輸出結(jié)果y0,y1,y2,…,再根據(jù)式(10)判斷該事件為突發(fā)事件時進行主題序列輸出。
(14)
突發(fā)事件感知最希望得到事件發(fā)生地的現(xiàn)場社交媒體發(fā)出的第一手消息。在圖3輸出主題序列后,通過主題中的地理位置詞與該主題社交消息序列的地理位置信息geo,采用k-means算法,再通過設(shè)計距離R找到距離事發(fā)地點R范圍內(nèi)的社交消息群,確定為該突發(fā)事件的源消息群。假設(shè)該源消息群包含text、original_pic、original_voice、original_video等多模態(tài)數(shù)據(jù),通過事件畫像即可感知突發(fā)事件現(xiàn)場的情境。
突發(fā)事件感知算法設(shè)計如下。
輸入:源消息數(shù)據(jù)矩陣λ;轉(zhuǎn)發(fā)頻次閾值n;輻射半徑R。
輸出:突發(fā)事件原始消息λi1;突發(fā)事件位置信息g*。
開始:初始化源消息矩陣λ;將源消息數(shù)據(jù)矩陣λ按主題reshape為主題矩陣λi。
②判斷該主題事件轉(zhuǎn)發(fā)次數(shù)是否超過閾值,若超過則執(zhí)行⑥,若未超過則執(zhí)行③。
④計算輸出層O=g(VS),其中S為隱含層,即
S=[f(Wx1+Us0),f(Wx2+Us1),…,
f(Wxk+Usk-1)]
(15)
式中:xk為時間序列k的輸入;sk-1為第k-1個神經(jīng)元輸出的隱含信息;U為隱含層訓練的權(quán)重。
⑤根據(jù)輸出層結(jié)果計算softmax函數(shù)值并判斷該事件是否為突發(fā)事件。若該事件為突發(fā)事件則執(zhí)行⑥,否則返回①。
⑥輸出該事件原始消息λi1以及該事件原始消息的位置信息g*。
結(jié)束:以該原始消息的位置信息g*為原點、R為輻射半徑,對短期內(nèi)的消息生成分布圖像并輸出消息列表。
為了驗證本文提出算法的先進性與可靠性,采用微博數(shù)據(jù)進行測試實驗。
采用Intel(R) Core(TM) i5-4210處理器,主頻1.70 GHz,內(nèi)存為8 GB,基于Tensorflow深度學習框架。實驗環(huán)境配置見表1。
表1 實驗環(huán)境配置
本文使用的實驗數(shù)據(jù)來源于爬蟲在新浪微博上爬取到的從2020年3月30日到2020年4月9日共計12 939條數(shù)據(jù),將其中的60%用于訓練,40%用于測試。
(1)數(shù)據(jù)預處理
由于消息的產(chǎn)生并不是由同一個用戶發(fā)出,故同一主題可能會產(chǎn)生多條消息,特別是對于一些熱門話題,短期內(nèi)將會有許多用戶發(fā)表在社交網(wǎng)絡(luò)上。將消息文本輸入LDA模型進行關(guān)鍵詞提取并通過word2vec函數(shù)向量化生成二維矩陣,對爬取到的12 939條消息數(shù)據(jù)進行向量化、歸一化處理。
以郴州火車脫軌事件為例,其消息內(nèi)容為:“【湖南郴州火車脫軌事故現(xiàn)場】3月30日,T179次旅客列車行駛至湖南郴州永興縣境內(nèi)時脫軌,車廂發(fā)生側(cè)翻。經(jīng)現(xiàn)場確認,事故未造成人員死亡,受傷的鐵路員工和旅客已送醫(yī)救治。@人民日報正在直播,一起關(guān)注救援工作!”
首先利用LDA進行關(guān)鍵詞提取,獲取的關(guān)鍵詞為“脫軌、郴州、直播、湖南、關(guān)注、受傷、死亡、旅客、救援、造成”。關(guān)鍵詞向量化時,選取總詞量的10%作為詞袋模型的大小,則以上關(guān)鍵詞向量化結(jié)果為[0003 0002 9899 0523 9745 1234 1234 1124 0854 9857]。再經(jīng)過歸一化后生成二維矩陣,見圖4。
圖4 消息數(shù)據(jù)二維矩陣
(2)CNN模型處理
將向量化的訓練集數(shù)據(jù)輸入CNN模型。本實驗采用了4層卷積層和2層最大池化層,最后全連接層數(shù)據(jù)再進行softmax得到各個事件的主題聚類,并為每個消息附上主題標簽?;贑NN的主題聚類見表2。
表2 基于CNN的主題聚類
(3)LSTM模型結(jié)果
將CNN中輸出同一類的消息輸入LSTM中預測是否為突發(fā)事件,若為突發(fā)事件則輸出其原始消息相關(guān)信息。輸出結(jié)果見圖5。
圖5 基于LSTM模型的事件預測
(4)突發(fā)事件臨近消息分布地圖
為了提高數(shù)據(jù)的可視化程度,使用Python的folium第三方庫導入世界地圖來生成突發(fā)事件臨近消息分布地圖。由于微博消息具有離散性,故這里選用散點標記的方法生成分布地圖。郴州火車脫軌事件根據(jù)LSTM模型輸出的突發(fā)事件原始消息地理位置g*(這里以25 km為輻射半徑)生成的分布地圖見圖6。
圖6 郴州火車脫軌事件事發(fā)地附近社交網(wǎng)絡(luò)消息分布地圖
通過CNN-RNN融合的方法能夠在短期內(nèi)感知突發(fā)事件并生成分布地圖,再根據(jù)分布地圖可以較為容易地在早期找到突發(fā)事件的發(fā)生地點,同時也篩選出了早期的微博消息,因此具有很強的時效性和真實性,并根據(jù)分布地圖可以在短時間內(nèi)了解到現(xiàn)場的情況從而更早地做出更有針對性的決策。
基于社交網(wǎng)絡(luò)的突發(fā)事件感知問題屬于多元分類問題,可以采用精確率P、召回率R和F1值來進行評估,計算式分別為
(16)
(17)
(18)
式中:P為正確預測到的正類樣本數(shù)量占所有預測為正類樣本數(shù)量的比例;R為正確預測到的正類樣本數(shù)量占實際正類樣本數(shù)的比例;F1值為精確率與召回率的調(diào)和均值,是綜合考慮精確率與召回率的一種評價標準;TP為實際是正類,預測也為正類的樣本數(shù)量;FP為實際是反類,預測為正類的樣本數(shù)量;FN為實際是正類,預測為反類的樣本數(shù)量。
CNN-RNN(LSTM)模型中將防止過擬合泛化函數(shù)Dropconnect的取值從0.1到0.9進行實驗,其實驗結(jié)果見圖7。
圖7 Dropconnect取值對精確率的影響
從圖7中可以看出,Dropconnect在CNN-RNN(LSTM)模型中對準確率有一定的影響,其取值在0.5~0.7之間時效果最佳,故本文選取Dropconnect為0.6。
分別用LDA-CNN、RNN(LSTM)、CNN-RNN(LSTM)模型對微博數(shù)據(jù)進行突發(fā)事件感知實驗,以驗證本文提出算法的有效性。實驗結(jié)果對比見圖8,F(xiàn)1值對比見表3。
圖8 Dropconnect對精確率的影響
表3 突發(fā)事件感知實驗F1值比較
由圖8和表3可以看出:
采用文獻[17]的LDA-CNN模型進行實驗時,通過LDA主題抽取后將其向量化并輸入CNN網(wǎng)絡(luò),在全連接層后直接利用softmax進行突發(fā)事件感知,其精確率為89.2%,F(xiàn)1值為90.1%。主要是由于突發(fā)事件在社交媒體傳播中的時間鏈條性在LDA-CNN模型中并不能很好地得到體現(xiàn)。
采用文獻[23]的RNN(LSTM)模型進行實驗時,由于RNN具有事件序列性,能夠直接學習從消息傳播事件序列到獲取的映射函數(shù),故能夠?qū)崿F(xiàn)及時、準確地感知發(fā)生的突發(fā)事件。但由于消息轉(zhuǎn)發(fā)序列通常都較長,故RNN(LSTM)收斂速度較慢,對突發(fā)事件的感知能力較弱。RNN(LSTM)模型精確率高于LDA-CNN模型,達到了89.6%,F(xiàn)1值達到91.3%。
本文提出的CNN-RNN(LSTM)模型,利用了CNN的圖像處理能力構(gòu)建消息傳遞網(wǎng)絡(luò),獲得主題分類,為每個消息附上標簽,再將同類消息輸入RNN模型中,用RNN的時序處理能力構(gòu)建突發(fā)事件特征傳播的時間序列,對敏感信息自動獲取,既保證了消息的鏈條特性,又使得收斂速度更快,精確率達到了95.0%,F(xiàn)1值達到93.4%。
本文提出了一種用于社交媒體中突發(fā)事件感知的方法。該方法能夠克服傳統(tǒng)方法對語義信息的過度依賴,通過CNN構(gòu)建自適應網(wǎng)絡(luò),從傳播中提取抽象特征,并結(jié)合RNN保持傳播過程中的序列性,從而更快地收斂并有著較好的識別精度,可以在較短的時間內(nèi)檢測出可能的突發(fā)事件,追根溯源,并根據(jù)源頭地理位置對消息進行聚類,最后通過事件鏈的語義信息、圖像、語音、視頻等進行事件畫像,實現(xiàn)對突發(fā)事件的快速感知。
由于篇幅所限,本文對基于語義、圖像、語音、視頻、地理位置信息的事件畫像問題沒有進行詳細描述,后續(xù)將針對這一問題開展研究。