• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于LSTM-BLS的突發(fā)氣象災(zāi)害事件中公眾情感傾向分析

      2021-10-14 08:57:44羅嘉王樂豪涂姍姍宋鴿韓瑩
      關(guān)鍵詞:輿情準(zhǔn)確率向量

      羅嘉 王樂豪 涂姍姍 宋鴿 韓瑩

      0 引言

      我國(guó)作為氣象災(zāi)害[1-2]發(fā)生頻率較高的國(guó)家之一,各種極端天氣的頻繁發(fā)生,給人們帶來了嚴(yán)重的經(jīng)濟(jì)損失,甚至?xí)T發(fā)災(zāi)難造成人員傷亡.氣象災(zāi)害的發(fā)生不僅是對(duì)國(guó)家應(yīng)急治理體制的重大考驗(yàn),影響人們的日常生活,還會(huì)在網(wǎng)絡(luò)上引起社會(huì)輿論的爆發(fā)[3],使人產(chǎn)生負(fù)面焦慮的情緒[4].對(duì)于災(zāi)害引起的輿論[5],若不加以干預(yù)引導(dǎo),容易在網(wǎng)絡(luò)上演變成新的突發(fā)事件,加劇危機(jī)事件本身的負(fù)面影響.

      網(wǎng)絡(luò)用戶數(shù)量在近幾年呈幾何趨勢(shì)增長(zhǎng),大大提升了輿論的產(chǎn)生和傳播速度,網(wǎng)絡(luò)輿論本身帶有的情感指向性和其內(nèi)在包含的應(yīng)用價(jià)值也逐漸成為專家們關(guān)注的熱點(diǎn).傳統(tǒng)的機(jī)器學(xué)習(xí)算法諸如支持向量機(jī)(Support Vector Machines,SVM)[6]、K-means算法[7]等方法已被提出用于英語和漢語的情感極性分析,且取得了很大的進(jìn)展.但是面對(duì)大量數(shù)據(jù)時(shí),傳統(tǒng)算法的訓(xùn)練力不從心.深度學(xué)習(xí)的發(fā)展減輕了機(jī)器學(xué)習(xí)模型手動(dòng)提取特征的負(fù)擔(dān).長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[8]具有長(zhǎng)時(shí)記憶功能并且實(shí)現(xiàn)起來簡(jiǎn)單的優(yōu)勢(shì),解決了訓(xùn)練過程中存在的梯度消失和梯度爆炸的問題.文獻(xiàn)[9]將LSTM模型與SVM模型在相同數(shù)據(jù)集上進(jìn)行對(duì)比,在情感分類方面LSTM模型的準(zhǔn)確率遠(yuǎn)高于基線模型.輿情文本分析[10-11]是通過度量向量空間中單詞向量之間的關(guān)系進(jìn)行的,因此單詞嵌入的質(zhì)量直接影響到分類結(jié)果.雖然LSTM能夠從訓(xùn)練數(shù)據(jù)中挖掘出更抽象的特征,使其具有很好的泛化能力,但它的擬合能力并不理想,而且LSTM提取特征時(shí)存在語義不完整、精度不高等問題.

      研究者通過引入卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)來彌補(bǔ)上述缺陷,CNN-LSTM模型[12]的提出使得處理高維數(shù)據(jù)更加輕松、精度更高.自然語言包含結(jié)合詞和短語的句法特性使得底層模型不滿足應(yīng)用需求.短文包含的上下文信息往往有限,對(duì)其進(jìn)行情感分類具有一定的挑戰(zhàn)性.文獻(xiàn)[13]將10層CNN和10層LSTM結(jié)合起來,使用不同的超參數(shù)和不同的預(yù)訓(xùn)練策略訓(xùn)練,其產(chǎn)生的模型比單獨(dú)使用模型的歷史最高精度更勝一籌.許杰等[14]考慮到CNN并行計(jì)算能力強(qiáng)的優(yōu)點(diǎn)而將其作為特征提取器,提取到的高層次特征輸入到LSTM中得到最終結(jié)果.較之以往模型,該模型能夠在提取局部特征的同時(shí)獲取句子的時(shí)態(tài)語義,提高了情感文本分類的精度.但CNN-LSTM模型存在性能過度依賴于標(biāo)記數(shù)據(jù)的數(shù)量和質(zhì)量,且未考慮到單詞之間的句法依存的問題,情感文本分類的精度仍有提升的空間.

      注意到寬度學(xué)習(xí)(Broad Learning System,BLS)作為一種簡(jiǎn)單的新型快速增量學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)[15],是基于隨機(jī)向量函數(shù)連接網(wǎng)絡(luò)RVFL(Random Vector Functional Link Network),將原始的輸入先通過特征節(jié)點(diǎn)學(xué)習(xí)稀疏的映射特征,然后經(jīng)由增強(qiáng)節(jié)點(diǎn)非線性擴(kuò)展得到增強(qiáng)特征,并聯(lián)兩種特征表達(dá)作為最后的總輸入送到輸出層進(jìn)行分類識(shí)別,由此可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到重要的特征,對(duì)訓(xùn)練數(shù)據(jù)達(dá)到高度擬合.

      本文爬取了2020年末斷崖式降溫輿情文本并對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理之后,發(fā)現(xiàn)文本中大多是短句文本,其包含的上下文信息有限,因此底層模型不滿足應(yīng)用需求.將數(shù)據(jù)集使用LSTM模型進(jìn)行訓(xùn)練,得到的實(shí)驗(yàn)結(jié)果在擬合度方面沒有達(dá)到預(yù)期的效果,精確度不高.

      考慮到深度學(xué)習(xí)模型能夠從訓(xùn)練數(shù)據(jù)中挖掘出更抽象的特征,這使得它具有很好的泛化能力,而BLS具有能夠從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到重要的特征,對(duì)訓(xùn)練數(shù)據(jù)達(dá)到高度擬合的特點(diǎn),因此使用LSTM作為本文模型的特征提取層,將文本進(jìn)行初步分類,再將初步分類的文本輸入到BLS層中進(jìn)一步提取重要特征,最終獲取高精度分類結(jié)果.本文提出的LSTM-BLS模型,將不同級(jí)別的特征層信息進(jìn)行融合使用,既有低級(jí)紋理信息又有高級(jí)語義信息,彌補(bǔ)了LSTM、CNN-LSTM模型在輿情文本分析方面提取特征時(shí)存在語義不完整、精度不高和未考慮到單詞之間的句法依存等問題.實(shí)驗(yàn)結(jié)果表明,本文提出的模型較之于K-means、SVM模型精度分別提高了17.23和13.46個(gè)百分點(diǎn),與LSTM與CNN-LSTM模型相比精度分別提高了7.13和4.17個(gè)百分點(diǎn).文中模型在經(jīng)過數(shù)據(jù)集測(cè)試后取得良好的效果,并且不依賴特定領(lǐng)域的自然語言庫,也可以應(yīng)用在其他中文文本分析驗(yàn)證上,具有廣泛的適用性.

      1 模型

      1.1 LSTM

      LSTM的核心概念在于細(xì)胞狀態(tài)以及“門”結(jié)構(gòu).

      圖1展示了LSTM的基本架構(gòu),其包含的三個(gè)門:輸入門、遺忘門和輸出門.通過三個(gè)門的函數(shù)和細(xì)胞狀態(tài),LSTM可以捕獲短期和長(zhǎng)期時(shí)間序列中的復(fù)雜相關(guān)性.其中,xt是輸入向量,it是時(shí)間步長(zhǎng)t中的輸入狀態(tài),ft是時(shí)間步長(zhǎng)t中的遺忘狀態(tài),ot是時(shí)間步長(zhǎng)t中的輸出狀態(tài),ht(ht-1)是時(shí)間步長(zhǎng)t(t-1)中的隱藏狀態(tài),ct(ct-1)是時(shí)間步長(zhǎng)t(t-1)中的單元狀態(tài).以tanh和sigmoid激活函數(shù)σ的形式在三個(gè)門的頂部添加非線性.

      圖1 LSTM的基本架構(gòu)Fig.1 Basic architecture of LSTM

      LSTM的數(shù)學(xué)原理在式(1)—(6)中給出:

      ft=σ(Wxfxt+Whfht-1+bf),

      (1)

      it=σ(Wxixt+Whiht-1+bi),

      (2)

      ot=σ(Wxoxt+Whoht-1+bo),

      (3)

      (4)

      (5)

      ht=ot?tanh(ct),

      (6)

      其中,Wxf,Whf,Wxi,Whi,Wxo,Who,Wxc,Whc代表了輸入向量與輸入門、輸出門、記憶單元之間對(duì)應(yīng)的權(quán)向量,bf,bi,bo,bc是偏置變量,?是矩陣的Hadamard積.

      1.2 BLS

      BLS網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.

      圖2 BLS網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of BLS

      假設(shè)輸入數(shù)據(jù)集X包含N個(gè)樣本,每個(gè)樣本有M個(gè)維度,Y是屬于RN×C的輸出矩陣.對(duì)于n個(gè)特征通過式(7)映射后生成k個(gè)節(jié)點(diǎn):

      Zi=φ(XWei+βei),i=1,…,n.

      (7)

      將所有特征節(jié)點(diǎn)表示為Zn≡[Z1,…,Zn],第m組增強(qiáng)節(jié)點(diǎn)表示為

      Hm≡ξ(ZnWhj+βhj),j=1,…,m,

      (8)

      其中Wei,Whj和βei,βhj分別是隨機(jī)生成的連接權(quán)重和偏置值.

      因此,BLS模型可以表示為

      Y=[Z1,…,Zn|ξ(ZnWh1+βh1),…,ξ(ZnWhm+βhm)]Wm=

      [Z1,…,Zn|H1,…,Hm]Wm=

      [Zn|Hm]Wm.

      (9)

      1.3 LSTM-BLS輿情文本情感分類模塊

      針對(duì)輿情文本的歧義性或多義性的問題,考慮到深度學(xué)習(xí)能夠?qū)γ總€(gè)分量進(jìn)行數(shù)據(jù)特征識(shí)別與特征提取,從而實(shí)現(xiàn)分量的單步向前預(yù)測(cè),達(dá)到獲取最終分類的效果的特點(diǎn),本文在上述基礎(chǔ)模型上通過融合BLS提出了一種新的的文本情感分析模型.該模型整體結(jié)構(gòu)如圖3所示.

      圖3 LSTM-BLS的文本情感分析流程Fig.3 Flow chart of text sentiment analysis based on LSTM-BLS

      LSTM-BLS模型(圖4)的主體是3個(gè)拼接的LSTM層、2個(gè)全連接層(Dense)和1個(gè)BLS模型通道,3層LSTM通道主要用來提取句子特征,而加入的BLS層可以和別的機(jī)器學(xué)習(xí)算法靈活地結(jié)合,即利用LSTM提取到的特征來訓(xùn)練.并且,其加入的增量學(xué)習(xí)算法,允許在網(wǎng)絡(luò)結(jié)構(gòu)中加入新的節(jié)點(diǎn)時(shí),以很小的計(jì)算開銷來更新網(wǎng)絡(luò)權(quán)重.

      圖4 LSTM-BLS模型Fig.4 LSTM-BLS public opinion analysis model

      1)第1層是輸入層(input layer),將爬取到的文本進(jìn)行人工數(shù)據(jù)集標(biāo)注后生成的文本導(dǎo)入程序.

      2)第2層是嵌入層(embedding layer),作用是把輸入的每個(gè)詞語映射成一個(gè)向量表示.

      3)第3~5層是LSTM層,主要是為了提取句子的特征.本文詞向量維度選取300維,選擇的過濾器分別為256、128、64個(gè),訓(xùn)練次數(shù)(epochs)=50,并在LSTM的每一層都加入了dropout機(jī)制,該機(jī)制可以在訓(xùn)練過程中通過讓部分神經(jīng)元停止工作,而達(dá)到防止過擬合的效果.

      4)第6層是Dense層,將LSTM層輸出端融合的特征作為全連接層的輸入,應(yīng)用Sigmoid激活函數(shù)后的值是介于0到1之間的浮點(diǎn)數(shù),表示概率或者置信度,并加入L2正則化,防止過擬合.

      5)第7層為BLS層,利用前面提取到的特征進(jìn)行計(jì)算,調(diào)用Softmax進(jìn)行分類,其中每個(gè)映射特征點(diǎn)的個(gè)數(shù)N1=10、映射特征個(gè)數(shù)N2=30、增強(qiáng)節(jié)點(diǎn)個(gè)數(shù)N3=280以及正則化參數(shù)C=0.000 1.

      2 實(shí)證分析

      2.1 數(shù)據(jù)來源

      本文主要以2020年末兩次斷崖式降溫輿情數(shù)據(jù)為例.2020年12月28—30日我國(guó)中東部大部地區(qū)迎來大風(fēng)降溫天氣,局部地區(qū)遭遇了16 ℃以上的斷崖式降溫.中央氣象臺(tái)迅速發(fā)布了最高級(jí)別的寒潮橙色預(yù)警.此次寒潮影響范圍廣,以及其伴隨而來的劇烈降溫、長(zhǎng)時(shí)間持續(xù)性大風(fēng),給各行各業(yè),甚至人們?nèi)粘5拇┮鲁鲂卸紟砹藰O大的影響,并迅速在網(wǎng)絡(luò)上掀起了輿論風(fēng)暴.本文基于Python的Scrapy模塊,爬取微博大V及相關(guān)媒體共計(jì)37 852條數(shù)據(jù),包括發(fā)表評(píng)論的用戶名稱、評(píng)論內(nèi)容、發(fā)表時(shí)間、轉(zhuǎn)發(fā)量、點(diǎn)贊量等多極化數(shù)據(jù)信息.

      在對(duì)文本進(jìn)行訓(xùn)練前,先對(duì)爬取到的信息進(jìn)行了一系列的數(shù)據(jù)清洗工作,包括繁體字簡(jiǎn)化、刪除垃圾廣告、無效評(píng)論等,最終得到32 358條有效數(shù)據(jù).預(yù)處理包括以下內(nèi)容:

      1) 去除含HTML標(biāo)簽的內(nèi)容;

      2) 刪除純標(biāo)點(diǎn)評(píng)論;

      3) 去除表情評(píng)論;

      4) 單詞詞形還原;

      5) 刪除停用詞.

      2.2 超參數(shù)設(shè)置

      社交網(wǎng)絡(luò)的快速發(fā)展使得媒體信息在社交平臺(tái)的傳播更加迅速.災(zāi)害相關(guān)信息會(huì)在事件發(fā)生短期內(nèi)迅速傳播發(fā)酵,在網(wǎng)絡(luò)上引起輿論風(fēng)波.輿情結(jié)果往往會(huì)形成兩極分化,積極的輿論引導(dǎo)事件朝好的方向發(fā)展,而消極的輿論將會(huì)在網(wǎng)絡(luò)上引發(fā)二次災(zāi)害.因此,輿情文本分析的準(zhǔn)確性,大大影響著輿情引導(dǎo)的走向.有鑒于此,本文將數(shù)據(jù)集分為兩個(gè)類別:積極的、消極的.

      將分類結(jié)果生成詞云可以直觀地反映正面和負(fù)面評(píng)論中出現(xiàn)頻率最高的詞語,可以看到圖5、6中,部分詞匯可以清楚地反映用戶的積極和消極情緒.然而,網(wǎng)絡(luò)評(píng)論中時(shí)常包含褒義貶用以及貶義褒用的詞匯,此類詞匯經(jīng)常包含在具有完全相反含義的評(píng)論中.因此,僅僅根據(jù)是否出現(xiàn)代表積極或者消極情緒的詞語而對(duì)評(píng)論進(jìn)行簡(jiǎn)單的分類已經(jīng)達(dá)不到預(yù)想的結(jié)果時(shí),便需要深度學(xué)習(xí)技術(shù)來分析詞語之間的關(guān)系,獲取語義從而進(jìn)行分類.

      圖5 積極的詞匯Fig.5 Examples of positive word

      圖6 消極的詞匯Fig.6 Examples of negative word

      本文使用人工標(biāo)注的微博語料數(shù)據(jù)集正向和負(fù)向評(píng)論各14 000條,從中挑取正負(fù)向評(píng)論各8 000條作為訓(xùn)練集,剩下的作為測(cè)試集進(jìn)行測(cè)試.實(shí)驗(yàn)需要通過詞袋模型將語料庫更改詞向量,之后將訓(xùn)練好的詞向量輸入到搭建好的神經(jīng)網(wǎng)絡(luò)中.

      在本文搭建的輿情文本分析模型中,輸入的詞向量的效果很大程度上影響著最終訓(xùn)練結(jié)果,多次實(shí)驗(yàn)結(jié)果表明,將詞向量進(jìn)行預(yù)訓(xùn)練可以有效地提高模型的準(zhǔn)確率.經(jīng)過不斷調(diào)試模型參數(shù),本文最終采用詞向量維度為300.?dāng)?shù)據(jù)訓(xùn)練前,利用Jieba分詞工具將原文本進(jìn)行分詞、去除停用詞后,將得到的詞語轉(zhuǎn)換為詞向量并進(jìn)行預(yù)訓(xùn)練,得到的結(jié)果將作為本文模型的輸入.

      為了得到更加豐富的情感特征信息,本文在LSTM-BLS模型上進(jìn)行了一系列實(shí)驗(yàn).為了防止過擬合現(xiàn)象,本文使用了dropout機(jī)制和L2正則化.詳細(xì)超參數(shù)設(shè)置如表1所示.

      表1 模型超參數(shù)設(shè)置

      2.3 結(jié)果討論

      為了驗(yàn)證本文提出的模型的有效性,本文使用準(zhǔn)確率(A)、召回率(R)、F1值(F1)作為評(píng)估指標(biāo).

      準(zhǔn)確率計(jì)算公式:

      (10)

      召回率計(jì)算公式:

      (11)

      F1值計(jì)算公式:

      (12)

      其中:ηTP為正確的匹配數(shù)目;ηFP為匹配不正確的數(shù)目;ηFN為沒有找到正確匹配的數(shù)目;ηTN為正確的非匹配數(shù)目.

      將本文使用的LSTM-BLS模型分別與另外的4種模型方法在準(zhǔn)確率上進(jìn)行實(shí)驗(yàn)對(duì)比:

      1) K-means.K-means算法是無監(jiān)督的聚類算法,因其實(shí)現(xiàn)簡(jiǎn)單、聚類效果好,被廣泛應(yīng)用.本文設(shè)置算法模型最大迭代次數(shù)為300,k值為2,容忍度為0.000 1.

      2) SVM.SVM是機(jī)器學(xué)習(xí)中最好的現(xiàn)成的分類器,可以不加修改直接使用,并且能夠得到較低的錯(cuò)誤率.本次試驗(yàn)將句子中的單詞轉(zhuǎn)換為詞向量,再將這些向量進(jìn)行加權(quán)平均作為模型的輸入進(jìn)行分類.

      3)LSTM.本文使用的是三層LSTM的單通道模型,將詞向量作為輸入,最后通過全連接層和Softmax層輸出分類結(jié)果.

      4)CNN-LSTM.該模型由CNN和LSTM組合而成,在上述LSTM模型的基礎(chǔ)上,使用CNN提取特征,作為L(zhǎng)STM模型的輸入.

      5)LSTM-BLS.本文提出的模型,是在上述三層LSTM的基礎(chǔ)上拼接了BLS層.將爬取到的微博評(píng)論經(jīng)過預(yù)處理,分詞后經(jīng)過詞嵌入生成詞向量,作為本文模型的輸入得到最終準(zhǔn)確率結(jié)果.

      實(shí)驗(yàn)結(jié)果對(duì)比如表2、3所示.

      表2 基線模型在斷崖式降溫?cái)?shù)據(jù)集上的性能對(duì)比

      由表2和表3可知,在斷崖式降溫?cái)?shù)據(jù)集上,LSTM-BLS模型的網(wǎng)絡(luò)輿情分析準(zhǔn)確率相比基礎(chǔ)的機(jī)器學(xué)習(xí)模型K-means和SVM,分別提高了17.23和13.46個(gè)百分點(diǎn),比LSTM模型提高7.13個(gè)百分點(diǎn),比CNN-LSTM復(fù)合模型提高4.17個(gè)百分點(diǎn).準(zhǔn)確率和召回率在實(shí)踐中會(huì)出現(xiàn)矛盾的情況,而F1值作為準(zhǔn)確率和召回率的調(diào)和平均值,往往成為實(shí)驗(yàn)最有效的綜合評(píng)價(jià)指標(biāo).由表2、3可知,本文提出的新模型在綜合評(píng)價(jià)方面表現(xiàn)最優(yōu),效果最好.綜上,LSTM-BLS模型在文本情感分析方面具有良好的性能,可以更加準(zhǔn)確地對(duì)輿情文本進(jìn)行正負(fù)向情感分類,彌補(bǔ)了現(xiàn)有的機(jī)器學(xué)習(xí)模型面對(duì)大量數(shù)據(jù)集時(shí)訓(xùn)練吃力的缺陷,解決了深度學(xué)習(xí)模型擬合能力欠佳、精度不高的問題.

      表3 本文模型和其他深度學(xué)習(xí)模型在斷崖式降溫?cái)?shù)據(jù)集上的性能對(duì)比

      3 結(jié)論

      氣象輿情分析的主要任務(wù)是為了更加精準(zhǔn)地掌握網(wǎng)絡(luò)輿情動(dòng)態(tài),避免災(zāi)害事件在網(wǎng)絡(luò)輿情方面形成二次災(zāi)害.本文提出的LSTM-BLS算法模型一方面考慮到單詞之間的句法依存問題,另一方面在此次輿情文本分析經(jīng)過爬取到的數(shù)據(jù)集驗(yàn)證測(cè)試后,準(zhǔn)確率、F1值均超過K-means、SVM、LSTM和CNN-LSTM模型,在短文本情感分類方面效果優(yōu)異,經(jīng)公開數(shù)據(jù)集驗(yàn)證也同樣具有適用性.將寬度學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,對(duì)紛繁復(fù)雜的網(wǎng)絡(luò)輿情文本進(jìn)行準(zhǔn)確的分類,對(duì)短文本數(shù)據(jù)信息的有效分析和挖掘,提高了對(duì)網(wǎng)絡(luò)輿論的監(jiān)管能力,有利于開展后續(xù)引導(dǎo)工作.

      猜你喜歡
      輿情準(zhǔn)確率向量
      向量的分解
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      聚焦“向量與三角”創(chuàng)新題
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      輿情
      輿情
      向量垂直在解析幾何中的應(yīng)用
      輿情
      磐石市| 烟台市| 松原市| 彭泽县| 上林县| 长岭县| 方山县| 尉氏县| 乌鲁木齐县| 交口县| 昌黎县| 木兰县| 吉安县| 贵州省| 海晏县| 化德县| 灯塔市| 乌兰浩特市| 乳山市| 邵阳市| 汝州市| 青岛市| 宜春市| 吉首市| 德格县| 清镇市| 金坛市| 双鸭山市| 壶关县| 衡水市| 礼泉县| 长顺县| 从化市| 沧源| 洪湖市| 东乌珠穆沁旗| 保定市| 镇康县| 郎溪县| 巩留县| 泰州市|