• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種融合Bert預(yù)訓(xùn)練和BiLSTM的場景遷移情感分析研究*

      2022-08-09 06:16:14楊秀璋宋籍文廖文婧任天舒劉建義
      計算機(jī)時代 2022年8期
      關(guān)鍵詞:輿情向量情感

      楊秀璋,宋籍文,武 帥,3,廖文婧,任天舒,劉建義

      (1.貴州財經(jīng)大學(xué)信息學(xué)院,貴州 貴陽 550025;2.貴州高速公路集團(tuán)有限公司;3.漣水縣財政局)

      0 引言

      隨著微博、博客、網(wǎng)頁新聞等領(lǐng)域的出現(xiàn),網(wǎng)絡(luò)輿情已成當(dāng)下研究熱點?,F(xiàn)階段表現(xiàn)較好的機(jī)器學(xué)習(xí)方法大都依賴于標(biāo)注大量原始文本數(shù)據(jù),再對測試數(shù)據(jù)進(jìn)行處理,通常訓(xùn)練集和測試集均需來源于相同領(lǐng)域、平臺或場景的數(shù)據(jù)。然而,這些方法較難對場景遷移或跨平臺、跨領(lǐng)域的輿情事件進(jìn)行情感分析研究,且遷移場景的輿情態(tài)勢感知越來越重要。因此,如何高效地檢測場景遷移和跨平臺輿情事件的情感傾向和走勢,將是未來研究重點,且能減少數(shù)據(jù)標(biāo)注花費的精力,讓模型具有更強(qiáng)的魯棒性和準(zhǔn)確性。

      針對上述問題,本文提出一種融合Bert (Bidirectional Encoder Representations from Transformers)預(yù)訓(xùn) 練和BiLSTM(Bi-directional Long Short-Term Memory)的場景遷移情感分析模型,該模型能在少量數(shù)據(jù)標(biāo)注的情況下,對未知類型進(jìn)行預(yù)測并有效解決數(shù)據(jù)漂移問題。該模型將對微博輿情事件數(shù)據(jù)集進(jìn)行訓(xùn)練,然后遷移預(yù)測知乎輿情事件的情感傾向,最終體現(xiàn)模型對遷移場景具有較好的魯棒性和準(zhǔn)確性。此外,本文通過詳細(xì)的對比實驗有效評估Bert-BiLSTM 模型的性能,這優(yōu)于團(tuán)隊之前的相關(guān)工作,即對“巴黎圣母院火災(zāi)”輿情事件和“新冠肺炎疫情”輿情事件進(jìn)行情感分析,并且該模型能應(yīng)用于跨目標(biāo)、跨領(lǐng)域、跨事件的輿情監(jiān)測和情感分析。

      1 相關(guān)研究現(xiàn)狀

      二十一世紀(jì)以來,情感分析作為自然語言處理領(lǐng)域的重要研究熱點,在網(wǎng)絡(luò)輿情、文本挖掘領(lǐng)域均有較為廣泛的研究范疇。對網(wǎng)絡(luò)輿情事件進(jìn)行廣義分析可分為兩類,分別是基于統(tǒng)計機(jī)器學(xué)習(xí)的情感分析和基于深度學(xué)習(xí)的情感分析。

      1.1 基于統(tǒng)計機(jī)器學(xué)習(xí)的情感分析

      基于機(jī)器學(xué)習(xí)的情感分析主要通過對訓(xùn)練集數(shù)據(jù)選取特征進(jìn)行詞性標(biāo)注訓(xùn)練,對測試集數(shù)據(jù)進(jìn)行分類預(yù)測。根據(jù)機(jī)器學(xué)習(xí)方法的監(jiān)督程度可分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

      車思琪等人在機(jī)器學(xué)習(xí)算法基礎(chǔ)上整合情感詞典對中美企業(yè)英文版致股東信進(jìn)行分析,研究結(jié)果表明該模型準(zhǔn)確率有效提升。楊立等人在傳統(tǒng)機(jī)器學(xué)習(xí)模型基礎(chǔ)上融合MLS需求概念模型,使得機(jī)器學(xué)習(xí)模型更好的適用于實際場景。戚天梅等人在傳統(tǒng)機(jī)器學(xué)習(xí)算法基礎(chǔ)上融合情感傾向計算方法,有效提升模型在情感傾向和強(qiáng)度計算方面的有效性。熱西旦木·吐爾洪太等人針對維吾爾文網(wǎng)絡(luò)信息不健全的問題,結(jié)合機(jī)器學(xué)習(xí)和詞典方法的優(yōu)缺點,構(gòu)建LCUSCM 分類器模型,有效提升維吾爾文情感分析準(zhǔn)確率。

      雖然眾多學(xué)者對傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行不斷優(yōu)化,通過增加情感特征詞典、情感特征提取與分類器組合等方法提升了機(jī)器學(xué)習(xí)方法的情感分析效果。但是,傳統(tǒng)機(jī)器學(xué)習(xí)方法在對文本數(shù)據(jù)進(jìn)行情感分析時,不能做到有效關(guān)聯(lián)上下文語義信息,一定程度上還會造成歧義。

      1.2 基于深度學(xué)習(xí)的情感分析

      基于深度學(xué)習(xí)的情感分析一定程度彌補(bǔ)傳統(tǒng)機(jī)器學(xué)習(xí)忽略上下文本關(guān)聯(lián)性造成的缺陷。深度學(xué)習(xí)模型通過主動學(xué)習(xí)文本數(shù)據(jù)特征,在保留原文本詞語關(guān)聯(lián)性的前提下,結(jié)合上下文語境,有效地降低語義歧義,提升文本信息情感分析效果。

      楊秀璋等人針對微博輿情事件情感分析缺乏深層次語義支持的現(xiàn)象,在深度學(xué)習(xí)TextCNN 模型基礎(chǔ)上融入Attention 注意力機(jī)制,一定程度提升了對微博輿情事件的情感分析效果。孫嘉琪等人針對傳統(tǒng)方法無法預(yù)測情感走勢變化的現(xiàn)象,在現(xiàn)有深度學(xué)習(xí)模型基礎(chǔ)上構(gòu)建時間序列模型,提出ARIMA-GARCH模型,實驗結(jié)果表明該模型能夠有效預(yù)測投資者的情感走勢,且誤差較小。袁勛等人融合多層注意力機(jī)制開展方面級情感分析研究,構(gòu)建的BMLA 模型能增強(qiáng)句子與方面詞之間的長依賴關(guān)系,一定程度提升了傳統(tǒng)模型的準(zhǔn)確性。

      雖然眾多學(xué)者對深度學(xué)習(xí)模型進(jìn)行不同程度上的優(yōu)化,一定程度提高深度學(xué)習(xí)模型在進(jìn)行情感分析時結(jié)果的準(zhǔn)確性。但是,深度學(xué)習(xí)模型和監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)模型都必須建立在擁有準(zhǔn)確的訓(xùn)練集數(shù)據(jù)的前提下。網(wǎng)絡(luò)輿情分析的難題重點在于如何在不花費大量人力、時間的前提下,有效運(yùn)用人工智能的方法實現(xiàn)對網(wǎng)絡(luò)輿情信息的精準(zhǔn)預(yù)測,尤其是對少樣本標(biāo)注的遷移場景進(jìn)行情感分析。針對這一難點,本文提出了一種融合Bert預(yù)訓(xùn)練和BiLSTM 的情感分析算法,并從微博輿情事件數(shù)據(jù)集遷移到知乎輿情事件數(shù)據(jù)集的預(yù)測和分析,最終實現(xiàn)數(shù)據(jù)漂移和跨平臺的輿情感知。整個遷移場景的情感分析任務(wù)用圖1表示,圖的上部分為傳統(tǒng)情感分析任務(wù),下部分為遷移場景的情感分析任務(wù)。

      圖1 場景遷移的輿情事件情感分析任務(wù)對比

      2 模型設(shè)計

      傳統(tǒng)方法較難對遷移場景或跨平臺、跨領(lǐng)域的輿情事件進(jìn)行情感分析研究,并且遷移場景的輿情態(tài)勢感知越來越重要。因此本文提出了一種融合Bert預(yù)訓(xùn)練和BiLSTM 的場景遷移情感分析模型,該方法能有效提升模型的魯棒性,解決海量數(shù)據(jù)標(biāo)注問題,并具有更好的適應(yīng)性和實用性。

      2.1 總體框架

      本文設(shè)計并實現(xiàn)了Bert-BiLSTM-Attention 情感分析模型,整個模型的總體框架如圖2 所示。該模型能對遷移場景或跨領(lǐng)域的輿情事件進(jìn)行情感態(tài)勢感知,具體實現(xiàn)步驟如下。

      圖2 遷移場景下輿情事件情感分析模型的總體框架圖

      通過Selenium 和Xpath 技術(shù)采集微博和知乎輿情事件的評論信息,并按照積極和消極兩種情感進(jìn)行標(biāo)記,其中微博數(shù)據(jù)集作為訓(xùn)練,知乎數(shù)據(jù)集作為預(yù)測。接著進(jìn)行數(shù)據(jù)清洗,包括中文分詞、停用詞過濾、特征提取等,并利用Word2Vec轉(zhuǎn)換成詞向量。

      構(gòu)建Bert 模型進(jìn)行預(yù)訓(xùn)練,該模型能提取特征詞在句子中的關(guān)系特征,即在多個不同層次提取關(guān)系特征,從而更好地反映情感句子語義知識。本文通過Bert 模型來預(yù)訓(xùn)練學(xué)習(xí)中文情感,為后續(xù)情感分析提供支撐。

      構(gòu)建BiLSTM 和注意力機(jī)制融合的模型,該模型通過BiLSTM 捕獲長距離依賴關(guān)系,再通過注意力機(jī)制突出情感特征詞的權(quán)重,從而更好地完成情感分類任務(wù)。

      經(jīng)過Bert 和BiLSTM+Att 情感分析模型處理后,接入Softmax 函數(shù)實現(xiàn)情感分類,最終實現(xiàn)對不同輿情事件的評論進(jìn)行積極情感和消極情感的預(yù)測,動態(tài)感知大眾的情感傾向。

      2.2 Bert預(yù)訓(xùn)練模型

      Bert 是一種預(yù)訓(xùn)練語義表征模型,由谷歌人工智能團(tuán)隊于2018 年提出。該模型通過融合文本表征能力強(qiáng)大的遷移學(xué)習(xí)(Transformer)模型實現(xiàn),預(yù)訓(xùn)練能獲得更好地向量表達(dá)。整個模型由輸入層、編碼層和輸出層構(gòu)成,其中輸入層是{e,e,...,e}向量,編碼層由多個Transformer組成,最終輸出向量為{T,T,...,T}。

      在Bert 模型中,預(yù)訓(xùn)練旨在提前訓(xùn)練好下游任務(wù)的底層知識,再用下游任務(wù)各領(lǐng)域樣本數(shù)據(jù)來訓(xùn)練各種模型,從而加快模型的收斂速度,實現(xiàn)場景遷移。在自然語言處理任務(wù)中,為了更好地理解文檔中的句子和特征詞,更好地將他們轉(zhuǎn)換成詞向量,提升模型的泛化能力,因此利用Bert模型來完成語言表征,該方法優(yōu)于傳統(tǒng)的Word Embedding、ELMO、GPT 等。Bert 模型的輸入表示包括Token、Segment、Position 三個嵌入層的疊加,分別對應(yīng)單詞、句子和位置信息,最終實現(xiàn)句子級別的表征任務(wù)。其中,輸入向量E由三種不同向量對應(yīng)元素疊加而成,每個句子第一個向量標(biāo)志是[CLS],結(jié)束標(biāo)志位[SEP]。通過該結(jié)構(gòu)能為句子級別的情感分析構(gòu)建句向量,位置向量P記錄特征詞所在的位置,計算公式如下:

      其中,pos 為特征詞在句子中的位置,d 表示特征詞向量的維度,P為輸出位置向量,2i和2i+1表示詞向量的偶數(shù)維度和奇數(shù)維度。

      此外,在Bert 模型中,Transformer 編碼器是由自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)組成,能更好地解決自然語言處理任務(wù)中的長依賴問題。其方法是將輸入句子中的每一個特征詞都和句中的所有詞做Attention計算,從而提取特征詞之間的依賴關(guān)系,整個計算過程用公式⑶表示。

      其中,Q、K 和V 分別表示Query 向量、Key 向量和Value 向量,對應(yīng)編碼器的輸入字向量矩陣,d為輸入向量的維度。最終,通過Bert 模型實現(xiàn)了對輿情事件評論的預(yù)訓(xùn)練提取。

      2.3 BiLSTM模型

      BiLSTM 模型作為一種經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò),由記憶單元和門(gate)結(jié)構(gòu)組成。該模型從前后兩個方向提取特征,從而捕獲長距離依賴關(guān)系及上下文語義特征。本文將它至于Bert 模型和注意力機(jī)制模型之間,從而提取微博和知乎輿情事件評論的情感特征,并實現(xiàn)情感分類任務(wù)。

      BiLSTM 模型網(wǎng)絡(luò)結(jié)構(gòu)可以通過公式⑷至公式⑹表示。其中,公式⑷表示t 時刻前向LSTM 層的狀態(tài),公式⑸表示t時刻后向LSTM 層的狀態(tài),x對應(yīng)輸入向量,w表示對應(yīng)的權(quán)重,f 表示激活函數(shù),最終BiLSTM輸出的向量為y。

      通過BiLSTM 模型能有效捕獲評論句子的長距離依賴關(guān)系,比如常見的情感特征詞“開心”和“真好玩”表示積極情感,“傷心”和“哭泣”表示消級情感,而傳統(tǒng)模型無法較好識別這些距離較長的特征詞語義關(guān)系。最后,將BiLSTM 模型得到的輸出向量傳遞至注意力機(jī)制,并接Softmax 實現(xiàn)情感分類,最終預(yù)測知乎輿情事件的積極和消極情感。

      3 實驗與分析

      為驗證本文模型在遷移場景的情感分析效果,本文構(gòu)建了包含微博和知乎兩類典型社交平臺的輿情事件評論數(shù)據(jù)集,每類數(shù)據(jù)集包含積極和消極情緒,并進(jìn)行對比實驗。在實驗過程中,通過Python3.7構(gòu)建不同的情感分析模型,利用TensorFlow、Keras 構(gòu)建深度學(xué)習(xí)模型,Sklearn 構(gòu)建機(jī)器學(xué)習(xí)模型。編程環(huán)境為Anaconda,處理器為Inter(R) Core i7-8700K,GPU 為GTX 1080Ti。

      3.1 數(shù)據(jù)集和數(shù)據(jù)預(yù)處理

      在對輿情事件的情感分析中,社交媒體產(chǎn)生的評論數(shù)據(jù)將有助于研究者分析大眾的情感傾向,感知輿情事件的情感走向。本文通過Selenium 和Xpath 技術(shù)采集微博和知乎兩種典型社交媒體在2021 年的輿情事件評論信息,包括積極情感和消極情感。例如,輿情事件涉及:慶祝中國共產(chǎn)黨成立100周年,神舟十三號成功發(fā)射,東京奧運(yùn)會,EDG 奪冠,孟晚舟歸國,云南大象遷徙,河南暴雨災(zāi)害,清朗飯圈亂象治理等事件。

      表1 輿情事件評論數(shù)據(jù)集

      本文將采集的數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,包括中文分詞、停用詞過濾、特殊字符清洗、情感特征詞提取和權(quán)重計算等。最后將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗證集和測試集,其中訓(xùn)練集和驗證集是來自微博的輿情事件評論信息,積極情感和消極情感的訓(xùn)練集各6000條,驗證集各2000 條;測試集是來自知乎的輿情事件評論信息,積極情感和消極情感各4000條。

      為更好地學(xué)習(xí)輿情事件的情感態(tài)勢,需要分別對不同模型進(jìn)行參數(shù)預(yù)設(shè),模型超參數(shù)設(shè)置如表2所示,其中Bert 算法的預(yù)訓(xùn)練模型采用中文“Chinese_L-12_H-768_A-12”。此外,為避免某些異常實驗結(jié)果的影響,本文最終的實驗結(jié)果為十次結(jié)果的平均值。

      表2 模型超參數(shù)

      3.2 評價指標(biāo)

      本文將輿情事件評論數(shù)據(jù)集劃分為積極情感(類別為0)和消極情感(類別為1)。其中,真陽性(True Positive,TP)表示評論的預(yù)測情感和真實情感都是積極的;真陰性(True Negative,TN)表示評論的預(yù)測情感和真實情感都是消極的;假陽性(False Positive,FP)表示將消極情感預(yù)測為積極情感;假陰性(False Negative,FN)表示將積極情感預(yù)測為消極。接著采用精確率(Precision)、召回率(Recall)、F值(F-score)和準(zhǔn)確率(Accuracy)對輿情事件進(jìn)行情感分析評價,計算過程如公式⑺至⑽所示。

      其中,精確率用于評估情感分類被正確預(yù)測為指定類別占所預(yù)測類別評論數(shù)量的百分比,召回率用于評估情感分類被正確預(yù)測占該類別情感評論數(shù)量的百分比,F(xiàn)值綜合了精確率和召回率,是兩者的加權(quán)調(diào)和平均值,常與準(zhǔn)確率用于評估模型的質(zhì)量。

      3.3 實驗對比

      傳統(tǒng)深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法較難對跨場景或跨平臺的輿情事件進(jìn)行情感分析,其魯棒性較差,對此本文提出一種融合Bert預(yù)訓(xùn)練和BiLSTM 的微博評論情感分析算法。該算法對微博輿情事件數(shù)據(jù)集進(jìn)行訓(xùn)練,然后遷移預(yù)測知乎輿情事件的情感傾向。本文詳細(xì)對比了各種經(jīng)典模型,其中機(jī)器學(xué)習(xí)模型包括決策樹(DT)、SVM、邏輯回歸(LR)、隨機(jī)森林(RF)和AdaBoost,深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)和本文模型。

      整個實驗結(jié)果如表3所示,本文融合Bert和BiLSTM模型的精確率為0.8181,召回率為0.8199,F(xiàn)值為0.8190,準(zhǔn)確率為0.8181。通過對比發(fā)現(xiàn),本文方法F值和精確率均高于其他方法,這表明Bert 模型能有效地對跨平臺(微博和知乎)的輿情事件進(jìn)行情感分析,BiLSTM能有效捕獲長距離依賴特征。同時,為更好地對比微博和知乎輿情事件情感分析的效果,評估本文融合Bert預(yù)訓(xùn)練和BiLSTM的微博評論情感分析算法,我們對積極情感和消極情感進(jìn)行了詳細(xì)的對比實驗。其中,圖3為遷移場景情感分析積極情感的實驗結(jié)果,機(jī)器學(xué)習(xí)表現(xiàn)較好的邏輯回歸算法的F值為0.6402,CNN 的F值為0.7189,BiLSTM 的F1 值為0.7218,本文方法的F1 值為0.8246,均提升10%以上,說明本文方法能遷移到更多場景和平臺的輿情分析中,其魯棒性和準(zhǔn)確性均較好。

      表3 各模型遷移場景的情感分析實驗結(jié)果對比

      圖3 遷移場景情感分析積極情感的實驗結(jié)果對比

      為突出本文融合Bert預(yù)訓(xùn)練和BiLSTM 的微博評論情感分析算法,本文對積極情感和消極情感進(jìn)行了詳細(xì)的對比實驗。對比了深度學(xué)習(xí)模型對知乎輿情事件評論情感分析的混淆矩陣。其中,圖4(a)為CNN模型,正確預(yù)測積極情感評論29859條、消極情感評論26791 條;圖4(b)為BiLSTM 模型,正確預(yù)測積極情感評論30500 條、消極情感評論25985 條;圖4(c)為本文模型,正確預(yù)測積極情感評論34216條、消極情感評論31230 條。說明本文方法能遷移到更多場景和平臺的輿情分析中,其魯棒性和準(zhǔn)確性均較好。

      圖4 各深度學(xué)習(xí)模型混淆矩陣對比

      4 結(jié)束語

      針對傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型較難解決場景遷移和跨領(lǐng)域輿情事件的情感分析問題,無法精準(zhǔn)捕獲長距離依賴關(guān)系和語義特征,以及過度依賴數(shù)據(jù)標(biāo)注等問題,本文提出了一種融合Bert 預(yù)訓(xùn)練和BiLSTM 的場景遷移情感分析模型,旨在實現(xiàn)對跨社交平臺的輿情事件進(jìn)行情感分析研究。該模型包括四個模塊,首先對微博和知乎社交媒體的輿情事件評論進(jìn)行數(shù)據(jù)采集及預(yù)處理;其次,構(gòu)建預(yù)訓(xùn)練模型Bert來提取及表征文本的詞向量;然后構(gòu)建融合BiLSTM和注意力機(jī)制的情感分析模型,捕獲長距離依賴關(guān)系和語義特征;最后,構(gòu)建Softmax 實現(xiàn)情感分析,預(yù)測知乎輿情事件的積極情感和消極情感。

      實驗結(jié)果表明,本文能有效實現(xiàn)跨場景和平臺遷移的情感分析任務(wù),其精確率為0.8181,召回率為0.8199,F(xiàn)值為0.8190,準(zhǔn)確率為0.8181。通過對比發(fā)現(xiàn),本文方法的性能均高于其他方法,本文方法的F值比DT、SVM、LR、RF 和AdaBoost 機(jī)器學(xué)習(xí)方法分別提升0.1878、0.1779、0.1777、0.1887 和0.2210,比CNN、BiLSTM 深度學(xué)習(xí)方法分別提升0.1102 和0.1116。這表明Bert 模型能有效地對跨平臺(微博和知乎)的輿情事件進(jìn)行情感分析,BiLSTM 能有效捕獲長距離依賴特征。綜上,本文方法能應(yīng)用于場景遷移和跨社交媒體的情感分析任務(wù),具有較好的魯棒性和準(zhǔn)確率,并能有效感知大眾對輿情事件的情感走勢,具有一定的應(yīng)用前景和實用價值。

      猜你喜歡
      輿情向量情感
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      如何在情感中自我成長,保持獨立
      失落的情感
      北極光(2019年12期)2020-01-18 06:22:10
      情感
      如何在情感中自我成長,保持獨立
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      向量垂直在解析幾何中的應(yīng)用
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      福清市| 锦州市| 奈曼旗| 佛学| 墨竹工卡县| 剑阁县| 达拉特旗| 达孜县| 海盐县| 垫江县| 外汇| 龙岩市| 句容市| 镇平县| 河东区| 桃园县| 西贡区| 阿鲁科尔沁旗| 神木县| 财经| 南川市| 那曲县| 赤壁市| 东乡族自治县| 二手房| 双鸭山市| 石城县| 大丰市| 北辰区| 梅州市| 那曲县| 乾安县| 依安县| 吴旗县| 湟源县| 临江市| 连江县| 遵化市| 新疆| 荆门市| 资溪县|