• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于CNN-BiLSTM-CRF 的企業(yè)輿情監(jiān)控模型構(gòu)建

      2023-12-18 18:13:49張欣藝鄭軍紅何利力
      計(jì)算機(jī)時代 2023年11期

      張欣藝 鄭軍紅 何利力

      關(guān)鍵詞:企業(yè)輿情監(jiān)控;CNN;BiLSTM;輿論觀點(diǎn)抽取;K-means

      中圖分類號:TP391.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-8228(2023)11-136-05

      0 引言

      在當(dāng)今的信息化背景下,網(wǎng)絡(luò)上的大量網(wǎng)絡(luò)輿情信息得到有效保存?;ヂ?lián)網(wǎng)營銷平臺也被許多企業(yè)選擇作為開展?fàn)I銷活動的重要根據(jù)地,匯聚了大量用戶數(shù)據(jù)、營銷活動數(shù)據(jù)。這些數(shù)據(jù)對于企業(yè)的經(jīng)營和管理具有極高的參考價值,但如何合理利用這些數(shù)據(jù)來進(jìn)行決策指導(dǎo),是企業(yè)面臨的重要問題。

      近年,基于深度學(xué)習(xí)的情感分析方法在各個領(lǐng)域內(nèi)都有所應(yīng)用。吳貴珍等[1]提出一種將CNN 與雙層雙向門控循環(huán)單元(BIGRU)相結(jié)合的方法,改善了CNN只能提取文本局部信息和RNN 容易陷入梯度爆炸的問題。但存在時間效率不高以及隨著數(shù)據(jù)規(guī)模增長,訓(xùn)練時間也會顯著變長的問題。趙星宇等[2]提出一種融合雙向LSTM 和CNN 的混合情感分析模型,改善了現(xiàn)有文本情感分析方法實(shí)時性不強(qiáng)、難以應(yīng)用到大規(guī)模文本等問題。曾莉等[3]提出一種融合主題模型和情感分析的LDA-Attention-BiLSTM 模型,對輿情中的熱點(diǎn)話題和情感時序變化有更好的反映。但該模型在方便計(jì)算的同時丟失了很多信息。楊秀璋等[4]提出一種改進(jìn)LDA-CNN-BiLSTM 模型,在社交媒體情感分析忽略情感特征的長距離語義關(guān)系,無法精確捕獲帶有情感色彩的特征詞,過度依賴人工標(biāo)注等問題上做出了改善。

      企業(yè)在輿情監(jiān)控時需要更多地考慮到評價的主體,并聚焦于互聯(lián)網(wǎng)營銷平臺和網(wǎng)絡(luò)輿情平臺中多數(shù)人關(guān)注的事件,不同的企業(yè)所關(guān)注的內(nèi)容會不同。因此,目前的輿情監(jiān)控模型不完全適用于各個企業(yè)。我們可以將以上的問題轉(zhuǎn)換為對特征向量分配權(quán)重的問題。目前,許多研究人員針對這個問題做出了不同的改進(jìn)。趙蕊潔等[5] 提出一種基于Attention-BiLSTM-CRF 的醫(yī)藥實(shí)體識別模型,提高了醫(yī)藥實(shí)體識別的效果,但應(yīng)用范圍較為單一。佘恒健等[6]采用BiLSTM-CRF 方法,對標(biāo)注的政務(wù)公文進(jìn)行了中文實(shí)體識別實(shí)驗(yàn),更加準(zhǔn)確有效地識別政務(wù)公文中的實(shí)體。陳偉等[7]提出了一種多頭自注意力機(jī)制與條件隨機(jī)場(CRF)結(jié)合的實(shí)體抽取模型,改善了傳統(tǒng)命名識別容易受上下文相對距離的影響、實(shí)體整體識別效果差的問題。

      綜上所述,增加條件隨機(jī)場(Conditional RandomField,CRF)[8]能在以上模型中起到很好的效果。但是針對企業(yè)輿情監(jiān)控仍存在以下問題:①單一的神經(jīng)網(wǎng)絡(luò)模型無法充分提取情感特征,卷積網(wǎng)絡(luò)只能提取局部特征,而具有序列特性的神經(jīng)網(wǎng)絡(luò)(如LSTM,GRU等)只能提取整個序列特征,其時間效率低下。②雖然網(wǎng)絡(luò)輿情監(jiān)測一直是比較熱門的研究方向之一,但目前的輿情監(jiān)控模型與企業(yè)的需求契合度較低。因此本文從情感分析的角度,運(yùn)用深度學(xué)習(xí)理論,提出了一種基于CNN-BiLSTM-CRF 的企業(yè)輿情監(jiān)控模型。首先將社交平臺評論信息和互聯(lián)網(wǎng)營銷平臺留言信息進(jìn)行預(yù)處理,然后使用Word2vec 技術(shù)獲取文本的詞向量表示。將其輸出作為CNN 卷積神經(jīng)網(wǎng)絡(luò)的輸入,再將經(jīng)過處理的數(shù)據(jù)輸入到BiLSTM 網(wǎng)絡(luò)層,加入條件隨機(jī)場模型對標(biāo)簽序列進(jìn)行優(yōu)化,最后,基于K-means 進(jìn)行觀點(diǎn)聚類,得到企業(yè)網(wǎng)絡(luò)輿論焦點(diǎn),從而進(jìn)行企業(yè)輿情監(jiān)控。本文的主要貢獻(xiàn)如下:①提出一種結(jié)合CNN-BiLSTM 和條件隨機(jī)場、K-means 聚類的模型,實(shí)驗(yàn)結(jié)果表明,該模型在各個指標(biāo)上均得到提升,說明了模型的有效性。②根據(jù)企業(yè)輿情監(jiān)控特點(diǎn),結(jié)合社交平臺和互聯(lián)網(wǎng)營銷平臺信息,建立了面向企業(yè)的輿情監(jiān)控模型。

      1 模型構(gòu)建

      本模型首先將社交平臺評論信息和互聯(lián)網(wǎng)營銷平臺留言信息作為初始文本進(jìn)行預(yù)處理,并將預(yù)處理完的短文本數(shù)據(jù)導(dǎo)入Word2vec[9]獲取文本的詞向量表示,將其輸出作為CNN 卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過CNN 的卷積層和池化層的構(gòu)建,用來提取特征,再將經(jīng)過處理的數(shù)據(jù)輸入到BiLSTM 網(wǎng)絡(luò)層,加入條件隨機(jī)場模型對標(biāo)簽序列進(jìn)行優(yōu)化,最后,基于K-means進(jìn)行觀點(diǎn)聚類,得到企業(yè)網(wǎng)絡(luò)輿論焦點(diǎn),從而進(jìn)行企業(yè)輿情監(jiān)控。模型整體結(jié)構(gòu)如圖1 所示。

      1.1 數(shù)據(jù)預(yù)處理

      首先,我們需要對收集到的數(shù)據(jù)進(jìn)行處理,轉(zhuǎn)化為機(jī)器可以接受的輸入。本模型文本預(yù)處理的具體步驟如圖2 所示。

      本模型主要采用JieBa 分詞庫進(jìn)行分詞,使用Word2vec 技術(shù)向量化實(shí)驗(yàn)數(shù)據(jù)。由于數(shù)據(jù)量較大,本模型選用word2vec 的Skip-gram 模型進(jìn)行詞向量訓(xùn)練,以分詞處理后的文本序列(w1,w1,…,wn)轉(zhuǎn)換為低緯稠密的詞向量序列作為CNN 神經(jīng)網(wǎng)絡(luò)的輸入。Skip-gram 模型結(jié)構(gòu)圖如圖3 所示。

      2.4 對照基準(zhǔn)模型

      本次實(shí)驗(yàn)選取CNN、CRF、LSTM-CRF、BiLSTMCRF和BiGRU-CRF 模型來與本文模型做對比實(shí)驗(yàn)。

      ⑴ CNN:經(jīng)典深度學(xué)習(xí)模型,很早被應(yīng)用于命名實(shí)體識別,提取句子級別的特征。

      ⑵ CRF:將命名實(shí)體識別問題轉(zhuǎn)化為序列標(biāo)注問題,可以考慮到復(fù)雜的特征。

      ⑶ LSTM-CRF:將LSTM 和CRF 結(jié)合在一起,可以捕捉到輸入的過去特征和句子級的標(biāo)簽信息。

      ⑷ BiLSTM-CRF:與LSTM-CRF 類似,將LSTM換為BiLSTM,是序列標(biāo)注問題的經(jīng)典模型。使用Word2vec完成詞向量訓(xùn)練,并將其輸出值導(dǎo)入BiLSTM來獲取文本特征、得到各標(biāo)簽取值的概率,通過CRF約束標(biāo)簽間的順序關(guān)系。

      ⑸ BiGRU-CRF:BiGRU 網(wǎng)絡(luò)是由RNN 發(fā)展而來,它在處理序列數(shù)據(jù)的任務(wù)中被廣泛使用,結(jié)合CRF優(yōu)化目標(biāo)函數(shù)。

      2.5 實(shí)驗(yàn)結(jié)果與分析

      本次實(shí)驗(yàn)選取CNN、CRF、LSTM-CRF、BiLSTMCRF和BiGRU-CRF 模型來與本文提出的模型做對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。本文提出的模型最后結(jié)果精確率達(dá)到88.26%,召回率為87.60%,F(xiàn)1 值為87.93%,相較于其他模型結(jié)構(gòu),各個指標(biāo)都有所提升。

      3 結(jié)束語

      通過對網(wǎng)絡(luò)社交平臺輿情信息和企業(yè)互聯(lián)網(wǎng)營銷平臺相關(guān)信息的處理分析,可以實(shí)現(xiàn)對企業(yè)的輿情監(jiān)控,并指導(dǎo)企業(yè)決策。在當(dāng)前的互聯(lián)網(wǎng)+環(huán)境下,這對企業(yè)來說是必不可少的,基于此,本文提出了一種基于CNN-BiLSTM-CRF 的企業(yè)輿情監(jiān)控模型。通過在真實(shí)數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),本文模型在精確率、召回率、F1 值指標(biāo)上均優(yōu)于其他基準(zhǔn)模型,驗(yàn)證了本文提出模型的有效性。接下來,將基于目前的研究成果,面向企業(yè)網(wǎng)絡(luò)輿情監(jiān)控,結(jié)合企業(yè)輿情焦點(diǎn)中的感情極性進(jìn)行研究。

      庆云县| 天峻县| 德格县| 綦江县| 连州市| 金门县| 绥化市| 泰兴市| 宁河县| 甘肃省| 乌审旗| 昭觉县| 泰州市| 班玛县| 苏尼特右旗| 阿合奇县| 厦门市| 朔州市| 博白县| 浑源县| 红安县| 青铜峡市| 金山区| 高州市| 盈江县| 马边| 深州市| 胶州市| 阆中市| 宁陕县| 山阴县| 溆浦县| 旺苍县| 平果县| 通辽市| 广安市| 叙永县| 涪陵区| 蒲江县| 灌阳县| 武汉市|