• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于文本的情感分析及研究

      2019-09-07 07:13:30高風(fēng)蕊張志剛西安財(cái)經(jīng)大學(xué)信息學(xué)院
      數(shù)碼世界 2019年9期
      關(guān)鍵詞:語(yǔ)料京東卷積

      高風(fēng)蕊 張志剛 西安財(cái)經(jīng)大學(xué) 信息學(xué)院

      一、概述

      基于文本的情感分類挖掘是近年來(lái)的熱點(diǎn)研究方向之一,對(duì)資源搜索、信息過(guò)濾、垃圾郵件分類等具有重要的意義。CNN 采用前饋神經(jīng)網(wǎng)絡(luò),利用卷積層和采樣層應(yīng)用于文本分類。文獻(xiàn)[3]使用雙向RNN 來(lái)學(xué)習(xí)原始文本數(shù)據(jù)的關(guān)系模式,文獻(xiàn)[4]提出了長(zhǎng)短期記憶(LSTM)模型,進(jìn)一步,文獻(xiàn)[5]將LSTM 模型進(jìn)行了擴(kuò)展:使用雙向LSTM 從左到右對(duì)句子進(jìn)行建模,從而將句子表現(xiàn)得更加的全面。

      在上述研究基礎(chǔ)上,本文提出了BLSTM-2DCP 體系結(jié)構(gòu),基于LSTM 進(jìn)行優(yōu)化,采用了BLSTM,BLSTM 將句子文本轉(zhuǎn)換為擁有時(shí)間步長(zhǎng)維和特征向量維的矩陣,結(jié)合CNN 中卷積和池化操作來(lái)給對(duì)時(shí)間步長(zhǎng)維和特征向量維上采樣。即利用BLSTM 并通過(guò)2D卷積和2D 最大池操作提取特征進(jìn)行文本分類建模任務(wù)。

      二、BLSTM-2DCP 模型

      整個(gè)模型由四部分組成:BLSTM 層,二維卷積層,二維最大池化層和輸出層。

      (1)BLSTM 層

      LSTM(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))是一種RNN 的一個(gè)變種,它和普通的循環(huán)神經(jīng)網(wǎng)絡(luò)相比,LSTM 通過(guò)門機(jī)制對(duì)通過(guò)信息的控制來(lái)緩解梯度消失問(wèn)題。該機(jī)制包括輸入門i、輸出門o、遺忘門f、控制器c(他們的輸出有一個(gè)和逐點(diǎn)乘積操作,用和⊙表示)。LSTM 輸入單元輸入數(shù)據(jù)xt,隱藏層輸出ht。設(shè)輸入序列,其中l(wèi) 是輸入文本的長(zhǎng)度,使用當(dāng)前輸入xt,前一步產(chǎn)生的狀態(tài)ht-1,以及該單元的當(dāng)前狀態(tài)ct-1,通過(guò)門機(jī)制來(lái)判斷要拋棄哪種信息和要存儲(chǔ)何種信息,并決定輸出更新的狀態(tài)ht,正如以下方程式所示:

      對(duì)于序列建模任務(wù),訪問(wèn)過(guò)去和的未來(lái)上下文是有益的。Schuster 提出的BLSTM 通過(guò)引入第二個(gè)隱藏層來(lái)擴(kuò)展單向LSTM,其隱藏層到隱藏層的連接以相反的時(shí)間順序流動(dòng),這樣就不僅輸入了過(guò)去的信息還有未來(lái)的信息,則第t 個(gè)字的輸出如下式所示:

      (2)卷積操作

      (3)二維最大池化層

      在卷積后產(chǎn)生的特征圖O上應(yīng)用最大池化操作,為卷積后的特征捕獲一個(gè)最高值的特征作為最重要的特征。對(duì)于2D 最大池,它應(yīng)用于矩陣的每個(gè)可能的窗口以提取最大值:

      (4)輸出層

      三、實(shí)驗(yàn)與分析

      本文基于京東的用戶評(píng)價(jià)建立數(shù)據(jù)集,作為訓(xùn)練樣本。我們隨機(jī)選擇90%的訓(xùn)練集,10%的測(cè)試集。該樣本分為好評(píng)評(píng)論和差評(píng)評(píng)論,對(duì)于本文的文本褒貶分類,將訓(xùn)練樣本比例按分類規(guī)劃為1:1,以此更好的訓(xùn)練模型。將本文方法與廣泛使用的文本分類方法在數(shù)據(jù)集的測(cè)試準(zhǔn)確率進(jìn)行比較,同時(shí)進(jìn)行了CNN_model、LSTM_model、GRU_model,BLSTM-2DCP_model 的訓(xùn)練和測(cè)試,數(shù)據(jù)的迭代次數(shù)均為20 次。我們將BLSTM-2DCP與比其他模型進(jìn)行較,顯 示CNN_model、LSTM_mode1、 GRU_model、BLSTM-2DCP_model 的準(zhǔn)確率分別為65.97%、71.52%、72.22%、75.63%,實(shí)驗(yàn)表明,我們的模型在京東用戶評(píng)論數(shù)據(jù)集上優(yōu)于CNN_model、LSTM_model、GRU_model 模型。

      本文中的模型只是基于抓取到的京東用戶評(píng)價(jià)作為數(shù)據(jù)集,只覆蓋了購(gòu)物商品評(píng)論語(yǔ)料范圍之內(nèi)的詞,超出語(yǔ)料之外的分類可能會(huì)降低。通用型比較低,并不是一個(gè)可以識(shí)別任意文本進(jìn)行文本情感分類的通用模型。該模型與比較簡(jiǎn)單的模型相比,將多占用更多的存儲(chǔ)空間并消耗更長(zhǎng)的時(shí)間運(yùn)行。

      猜你喜歡
      語(yǔ)料京東卷積
      做“最懂產(chǎn)業(yè)的云”,京東云首發(fā)云操作系統(tǒng)
      智能制造(2021年4期)2021-11-14 18:56:41
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      13年首次盈利,京東做對(duì)了什么?
      商周刊(2017年6期)2017-08-22 03:42:50
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      在超市快送上超越京東
      《苗防備覽》中的湘西語(yǔ)料
      小黑犬
      通州区| 嘉定区| 沅江市| 余庆县| 泊头市| 山阳县| 安达市| 新邵县| 阳江市| 蓬安县| 基隆市| 姚安县| 上犹县| 顺义区| 邵武市| 乌拉特中旗| 西林县| 台中县| 衡阳县| 江安县| 武穴市| 扶绥县| 攀枝花市| 荔浦县| 尤溪县| 伊通| 大城县| 万荣县| 泸西县| 理塘县| 惠安县| 敖汉旗| 深水埗区| 辽阳市| 临夏市| 嘉禾县| 广汉市| 海盐县| 曲靖市| 巢湖市| 无极县|