• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于CNN-RSC組合優(yōu)化算法語音情感分析與研究*

      2018-12-20 06:47:06趙永生徐海青張引強
      湘潭大學自然科學學報 2018年4期
      關(guān)鍵詞:準確度準確率向量

      趙永生, 徐海青, 張引強

      (1.安徽繼遠軟件有限公司,安徽 合肥 230000;2.武漢大學,湖北 武漢 430000;3.國網(wǎng)安徽省電力有限公司信息通信分公司,安徽 合肥 230000)

      國內(nèi)外有很多針對文本進行情感分析方面的研究.研究者利用傳統(tǒng)的機器學習算法,如支持向量機、條件隨機場、信息熵等對文本進行情感分析.Pang等通過分別對樸素貝葉斯、最大熵和支持向量機三種模型進行訓練,實現(xiàn)文本特征信息提取,并對比準確率[1].Turney分析文本中詞語與正向和負向情感詞的相關(guān)度,根據(jù)其相關(guān)度差值判斷文本的極性,并對文本情感進行分類[2].Li等提出一種dependency-sentiment-LDA模型,該模型結(jié)合語境和局部依賴的關(guān)系分析文本情感,大大提高了情感分析的準確度,但此模型依賴人工標注數(shù)據(jù)集,降低了整體性能[3].Hinton等于2006年開始提出深度學習,由于深度學習技術(shù)能夠?qū)A繑?shù)據(jù)進行學習,因此其在文本情感分析中得以發(fā)展[4-5].Mnih等將一種可擴展的分層神經(jīng)網(wǎng)絡(luò)模型應用到了文本分析中,大大提高了訓練速度和準確度[6].Mikolov等提出了一種基于循環(huán)深度神經(jīng)網(wǎng)絡(luò)的模型,并根據(jù)語料上下文信息進行模型構(gòu)建,提高了容錯率[7].上述方法往往忽視了語義的結(jié)構(gòu)信息,而深度學習中的遞歸自編碼模型,將文本中的語音信息融到在最佳樹結(jié)構(gòu)中,在特征信息提取、情感分析中具有優(yōu)異的表現(xiàn).

      1 情感分析基礎(chǔ)理論

      本文中使用的卷積神經(jīng)網(wǎng)絡(luò)模型如圖1所示.整個神經(jīng)網(wǎng)絡(luò)主要分為輸入層、卷積層、池化層和全連接層.對于輸入層,其輸入基于樣本句段的隨機賦值生成或為語料預先訓練好的詞向量,如式(1)表示:

      s=[w1,w2,w3,…,wn-1,wn] .

      (1)

      卷積層中包含通過窗口連接輸入層的過濾器,獲得輸入樣本中多個詞之間的局部特征.若窗口大小為h,且作用在相同大小窗口的詞向量上,可生成新的特征向量

      ci=f(v·wi:i+h-1+b),

      式中:b,v為卷積神經(jīng)網(wǎng)絡(luò)的參數(shù).f(·)是關(guān)于v、w、b的非線性特征函數(shù),利用函數(shù)變換得到新的特征向量c,c∈Rn-h+1.池化層的池化操作最終通過重構(gòu)誤差學習句段內(nèi)各個詞語直接的語序關(guān)系,降低句段的誤差,生成最佳樹結(jié)構(gòu),更好地表達句段原始語義.重構(gòu)誤差為

      式中的n1、n2為當前節(jié)點c1、c2下面的詞數(shù).計算時,為了方便計算,我們對負節(jié)點進行歸一化處理,

      最終句段的情感分類是通過對所獲得的最佳向量加入輸出層進行的.輸出層情感分類計算公式為:

      d(p;θ)=soft max(wlabelp),

      式中:p為語句向量;soft max(·)為輸出層的分類函數(shù);wlabel為系數(shù)矩陣;label為情感的分類數(shù).輸出層誤差為:

      式中:d是一個概率的分布向量(維數(shù)為k,情感分類數(shù)等于k),且dk=p(k|[c1;c2] ),∑k=1dk=1;tk為第k種情感標簽值.對上述公式進行優(yōu)化處理,優(yōu)化目標函數(shù)選擇為:

      式中:N表示數(shù)據(jù)集的大??;E(x,t;θ)為某條語句誤差;∑(x,t)E(x,t;θ)為整體數(shù)據(jù)集誤差.因此若是要計算一整條語句的誤差,即需要計算整棵樹所有非終端節(jié)點的誤差累加和:

      E(x,t;θ)=∑s∈T(RAEθ(x))E([c1;c2]s,pst,θ) ,

      式中:s為非終端的三元組表示;T()為遍歷函數(shù).如圖2所示,在計算非終端的三元組誤差時,通過同時考慮交叉熵誤差和重構(gòu)誤差,提升預測結(jié)果精度.三元組s的誤差為:

      E([c1;c2]s,ps,t;θ)=αErec([c1;c2];θ)+(1-α)Ece(ps,t;θ) ,

      通過參數(shù)α調(diào)整重構(gòu)誤差與交叉熵誤差各自的權(quán)重.為了對公式進行優(yōu)化,本文中采用L-BFGS算法快速求出最優(yōu)解,其中,算法所使用的梯度為:

      2 實驗結(jié)果與分析

      表1 實驗結(jié)果分析Tab.1 Experimental results analysis

      表2 封閉測試的實驗結(jié)果Tab.2 Experimental results of closed test

      按照輸入樣本詞向量的類別來分,主要有隨機初始化詞向量、訓練好且在訓練過程中保持不變的詞向量、訓練過程中適當微調(diào)的詞向量三類,對應著卷積神經(jīng)網(wǎng)絡(luò)CNN-rand、CNN-static、CNN-non-static三種調(diào)節(jié)模式,根據(jù)實驗挑選適合的CNN調(diào)節(jié)模式.表1為在訓練集上三種調(diào)節(jié)模式的交叉驗證實驗結(jié)果.

      從表1中可以看出,CNN-non-static 模式相比其他兩類調(diào)節(jié)模式的分類準確率最高,在后續(xù)的實驗中,將統(tǒng)一使用 CNN-non-static 模式進行實驗.

      表2是對不同的神經(jīng)網(wǎng)絡(luò)參數(shù)下情感分類的對比,當Filter 參數(shù)設(shè)置為 [4,5,6] 、Hidden unit 參數(shù)設(shè)置為100時,情感分類準確率可達到0.846.遞歸自編碼模型參數(shù)調(diào)節(jié)中,通過分別設(shè)置詞向量的長度為10,20,…,130,重構(gòu)誤差系數(shù)為0.1,0.2,…,0.5,將二者的所有組合方式測試一遍,找出最優(yōu)的組合,并統(tǒng)計在此數(shù)據(jù)狀態(tài)下的算法準確度(準確度=預測正確條數(shù)/總條數(shù)),結(jié)果如表3所示.

      表3 算法準確度Tab.3 Algorithm accuracy

      從表3 中實驗結(jié)果可得出,當重構(gòu)誤差系數(shù)為0.2時,不同的向量維度,算法準確率都為當前維度下的最優(yōu)值.特別地,當詞向量維度為110時,算法準確率達到最大值0.883.將卷積神經(jīng)網(wǎng)絡(luò)參數(shù)和遞歸自編碼參數(shù)都設(shè)置為當前組合,即Filter = [4,5,6],Hidden unit =100;重構(gòu)誤差系數(shù)0.2,詞向量維度為110.

      通過不斷增加數(shù)據(jù)量,從1萬條語句逐漸增加到4萬條,期望驗證語料庫大小與預測的情感傾向準確性的關(guān)系,同時通過改變中文語句量大小研究與模型訓練時間的關(guān)聯(lián)性.語料庫大小與算法準確度的實驗結(jié)果如圖3所示.

      表4 準確率、召回率和F1值的平均值Tab.4 Accuracy, recall and F1 values

      由圖3中可以看出,在中文語句量為1萬條的時候,組合優(yōu)化算法的準確度已經(jīng)達到約85%.語句量達到4萬條時,具有很高的準確度,算法準確度可達90%.之后再增加語句量,準確度的變化幅度不大.為了驗證所提出的算法的準確性和有效性,使用單一的CNN和RSC情感分析算法作為對比,實驗結(jié)果如表4所示,表4表示測試語料庫中不同的算法所得到的文本情感分析的準確率、召回率和F1值的平均值.

      由表4可見,對于不同的算法類別,本文算法CNN-RSC組合優(yōu)化算法情感分析的準確度比其他兩種算法模型高約15%,且遞歸自編碼算法對文本分析的準確度要高于卷積神經(jīng)網(wǎng)絡(luò)算法.CNN-RSC模型的F1值比RSC高約12%,比CNN高約8%.

      實驗三種算法訓練時間、準確度受語料庫、迭代次數(shù)的影響,實驗結(jié)果如圖5所示.

      從圖5(a)和(b)中可以看出,三種算法模型訓練時間廓形增長均逐漸加快.CNN-RSC算法模型,其訓練時間從5 h左右增長到了30 h,擴大了6倍,說明當數(shù)據(jù)量過大時,深度學習訓練很耗時,要想獲得較好的算法效果,更需要較長的訓練時間.由圖5(c)可以看出,不同的算法其迭代次數(shù)與分類準確率關(guān)系具有相似的廓形.在最初的迭代過程中,隨著迭代次數(shù)的增加,分類準確率都呈現(xiàn)不同程度的增加.然后,繼續(xù)增加迭代次數(shù),反而引起準確率的下降.當?shù)螖?shù)增加到6次的時候,準確率基本不變,保持平穩(wěn).由圖5(d)中可以看出,隨著中文語句量的不斷增加,三種模型算法的準確度廓形也呈遞增的趨勢.在語句量條數(shù)較少的時候,CNN-RSC準確率達到68%, 高于CNN和RSC.當語料庫包含的語句從0.6萬條擴張到4萬條時,CNN和RSC算法的精度變化不大(最高約8.0%),但是CNN-RSC算法的精度增加了約15.5%,說明使用組合優(yōu)化深度學習算法其數(shù)據(jù)挖掘能力得到了提高,對語料庫的學習能力增強.

      3 結(jié)束語

      本文首先系統(tǒng)地研究了目前國內(nèi)外關(guān)于文本情感分析的各類方面,并針對傳統(tǒng)的情感分析方法中存在的不足,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和遞歸自編碼模型的組合優(yōu)化算法,該組合優(yōu)化算法在文本情感分析的過程中,將預訓練或者隨機的詞向量作為CNN的輸入,CNN池化層的輸出為樣本的分布式特征,該分布式特征可作為遞歸自編碼模型中的特征輸入,進而對文本的情感進行分類.這樣的模型有效地將CNN和遞歸自編碼的優(yōu)點結(jié)合在一起.在NLPCC-SCDL評測數(shù)據(jù)集上進行訓練和測試,實驗結(jié)果表明提出的組合優(yōu)化算法在對文本情感特征的自動學習上有著不錯的效果,模型的訓練速度也大大地提高,在對文本情感問題的準確度和訓練時間以及分類性能上均優(yōu)于其他兩種算法.

      猜你喜歡
      準確度準確率向量
      向量的分解
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
      聚焦“向量與三角”創(chuàng)新題
      幕墻用掛件安裝準確度控制技術(shù)
      建筑科技(2018年6期)2018-08-30 03:40:54
      高速公路車牌識別標識站準確率驗證法
      動態(tài)汽車衡準確度等級的現(xiàn)實意義
      向量垂直在解析幾何中的應用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      建湖县| 舟山市| 武威市| 确山县| 南阳市| 吴堡县| 湛江市| 花垣县| 威海市| 沧州市| 丰台区| 吐鲁番市| 许昌县| 准格尔旗| 阿坝| 开原市| 永仁县| 肇州县| 九江市| 搜索| 新干县| 股票| 娄底市| 长岭县| 分宜县| 卓尼县| 长寿区| 定南县| 公安县| 东源县| 大埔县| 罗山县| 鹤山市| 藁城市| 永登县| 宁夏| 亳州市| 柳河县| 平凉市| 郓城县| 饶平县|