• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于情感分析的文本檢索系統(tǒng)的研究

      2019-12-23 07:16:37黃麗娟周海
      科技創(chuàng)新與應(yīng)用 2019年36期
      關(guān)鍵詞:情感分析神經(jīng)網(wǎng)絡(luò)

      黃麗娟 周海

      摘? 要:針對目前文本挖掘的情感分析方法的準(zhǔn)確性、實時性、提取等問題,構(gòu)造一種神經(jīng)網(wǎng)絡(luò)混合模式,使用記憶神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)對文本特性的提取,再利用情感分析方法進行挖掘。實驗表明對文本挖掘的準(zhǔn)確性提高了,這種模式在應(yīng)用中有很大的實用性。

      關(guān)鍵詞:情感分析;神經(jīng)網(wǎng)絡(luò);語義特性

      中圖分類號:TP389.1? ? ? ? 文獻標(biāo)志碼:A? ? ? ? ?文章編號:2095-2945(2019)36-0058-02

      Abstract: In order to solve the problems of accuracy, real-time and extraction of emotion analysis methods in text mining, a hybrid model of neural network is constructed, and memory neural network and convolution neural network are used to extract text characteristics. And then use the method of emotional analysis to carry out mining. The experimental results show that the accuracy of text mining is improved, and this pattern is very practical in application.

      Keywords: emotional analysis; neural network; semantic characteristics

      近年來,伴隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,電商平臺上的消費者對商品評論,怎樣對它進行分析和挖掘,并將挖掘出的信息應(yīng)用到銷售,已經(jīng)成為文本的情感分析的研究重點方向。

      情感分析可以從統(tǒng)計學(xué),機器學(xué)和神經(jīng)網(wǎng)絡(luò)三種方法進行情感分析。統(tǒng)計學(xué)通過對短語進行標(biāo)示,再用情感詞庫計算關(guān)鍵字的情感分?jǐn)?shù),然后加起來,得出情感得分。常用的情感詞典有很多,都取得較好的效果,提高了文本情感分析的準(zhǔn)確性,但是,情感詞庫的規(guī)模和文本情感分析的準(zhǔn)確性聯(lián)系密切,使模型的實時性不高。機器學(xué)習(xí)通過構(gòu)建結(jié)構(gòu)化的文本特點,進行情感分析,都取得不錯的效果,但是實時性很差。神經(jīng)網(wǎng)絡(luò)通過詞向量模型將文本轉(zhuǎn)成了實數(shù)向量,然后通過學(xué)習(xí)詞向量特性得到文本的情感分?jǐn)?shù)。單個的神經(jīng)網(wǎng)絡(luò)模型進行文本情感分析都取到很顯著的效果,但都未集中思考文本信息和語義特點對情感分析的作用。這三種情感分析方法各有優(yōu)缺點。統(tǒng)計學(xué)的方法:用情感詞庫統(tǒng)計情感得分,提高了文本的情感分析的準(zhǔn)確性,但情感分析的文本的準(zhǔn)確性和情感詞庫規(guī)模的關(guān)聯(lián)很大,實時性差。機器學(xué)習(xí)的方法:用人工標(biāo)示的方式來構(gòu)建文本特點,能夠提升文本情感分析的準(zhǔn)確性,但需要比較多的人工構(gòu)造特性,實時性差,效率低。神經(jīng)網(wǎng)絡(luò)的方法:在文本詞匯中自動提取語義特性,但是,使用一種神經(jīng)網(wǎng)絡(luò)模型提取特性,只能提取一種信息或特點。綜上所言,據(jù)于現(xiàn)在的文本情感分析方法,很難適應(yīng)互聯(lián)網(wǎng)的大規(guī)模的文本,也不能解決文本信息和語義特性的提取的同時性等問題,提出一種串行的文本情感分析方法,基于卷積神經(jīng)網(wǎng)絡(luò)和長短時記憶神經(jīng)網(wǎng)絡(luò)。(1)需要通過長短時記憶神經(jīng)網(wǎng)絡(luò)提取全部文本特性,兼顧自然語言的前前后后的語義信息。(2)通過卷積神經(jīng)網(wǎng)絡(luò)提取局部文本特點,因此提升文本情感分析的準(zhǔn)確性。

      長短時記憶神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)串行模型分為數(shù)據(jù)處理、文本向量化、提取特性、情感分類。

      數(shù)據(jù)處理主要處理文本里的數(shù)據(jù)去掉符號,留下有價值的文本,使用中文分詞組件進行分割詞語,使用停用詞表把噪聲數(shù)據(jù)去除,把文本數(shù)據(jù)里的標(biāo)簽轉(zhuǎn)化為數(shù)字,1表示為正面情感,0表示為負(fù)面情感。因為所有的這些評論的內(nèi)容文本都是由不一樣的用戶抒發(fā)而寫出來的,很自由的形式,千變?nèi)f化,語法格式不同,模式不同,并且評論的文本既包含有語義信息,又包括有其他的噪聲的大量數(shù)據(jù)。為了讓噪聲數(shù)據(jù)對文本情感分析的影響不大,需要進行以上的預(yù)處理的操作。

      文本向量化可以采用詞向量組件Wdord2Vec的詞袋模型或者是跳字模型,經(jīng)過多次訓(xùn)練,選出效果顯著的模型,通過比較分析,本次工作選用Word2Vec的跳字模型進行文本向量化,預(yù)測效果比較好,模型泛化能力比較強。由于大量的評論是由用戶自由地有感而發(fā)出來的,沒有統(tǒng)一結(jié)構(gòu)的語法和模式結(jié)構(gòu),都是一些非結(jié)構(gòu)化的特性,所以不能使用現(xiàn)有的模型(統(tǒng)計模型和數(shù)字模型)來進行數(shù)據(jù)分析與處理。

      假設(shè)評價文本M={M(1),M(2),M(3),…,M(n)},以第j個詞語為中心詞語進行操作詞匯文本向量化,寫為(V(M(j),Context((M(j))),以上的其中V(M(j)為評價文本M中心詞M(j)的詞向量,Context(M(j))為w(j)的評價上下文詞向量。使用Skip-gram模型的鍵入、投映和輸出三層結(jié)構(gòu)來進行詞匯文本向量化轉(zhuǎn)化,評價文本M的第j個詞M(j)為中心詞,輸入層作為中心詞M(j)的第一個詞向量V(M(j)),經(jīng)過從輸入層然后到投影層都是恒等投影,即用V(M(j)投影到V((j));投影層再到輸出層。然后根據(jù)以下公式計算M(j)的全部文本詞匯向量。

      P(V(M(i)) I V (M(t)))

      其中:V(M(i)) ε Context(M) ; t為中心詞號碼;i為中心詞上下文詞匯和中心詞的范圍。從第一個根節(jié)點開始,投影層的值沿著霍夫曼編碼樹進行邏輯回歸進行分類,輸出M(j)的周圍第2n個全部上下文詞匯文本的詞向量。例如,如果n取4,那中心詞w(t)的前面兩個詞為M(j-4)},M(j-3),后兩個詞為M(j+3),M(j+4),它們對應(yīng)的詞向量為V(M(j-4)),V(M(j-3)),V(M(j+3)),V(M(j+4)),也就是Context(M)={V(w)={V(M(j-4)),V(M(j-3)),V(M(j+3)),V(M(j+4))}。

      提取文本信息采用長短時記憶網(wǎng)絡(luò)能夠?qū)ξ谋菊Z義信息的挖掘,能夠準(zhǔn)確挖掘文本語義。所有用戶書寫的評論是一種自然語言的表現(xiàn)方式,是自由的形式,但結(jié)構(gòu)在全文中會有依賴關(guān)系。根據(jù)文本的上下文信息,理解文本語義更加準(zhǔn)確。典型的神經(jīng)網(wǎng)絡(luò)能挖掘出文本的上下文語義信息和時序信息。長短時記憶神經(jīng)網(wǎng)絡(luò)模型的門的計算如下式:

      ft=σ(Wf·[ht-1,xt]+bf)

      it=σ(Wi·[ht-1,xt]+bi)

      Ot=σ(Wo·[ht-1,xt]+bo)

      Ct=tanh(Wc·【ht-1,xt】+bc)

      其中:Wf表示連接遺忘的權(quán)重矩陣;Wo表示連接輸出門的權(quán)重矩陣;Wi表示連接輸入門的權(quán)重矩陣;bf表示輸遺忘門的偏移值;bo表示輸出門的偏移值;bi表示連接入門的偏移值;×表示兩個矩陣元素的相乘。

      雖然長短時記憶神經(jīng)網(wǎng)絡(luò)解決了長期依賴和梯度消失問題,但是長短時記憶神經(jīng)網(wǎng)絡(luò)只能訓(xùn)練文本的上文數(shù)據(jù),而不能文本的下文數(shù)據(jù)信息。因為一個詞的語義既和文本的上文數(shù)據(jù)信息有關(guān),還和文本的下文數(shù)據(jù)信息密切聯(lián)系,所以利用雙向循環(huán)長短時記憶神經(jīng)網(wǎng)絡(luò)代替長短時記憶神經(jīng)網(wǎng)絡(luò),整合下文信息。雙向循環(huán)長短時記憶神經(jīng)網(wǎng)絡(luò)模型是由兩個長短時記憶神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)通過上下疊加整合構(gòu)成。在雙向循環(huán)長短時記憶神經(jīng)網(wǎng)絡(luò)模型中,每一個時間點都會同時存在方向不同的兩個長短時記憶神經(jīng)網(wǎng)絡(luò)中的門。其中,ht表示t時刻的長短時記憶神經(jīng)網(wǎng)絡(luò)的正向輸出;hv表示t時刻的長短時記憶神經(jīng)網(wǎng)絡(luò)的反向輸出;ht表示t時刻的雙向循環(huán)長短時記憶神經(jīng)網(wǎng)絡(luò)的輸出。Xt表示t時刻的輸入。雙向循環(huán)長短時記憶神經(jīng)網(wǎng)絡(luò)模型中每一個時刻狀態(tài)計算如下式所示。

      Ht=LSTM(xt,ht-1)

      Hv=LSTM(xt,ht-1)

      Ht=Mtht+vthv+bt

      其中,Mt表示正方向輸出的權(quán)重矩陣;Vt表示反方向輸出的權(quán)重矩陣;bt表示t時刻的偏移量?;陔p向循環(huán)長短時記憶神經(jīng)網(wǎng)絡(luò)的語言模型結(jié)構(gòu),其中,V(M(i))表示第i個評價文本詞匯的詞向量,1<_i<_n。假設(shè)評價文本W(wǎng)={M(1),M(2),M(3),…,M(n)},首先將評價文本M中的詞(i)使用詞向量組件Word2Vec轉(zhuǎn)化為對應(yīng)的詞向量V(M(i)),并將詞M(i)組成的文本句子映射成為文本句子矩陣Sij,其中Sij={V M(1),VM(2),VM(3),…,V(M(i))},1

      提取局部語義特性采用卷積神經(jīng)網(wǎng)絡(luò)進行提取文本的局部語義特性。提取文本情感特性流程包括輸入層和嵌入層,輸入層主要將處理好的預(yù)處理的評論文本進行向量化的轉(zhuǎn)化。嵌入層主要是將詞向量進行拼合連接,生成向量的矩陣。然后用濾波器提取局部語義特性,再對不同的卷積提取的語義特性進行集中提取,再進行連接。然后通過輸出層的函數(shù)方法softmax進行計算每個類別的概率來進行文本情感的分類。分類公式如下所示。

      yi=soft max (Midijt+bi)

      其中:Mi表示Dense_RANK到輸出層的權(quán)重矩陣;bi表示相應(yīng)的偏移值;dijt表示在t時刻Dense_RANK的輸出向量。

      通過這種模型的分析,結(jié)果顯示出采用長短時記憶神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)串行模型首先提取全部文本特性再提取局部文本特性,再進行文本性感分析全部和局部特點,得出較理想的結(jié)果。

      參考文獻:

      [1]聶瓊.淺談遺傳算法與人工神經(jīng)網(wǎng)絡(luò)的結(jié)合[J].輕紡工業(yè)與技術(shù),2012,41(06):35-37.

      [2]曾瑜民.探討神經(jīng)網(wǎng)絡(luò)算法在人工智能識別中的應(yīng)用[J].信息通信,2019(07):104-105.

      [3]趙宏,王樂,王偉杰.基于BiLSTM_CNN串行混合模型的文本情感分析[J].計算機應(yīng)用,2019:1-9.

      猜你喜歡
      情感分析神經(jīng)網(wǎng)絡(luò)
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
      基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
      基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
      基于詞典與機器學(xué)習(xí)的中文微博情感分析
      在線評論情感屬性的動態(tài)變化
      預(yù)測(2016年5期)2016-12-26 17:16:57
      文本觀點挖掘和情感分析的研究
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      罗江县| 渝北区| 明星| 荆州市| 老河口市| 金寨县| 固原市| 金塔县| 黄冈市| 新蔡县| 阜平县| 峡江县| 万源市| 明星| 遂平县| 竹北市| 响水县| 阳谷县| 汝阳县| 洪湖市| 寻甸| 翼城县| 宁安市| 遂平县| 平山县| 饶阳县| 博乐市| 措勤县| 太白县| 吉隆县| 湄潭县| 梧州市| 武陟县| 东辽县| 宁夏| 金门县| 繁峙县| 张北县| 新平| 镶黄旗| 连平县|