• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于CSLSTM網(wǎng)絡(luò)的文本情感分類①

      2018-03-02 06:16:23莊麗榕葉東毅
      計算機系統(tǒng)應(yīng)用 2018年2期
      關(guān)鍵詞:層級語義向量

      莊麗榕,葉東毅

      (福州大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,福州 350108)

      1 引言

      情感分類旨在發(fā)現(xiàn)主觀性文檔中表達的態(tài)度和情感的傾向性.隨著信息技術(shù)飛速發(fā)展,尤其是微博、微信等新社交網(wǎng)絡(luò)的興起,用戶可以更加方便、及時的進行信息交流和意見表達.大量網(wǎng)絡(luò)用戶每天都會發(fā)布并傳播高達上億條的信息,這些海量的文本信息表達了用戶觀點傾向和情感信息.為了更好挖掘人們對評論事物的情感傾向,需要對這些評論信息進行情感分類,根據(jù)分類的結(jié)果制定相應(yīng)的策略,因此文本情感分類具有廣泛的實用價值[1,2].

      由于文本情感分類的多領(lǐng)域融合性以及情感信息的價值可挖掘性,國內(nèi)外學(xué)者在相關(guān)領(lǐng)域做了許多研究,并取得諸多成果,大致分為基于傳統(tǒng)的機器學(xué)習(xí)和深度學(xué)習(xí)兩個方向.

      傳統(tǒng)的機器學(xué)習(xí)方法,通過人工設(shè)計特征,將自然語言文本轉(zhuǎn)化為結(jié)構(gòu)化的特征向量提取情感特征,并構(gòu)造情感分類器,將待分類的文本通過分類器進行情感傾向性分類.Pang[3]最早將機器學(xué)習(xí)方法應(yīng)用到文本情感分類中,把n-gram和詞性進行組合作為情感特征,之后分別采用樸素貝葉斯、最大熵和支持向量機(Support Vector Machine,SVM)分類器對電影評論進行情感分類.為了提高文本情感分類的精度,Kim[4]除了考察傳統(tǒng)的n-gram模型外,還引入了位置特征和評價詞特征來完成文本的情感分類.徐軍等人[5]選擇具有語義傾向的詞語作為特征項,實驗發(fā)現(xiàn)具有正負面情感的詞語對情感分類起到?jīng)Q定性作用,選擇這些詞語作為特征可以提高文本情感分類的精度.李素科等[6]針對監(jiān)督學(xué)習(xí)分類中標注工作需要大量的人工勞動力,提出了一種基于特征聚類的半監(jiān)督式情感分類方法,該方法提高了情感分類的性能,同時只需要對少量訓(xùn)練數(shù)據(jù)實例進行情感類別標注.

      傳統(tǒng)機器學(xué)習(xí)屬于淺層模型,淺層模型的一個主要局限性就是需要依賴人工經(jīng)驗抽取樣本特征,而這些特征的設(shè)計都需要專家的領(lǐng)域知識,耗費大量的人工成本,系統(tǒng)遷移性差.深度學(xué)習(xí)通過學(xué)習(xí)一種深層的非線性的網(wǎng)絡(luò)結(jié)構(gòu)來彌補這一約束,能夠?qū)崿F(xiàn)復(fù)雜函數(shù)的逼近,從樣本集中抓取到數(shù)據(jù)的本質(zhì)特征[7-10].因此,采用深度學(xué)習(xí)方法成為近幾年自然語言處理領(lǐng)域內(nèi)的研究熱點.

      考慮到文本中詞之間的時序信息和RNN循環(huán)神經(jīng)網(wǎng)絡(luò)[11](Recurrent Neural Network,RNN)處理長文本任務(wù)會出現(xiàn)長期依賴的問題,Tai[12]和Tang[13]等使用擁有門機制的長短期記憶模型(Long-Short Term Memory,LSTM)[14]進行文本情感分類,首先獲取句子級的文本表示,然后利用句子級表示獲得更高級的語義表示作為文本的特征,提高了文本情感分類的精度.但由于大多數(shù)產(chǎn)品評論的情感分類將關(guān)注點更多放在文本內(nèi)容上,忽略了用戶和產(chǎn)品本身特點對情感分類的影響.考慮到用戶信息和產(chǎn)品信息對情感分類的重要性,Tang[15]嘗試將二者的信息和神經(jīng)網(wǎng)絡(luò)結(jié)合起來,在輸入層將詞向量、用戶向量和產(chǎn)品向量結(jié)合起來,然后利用CNN進行建模,通過softmax分類.但這個模型仍存在一定問題,首先,在輸入層將用戶向量和產(chǎn)品向量結(jié)合在一起導(dǎo)致模型的計算量較大;其次,只有詞層級引入用戶信息和產(chǎn)品信息,不夠充分.于是,Chen[16]提出了層級LSTM網(wǎng)絡(luò),通過注意力機制在不同語義級別中引入用戶和產(chǎn)品信息,降低了模型的計算量并且充分引入用戶信息和產(chǎn)品信息,提高了情感分類的準確度.但Chen在引入注意力機制時,采取隨機初始權(quán)重矩陣,忽視了詞向量與句向量間的語義關(guān)系.對此,本文提出了CSLSTM網(wǎng)絡(luò)(Cosine Similarity Long Short-Term Memory),通過在不同層級中引入用戶信息和產(chǎn)品信息的注意力機制,并根據(jù)詞向量和句向量的相似度初始化詞層級注意力矩陣中隱層節(jié)點的權(quán)重.實驗結(jié)果表明,本文所提出的CSLSTM網(wǎng)絡(luò)具有較好的分類效果.

      2 CSLSTM網(wǎng)絡(luò)的文本情感分類

      本文所提出的CSLSTM網(wǎng)絡(luò)情感分類主要分為以下幾個部分:首先對文本分類中的一些符號進行定義;接著通過層級的LSTM獲得文本的語義表示;之后通過注意力機制在不同語義層級引入用戶信息和產(chǎn)品信息;然后根據(jù)詞向量與句向量的語義關(guān)系對隱層節(jié)點初始權(quán)重進行賦值;最后將獲得語義作為文本特征進行情感分類.

      2.1 符號定義

      為了方便研究,對本文中所用到的一些符號進行定義.假設(shè)用戶關(guān)于產(chǎn)品發(fā)表了評論d,且文本d包含n個句子,則文本d表示如下:

      其中,si表示評論文本d中的第i個句子.

      假設(shè)某個句子si包含m個詞,則句子si表示如下:

      2.2 情感分類模型

      本文首先對句子進行建模,得到句子的語義表示,再利用句子對文本進行建模.考慮到文本中詞之間的時序信息和長文本存在長期依賴問題,本文在詞層級選擇LSTM網(wǎng)絡(luò)對句子進行建模.同樣,在句子層級也選擇LSTM網(wǎng)絡(luò)對文本進行建模.在詞層級的建模過程中,首先將詞映射到低維語義空間,獲取詞向量,之后在每個時刻,給定一個輸入,得到當前網(wǎng)絡(luò)中的細胞狀態(tài)和隱層狀態(tài),其中的狀態(tài)更新方式如下:

      其中,σ為sigmoid函數(shù);in,f,o和c分別為輸入門、忘記門、輸出門和細胞狀態(tài);表示點乘操作;Winh,表示權(quán)重矩陣,H為隱層維數(shù),ID為輸入層維數(shù);bin,bf,bo為偏置因子.其中,權(quán)重矩陣和偏置因子需要訓(xùn)練,最后將得到的隱層狀態(tài)輸入均值池化層獲得句子語義表示si.

      在句子層級對文本進行建模時采用與詞層級的方法相同,將si輸入LSTM網(wǎng)絡(luò)中獲得文本語義表示d.

      2.3 用戶和產(chǎn)品注意力機制

      本文采用在不同語義層級通過注意力機制引入用戶信息和產(chǎn)品信息,以獲取不同層級中對情感分類有重要影響的信息.首先在詞層級引入用戶信息和產(chǎn)品信息得到句子層級的語義表示,然后在句子層級引入用戶信息和產(chǎn)品信息得到文本的語義表示.

      對于同一用戶或是同一個產(chǎn)品的評論文本中,每個詞對于所在句子中的貢獻程度是不同的,故采用均值池化層進行權(quán)重分配會損失重要詞匯對語義表示的貢獻率.為了解決這個問題,本文在詞層級采用注意力機制抽取對句子語義表示具有重要貢獻的詞,提高語義表示的有效性.引入用戶信息和產(chǎn)品信息的注意力機制計算如下:

      其中,u∈Rdu表示用戶向量,p∈Rdp表示產(chǎn)品向量,du、dp分別表示用戶向量和產(chǎn)品向量的維數(shù),為評價函數(shù),其計算方法如下:

      其中,WH、WU、WP為權(quán)重矩陣,vαT為權(quán)重向量vα的轉(zhuǎn)置,前面所述的權(quán)重矩陣和權(quán)重向量一般采用隨機初始賦值,但考慮到詞向量和句向量之間語義關(guān)系,本文將根據(jù)二者之間的相似度對WH進行初始賦值,具體方法見2.4節(jié).

      評價函數(shù)將隱層狀態(tài)、用戶向量和產(chǎn)品向量結(jié)合起來,其中用戶向量和產(chǎn)品向量作為模型參數(shù)一起訓(xùn)練,得到句子的語義表示si.同樣,在句子層級也采用通過注意力機制引入用戶信息和產(chǎn)品信息來抽取對文本語義表示有重要貢獻的句子:

      2.4 注意力權(quán)重矩陣初始化策略

      注意力權(quán)重矩陣一般簡單采用隨機初始賦值,忽略掉了詞向量和句向量之間的語義關(guān)系.對此,本文采用根據(jù)二者之間的相似度對權(quán)重矩陣中的WH進行初始化.此處所指的句向量與句子的語義表示si不同,是由句子中所有的詞向量求平均值得到的向量表示:

      采用余弦相似度衡量詞向量和句向量二者之間的相似度:

      最后,將相似度進行歸一化,得到權(quán)重WH初始值:

      2.5 情感分類

      將獲得的文本語義表示d進一步抽象以挖掘更深層次的語義,在LSTM層后設(shè)置一個全連接層,將d映射到C類別空間,得到定長向量,具體計算如下:

      其中,Wc為全連接層的權(quán)重矩陣,b為偏置因子.

      為了得到情感類別估計值,本文采用softmax函數(shù)進行情感分類,獲得文本的情感分布:

      其中,C情表示情感類別數(shù)目,pc表示預(yù)測文本d屬于類別c的概率,之后將d歸類到概率最大的那個類別中.

      本文采用交叉熵損失(Categorical Cross-Entropy Loss)作為損失函數(shù),模型的訓(xùn)練目標是最小化真實類別與預(yù)測類別間的交叉熵損失,其中交叉熵損失函數(shù)表示如下:

      其中,D表示整個訓(xùn)練集,表示文本d的真實類別是否為c,即當d的真實類別為c時,,否則.

      3 情感分類實驗

      為了驗證本文所提出方法的有效性,本文利用Tang15提供的評論文本數(shù)據(jù)進行文本情感分類實驗.

      3.1 實驗數(shù)據(jù)集

      本文采用Yelp13、Yelp14和IMDB三個數(shù)據(jù)集,三個數(shù)據(jù)集中已包含了用戶信息和產(chǎn)品信息.表1為三個數(shù)據(jù)集的信息摘要.實驗中,將每個數(shù)據(jù)集按8:1:1的比例分配訓(xùn)練集、驗證集和測試集.

      表1 數(shù)據(jù)集分布情況

      Yelp 2013和Yelp 2014分別為Yelp數(shù)據(jù)庫2013和2014的評論,兩者的評級范圍從1顆星到5顆星,星數(shù)越高代表用戶對產(chǎn)品的越滿意.

      IMDB是由84919條IMDB電影網(wǎng)站上的評論組成的數(shù)據(jù)集,它的評分范圍從1分到10分(只能選擇整數(shù)分值),分數(shù)越高代表用戶對電影的滿意程度越就越高.

      3.2 評價指標

      本文采用正確率和均方根誤差作為評價標準,其中正確率衡量整體情感分類性能,均方根誤差反映預(yù)測情感類別(評分等級)和真實情感類別(評分等級)的偏離程度.兩種評價標準的公式如下:

      其中,T為正確分類的文本數(shù),N為整個數(shù)據(jù)集的文本數(shù);gri和pri分別為真實情感類別(評分等級)和預(yù)測的情感類別(評分等級).

      3.3 實驗設(shè)置

      本文采用SkipGram算法生成詞向量,并設(shè)置詞向量的維度為200,其它參數(shù)均采用默認值.同時將用戶向量和產(chǎn)品向量初始化為隨機向量,維度設(shè)置為200維.LSTM網(wǎng)絡(luò)中隱藏節(jié)點數(shù)和細胞狀態(tài)數(shù)也設(shè)置為200,并采用AdaDelta進行參數(shù)優(yōu)化.

      3.4 基準實驗

      為了驗證本文所提方法的有效性,本文選擇以下算法進行對比,以下算法大致可以分為兩類:不考慮用戶、產(chǎn)品信息和考慮用戶、產(chǎn)品信息,其中不考慮用戶、產(chǎn)品信息的算法如下:

      1)CBOW:對所有詞向量進行求和后輸入Softmax進行分類.

      2)Majority:采用多種情感策略的啟發(fā)式算法.

      3)Trigram:分別采用Unigram、Bigram、Trigram訓(xùn)練支持向量機(SVM).

      4)TextFeature:抽取語義特征和情感特征采用支持向量機進行訓(xùn)練.

      5)AvgWordvec:對所有詞向量求平均值作為文本向量表示,采用支持向量機進行訓(xùn)練.

      6)SSWE:生成情感詞向量后利用支持向量機進行訓(xùn)練.

      7)LSTM:生成詞向量輸入LSTM網(wǎng)絡(luò)進行訓(xùn)練.

      8)RNTN+RNN:經(jīng)過RNTN網(wǎng)絡(luò)得到句子語義表示,之后輸入RNN網(wǎng)絡(luò)得到文本語義表示.

      9)B-CLSTM:基于B-LSTM網(wǎng)絡(luò)添加緩存機制,并將記憶元分為多組,對不同組采用不同的遺忘率.

      其中考慮用戶信息和產(chǎn)品信息的實驗如下:

      10)Trigram +UPF:在算法3)的基礎(chǔ)上添加用戶信息和產(chǎn)品信息.

      11)TextFeature++UPF:在算法4)的基礎(chǔ)上添加用戶信息和產(chǎn)品信息.

      12)JMARS:基于協(xié)同過濾和主題模型引入用戶信息和產(chǎn)品信息.

      13)UPNN:在輸入層引入用戶信息和產(chǎn)品信息,并采用CNN網(wǎng)絡(luò)進行訓(xùn)練.

      14)NSC+UPA:在不同層級通過注意力機制引入了用戶信息和產(chǎn)品信息.

      本實驗所采用的數(shù)據(jù)集與文獻[15-17]的數(shù)據(jù)集相同,因此算法1)-13)直接使用文獻[15-17]中的結(jié)果數(shù)據(jù),其中算法14)使用作者提供代碼進行實驗.實驗結(jié)果如表2所示.

      表2 實驗結(jié)果對比

      3.5 結(jié)果比較

      對比CSLSTM和算法1)-9),可以發(fā)現(xiàn)考慮用戶信息和產(chǎn)品信息可以提高文本情感分類的精度.其中,對比CSLSTM與算法1)可見,添加用戶信息和產(chǎn)品信息的CSLSTM在三個數(shù)據(jù)集上的正確率都得到了10%以上的提高;對比CSLSTM與算法7),兩者同樣采用LSTM網(wǎng)絡(luò)進行文本分類,但本文的CSLSTM在分類中還考慮了用戶信息和產(chǎn)品信息,所以CSLSTM的分類效果相比與算法7)在各個數(shù)據(jù)集上的正確率都提高了10%以上,其中在數(shù)據(jù)集IMDB上的正確率更是得到了13.3%的提高.CSLSTM對比算法3)和10)也可以發(fā)現(xiàn),用戶信息和產(chǎn)品信息在分類中占據(jù)一定作用,在Yelp2013和IMDB數(shù)據(jù)集上添加用戶信息和產(chǎn)品信息提高了情感分類的效果.從CSLSTM和算法13)結(jié)果可以發(fā)現(xiàn),在不同語義層級通過注意力機制引入用戶信息和產(chǎn)品信息的效果好于在輸入層引入用戶信息和產(chǎn)品信息.表明多層級引入用戶信息和產(chǎn)品信息對情感分類具有重要意義.對比CSLSTM和算法14)可以發(fā)現(xiàn),在Yelp13數(shù)據(jù)集中,CSLSTM的準確率和均方根誤差均高于算法14);在Yelp14數(shù)據(jù)集中,CSLSTM的準確率高于算法14);在IMDB數(shù)據(jù)集中,CSLSTM的均方根誤差好于算法14),在三個數(shù)據(jù)集上的結(jié)果說明了考慮詞向量和句向量之間的語義關(guān)系有利于文本情感分類的效果,表明了本文所提出方法的有效性.

      4 結(jié)語

      針對文本情感分類問題,考慮詞向量與句向量之間的語義關(guān)系和用戶、產(chǎn)品對情感分類的影響,本文提出基于CSLSTM網(wǎng)絡(luò)的文本情感分類方法.在不同語義層級引入用戶信息和產(chǎn)品信息的注意力機制,并根據(jù)詞向量和句向量的相似度初始化詞層級注意力矩陣中隱層節(jié)點的權(quán)重.實驗結(jié)果表明,相比多數(shù)基準實驗,本文方法具有較好的分類效果,較好地利用了詞向量與句向量的語義關(guān)系和用戶信息、產(chǎn)品信息.在未來的工作中,將在文本方法上考慮在詞向量中融入更多的情感信息,對詞向量的訓(xùn)練部分進行擴展,比如在word2vec訓(xùn)練詞向量的過程中利用情感詞典刻畫情感詞,生成具有情感信息的詞向量,以提高情感分類的精度.

      1唐慧豐,譚松波,程學(xué)旗.基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究.中文信息學(xué)報,2007,21(6):88-94,108.

      2趙妍妍,秦兵,劉挺.文本情感分析.軟件學(xué)報,2010,21(8):1834-1848.

      3Pang B,Lee L,Vaithyanathan S.Thumbs up?:Sentiment classification using machine learning techniques.Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA,USA.2002.79-86.

      4Kim SM,Hovy E.Automatic identification of pro and con reasons in online reviews.Proceedings of the COLING/ACL on Main Conference,Poster Sessions.Sydney,Australia.2006.483-490.

      5徐軍,丁宇新,王曉龍.使用機器學(xué)習(xí)方法進行新聞的情感自動分類.中文信息學(xué)報,2007,21(6):95-100.

      6李素科,蔣嚴冰.基于情感特征聚類的半監(jiān)督情感分類.計算機研究與發(fā)展,2013,50(12):2570-2577.[doi:10.7544/issn1000-1239.2013.20130878]

      7Hinton GE,Salakhutdinov RR.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504-507.[doi:10.1126/science.1127647]

      8張慶慶,劉西林.基于深度信念網(wǎng)絡(luò)的文本情感分類研究.西北工業(yè)大學(xué)學(xué)報(社會科學(xué)版),2016,36(1):62-66.

      9Bengio Y,Delalleau O.On the expressive power of deep architectures.Proceedings of the 14th International Conference on Discovery Science.Espoo,Finland.2011.18-36.

      10Zhou D,Bousquet O,Lal TN,et al.Learning with local and global consistency.Advances in Neural Information Processing Systems 16.Vancouver,CB,Canada.2003:321-328.

      11?rsoy O,Cardie C.Opinion mining with deep recurrent neural networks.Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.Doha,Qatar.2014.720-728.

      12Tai KS,Socher R,Manning CD.Improved semantic representations from tree-structured long short-term memory networks.Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.Beijing,China.2015.1556-1566.

      13Tang DY,Qin B,Liu T,et al.Document modeling with gated recurrent neural network for sentiment classification.Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Lisbon,Portugal.2015.1422-1432.

      14Hochreiter S,Schmidhuber J.Long short-term memory.Neural Computation,1997,9(8):1735 -1780.[doi:10.1162/neco.1997.9.8.1735]

      15Tang DY,Qin B,Liu T.Learning semantic representations of users and products for document level sentiment classification.Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.Beijing,China.2015.1014-1023.

      16Chen HM,Sun MS,Tu CC,et al.Neural sentiment classification with user and product attention.Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing.Austin,TX,USA.2016.1650-1659.

      17Xu JC,Chen DL,Qiu XP,et al.Cached long short-term memory neural networks for document-level sentiment classification.Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing.Austin,TX,USA.2016.1660-1669.

      猜你喜歡
      層級語義向量
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      軍工企業(yè)不同層級知識管理研究實踐
      基于軍事力量層級劃分的軍力對比評估
      語言與語義
      “上”與“下”語義的不對稱性及其認知闡釋
      向量垂直在解析幾何中的應(yīng)用
      任務(wù)期內(nèi)多層級不完全修復(fù)件的可用度評估
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      認知范疇模糊與語義模糊
      临西县| 双城市| 吴川市| 呼玛县| 玉林市| 麦盖提县| 饶河县| 华蓥市| 临江市| 河津市| 建阳市| 旬邑县| 睢宁县| 宁陵县| 桐庐县| 松阳县| 米脂县| 青田县| 武山县| 扎鲁特旗| 澄江县| 大荔县| 肃南| 晋州市| 鸡泽县| 岢岚县| 咸阳市| 萨嘎县| 资阳市| 四会市| 永顺县| 夏邑县| 西宁市| 错那县| 河池市| 临桂县| 丰都县| 烟台市| 塔河县| 平和县| 武夷山市|