• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于情感詞典與機(jī)器學(xué)習(xí)的文本情感極性分析

      2018-10-20 18:11王思凡
      數(shù)碼設(shè)計(jì) 2018年12期
      關(guān)鍵詞:文本挖掘程度

      王思凡

      摘要:“情感極性分析”是對(duì)帶有感情色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程,是文本情感分析的一個(gè)分類。目前廣泛用于產(chǎn)品評(píng)估、輿情預(yù)控與信息分析。本文將分別采用兩種目前常見的情感極性分析方法,即情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法進(jìn)行情感分析實(shí)驗(yàn)。

      關(guān)鍵詞:文本挖掘;情感字典;程度;極性分析

      中圖分類號(hào):TP391.1;TP181

      文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1672 - 9129(2018)12 - 0113 - 01

      1 情感極性分析法

      1.1 原理。

      基于情感詞典的情感分析應(yīng)該是最簡單最基本的情感極性分析方法。其主要判斷思路是:對(duì)文檔分詞,找出文檔中的情感詞、否定詞以及程度副詞。其中,找出否定詞是因?yàn)槠鋾?huì)將評(píng)價(jià)的情感轉(zhuǎn)向相反的方向。

      因此,在找出情感詞之后,要判斷情感詞之前是否有否定詞及程度副詞,將它之前的否定詞或程度副詞劃分為一個(gè)組,如果有否定詞將情感詞的情感權(quán)值乘以-1,如果有程度副詞就乘以程度副詞的程度值,最后所有組的得分加起來,大于O的歸于正向,小于0的歸于負(fù)向。在實(shí)驗(yàn)中,我們使用的是BosonNLP的情感詞典。BosonNLP是基于微博、新聞、論壇等數(shù)據(jù)來源構(gòu)建的情感詞典,其在處理以上來源的評(píng)價(jià)時(shí)比較準(zhǔn)確。對(duì)否定詞的判斷我們使用了傳統(tǒng)模型中提供的情感極性詞典下載包,對(duì)于程度副詞我們使用了《知網(wǎng)》情感分析用詞語集(heta版)。詞典內(nèi)數(shù)據(jù)格式可參考如下格式,即共兩列,第一列為程度副詞,第二列是程度數(shù)值,>1表示強(qiáng)化情感,<1表示弱化情感。

      1.2 實(shí)現(xiàn)過程。

      1)文本預(yù)處理,我們使用“結(jié)巴中文分詞”作為分詞工具,分詞并去除停用詞;

      2)將分詞結(jié)果轉(zhuǎn)為字典,key為單詞,value為單詞在分詞結(jié)果中的索引,如果把單詞作為key的話假如一個(gè)情感詞在文中出現(xiàn)了多次,只記錄這個(gè)詞最后一次出現(xiàn)的位置;

      3)對(duì)分詞結(jié)果分類,找出情感詞、否定詞和程度副詞;

      4)計(jì)算得分。設(shè)置初始權(quán)重W為l,從第一個(gè)情感詞開始,用權(quán)重W*該情感詞的情感值作為得分(用score記錄),然后判斷與下一個(gè)情感詞之間是否有程度副詞及否定詞,如果有程度副詞,此時(shí)的W作為遍歷下一個(gè)情感詞的權(quán)重值,循環(huán)直到遍歷完所有的情感詞,每次遍歷過程中的得分sCore加起來的總和就是這篇文檔的情感得分。

      5)返回結(jié)果。

      1.2 運(yùn)行結(jié)果

      1.3 存在問題。

      簡單使用情感詞典將常用詞打上了唯一分?jǐn)?shù)的辦法存在許多不足之處:

      1)不帶情感色彩的停用詞會(huì)影響文本情感打分。

      2)文本中一些詞性的多變成為了影響模型準(zhǔn)確度的重要原因。

      一種情況是同一個(gè)詞在不同的語境下可以是代表完全相反的情感意義; 3)另外,同一個(gè)詞可作多種詞性,那么情感分?jǐn)?shù)也不應(yīng)相同,例如:“這部電影真垃圾”與“垃圾分類”,在第一句中垃圾表現(xiàn)強(qiáng)烈的貶義,而在第二句中表示中性,單一評(píng)分對(duì)于這類問題的分類難免有失偏頗。

      2 改進(jìn)——機(jī)器學(xué)習(xí)方法

      2.1 原理。

      主要通過輸入大量句子以及這些句子的情感標(biāo)簽,訓(xùn)練一個(gè)句子情感分類器,進(jìn)而預(yù)測(cè)新的句子的情感。

      機(jī)器學(xué)習(xí)方法的優(yōu)點(diǎn)包括:機(jī)器學(xué)習(xí)對(duì)情感分析會(huì)更為精準(zhǔn),深度神經(jīng)網(wǎng)絡(luò)可以很好的分辨出一些反諷語氣的句子。機(jī)器學(xué)習(xí)的前饋過程接受固定大小的輸入,比如二進(jìn)制數(shù);遞歸網(wǎng)絡(luò)可以接受序列數(shù)據(jù),比如文本。

      2.2 實(shí)現(xiàn)方法。

      1)導(dǎo)入庫:tflearn是一個(gè)深度學(xué)習(xí)庫,他基于TensorFlow,并且提供了更高級(jí)的API。

      2)數(shù)據(jù)導(dǎo)入:選擇pkl形式的數(shù)據(jù)進(jìn)行導(dǎo)人(pkl:字節(jié)流形式數(shù)據(jù),更容易轉(zhuǎn)換為其他python對(duì)象),取10000單詞,10%的的數(shù)據(jù)作為驗(yàn)證集。將數(shù)據(jù)劃分為評(píng)論集和標(biāo)簽集。

      3)數(shù)據(jù)處理:由于不能直接將文本數(shù)據(jù)中的字符串輸入神經(jīng)網(wǎng)絡(luò),必須先進(jìn)行向量化。將數(shù)據(jù)轉(zhuǎn)為向量表示。

      4)利用pad_sequences把輸入轉(zhuǎn)換為矩陣的形式,并且對(duì)矩陣進(jìn)行擴(kuò)充。矩陣的擴(kuò)充是為了保持輸入維數(shù)的一致性。

      5)修改參數(shù)標(biāo)明輸入的數(shù)列擴(kuò)充到100的長度,擴(kuò)充的部分?jǐn)?shù)值為0。把評(píng)論集轉(zhuǎn)為二進(jìn)制向量(表示評(píng)價(jià)是積極或消極)

      2.3 構(gòu)造網(wǎng)絡(luò)。

      1)定義輸入層,輸人數(shù)據(jù)長度為100

      2)定義嵌入層,第一個(gè)參數(shù)是這一層接受的向量,即上一層輸出的向量,共導(dǎo)入10000個(gè)單詞,輸出維度定義為128

      3)定義LSTM( Long short term memory)層,使我們的網(wǎng)絡(luò)能夠記住序列一開始的數(shù)據(jù),將把dropout設(shè)置為0.08,這是一種防止過擬合的技術(shù)。

      4)定義全連接網(wǎng)絡(luò)層,激活函數(shù)使用softmax。

      5)對(duì)于輸入做回歸操作,定義優(yōu)化方法,與學(xué)習(xí)率,還有損失值計(jì)算方法

      2.4 訓(xùn)練網(wǎng)絡(luò)。

      (1)初始化神經(jīng)網(wǎng)絡(luò)

      (2)訓(xùn)練神經(jīng)網(wǎng)絡(luò),輸入訓(xùn)練集與驗(yàn)證集,show_metric= True可以輸出訓(xùn)練日志

      2.2 運(yùn)行結(jié)果。在本次實(shí)驗(yàn)中,我們?cè)敿?xì)研究了在文本挖掘中基于情感詞典與機(jī)器學(xué)習(xí)的情感分析技術(shù)與主流算法,并對(duì)這些算法的實(shí)現(xiàn)進(jìn)行了實(shí)驗(yàn)和總結(jié)。我們使用機(jī)器學(xué)習(xí)的方法將文本中輸入的大量句子添加句子的情感標(biāo)簽,使用gpu建立出了一個(gè)句子情感分類器,進(jìn)而預(yù)測(cè)新的句子的情感。在這個(gè)過程中,我們明白了,在對(duì)文本挖掘的研究的道路上絕對(duì)不能單純只學(xué)習(xí)理論和借鑒別人的成果,還要自己思考,從多方面分析當(dāng)下模型,并對(duì)當(dāng)下的已有模型進(jìn)行創(chuàng)新。

      猜你喜歡
      文本挖掘程度
      男女身高受歡迎程度表
      漢泰程度副詞對(duì)比研究
      數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
      基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
      文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
      從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢(shì)
      慧眼識(shí)璞玉,妙手煉渾金
      文本觀點(diǎn)挖掘和情感分析的研究
      縫補(bǔ)Boro items
      Panda Priorities
      英德市| 民丰县| 漳浦县| 金秀| 原阳县| 苍溪县| 章丘市| 五峰| 闻喜县| 秦安县| 呼和浩特市| 信宜市| 台山市| 象山县| 祁连县| 衡水市| 边坝县| 沁源县| 平武县| 巴彦淖尔市| 都昌县| 交口县| 蚌埠市| 徐水县| 尉犁县| 漯河市| 武川县| 新余市| 小金县| 尖扎县| 板桥市| 宁河县| 邵阳县| 苏尼特右旗| 平阳县| 滦平县| 通许县| 汝州市| 鞍山市| 临泉县| 登封市|