• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析

      2016-12-26 21:36:42劉開元
      電子技術(shù)與軟件工程 2016年22期
      關(guān)鍵詞:情感分析機(jī)器學(xué)習(xí)詞典

      劉開元

      摘 要

      目前,社會(huì)正處于一個(gè)微博崛起的時(shí)代,一切有關(guān)于微博的問題都被社會(huì)廣泛關(guān)注,并得到了工業(yè)界和學(xué)術(shù)界的高度重視。微博從出現(xiàn)以來,取得了良好的發(fā)展,并擁有大眾的普遍關(guān)注和應(yīng)用。微博的超大信息量和高速度的更新等,都是值得研究的話題。同時(shí),微博處理自然語言已經(jīng)成為當(dāng)前最新型和熱門的研究課題,而其中最值的探討的熱點(diǎn)課題就是中文微博情感分析。

      【關(guān)鍵詞】詞典 機(jī)器學(xué)習(xí) 中文微博 情感分析

      在當(dāng)前眾多社交網(wǎng)絡(luò)平臺(tái)中,微博以新型的信息發(fā)布手段具有重要的社會(huì)影響力。根據(jù)我國相關(guān)數(shù)據(jù)統(tǒng)計(jì)可以發(fā)現(xiàn),我國微博用戶使用量已經(jīng)高達(dá)3.5億,并處于逐年上升的趨勢(shì),占全國網(wǎng)絡(luò)居民中的百分之五十。微博情感分析是按照主觀傾向性將微博文本分為三類:第一是正向;第二是負(fù)向;第三是中性。

      1 情感的分析方法

      目前,主要通過兩種技術(shù)來對(duì)情感進(jìn)行分析。第一類是根據(jù)情感詞典來進(jìn)行,微博文本中所包含的正向情感詞和負(fù)向情感詞都通過情感詞典來進(jìn)行統(tǒng)計(jì)分析,而文本的情感極性則依靠所取得的差值來決定。第二類是機(jī)器學(xué)習(xí)的使用方法,對(duì)測(cè)試預(yù)料和訓(xùn)練詞進(jìn)行相關(guān)的標(biāo)注,再使用分類器對(duì)情感進(jìn)行分析,其中分類器包括有:

      (1)KNN;

      (2)最大熵;

      (3)支持向量機(jī)等。

      另外,Wang與相關(guān)研究人員對(duì)Twitter情感分析系統(tǒng)進(jìn)行了構(gòu)建,其能對(duì)相關(guān)評(píng)論信息的情感傾向性進(jìn)行較為實(shí)時(shí)的分析。Agarwal與相關(guān)人員通過對(duì)極性詞語的特征研究,對(duì)微博文本通過樹內(nèi)核模進(jìn)行了情感分類研究,其也獲得了一定的成績。Jiang及其成員對(duì)微博文本的情感分析使用了主題無關(guān)和主題相關(guān)的方式進(jìn)行了分類,一種是正向情感,一種是負(fù)向情感。

      與英文微博相比,中文微博具有很大差異,其中主題較為發(fā)散是中文微博的主要特點(diǎn),且內(nèi)容十分繁雜豐富,并與英文微博的行文習(xí)慣也有很大區(qū)別。因此,部分研究人員通過多種計(jì)算方法對(duì)微博的情感分析進(jìn)行了全方位的分析,其中所包括的算法有:

      (1)三種特征選擇方法;

      (2)三種及其學(xué)習(xí)算法;

      (3)三種特征權(quán)重計(jì)算方法,但該方法對(duì)微博文本的行文特點(diǎn)并沒有考慮到位,導(dǎo)致在整條微博中,微博表情符號(hào)直接影響了文本的情感極性。

      同時(shí),其他研究人員提出了微博情感分析的層次結(jié)構(gòu)分析方法,但由于表情符號(hào)的規(guī)則原因,其有了提高分類效果的作用,但卻使微博文本中的極性信息被忽視。由于中文微博主題發(fā)散和內(nèi)容簡短,以及不規(guī)范的用語和未登錄詞較多等問題,使中文微博文本目前的情感分析效果未取得一定的進(jìn)展。由于詞典方法和及其學(xué)習(xí)方法都存在各自的問題,針對(duì)中文微博的文本內(nèi)容簡短、口語化國多和主題不集中等特點(diǎn),提出了有關(guān)于結(jié)合詞典和機(jī)器學(xué)習(xí)的方法,以對(duì)中文微博情感進(jìn)行更為準(zhǔn)確的研究。

      2 基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析

      基于中文微博的特點(diǎn)研究,采用詞典與機(jī)器學(xué)習(xí)相結(jié)合的方式,進(jìn)一步分析研究中文微博文本的情感傾向性。

      2.1 特征降維

      經(jīng)過分析微博文本可以看出,其中的形容詞和動(dòng)詞是最主要的情感詞語,也能夠準(zhǔn)確反映文本情感的傾向性,所以特征的選擇應(yīng)當(dāng)主要以形容詞和動(dòng)詞為主。微博文本中所包含的所有形容詞和動(dòng)詞都被特征空間所集合包含,當(dāng)產(chǎn)生較大訓(xùn)練文本集時(shí),則具有非常高維數(shù)的特征空間。同時(shí),中文微博中還較頻繁出現(xiàn)表情符號(hào),并還含有多個(gè)詞或是十多個(gè)詞,使絕大多數(shù)維上的值在特征向量中顯示為0,導(dǎo)致數(shù)據(jù)稀疏性的問題出現(xiàn)在特征空間中,所以,必須使用降維來對(duì)特征空間進(jìn)行緩解。

      常用的特征降維方法有兩種:

      (1)特征選擇;

      (2)特征抽取。

      但特征抽取具有大計(jì)算量和儲(chǔ)存方面的問題,對(duì)于處理文本具有一定的局限。特征選擇在性能方面十分良好,通過特征降維的統(tǒng)計(jì)法后,依然出現(xiàn)特征空間的嚴(yán)重?cái)?shù)據(jù)稀疏性問題,則需進(jìn)一步對(duì)特征空間進(jìn)行降維操作。在聚類詞語方面,層次聚類算法具有明顯的作用。所以,可以采取統(tǒng)計(jì)法融合層次聚類算法的層次結(jié)構(gòu)來實(shí)現(xiàn)降維。特征選擇在進(jìn)行統(tǒng)計(jì)法后,可以對(duì)特征空間進(jìn)行初步的維數(shù)降低,并依靠層次聚類算法實(shí)現(xiàn)特征空間的有效降維,保證特征空間維數(shù)的進(jìn)一步降低,最終實(shí)現(xiàn)特征降維的有效目的。

      2.2 特征極性值

      中文微博中的修飾詞和情感詞所構(gòu)成的極性值短語為極性特征的極性值。絕對(duì)值越大的極性值,具有越強(qiáng)的情感極性,反之越小的絕對(duì)值,其情感極性越弱。在微博文本中可以出現(xiàn)很多次同一個(gè)極性特征,每出現(xiàn)一次,則極性副詞彼此之間都有不同的順序,也導(dǎo)致每次的極性值計(jì)算都有所差異。所以,該極性特征可以通過極性值的平均算數(shù)值來作為最終極性值。中文微博中的評(píng)論性所使用的符號(hào)表情,對(duì)于本人的立場和情感都有真實(shí)的反應(yīng)和重要作用,能使該條文本的情感極性進(jìn)一步增強(qiáng)。如果在微博文本中,正向極性特征的極性值在微博文本中得到加強(qiáng),那其正向表情符號(hào)肯定超過負(fù)向表情符號(hào)的有效數(shù)目。相反,如果負(fù)向極性特征的極性值出現(xiàn)減弱,則微博文本中的負(fù)向表情符號(hào)肯定大于正向表情符號(hào)的有效數(shù)目。中性特征的極性值在正常情況下應(yīng)當(dāng)為0,但為了實(shí)現(xiàn)和出現(xiàn)次數(shù)為0的特征項(xiàng)目進(jìn)行區(qū)別,可以對(duì)中性特征的極性值設(shè)置一個(gè)小的公式設(shè)計(jì)。

      3 結(jié)束語

      總之,本文對(duì)詞典與機(jī)器學(xué)習(xí)的中文微博情感分析方法進(jìn)行了探討,并根據(jù)中文微博的相關(guān)特點(diǎn),對(duì)層次結(jié)構(gòu)的降維方法進(jìn)行理論探討。同時(shí),隨著網(wǎng)絡(luò)信息的逐步發(fā)展,中文微博中還在不斷產(chǎn)生一些新鮮的詞匯,導(dǎo)致其無法被當(dāng)前的分詞系統(tǒng)進(jìn)行有效識(shí)別,對(duì)分類中文微博情感造成了一定的阻礙,所以,未來還應(yīng)不斷嘗試新的分類方法來對(duì)其進(jìn)行識(shí)別匹配。

      參考文獻(xiàn)

      [1]孫建旺,呂學(xué)強(qiáng),張雷瀚.基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014(07):177-181.

      [2]孫曉,葉嘉麒,龍潤田,任福繼.基于情感語義詞典與PAD模型的中文微博情感分析[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(04):580-587.

      [3]張慶慶,劉西林.基于機(jī)器學(xué)習(xí)的中文微博情感分類研究[J].未來與發(fā)展,2015(04):59-63.

      作者單位

      廣州大學(xué)計(jì)算機(jī)學(xué)院 廣東省廣州市 510006

      猜你喜歡
      情感分析機(jī)器學(xué)習(xí)詞典
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      評(píng)《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
      基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      在線評(píng)論情感屬性的動(dòng)態(tài)變化
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      江都市| 南漳县| 固镇县| 三明市| 兴山县| 宁海县| 固阳县| 当涂县| 财经| 琼海市| 邵阳市| 温州市| 海宁市| 马山县| 文成县| 文山县| 从江县| 无极县| 剑河县| 东乌珠穆沁旗| 漾濞| 南平市| 五家渠市| 招远市| 安庆市| 唐河县| 台江县| 高安市| 北流市| 上饶县| 师宗县| 德江县| 临邑县| 西安市| 三明市| 安庆市| 曲松县| 台南县| 澎湖县| 莫力| 中西区|