• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多特征組合的SVM新聞文本情感分析

      2018-02-05 09:02:53張錦鋒重慶郵電大學(xué)通信與信息工程學(xué)院
      數(shù)碼世界 2018年1期
      關(guān)鍵詞:副詞準(zhǔn)確率向量

      張錦鋒 重慶郵電大學(xué)通信與信息工程學(xué)院

      1 基于詞向量的情感詞典擴(kuò)充方法

      谷歌公司開發(fā)的Word2vec是一款主流的開源Deep Learning學(xué)習(xí)工具[1-2]。該工具可以將詞語(yǔ)轉(zhuǎn)化為向量,利用深度學(xué)習(xí)的方法,將輸入的文本內(nèi)容轉(zhuǎn)化為M維向量空間中的向量運(yùn)算,通過(guò)訓(xùn)練,輸出為詞匯向量的集合,文本語(yǔ)義上的相似度表示向量空間上的相似度。通過(guò)處理之后的向量能夠進(jìn)行自然語(yǔ)言處理相關(guān)的研究,本文利用詞向量計(jì)算未知情感詞和來(lái)自Sentiwordnet情感詞典的情感詞匯的余弦值來(lái)判斷其情感得極性,從而來(lái)擴(kuò)充情感詞典。

      2 基于特征組合的SVM文本情感分析

      2.1 文本預(yù)處理

      文本預(yù)處理主要是對(duì)文本進(jìn)行分詞,剔除情感色彩不明顯的虛詞,并對(duì)文本詞性標(biāo)注,從而使得計(jì)算機(jī)能夠識(shí)別文本。文本預(yù)處理主要涉及文本分詞、停用詞處理以及詞性標(biāo)注等操作。英文中單詞之間是以空格或者標(biāo)點(diǎn)符號(hào)分割的,利用腳本語(yǔ)言Python同時(shí)調(diào)用開源工具NLTK易于實(shí)現(xiàn)英文文本中的分詞以及詞性標(biāo)注。

      2.2 文本表示模型

      本文選擇向量空間模型(VectorSpaceModel)。VSM基本思想是將文本文檔看成由一組有區(qū)分文本情感類別能力的詞或者短語(yǔ)特征項(xiàng)構(gòu)成,每個(gè)特征項(xiàng)的權(quán)重是根據(jù)該特征對(duì)文檔情感分類的重要程度計(jì)算而來(lái)的。例如向量空間中表示文本d的一個(gè)n維向量如公式(1)所示。

      2.3 特征提取與特征選擇

      文本特征被認(rèn)為是文本表示時(shí)可處理的最小單位。特征提取的優(yōu)劣間接影響到分類模型的分類效果,為了最終訓(xùn)練一個(gè)性能好的SVM模型,本文選提取文本特征包括bigram、情感詞、POS、否定詞、程度副詞以及特殊標(biāo)點(diǎn)符號(hào)。

      特征選擇就是從原始特征項(xiàng)中選出可以用盡量少數(shù)目、能最大化的表示文本信息而且盡可能區(qū)別于其他類別文本的特征項(xiàng)。本文選擇卡方檢驗(yàn)(CHI)表征特征與類別的相關(guān)度。

      2.4 支持向量機(jī)(SVM)分類算法

      Mullen和Collier[3]基于短語(yǔ)語(yǔ)義傾向性信息、形容詞、文本主題知識(shí)等多種信息源,采用支持向量機(jī)模型對(duì)電影評(píng)論進(jìn)行情感分類。Gamon[4]利用對(duì)數(shù)似然比進(jìn)行特征選擇,使用支持向量機(jī)模型對(duì)顧客反饋數(shù)據(jù)進(jìn)行情感分析。

      支持向量機(jī)算法(Support Vector Machines, SVM)是一種二類分類模型。支持向量機(jī)的學(xué)習(xí)策略就是最大間隔化,可形式化為一個(gè)求解凸二次規(guī)劃的問(wèn)題,也等價(jià)于正則化的合頁(yè)損失函數(shù)的最小化問(wèn)題。為了描述的便利,本部分只考慮二分類問(wèn)題,如圖1所示,存在分類面(H1、H2)可將兩類數(shù)據(jù)分開,距離訓(xùn)練數(shù)據(jù)最遠(yuǎn)的分類面被SVM認(rèn)為是最優(yōu)分類面(H),該最遠(yuǎn)距離稱為幾何間隔(Margin),支持向量就是距離最優(yōu)分類面最近的點(diǎn)(圖1中顏色較深的點(diǎn))。

      圖1 支持向量機(jī)原理圖

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 評(píng)價(jià)指標(biāo)

      本次實(shí)驗(yàn)使用信息檢索領(lǐng)域的準(zhǔn)確率P[5]作為為評(píng)價(jià)指標(biāo),針對(duì)分類問(wèn)題中的各類分別計(jì)算,從而來(lái)驗(yàn)證實(shí)驗(yàn)效果。計(jì)算公式如下:

      其中a表示正確判斷為積極評(píng)論的數(shù)量,b表示將消極評(píng)論誤判為積極評(píng)論的數(shù)量。

      3.2 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備

      本文利用網(wǎng)絡(luò)爬蟲從來(lái)自VOA(VoiceOfAmerican)、BB C(BritishBroadcastingCorporation)網(wǎng)站抓取新聞文本評(píng)論經(jīng)過(guò)清洗后作為實(shí)驗(yàn)數(shù)據(jù),干凈的新聞文本評(píng)論數(shù)據(jù)共計(jì)24000條,其中積極評(píng)論數(shù)量和消極評(píng)論數(shù)量各占一半。本文從兩萬(wàn)多條數(shù)據(jù)中選取20000條評(píng)論數(shù)據(jù)作為訓(xùn)練集,4000條評(píng)論數(shù)據(jù)作為測(cè)試集。

      本文積極評(píng)論和消極評(píng)論的樣本數(shù)量相等,訓(xùn)練數(shù)據(jù)樣本是均衡的,這樣訓(xùn)練出來(lái)的模型比較有說(shuō)服力。當(dāng)輸入的積極和消極樣本數(shù)量不平衡,容易導(dǎo)致模型分類到其中一個(gè)類別的概率較大,如此模型的分類性能指標(biāo)偏差。

      3.3 實(shí)驗(yàn)結(jié)果分析

      由于程度副詞、否定詞和標(biāo)點(diǎn)符號(hào)單獨(dú)作為分類模型的特征沒(méi)有實(shí)際的意義,所以需要和情感詞搭配起來(lái)使用。

      說(shuō)明:特征1:詞性

      特征2:情感詞

      特征3:POS+情感詞

      特征4:POS+情感詞+bigram

      特征5:POS+情感詞+bigram+否定詞

      特征6:POS+情感詞+bigram+否定詞+程度副詞

      特征7:POS+情感詞+bigram+否定詞+標(biāo)點(diǎn)符號(hào)

      作為對(duì)比試驗(yàn),該實(shí)驗(yàn)測(cè)試SVM(SVC、LinearSVC、NuSVC)、樸素貝葉斯 NB(BernoulliNB、MultinomiaNB)和邏輯斯蒂回歸(LogisticRegression)三類五種經(jīng)典機(jī)器學(xué)習(xí)方法對(duì)文本情感分類性能的影響,使用CHI特征選擇方法。實(shí)驗(yàn)如表1所示。

      表1 不同分類器在不同特征組合下的分類準(zhǔn)確率

      由表1可知,特征6即詞性、情感詞、bigram、否定詞和程度副詞的組合特征作為分類的特征時(shí),分類效果最好,其中NuSVC的分類準(zhǔn)確率達(dá)到87.92。分析7個(gè)特征可知,其中情感詞的作用最大,對(duì)于NuSVC基于特征1分類準(zhǔn)確率提高了22.63%,其次,詞性特征使得準(zhǔn)確率提高了2.27%,bigram特征使準(zhǔn)確率提高了7.14%,否定詞對(duì)分類效果也起到一定的作用,使分類準(zhǔn)確率提高了0.91%,程度副詞同樣有一定效果,分類準(zhǔn)確率提高了0.42%,然而作為特征的特殊符號(hào),使得分類準(zhǔn)確率稍微有些下降,說(shuō)明特殊符號(hào)不適合作為SVM分類模型的特征。

      4 總結(jié)

      本文提出的基于機(jī)器學(xué)習(xí)算法SVM結(jié)合擴(kuò)充情感詞典,多特征的組合包括POS、情感詞、bigram、否定詞、程度副詞等語(yǔ)言學(xué)知識(shí),使用VOA、BBC新聞評(píng)論語(yǔ)料,通過(guò)組合特征訓(xùn)練文本情感分類模型,進(jìn)行新聞評(píng)論文本情感分類模型的性能評(píng)估,從而驗(yàn)證組合特征分類性能。試驗(yàn)表明組合特征6使SVM分類較其他算法在分類準(zhǔn)確率上有一定的優(yōu)勢(shì),準(zhǔn)確率達(dá)到87.92%。

      [1]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[C].Proceedings of Workshop at International Conference on Learning Representations, 2013.

      [2]Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.

      [3]Mullen, T., and Collier, N. Sentiment analysis using support vector machines with diverse information sources.In Proceedings of EMNLP. 2004, 4: 412-418.

      [4]Gamon, M. Sentiment classification on customer feedback data: noisy data, large feature vectors, and the role of linguistic analysis. In Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics, 2004.

      [5]Kumar S, Gupta P. Comparative analysis of intersection algorithms on queries using precision, recall and f-score[J].International Journal of Computer Applications, 2015,130(7): 28-36.

      猜你喜歡
      副詞準(zhǔn)確率向量
      The Wheels on the Bus
      向量的分解
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      副詞“好容易”及其詞匯化成因
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      聚焦“向量與三角”創(chuàng)新題
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      宁陵县| 隆化县| 沅陵县| 昔阳县| 平阴县| 高尔夫| 虎林市| 那坡县| 丹寨县| 通道| 山丹县| 大田县| 庄河市| 澄城县| 九江市| 万荣县| 山丹县| 泸州市| 来凤县| 城市| 无棣县| 西贡区| 内黄县| 玉门市| 怀安县| 济阳县| 福州市| 耿马| 信宜市| 酉阳| 浙江省| 广安市| 屏东市| 滁州市| 揭东县| 金堂县| 宜昌市| 社会| 新竹县| 慈利县| 鹿邑县|