• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于支持向量機(jī)的消極性文本識(shí)別研究

      2017-04-26 22:10:58李軍高立群蔡翔
      電腦知識(shí)與技術(shù) 2017年6期
      關(guān)鍵詞:識(shí)別支持向量機(jī)

      李軍+高立群+蔡翔

      摘要:隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)地不斷發(fā)展,網(wǎng)民針對(duì)各種話題發(fā)出的博文、評(píng)論呈爆炸式增長(zhǎng)。該文針對(duì)各大網(wǎng)站產(chǎn)生的海量新聞、微博文及其評(píng)論信息,將網(wǎng)絡(luò)中海量的新聞、微博文及其評(píng)論轉(zhuǎn)變?yōu)槲谋拘畔⑦M(jìn)行分析,識(shí)別出其中的消極性信息,對(duì)于現(xiàn)代商業(yè)企業(yè)、政府輿情監(jiān)控具有較高應(yīng)用價(jià)值。

      關(guān)鍵詞:支持向量機(jī);消極性短文本;識(shí)別

      中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)06-0209-03

      隨著互聯(lián)網(wǎng)技術(shù)、特別是移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為了人們獲取信息,發(fā)表意見的新媒介。各類網(wǎng)絡(luò)論壇、新聞點(diǎn)評(píng)、微博等漸漸成為了網(wǎng)絡(luò)輿論重要力量,無處不在的網(wǎng)絡(luò),讓網(wǎng)民們可以極為容易地通過網(wǎng)絡(luò)發(fā)表自己的意見和觀點(diǎn),各種博文、評(píng)論呈爆炸式增長(zhǎng)。而在當(dāng)前的社會(huì)意識(shí)形態(tài)下,因不少網(wǎng)民熱衷于對(duì)消極性的,甚至帶有攻擊性、貶低性色彩的帖子進(jìn)行圍觀、轉(zhuǎn)發(fā)和評(píng)論,導(dǎo)致類似負(fù)面情緒主導(dǎo)輿論走勢(shì),產(chǎn)生了消極甚至惡劣的影響,所以對(duì)負(fù)面評(píng)論較正面或客觀性評(píng)論的識(shí)別在輿情導(dǎo)向中就顯得更為重要。

      在以往的研究中,人們主要針對(duì)網(wǎng)民的情感傾向進(jìn)行分類研究,也就是褒貶性進(jìn)行了計(jì)算和分析。而在實(shí)際的生活、工作、學(xué)習(xí)中,網(wǎng)民對(duì)某一事物進(jìn)行圍觀、轉(zhuǎn)發(fā)、探討以及尋求建議,往往更加注意到的是對(duì)該事物的消極性評(píng)價(jià)上,這種特點(diǎn)更加體現(xiàn)在購物和突發(fā)輿情事件上面。本文在不同的語言模型下提取文本特征,利用支持向量機(jī)分類方式,對(duì)消極性文本情感識(shí)別進(jìn)行了研究和對(duì)比,取得了一定的效果。

      1 相關(guān)工作研究

      情感分析,也稱為意見挖掘,是指通過計(jì)算技術(shù)對(duì)文本的主客觀性、觀點(diǎn)、情緒、極性的挖掘和分析,對(duì)說話者的情感傾向做出分類判斷。隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,人們?cè)絹碓饺菀祝苍絹碓节呌谠诰W(wǎng)絡(luò)上發(fā)表自己的觀點(diǎn)和意見,同時(shí),也越來越受到網(wǎng)絡(luò)上他人的觀點(diǎn)和意見的影響,這就決定了情感分析研究的重要現(xiàn)實(shí)意義。當(dāng)前,情感分析在網(wǎng)絡(luò)輿情監(jiān)測(cè)、企業(yè)營銷策略、突發(fā)事件檢測(cè)、經(jīng)濟(jì)分析預(yù)測(cè)等方面均有著較好應(yīng)用。在中文情感分析領(lǐng)域,涉及文本預(yù)處理、語言模型、文本分類等方面工作。

      1.1 文本預(yù)處理

      文本預(yù)處理是為了提取文本中對(duì)于情感文本分類有價(jià)值的信息因素。首先,中文不像英文,詞與詞之間有用空格符號(hào)進(jìn)行分隔,而是一個(gè)句子與另一個(gè)的句子之間才有標(biāo)點(diǎn)符號(hào)進(jìn)行間隔。這樣就需要將本是一個(gè)個(gè)句子的文本處理成為一個(gè)個(gè)詞或者詞組,因此,在各項(xiàng)處理前,首先要對(duì)文本進(jìn)行分詞。其次,文本中經(jīng)常性地含有大量人名、地名、時(shí)間、助動(dòng)詞等詞語,這些詞語不僅與情感分析無關(guān),還會(huì)提高情感分析的維度,致使分類的復(fù)雜度提高,而且還會(huì)嚴(yán)重影響分類的效果。文獻(xiàn)[1] 專門對(duì)適應(yīng)不同領(lǐng)域的中文分詞方法進(jìn)行了研究,對(duì)不同專業(yè)領(lǐng)域分詞起了較好領(lǐng)路作用。

      目前,分詞技術(shù)有基于詞典匹配、統(tǒng)計(jì)分析和語義分析三類?;谠~典匹配是使用已有或者自建的情感詞典,采取正/逆向最大匹配方式與詞典中的詞條進(jìn)行逐條匹配,匹配成功就認(rèn)為是一個(gè)詞,但是,當(dāng)文本中有新的情感詞語出現(xiàn)時(shí)不能很好識(shí)別。統(tǒng)計(jì)分析的方法是基于統(tǒng)計(jì)相鄰漢字出現(xiàn)的次數(shù),次數(shù)越多,說明它們是詞的可能性就更大,這就有效地避免了基于詞典匹配帶來的弊端。常用的分詞系統(tǒng)中科院的ICTCLAS分詞系統(tǒng),清華大 學(xué)的SEGATG中文分詞系統(tǒng),復(fù)旦大學(xué)的中文分詞系統(tǒng),哈爾濱工業(yè)大學(xué)的 統(tǒng)計(jì)分詞系統(tǒng),微軟公司漢語句法分析器中的自動(dòng)分詞系統(tǒng)等。

      1.2 語言模型

      詞袋模型(Bag of Words)和詞向量模型(Word Embedding)是自然語言和文本分析中最為常見的兩種模型。詞袋模型是假定一個(gè)文本,不顧詞的順序和語法結(jié)構(gòu),僅僅將其視為是詞的集合,將每一個(gè)詞都看成是獨(dú)立的出現(xiàn),而不是依賴于其他詞是否出現(xiàn)。這種假設(shè)將文本有效地進(jìn)行了簡(jiǎn)化,便于模型化處理。詞向量模型則是文本中的詞語處理為向量,然后將所有向量置于一起形成一個(gè)向量空間,每一個(gè)向量視為空間中的一個(gè)點(diǎn),這時(shí),在空間中加上“距離”這個(gè)概念,這樣就可以計(jì)算向量間的相似度來衡量文本之間的相似度。下面,對(duì)本文使用到的詞袋模型中的詞頻TF(Term Frequency)、詞頻—逆向文檔頻率TF—IDF(Inverse Document Frequency)和詞向量模型中的doc2vec特征提取辦法進(jìn)行闡述。

      1.2.1 詞頻TF

      詞頻TF是一種常見的、但比較簡(jiǎn)單的權(quán)重計(jì)算方法,其思想是統(tǒng)計(jì)詞語在文本中出現(xiàn)的頻數(shù),如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻數(shù)高,TF越大,而在其他文章中卻出現(xiàn)不多,則認(rèn)為該詞語具有很好的類別區(qū)分能力。

      對(duì)于某一文檔dj來說,假設(shè)文檔中某一特定詞語wi共出現(xiàn)了n次,則該詞語對(duì)于文檔區(qū)分的重要性為:

      ni,j指wi在文檔dj出現(xiàn)的次數(shù),則表示文檔中所有詞出現(xiàn)次數(shù)之和。

      逆向文檔頻率(IDF) 的思想是統(tǒng)計(jì)出現(xiàn)詞語出現(xiàn)在文本中的頻率,如果包含某詞語的文檔越少, IDF越大,則說明該詞語具有很好的類別區(qū)分能力。

      假定整個(gè)文本庫的文本總數(shù)為N,出現(xiàn)了某一詞語的文檔數(shù)目為nk,則該詞的IDF值計(jì)算如下:

      為了避免nk為零時(shí),導(dǎo)致以上式子分母為零,所以引入一個(gè)常數(shù)λ。

      以上面文檔d1,d2為例,此時(shí)文檔僅為2,為了避免出現(xiàn)負(fù)數(shù),在分子中加入一個(gè)常數(shù),得到每個(gè)詞的idf值為:A:0.4,B:0.4,C:0.4,D:1.1,E:0.4,F(xiàn):0.4,G:0.4。

      結(jié)合前面的TF和IDF,TF-IDF公式為:

      以上d1,d2tfidf值如下:

      d1 [0.032,0.032,0.032,0.044,0.64,0.032,0.032],

      d2 [0.016,0.032,0.016,0,0.048,0.016,0.032]。

      由此可以看出,在某一文檔中的高詞語頻率,如果該詞語又在整個(gè)文檔庫中的低文檔頻率,則該詞語可以產(chǎn)生高權(quán)重的TF-IDF。

      1.2.3 doc2vec的詞向量

      doc2vec實(shí)際是基于Word2vec思想的算法,Word2Vec使用了兩種方法,連續(xù)詞袋CBOW (Continuous Bag of Words)和Skip-gram。在CBOW方法中,通過某個(gè)詞的上下文經(jīng)過模型預(yù)測(cè)該詞,而在Skip-gram方法則是用給定的詞來預(yù)測(cè)其周邊的詞。在訓(xùn)練前,每一個(gè)詞都會(huì)首先初始化為一個(gè)N維的向量,訓(xùn)練過程中,會(huì)對(duì)輸入的向量進(jìn)行反饋更新,在進(jìn)行大量語料訓(xùn)練之后,便可得到每一個(gè)詞相對(duì)應(yīng)的訓(xùn)練向量。doc2vec與其類似,它分為DM (Distributed Memory)和DBOW (Distributed Bag of Words),它在此基礎(chǔ)上將文本作為一個(gè)特殊的token id引入訓(xùn)練語料中,也就是對(duì)文本也配置了向量,并在訓(xùn)練中進(jìn)行更新。

      1.3 分類器選擇

      對(duì)于文本情感分析的研究,主要思路有基于語義的情感詞典方法和基于機(jī)器的學(xué)習(xí)的方法?;谡Z義的情感詞典方法較為簡(jiǎn)單,主要通過情感知識(shí)來對(duì)微博文本進(jìn)行情感分析。文獻(xiàn)[1]根據(jù)語義分析的方法,構(gòu)建語境歧義詞搭配詞典,進(jìn)而利用該詞典對(duì)句子進(jìn)行情感傾向性分析。基于機(jī)器學(xué)習(xí)的方法較為常見的有基于樸素貝葉斯、基于最大熵值、基于支持向量機(jī)、K最近鄰分類和條件隨機(jī)場(chǎng)等方法。Pang[2]在2002年就使用支持向量機(jī)、最大熵和樸素貝葉斯3種分類器對(duì)篇章級(jí)別電影評(píng)論文本進(jìn)行分類對(duì)比,發(fā)現(xiàn)機(jī)器學(xué)習(xí)方法比基于人工標(biāo)注特征的方法更有效,并且SVM在3種分類器中平均表現(xiàn)最好。文獻(xiàn)[3]使用了多種特征提取、量化方法,用不同機(jī)器學(xué)習(xí)模型對(duì)微博進(jìn)行分析,實(shí)驗(yàn)表明采用SVM分類模型、信息增益特征提取以及TF-IDF量化權(quán)重的方式對(duì)微博的情感分類效果最好。本文以樸素貝葉斯作為baseline,使用支持向量機(jī)(SVM)的分類方法進(jìn)行實(shí)驗(yàn)。

      支持向量機(jī)(SVM)是Vapnik[3]等在多年研究統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上于1995年對(duì)線性分類器提出的一種設(shè)計(jì)最佳準(zhǔn)則,是一種能夠解決小樣本模式識(shí)別的十分有效的方法,其基本思想是尋找一個(gè)超平面作為兩類訓(xùn)練樣本點(diǎn)的分割,以保證最小的分類錯(cuò)誤率。在線性可分的情況下,存在一個(gè)或多個(gè)超平面使得訓(xùn)練樣本完全分開,SVM的目標(biāo)是找到其中的最優(yōu)超平面。

      假設(shè)有訓(xùn)練樣本集合{ x[i] , y[i]} , i = 1 ,2,3 , …, n ,{ x[i]} ∈ Rn 由兩類點(diǎn)組成, 如果x[i]屬于第1類, 則y[i] = 1 , 如果x[i]屬于第2類, 則y[i] = -1。所要求的用來分割的超平面方程w便可以表示成:

      與以上1/-1分類相對(duì)應(yīng)的,Logistic回歸的目的是從特征中學(xué)習(xí)到一個(gè)0/1,只是因?yàn)槠鋵⑻匦缘慕M合作為自變量,取值范圍是從負(fù)無窮到正無窮。此時(shí),使用Logistic函數(shù)將自變量映射到(0,1)上,由此得到的值就是屬于y=1的概率,設(shè)x為n維特征向量,函數(shù)g為L(zhǎng)ogistic函數(shù),表示如下:

      當(dāng)g函數(shù)為一元變量時(shí),它就將(-∞,+∞)映射到了(0,1),則有:

      此時(shí),需要對(duì)一個(gè)新來的數(shù)據(jù)進(jìn)入分類判定時(shí),只要求hθ是否是大于0.5即可。

      在前面的超平面構(gòu)建中,需要將-1/1替換Logistic中的0/1,并將θ換成w和b。這樣,,更進(jìn)一步,則得到:

      2 實(shí)驗(yàn)結(jié)果及分析

      本文實(shí)驗(yàn)環(huán)境為:python3+sklearn+gensim+nltk,語料來源為5001條賓館住宿評(píng)論語料,其中正面語料2774條,負(fù)面語料2227條,測(cè)試樣本與訓(xùn)練樣本比例為7/22。用當(dāng)前流行的jieba分詞系統(tǒng)對(duì)語料進(jìn)行分詞和去停用詞,以貝葉斯分類器為baseline,分別使用TF、TF—IDF和doc2vec特征選擇加支持向量機(jī)分類器的方法進(jìn)行實(shí)驗(yàn),設(shè)置以下評(píng)價(jià)指標(biāo)如下:

      TP:正確識(shí)別消極性文本數(shù);FP:錯(cuò)誤識(shí)別消極性文本數(shù);

      TN:正確識(shí)別正面/客觀性文本數(shù);FN:錯(cuò)誤識(shí)別正面/客觀性文本數(shù);

      從實(shí)驗(yàn)結(jié)果來看,tf-idf+svm的效果最好。首先,相對(duì)于tf+svm方法,它多引進(jìn)行了逆向文檔頻率作為特征,使得召回率增大,雖然對(duì)精確率有一點(diǎn)點(diǎn)影響,但很明顯,影響極小。其次,單獨(dú)的樸素貝葉斯分類器在分類中的精確率最高,但召回率明顯偏低,這很大程度上因?yàn)槠錀l件獨(dú)立假設(shè),丟棄了詞與詞之間的相互信息,還有就是訓(xùn)練樣本的偏少,導(dǎo)致測(cè)試樣本中的部分特征詞語在訓(xùn)練樣本中沒有出現(xiàn)。第三,同樣存在召回率低的還有doc2vec+svm方法,主要是doc2vec為了降低復(fù)雜度,對(duì)原有特征空間進(jìn)行了壓縮,在此過程就很有可能出現(xiàn)特征信息的損失,加上線性不可分和樣本量不足,導(dǎo)致了召回率以及F1值和準(zhǔn)確率均不高。

      參考文獻(xiàn):

      [1] 修馳.適用于不同領(lǐng)域的中文分詞方法研究與實(shí)現(xiàn)[D].北京:北京工業(yè)大學(xué),2013.

      [2] 宋艷雪,張紹武,林鴻飛.基丁.語境歧義詞的句子情感傾向性分[J].中文信息學(xué)報(bào),2012,26(3): 38-43.

      [3] 劉志明,劉魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,2012, 48 (1) : 1-4.

      [4] Pang Bo, Lee L.Shivakumar Vaithyanathan. Sentiment Classification using Machine Learning Techniques[C]. the 2002 Conference on Empirical Methods in Natural Language Processing,2002:79-86.

      [5] Corte C, Vapnik V. Suport Vector Netwoks [M] . Machine Learning, 1995(20):273-297.

      猜你喜歡
      識(shí)別支持向量機(jī)
      基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
      基于SVM的煙草銷售量預(yù)測(cè)
      動(dòng)態(tài)場(chǎng)景中的視覺目標(biāo)識(shí)別方法分析
      論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
      法學(xué)意義上的弱者識(shí)別問題研究
      基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
      淺談哈密瓜病蟲害的防治措施
      蘋果樹常見病蟲害防治技術(shù)
      青島市中山公園園林樹木易混淆品種識(shí)別
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      囊谦县| 科技| 通城县| 游戏| 梁山县| 东明县| 阿城市| 梧州市| 黔西县| 彭阳县| 柳江县| 福建省| 宜春市| 河南省| 蒲江县| 美姑县| 松阳县| 呼玛县| 来安县| 许昌市| 沅陵县| 曲阜市| 罗定市| 龙川县| 曲阜市| 福海县| 吉林省| 荆州市| 青冈县| 屏东市| 承德市| 从化市| 正阳县| 德令哈市| 新竹市| 柞水县| 文安县| 隆昌县| 三原县| 玉山县| 峨眉山市|